SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует историю поиска, поведение и многофакторные профили пользователей для персонализации поисковой выдачи

PERSONALIZATION OF WEB SEARCH RESULTS USING TERM, CATEGORY, AND LINK-BASED USER PROFILES (Персонализация результатов веб-поиска с использованием профилей пользователя на основе терминов, категорий и ссылок)
  • US9298777B2
  • Google LLC
  • 2013-01-07
  • 2016-03-29
  • Персонализация
  • Поведенческие сигналы
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google создает детальные профили пользователей на основе истории запросов, взаимодействия с результатами (клики, время просмотра) и анализа контента посещенных страниц. Эти профили (включающие интересы по терминам, категориям и ссылкам) используются для корректировки стандартных оценок ранжирования. Степень персонализации динамически регулируется уровнем уверенности системы в профиле (Confidence Score).

Описание

Какую проблему решает

Патент решает проблему статичности и универсальности поисковой выдачи. Традиционные алгоритмы (например, основанные на PageRank) предполагают абстрактного «случайного пользователя» и возвращают одинаковые результаты для всех по одному и тому же запросу. Это неэффективно, когда интересы конкретного пользователя значительно отличаются от среднего или когда запрос неоднозначен. Изобретение направлено на адаптацию результатов поиска под индивидуальные предпочтения пользователя.

Что запатентовано

Запатентована система и метод создания многоаспектного профиля пользователя (User Profile) и его использования для персонализации результатов поиска. Профиль строится на основе неявных данных: истории запросов, взаимодействия пользователя с результатами и анализа контента посещенных страниц. Профиль включает три ключевых компонента: термины (Term-based), категории (Category-based) и ссылки (Link-based). Система использует этот профиль для модификации стандартных оценок ранжирования (Generic Score) и пересортировки выдачи.

Как это работает

Система функционирует следующим образом:

  • Сбор данных: Мониторинг действий пользователя (запросы, клики, время просмотра, скроллинг).
  • Анализ контента: Использование методов Paragraph Sampling (выборка значимого текста из длинных абзацев) и Context Analysis (анализ контекста для выявления важных терминов) на посещенных страницах.
  • Построение профиля: Создание взвешенных списков терминов, категорий и ссылок (URL/хостов/доменов), интересующих пользователя.
  • Ранжирование: При получении нового запроса система вычисляет стандартные Generic Scores. Затем вычисляются Profile Ranks (насколько документы соответствуют профилю).
  • Персонализация: Generic Scores и Profile Ranks объединяются в Personalized Score.
  • Адаптация (Confidence Score): Система рассчитывает уровень уверенности в профиле (ProfileConfidence). Итоговый ранг (FinalScore) взвешивает персонализированную и генерическую оценки на основе этого уровня уверенности. Выдача также может смешивать (Interleave) персонализированные и генерические результаты в пропорции, зависящей от уверенности.

Актуальность для SEO

Чрезвычайно высокая. Персонализация является фундаментальным аспектом современного поиска Google. Хотя конкретные алгоритмы машинного обучения, используемые сегодня для профилирования, вероятно, ушли далеко вперед от описанных методов, заложенные в патенте принципы — многофакторное профилирование на основе поведения и адаптивное ранжирование с учетом уверенности — остаются ядром поисковой системы.

Важность для SEO

Патент имеет критическое значение (10/10) для понимания SEO. Он формализует переход от оптимизации под запросы к оптимизации под аудиторию и её долгосрочные интересы. Для SEO-специалистов это означает, что не существует универсального «ТОП-10». Видимость сайта напрямую зависит от того, насколько его контент соответствует профилям интересов целевых пользователей. Понимание механизмов профилирования и влияния поведенческих факторов на будущие результаты поиска становится обязательным.

Детальный разбор

Термины и определения

User Profile (Профиль пользователя)
Структура данных, характеризующая интересы и предпочтения пользователя. Создается на основе анализа его прошлых поисковых активностей и взаимодействия с контентом.
Term-based Profile (Профиль на основе терминов)
Компонент профиля, состоящий из списка терминов (n-грамм), важных для пользователя, с соответствующими весами (могут быть отрицательными).
Category-based Profile (Профиль на основе категорий)
Компонент профиля, связывающий интересы пользователя с набором категорий (например, иерархией тем, форматов документов или типов источников), с соответствующими весами.
Link-based Profile (Профиль на основе ссылок)
Компонент профиля, содержащий список предпочитаемых URL, хостов или доменов с весами, основанными на частоте посещений и взаимодействии.
Generic Score/Rank (Генерическая оценка/Ранг)
Стандартная оценка релевантности документа запросу, не зависящая от профиля пользователя (например, на основе PageRank и текстовой релевантности).
Profile Rank (Ранг профиля)
Оценка, показывающая релевантность документа профилю пользователя (например, TermScore, CategoryScore, LinkScore).
Personalized Rank/Score (Персонализированный ранг/Оценка)
Оценка, полученная путем объединения Generic Score и Profile Rank.
Paragraph Sampling (Выборка по абзацам)
Метод извлечения значимого контента из документа путем анализа длинных абзацев и игнорирования короткого или шаблонного текста (boilerplate).
Context Analysis (Анализ контекста)
Двухфазный процесс (обучение и операция) для выявления контекстных шаблонов (префиксов/постфиксов), которые предсказывают важные термины в документе.
ProfileConfidence / Confidence Score (Уровень уверенности в профиле)
Метрика, определяющая степень доверия системы к профилю пользователя. Учитывает объем собранных данных, возраст профиля и соответствие текущего запроса профилю. Используется для взвешивания влияния персонализации и определения пропорции смешивания результатов.
Final Score (Итоговая оценка)
Конечная оценка документа, используемая для ранжирования. Является функцией Personalized Score, Generic Score и Confidence Score.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод персонализированного поиска с учетом уверенности.

  1. Доступ к профилю пользователя.
  2. Получение запроса.
  3. Получение результатов поиска с Generic Score (независимыми от профиля).
  4. Определение Personalized Score для документов на основе профиля.
  5. Определение Final Score для каждого документа как функции Personalized Score, Generic Score и Confidence Score. Confidence Score учитывает объем информации о пользователе, соответствие запроса профилю и/или возраст профиля.
  6. Предоставление результатов в соответствии с Final Scores.
  7. Обновление профиля на основе запросов и выбранных пользователем документов.

Ключевой аспект Claim 1 (последняя часть): Предоставление результатов включает показ части результатов на основе Personalized Score и другой части на основе Generic Scores (независимо от профиля). Соотношение (ratio) между количеством персонализированных и генерических результатов определяется на основе Confidence Score.

Claim 2 (Зависимый от 1): Уточняет расчет Final Score. Определение Final Score включает взвешивание как Personalized Score, так и Generic Score в соответствии с Confidence Score.

Claims 3, 4, 5 (Зависимые от 1): Определяют состав профиля пользователя. Он может включать взвешенные термины (Claim 3), взвешенные категории (Claim 4) или взвешенные ссылки (Claim 5).

Claim 6 (Зависимый от 1): Уточняет механизм обновления профиля. Обновление включает идентификацию контекста важных терминов в выбранных пользователем документах путем применения context patterns (контекстных шаблонов), что соответствует методу Context Analysis.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, интегрируя данные о пользователе в процесс ранжирования.

INDEXING / QUNDERSTANDING (Генерация профилей)
Система постоянно или периодически обрабатывает логи поведения пользователей для построения и обновления User Profiles. На этом этапе применяются методы Paragraph Sampling и Context Analysis к контенту, с которым взаимодействовал пользователь.

QUNDERSTANDING – Понимание Запросов (Альтернативный вариант)
В одном из вариантов реализации (FIG. 9B) профиль пользователя используется для модификации исходного запроса и создания Personalized Query Strategy (например, путем добавления взвешенных терминов из профиля) до выполнения поиска.

RANKING – Ранжирование
На этом этапе вычисляются стандартные Generic Scores, не зависящие от пользователя.

RERANKING – Переранживание / METASEARCH – Смешивание
Основной этап применения патента (FIG. 9A и Claim 1). Система извлекает User Profile и вычисляет Confidence Score. Затем для набора кандидатов рассчитываются Profile Ranks и Personalized Score. Система вычисляет Final Score, используя Confidence Score для взвешивания. На этом же этапе происходит смешивание (Interleaving) персонализированных и генерических результатов в пропорции, зависящей от Confidence Score.

Входные данные:

  • Запрос пользователя и его идентификатор.
  • User Profile (Term, Category, Link-based).
  • Набор документов-кандидатов с их Generic Scores.

Выходные данные:

  • Отсортированный список результатов поиска, где порядок основан на Final Scores, включающий смесь персонализированных и генерических результатов.

На что влияет

  • Специфические запросы: Наибольшее влияние оказывается на неоднозначные запросы (например, "apple", "jaguar", "blackberry"), где профиль пользователя помогает уточнить интент. Также влияет на широкие информационные запросы, где профиль помогает выделить интересующие пользователя аспекты темы.
  • Конкретные типы контента: Влияет на все типы контента. Патент упоминает возможность профилирования по форматам (HTML, PDF) и типам документов (домашняя страница, статья).
  • Географические факторы: Географическая информация (явно предоставленная или выведенная) может быть частью профиля и использоваться для интерпретации локальных запросов.

Когда применяется

  • Условия применения: Алгоритм применяется, когда система может идентифицировать пользователя и получить доступ к его профилю.
  • Триггеры активации и пороговые значения: Интенсивность применения персонализации регулируется Confidence Score. Если уверенность низкая (например, мало данных о пользователе, профиль устарел или запрос не соответствует профилю), влияние Personalized Score снижается, а влияние Generic Score увеличивается. Также увеличивается доля генерических результатов в выдаче.

Пошаговый алгоритм

Процесс А: Персонализированное ранжирование (на основе FIG. 9A и Claim 1)

  1. Получение запроса и идентификация пользователя: Система получает запрос и определяет пользователя.
  2. Генерация генерических результатов: Выполняется стандартный поиск, идентифицируются документы и рассчитываются их Generic Scores.
  3. Получение профиля и расчет уверенности: Извлекается User Profile и рассчитывается Confidence Score.
  4. Расчет оценок профиля: Для каждого документа-кандидата определяется его соответствие профилю (TermScore, CategoryScore, LinkScore) и рассчитывается Personalized Score.
  5. Расчет итоговой оценки (Final Score): Вычисляется итоговая оценка с учетом уверенности. Например, по формуле: FinalScore=PersonalizedScore∗ProfileConfidence+GenericScore∗(1−ProfileConfidence)FinalScore = PersonalizedScore * ProfileConfidence + GenericScore * (1 - ProfileConfidence).
  6. Формирование выдачи и смешивание: Документы сортируются по Final Score. Система также может чередовать (interleave) персонализированные и генерические результаты, причем пропорция смешивания определяется Confidence Score (Claim 1).
  7. Мониторинг и обновление: Отслеживается взаимодействие пользователя с результатами для последующего обновления профиля.

Процесс Б: Построение профиля (Фоновый/Непрерывный)

  1. Сбор данных о взаимодействии: Фиксация запросов, посещенных URL и метрик взаимодействия (время, скроллинг, сохранение, печать).
  2. Извлечение контента (Paragraph Sampling): Из посещенных документов удаляется шум (скрипты, стили). Извлекается текст из абзацев, превышающих пороговую длину (MinParagraphLength). При недостатке контента добавляются заголовки, ALT-теги, мета-теги.
  3. Идентификация терминов (Context Analysis): К извлеченному контенту применяются заранее обученные контекстные шаблоны (префиксы/постфиксы) для выявления важных терминов и их весов.
  4. Классификация: Термины и контент используются для определения релевантных категорий и ссылок (URL/хосты/домены).
  5. Обновление профиля: Новые данные объединяются с существующим профилем. Веса старых данных могут понижаться (устаревание). Происходит прунинг (удаление) элементов с низким весом.

Какие данные и как использует

Данные на входе

Система использует широкий спектр данных для построения профиля (FIG. 2):

  • Поведенческие факторы: Предыдущие поисковые запросы (201). URL, идентифицированные и посещенные в предыдущих поисках (203). Активности пользователя на посещенных документах (209): время просмотра (Dwell Time), активность скроллинга, печать, сохранение, добавление в закладки.
  • Контентные факторы: Выборочный контент из посещенных документов (211), извлеченный с помощью Paragraph Sampling. Заголовки (Title), мета-теги, ALT-теги.
  • Ссылочные факторы: Анкорный текст ссылок, ведущих на посещенные документы (205). Сами URL, хосты и домены посещенных страниц. Ссылки на/из посещенных документов.
  • Структурные и Технические факторы: Общая информация о документах (207), такая как формат (HTML, PDF, Word) и тип документа.
  • Пользовательские и Географические факторы: Личная информация (215) – демография, геолокация (адрес, zip-код), языковые предпочтения (явно указанные или выведенные).

Какие метрики используются и как они считаются

  • Веса терминов/категорий/ссылок в профиле: Определяются на основе частоты появления в истории пользователя и метрик взаимодействия. Веса могут быть отрицательными.
  • Веса контекстных шаблонов (Context Analysis): Рассчитываются на этапе обучения. Вес шаблона увеличивается, если он часто встречается рядом с предопределенными важными терминами, и уменьшается, если рядом с неважными. Пример формулы: Weight=Log(ImportantCount+1)−Log(UnimportantCount+1)Weight = Log(ImportantCount+1) - Log(UnimportantCount+1).
  • Profile Ranks (TermScore, CategoryScore, LinkScore): Метрики, показывающие соответствие документа конкретному компоненту профиля.
  • Generic Score: Стандартная оценка. Пример формулы: GenericScore=QueryScore∗PageRankGenericScore = QueryScore * PageRank.
  • Personalized Score: Комбинация генерической оценки и оценок профиля. Пример формулы: PersonalizedScore=GenericScore∗(TermScore+CategoryScore+LinkScore)PersonalizedScore = GenericScore * (TermScore + CategoryScore + LinkScore).
  • ProfileConfidence: Оценка от 0 до 1, регулирующая влияние персонализации и соотношение смешивания результатов.

Выводы

  1. Поиск по своей сути персонализирован: Патент устанавливает фреймворк, в котором стандартное ранжирование (Generic Score) является лишь базой, которая корректируется под индивидуальные интересы пользователя. Не существует единой объективной выдачи.
  2. Поведенческие факторы как основа профилирования: Ключевым источником данных для персонализации являются не столько сами запросы, сколько взаимодействие пользователя с результатами (клики, время просмотра, скроллинг). Это подчеркивает критическую важность метрик вовлеченности (Engagement Metrics) в SEO.
  3. Многомерное моделирование интересов: Google не просто отслеживает ключевые слова. Система строит сложную модель интересов пользователя, включающую конкретные термины (Term-based), широкие категории (Category-based) и предпочитаемые источники (Link-based).
  4. Важность структуры контента (Paragraph Sampling): Механизм Paragraph Sampling показывает, что для понимания контента (и, следовательно, для профилирования) Google приоритизирует текст в длинных, содержательных абзацах основного контента, игнорируя короткий текст и шаблонные блоки (навигация, футер).
  5. Адаптивная персонализация и Confidence Score: Система не применяет персонализацию слепо. Confidence Score является механизмом защиты от чрезмерной или некорректной персонализации. Если уверенность низкая, выдача будет ближе к стандартной.
  6. Смешивание результатов (Interleaving): Итоговая выдача является смесью персонализированных и генерических результатов (согласно Claim 1), пропорция которой зависит от Confidence Score. Это обеспечивает разнообразие и доступ к новому контенту.

Практика

Best practices (это мы делаем)

  • Оптимизация под долгосрочное взаимодействие (User Journey): Стратегия должна быть направлена на привлечение и удержание целевой аудитории. Необходимо стремиться к тому, чтобы пользователь регулярно возвращался на сайт по тематическим запросам, тем самым обучая Google ассоциировать его профиль интересов с вашим сайтом (усиление Link-based и Category-based профилей).
  • Максимизация вовлеченности и Dwell Time: Создавайте контент, который полностью отвечает на интент пользователя и стимулирует глубокое изучение (длительное время просмотра, активный скроллинг). Согласно патенту (209), эти сигналы используются для определения веса контента при построении профиля.
  • Структурирование контента для Paragraph Sampling: Размещайте ключевую информацию в основном контенте, используя четкие, содержательные и достаточно длинные абзацы. Избегайте размещения важной информации только в коротких фрагментах или шаблонных блоках, которые могут быть проигнорированы.
  • Развитие тематического авторитета (Topical Authority): Полное покрытие тематики помогает сайту стать предпочтительным источником для пользователей, интересующихся данной категорией. Это напрямую влияет на Category-based profile пользователя и повышает шансы сайта ранжироваться для этого сегмента аудитории.
  • Использование четкого контекста (Context Analysis): Используйте естественные языковые конструкции, которые подчеркивают важность ключевых сущностей и терминов на странице. Система учится распознавать важные термины по окружающему их контексту.

Worst practices (это делать не надо)

  • Кликбейт и высокий показатель отказов (Bounce Rate): Привлечение трафика, который немедленно покидает сайт, сигнализирует о нерелевантности. Это может привести к формированию негативных весов в профилях пользователей относительно вашего сайта или тематики.
  • Игнорирование анализа аудитории: Оптимизация только под генерические высокочастотные запросы без учета специфических интересов, истории поиска и демографии целевой аудитории становится неэффективной.
  • Чрезмерное использование шаблонного контента или "рваного" текста: Страницы, состоящие преимущественно из коротких параграфов или большого количества шаблонного текста (boilerplate), могут быть плохо обработаны Paragraph Sampling, что снизит их ценность для профилирования.
  • Размытие тематики сайта: Попытка охватить слишком много несвязанных тем может затруднить ассоциацию сайта с конкретными категориями в профилях пользователей.

Стратегическое значение

Этот патент подтверждает стратегический сдвиг фокуса SEO с технической оптимизации и ссылочного профиля на развитие аудитории (Audience Development) и управление пользовательским опытом (UX). Долгосрочный успех зависит от способности бренда стать неотъемлемой частью информационного потребления своей целевой аудитории. Понимание того, кто является вашим пользователем, каковы его долгосрочные интересы и как он ищет информацию, является ключом к обеспечению видимости в персонализированной выдаче.

Практические примеры

Сценарий 1: Разрешение неоднозначности запроса (Высокий Confidence Score)

  1. Запрос: Пользователь вводит неоднозначный запрос "Blackberry".
  2. Анализ профилей:
    • Пользователь А (Фермер): Его Term-based Profile содержит "органические удобрения", "рецепты ягод". Category-based Profile имеет высокий вес в категории "Кулинария". Confidence Score высокий.
    • Пользователь Б (IT-специалист): Его Link-based Profile включает частые посещения techcrunch.com. Term-based Profile содержит "смартфоны", "безопасность данных". Confidence Score высокий.
  3. Ранжирование:
    • Система рассчитывает Generic Scores (например, официальный сайт компании Blackberry имеет высокий ранг).
    • Для Пользователя А: Документы о ягодах получают высокий Profile Rank. Их Final Score повышается.
    • Для Пользователя Б: Документы о смартфонах и компании получают высокий Profile Rank. Их Final Score повышается.
  4. Результат: Пользователь А видит в ТОПе рецепты и информацию о выращивании ежевики. Пользователь Б видит новости о компании Blackberry и обзоры устройств.

Сценарий 2: Новый интерес пользователя (Низкий Confidence Score)

  1. Профиль пользователя: Пользователь А (Фермер) из Сценария 1.
  2. Запрос: Пользователь вводит запрос "Курсы программирования Python".
  3. Анализ профиля: Система видит, что запрос не соответствует существующему профилю (Кулинария, Сельское хозяйство). Confidence Score определяется как низкий.
  4. Результат: Final Score будет почти полностью основан на Generic Score. Система покажет стандартную выдачу по курсам Python, возможно, подмешав минимальное количество персонализированных результатов (согласно Claim 1 о смешивании).

Вопросы и ответы

Как этот патент влияет на отслеживание позиций (Rank Tracking)?

Патент демонстрирует, что универсального ранжирования не существует. Традиционный Rank Tracking, использующий "чистый" профиль, показывает только Generic Rank. Это полезно для понимания общей видимости, но не отражает реальную картину для ваших целевых пользователей, у которых активирована персонализация. Необходимо дополнять его анализом трафика, сегментацией аудитории и пониманием интересов ваших ключевых сегментов.

Что такое Paragraph Sampling и как оптимизировать контент под него?

Paragraph Sampling — это метод извлечения наиболее значимого контента. Он приоритизирует текст из длинных абзацев и игнорирует короткие фрагменты, которые часто являются навигацией, дисклеймерами или другим шумом (boilerplate). Для оптимизации следует размещать основной контент в содержательных, хорошо структурированных абзацах. Не стоит полагаться на то, что ключевые слова в футере или боковой панели будут учтены как основной контент страницы.

Какие поведенческие метрики наиболее важны для построения профиля пользователя согласно патенту?

Патент явно выделяет (раздел 209) время, проведенное пользователем на документе (Dwell Time), میزان активности скроллинга, а также действия, указывающие на высокую ценность контента: печать, сохранение документа или добавление его в закладки. Эти метрики используются для взвешивания важности терминов и ссылок, извлеченных из документа.

Что такое Confidence Score и почему он важен?

Confidence Score (Уровень уверенности) — это мера того, насколько система доверяет текущему профилю пользователя для ответа на конкретный запрос. Это критически важный механизм, который предотвращает "пузырь фильтров": если уверенность низкая (мало истории, новый интерес), система снижает влияние персонализации и показывает больше стандартных (Generic) результатов.

Что означает смешивание (Interleaving) персонализированных и генерических результатов?

Это процесс объединения двух типов результатов в финальной выдаче. Например, система может чередовать результаты или показывать блоки персонализированных и генерических ссылок. Согласно Claim 1, пропорция этого смешивания напрямую зависит от Confidence Score. Чем ниже уверенность, тем больше генерических результатов будет показано.

В чем разница между Term-based, Category-based и Link-based профилями?

Term-based фокусируется на конкретных ключевых словах и фразах, интересующих пользователя. Category-based описывает интересы на более высоком уровне абстракции (например, "Спорт" -> "Футбол"). Link-based фокусируется на предпочитаемых источниках (конкретные URL, хосты или домены). Вместе они обеспечивают комплексное понимание предпочтений пользователя.

Как система обнаруживает новые термины, интересующие пользователя (Context Analysis)?

Context Analysis использует машинное обучение для выявления шаблонов вокруг известных важных терминов (например, "обзор *" или "* купить"). Затем эти шаблоны применяются к новому контенту для идентификации новых важных терминов, даже если система видит их впервые. Это позволяет профилю динамически адаптироваться к новым сущностям и интересам.

Может ли персонализация навредить сайту?

Да, если сайт привлекает нецелевую аудиторию, которая плохо взаимодействует с контентом (например, высокий Bounce Rate, низкий Dwell Time). Это может привести к формированию негативных ассоциаций или снижению веса сайта в профилях этих пользователей. Если таких пользователей много, это может снизить общую видимость сайта для данного сегмента.

Как оптимизировать сайт, чтобы стать предпочитаемым источником (Link-based profile)?

Необходимо стать авторитетным ресурсом, который пользователи часто выбирают из выдачи и на котором проводят много времени. Это требует высокого качества контента, отличного UX и сильного бренда. Регулярное возвращение пользователей на ваш хост или домен увеличивает его вес в их Link-based профилях.

Учитывает ли система устаревание интересов пользователя?

Да. Патент упоминает, что при обновлении профиля новым данным может присваиваться более высокий приоритет, а вес старых данных может автоматически снижаться. Также возраст профиля учитывается при расчете Confidence Score. Это позволяет профилю эволюционировать вместе с интересами пользователя.

Похожие патенты

Как Google персонализирует результаты поиска в зависимости от сайта, с которого отправлен запрос
Google анализирует совокупные поисковые запросы и последующие клики пользователей, инициирующих поиск с определенного веб-сайта. На основе этих данных создается «Профиль Веб-сайта», отражающий коллективные интересы его аудитории. Этот профиль используется для переранжирования будущих результатов: один и тот же запрос, отправленный с разных сайтов, даст разную выдачу, адаптированную под контекст источника.
  • US8078607B2
  • 2011-12-13
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует профили пользователей для персонализации и изменения порядка показа рекламы в поиске
Google создает детальные профили интересов пользователей на основе истории поиска, поведения и взаимодействия с контентом. Эти профили используются для персонализации выдачи, в частности, для изменения порядка показа рекламы (Placed Content). Система вычисляет показатель сходства между профилем пользователя и профилем рекламы, корректируя стандартный рейтинг (CTR * Ставка), чтобы показывать пользователю наиболее релевантные объявления.
  • US7693827B2
  • 2010-04-06
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует историю поиска и браузера для персонализации выдачи и определения предпочтений пользователя
Google записывает историю поиска, кликов по результатам и рекламе, а также посещенные сайты в централизованную базу данных пользователя. Эта информация используется для модификации поисковой выдачи: повышения позиций ранее посещенных сайтов, предложения связанных запросов и определения "предпочтительных местоположений" (избранного). Система позволяет пользователю контролировать сбор данных (подписка) и объединять историю с разных устройств.
  • US7747632B2
  • 2010-06-29
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google персонализирует поисковую выдачу, анализируя историю кликов и поведение пользователя на сайте
Google использует механизм для персонализации поисковой выдачи на основе истории взаимодействия пользователя с результатами поиска. Система отслеживает, какие сайты пользователь выбирает, как долго он на них остается (Dwell Time), частоту и контекст выбора. Основываясь на этих данных, предпочитаемые пользователем ресурсы повышаются в ранжировании при его последующих запросах.
  • US9037581B1
  • 2015-05-19
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google персонализирует выдачу, понижая результаты, которые пользователь исторически игнорирует или быстро покидает
Google использует историю поиска пользователя для выявления результатов, которые пользователь систематически пропускает или считает нерелевантными (например, быстро возвращается на выдачу). Такие результаты идентифицируются как «нежелательные» (User-Disfavored) и активно понижаются в персональной выдаче для этого пользователя, даже если их общий рейтинг высок.
  • US7827170B1
  • 2010-11-02
  • Персонализация

  • Поведенческие сигналы

  • SERP

Популярные патенты

Как Google использует свой индекс для автоматического обновления устаревших ссылок в закладках, истории поиска и на веб-страницах
Система Google поддерживает актуальность различных коллекций URL (закладки пользователей, история поиска, электронные письма), используя основной поисковый индекс как эталон канонических адресов. Если сохраненный URL устарел, система автоматически заменяет его на актуальную версию. Также описан механизм уведомления владельцев сайтов о неработающих исходящих ссылках.
  • US20130144836A1
  • 2013-06-06
  • Ссылки

  • Индексация

  • Техническое SEO

Как Google объединяет данные о ссылках и кликах для расчета авторитетности страниц (Query-Independent Score)
Google использует механизм расчета независимой от запроса оценки авторитетности (Query-Independent Score) с помощью дополненного графа ресурсов. Этот граф объединяет традиционные ссылки между страницами с данными о поведении пользователей, такими как клики по результатам поиска (CTR). Авторитетность передается не только через ссылки, но и через запросы, позволяя страницам с высоким уровнем вовлеченности пользователей набирать авторитет, даже если у них мало обратных ссылок.
  • US8386495B1
  • 2013-02-26
  • Поведенческие сигналы

  • Ссылки

  • SERP

Как Google планировал использовать социальные связи, сети доверия и экспертизу для персонализации и переранжирования поисковой выдачи
Google запатентовал метод использования данных из социальных сетей («member networks») для влияния на ранжирование. Пользователи могли явно одобрять («endorse») результаты поиска. Эти одобрения показывались другим связанным пользователям (друзьям или людям, ищущим экспертное мнение) и использовались для переранжирования выдачи, добавляя персонализированный слой доверия.
  • US8825639B2
  • 2014-09-02
  • Персонализация

  • EEAT и качество

  • Поведенческие сигналы

Как Google автоматически определяет важность различных частей веб-страницы (DOM-узлов) для ранжирования
Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.
  • US8538989B1
  • 2013-09-17
  • Семантика и интент

  • Индексация

  • Структура сайта

Как Google автоматически обнаруживает и индексирует контент внутри мобильных приложений для показа в поиске (App Indexing)
Google использует систему для индексации контента нативных мобильных приложений. Для приложений, связанных с веб-сайтами, система проверяет аффилиацию и использует существующие веб-URL для доступа к контенту приложения. Для приложений с кастомными URI система эмулирует работу приложения и итеративно обнаруживает внутренние ссылки. Это позволяет контенту из приложений появляться в результатах поиска в виде глубоких ссылок.
  • US10073911B2
  • 2018-09-11
  • Индексация

  • Краулинг

  • Ссылки

Как Google рассчитывает тематический авторитет сайта для кастомизации поиска с помощью Topic-Sensitive PageRank
Патент Google, описывающий механизм кастомизации результатов поиска, инициированного со стороннего сайта (например, Google Custom Search). Система использует «профиль сайта» для повышения результатов, соответствующих его тематике. Ключевая ценность патента — детальное описание расчета тематической авторитетности (Topic Boosts) путем анализа ссылок с эталонных сайтов (Start Sites), что является реализацией Topic-Sensitive PageRank.
  • US7565630B1
  • 2009-07-21
  • Персонализация

  • SERP

  • Ссылки

Как Google использует вовлеченность пользователей на связанных страницах (Reachability Score) для ранжирования основного документа
Google рассчитывает «Оценку Достижимости» (Reachability Score), анализируя, как пользователи взаимодействуют со страницами, на которые ссылается основной документ (внутренние и исходящие ссылки). Если пользователи активно переходят по этим ссылкам (высокий CTR) и проводят время на целевых страницах (высокое время доступа), основной документ получает повышение в ранжировании. Этот механизм измеряет потенциальную глубину и качество пользовательской сессии.
  • US8307005B1
  • 2012-11-06
  • Поведенческие сигналы

  • Ссылки

  • SERP

Как Google использует данные о совместном посещении сайтов (Co-Visitation) для персонализации и повышения релевантности выдачи
Google использует поведенческие данные сообщества пользователей для определения тематической связи между сайтами. Если пользователи часто посещают Сайт А и Сайт Б в течение короткого промежутка времени (Co-Visitation), система создает "Вектор повышения" (Boost Vector). Этот вектор используется для повышения в выдаче тематически связанных сайтов, основываясь на истории посещений пользователя или контексте текущего сайта, улучшая персонализацию и релевантность.
  • US8874570B1
  • 2014-10-28
  • Поведенческие сигналы

  • Персонализация

  • SERP

Как Google вычисляет семантическую близость запросов, анализируя поведение пользователей при переформулировках
Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.
  • US8417692B2
  • 2013-04-09
  • Семантика и интент

  • Поведенческие сигналы

Как Google определяет синонимы и варианты слов, анализируя категории выбранных пользователями результатов
Google использует метод стемминга, основанный на поведении пользователей и категориях сущностей. Если пользователи ищут разные слова (например, «пицца» и «пиццерия») и выбирают результаты одной категории («ресторан»), система идентифицирует эти слова как варианты одной основы (Stem Variants). Это происходит, если слова похожи по написанию ИЛИ если объем кликов статистически значим.
  • US9104759B1
  • 2015-08-11
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

seohardcore