Как Google использует вероятностное тематическое моделирование для ранжирования видео и медиаконтента с недостатком текста

SEARCH QUERY RESULTS BASED UPON TOPIC (Результаты поискового запроса на основе темы)

US8620951B1
Google LLC
2012-06-01
2013-12-31

Google применяет вероятностную модель для улучшения поиска медиаконтента, такого как видео, где текстовых данных мало. Система определяет скрытые темы (Domain Topics) запроса P(T|Q) и находит контент, релевантный этим темам P(R|T). Это позволяет ранжировать видео, даже если оно не содержит ключевых слов из запроса, используя данные о кликах и базы знаний для установления связей.

Какую проблему решает

Патент решает проблему ограничений традиционного поиска по ключевым словам, особенно в контексте поиска медиаконтента (например, видео), где доступные текстовые данные (метаданные) часто ограничены (relatively sparse). Он устраняет необходимость точного совпадения ключевых слов в контенте и позволяет пользователям находить тематически релевантный контент, даже если он не содержит терминов из запроса.

Что запатентовано

Запатентована система поиска, основанная на темах (topic-based search). Вместо прямого сопоставления запроса (Q) с результатом (R) система использует промежуточный слой скрытых тем (Domain Topics, T). Процесс разделен на две вероятностные задачи: определение вероятности темы при условии запроса ( $P(T|Q)$ ) и определение вероятности результата при условии темы ( $P(R|T)$ ).

Как это работает

Система работает как вероятностная модель:

Сопоставление Запрос-Тема: Система получает запрос (Q) и вычисляет вероятность того, что этот запрос связан с различными темами (T), используя $P(T|Q)$ . Это может быть основано на анализе исторических данных о кликах (Search Click Data) или на сходстве строк.
Сопоставление Тема-Результат: Система идентифицирует результаты (R), которые сильно связаны с этими темами, на основе $P(R|T)$ . Эта связь устанавливается путем анализа метаданных результата и их сопоставления с базами знаний (Knowledge Databases) или через Topicality Score.
Ранжирование: Итоговая релевантность рассчитывается как произведение этих двух вероятностей ( $P(R|T) * P(T|Q)$ ), суммированное по всем релевантным темам.

Актуальность для SEO

Высокая. Патент описывает применение методов тематического моделирования в информационном поиске. Эти методы критически важны для современных поисковых систем, особенно для вертикалей с нетекстовым контентом (YouTube, Google Images), где необходимо преодолеть семантический разрыв между текстовыми запросами и медиафайлами. Принципы семантического поиска, использования сущностей и поведенческих данных остаются фундаментальными.

Важность для SEO

Высокое влияние (85/100). Патент имеет критическое значение для SEO, особенно в области продвижения видео (VSEO) и медиаконтента. Он объясняет механизм, позволяющий контенту ранжироваться без точного вхождения ключевых слов, при условии сильной тематической ассоциации. Понимание расчета $P(T|R)$ подчеркивает важность использования сущностей из баз знаний в метаданных. Роль $P(R|Q)$ подтверждает, что поведенческие факторы (клики) напрямую влияют на формирование тематических связей в модели.

Термины и определения

Domain Topic (T) (Тема Домена): Скрытая семантическая тема или концепция, которая используется как промежуточный слой между запросом и результатом.
P(T|Q) (Вероятность Темы при условии Запроса): Условная вероятность, используемая для сопоставления запроса (Q) с темой (T). Отражает, насколько вероятно, что запрос Q относится к теме T.
P(R|T) (Вероятность Результата при условии Темы): Условная вероятность, используемая для идентификации результатов (R) для данной темы (T). Отражает, насколько результат R релевантен теме T.
P(R|Q) (Вероятность Результата при условии Запроса): Условная вероятность, показывающая связь между запросом и результатом. В патенте она вычисляется на основе анализа Search Click Data.
P(T|R) (Вероятность Темы при условии Результата): Условная вероятность, показывающая, насколько данный результат (R) связан с темой (T). Используется для расчета $P(T|Q)$ .
Search Click Data (Данные о кликах в поиске): Агрегированные данные о том, на какие результаты пользователи нажимали по определенным запросам. Используются для вычисления $P(R|Q)$ .
Topicality Score (Оценка тематичности): Оценка релевантности результата определенной теме. Может предоставляться внешней системой (например, хостингом видео), которая аннотирует контент сущностями на основе семантических баз знаний. Используется как эквивалент $P(T|R)$ .
Knowledge Database (База знаний): Семантические базы данных (например, Wikipedia, Freebase, упомянутые в описании), используемые для идентификации тем в контенте и расчета $P(T|R)$ .
Topic Interest Distribution (Распределение интереса к темам): Данные о популярности или частоте тем, которые могут использоваться для расчета априорной вероятности темы $P(T)$ .

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовую архитектуру системы тематического поиска.

Система получает запрос (Q).
Mapping component сопоставляет запрос с набором тем (Domain Topics, T). Сопоставление основано на первой условной вероятности $P(T|Q)$ .
Results component идентифицирует набор результатов (R) для запроса. Идентификация основана на второй условной вероятности $P(R|T)$ .
Output component представляет набор результатов.

Claim 2 и 3 (Зависимые): Детализируют процесс ранжирования.

Система упорядочивает результаты на основе релевантности запросу. Релевантность определяется как произведение $P(R|T)$ и вероятности темы при условии запроса. В основном описании патента (Description) формула релевантности четко определена как: $\sum_T P(R|T) * P(T|Q)$ .

Claim 6 и 8 (Зависимые от 5): Описывают два альтернативных метода расчета $P(T|Q)$ .

Claim 6: $P(T|Q)$ рассчитывается на основе $P(R|Q)$ , которая извлекается из анализа Search Click Data.
Claim 8: $P(T|Q)$ рассчитывается на основе строкового сходства (string similarity) между запросом и строковым названием темы.

Claim 9, 12 и 13 (Зависимые): Описывают методы расчета $P(T|R)$ (Вероятность темы при условии результата).

Claim 12: $P(T|R)$ определяется на основе полученного Topicality Score для темы.
Claim 13: $P(T|R)$ определяется на основе сравнения текста, связанного с результатом, с одной или несколькими базами знаний (knowledge database).

Где и как применяется

Изобретение представляет собой модель ранжирования, затрагивающую этапы индексирования, понимания запросов и ранжирования.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит расчет $P(T|R)$ . Система анализирует контент (например, метаданные видео) и сопоставляет его с базами знаний для определения связанных тем или вычисления Topicality Score. Эти данные сохраняются для использования в ранжировании.

QUNDERSTANDING – Понимание Запросов
Система рассчитывает $P(T|Q)$ . Это в основном происходит офлайн. Процесс анализирует исторические Search Click Data ( $P(R|Q)$ ) и использует предварительно рассчитанные $P(T|R)$ для установления связей между запросами и темами. Также может использоваться string similarity.

RANKING – Ранжирование
Основное применение патента. На этапе ранжирования система использует рассчитанные вероятности $P(T|Q)$ и $P(R|T)$ для вычисления итоговой оценки релевантности результата запросу через промежуточный слой тем.

Входные данные:

Запрос пользователя (Q).
Набор тем (T).
Предварительно рассчитанные вероятности: $P(T|R)$ или Topicality Scores для контента, $P(R|Q)$ из логов кликов.

Выходные данные:

Набор результатов (R), отсортированный по оценке релевантности, вычисленной по формуле $\sum_T P(R|T) * P(T|Q)$ .

На что влияет

Конкретные типы контента: Патент явно указывает на его полезность при поиске видео или другого медиаконтента (media content), для которого связанная текстовая информация относительно скудна по сравнению с другими типами контента (например, веб-страницами).
Специфические запросы: Влияет на запросы, где намерение пользователя тематически шире, чем используемые ключевые слова, или когда пользователи ищут контент без четкого представления о том, что они хотят найти.

Когда применяется

Алгоритм применяется как основной механизм ранжирования в среде, для которой он разработан (например, поиск на видеохостинге). Он активируется при получении поискового запроса. Дополнительный компонент стемминга (Stemming Component) может быть опционально активирован перед началом процесса сопоставления.

Пошаговый алгоритм

Алгоритм состоит из офлайн-вычислений (подготовка данных) и онлайн-обработки (ранжирование).

Процесс А: Вычисление Вероятностей (Offline/Indexing)

А.1. Расчет $P(T|R)$ (Индексирование контента):

Анализ контента (R): Анализируются метаданные видео.
Определение тем (T):
- Вариант 1: Получение Topicality Score от хостинга, который аннотирует видео сущностями из баз знаний.
- Вариант 2: Сравнение метаданных с записями в Knowledge Databases (например, Freebase, Wikipedia) с помощью сопоставления строк (string matching).
Сохранение $P(T|R)$ .

А.2. Расчет $P(T|Q)$ (Анализ логов):

Анализ Search Click Data: Вычисление $P(R|Q)$ на основе того, как часто на результат R нажимали по запросу Q.
Вычисление $P(T|Q)$ : Используется формула (при условии независимости T и Q при заданном R): $P(T|Q) = \sum_R P(T|R) * P(R|Q)$ . (Альтернативно: используется string similarity).

А.3. Расчет $P(R|T)$ :

Вычисление априорных вероятностей: Определение $P(Q)$ (на основе частоты запроса в истории) и $P(T)$ (на основе Topic Interest Distribution или частоты кликов на контент с темой T).
Вычисление $P(R|T)$ : Используется формула (с применением теоремы Байеса и условия независимости R и T при заданном Q): $P(R|T) = \sum_Q P(R|Q) * P(T|Q) * P(Q) / P(T)$ .

Процесс Б: Обработка запроса и ранжирование (Online)

Получение запроса: Система получает запрос (Q).
Стемминг (Опционально): Запрос проходит через Stemming Component для нормализации.
Сопоставление Запрос-Тема (Mapping): Mapping Component извлекает предварительно вычисленные значения $P(T|Q)$ для данного Q.
Идентификация Результатов (Retrieval): Results Component идентифицирует набор результатов (R), используя предварительно вычисленные $P(R|T)$ .
Расчет Релевантности (Ranking): Ranking Component вычисляет оценку релевантности для каждого результата R по формуле: $Relevance(R, Q) = \sum_T P(R|T) * P(T|Q)$ .
Упорядочивание и Вывод: Результаты сортируются и представляются пользователю.

Какие данные и как использует

Данные на входе

Контентные факторы (Метаданные): Текстовая информация, связанная с результатом (например, заголовок видео, описание). Используется для расчета $P(T|R)$ путем сопоставления с базами знаний.
Поведенческие факторы: Search Click Data. Критически важны для определения $P(R|Q)$ (связь запроса и результата на основе кликов). Также используются для расчета $P(T)$ (популярность темы).
Временные факторы: Query History (История запросов). Используется для расчета $P(Q)$ (частота запроса).
Внешние данные:
- Базы знаний (Knowledge Databases), например, Freebase, Wikipedia. Используются для идентификации тем в контенте.
- Topicality Score. Внешняя оценка тематичности контента.
- Topic Interest Distribution. Данные о распределении интересов к темам.

Какие метрики используются и как они считаются

Система полностью основана на расчете условных и априорных вероятностей:

$P(R|Q)$ : Рассчитывается из Search Click Data.
$P(T|R)$ : Рассчитывается путем сопоставления метаданных с базами знаний или используется Topicality Score.
$P(T|Q)$ : Рассчитывается либо через агрегацию $P(T|R) * P(R|Q)$ , либо через string similarity.
$P(R|T)$ : Рассчитывается с использованием теоремы Байеса, объединяя все вышеуказанные метрики.
Relevance Rank (Ранг Релевантности): Итоговая метрика ранжирования: $\sum_T P(R|T) * P(T|Q)$ .

Методы анализа: Патент использует методы вероятностного тематического моделирования, включая применение условных вероятностей и теоремы Байеса, а также базовые NLP-техники, такие как стемминг и сопоставление строк (string matching/similarity).

Переход от ключевых слов к темам: Патент формализует механизм ранжирования, который не зависит от наличия ключевых слов запроса в тексте результата. Релевантность устанавливается через общий тематический контекст (Domain Topics).
Двухэтапная модель релевантности: Проблема поиска решается путем разделения на две задачи: понимание темы запроса ( $P(T|Q)$ ) и поиск контента по теме ( $P(R|T)$ ). Это позволяет преодолеть скудность метаданных медиаконтента.
Критическая роль поведенческих данных: Search Click Data является фундаментальным источником для обучения модели. Вероятность $P(R|Q)$ , основанная на кликах, напрямую влияет как на $P(T|Q)$ , так и на $P(R|T)$ .
Важность Баз Знаний и Сущностей: Для определения тематики контента ( $P(T|R)$ ) система полагается на сопоставление с Knowledge Databases или на Topicality Score. Это подчеркивает роль сущностей (Entities) в определении тем.
Специфика медиа-поиска: Модель идеально подходит для сред, где текстовых данных мало (например, YouTube), позволяя находить и ранжировать контент на основе его семантического значения и пользовательского поведения.

Best practices (это мы делаем)

Рекомендации особенно актуальны для Video SEO (YouTube) и продвижения медиаконтента.

Фокус на Сущностях в Метаданных: Для максимизации $P(T|R)$ необходимо насыщать заголовки и описания видео терминами, которые легко сопоставляются с записями в базах знаний (например, именами артистов, названиями альбомов, именами сущностей). Система использует их для определения Domain Topics контента.
Оптимизация под Тематический Интент, а не только Ключи: Создавайте контент, который является лучшим ответом в рамках темы (высокий $P(R|T)$ ), а не узко оптимизирован под конкретную формулировку запроса. Это позволяет ранжироваться по широкому спектру запросов, связанных с этой темой.
Стимулирование Поведенческих Сигналов (Кликов): Поскольку $P(R|Q)$ , основанный на Search Click Data, является ключевым компонентом модели, критически важно оптимизировать CTR в поиске (привлекательные заголовки и значки видео). Высокий CTR по релевантным запросам укрепляет связь между этими запросами, вашим контентом и темой.
Использование Структурированных Данных и Аннотаций: Если платформа поддерживает аннотирование контента (например, теги YouTube или Schema.org для видео на сайте), используйте их для явного указания связанных сущностей, чтобы помочь системе точнее рассчитать Topicality Score.

Worst practices (это делать не надо)

Переоптимизация под Узкие Ключевые Слова: Фокус только на точном вхождении ключевых слов неэффективен, так как модель ранжирования основана на темах. Это может ограничить охват и не гарантирует релевантности на тематическом уровне.
Использование Неоднозначных или Слишком Общих Метаданных: Если метаданные видео не содержат четких сигналов (сущностей), которые можно сопоставить с базой знаний, система не сможет точно определить $P(T|R)$ , что снизит шансы на ранжирование.
Кликбейт и Несоответствие Интенту: Привлечение кликов ( $P(R|Q)$ ) по запросам, которым контент тематически не соответствует (низкий $P(T|R)$ ), в долгосрочной перспективе неэффективно, так как итоговая формула требует сильной связи по обоим параметрам.

Стратегическое значение

Патент подтверждает стратегический приоритет семантического поиска и тематического моделирования в Google, особенно для медиаконтента. Он демонстрирует, как Google интегрирует поведенческие сигналы (клики) и семантические данные (базы знаний/сущности) в единую вероятностную модель ранжирования. Для SEO-специалистов это означает, что долгосрочная стратегия должна фокусироваться на построении тематического авторитета (Topical Authority) и оптимизации пользовательского опыта (CTR, вовлеченность).

Практические примеры

Сценарий: Оптимизация музыкального видео

Представим, что мы продвигаем видео с живым исполнением песни "Judas" артистом Lady Gaga.

Исходный Запрос (Q): Пользователь ищет "Judas live".
Оптимизация Метаданных (Улучшение $P(T|R)$ ):
- Плохой заголовок: "Judas live performance amazing!!"
- Хороший заголовок: "Lady Gaga - Judas (Live from Event Name, City, Year)"
- Описание: Включаем упоминание альбома "Born This Way" и другие связанные сущности.
Результат Оптимизации: Система легко сопоставляет "Lady Gaga", "Judas", "Born This Way" с записями в Knowledge Database и присваивает видео высокие значения $P(T|R)$ для тем T1="Lady Gaga" и T2="Judas (Song)".
Анализ Запроса ( $P(T|Q)$ ): Запрос "Judas live" имеет высокую вероятность $P(T|Q)$ для темы T2="Judas (Song)" (на основе string similarity или исторических кликов).
Ранжирование: Наше видео получает высокую итоговую оценку, так как $P(R|T2)$ и $P(T2|Q)$ высоки.
Дополнительный эффект: Видео также может ранжироваться по запросу "Lady Gaga live", так как $P(R|T1)$ также высоко.

В чем основное отличие этого подхода от традиционного поиска по ключевым словам?

Традиционный поиск ищет прямое совпадение ключевых слов из запроса в документе. Описанный подход использует вероятностное тематическое моделирование. Система сначала определяет, о каких темах (Domain Topics) идет речь в запросе ( $P(T|Q)$ ), а затем находит контент, который сильно связан с этими темами ( $P(R|T)$ ). Это позволяет ранжировать результат, даже если он не содержит ни одного слова из исходного запроса.

Какова роль данных о кликах (Search Click Data) в этой модели?

Данные о кликах играют центральную роль. Они используются для определения вероятности $P(R|Q)$ – как часто пользователи выбирают результат R по запросу Q. Эта метрика затем используется для вычисления обеих ключевых вероятностей модели: $P(T|Q)$ и $P(R|T)$ . По сути, клики пользователей обучают модель понимать связь между запросами, темами и контентом.

Как система определяет, к каким темам относится видео (P(T|R))?

Патент описывает два основных метода. Первый – использование Topicality Score, который может предоставляться самим видеохостингом, анализирующим контент и аннотирующим его сущностями. Второй – прямое сопоставление текстовых метаданных видео (заголовок, описание) с записями в Knowledge Databases (упоминаются Freebase и Wikipedia) с помощью сопоставления строк (string matching).

Что это значит для оптимизации метаданных видео?

Это означает, что метаданные должны быть не просто насыщены ключевыми словами, а содержать четкие идентификаторы сущностей (Entities). Упоминание имен, названий, брендов и других терминов, присутствующих в базах знаний, критически важно для того, чтобы система могла точно определить тематику видео ( $P(T|R)$ ) и, следовательно, правильно его ранжировать.

Как этот патент связан с концепцией Topical Authority?

Он напрямую связан. Topical Authority в контексте этого патента можно интерпретировать как наличие большого количества контента (R) с высокой вероятностью $P(R|T)$ для определенной темы T. Если ваш канал или сайт является авторитетным источником по теме, ваши результаты будут иметь преимущество при ранжировании по всем запросам, которые система связывает с этой темой.

Как связаны этот патент и Knowledge Graph?

Патент тесно связан с Knowledge Graph (или аналогичными базами знаний). Knowledge Databases используются на этапе индексирования для определения тем контента ( $P(T|R)$ ). Сущности из Knowledge Graph, по сути, выступают в роли Domain Topics (T) в этой модели.

Что такое Topicality Score и откуда он берется?

Topicality Score – это оценка того, насколько контент релевантен определенной теме. В патенте предполагается, что этот балл может быть получен от внешней системы, например, от самого видеохостинга (YouTube). Хостинг может анализировать видео (включая метаданные, возможно, аудио или видеоряд) и аннотировать его связанными сущностями и темами, присваивая им веса.

Влияет ли оптимизация заголовков (Title) на ранжирование в этой модели?

Да, причем двояко. Во-первых, заголовок влияет на Topicality Score ( $P(T|R)$ ), помогая системе понять тему контента. Во-вторых, привлекательный и релевантный заголовок увеличивает CTR, что усиливает сигнал $P(R|Q)$ в Search Click Data. Оба фактора положительно влияют на итоговое ранжирование.

Что произойдет, если данных о кликах по запросу еще недостаточно?

Если Search Click Data недостаточно для надежного расчета $P(R|Q)$ , патент предлагает альтернативный метод расчета $P(T|Q)$ . Он основан на строковом сходстве (String Similarity) между запросом и названием темы. Это позволяет системе работать с новыми или редкими запросами, полагаясь на текстовое совпадение как на запасной вариант.

Как быстро рассчитываются эти вероятности?

Патент подразумевает, что основные вычисления ( $P(T|Q)$ и $P(R|T)$ ) выполняются офлайн путем анализа больших объемов данных о кликах и контенте. В реальном времени, когда пользователь вводит запрос, система использует эти предварительно рассчитанные значения для быстрого вычисления итоговой оценки релевантности, что обеспечивает высокую скорость ответа.

Как Google использует вероятностные модели и анализ пользовательского выбора (кликов) для обучения систем ранжирования

Патент Google описывает метод эффективного ранжирования контента (видео или результатов поиска) с использованием парных сравнений. Система моделирует качество как вероятностное распределение и оптимизирует сбор данных. Этот механизм может применяться для интерпретации кликов в поисковой выдаче как сигналов предпочтения, учитывая позицию результата и доверие к пользователю.

US8688716B1
2014-04-01

SERP
Поведенческие сигналы

Как Google классифицирует запросы о медиа (фильмы, книги, музыка), используя данные из разных вертикалей поиска и поведенческие сигналы

Google использует многофакторную модель для определения, относится ли запрос к медиа-контенту (фильмам, книгам, музыке). Система анализирует результаты товарного поиска, предлагаемые подсказки (candidate queries), частоту запроса в специализированных вертикалях (Search Probability Ratio) и наличие специфичных ключевых слов. Это позволяет точнее определить интент пользователя и показать релевантные специализированные блоки или товарные предложения.

US8768910B1
2014-07-01

Семантика и интент
Поведенческие сигналы
Мультимедиа

Как Google использует категоризацию контента и запросов для уточнения релевантности и ранжирования результатов

Google использует систему для улучшения ранжирования, комбинируя стандартную текстовую релевантность с оценкой соответствия категории. Система определяет, насколько сильно документ принадлежит к определенным категориям и насколько сильно запрос соответствует этим же категориям. Если и документ, и запрос сильно совпадают по категории, результат получает повышение в ранжировании. Это особенно важно для E-commerce и контента с четкой структурой.

US7814085B1
2010-10-12

Семантика и интент
SERP

Как Google (YouTube) ранжирует рекомендуемые видео, балансируя релевантность, монетизацию и вероятность просмотра рекламы

Google использует систему для ранжирования рекомендуемых (дополнительных) видео на платформах типа YouTube. Система учитывает не только релевантность и потенциал монетизации видео, но и «экспериментальные данные» о том, как пользователи взаимодействуют с рекламой в этом видео. Цель — показывать видео, где пользователи с большей вероятностью досмотрят рекламу, максимизируя доход и минимизируя отток пользователей.

US9405775B1
2016-08-02

Мультимедиа
Поведенческие сигналы

Как Google использует визуальное сходство для связывания изображений и видео, кластеризации выдачи и обогащения метаданных

Google анализирует визуальное содержимое изображений и ключевых кадров видео для выявления сходств. Это позволяет связывать разнотипный контент, даже если у него мало текстовых данных. Система использует эти связи для переноса метаданных (например, ключевых слов или геопозиции) от одного ресурса к другому, а также для кластеризации и смешивания изображений и видео в результатах поиска.

US9652462B2
2017-05-16

Мультимедиа
SERP
Семантика и интент

Как Google использует позиционный CTR (Selection Rate) для ранжирования и группировки вертикалей в Универсальном поиске

Google использует механизм для структурирования поисковой выдачи путем группировки результатов по категориям (вертикалям), таким как Новости, Видео или Веб. Система определяет порядок этих категорий, основываясь на ожидаемой частоте кликов (Selection Rate/CTR) тех позиций, которые занимают результаты категории в исходном смешанном ранжировании. Это определяет структуру Универсального поиска (Universal Search).

US8498984B1
2013-07-30

SERP
Поведенческие сигналы

Как Google использует историю запросов в текущей сессии и статистические паттерны для переранжирования результатов

Google анализирует миллионы прошлых поисковых сессий, выявляя статистически значимые последовательности запросов («Пути Запросов»), которые заканчиваются кликом на определенный URL («Конечная Точка Контента»). Когда текущая сессия пользователя совпадает с историческим путем, Google переранжирует результаты, повышая те URL, которые исторически удовлетворяли пользователей в аналогичном контексте, пропорционально вероятности их выбора.

US7610282B1
2009-10-27

Поведенческие сигналы
SERP
Семантика и интент

Как Google использует данные о поведении пользователей по похожим запросам для ранжирования новых или редких запросов

Google использует механизм для улучшения ранжирования запросов, по которым недостаточно данных о поведении пользователей (например, кликов). Система находит исторические запросы, семантически похожие на исходный, и «заимствует» их поведенческие данные. Степень сходства рассчитывается с учетом важности терминов, синонимов и порядка слов. Эти заимствованные данные используются для корректировки рейтинга документов по исходному запросу.

US9009146B1
2015-04-14

Поведенческие сигналы
Семантика и интент
SERP

Как Google вычисляет важность сущностей внутри документа, используя контекст, ссылки и поведение пользователей, для улучшения ранжирования

Google использует систему для определения относительной важности сущностей (люди, места, даты) внутри документа (книги или веб-страницы) независимо от поискового запроса. Важность рассчитывается на основе того, где сущность упомянута (контекст, структура), насколько точно она определена, ссылаются ли на этот раздел внешние источники и как часто его просматривают пользователи. Эти оценки важности сущностей затем используются как сигнал для ранжирования самого документа в результатах поиска.

US7783644B1
2010-08-24

Поведенческие сигналы
Индексация
Семантика и интент

Как Google персонализирует подсказки Autocomplete, анализируя запросы похожих пользователей и обновляя локальный кэш устройства

Google персонализирует подсказки Autocomplete (Search Suggest), анализируя поведение пользователей со схожими профилями (местоположение, интересы, история поиска). Система генерирует кастомизированное обновление для локального кэша устройства на основе запросов, введенных этими похожими пользователями. Это означает, что разные пользователи видят разные подсказки для одного и того же ввода.

US8868592B1
2014-10-21

Персонализация
Поведенческие сигналы
Local SEO

Как Google использует модифицированный PageRank (Personalized PageRank) для персонализации выдачи на основе истории и предпочтений пользователя

Патент Google, описывающий механизм персонализации поиска путем модификации алгоритма PageRank. Система определяет "точку зрения" пользователя (Point-of-View Data) на основе его истории посещений, закладок или указанных категорий. Затем стандартный расчет PageRank изменяется так, чтобы авторитет (Reset Probability) концентрировался только на этих персональных источниках, повышая в выдаче сайты, которые близки к интересам пользователя.

US7296016B1
2007-11-13

Персонализация
Поведенческие сигналы
SERP

Как Google использует анализ сопутствующих ссылок (co-citation) и нормализацию веса для определения связанных сайтов и конкурентов

Google анализирует структуру ссылок для поиска сайтов, связанных с выбранным документом и находящихся на том же уровне обобщения (например, конкурентов). Система определяет, на какие еще сайты ссылаются источники, цитирующие исходный документ (co-citation). Для повышения точности вес ссылок нормализуется: снижается влияние множественных ссылок с одного хоста и ссылок со страниц-каталогов (хабов).

US6754873B1
2004-06-22

Ссылки
SERP
Техническое SEO

Как Google использует погоду, время и местоположение для понимания истинного намерения пользователя и адаптации поисковой выдачи

Google анализирует, как физическое окружение (погода, время, местоположение) влияет на то, что ищут пользователи. Система выявляет корреляции между средой и поведением пользователей в прошлом (включая длительность кликов), чтобы лучше понять текущий интент многозначных запросов. Затем она переранжирует выдачу или переписывает запрос для предоставления наиболее релевантных результатов и рекламы.

US8898148B1
2014-11-25

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google использует контекст и анализ офлайн-поведения (Read Ranking) для соединения физических документов с цифровыми копиями

Система идентифицирует цифровой контент по сканированному фрагменту из физического мира, используя не только текст, но и обширный контекст (время, местоположение, историю пользователя). Патент также вводит концепцию «Read Ranking» — отслеживание популярности физических документов на основе того, что люди сканируют, как потенциальный сигнал ранжирования.

US20110295842A1
2011-12-01

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google определяет синонимы и варианты слов, анализируя категории выбранных пользователями результатов

Google использует метод стемминга, основанный на поведении пользователей и категориях сущностей. Если пользователи ищут разные слова (например, «пицца» и «пиццерия») и выбирают результаты одной категории («ресторан»), система идентифицирует эти слова как варианты одной основы (Stem Variants). Это происходит, если слова похожи по написанию ИЛИ если объем кликов статистически значим.

US9104759B1
2015-08-11

Семантика и интент
Поведенческие сигналы
Персонализация