Как Google использует модель D-Q-D и поведение пользователей для предложения разнообразных запросов, связанных с конкретными результатами поиска

PROVIDING RESULT-BASED QUERY SUGGESTIONS (Предоставление предлагаемых запросов на основе результатов)

US8583675B1
Google LLC
2010-08-30
2013-11-12

Google использует модель "Документ-Запрос-Документ" (D-Q-D), построенную на основе данных о поведении пользователей (клики, время просмотра), для генерации связанных поисковых подсказок. Система предлагает альтернативные запросы, привязанные к конкретному результату, только если эти запросы ведут к новому, разнообразному набору документов, облегчая исследование смежных тем.

Какую проблему решает

Патент решает проблему сложности исследования пользователем связанных, но семантически разнообразных тем. Стандартный поиск требует ручного переформулирования запросов. Изобретение направлено на создание механизма "ориентированного на результат исследования документов" (result-oriented document exploration), аналогичного просмотру соседних книг на библиотечной полке. Цель — предложить пользователю связанные, но при этом разнообразные (diverse) пути исследования информации напрямую из поисковой выдачи.

Что запатентовано

Запатентована система генерации предлагаемых запросов (suggested queries), которые привязаны к конкретным документам в результатах поиска, а не ко всему запросу в целом. Ядром изобретения является модель "Документ-Запрос-Документ" (Document-to-Query-to-Document (D-Q-D) model). Эта модель, построенная на основе данных о поведении пользователей (user behavior data), позволяет идентифицировать запросы, которые связывают исходный документ с другими релевантными документами, отсутствующими в текущей выдаче.

Как это работает

Система функционирует в двух режимах:

Офлайн (Построение модели): Система анализирует user behavior data (например, клики и время просмотра (dwell time)), чтобы определить релевантность документов запросам. На основе этих данных строится D-Q-D model, которая структурирует связи: Документ А → Запрос X → Документ Б. Модель агрессивно фильтруется и сокращается (capping) для эффективности.
Онлайн (Обслуживание запроса): Когда пользователь вводит Запрос 1 и получает результаты (включая Документ А), система обращается к D-Q-D model. Она ищет связанные Запросы X, которые удовлетворяют двум критериям разнообразия: 1) Запрос X содержит новые термины (Term Diversity); 2) Запрос X ведет к Документу Б, который отсутствует в текущих результатах (Result Diversity). Удовлетворяющий критериям Запрос X предлагается пользователю как подсказка, связанная с Документом А.

Актуальность для SEO

Высокая. Механизмы, помогающие пользователям исследовать темы и находить разнообразный контент (например, блоки "Связанные запросы", "Люди также ищут"), являются неотъемлемой частью современного поиска. Опора на данные о поведении пользователей для оценки релевантности и построения связей между контентом остается центральной стратегией Google. Изобретатель Paul Haahr является ключевой фигурой в разработке алгоритмов ранжирования Google.

Важность для SEO

Патент имеет высокое значение (7.5/10) для SEO-стратегии. Он демонстрирует механизм, который напрямую влияет на путь пользователя (user journey) и обнаружение контента. Для попадания в D-Q-D model критически важна высокая релевантность документа для нескольких связанных запросов, подтвержденная поведением пользователей (например, long clicks). Это подчеркивает важность построения Topical Authority и оптимизации под удовлетворенность пользователя.

Термины и определения

Candidate Queries (CQ) (Кандидаты в запросы): Временный набор потенциальных предлагаемых запросов, которые система оценивает в реальном времени.
Click Data (Данные о кликах): Тип user behavior data, включающий информацию о том, как долго пользователь просматривает документ после клика (dwell time).
Document-to-Query-to-Document (D-Q-D) Model (Модель Документ-Запрос-Документ): Ключевая структура данных, которая связывает индексирующий документ с набором запросов, а каждый из этих запросов, в свою очередь, связан с набором релевантных документов. Используется для поиска связанных, но разнообразных результатов.
D-Q Model (Модель Документ-Запрос): Промежуточная модель, полученная путем инвертирования Q-D Model. Связывает документы с релевантными для них запросами.
Indexing Document (Индексирующий документ): Документ, который служит отправной точкой в D-Q-D Model (первая D). При обслуживании запроса это документ из текущей поисковой выдачи.
Long Click / Short Click (Длинный клик / Короткий клик): Длительное время просмотра документа (long click) интерпретируется как признак релевантности. Короткое время (short click) — как признак отсутствия релевантности.
Q-D Model (Модель Запрос-Документ): Промежуточная модель, созданная на основе user behavior data. Связывает запрос с набором релевантных документов и их оценками.
Quality of Result Statistic (Статистика качества результата): Метрика, производная от user behavior data, используемая для оценки релевантности документа конкретному запросу (например, взвешенное среднее длинных кликов).
Result Diversity (Разнообразие результатов): Критерий, требующий, чтобы документы, релевантные предлагаемому запросу, отличались от документов в исходной поисковой выдаче.
Term Diversity (Разнообразие терминов) / Query Diversity: Критерий, требующий, чтобы предлагаемый запрос содержал термины, отличные от терминов исходного запроса и других уже предложенных запросов.
Used Documents (UD) (Использованные документы): Набор документов, уже присутствующих в исходной выдаче или являющихся целью уже выбранных предлагаемых запросов. Используется для обеспечения Result Diversity.
Used Terms (UT) (Использованные термины): Набор терминов из исходного запроса и уже выбранных предлагаемых запросов. Используется для обеспечения Term Diversity.
User Behavior Data (Данные о поведении пользователей): Анонимизированные данные о реакции пользователей на результаты поиска (клики, время просмотра). Основа для построения D-Q-D Model.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод предоставления предлагаемых запросов на основе разнообразия результатов.

Для первого документа из результатов поиска по первому запросу система выбирает набор ранее отправленных запросов (ПЗ), для которых этот документ был релевантен. Выборка происходит с использованием document-to-query-to-document model.
Для каждого выбранного ПЗ система определяет, имеют ли вторые документы (релевантные этому ПЗ на основе user behavior data) пороговый уровень diversity (разнообразия) по сравнению с первыми результатами поиска.
На основе этой оценки разнообразия система идентифицирует один или несколько ПЗ в качестве предлагаемых запросов.
Система предоставляет эти идентифицированные запросы вместе с первыми результатами поиска.

Ядро изобретения — использование D-Q-D model для нахождения связанных запросов и обязательная проверка того, что эти запросы ведут к новым результатам (threshold level of diversity), причем релевантность определяется через user behavior data.

Claim 3 (Зависимый от 1): Уточняет, что связи в D-Q-D model (между первым документом, ПЗ и вторыми документами) основаны на данных, указывающих на поведение пользователей относительно этих документов как результатов поиска.

Claim 4 (Зависимый от 1): Описывает офлайн-процесс создания D-Q-D model.

Создание query-to-document models (Q-D) для ПЗ, связывающих запросы с релевантными документами.
Ассоциация документов с соответствующими Q-D моделями (фактически, инверсия и объединение) для создания D-Q-D model.

Claim 12 (Зависимый от 1): Добавляет критерий разнообразия терминов.

Система также определяет уровень term diversity (разнообразия терминов) для ПЗ по сравнению с первым запросом.
Идентификация предлагаемых запросов дополнительно основывается на этом уровне term diversity.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, разделяясь на офлайн-процессы построения модели и онлайн-процессы обслуживания запросов.

CRAWLING / INDEXING (Сбор и обработка данных)
На этом этапе происходит сбор User Behavior Data (клики, dwell time) из журналов выбора результатов (Result Selection Logs). Эти данные обрабатываются для вычисления Quality of Result Statistics.

QUNDERSTANDING / INDEXING (Построение модели - Офлайн)
Это основной этап для офлайн-компонентов. D-Q-D Model Creation Engine использует обработанные данные о поведении пользователей для построения и обновления D-Q-D Model. Это включает фильтрацию запросов и документов, расчет оценок релевантности и структурирование связей (D-Q-D).

RANKING – Ранжирование
На этом этапе генерируется стандартный набор результатов для исходного запроса.

RERANKING / METASEARCH (Онлайн)
Основное применение патента в реальном времени. После того как этап RANKING сгенерировал список результатов, активируется Query Suggestion Engine.

Анализ результатов: Система итерирует по полученным результатам поиска.
Поиск кандидатов: Для каждого документа система обращается к D-Q-D Model для поиска кандидатов в предлагаемые запросы.
Фильтрация и Ранжирование кандидатов: Система применяет фильтры разнообразия (Term Diversity, Result Diversity) и ранжирует оставшихся кандидатов по оценке (score).
Внедрение подсказок: Лучшие предлагаемые запросы добавляются к соответствующим документам в выдаче перед показом пользователю.

Входные данные (Онлайн):

Результаты поиска для исходного запроса.
D-Q-D Model.

Выходные данные (Онлайн):

Результаты поиска, аннотированные предлагаемыми запросами.

На что влияет

Типы контента и запросы: Влияет на все типы контента и запросы, где доступно достаточно данных о поведении пользователей для построения надежной D-Q-D Model. Наиболее заметно влияние на информационные и исследовательские запросы, где пользователи стремятся изучить тему глубже.
Разнообразие выдачи: Напрямую влияет на разнообразие путей исследования, предлагаемых пользователю, активно продвигая контент, который связан с текущими результатами, но не дублирует их.

Когда применяется

Условия применения: Алгоритм применяется при обслуживании поискового запроса в реальном времени.
Триггеры активации: Для конкретного документа в выдаче механизм активируется, если: 1) Документ существует как Indexing Document в D-Q-D Model; 2) Существуют связанные запросы и документы, удовлетворяющие критериям Term Diversity и Result Diversity.

Пошаговый алгоритм

Процесс А: Онлайн обслуживание запроса (Online Serving)

Получение результатов: Система получает результаты для входного запроса.
Инициализация переменных разнообразия: Инициализируются наборы Used Terms (UT) терминами входного запроса и Used Documents (UD) документами из результатов.
Итерация по документам: Система начинает итерацию по документам в результатах (начиная с верхнего).
Получение данных из D-Q-D: Для текущего документа (Indexing Document) извлекаются соответствующие разделы Q-D из D-Q-D Model.
Фильтрация по разнообразию терминов (Term Diversity): Каждый извлеченный запрос проверяется. Если все термины запроса уже содержатся в UT, он фильтруется.
Оценка и фильтрация по разнообразию результатов (Result Diversity): Для оставшихся запросов система оценивает связанные с ними документы (из Q-D раздела).
- Вычисляется оценка (score) для документа (например, функция от оценки индексирующего документа и оценки целевого документа).
- Если документ НЕ содержится в UD, он добавляется в набор Candidate Queries (CQ) в формате <Запрос, Документ, Оценка>.
Сортировка кандидатов: Записи в CQ сортируются по оценке.
Выбор предлагаемого запроса: Система итерирует по отсортированному CQ. Первая запись, удовлетворяющая всем критериям (запрос не использован, термины разнообразны, документ не использован, ограничения по длине соблюдены), выбирается как предлагаемый запрос.
Обновление переменных разнообразия: Термины выбранного запроса добавляются в UT. Целевой документ добавляется в UD. Запрос помечается как использованный.
Повторение выбора: Шаги 8-9 повторяются до тех пор, пока не будет найдено достаточное количество предлагаемых запросов для текущего документа или пока CQ не будет исчерпан.
Переход к следующему документу: Повторение шагов 4-10 для следующего документа в выдаче.
Предоставление результатов: Выдача с аннотированными предлагаемыми запросами предоставляется пользователю.

Процесс Б: Офлайн построение D-Q-D Model (Offline Model Creation)

Сбор и фильтрация запросов: Извлечение запросов из логов и удаление нежелательных (слишком длинных, URL-подобных, с нежелательными терминами).
Создание Q-D Моделей: Для каждого запроса определяются релевантные документы на основе User Behavior Data. Документы оцениваются (Quality of Result Statistic) и фильтруются по порогу оценки. Запросы с недостаточным количеством документов также фильтруются. Документы сортируются по оценке.
Создание D-Q Моделей: Инвертирование Q-D моделей для ассоциации запросов с документами.
Построение D-Q-D Модели: Объединение D-Q и Q-D моделей. К каждому запросу в D-Q модели присоединяется соответствующая Q-D модель.
Аннотирование: В каждом Q-D разделе помечается индексирующий документ.
Обеспечение разнообразия в модели: Фильтрация запросов для каждого индексирующего документа на основе коллизий терминов (query term collisions) для обеспечения разнообразия внутри модели.
Сокращение модели (Capping): Ограничение количества документов для каждого запроса и ограничение количества запросов для каждого документа для оптимизации размера модели.
Хранение: Сохранение финальной D-Q-D Model.

Какие данные и как использует

Данные на входе

Ключевыми данными для этого патента являются поведенческие факторы.

Поведенческие факторы (User Behavior Data): Это основа для построения D-Q-D Model. Используются данные о реакции пользователей на документы в результатах поиска. Конкретно упоминаются:
- Click Data (Данные о кликах): Частота выбора документа пользователями.
- Dwell Time (Время просмотра): Продолжительность просмотра документа пользователем после клика (Long Click vs Short Click).
- Result Selection Logs (Журналы выбора результатов): Записи, содержащие запрос, документ, время просмотра, язык и страну пользователя.
Контентные факторы: Текст запросов используется для оценки Term Diversity и для фильтрации коллизий терминов при построении модели.
Системные данные: Патент упоминает, что для определения релевантности могут использоваться и другие источники, например, стандартные оценки информационного поиска (IR score), хотя фокус сделан на поведении пользователей.

Какие метрики используются и как они считаются

Quality of Result Statistic (Оценка релевантности документа запросу): Вычисляется офлайн. Основана на User Behavior Data. Пример расчета: взвешенное среднее количества длинных кликов (weighted average of the count of long clicks) для данного документа и запроса. Эта оценка используется для ранжирования документов внутри Q-D моделей.
Оценка Кандидата (Serving Score): Вычисляется онлайн при выборе предлагаемого запроса. Это функция от оценки индексирующего документа и оценки целевого документа (оба значения берутся из D-Q-D Model). Возможные функции:
- Минимум из двух оценок.
- Максимум из двух оценок.
- Комбинация (сумма, среднее, произведение) двух оценок.
Term Diversity (Разнообразие терминов): Метрика (часто булева), определяющая, содержит ли кандидатский запрос хотя бы один термин, не входящий в набор Used Terms (UT). Могут использоваться алгоритмы нечеткого сравнения (edit distance, синонимы, морфология).
Result Diversity (Разнообразие результатов): Булева метрика, определяющая, отсутствует ли целевой документ в наборе Used Documents (UD).
Пороги фильтрации (Thresholds): Используются при построении модели для удаления запросов и документов с недостаточным количеством данных или низкими оценками релевантности.

Поведение пользователей определяет связи между документами: D-Q-D Model строится на основе того, как пользователи взаимодействуют с результатами (User Behavior Data, Click Data). Релевантность в этой системе — это не текстовое совпадение, а подтвержденная пользователями полезность документа для запроса.
Приоритет разнообразия (Diversity): Система активно ищет новизну. Предлагаемый запрос должен удовлетворять двум строгим критериям: Term Diversity (новые термины по сравнению с исходным запросом) и Result Diversity (вести к документам, отсутствующим в текущей выдаче).
Подсказки привязаны к документам, а не к запросу: В отличие от стандартных механизмов расширения запроса, этот патент предлагает подсказки для конкретного результата в SERP. Это позволяет генерировать более специфичные и контекстуальные предложения.
Двухэтапная архитектура (Офлайн/Онлайн): Сложные вычисления по анализу поведения и построению D-Q-D Model выполняются офлайн. Это позволяет системе быстро генерировать подсказки в реальном времени, используя предварительно рассчитанную модель.
Самоочищающаяся модель: Процесс построения модели включает агрессивную фильтрацию и сокращение (capping) для удаления шума, обеспечения качества и оптимизации размера модели, что затрудняет манипуляции.

Best practices (это мы делаем)

Оптимизация под удовлетворенность пользователя (User Satisfaction): Поскольку D-Q-D Model основана на User Behavior Data (особенно Long Clicks), критически важно создавать контент, который полностью отвечает интенту пользователя и удерживает его на странице. Это повышает Quality of Result Statistic, что необходимо для включения в модель и получения высоких оценок.
Построение Topical Authority через связанные интенты: Необходимо добиваться высокой релевантности документа не только для одного основного запроса, но и для кластера связанных запросов. Чем больше качественных связей (D-Q) имеет документ в модели, тем выше вероятность, что он будет участвовать в генерации подсказок (как источник или как цель).
Анализ путей пользователя (User Journey): Изучайте, какие запросы приводят пользователей на страницу и куда они уходят дальше. Понимание этих связей помогает оптимизировать контент так, чтобы он соответствовал логике D-Q-D Model. Если ваш сайт является авторитетным источником в нише, этот механизм может направлять к вам трафик из смежных тематик.
Создание уникальной ценности (Diversity): Разрабатывайте контент, который предлагает уникальную перспективу или информацию, отсутствующую у конкурентов в ТОПе. Система ищет разнообразие (Result Diversity), поэтому уникальный и полезный контент имеет больше шансов стать целью предлагаемого запроса.

Worst practices (это делать не надо)

Игнорирование поведенческих факторов (Bounce Rate, Dwell Time): Фокус исключительно на текстовой релевантности или ссылках при игнорировании удовлетворенности пользователей приведет к низким оценкам в D-Q-D Model. Short Clicks сигнализируют о низкой релевантности.
Создание узконаправленного тонкого контента: Контент, оптимизированный под один узкий запрос и не отвечающий на смежные интенты, будет иметь мало связей в D-Q-D Model и не сможет эффективно участвовать в этом механизме перелинковки трафика.
Дублирование контента конкурентов: Создание контента, который полностью повторяет информацию, уже присутствующую в ТОПе выдачи. Система активно фильтрует такие результаты через механизм Result Diversity (проверка Used Documents).

Стратегическое значение

Патент подтверждает критическую важность данных о поведении пользователей в экосистеме Google. Он описывает конкретный механизм, где Google использует эти данные не просто для ранжирования, а для активного построения карты связей между документами через призму пользовательских запросов. Стратегически это означает, что SEO должно быть сосредоточено на реальной полезности контента и покрытии всего спектра интентов в рамках темы. Успех в этой системе измеряется не только позициями, но и тем, насколько центральным узлом в тематической карте (D-Q-D Model) является ваш документ.

Практические примеры

Сценарий 1: Генерация подсказок для статьи о контроле версий

Исходный запрос: "version control".
Результат в выдаче (Документ А): Страница Википедии "Revision control".
Офлайн данные (D-Q-D Model): Модель показывает, что пользователи, которые находят Документ А полезным (long clicks), также часто ищут "versioning", "source control" и "control system" и находят по ним другие полезные документы (Документы Б, В, Г).
Проверка разнообразия (Онлайн):
- Term Diversity: Запросы "source control" и "versioning" содержат новые термины по сравнению с "version control".
- Result Diversity: Документы Б, В, Г отсутствуют в текущей выдаче по запросу "version control".
Результат: К результату Документ А добавляются подсказки: [See results for versioning, source control, control system].

Сценарий 2: Использование контента как тематического моста (SEO)

Задача: Продвинуть статью об уходе за кожаной обувью (Документ Н).
Действия: Создать максимально полезную статью, которая удовлетворяет пользователей по запросам "чистка кожаной обуви" (Запрос 1) и "как убрать соль с ботинок" (Запрос 2). Добиться высоких показателей Long Clicks по обоим запросам.
Результат в D-Q-D: В модели формируется связь: Документ Н ↔ Запрос 1 и Документ Н ↔ Запрос 2.
Эффект: Когда пользователь ищет "чистка кожаной обуви", он видит Документ Н. Система может предложить подсказку [See results for как убрать соль с ботинок], используя связь в модели. И наоборот. Это увеличивает точки входа на Документ Н, связывая смежные темы.

Что такое модель D-Q-D и как она строится?

Модель Document-to-Query-to-Document (D-Q-D) — это структура данных, которая связывает документы через запросы. Она строится офлайн на основе анализа поведения пользователей (User Behavior Data), в частности, кликов и времени просмотра (Dwell Time). Сначала система определяет, какие документы релевантны каким запросам (Q-D модель), затем инвертирует это (D-Q модель) и объединяет их. Если Документ А релевантен Запросу X, и Запрос X релевантен Документу Б, модель устанавливает связь D(A)→Q(X)→D(B).

Что означают критерии Term Diversity и Result Diversity?

Это два ключевых фильтра для обеспечения новизны предлагаемых запросов. Term Diversity требует, чтобы предлагаемый запрос содержал хотя бы один термин, которого нет в исходном запросе или других подсказках. Result Diversity требует, чтобы предлагаемый запрос вел к документам, которые отсутствуют в текущей поисковой выдаче. Цель — избежать предложения синонимичных запросов, ведущих к тем же самым результатам.

Как система определяет релевантность документа запросу в этой модели?

Релевантность определяется в первую очередь на основе User Behavior Data. Система вычисляет Quality of Result Statistic, которая часто основывается на концепции Long Clicks (длительное время взаимодействия с документом после клика). Чем выше удовлетворенность пользователей документом по данному запросу, тем выше его оценка релевантности в модели D-Q-D.

Могу ли я повлиять на то, какие запросы предлагаются для моей страницы?

Напрямую контролировать это нельзя, но можно повлиять косвенно. Чтобы увеличить шансы на генерацию подсказок, ваша страница должна быть высоко релевантной (иметь высокие показатели Long Clicks) для нескольких разнообразных, но тематически связанных запросов. Создание контента, который всесторонне раскрывает тему и отвечает на смежные интенты, способствует формированию нужных связей в D-Q-D модели.

Почему для одних документов в выдаче есть подсказки, а для других нет?

Это зависит от нескольких факторов. Во-первых, документ должен присутствовать в D-Q-D модели как индексирующий документ с достаточным количеством данных. Во-вторых, должны существовать связанные запросы и документы, которые удовлетворяют строгим критериям Term Diversity и Result Diversity. Если документ новый, узкоспециализированный или имеет низкие показатели удовлетворенности пользователей, подсказки могут не генерироваться.

Как этот патент связан с Topical Authority?

Он имеет прямую связь. Чтобы стать центральным узлом в D-Q-D модели, сайт или страница должны демонстрировать авторитетность по широкому спектру запросов в рамках темы. Система идентифицирует авторитетные источники через анализ поведения пользователей. Развитие Topical Authority естественным образом ведет к формированию множества сильных связей D-Q, что является основой для работы этого механизма.

Использует ли система стандартные IR-оценки (текстовую релевантность) в этом алгоритме?

Патент упоминает, что IR scores могут использоваться как альтернативный или дополнительный источник для определения релевантности при построении модели. Однако основной фокус сделан на User Behavior Data (клики и время просмотра) как на более надежный индикатор реальной полезности контента для пользователя.

Как система решает, какой из множества кандидатов выбрать в качестве подсказки?

Система рассчитывает оценку (Serving Score) для каждой пары <Кандидатский Запрос, Целевой Документ>. Эта оценка является функцией от оценок релевантности как исходного документа, так и целевого документа (взятых из D-Q-D модели). Кандидаты сортируются по этой оценке, и выбираются лучшие, которые также удовлетворяют критериям разнообразия.

Что происходит, если я создам много похожих страниц, чтобы занять больше места в выдаче?

Этот механизм активно борется с таким подходом через фильтр Result Diversity. Система поддерживает список Used Documents (UD). Если предлагаемый запрос ведет к документу, который уже есть в выдаче (даже если это другая страница вашего сайта), этот запрос будет отфильтрован. Система ищет новизну, а не дублирование.

Насколько агрессивно фильтруются данные при создании D-Q-D модели?

Фильтрация достаточно агрессивна. Удаляются нежелательные запросы (длинные, спамные), документы с низкими показателями удовлетворенности пользователей и запросы с недостаточным количеством релевантных документов. Также применяется сокращение (capping) количества связей и фильтрация по коллизиям терминов для обеспечения качества и оптимизации размера модели.

Как Google анализирует поведение пользователей для выбора разнообразных связанных запросов и диверсификации контента на выдаче

Google использует механизм для диверсификации предложений на странице результатов (например, связанных запросов или рекламных блоков), основанный на анализе сессий пользователей. Система отбирает подсказки, которые часто следуют за исходным запросом (высокая «Utility»), но при этом редко следуют друг за другом (высокая «Diversity»). Это позволяет покрыть разные намерения пользователя, исходящие из одного неоднозначного запроса.

US8631030B1
2014-01-14

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует цепочки запросов и время взаимодействия для определения и ранжирования результатов, которые действительно нужны пользователям

Google анализирует последовательности запросов пользователей (цепочки запросов) и время между кликами и последующими запросами (время взаимодействия), чтобы определить удовлетворенность пользователя. Если пользователи часто переформулируют Запрос А в Запрос Б, прежде чем найти удовлетворительный результат, Google использует эти данные, чтобы ранжировать этот удовлетворительный результат выше по исходному Запросу А и предлагать Запрос Б в качестве связанного поиска.

US9342600B1
2016-05-17

Поведенческие сигналы
Семантика и интент
SERP

Как Google ранжирует персональные документы (письма, файлы), используя обобщенные данные о взаимодействии на уровне признаков

Google решает проблему ранжирования личных документов (например, электронных писем), для которых нет истории кликов. Вместо анализа кликов по конкретному документу система анализирует взаимодействие на уровне признаков. Она агрегирует данные о том, как миллионы пользователей взаимодействуют с документами, имеющими схожие признаки (например, структуру темы письма или отправителя), и использует эти данные для ранжирования похожих документов в вашем личном поиске.

US10394832B2
2019-08-27

Поведенческие сигналы
Персонализация

Как Google использует крупномасштабное машинное обучение и данные о поведении пользователей для предсказания кликов и ранжирования результатов

Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.

US7231399B1
2007-06-12

Поведенческие сигналы

Как Google использует связанные запросы и временный «бустинг» для обнаружения и тестирования релевантных документов, которые ранжируются низко

Патент описывает механизм улучшения поиска путем перемещения документов на более высокие позиции. Google идентифицирует документы, которые высоко ранжируются по связанным запросам (например, с синонимами, уточнениями или исправленными ошибками), но низко по исходному запросу, и повышает их. Цель — протестировать истинную релевантность этих документов и собрать пользовательский отклик (клики) для улучшения будущего ранжирования.

US8521725B1
2013-08-27

Поведенческие сигналы
SERP
Семантика и интент

Как Google использует данные о поведении пользователей внутри документов (время чтения разделов, закладки) для улучшения ранжирования

Google может собирать и анализировать данные о том, как пользователи взаимодействуют с электронными документами (например, PDF, DOC, HTML). Система отслеживает, какие разделы или страницы просматриваются дольше всего или добавляются в закладки. Эта агрегированная информация используется для повышения в ранжировании документов, чьи ключевые слова находятся в наиболее используемых (и, следовательно, ценных) разделах.

US8005811B2
2011-08-23

Поведенческие сигналы
SERP

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента

Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.

US8145636B1
2012-03-27

Семантика и интент
Поведенческие сигналы

Как Google определяет, действительно ли новость посвящена сущности, и строит хронологию событий

Google использует систему для определения релевантности новостей конкретным объектам (сущностям, событиям, темам). Система анализирует кластеры новостных статей (коллекции), оценивая общий интерес к объекту (поисковые запросы, социальные сети) и значимость объекта внутри коллекции (упоминания в заголовках, центральность в тексте). Ключевой механизм — оценка уместности событий: система проверяет, соответствует ли событие типу объекта (например, «новый метод лечения» для болезни), чтобы отфильтровать мимолетные упоминания и создать точную хронологию новостей.

US9881077B1
2018-01-30

Семантика и интент
Поведенческие сигналы

US7231399B1
2007-06-12

Поведенческие сигналы

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов

Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.

US7536408B2
2009-05-19

Индексация
Семантика и интент
Ссылки

Как Google определяет интент запроса, анализируя классификацию контента, который кликают пользователи

Google использует данные о поведении пользователей для классификации запросов. Система определяет, какой контент пользователи считают наиболее релевантным для запроса (на основе кликов и времени пребывания). Затем она анализирует классификацию этого контента (например, «продукт», «новости», «взрослый контент») и присваивает доминирующую классификацию самому запросу. Это позволяет уточнить интент и скорректировать ранжирование.

US8838587B1
2014-09-16

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует данные о наведении курсора (Hover Data) для ранжирования изображений и борьбы с кликбейтными миниатюрами

Google использует данные о взаимодействии пользователя с миниатюрами в поиске по картинкам (наведение курсора) как сигнал интереса. Для редких запросов эти сигналы получают больший вес, дополняя недостаток данных о кликах. Система также вычисляет соотношение кликов к наведениям (Click-to-Hover Ratio), чтобы идентифицировать и понижать в выдаче «магниты кликов» — привлекательные, но нерелевантные изображения, которые собирают много наведений, но мало кликов.

US8819004B1
2014-08-26

Поведенческие сигналы
Мультимедиа
SERP

Как Google (YouTube) ранжирует видео, повышая те, которые начинают сессию просмотра и приводят внешний трафик ("Lead Video")

Google использует систему ранжирования для видеоплатформ, которая идентифицирует "ведущее видео" (Lead Video), инициирующее сессию просмотра. Система применяет повышающие коэффициенты (Scaling Factors) ко времени просмотра этого видео. Видео, привлекшие пользователя на платформу из внешних источников (например, из социальных сетей или поиска Google), получают значительно больший коэффициент, чем те, что были найдены через внутренние рекомендации.

US10346417B2
2019-07-09

Мультимедиа
Поведенческие сигналы
SERP

Как Google использует пользовательский контент (UGC) и историю поиска для сбора структурированных отзывов

Google анализирует пользовательский контент (фотографии, посты, метаданные) и историю поиска, чтобы определить, с какими объектами (места, продукты, услуги) взаимодействовал пользователь. Система проактивно предлагает оставить структурированный отзыв, используя шаблон, который может быть предварительно заполнен на основе тональности исходного UGC. Это направлено на увеличение объема и подлинности отзывов.

US20190278836A1
2019-09-12

Семантика и интент
Персонализация
EEAT и качество

Как Google использует паттерны просмотра пользователей (Co-Visitation) и временную близость для определения тематики нетекстового контента (изображений и видео)

Google использует механизм для понимания контента без текста (изображения, видео), анализируя, какие другие (текстовые) страницы пользователи посещают в рамках той же сессии. Ключевые слова с этих текстовых страниц заимствуются и присваиваются нетекстовому ресурсу. Критически важным фактором является время перехода: чем быстрее пользователь перешел между ресурсами, тем больший вес получают ключевые слова.

US8572096B1
2013-10-29

Поведенческие сигналы
Семантика и интент
Мультимедиа