Как Google использует модель "Документ-Запрос-Документ" (D-Q-D) для генерации разнообразных связанных запросов прямо в сниппетах результатов

Google патентует механизм генерации предложений связанных запросов, привязанных к конкретным результатам поиска (сниппетам). Используя модель D-Q-D, основанную на поведении пользователей (клики и время пребывания), система находит альтернативные запросы, которые ведут к релевантному, но разнообразному (diverse) контенту, позволяя пользователям исследовать смежные темы.

Описание

Какую задачу решает

Патент решает проблему навигации и исследования контента (information exploration). Пользователи часто хотят изучить темы, связанные с результатами их исходного поиска, но им сложно сформулировать подходящие запросы для этого. Изобретение предлагает механизм, аналогичный просмотру соседних книг на библиотечной полке, позволяя пользователю исследовать смежные, но разнообразные (diverse) темы, отправной точкой для которых служат конкретные документы в текущей выдаче.

Что запатентовано

Запатентована система генерации предложений запросов (Query Suggestions), основанных на конкретных результатах поиска (result-based). Центральным элементом является создание и использование Document-to-Query-to-Document (D-Q-D) Model. Эта модель связывает документы друг с другом через промежуточные запросы, для которых оба документа релевантны. Связи формируются на основе анализа данных о поведении пользователей (User Behavior Data).

Как это работает

Система функционирует в два этапа: офлайн-построение модели и онлайн-генерация предложений.

Офлайн (Построение D-Q-D): Система анализирует агрегированные поведенческие данные (клики, время пребывания), чтобы определить, какие документы релевантны для каких запросов (модели Q-D). Затем эти данные инвертируются (модели D-Q) и комбинируются для создания D-Q-D модели. Модель показывает: для Документа A релевантен Запрос X, который также ведет к Документам B и C.
Онлайн (Генерация предложений): Когда пользователь вводит запрос и получает результаты (например, Документ A), система обращается к D-Q-D модели. Она ищет связанные запросы (Запрос X), которые удовлетворяют двум критериям разнообразия: содержат новые термины (Query Diversity) и ведут к новым документам (Документ B), отсутствующим в текущей выдаче (Result Diversity). Запрос X предлагается пользователю в сниппете Документа A.

Актуальность для SEO

Высокая. Моделирование взаимосвязей между документами и запросами на основе поведения пользователей является фундаментальной частью современного поиска. Учитывая фокус Google на понимании интентов и помощи в исследовании тем (Search Journeys), а также участие Пола Хаара (Paul Haahr), этот патент описывает ключевой механизм для улучшения навигации и качества поиска. Лежащая в основе технология актуальна для многих функций SERP.

Важность для SEO

Влияние на SEO значительно (85/100). Этот патент подчеркивает критическую важность сильных сигналов пользовательского взаимодействия (Long Clicks, Dwell Time), поскольку именно эти данные формируют основу D-Q-D модели. Он смещает фокус с оптимизации под отдельные ключевые слова на построение тематического авторитета, где страница становится узлом релевантности для множества разнообразных, но связанных кластеров запросов.

Детальный разбор

Термины и определения

Document-to-Query-to-Document (D-Q-D) Model (Модель Документ-Запрос-Документ): Основная структура данных патента. Связывает исходный документ с набором запросов, для которых он релевантен, и далее связывает каждый из этих запросов с другими документами, которые релевантны для этого запроса.
Query-to-Document (Q-D) Model (Модель Запрос-Документ): Представление данных, показывающее, какие документы релевантны для определенного запроса. Строится на основе User Behavior Data.
Document-to-Query (D-Q) Model (Модель Документ-Запрос): Инвертированная Q-D модель. Показывает, для каких запросов релевантен определенный документ.
User Behavior Data (Данные о поведении пользователей): Агрегированные данные о взаимодействии пользователей с результатами поиска. Включают Click Data и Dwell Time.
Click Data (Данные о кликах): Данные о частоте выбора документа и времени пребывания на нем.
Long Click / Short Click (Длинный клик / Короткий клик): Классификация кликов по времени пребывания (Dwell Time). Long Click интерпретируется как признак релевантности; Short Click – как признак отсутствия релевантности.
Indexing Document (Индексирующий документ): Исходный документ в D-Q-D модели (первая «D»), для которого генерируются предложения запросов.
Used Terms (UT) (Использованные термины): Набор терминов, уже присутствующих в исходном запросе и ранее выбранных предложениях. Используется для обеспечения Query Diversity.
Used Documents (UD) (Использованные документы): Набор документов, уже присутствующих в исходной выдаче или связанных с ранее выбранными предложениями. Используется для обеспечения Result Diversity.
Query Diversity (Разнообразие запросов): Требование, чтобы предложенный запрос содержал термины, отличные от уже использованных (не в UT).
Result Diversity (Разнообразие результатов): Требование, чтобы предложенный запрос вел к документам, отличным от уже показанных (не в UD).
Relevance Measure (Мера релевантности): Метрика, определяющая релевантность документа запросу, основанная на User Behavior Data.

Ключевые утверждения (Анализ Claims)

Патент US10459989B1 является продолжением (continuation) более ранних заявок и фокусируется на методе генерации модели D-Q-D.

Claim 1 (Основной независимый пункт): Описывает метод генерации и использования D-Q-D модели.

Генерация моделей D-Q: Создается набор моделей Document-to-Query. Каждая модель связывает документ с запросами, для которых мера релевантности (relevance measure) этого документа удовлетворяет пороговому значению.
Идентификация и Присоединение моделей Q-D: Для каждого запроса в моделях D-Q идентифицируются соответствующие модели Query-to-Document (которые также удовлетворяют порогу релевантности). Эти Q-D модели присоединяются к соответствующим запросам в D-Q моделях.
Построение D-Q-D: Этот процесс формирует D-Q-D модель, которая связывает документы с другими связанными документами через общие запросы.
Использование D-Q-D: Использование созданной D-Q-D модели для предоставления поисковых результатов или предложенных запросов (suggested queries).

Claim 4 (Зависимый): Уточняет основу меры релевантности.

Relevance measure основывается на частоте, с которой пользователи взаимодействуют с результатами поиска (т.е. поведенческие данные, клики).

Claim 6 (Зависимый): Описывает обеспечение разнообразия при создании модели.

Идентификация двух запросов в D-Q модели, которые имеют пороговое сходство друг с другом, и удаление одного из них для обеспечения разнообразия (борьба с Query Term Collisions).

Claim 7 (Зависимый): Описывает оптимизацию размера модели (Capping).

Ограничение количества документов в Q-D модели, если их число превышает порог, путем удаления менее релевантных.

Где и как применяется

Изобретение затрагивает офлайн-процессы обработки данных и онлайн-процессы генерации поисковой выдачи.

INDEXING – Индексирование и извлечение признаков (Офлайн-процессы)
На этом этапе (или в рамках схожих процессов анализа логов) происходит основная работа по построению D-Q-D модели. Система (D-Q-D Model Creation Engine) обрабатывает логи поведения пользователей (Result Selection Logs), вычисляет метрики релевантности на основе Click Data и выполняет многоступенчатый процесс генерации, фильтрации и оптимизации модели D-Q-D.

RANKING – Ранжирование (Онлайн-процессы)
Основная поисковая система генерирует исходный набор ранжированных результатов для запроса пользователя.

RERANKING / METASEARCH – Переранжирование и Смешивание (Онлайн-процессы)
Основное применение патента в реальном времени. После получения исходных результатов активируется Query Suggestion Engine. Он обрабатывает топовые результаты, консультируется с заранее построенной D-Q-D моделью, идентифицирует и оценивает кандидатные запросы на основе критериев релевантности и разнообразия (Query Diversity и Result Diversity). Затем он модифицирует SERP, встраивая предложенные запросы в сниппеты соответствующих документов.

Входные данные (Онлайн):

Исходный запрос пользователя.
Набор ранжированных результатов поиска.
Предварительно построенная D-Q-D модель.

Выходные данные (Онлайн):

Аннотированная страница результатов поиска (SERP), где сниппеты содержат ссылки на предложенные запросы.

На что влияет

Типы контента и запросы: Наибольшее влияние оказывается на информационные и исследовательские запросы, где пользователи заинтересованы в изучении широкой темы. Влияет на страницы, которые служат авторитетными ответами на несколько различных, но связанных интентов.
Навигация пользователя: Механизм напрямую влияет на путь пользователя (Search Journey), предлагая новые направления для исследования, которые могут радикально отличаться от исходного запроса.

Когда применяется

Условия работы: Алгоритм применяется в реальном времени при генерации SERP.
Триггеры активации: Активируется, если для документа в результатах поиска существует запись в D-Q-D модели, и эта запись содержит связанные запросы, удовлетворяющие строгим критериям Query Diversity (новые термины) и Result Diversity (новые документы).

Пошаговый алгоритм

Процесс разделен на две части: создание модели (Офлайн) и генерация предложений (Онлайн).

Процесс А: Создание D-Q-D Модели (Офлайн) (FIGS 4A-C, 6A-B)

Сбор данных и Фильтрация запросов: Получение User Behavior Data. Удаление нежелательных запросов (длинных, спамных, с низким объемом данных).
Генерация Q-D моделей: Для каждого запроса идентификация документов и расчет оценки релевантности (Score) на основе поведенческих данных (например, long clicks). Фильтрация документов с низкой оценкой.
Фильтрация и Сортировка Q-D: Удаление запросов с недостаточным количеством связанных документов. Сортировка документов в оставшихся Q-D моделях по оценке.
Генерация D-Q моделей (Инверсия): Инвертирование Q-D моделей для ассоциации запросов с документами.
Построение D-Q-D модели (Комбинирование): Объединение D-Q и Q-D моделей. К каждому запросу в D-Q модели присоединяется соответствующая Q-D модель.
Аннотирование: Пометка исходного (индексирующего) документа в присоединенных Q-D секциях.
Обеспечение разнообразия (Query Diversity): Фильтрация схожих запросов для каждого индексирующего документа (разрешение Query Term Collisions).
Ограничение размера (Capping): Ограничение количества документов для каждого запроса (в Q-D секциях) и количества запросов для каждого документа (в D-Q секциях) для оптимизации размера.
Хранение: Сохранение финальной D-Q-D модели.

Процесс Б: Генерация предложений запросов (Онлайн) (FIGS 5A-C, 7)

Получение результатов: Получение ранжированного списка результатов для входного запроса.
Инициализация наборов: Инициализация Used Terms (UT) терминами входного запроса. Инициализация Used Documents (UD) документами из списка результатов.
Обработка результатов (Цикл): Для каждого документа в результатах:
1. Инициализация Candidate Queries (CQ).
2. Получение данных из модели: Извлечение Q-D секций, соответствующих этому документу, из D-Q-D модели.
3. Фильтрация запросов (Query Diversity Check): Удаление Q-D секций, если все термины их запроса уже содержатся в UT.
4. Скоринг и наполнение CQ (Result Diversity Check): Для оставшихся Q-D секций: анализ связанных документов. Если документ отсутствует в UD (т.е. он новый), расчет оценки и добавление записи в CQ. Оценка может быть функцией от оценки индексирующего документа и оценки нового документа.
5. Сортировка CQ: Сортировка записей в CQ по оценке.
6. Выбор предложений: Перебор записей в CQ. Если запись удовлетворяет всем критериям (запрос не использован, длина допустима, UT/UD проверки пройдены повторно), запрос выбирается как предложение.
7. Обновление: Термины выбранного запроса добавляются в UT. Новый документ добавляется в UD.
Предоставление результатов: Вывод SERP с интегрированными предложенными запросами.

Какие данные и как использует

Данные на входе

Система в первую очередь полагается на поведенческие факторы для построения модели взаимосвязей.

Поведенческие факторы (User Behavior Data): Это критически важные данные для определения релевантности. Используются Result Selection Logs. Конкретно упоминаются:
- Click Data: Частота выбора документа пользователями в ответ на запрос.
- Dwell Time (T): Время, проведенное пользователем на документе. Используется для различения long clicks (индикатор релевантности) и short clicks.
Пользовательские факторы: Язык (L) и страна (C) пользователя могут использоваться для создания специфичных D-Q-D моделей. Также упоминаются данные сессии, cookie, IP-адрес, user agent.
Контентные факторы: Термины запросов используются для анализа разнообразия (Query Diversity) и выявления коллизий.

Какие метрики используются и как они считаются

Relevance Measure (Мера релевантности) / Score: Оценка релевантности документа для запроса. Рассчитывается на основе User Behavior Data. В патенте упоминается возможность использования взвешенного среднего количества long clicks.
Query Term Collision / Similarity: Метрика схожести запросов. Используется для фильтрации похожих запросов при создании модели и для обеспечения разнообразия при генерации предложений. Может использовать алгоритмы Edit Distance, синонимы, морфологию.
Вес запроса (Query Weight): Используется при разрешении коллизий терминов. Предпочтение отдается запросу с большим весом (большей релевантностью).
Оценка Кандидата (Serving Time Score): Рассчитывается в реальном времени. Это функция от оценки индексирующего документа и оценки нового (разнообразного) документа в рамках D-Q-D модели (например, сумма, минимум или максимум этих оценок).

Выводы

Поведение пользователей как основа релевантности: Ядро D-Q-D модели строится на том, как пользователи реагируют на документы (click data, long clicks). Это подтверждает, что удовлетворение интента пользователя, подтвержденное поведением, является ключевым сигналом релевантности.
Моделирование связей через Интент, а не Ссылки: Модель связывает документы не через гиперссылки или схожесть контента, а через общие запросы (интенты), которые они удовлетворяют. Это позволяет находить неочевидные тематические связи.
Приоритет разнообразия (Diversity): Система имеет жесткие требования к разнообразию. Предложенный запрос должен содержать новые термины (Query Diversity) и вести к новым документам (Result Diversity). Цель — помочь пользователю исследовать смежные темы, а не просто уточнить текущую.
Предложения привязаны к результатам: В отличие от общих «Похожих запросов», этот механизм генерирует предложения индивидуально для каждого результата в выдаче, обеспечивая высокую контекстуальность.
Важность «Широкой» релевантности: Документы, которые демонстрируют сильные поведенческие сигналы по нескольким различным запросам, получают преимущество, так как они становятся важными узлами в D-Q-D модели.

Практика

Best practices (это мы делаем)

Фокус на удовлетворении интента (User Satisfaction): Критически важно создавать контент, который полностью отвечает на запрос и удерживает пользователя (стимулируя Long Clicks и минимизируя Short Clicks). Положительные поведенческие сигналы напрямую влияют на включение и вес документа в D-Q-D модели.
Построение Тематического Авторитета (Topical Authority): Развивайте контент так, чтобы он был релевантен широкому спектру связанных, но разнообразных запросов внутри кластера. Страница должна стремиться быть качественным ответом на несколько смежных интентов.
Анализ путей пользователя и смежных тем: Изучайте, какие темы пользователи исследуют в связке с вашими основными запросами. Создавайте контент, который поддерживает эти переходы. Это увеличивает вероятность того, что ваш сайт станет целью для предложенных запросов (Diverse Result) по смежным темам.
Оптимизация сниппетов для CTR: Поскольку для работы модели необходимы данные о кликах, важно максимизировать кликабельность релевантных страниц в выдаче, чтобы усилить связь между запросом и документом.

Worst practices (это делать не надо)

Использование кликбейта: Привлечение трафика с помощью заголовков, не соответствующих содержанию, приведет к Short Clicks. Это снизит оценку релевантности документа и его вес в D-Q-D модели.
Создание узконаправленного тонкого контента: Контент, оптимизированный под один узкий запрос и не представляющий ценности для смежных тем, вряд ли станет значимым узлом в D-Q-D модели и не сможет генерировать разнообразные предложения.
Игнорирование поведенческих метрик и UX: Плохой пользовательский опыт, ведущий к низкому времени пребывания на сайте, напрямую негативно влияет на метрики, используемые для построения этой модели.

Стратегическое значение

Этот патент подтверждает стратегию Google по использованию больших данных о поведении пользователей для моделирования семантических связей и понимания контента. Он демонстрирует механизм, позволяющий Google направлять пользователей по пути исследования информации (Search Journey). Для SEO это означает, что долгосрочная стратегия должна быть сосредоточена на создании высококачественного, тематически связанного контента, который демонстрирует положительные поведенческие сигналы и удовлетворяет разнообразные интенты пользователей.

Практические примеры

Сценарий: Оптимизация страницы о контроле версий (на основе FIG. 8 патента)

Текущая ситуация: У вас есть авторитетная страница (например, на encyclopedia.org) о том, что такое контроль версий. Она хорошо ранжируется по запросу [version control].
Анализ D-Q-D: Google анализирует поведение и видит, что эта страница также часто удовлетворяет пользователей (Long Clicks) по запросам [source control] и [control system]. Также Google видит, что другие релевантные документы для этих запросов отличаются от текущей выдачи.
Применение механизма: Пользователь ищет [version control]. Ваша страница появляется в ТОП-1. Google проверяет D-Q-D модель.
Результат в выдаче: В сниппете вашей страницы появляется ссылка: «[See results for versioning, source control, control system]».
SEO-действие: Необходимо убедиться, что ваша страница действительно качественно отвечает на интенты всех этих связанных запросов (не только основного), чтобы поддерживать сильные поведенческие сигналы по ним и укрепить связи в D-Q-D модели. Это подтверждает ценность широкого тематического охвата в рамках одной страницы.

Вопросы и ответы

Что такое модель D-Q-D и почему она важна для SEO?

D-Q-D (Document-to-Query-to-Document) – это модель, которая связывает документы через общие запросы, по которым пользователи нашли эти документы релевантными. Для SEO это важно, так как показывает механизм, как контент может быть обнаружен по смежным, но семантически отличающимся темам. Это подчеркивает важность тематического покрытия и удовлетворения интента для расширения охвата за пределы прямых ключевых слов.

На чем основана релевантность в этой модели?

Релевантность в D-Q-D Model основана исключительно на агрегированных данных о поведении пользователей (User Behavior Data). В частности, используются Click Data и Dwell Time. Если пользователи часто кликают на документ по запросу и проводят на нем много времени (Long Clicks), система считает эту связь сильной.

Что означают требования Query Diversity и Result Diversity?

Это два ключевых фильтра для выбора предложений. Query Diversity требует, чтобы предложенный запрос содержал новые термины (проверяется через Used Terms). Result Diversity требует, чтобы предложенный запрос вел к новым документам, которых нет в текущей выдаче (проверяется через Used Documents). Оба условия гарантируют, что предложение будет полезным для исследования темы.

Чем это отличается от блока «Похожие запросы» (Related Searches)?

Ключевое отличие в том, что эти предложения привязаны к конкретному документу в выдаче (result-based), а не к исходному запросу в целом. Это позволяет давать гораздо более контекстуальные и специфичные предложения, основанные на содержании этого конкретного документа и его связях в D-Q-D Model.

Как SEO-специалист может оптимизировать сайт под эту модель?

Ключевая стратегия — максимизация удовлетворенности пользователя. Необходимо создавать контент, который стимулирует Long Clicks и минимизирует Short Clicks. Также важно развивать тематический авторитет, создавая кластеры связанного контента, чтобы увеличить шансы сайта стать «Diverse Result» для смежных запросов.

Может ли эта система предложить запрос, который вообще не содержит слов из исходного запроса?

Да. Это одна из целей изобретения. Например, по запросу [green] может быть предложен запрос [bisphenol a], если они связаны через общий документ (например, руководство по экологии). Система требует наличия хотя бы одного нового термина, но не требует сохранения исходных терминов.

Что такое «Capping» при создании модели и как это влияет на меня?

Capping — это ограничение количества связей в модели (запросов на документ и документов на запрос) для оптимизации ее размера и производительности. Это означает, что система сохраняет только самые сильные и релевантные связи. Вам нужно стремиться быть одним из лучших результатов с наилучшими поведенческими сигналами, чтобы попасть в эту оптимизированную модель.

Использует ли D-Q-D модель ссылки между сайтами?

Нет, в данном патенте не упоминается использование ссылочного графа для построения D-Q-D Model. Модель строится на основе связей между документами и запросами через данные о поведении пользователей, а не на основе гиперссылок между документами.

Как рассчитывается оценка для выбора лучшего предложенного запроса?

Оценка (Serving Time Score) рассчитывается в реальном времени. Она учитывает две вещи: насколько релевантен текущий документ для альтернативного запроса, и насколько релевантен новый документ (к которому ведет альтернативный запрос) для этого же запроса. Может использоваться сумма, среднее, минимум или максимум этих двух оценок релевантности.

Влияет ли E-E-A-T на эту модель?

Патент напрямую не упоминает E-E-A-T, но существует сильная косвенная связь. Сайты с высоким E-E-A-T обычно демонстрируют лучшие поведенческие сигналы (больше доверия, выше Dwell Time, больше Long Clicks). Поскольку эти сигналы являются основой D-Q-D Model, работа над E-E-A-T напрямую способствует укреплению позиций сайта в этой системе.

Как Google использует модель «Документ-Запрос-Документ» (D-Q-D) для генерации разнообразных связанных запросов прямо в сниппетах результатов