Как Google использует связь "Документ-Запрос" и поведение пользователей для генерации блока "Связанные запросы" (Related Searches)

Google генерирует «Связанные запросы» (Related Searches), анализируя, какие еще запросы приводят пользователей к тем же документам, что и исходный запрос. Если Документ X релевантен Запросам A и B, то Запрос B может быть предложен как уточнение для Запроса A. Эта связь усиливается кликами и временем пребывания пользователя на документе.

Описание

Какую задачу решает

Патент решает задачу автоматической генерации релевантных уточнений (refined search queries) для исходного запроса пользователя. Цель — помочь пользователю лучше изучить тему, разрешить неоднозначность запроса и повысить точность поиска, предлагая альтернативные формулировки, которые часто приводят к релевантным результатам. Это улучшает пользовательский опыт за счет сокращения усилий, необходимых для ручного переформулирования запросов.

Что запатентовано

Запатентована система генерации уточнений запросов, основанная на анализе связей между документами и запросами, которые к ним приводят. Ключевым элементом является определение «сущностей» (entities или entity text strings) документа как ранее отправленных поисковых запросов, для которых этот документ был признан релевантным (и, в идеале, выбран пользователем). Система генерирует уточнения путем комбинирования исходного запроса с этими «сущностями», извлеченными из топовых результатов поиска.

Как это работает

Механизм работает следующим образом:

Сбор данных (Офлайн): Система анализирует логи поиска и поведение пользователей, чтобы определить, какие запросы приводят к кликам (особенно «длинным кликам» или dwell time) на конкретные документы. Эти запросы становятся «сущностями» документа.
Обработка запроса (Онлайн): Пользователь вводит Запрос A.
Анализ результатов: Система получает топовые документы для Запроса A.
Извлечение сущностей: Извлекаются «сущности» (Запросы B, C, D), связанные с этими топовыми документами.
Генерация кандидатов: Система комбинирует Запрос A с сущностями (A+B, A+C и т.д.), соблюдая правила: сохранение порядка слов исходного запроса и целостность сущности (unbroken sequence). Могут использоваться синонимы.
Фильтрация и Ранжирование: Кандидаты оцениваются (например, по частоте в логах, IDF) и лучшие выбираются как refined search queries (Связанные запросы).

Актуальность для SEO

Высокая. Генерация связанных запросов (Related Searches) и уточнение намерений пользователя остаются фундаментальными задачами поисковых систем. Описанный метод, связывающий запросы через общие релевантные документы и использующий поведенческие сигналы (клики, dwell time) для валидации этих связей, является актуальным подходом к пониманию семантической близости запросов.

Важность для SEO

Патент имеет высокое значение для SEO (8/10). Он раскрывает конкретный механизм, как Google может устанавливать семантические связи между запросами на основе поведения пользователей. Это подчеркивает важность построения Topical Authority: страница должна быть релевантной не одному запросу, а кластеру связанных запросов и подтверждать эту релевантность через высокое удовлетворение интента (dwell time). Понимание этого механизма позволяет влиять на то, какие запросы Google будет ассоциировать с вашим контентом и тематикой сайта.

Детальный разбор

Термины и определения

Entity / Entity Text String (Сущность / Текстовая строка сущности): Критически важное определение в контексте патента. Это ранее отправленный поисковый запрос, для которого конкретный документ был идентифицирован как релевантный. Ассоциация устанавливается, если количество таких запросов превышает порог, и усиливается, если пользователи выбирали этот документ по данному запросу.
Refined Search Query (Уточненный поисковый запрос): Предлагаемый пользователю альтернативный запрос, сгенерированный системой для улучшения результатов поиска. Часто отображается как «Related Searches».
Candidate (Кандидат): Потенциальный уточненный запрос, сгенерированный путем комбинации исходного запроса и сущности. Кандидаты проходят оценку перед тем, как стать Refined Search Query.
Search Logs (Логи поиска): База данных ранее отправленных запросов и связанных с ними данных (частота, время, поведение пользователей, клики).
Inverse Document Frequency (IDF): Мера того, насколько уникален термин в корпусе документов. Используется для оценки важности терминов в запросе и для скоринга сущностей.
Dwell Time / Long Click (Время пребывания / Длинный клик): Поведенческий сигнал, указывающий на время, проведенное пользователем на документе после клика в выдаче. Длительное время пребывания интерпретируется как признак релевантности документа запросу.
Unbroken Sequence (Непрерывная последовательность): Правило генерации кандидатов, требующее, чтобы термины сущности использовались вместе, без разделения.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Определяет основной метод генерации уточненных запросов.

Система получает первый поисковый запрос.
Получаются результаты поиска (документы), релевантные первому запросу.
Вычисляется количество вхождений других поисковых запросов, для которых первый документ (из результатов п.2) был релевантен.
Те другие запросы, чье количество вхождений удовлетворяет порогу, обозначаются как entity text strings для этого документа. (Это ключевое определение «сущности» как запроса).
Генерируется уточненный поисковый запрос путем комбинирования (i) терминов из entity text strings и (ii) терминов из первого поискового запроса.
Уточненный запрос предоставляется в ответ на первый запрос.

Claim 2 (Зависимый): Уточняет процесс генерации (п.5 из Claim 1).

Сгенерированный уточненный запрос включает unbroken sequence (непрерывную последовательность) нескольких терминов из entity text string. Это означает, что сущность (другой запрос) используется целиком или как целостная фраза, а не разбивается на отдельные слова при комбинировании.

Claims 4, 5, 6 (Зависимые): Детализируют, как вычисляется количество вхождений (п.3 из Claim 1) и как это связано с поведением пользователей.

Claim 4: Подсчет основан на запросах, для которых документ был показан в результатах поиска.
Claim 5: Подсчет основан на запросах, для которых документ был выбран (кликнут) пользователями.
Claim 6: Подсчет основан на запросах, для которых документ просматривался в течение порогового периода времени (dwell time или long click).

Эти пункты показывают, что поведенческие сигналы используются для валидации связи между запросом (сущностью) и документом.

Claims 7, 8, 9 (Зависимые): Описывают процесс оценки и ранжирования кандидатов в entity text strings.

Claim 7: Кандидаты ранжируются по вычисленным оценкам (scores), и лучшие ассоциируются с документом.
Claim 8: Оценка кандидата увеличивается, если он встречается в заголовке (Title) документа.
Claim 9: Начальная оценка кандидата может представлять собой оценку Inverse Document Frequency (IDF) для каждого термина в нем.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, интегрируя данные о поведении пользователей для улучшения понимания запросов.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка данных, необходимая для работы системы. Ассоциации между документами и запросами (сущностями), основанные на анализе логов и поведения, вычисляются и сохраняются в индексных файлах (Index File(s)). Также рассчитываются метрики, такие как IDF терминов и наличие сущностей в заголовках документов.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Система использует описанный механизм для интерпретации интента пользователя и генерации альтернативных (уточненных) запросов в реальном времени. Это помогает системе лучше понять контекст и предложить пользователю пути для дальнейшего исследования.

RANKING – Ранжирование
Этап ранжирования предоставляет исходный набор документов, релевантных запросу. Именно из этих (обычно топовых) документов система извлекает ассоциированные сущности для генерации уточнений.

METASEARCH – Метапоиск и Смешивание
Сгенерированные refined search queries предоставляются пользователю вместе с основными результатами поиска, обычно в виде отдельного блока (например, «Related Searches» или «Searches related to…»).

Входные данные:

Исходный поисковый запрос.
Список топовых документов, релевантных запросу.
База данных ассоциаций Документ-Запрос (Entity Text Strings), включая поведенческие данные (клики, dwell time).
Search Logs (используются для офлайн-вычислений и онлайн-валидации кандидатов).

Выходные данные:

Список ранжированных уточненных поисковых запросов (Refined Search Queries).

На что влияет

Специфические запросы: Наибольшее влияние оказывается на информационные и исследовательские запросы, где пользователь изучает тему и может нуждаться в подсказках для уточнения или расширения поиска.
Конкретные типы контента: Влияет на все типы контента, которые могут быть целью поиска (веб-страницы, изображения и т.д.), поскольку механизм основан на связи запроса с документом.

Когда применяется

Условия работы алгоритма: Алгоритм применяется в реальном времени при обработке поискового запроса.
Триггеры активации: Активируется, если для топовых документов, релевантных исходному запросу, существуют ассоциированные entity text strings (другие запросы), которые удовлетворяют пороговым значениям по частоте, поведенческим сигналам и скорингу (например, IDF).

Пошаговый алгоритм

Процесс можно разделить на две фазы: офлайн-подготовку и онлайн-генерацию.

Фаза 1: Офлайн-подготовка (Создание базы ассоциаций)

Сбор данных: Система анализирует Search Logs, собирая данные о запросах, показанных результатах, кликах и dwell time.
Идентификация связей Запрос-Документ: Для каждого документа идентифицируются все запросы, по которым он был признан релевантным.
Фильтрация по поведению: Связи валидируются с использованием поведенческих данных. Приоритет отдается запросам, которые привели к выбору документа (Claim 5) и длительному просмотру (Claim 6).
Вычисление частоты: Подсчитывается количество вхождений для каждой пары Запрос-Документ.
Определение Сущностей: Запросы, чья частота (с учетом поведения) превышает порог, обозначаются как Entity Text Strings для данного документа (Claim 1).
Скоринг Сущностей: Сущностям присваивается оценка. Оценка может базироваться на IDF (Claim 9) и увеличиваться, если сущность присутствует в заголовке документа (Claim 8).
Индексирование: Ассоциации между документами и их ранжированными сущностями сохраняются.

Фаза 2: Онлайн-генерация уточнений

Получение запроса: Система получает исходный запрос (Запрос A).
Получение результатов: Генерируется список релевантных документов.
Выбор документов: Выбирается подмножество топовых документов.
Извлечение сущностей: Для выбранных документов извлекаются ассоциированные Entity Text Strings (Запросы B, C, D).
Генерация кандидатов: Система комбинирует Запрос A с сущностями (B, C, D). При этом соблюдаются правила:
- Термины Запроса A сохраняют свой относительный порядок.
- Термины сущности используются как unbroken sequence (Claim 2).
- Могут использоваться синонимы для терминов Запроса A.
Оценка и Фильтрация Кандидатов: Кандидаты оцениваются. Оценка может учитывать частоту кандидата в Search Logs, его длину, степень пересечения с исходным запросом и сущностью, сумму IDF терминов.
Предоставление результатов: Лучшие кандидаты предоставляются как Refined Search Queries.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании поведенческих и контентных данных для установления связей между запросами.

Поведенческие факторы (Ключевые):
- Search Logs: Ранее отправленные запросы. Являются источником для Entity Text Strings.
- Клики (Click Data): Используются для валидации релевантности документа запросу (Claim 5).
- Dwell Time (Время пребывания): Используется как сильный сигнал удовлетворенности пользователя и релевантности (Claim 6). Упоминаются «long clicks», «medium clicks», «short clicks».
Контентные факторы:
- Заголовки (Titles): Наличие entity text string в заголовке документа используется для повышения ее оценки (Claim 8).

Какие метрики используются и как они считаются

Count of Occurrences (Количество вхождений): Метрика, определяющая частоту, с которой запрос приводил к релевантному документу (с учетом кликов и dwell time). Используется для определения Entity Text Strings.
Threshold Rank/Score (Пороговый ранг/оценка): Используется для отбора сущностей и финальных уточненных запросов.
Inverse Document Frequency (IDF): Используется для оценки важности терминов. Оценка сущности может быть суммой IDF ее терминов (Claim 9).
Co-occurrence relationship (Взаимосвязь совместной встречаемости): Упоминается как возможный способ определения оценки сущности (частота совместной встречаемости сущности и запроса в документе).

Выводы

Определение «Сущности» как Запроса: Ключевая идея патента — рассматривать в качестве «сущностей» документа не просто слова из его текста, а поисковые запросы, которые к нему приводят. Это устанавливает прямую связь между интентом пользователя и контентом.
Генерация связанных запросов через общую релевантность: Если Запрос A и Запрос B часто приводят к одному и тому же Документу D, система делает вывод о семантической связи между A и B и предлагает их как уточнения друг для друга.
Критическая роль поведения пользователей: Связь Запрос-Документ не просто устанавливается по факту показа, а валидируется и усиливается действиями пользователей. Клики (Claim 5) и особенно время пребывания на странице (Dwell Time, Claim 6) являются определяющими факторами для установления сильной ассоциации.
Правила комбинирования для качества уточнений: Система использует строгие правила для генерации кандидатов: сохранение порядка слов исходного запроса и использование сущности как целостной фразы (unbroken sequence). Это гарантирует, что предложенные уточнения будут грамматически корректными и осмысленными.
Важность контентных сигналов для скоринга: Помимо поведения, система учитывает и контентные сигналы. Если запрос (сущность) встречается в заголовке (Title) документа, его вес увеличивается (Claim 8). Также используется IDF для оценки уникальности и важности сущности (Claim 9).

Практика

Best practices (это мы делаем)

Ориентация на кластеры запросов (Topical Authority): Создавайте контент, который исчерпывающе отвечает на кластер связанных запросов, а не только на один ключевой запрос. Если ваша страница станет релевантным ответом для множества запросов в теме, эти запросы станут вашими Entity Text Strings и будут усиливать друг друга.
Оптимизация под удовлетворение интента (Dwell Time): Поскольку Dwell Time (Claim 6) является ключевым сигналом для установления связи Запрос-Документ, необходимо фокусироваться на создании качественного контента, который удерживает пользователя и полностью отвечает на его запрос. Это усиливает ассоциацию вашего документа с запросом.
Оптимизация заголовков (Title) под ключевые интенты: Если сущность (запрос) присутствует в заголовке документа, ее оценка увеличивается (Claim 8). Используйте в Title формулировки, которые отражают основные интенты пользователей, связанные с темой страницы.
Анализ блока «Related Searches»: Изучайте, какие запросы Google уже связывает с вашими целевыми запросами. Это дает прямое указание на то, какие интенты и темы необходимо раскрыть в контенте, чтобы усилить релевантность и соответствовать модели ассоциаций Google.

Worst practices (это делать не надо)

Создание тонкого контента под одиночные запросы: Стратегия создания множества страниц под каждый низкочастотный запрос менее эффективна в контексте этого патента. Такие страницы не смогут накопить достаточно данных о поведении и ассоциаций с другими значимыми запросами.
Игнорирование пользовательского опыта и поведенческих факторов: Если пользователи быстро покидают страницу («short click»), это ослабляет или предотвращает формирование связи Запрос-Документ, даже если страница формально оптимизирована под ключевые слова.
Переоптимизация и «Кликбейт»: Использование заголовков, которые привлекают клик, но не соответствуют содержанию, приведет к низкому Dwell Time и, как следствие, к пессимизации в рамках этого механизма ассоциаций.

Стратегическое значение

Этот патент подтверждает стратегическую важность перехода от оптимизации под ключевые слова к оптимизации под темы (Topics) и намерения (Intents). Он демонстрирует, что Google строит свою семантическую сеть не только путем анализа текстов, но и путем анализа того, как пользователи взаимодействуют с контентом. Для долгосрочного SEO критически важно становиться авторитетным источником, который стабильно удовлетворяет пользователей по всему спектру связанных запросов в своей нише.

Практические примеры

Сценарий: Усиление тематического авторитета для статьи о Мона Лизе

Исходная ситуация: Есть качественная статья, оптимизированная под запрос «Мона Лиза».
Анализ поведения (внутренний или предполагаемый): Мы видим (или предполагаем), что пользователи, которые ищут «Мона Лиза», также интересуются «Леонардо да Винчи» и «Лувр».
Действия по оптимизации:
- Дорабатываем статью, чтобы она также качественно отвечала на вопросы, связанные с Леонардо и Лувром.
- Включаем релевантные фразы в заголовки и подзаголовки.
- Обеспечиваем глубину контента, чтобы увеличить Dwell Time.
Ожидаемый результат (согласно патенту):
- Пользователи, приходящие по запросам «Леонардо да Винчи» и «Лувр», начинают кликать на нашу статью и проводить на ней время.
- Система Google идентифицирует эти запросы как Entity Text Strings для нашего документа.
- Когда пользователь ищет «Мона Лиза», система извлекает «Леонардо да Винчи» и «Лувр» как сущности из нашего документа (если он в топе) и предлагает их в блоке «Related Searches».
- Наша статья укрепляет свою позицию как тематически авторитетный ресурс.

Вопросы и ответы

Что в контексте этого патента означает термин «Entity» (Сущность)?

Это ключевое отличие данного патента. «Entity» или Entity Text String — это не просто объект из Knowledge Graph или слово в тексте. Согласно Claim 1, это ранее отправленный поисковый запрос, для которого конкретный документ был признан релевантным и, желательно, выбран пользователем. Например, если пользователи часто кликают на статью о Париже после ввода запроса «лучшие музеи Франции», то этот запрос становится «сущностью» данной статьи.

Как этот патент объясняет работу блока «Related Searches» (Связанные запросы)?

Патент описывает механизм генерации этих запросов. Если два разных запроса часто приводят пользователей к одним и тем же документам, Google считает эти запросы связанными. Когда вы вводите один запрос, система смотрит на топовые документы, извлекает другие запросы (сущности), которые к ним привели, и предлагает их вам как уточнения.

Насколько важен Dwell Time (время пребывания на сайте) согласно этому патенту?

Критически важен. Claim 6 прямо указывает, что связь между запросом и документом устанавливается или усиливается, если документ просматривался в течение порогового периода времени (long click). Если пользователи быстро покидают страницу (short click), система интерпретирует это как недостаток релевантности, и ассоциация не формируется.

Как SEO-специалист может повлиять на то, какие связанные запросы Google предлагает для основных ключевых слов?

Нужно сделать вашу страницу релевантной для широкого спектра связанных запросов в рамках темы и добиться того, чтобы пользователи выбирали вашу страницу и проводили на ней время по этим запросам. Это требует работы над Topical Authority и глубокой проработки контента для удовлетворения различных интентов в рамках темы.

Упоминается ли оптимизация заголовков (Title) в патенте?

Да. Claim 8 указывает, что если Entity Text String (т.е. другой релевантный запрос) встречается в заголовке документа, то оценка этой сущности увеличивается. Это подтверждает важность использования релевантных и естественных формулировок, отражающих интент пользователя, в теге Title.

Какие правила использует Google для комбинирования исходного запроса и сущности?

Патент описывает два ключевых правила. Во-первых, относительный порядок слов из исходного запроса сохраняется. Во-вторых, согласно Claim 2, сущность используется как unbroken sequence, то есть ее термины не разделяются и не перемешиваются с другими словами. Это обеспечивает читаемость и осмысленность результата.

Может ли система использовать синонимы при генерации уточнений?

Да, патент упоминает возможность замены одного или нескольких исходных терминов запроса их синонимами или другими связанными терминами при генерации кандидатов для уточненных запросов. Например, для запроса «paris accommodation» и сущности «eiffel tower» может быть сгенерировано уточнение «paris hotels eiffel tower».

Используется ли Inverse Document Frequency (IDF) в этом алгоритме?

Да, IDF используется в нескольких аспектах. Он может применяться для определения наиболее важных (уникальных) терминов в исходном запросе, которые должны быть сохранены при генерации уточнений. Также, согласно Claim 9, IDF может использоваться для расчета начальной оценки (скоринга) для Entity Text Strings.

Происходит ли генерация связанных запросов в реальном времени?

Да, генерация уточнений происходит в реальном времени в ответ на запрос пользователя. Однако эта система полагается на данные, обработанные офлайн, — а именно, на предварительно вычисленные ассоциации между документами и запросами (сущностями), основанные на анализе исторических логов поиска и поведения пользователей.

Что важнее для этого алгоритма: наличие ключевых слов на странице или поведение пользователей?

Оба аспекта важны, но поведение пользователей играет решающую роль в валидации. Страница должна быть достаточно релевантной, чтобы попасть в топ выдачи (что требует оптимизации контента). Но для того, чтобы запрос прочно ассоциировался с документом как Entity Text String, необходимо подтверждение релевантности через клики и Dwell Time.

Как Google использует связь «Документ-Запрос» и поведение пользователей для генерации блока «Связанные запросы» (Related Searches)