Как Google определяет семантически родственные запросы ("Sibling Queries") на основе истории поисковых сессий

Google анализирует последовательности запросов в пользовательских сессиях. Если два разных запроса часто следуют за одним и тем же набором предыдущих поисков (Predicate Queries), Google идентифицирует их как «родственные» (Sibling Queries). Это позволяет системе предлагать релевантные подсказки в рамках одной поисковой задачи, минимизируя тематический дрифт, даже для редких запросов.

Описание

Какую задачу решает

Патент решает две ключевые проблемы в системах генерации поисковых подсказок (Query Suggestions):

Минимизация тематического дрифта (Topic Drift): Предотвращение ситуации, когда предлагаемые подсказки уводят пользователя от его первоначальной поисковой задачи или темы.
Поддержка редких запросов (Infrequent Queries): Обеспечение качественных подсказок для запросов, по которым недостаточно статистики для применения стандартных методов анализа.

Что запатентовано

Запатентован метод идентификации «родственных запросов» (Sibling Queries). Суть изобретения заключается в анализе контекста, предшествующего запросам в рамках поисковых сессий. Два запроса считаются родственными, если они часто следуют сразу после одного и того же набора предыдущих запросов (Predicate Queries). Это указывает на то, что оба запроса являются частью одной и той же поисковой задачи.

Как это работает

Система анализирует журналы запросов (Query Logs), сгруппированные по сессиям. Для двух запросов (Q1 и Q2) система определяет наборы запросов, которые непосредственно им предшествовали (P1 и P2). Затем вычисляется степень пересечения этих наборов (Query Map Value). Если это значение превышает заданный порог (Sibling Query Threshold), Q1 и Q2 классифицируются как Sibling Queries. Когда пользователь вводит Q1, система предлагает Q2 в качестве подсказки (и наоборот).

Актуальность для SEO

Высокая. Понимание контекста сессии, пути пользователя (User Journey) и обеспечение завершения задачи (Task Completion) являются центральными элементами современных поисковых систем. Описанный механизм предоставляет надежный, основанный на поведении пользователей способ выявления тесно связанных концепций для генерации релевантных подсказок (например, «Related Searches»).

Важность для SEO

Патент имеет значительное стратегическое влияние на SEO (7/10). Он не описывает алгоритмы ранжирования документов, но напрямую влияет на формирование поисковых подсказок. Он демонстрирует, как Google устанавливает связи между запросами на основе поведения пользователей, а не только семантического анализа текста. Это требует от SEO-специалистов анализа всей поисковой сессии и пути пользователя, а не изолированных ключевых слов, для обеспечения полного покрытия темы.

Детальный разбор

Термины и определения

Predicate Query (Предикатный / Предшествующий запрос): Запрос, который был введен пользователем непосредственно перед другим запросом в рамках одной поисковой сессии. Он задает контекст для последующего запроса.
Sibling Queries (Родственные запросы): Два или более запроса, которые имеют статистически значимое пересечение в наборах своих Predicate Queries. Они считаются концептуально близкими, так как пользователи часто приходят к ним из одного и того же контекста.
Query Log (Лог запросов): Хранилище данных о предыдущих поисковых запросах, сгруппированных по сессиям.
Search Session (Поисковая сессия): Последовательность запросов от одного пользователя в течение ограниченного периода времени или связанная общей задачей.
Query Map Value (Значение карты запросов): Метрика, описывающая степень пересечения (overlap) между наборами предикатных запросов двух сравниваемых запросов. Может быть выражена как Query Quantity или Query Intersect Frequency.
Query Quantity (Количество запросов): Вариант Query Map Value. Абсолютное число общих предикатных запросов в пересечении двух наборов.
Query Intersect Frequency (Частота пересечения запросов): Вариант Query Map Value. Отношение числа общих предикатных запросов к общему числу уникальных предикатных запросов в объединении двух наборов (Индекс Жаккара / Intersection over Union).
Sibling Query Threshold (Порог родственных запросов): Минимальное значение Query Map Value, необходимое для классификации двух запросов как Sibling Queries.
Query Weight (Вес запроса): Частота, с которой один запрос следует за другим. Может использоваться для фильтрации случайных или статистически незначимых предикатных запросов.
Topic Drift (Тематический дрифт): Постепенный уход поисковой сессии от первоначальной темы. Идентификация Sibling Queries направлена на минимизацию этого явления в подсказках.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации родственных запросов.

Система получает (из хранилища данных) первый набор предикатных запросов для первого запроса (Q1) и второй набор для второго запроса (Q2). Предикатные запросы определяются как запросы, которые были последними полученными от пользовательских устройств перед получением Q1/Q2.
Определяется «количество пересекающихся запросов» (quantity of overlapping queries) — запросов, которые присутствуют в обоих наборах.
Определяется, превышает ли это количество заданный порог (sibling query threshold).
Если порог превышен, Q1 и Q2 классифицируются как Sibling Queries.

Claim 2 (Зависимый от 1): Описывает применение изобретения.

Когда система получает новый экземпляр Q1 от пользователя, она определяет, что Q2 классифицирован как родственный, и предоставляет Q2 в качестве поисковой подсказки (query suggestion) вместе с результатами поиска по Q1.

Claim 4 (Зависимый от 1): Описывает ранжирование нескольких родственных запросов.

Если идентифицировано несколько Sibling Queries, они ранжируются на основе quantity of overlapping predicate queries (чем больше пересечение предикатов, тем выше ранг). Для показа выбираются наиболее высоко ранжированные запросы.

Claims 6 и 7 (Зависимые от 1): Уточняют, как может рассчитываться quantity of overlapping queries.

Claim 6: Это может быть абсолютное число (absolute number) предикатных запросов в пересечении наборов.
Claim 7: Это может быть отношение (ratio) абсолютного числа пересекающихся запросов к общему числу предикатных запросов в обоих наборах (объединении).

Claim 8 (Зависимый от 1): Описывает процесс сбора данных (логирования).

Система получает запрос (Qx) во время сессии, затем получает следующий запрос (Q1) в той же сессии сразу после Qx. Qx логируется как Predicate Query для Q1.

Где и как применяется

Изобретение применяется в компонентах, отвечающих за понимание запросов и генерацию поисковых подсказок (Query Suggestion Component).

QUNDERSTANDING – Понимание Запросов (Офлайн-обработка)
Основная работа по идентификации Sibling Queries происходит здесь. Система в пакетном режиме анализирует Query Logs, собранные на этапе Индексирования.

Анализ сессий: Обработка сохраненных сессий для выявления пар «предикатный запрос -> последующий запрос».
Расчет пересечений: Вычисление Query Map Value для пар запросов.
Классификация и Хранение: Определение родственных связей и сохранение их в базе данных (Sibling Queries store).

METASEARCH / RERANKING (Онлайн-обработка)
На финальном этапе, когда пользователь вводит запрос, система в реальном времени обращается к базе данных Sibling Queries. Предварительно рассчитанные родственные запросы извлекаются, ранжируются и отображаются в интерфейсе в качестве подсказок (например, в блоке «Related Searches»).

Входные данные:

Офлайн: Логи поисковых запросов (Query Log), сгруппированные по сессиям.
Онлайн: Текущий запрос пользователя.

Выходные данные:

Офлайн: База данных идентифицированных Sibling Queries.
Онлайн: Поисковые подсказки, предоставляемые пользователю.

На что влияет

Специфические запросы: Патент подчеркивает пользу для нечастых запросов (infrequently used queries), для которых сложно найти подсказки другими методами. Также сильно влияет на информационные и исследовательские запросы, где пользователи уточняют интент в рамках одной задачи.
Тематики: Механизм универсален, так как основан на поведении пользователей. Он влияет на любые тематики, где пользователи склонны к последовательному исследованию, сравнению или решению сложных задач (путешествия, покупки, здоровье, технологии).

Когда применяется

Триггеры идентификации (Офлайн): Процесс классификации активируется, когда для пары запросов Query Map Value превышает установленный Sibling Query Threshold.
Временные рамки: Идентификация происходит офлайн при обработке логов. Предоставление подсказок происходит в реальном времени в ответ на запрос пользователя.
Исключения: В описании патента упоминается возможность фильтрации очень популярных запросов, если для них уже существуют качественные подсказки, полученные иными методами.

Пошаговый алгоритм

Процесс А: Офлайн-идентификация Sibling Queries

Сбор и обработка логов: Анализ Query Log. Запросы группируются по поисковым сессиям.
Идентификация Predicate Queries: Для каждого запроса (Qx) в логе идентифицируются все запросы (Py), которые непосредственно предшествовали ему в сессиях. Формируются наборы Predicate Queries для каждого Qx.
Фильтрация предикатов (Опционально): Наборы предикатов могут быть отфильтрованы с использованием Query Weight. Если Py очень редко предшествует Qx (вес ниже порога), он может быть исключен из набора для снижения шума.
Сравнение пар запросов: Система сравнивает наборы Predicate Queries для разных запросов (например, Q1 и Q2).
Идентификация пересечений: Определяется набор общих Predicate Queries (пересечение наборов).
Вычисление Query Map Value: Рассчитывается метрика пересечения.
- Вариант 1 (Query Quantity): Абсолютное количество общих предикатов.
- Вариант 2 (Query Intersect Frequency): Отношение размера пересечения к размеру объединения наборов.
Сравнение с порогом: Query Map Value сравнивается с Sibling Query Threshold.
Классификация и сохранение: Если порог превышен, пара (Q1, Q2) помечается как Sibling Queries и сохраняется в базе данных.

Процесс Б: Предоставление подсказок в реальном времени

Получение запроса: Система получает текущий запрос от пользователя.
Поиск родственных запросов: Система ищет текущий запрос в базе данных Sibling Queries.
Ранжирование подсказок: Если найдено несколько родственных запросов, они ранжируются. Ранжирование основывается на Query Map Value (степени пересечения предикатов) или, как вариант, на общей популярности родственных запросов.
Предоставление результатов: Родственные запросы предоставляются пользователю в качестве подсказок вместе с результатами поиска.

Какие данные и как использует

Данные на входе

Патент полностью сосредоточен на анализе поведения пользователей.

Поведенческие факторы: Являются основой изобретения. Используются Query Logs. Ключевые данные — это последовательность запросов в рамках одной Search Session и частота, с которой определенные запросы предшествуют другим.

Контентные, технические, ссылочные и другие факторы ранжирования в данном патенте не упоминаются и не используются.

Какие метрики используются и как они считаются

Query Map Value: Основная метрика для определения родства. Рассчитывается на основе пересечения наборов Predicate Queries (P1 и P2). Описаны два варианта расчета:
Query Quantity: |P1 ∩ P2| (Размер пересечения).
Query Intersect Frequency (Индекс Жаккара): |P1 ∩ P2| / |P1 ∪ P2| (Размер пересечения, деленный на размер объединения). Использование этого варианта позволяет нормализовать данные и избежать перекоса в сторону очень популярных запросов.
Sibling Query Threshold: Пороговое значение для Query Map Value.
Query Weight: Частота, с которой запрос P предшествует запросу Q. Используется для оценки силы связи и фильтрации шума.

Выводы

Поведение пользователя как индикатор концептуальной связи: Патент демонстрирует, как Google использует последовательность действий пользователя (поисковые сессии) для установления концептуальных связей между запросами, независимо от анализа контента или ссылок.
Контекст определяется предыдущим запросом: Ключевая идея в том, что Predicate Query задает контекст. Если разные запросы часто следуют за одним и тем же предикатом, они, вероятно, являются альтернативными способами решения одной и той же задачи пользователя.
Связь без текстового сходства: Этот метод позволяет идентифицировать Sibling Queries, даже если они не имеют общих терминов. Связь устанавливается через общий контекст использования.
Цель — минимизация дрифта (Topic Drift): Требование значительного пересечения контекста гарантирует, что предлагаемые подсказки остаются в рамках исходной темы поиска пользователя, предотвращая уход в сторону.
Важность для редких запросов: Метод ценен для «длинного хвоста» запросов, позволяя генерировать для них подсказки путем связывания с более частыми запросами через общие контексты.

Практика

Best practices (это мы делаем)

Анализ пути пользователя (User Journey Mapping): Необходимо понимать не только целевые запросы, но и контекст, который к ним приводит (потенциальные Predicate Queries). Изучайте, как пользователи исследуют вашу нишу, какие шаги предпринимают до ввода целевого запроса.
Изучение блока «Related Searches»: Внимательно анализируйте подсказки, которые предлагает Google. Они могут быть идентифицированы как Sibling Queries. Необходимо убедиться, что ваша контент-стратегия охватывает эти родственные интенты, так как Google считает их частью одной задачи.
Построение тематического авторитета (Topical Authority) через кластеры: Создавайте контент-хабы, которые отвечают не только на конкретный запрос, но и на его Sibling Queries. Если Q1 и Q2 являются родственными, авторитетный ресурс должен релевантно отвечать на оба, так как пользователи рассматривают их в рамках одного контекста.
Оптимизация под задачи, а не ключевые слова: Сосредоточьтесь на полном решении задачи пользователя. Если вы понимаете задачу (определяемую Predicate Queries), вы можете создать контент, покрывающий все возможные следующие шаги (Sibling Queries).

Worst practices (это делать не надо)

Рассмотрение ключевых слов в изоляции: Оптимизация страницы под один узкий запрос без учета его контекста в сессии и связей с другими запросами (предикатными и родственными). Это устаревшая практика, игнорирующая поведенческие сигналы.
Фокус только на синонимах при расширении семантики: Игнорирование концептуальных связей, выявленных через поведение пользователей. Sibling Queries часто не являются синонимами, но критически важны для покрытия темы.
Создание контента, вызывающего Topic Drift: Публикация контента, который уводит пользователя на несвязанные темы. Google стремится минимизировать это; сайты, поддерживающие последовательное исследование задачи, будут предпочтительнее.

Стратегическое значение

Патент подчеркивает стратегическую важность данных о поведении пользователей для понимания связей между запросами. Для SEO это означает, что релевантность определяется не только совпадением ключевых слов, но и тем, насколько хорошо контент вписывается в реальные сценарии поиска и пути исследования пользователя. Стратегия должна быть направлена на удовлетворение потребностей пользователя на протяжении всей сессии, а не только в одной точке.

Практические примеры

Сценарий: Планирование путешествия (Концептуальная связь)

Анализ поведения (Гипотеза на основе патента): Google анализирует логи.
Запрос 1 (Q1): «Лучшие пляжи Коста-Рики»
Запрос 2 (Q2): «Нужны ли прививки для Коста-Рики»
Идентификация общих Predicate Queries (P): Система обнаруживает, что значительному числу пользователей, искавших Q1 и Q2, непосредственно предшествовали запросы типа:
- «Стоимость поездки в Коста-Рику»
- «Безопасность в Коста-Рике для туристов»
- «Когда лучше ехать в Коста-Рику»
Результат: Пересечение Predicate Queries велико. Q1 и Q2 идентифицируются как Sibling Queries, несмотря на отсутствие общих ключевых слов (кроме «Коста-Рика»). Контекст планирования поездки у них общий.
Действие SEO-специалиста: При создании кластера контента о Коста-Рике необходимо осветить обе темы (отдых и здоровье/безопасность), так как они являются частью одной пользовательской задачи (User Journey). Необходимо связать эти страницы перелинковкой, отражающей естественный ход мыслей пользователя.

Вопросы и ответы

Что такое Predicate Query (Предикатный запрос)?

Это запрос, который пользователь вводил непосредственно перед текущим запросом в рамках одной поисковой сессии. Предикатный запрос помогает определить контекст, из которого возник текущий запрос. Например, если пользователь искал «рецепты пасты», а затем «калорийность спагетти», первый запрос является предикатным для второго.

Чем Sibling Query (Родственный запрос) отличается от синонима?

Синонимы имеют одинаковое значение. Sibling Queries могут иметь разные значения, но они тесно связаны тематически, потому что пользователи часто приходят к ним из одного и того же контекста (т.е. у них общие Predicate Queries). Например, «iPhone 15» и «Samsung S25» не синонимы, но могут быть Sibling Queries, если им обоим часто предшествует запрос «лучшие смартфоны 2025».

Влияет ли этот патент напрямую на ранжирование сайтов?

Нет, этот патент не описывает механизмы ранжирования документов в поисковой выдаче. Он описывает исключительно механизм идентификации связанных запросов для использования их в качестве поисковых подсказок (Query Suggestions). Однако он косвенно влияет на трафик, так как определяет, какие альтернативные запросы увидит пользователь.

Как рассчитывается степень родства между запросами?

Она рассчитывается на основе метрики Query Map Value, которая измеряет степень пересечения наборов предикатных запросов. Это может быть абсолютное количество общих предикатов (Query Quantity) или отношение числа общих предикатов к общему числу уникальных предикатов (Query Intersect Frequency, или Индекс Жаккара).

Как SEO-специалист может узнать предикатные запросы для своих ключевых слов?

Google не предоставляет эти данные напрямую. Их можно выявить косвенно: анализируя внутреннюю статистику сайта (последовательность просмотренных страниц), проводя пользовательские исследования (User Research), изучая Customer Journey Map и анализируя общие тенденции спроса в нише, чтобы понять, какие информационные потребности предшествуют целевому запросу.

Почему Google стремится минимизировать «тематический дрифт» (Topic Drift) в подсказках?

Topic Drift происходит, когда подсказки уводят пользователя слишком далеко от его первоначальной цели, что ухудшает пользовательский опыт и мешает завершению задачи. Предлагая Sibling Queries, которые имеют общий контекст (общие предикаты) с текущим запросом, Google гарантирует, что подсказки остаются строго релевантными текущей задаче пользователя.

Происходит ли идентификация Sibling Queries в реальном времени?

Преимущественно нет. Согласно патенту, процесс идентификации Sibling Queries (анализ логов, расчет пересечений) происходит офлайн в пакетном режиме. В реальном времени происходит только извлечение уже идентифицированных родственных запросов из базы данных для показа пользователю. Хотя анализ в реальном времени также упоминается как возможный вариант.

Как Query Weight (Вес запроса) влияет на этот процесс?

Query Weight измеряет, насколько часто один запрос следует за другим. Система может использовать этот вес для фильтрации случайных связей. Если запрос А лишь изредка предшествует запросу Б (низкий вес), запрос А может быть исключен из набора предикатных запросов для Б, чтобы обеспечить более надежные результаты.

Как этот патент должен повлиять на контент-стратегию?

Он подчеркивает необходимость перехода от оптимизации под отдельные ключевые слова к оптимизации под весь путь пользователя (User Journey) и задачи (Tasks). Необходимо создавать контент, который охватывает не только целевой запрос, но и его контекст (предикатные запросы) и близкие альтернативы (родственные запросы), чтобы полностью удовлетворить информационную потребность.

Где в интерфейсе Google можно увидеть результаты работы этого алгоритма?

Наиболее вероятные места применения этого механизма – это блок «Похожие запросы» (Related Searches) внизу страницы выдачи, а также различные блоки уточнений и подсказок, которые появляются в процессе исследования темы. Он также может влиять на предложения в автодополнении в рамках текущей сессии.

Как Google определяет семантически родственные запросы («Sibling Queries») на основе истории поисковых сессий