Как Google определяет "Связанные запросы", сравнивая различия в топе выдачи и сходства в нижних результатах

Google использует двухэтапный анализ для генерации блока «Связанные запросы» (Related Searches). Система ищет запросы, у которых ТОП выдачи сильно отличается от исходного запроса (чтобы показать новое), но результаты на низких позициях сильно пересекаются (чтобы сохранить тематическую связь). Это позволяет предлагать пользователю смежные темы, не повторяя уже увиденные результаты.

Описание

Какую задачу решает

Патент решает проблему генерации полезных предложений «Связанные запросы» (Related Searches). Если система предлагает запросы, слишком похожие на исходный (например, синонимы), пользователь повторно видит те же самые высокоранжированные результаты, что не помогает в исследовании темы. Цель изобретения — идентифицировать запросы, которые тематически связаны с исходным, но представляют собой другую информационную потребность (интент) и, следовательно, возвращают другой набор топовых результатов.

Что запатентовано

Запатентована система и метод для идентификации связанных запросов с помощью двухэтапного анализа структуры поисковой выдачи. Связь между двумя запросами устанавливается только при выполнении двух условий: 1) Высокоранжированные результаты (First Grouping) должны сильно различаться (высокий Non-overlap Score). 2) Результаты на более низких позициях (Second Grouping) должны иметь значительное пересечение (высокий Overlap Score).

Как это работает

Система анализирует упорядоченные списки результатов поиска для множества запросов:

Этап 1: Поиск различий (Интент). Сравниваются топовые результаты (First Grouping, например, Топ-10) исходного запроса и другого запроса. Рассчитывается Non-overlap Score. Если результаты сильно отличаются (оценка высокая), запросы считаются имеющими разный интент, и второй запрос становится кандидатом.
Этап 2: Поиск сходства (Контекст). Сравниваются результаты на более низких позициях (Second Grouping, например, позиции 20-100) исходного запроса и запроса-кандидата. Рассчитывается Overlap Score. Если результаты значительно пересекаются (оценка высокая), считается, что запросы тематически связаны.
Результат: Запросы, прошедшие оба этапа, помечаются как связанные и могут быть использованы в качестве предложений (например, в блоке «Related Searches»).

Актуальность для SEO

Высокая. Понимание того, как Google связывает запросы, интенты и темы, критически важно для построения семантического ядра и Topical Authority. Механизм, описанный в патенте, предлагает сложный способ определения тематической близости, который явно разделяет интент и контекст. Это актуально для современных SEO-стратегий, ориентированных на охват темы.

Важность для SEO

Патент имеет значительное влияние на SEO-стратегию (7/10). Он не описывает алгоритм ранжирования напрямую, но раскрывает механизм, который формирует навигацию пользователя между запросами и темами (User Journey). Понимание этого механизма позволяет SEO-специалистам лучше строить карту интентов, понимать границы тем и оптимизировать контент для захвата трафика из блока «Related Searches». Это ключевой элемент для стратегий построения Topical Authority.

Детальный разбор

Термины и определения

Candidate Queries (Запросы-кандидаты): Запросы, которые прошли первый этап фильтрации — показали высокий Non-overlap Score по сравнению с исходным запросом. Они потенциально связаны, но имеют другой интент.
First Grouping (Первая группа результатов): Набор высокоранжированных результатов поиска. Часто соответствует результатам, отображаемым на первой странице выдачи. Используется для определения основного интента запроса и расчета Non-overlap Score.
Non-overlap Score (Оценка непересечения): Метрика, измеряющая степень различия (dissimilarities) между First Grouping результатов двух запросов. Высокое значение указывает на разные информационные потребности.
Overlap Score (Оценка пересечения): Метрика, измеряющая степень сходства (similarities) между Second Grouping результатов двух запросов. Высокое значение указывает на тематическую связь или общий контекст.
Popularity Score (Оценка популярности): Метрика, основанная на частоте отправки запроса пользователями (на основе анализа логов). Может использоваться для финального отбора связанных запросов.
Related Queries (Связанные запросы): Запросы-кандидаты, которые прошли второй этап фильтрации — показали высокий Overlap Score. Они имеют другой интент, но связаны тематически с исходным запросом.
Second Grouping (Вторая группа результатов): Набор результатов поиска, ранжирующихся ниже, чем результаты в First Grouping. Используется для определения тематического контекста запроса и расчета Overlap Score.
Similarity Scores (Оценки сходства): Метрики, которые могут использоваться для расчета Overlap и Non-overlap Scores, основанные на анализе контента документов в выдаче, а не только на факте совпадения URL.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации связанных запросов.

Система получает упорядоченные списки результатов для множества запросов.
Определяются First Grouping и Second Grouping для исходного запроса и всех остальных запросов.
Вычисляются Non-overlap Scores между исходным и остальными запросами. Оценка измеряет различия в First Grouping.
Выбираются Candidate Queries на основе высоких Non-overlap Scores (те, у кого топ выдачи отличается).
Вычисляются Overlap Scores между исходным запросом и кандидатами. Оценка измеряет сходство в Second Grouping.
Выбираются Related Queries из кандидатов на основе высоких Overlap Scores (те, у кого низ выдачи похож).
Система сохраняет ассоциацию между исходным и связанными запросами.

Ядро изобретения — это последовательное применение двух противоположных фильтров на разных глубинах выдачи: требование различия в ТОПе и требование сходства внизу выдачи.

Claims 2-6 (Зависимые): Детализируют расчет оценок, подчеркивая вариативность реализации.

Non-overlap scores и Overlap scores могут рассчитываться на основе прямого сравнения списков документов (совпадают ли URL в группах) (Claims 2, 5).
ИЛИ они могут рассчитываться на основе оценок сходства (Similarity scores) между контентом документов в соответствующих группах (Claims 3, 6).
ИЛИ может использоваться комбинация обоих подходов (Claim 4).

Claims 9-10 (Зависимые): Определяют иерархию групп.

Результаты в First Grouping ранжируются выше (имеют более высокий числовой порядок), чем результаты в Second Grouping. Это подтверждает, что анализ различий проводится на более релевантных результатах, а анализ сходства — на менее релевантных.

Claims 11-12 (Зависимые): Описывают практическую реализацию группировок.

Claim 11: Результаты в First Grouping соответствуют тем, что появляются на первой странице поисковой выдачи.
Claim 12: Ни один из результатов в Second Grouping не появляется на первой странице выдачи.

Claims 14-15 (Зависимые): Вводят дополнительные факторы для выбора Related Queries из кандидатов. Используются данные из логов запросов (past queries):

Частота отправки запросов (Популярность).
Время, прошедшее с момента отправки запросов (Свежесть/Актуальность).

Где и как применяется

Изобретение в основном применяется на этапе понимания запросов и анализа данных, но взаимодействует с результатами ранжирования.

INDEXING – Индексирование и извлечение признаков
Косвенное взаимодействие. Система генерирует упорядоченные списки результатов, которые являются входными данными. Также, для расчета Similarity Scores (если этот метод используется) система должна иметь доступ к контенту проиндексированных документов.

QUNDERSTANDING – Понимание Запросов
Основное применение. Патент описывает офлайн (batch) процесс анализа логов запросов и структуры поисковой выдачи для построения карты взаимосвязей между запросами. Это улучшает глобальное понимание пространства запросов и интентов.

RANKING – Ранжирование
Система использует выходные данные этапа ранжирования — упорядоченные списки результатов — как основной входной сигнал для своего анализа.

METASEARCH – Метапоиск и Смешивание
Результаты работы системы (идентифицированные Related Queries) используются на этом этапе для формирования элементов интерфейса SERP, таких как блок «Related Searches», или для генерации подсказок при вводе запроса (Suggestion Engine).

Входные данные:

Множество запросов (например, из логов поиска).
Упорядоченные списки результатов поиска для каждого запроса.
(Опционально) Контент документов для расчета Similarity Scores.
Данные о частоте и времени подачи запросов.

Выходные данные:

База данных или структура данных (например, граф), хранящая ассоциации между исходными и связанными запросами.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на информационные и исследовательские запросы, где пользователь изучает широкую тему и может нуждаться в подсказках для перехода к смежным аспектам.
Конкретные ниши или тематики: Влияет на сложные тематики с множеством подотраслей (например, технологии, хобби, здоровье), где существует много связанных, но различных интентов.

Когда применяется

Временные рамки и частота: Процесс анализа и построения ассоциаций выполняется офлайн в пакетном режиме (batch processing), анализируя накопленные данные. Обновление базы происходит периодически.
Использование результатов (в реальном времени): Сгенерированные связанные запросы предоставляются пользователю в ответ на его исходный запрос (на странице SERP) или во время ввода запроса (в виде подсказок).

Пошаговый алгоритм

Процесс идентификации связанных запросов для заданного исходного запроса (Query A):

Сбор данных: Идентификация упорядоченных списков результатов поиска для Query A и множества других запросов (Query X).
Определение группировок: Для каждого списка определяются границы First Grouping (например, Топ-10) и Second Grouping (например, позиции 20-100).
Расчет Non-overlap Scores (Фильтр 1: Различие Интентов): Для каждой пары (Query A, Query X) вычисляется Non-overlap Score путем сравнения документов в их First Grouping.
Выбор Кандидатов: Выбираются запросы (Candidate Queries), чьи Non-overlap Scores превышают установленный порог или выбирается Топ-N запросов с наивысшими оценками. Это запросы, чей ТОП выдачи сильно отличается от Query A.
Расчет Overlap Scores (Фильтр 2: Сходство Контекста): Для каждой пары (Query A, Candidate Query) вычисляется Overlap Score путем сравнения документов в их Second Grouping.
Выбор Связанных Запросов: Выбираются кандидаты (Related Queries), чьи Overlap Scores превышают установленный порог. Это запросы, чей тематический контекст схож с Query A.
(Опционально) Финальная корректировка: Итоговый список может быть скорректирован с учетом дополнительных сигналов, таких как Popularity Score (частота запроса в логах) и свежесть запросов.
Сохранение Ассоциаций: Сохранение данных, связывающих Related Queries с исходным Query A.

Какие данные и как использует

Данные на входе

Системные данные (Структура выдачи): Упорядоченные списки документов (результатов поиска) для анализируемых запросов. Критически важны позиции документов для определения First grouping и Second grouping.
Поведенческие факторы: Логи прошлых запросов. Используются для выбора пула анализируемых запросов и для расчета Popularity Score.
Временные факторы: Метки времени подачи запросов в логах. Используются для определения свежести или актуальности запросов.
Контентные факторы (Опционально): Содержимое документов в результатах поиска может использоваться, если Overlap и Non-overlap Scores рассчитываются на основе Similarity Scores контента, а не только на основе совпадения URL.

Какие метрики используются и как они считаются

Non-overlap Score: Измеряет различие в First Grouping.
Методы расчета:
1. Количество документов, которые НЕ появляются в First Grouping обоих запросов.
2. Обратная функция от Similarity Score контента документов в First Grouping.
3. Комбинированный метод. Патент приводит пример формулы в описании: $N S (Q_{A}, Q_{B}) = N o n - O c c u r r e n c e (S R_{A}, S R_{B})$

Выводы

Разделение Интента и Контекста: Google использует структуру поисковой выдачи для разделения основного интента запроса и его более широкого тематического контекста. ТОП выдачи (First Grouping) определяет интент, а нижние позиции (Second Grouping) определяют контекст.
Определение «Связанности»: Для того чтобы запрос считался «связанным» (Related), он должен удовлетворять двум критериям: иметь ДРУГОЙ интент (высокий Non-overlap Score в ТОПе) и СХОЖИЙ контекст (высокий Overlap Score внизу выдачи).
Фильтрация Схожих Запросов: Этот механизм активно отсеивает синонимы, переформулировки и слишком близкие запросы, так как у них будет низкий Non-overlap Score (ТОП выдачи будет слишком похож).
Важность Широкого Охвата Темы (Topical Authority): Наличие сайта в Second Grouping по множеству различных запросов в рамках одной темы помогает Google установить тематическую связь между этими запросами. Это подчеркивает важность создания контента, обеспечивающего как глубину, так и широту охвата.
Влияние Популярности: Даже если запрос идеально подходит тематически, он может быть не показан в «Related Searches», если он не обладает достаточной популярностью (низкий Popularity Score) или неактуален.

Практика

Best practices (это мы делаем)

Построение Topical Authority через широкий охват: Создавайте контент, который покрывает не только основные интенты, но и смежные, узкие или побочные темы. Это увеличивает вероятность того, что ваш сайт будет присутствовать в Second Grouping по широкому спектру запросов. Такое присутствие помогает Google устанавливать тематические связи, что косвенно укрепляет авторитетность ресурса в теме.
Анализ блока «Related Searches» как карты интентов: Тщательно изучайте, какие запросы Google предлагает в качестве связанных для ваших целевых кластеров. Этот патент подтверждает, что эти запросы имеют другой интент, но общий контекст. Используйте их как готовый план для расширения семантического ядра и покрытия смежных тем.
Создание отдельных страниц под разные интенты: Если два запроса связаны по этому механизму, это означает, что у них разные ТОПы выдачи (First Grouping). Следовательно, для эффективного ранжирования под оба интента требуются отдельные, специализированные страницы, а не попытка оптимизировать одну страницу под оба.
Мониторинг популярности трендов (Popularity Score): При расширении семантики фокусируйтесь на связанных запросах, которые имеют достаточную частотность или находятся в тренде, так как Popularity Score используется для финального отбора предложений.

Worst practices (это делать не надо)

Игнорирование смежных тем и узких запросов: Фокусировка только на высокочастотных основных кластерах без проработки глубины темы ограничивает способность сайта быть видимым в Second Grouping. Это снижает общее восприятие тематической авторитетности сайта.
Объединение разных интентов на одной странице (Каннибализация): Попытка ранжироваться по запросам с разными интентами (высокий Non-overlap Score) с помощью одной страницы контрпродуктивна. Google ищет специализированные ответы в First Grouping.
Рассмотрение «Related Searches» как синонимов: Нельзя относиться к связанным запросам как к простым переформулировкам. Они требуют отдельного анализа и проработки контента.

Стратегическое значение

Патент демонстрирует, что Google анализирует семантику не только через анализ текста, но и через анализ структуры поисковой выдачи. Понимание взаимосвязи между интентом (ТОП выдачи) и контекстом (нижние позиции) является ключом к построению эффективной контент-стратегии. Стратегический приоритет должен отдаваться созданию экосистемы контента (Topic Ecosystem), которая охватывает все релевантные интенты и укрепляет тематические связи через широкое присутствие в результатах поиска по всей теме.

Практические примеры

Сценарий: Анализ связанных запросов для расширения контент-плана

Исходный запрос (Query A): «Как выбрать треккинговые ботинки».
Анализ ТОПа (First Grouping A): Статьи с общими советами, рейтинги лучших моделей, страницы крупных ритейлеров.
Идентификация связанного запроса (Query B): Google предлагает в Related Searches «Лучшие стельки для треккинга».
Анализ ТОПа (First Grouping B): Обзоры стелек, страницы производителей стелек, советы по уходу за ногами в походе.
Проверка механизма:
- Non-overlap Score (A vs B): Высокий. В ТОПе A почти нет страниц про стельки, в ТОПе B почти нет страниц про выбор ботинок. Интенты разные.
- Overlap Score (A vs B): Высокий. На нижних позициях (Second Grouping) оба запроса могут ссылаться на одни и те же форумы путешественников, блоги о походах, статьи о подготовке к восхождениям. Контекст общий (треккинг/походы).
SEO-действие: Если у вас авторитетный сайт о походах, необходимо создать отдельную, глубоко проработанную статью о выборе стелек, чтобы покрыть этот связанный интент и укрепить общую Topical Authority. Не пытайтесь добавить пару абзацев о стельках в статью о ботинках и ранжироваться по обоим запросам.

Вопросы и ответы

Что такое First Grouping и Second Grouping?

First Grouping — это набор самых высокоранжированных результатов поиска, часто соответствующий первой странице выдачи. Он используется системой для определения основного интента запроса. Second Grouping — это набор результатов на более низких позициях (например, начиная со второй страницы). Он используется для определения более широкого тематического контекста запроса.

Зачем нужен Non-overlap Score?

Non-overlap Score рассчитывается для First Grouping. Его цель — убедиться, что предлагаемый связанный запрос представляет собой ДРУГУЮ информационную потребность по сравнению с исходным запросом. Если оценка высокая (результаты сильно отличаются), значит, пользователь увидит новый контент, а не повторение уже просмотренной выдачи.

Зачем нужен Overlap Score?

Overlap Score рассчитывается для Second Grouping. Его цель — убедиться, что, несмотря на разный интент, запрос остается в рамках той же темы или контекста. Если оценка высокая (результаты на нижних позициях сильно пересекаются), значит, запросы тематически связаны.

Чем этот алгоритм отличается от поиска синонимов?

Алгоритм диаметрально противоположен поиску синонимов. Синонимы или близкие переформулировки имеют очень похожий ТОП выдачи, и, следовательно, у них будет низкий Non-overlap Score. Этот патент специально разработан для того, чтобы отсеивать такие слишком похожие запросы и находить смежные темы для исследования.

Как этот патент влияет на построение Тематического Авторитета (Topical Authority)?

Он напрямую показывает, как Google может оценивать охват темы. Чтобы ваш сайт способствовал установлению связей между разными запросами в нише, он должен содержать контент, который появляется не только в топе (First grouping) по целевым запросам, но и в нижних результатах (Second grouping) по смежным запросам. Это подчеркивает важность создания широкого и глубокого контента.

Использует ли система анализ контента страниц для определения связанности?

Да, патент предусматривает такую возможность. Overlap и Non-overlap Scores могут рассчитываться не только на основе совпадения URL в выдаче, но и с использованием Similarity Scores. Это означает, что система может анализировать контент документов в First и Second Grouping, чтобы определить степень их сходства или различия.

Влияет ли популярность запроса на его показ в «Related Searches»?

Да, влияет. Патент явно упоминает (Claims 14-15) использование частоты запроса в логах (популярность) и времени его подачи (свежесть) в качестве дополнительных факторов для финального отбора связанных запросов. Тематически подходящий, но непопулярный запрос может быть не показан.

Работает ли этот алгоритм в реальном времени при обработке запроса?

Нет. Анализ структуры выдачи, расчет Overlap/Non-overlap Scores и построение ассоциаций между запросами происходят офлайн в пакетном режиме. В реальном времени система просто извлекает заранее рассчитанные связанные запросы для показа пользователю.

Как этот патент соотносится с каннибализацией ключевых слов?

Он помогает понять, когда нужно создавать разные страницы. Если Google идентифицировал два запроса как связанные по этому методу, это означает, что их топовые результаты сильно отличаются (высокий Non-overlap score). Следовательно, они требуют разного контента для удовлетворения основного интента, и для них лучше создать отдельные страницы, чтобы избежать каннибализации или неполного ответа на интент.

Может ли этот механизм объяснить, почему в ‘Related Searches’ иногда появляются запросы, не содержащие исходных ключевых слов?

Да, абсолютно. Поскольку связь устанавливается через пересечение результатов поиска (особенно в Second grouping), а не через совпадение терминов в тексте запроса, система может идентифицировать концептуально связанные запросы, даже если они используют совершенно разную лексику.

Как Google определяет «Связанные запросы», сравнивая различия в топе выдачи и сходства в нижних результатах