Как Google группирует похожие запросы (Related Searches), комбинируя данные о сессиях и кликах пользователей

Google использует графовую модель Маркова (Markov Model) для кластеризации поисковых подсказок. Система анализирует, какие запросы пользователи вводят в рамках одной сессии (session co-occurrence) и на какие документы они кликают (click-through data). Это позволяет сгруппировать уточнения по скрытому намерению пользователя и показать более разнообразные и организованные подсказки.

Описание

Какую задачу решает

Патент решает проблему выбора и организации поисковых подсказок (Search Suggestions или Related Searches). Для популярных запросов существуют сотни потенциальных уточнений, но место на SERP ограничено. Традиционные методы имеют недостатки: выбор на основе частотности приводит к однообразию; методы на основе общих кликов упускают семантически связанные запросы без общих результатов (например, «марс» -> «венера»); методы на основе сессий страдают от «дрейфа намерений» (intent drift). Изобретение группирует уточнения запроса (query refinements) по различным информационным потребностям (distinct information needs), чтобы улучшить разнообразие (diversity) и организацию подсказок.

Что запатентовано

Запатентована система кластеризации уточнений запроса на основе предполагаемого намерения пользователя (inferred user intent). Суть изобретения заключается в построении единой графовой модели Маркова (Markov model), которая одновременно учитывает как вероятность перехода между запросами в рамках одной сессии (session co-occurrence), так и вероятность клика по конкретным документам (click-through data). Уточнения кластеризуются на основе сходства того, к каким документам они в конечном итоге приводят пользователя.

Как это работает

Система моделирует поведение пользователя как случайное блуждание по графу:

Построение графа: Для исходного запроса строится граф, включающий узлы для уточнений запроса и узлы для документов, на которые кликали пользователи. Ребра взвешиваются на основе вероятности перехода.
Модель Маркова: Граф интерпретируется как Марковская цепь, где документы являются «поглощающими состояниями» (absorbing states).
Случайные блуждания (Random Walks): Система симулирует пути пользователя по графу, начиная с каждого уточнения.
Векторы вероятности посещения: Для каждого уточнения вычисляется вектор (visit probability vector), показывающий вероятность оказаться в конечном итоге на том или ином документе.
Кластеризация: Уточняющие запросы, имеющие схожие векторы (т.е. ведущие к схожему контенту), группируются в один кластер, представляющий отдельный интент.
Учет дрейфа интента: Модель включает узел off-topic node (специфично для этого патента B2), учитывающий вероятность смены темы пользователем.

Актуальность для SEO

Высокая. Понимание намерений пользователя, анализ поведения в сессиях и предоставление разнообразных путей для исследования темы остаются центральными задачами поиска. Методы, описанные в патенте (использование Марковских моделей, объединение данных о сессиях и кликах), являются фундаментальными в Information Retrieval и актуальны для понимания того, как Google интерпретирует связи между запросами.

Важность для SEO

Патент имеет значительное влияние на SEO (75/100). Хотя он напрямую не влияет на ранжирование органических результатов, он критически важен для понимания того, как Google интерпретирует пространство запросов и пользовательские намерения вокруг определенной темы. Это напрямую влияет на то, какие связанные интенты Google распознает, что, в свою очередь, влияет на стратегии построения Тематического Авторитета (Topical Authority) и оптимизации пути пользователя (user journey).

Детальный разбор

Термины и определения

Absorbing State (Поглощающее состояние): Состояние в модели Маркова, из которого невозможно выйти (вероятность перехода в себя равна 1). В данном патенте узлы документов (d) и узел «вне темы» (f) являются поглощающими.
Co-occurring Queries (Q(q)) (Совместно встречающиеся запросы): Набор запросов, которые встречаются в тех же сессиях, что и данный запрос q.
Complete-link clustering (Кластеризация по полным связям): Метод кластеризации, при котором схожесть двух кластеров определяется схожестью их наименее похожих элементов. Используется для создания плотных кластеров и избегания эффекта «цепочки».
Cosine similarity (Косинусное сходство): Метрика, используемая для сравнения сходства двух Visit Probability Vectors.
Document Escape Probability (ε): Параметр модели, определяющий вероятность перехода от узла запроса к узлу документа (клику) по сравнению с вероятностью перехода к другому запросу (1-ε).
Document Set (D(q)) (Набор документов): Набор документов, которые были показаны в ответ на запрос q и получили клики пользователей.
Markov Model (Модель Маркова): Стохастическая модель, используемая для моделирования поведения пользователя в поиске. Описывает переходы между состояниями (запросами и документами).
Off-topic node (f) (Узел «вне темы»): Поглощающее состояние, добавленное для учета дрейфа намерений пользователя (intent drift), когда он переключается на запросы, не связанные с исходной темой.
Query Refinement (R(q)) (Уточнение запроса): Запрос r, который следует за исходным запросом q в рамках одной поисковой сессии. Основной объект кластеризации.
Transition Probability Matrix (P) (Матрица вероятностей переходов): Матрица, описывающая вероятности перехода между узлами в модели Маркова.
Visit Probability Vector (Вектор вероятности посещения): Вектор, рассчитанный для уточняющего запроса r, элементы которого представляют вероятность достижения каждого из поглощающих состояний (документов) при старте из r. Также называется absorption distribution или limiting distribution.

Ключевые утверждения (Анализ Claims)

Патент US9582766B2 является разделенным (divisional) от более ранних заявок и фокусируется на реализации, включающей Off-topic node (f).

Claim 1 (Независимый пункт): Описывает метод кластеризации уточнений запроса и генерации подсказок.

Идентификация уточнений R(q) для первого запроса q и кликнутых документов D(r) для них.
Построение графа G. Узлы: q, все уточнения r, все документы d, и узел «вне темы» f.
Определение ребер: от q к r; от r к документам D(r); от r к совместно встречающимся запросам Q(r); и от r к узлу f (дрейф темы).
Построение матрицы вероятностей переходов (Transition Probability Matrix P) для графа G, включающей вероятности для ребер (r, d), (r, f) и (r1, r2).
Вычисление Visit Probability Vector для каждого уточнения r на основе матрицы P. Вектор показывает вероятность достижения документов.
Кластеризация уточнений путем разделения этих векторов на подмножества.
Формирование поисковых подсказок (search suggestions) на основе полученных кластеров и предоставление их пользовательскому устройству.

Claims 2, 3, 4, 5 (Зависимые пункты): Детализируют формулы для расчета матрицы P с использованием параметра ε.

Вероятность P[r, d] (клик) основана на частоте кликов (n_d), масштабированной ε (Claim 2).
Вероятность P[r, f] (уход с темы) основана на частоте совместной встречаемости (n_s) с запросами ВНЕ R(q), масштабированной (1-ε) (Claim 3). Это ключевой механизм учета дрейфа интента.
Вероятность P[r1, r2] (переход к другому уточнению) основана на частоте совместной встречаемости (n_s) запросов r1 и r2, масштабированной (1-ε) (Claim 4).
Документы определены как поглощающие состояния (P[d, d]=1) (Claim 5).

Ядром изобретения является использование комбинированного графа (сессии + клики) как Марковской модели и кластеризация запросов на основе вероятности достижения поглощающих состояний (документов), рассчитанной через механизм случайных блужданий, с явным учетом возможности ухода с темы.

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, работая в офлайн-режиме для подготовки данных и в онлайн-режиме для отображения результатов.

INDEXING / Обработка данных (Offline)
Система требует предварительной обработки огромных объемов логов запросов (query logs) и кликов (click logs) для выявления сессий, уточнений и кликнутых документов.

QUNDERSTANDING – Понимание Запросов (Offline/Nearline)
Это основная область применения. Построение графа G(q), расчет матрицы P, выполнение случайных блужданий и кластеризация — это сложные вычисления, выполняемые для понимания ландшафта интентов вокруг запроса q.

METASEARCH / RERANKING (Real-time)
Результат работы алгоритма (кластеры) используется в реальном времени. Компонент, отвечающий за формирование SERP Features (например, Search Suggestion Engine), извлекает предварительно рассчитанные кластеры и определяет, какие из них отображать в блоке «Related Searches».

Входные данные:

Логи поисковых запросов (анонимизированные сессии).
Данные о кликах (запросы, кликнутые документы, количество кликов).
Параметр ε.

Выходные данные:

Кластеризованные наборы уточнений запроса, где каждый кластер представляет отдельное предполагаемое намерение пользователя.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на широкие (broad) и неоднозначные (ambiguous) запросы (например, «mars», «jaguar»), где существует несколько различных направлений поиска и множество уточнений.
SERP Features: Напрямую влияет на содержание, разнообразие и организацию блока «Related Searches» (Связанные запросы).

Когда применяется

Условия работы: Алгоритм применяется для запросов, по которым накоплено достаточно данных о сессиях и кликах для построения статистически значимой модели.
Частота применения: Вычисления проводятся офлайн и периодически обновляются. Отображение результатов происходит в реальном времени при формировании SERP.

Пошаговый алгоритм

Процесс кластеризации (выполняется преимущественно офлайн):

Сбор и подготовка данных: Анализ логов. Идентификация сессий, уточнений R(q), совместно встречающихся запросов Q(q) и кликнутых документов D(r) для запроса q.
Построение графа G(q):
- Создание узлов для q, R(q), D(r) и узла «вне темы» (f).
- Создание ребер на основе поведения: (q, r), (r, d), (r1, r2), (r, f).
Инициализация матрицы переходов (P):
- Определение параметра ε (Document Escape Probability).
- Расчет вероятностей переходов по формулам, использующим количество кликов (n_d) и количество совместных сессий (n_s). Вероятности нормализуются.
Симуляция случайных блужданий (Расчет Pⁿ):
- Вычисление P^n (умножение матрицы P) для аппроксимации предельного распределения (limiting distribution). Параметр ‘n’ (количество итераций) выбирается для достижения сходимости (в патенте упоминается, что модель быстро сходится, например, за 3-7 итераций).
Извлечение векторов вероятности посещения:
- Из матрицы P^n извлекаются строки, соответствующие каждому уточнению r. Эти строки формируют Visit Probability Vector для r, показывая вероятность достижения поглощающих состояний.
Кластеризация векторов:
- Применение алгоритма кластеризации (например, complete-link clustering) к полученным векторам.
- Использование меры схожести (например, cosine similarity) для сравнения векторов.
- Группировка уточнений со схожими векторами в кластеры.
Представление результатов (Онлайн): При получении запроса q от пользователя, выбор представителей из ключевых кластеров и отображение их в качестве организованных поисковых подсказок (например, по колонкам, как на FIG. 7).

Какие данные и как использует

Данные на входе

Патент полностью полагается на поведенческие данные, извлеченные из логов поисковой системы.

Поведенческие факторы:
- Данные о сессиях (Session Data): Последовательность запросов пользователя. Используется для определения Query Refinements и Co-occurrence. Частота совместной встречаемости (n_s) используется для расчета вероятностей переходов между запросами и к Off-topic node.
- Данные о кликах (Click-Through Data): Информация о том, какие документы были выбраны пользователями. Частота кликов (n_d) используется для расчета вероятностей переходов от запросов к документам.

Какие метрики используются и как они считаются

Transition Probability Matrix (P): Основная структура данных, суммирующая вероятности поведения пользователя в графе.
Document Escape Probability (ε): Заранее определенный параметр (в патенте упоминаются значения 0.5-0.7 как эффективные), контролирующий баланс между дальнейшим исследованием запросов (1-ε) и кликами на документы (ε).
Формулы для расчета P:
- P[rᵢ, d] (Запрос в Документ): Рассчитывается как ε, умноженная на долю кликов на документ d среди всех кликов по запросу rᵢ.
- P[rᵢ, rⱼ] (Запрос в Запрос): Рассчитывается как (1-ε), умноженная на долю сессий, содержащих rᵢ и rⱼ, среди всех сессий, содержащих rᵢ и любой совместно встречающийся запрос.
- P[rᵢ, f] (Запрос в Off-topic): Рассчитывается как (1-ε), умноженная на долю сессий, где rᵢ встречается с запросами вне R(q), среди всех сессий, содержащих rᵢ и любой совместно встречающийся запрос.
Visit Probability Vector: Рассчитывается путем умножения матриц (Pⁿ). Представляет собой предполагаемый интент.
Cosine Similarity и Complete-Link Similarity: Метрики, используемые в процессе кластеризации для сравнения векторов и объединения кластеров соответственно.

Выводы

Интент определяется местом назначения: Ключевая идея патента в том, что намерение пользователя (user intent) определяется тем контентом (документами), который он в конечном итоге потребляет (кликает) в ходе поисковой сессии. Два запроса имеют схожий интент, если они ведут к схожему набору документов.
Интеграция сигналов поведения: Google использует единую модель (Markov model graph) для интеграции двух типов поведенческих сигналов: контекста сессии (переходы между запросами) и удовлетворенности контентом (клики по документам). Это позволяет преодолеть ограничения использования только одного типа данных (например, выявить связь между «Венера» и «Юпитер» в контексте «Марс»).
Контекстуальность кластеризации: Кластеризация всегда выполняется в контексте исходного запроса q. Система оценивает значение уточняющего запроса r именно как продолжение q.
Моделирование дрейфа интента: Система явно учитывает возможность того, что пользователь может переключиться на другую тему (intent drift) с помощью off-topic node. Это предотвращает ошибочное связывание запросов из-за случайных переходов в длинных сессиях.
Цель – разнообразие подсказок: Конечная цель алгоритма – не ранжирование, а обеспечение разнообразия (diversity) в поисковых подсказках, чтобы покрыть различные информационные потребности, связанные с исходным запросом.

Практика

Best practices (это мы делаем)

Анализ блока «Related Searches» как карты интентов: Блоки «Связанные запросы» на SERP можно рассматривать как прямой результат работы этого алгоритма. Анализируйте, как Google группирует связанные запросы в вашей нише. Это дает представление о том, какие кластеры интентов Google считает различными и важными.
Построение Topical Authority через покрытие кластеров: Для достижения авторитетности по широкой теме необходимо создавать контент, покрывающий все основные кластеры намерений, выявленные Google. Если ваш сайт удовлетворяет запросы внутри кластера, он с большей вероятностью станет целевым документом (absorbing state) для этих цепочек запросов.
Оптимизация под путь пользователя (User Journey): Необходимо понимать не только отдельные запросы, но и то, как они связаны в сессиях. Анализируйте, какие запросы совместно встречаются и ведут на ваш сайт. Создавайте контент и внутреннюю перелинковку, которые отвечают на эту последовательность запросов, облегчая пользователю путь к удовлетворению информационной потребности.
Создание четких сигналов удовлетворенности интента: Поскольку интент определяется по кликам на документы, важно, чтобы ваш контент четко удовлетворял информационную потребность. Высокий CTR и низкий показатель возврата на выдачу сигнализируют системе, что документ является качественным поглощающим состоянием для данного кластера запросов.

Worst practices (это делать не надо)

Изолированная оптимизация под ключевые слова: Оптимизация страницы под один конкретный запрос без учета его места в поисковой сессии и связи с другими намерениями менее эффективна. Патент подчеркивает важность контекста сессии.
Игнорирование контекста при работе с неоднозначными запросами: Попытка ранжироваться по неоднозначному термину без учета того, какой интент преследует пользователь. Например, оптимизация страницы про автомобиль Jaguar под запрос «ягуар факты» может быть неэффективной, если Google кластеризует этот запрос преимущественно в интент о животном.
Смешивание интентов на одной странице: Если алгоритм четко разделяет интенты на разные кластеры, попытка оптимизировать одну страницу под несколько интентов приведет к нечеткому сигналу и снижению релевантности для каждого из них.

Стратегическое значение

Патент подтверждает стратегический фокус Google на понимании пути пользователя и удовлетворении глубинных информационных потребностей, а не просто на сопоставлении ключевых слов. Он демонстрирует, как поведенческие данные (сессии и клики) используются для определения релевантности и намерения на практике. Для долгосрочной SEO-стратегии это означает необходимость смещения фокуса с отдельных запросов на комплексное покрытие тем (Topical Authority) и сценариев поведения пользователей.

Практические примеры

Сценарий: Оптимизация сайта по теме «Mars»

Анализ выдачи: SEO-специалист анализирует SERP по запросу «Mars» и видит, что «Related Searches» разделены на группы (как показано на FIG. 7 в патенте): (1) Roman God, Mythology; (2) NASA, Water on Mars, Planet; (3) Chocolate Candy, Frozen Bar.
Интерпретация: Это означает, что алгоритм Google выявил три основных кластера интентов на основе того, куда пользователи переходили дальше и какие документы кликали.
Действия для сайта о космосе: Специалист должен убедиться, что сайт имеет сильное покрытие для всех запросов из Кластера 2 (Планета). Стратегия должна быть направлена на то, чтобы стать основным местом назначения (absorbing state) для сессий, связанных с планетой. Также следует учесть, что пользователи часто переходят к запросам о других планетах («Венера», «Юпитер») и создать соответствующий контент.
Действия для сайта по мифологии: Специалист должен фокусироваться на Кластере 1. Необходимо сфокусироваться на удовлетворении интента, связанного с богом войны, и не пытаться конкурировать с интентом о планете.
Ожидаемый результат: Сайт становится более релевантным для конкретного кластера намерений, что улучшает поведенческие сигналы и, как следствие, укрепляет его позиции в рамках этой тематики.

Вопросы и ответы

Как система определяет, что два разных запроса имеют одно и то же намерение?

Система не полагается на текстовое сходство. Вместо этого она строит Markov Model на основе поведения пользователей. Для каждого запроса рассчитывается Visit Probability Vector, который показывает, на какие документы пользователи в конечном итоге переходят. Если два запроса имеют схожие векторы (т.е. ведут к схожим наборам документов), они считаются отражающими одно и то же намерение и группируются в один кластер.

Какие данные важнее для этой системы: данные о сессиях или данные о кликах?

Оба типа данных критически важны и используются совместно. Данные о сессиях (последовательности запросов) определяют вероятности переходов между запросами и контекст. Данные о кликах определяют вероятности переходов от запросов к документам (конечная цель). Модель объединяет их, используя параметр ε для балансировки их влияния.

Что такое «дрейф интента» (intent drift) и как система его учитывает?

Дрейф интента – это ситуация, когда пользователь меняет тему поиска в рамках одной сессии (например, начинает с «марс», а заканчивает «собака плуто»). Система учитывает это с помощью Off-topic node (f). Если запрос часто ведет к переходу на несвязанные темы, вероятность перехода к этому узлу увеличивается. Это предотвращает ошибочное связывание запросов из-за смены темы в рамках сессии.

Влияет ли этот патент напрямую на ранжирование в органическом поиске?

Нет, напрямую не влияет. Патент описывает механизм для выбора, кластеризации и отображения поисковых подсказок (Related Searches). Однако он дает критически важное понимание того, как Google интерпретирует связи между запросами и намерениями, что косвенно влияет на общую стратегию SEO, особенно на построение Topical Authority.

Что означает параметр ε (Document Escape Probability) для SEO?

Параметр ε контролирует, насколько «исследовательским» Google считает поведение пользователя. Высокий ε означает, что пользователь склонен быстро кликать по результатам (сфокусированный интент). Низкий ε означает, что пользователь склонен вводить много запросов перед кликом. Патент предполагает, что более высокие значения ε (0.5-0.7) работают лучше, что указывает на важность быстрого удовлетворения интента.

Как SEO-специалисту использовать знания из этого патента на практике?

Необходимо тщательно анализировать блоки «Related Searches» в вашей нише, так как они показывают, как Google кластеризует интенты. Стратегия контента должна быть направлена на полное покрытие одного или нескольких таких кластеров. Также важно понимать цепочки запросов (user journey) и оптимизировать контент так, чтобы он удовлетворял потребность пользователя и становился конечной точкой сессии (absorbing state).

Выполняются ли эти вычисления в реальном времени?

Сам процесс кластеризации (построение графа, матричные вычисления) слишком ресурсоемок, чтобы выполняться в реальном времени. Вероятно, он выполняется офлайн периодически для популярных запросов. В реальном времени система извлекает уже готовые, предварительно рассчитанные кластеры для отображения подсказок.

Какой алгоритм кластеризации использует Google согласно патенту?

Патент не ограничивается одним алгоритмом, но упоминает, что complete-link clustering работает хорошо в сочетании с cosine similarity для сравнения векторов. Этот метод избегает эффекта «цепочки» (chaining), который может возникать из-за дрейфа интента, и гарантирует высокую схожесть внутри кластера.

Как этот патент связан с Тематическим Авторитетом (Topical Authority)?

Это тесно связано. Topical Authority подразумевает всесторонний охват темы. В контексте этого патента тема представлена набором кластеров интентов. Чтобы стать авторитетом, ваш сайт должен быть одним из документов с высокой вероятностью посещения (высокие значения в Visit Probability Vectors) для большинства запросов внутри релевантных кластеров.

Что произойдет, если два запроса ведут к одним и тем же документам, но никогда не встречаются в одной сессии?

Если они ведут к одним и тем же документам, их Visit Probability Vectors будут похожи, и они, скорее всего, будут кластеризованы вместе. Однако модель также учитывает пути через другие запросы, поэтому совместная встречаемость в сессиях значительно усиливает связь и делает кластеризацию более точной и контекстуальной.