
Google использует графовую модель (Марковскую цепь) для кластеризации поисковых подсказок и связанных запросов. Система анализирует, какие запросы пользователи вводят в одной сессии и на какие документы они кликают. Это позволяет сгруппировать запросы, ведущие к схожему контенту, и предложить пользователю разнообразный набор подсказок, отражающих разные интенты.
Патент решает проблему отбора и организации поисковых подсказок (связанных запросов). Для популярных или многозначных запросов существуют сотни вариантов уточнений, но место на странице выдачи ограничено. Система призвана обеспечить разнообразие (diversity) подсказок, группируя их по различным информационным потребностям (интентам). Например, для запроса "mars" система стремится показать подсказки, относящиеся к планете, римскому богу и шоколадному батончику, а не только к самой популярной теме.
Запатентован метод кластеризации уточнений запроса (Query Refinements) на основе предполагаемого намерения пользователя. Суть изобретения заключается в построении графа (смоделированного как Марковская цепь), который объединяет данные о совместной встречаемости запросов в сессиях (session co-occurrence) и данные о кликах по документам (click-through information). Уточнения запросов кластеризуются на основе вероятности того, что они приведут пользователя к одному и тому же набору документов.
Система функционирует следующим образом:
Document Set).Transition Probabilities) между состояниями (узлами).Visit Probability Vector) документов. Это достигается путем моделирования случайного блуждания по графу. Документы являются поглощающими состояниями (absorbing states).Высокая. Понимание интента пользователя и обеспечение разнообразия выдачи и подсказок являются центральными задачами современных поисковых систем. Описанный механизм, комбинирующий анализ сессий и кликов для определения семантической близости запросов, остается крайне актуальным для понимания того, как Google интерпретирует взаимосвязи между темами и интентами.
Патент имеет высокое стратегическое значение для SEO (8/10). Хотя он напрямую описывает механизм работы поисковых подсказок, а не ранжирования основного поиска, он раскрывает фундаментальный подход Google к пониманию интента пользователя. Он демонстрирует, как Google использует поведенческие данные (сессии и клики) для построения карты информационных потребностей вокруг темы. Понимание этих механизмов критически важно для построения Topical Authority и оптимизации пути пользователя.
off-topic) являются поглощающими.Патент содержит несколько ключевых независимых пунктов, описывающих основной и расширенный методы кластеризации.
Claim 1 (Независимый пункт): Описывает базовый метод кластеризации уточнений запроса.
R(q)) и их наборов документов (D(r)).G с узлами для запроса, уточнений и документов. Ребра соединяют запрос с уточнениями, уточнения с документами и уточнения с совместно встречающимися запросами.P) для графа G. Вероятности рассчитываются на основе частоты кликов (для ребер запрос-документ) и частоты совместной встречаемости в сессиях (для ребер запрос-запрос), с использованием параметра (вероятность перехода к документу).Visit Probability Vector) для каждого уточнения на основе матрицы P.Ядро изобретения — это использование комбинированной модели (сессии + клики) в виде Марковской цепи для определения схожести интентов через вероятности достижения одних и тех же документов.
Claim 2 (Независимый пункт): Описывает расширенный метод, включающий учет дрейфа интента.
G модифицируется.off-topic node f).f.P рассчитывается с учетом вероятности перехода в состояние f. Эта вероятность зависит от того, как часто после данного уточнения пользователи вводят запросы, не являющиеся уточнениями исходного запроса (т.е. уходят от темы).Этот пункт защищает механизм учета смены темы, что позволяет более точно моделировать поведение пользователя и избегать ошибочного объединения запросов из-за транзитивных связей при дрейфе интента.
Изобретение применяется на нескольких этапах поисковой архитектуры, преимущественно в офлайн-обработке данных и на финальных этапах формирования выдачи.
QUNDERSTANDING – Понимание Запросов (Офлайн-процессы)
Основная работа алгоритма происходит здесь. Система анализирует логи запросов (search query log) и данные о кликах для построения графа G(q), расчета матрицы P и выполнения кластеризации. Результатом является заранее подготовленная база данных кластеризованных уточнений запросов для множества исходных запросов.
METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование (Онлайн-процессы)
Когда пользователь вводит запрос, система обращается к заранее рассчитанным данным. Кластеры используются для отбора (selection) и размещения (placement) поисковых подсказок на странице результатов. Цель — обеспечить разнообразие (diversity) подсказок, выбирая представителей из разных кластеров интентов.
Входные данные:
Выходные данные:
refinement clusters).Search Suggestions), представленные пользователю на SERP.Алгоритм применяется, когда необходимо сгенерировать набор разнообразных и релевантных поисковых подсказок для данного запроса. Расчеты производятся периодически в офлайн-режиме для обновления базы кластеров. Отображение результатов происходит при каждом запросе пользователя, для которого существуют заранее рассчитанные кластеры и достаточно данных в логах.
Процесс кластеризации уточнений запроса (на основе Algorithm 1 в патенте).
R(q) для исходного запроса q (запросы, следующие за q в сессиях).D(r) для каждого уточнения r.Q(r).R(q) и всех d из D(r).Q(ri).f) и ребра (r, f).random walk) и определяет вероятность достижения поглощающих состояний (документов). Параметр n (количество шагов) выбирается для достижения сходимости (обычно достаточно n=3-7).Visit Probability Vector для ri.complete-link clustering) к набору векторов L, используя меру схожести (например, cosine similarity). Цель — сгруппировать уточнения, которые ведут к схожим наборам документов.Патент опирается исключительно на поведенческие данные, извлеченные из логов поисковой системы.
Query Refinements) и совместно встречающиеся запросы (Co-occurring Queries).Document Set) для каждого запроса и частоты кликов по конкретным документам (nd).Патент не упоминает использование контентных, ссылочных, технических или иных факторов ранжирования.
Система вычисляет вероятности в рамках Марковской модели.
Метрики:
Расчеты (Transition Probability Matrix P):
R(q) (т.е. не связанным с исходной темой), умноженная на (1-).Visit Probability Vectors.off-topic node показывает, что Google осознает проблему смены темы внутри одной сессии и активно моделирует это поведение, чтобы избежать неверной кластеризации транзитивно связанных, но тематически разных запросов.Document Set) являются поглощающими состояниями и определяют схожесть запросов, критически важно, чтобы пользователи кликали на ваш сайт и были удовлетворены контентом (завершали поиск). Это укрепляет связь между запросом и вашим документом в графе.Этот патент подтверждает стратегический переход Google от анализа отдельных ключевых слов к пониманию поведения пользователей и их намерений. Он демонстрирует, как Google строит карту тем и интентов, основываясь на том, как реальные пользователи ищут информацию и какой контент они потребляют. Для SEO это означает, что построение авторитетности в теме (Topical Authority) требует не просто наличия статей по ключевым словам, а понимания того, как эти ключевые слова связаны в сознании пользователя и в поведенческих паттернах поиска.
Сценарий: Оптимизация сайта по теме "Mars"
Как система определяет, что два запроса имеют одинаковый интент?
Система не интерпретирует интент напрямую. Вместо этого она использует поведенческие данные как прокси. Согласно патенту, два запроса считаются схожими по интенту, если они часто встречаются в одних и тех же сессиях И если они в конечном итоге приводят пользователей к одному и тому же набору документов. Это измеряется путем сравнения их векторов вероятности посещения (Visit Probability Vectors).
Что важнее для определения схожести запросов: общие клики или совместная встречаемость в сессии?
Важны оба фактора. Патент специально разработан для объединения этих двух типов данных в единую модель (Марковскую цепь). Общие клики указывают на схожесть контента, а совместная встречаемость в сессии указывает на связь в поведении пользователя. Вес между ними регулируется параметром (вероятность перехода к документу).
Как этот патент влияет на ранжирование моего сайта?
Напрямую этот патент не описывает алгоритм ранжирования основного поиска (синих ссылок). Он описывает механизм кластеризации для поисковых подсказок (Related Searches). Однако он дает критически важное понимание того, как Google интерпретирует взаимосвязи между запросами и интентами. Если ваш сайт помогает пользователю успешно завершить сессию по определенному кластеру интентов, это укрепляет его релевантность этой теме.
Что такое "дрейф интента" (Intent Drift) и как Google его учитывает?
Дрейф интента — это ситуация, когда пользователь меняет тему поиска в рамках одной сессии (например, ищет "Pluto" планету, а затем "Pluto the dog"). Google учитывает это с помощью специального узла смены темы (off-topic node f) в графе. Если после какого-то запроса пользователи часто уходят на несвязанные темы, вероятность перехода в состояние 'f' увеличивается, что предотвращает ошибочное связывание разных тем.
Как я могу использовать эти знания для улучшения Topical Authority?
Используйте этот механизм для картирования ландшафта интентов в вашей нише. Определите основные кластеры запросов (анализируя подсказки и связанные запросы). Убедитесь, что ваш сайт полностью покрывает контентом каждый целевой кластер и обеспечивает удобную навигацию внутри него. Это позволит вашему сайту стать основным "поглощающим состоянием" (источником кликов) для данного кластера интентов.
Что означает, что документы являются "поглощающими состояниями"?
В контексте этой Марковской модели это означает, что когда пользователь кликает на документ, он удовлетворяет свою информационную потребность (по крайней мере временно), и блуждание по графу для этого пути заканчивается. Система измеряет вероятность того, что пользователь закончит свой путь на конкретном документе, стартовав с определенного запроса.
Почему используется именно complete-link clustering?
Патент упоминает, что методы кластеризации, подверженные "эффекту цепочки" (chaining), такие как single-link, работают плохо из-за дрейфа интента и транзитивных связей между запросами. Complete-link clustering гарантирует, что все элементы внутри кластера действительно похожи друг на друга (измеряется по наименее схожей паре), что лучше подходит для выявления плотных групп схожих интентов.
Происходит ли кластеризация в реальном времени?
Нет. Процесс построения графа, расчета Марковской модели и кластеризации требует значительных вычислительных ресурсов и выполняется офлайн путем анализа больших объемов логов поисковых запросов. В реальном времени поисковая система использует уже готовые, предварительно рассчитанные кластеры для формирования блока связанных запросов на SERP.
Может ли мой сайт попасть в несколько кластеров интентов?
Да. Если ваш сайт является широким ресурсом (например, Википедия), его разные документы могут быть целевыми (поглощающими состояниями) для разных кластеров интентов. Например, одна статья релевантна кластеру "Mars Planet", а другая — кластеру "Mars God".
Использует ли Google анализ текста страниц для этой кластеризации?
Согласно данному патенту — нет. Описанный метод кластеризации полагается исключительно на поведенческие данные: логи сессий и данные о кликах. Схожесть определяется через поведение пользователей, а не через семантический анализ контента документов или текста запросов.

SERP
Поведенческие сигналы
Семантика и интент

Семантика и интент
SERP
Поведенческие сигналы

Семантика и интент
SERP
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
Персонализация

Поведенческие сигналы
SERP

Персонализация
Семантика и интент
SERP

Семантика и интент
Индексация
Мультимедиа

Поведенческие сигналы
Индексация
Семантика и интент

Персонализация
Поведенческие сигналы
SERP

Персонализация
Поведенческие сигналы
Local SEO

SERP
EEAT и качество
Поведенческие сигналы

Ссылки
Семантика и интент
Техническое SEO

Поведенческие сигналы
Семантика и интент
SERP

Семантика и интент
Local SEO
Персонализация

Персонализация
Поведенческие сигналы
SERP
