Как Google использует кластеризацию исторических запросов и кликов для генерации семантически различных уточнений (Related Searches)

Google анализирует, какие запросы в прошлом приводили к кликам на документы, которые сейчас ранжируются по текущему запросу. Эти исторические запросы кластеризуются по смыслу для выявления разных интентов. Лучший запрос из каждого кластера предлагается как уточнение (Related Search), при этом система активно обеспечивает разнообразие предложений.

Описание

Какую задачу решает

Патент решает проблему неоднозначных (ambiguous), слишком общих или слишком специфичных поисковых запросов. Например, запрос «jaguar» может относиться к автомобилю, операционной системе или животному. Цель изобретения — предоставить пользователю концептуально независимые и четкие предложения по уточнению запроса (Query Refinements), которые помогают разрешить эту неоднозначность и лучше отражают истинное намерение пользователя, превосходя простые методы, основанные на совместной встречаемости слов.

Что запатентовано

Запатентована система генерации уточнений запроса, использующая исторические данные о поведении пользователей. Система анализирует, какие запросы в прошлом приводили к выбору (кликам) документов, которые сейчас релевантны текущему запросу. Эти исторические запросы кластеризуются для выявления различных семантических групп (интентов). Для каждой группы выбирается наиболее репрезентативный запрос, который и предлагается пользователю в качестве уточнения (например, в блоке «Related Searches»).

Как это работает

Система работает в два этапа:

Прекомпутация (Офлайн): Создается база данных ассоциаций (Association Database), где хранятся пары «Запрос — Выбранный пользователем документ» и вес этой связи (Weight).
Генерация уточнений (Онлайн):
- Пользователь вводит запрос Q1, система находит результаты (D1, D2…).
- Система извлекает все исторические запросы (Q_Hist), которые ранее ассоциировались с D1, D2.
- Для Q_Hist создаются Term Vectors. Важно: термины из исходного запроса Q1 пессимизируются (down-weighted) в этих векторах для обеспечения разнообразия.
- Q_Hist кластеризуются на основе векторов для выявления семантических групп.
- Для каждого кластера вычисляется Centroid (взвешенный центр).
- Лучший запрос внутри кластера (наиболее частый и близкий к центроиду) выбирается как уточнение.

Актуальность для SEO

Высокая. Понимание намерений пользователя и разрешение неоднозначности запросов являются фундаментальными задачами современного поиска. Описанный механизм, вероятно, лежит в основе систем, генерирующих блоки «Related Searches». Хотя конкретные алгоритмы кластеризации могли эволюционировать (например, в сторону нейросетевых моделей), базовая логика использования поведенческих данных (запрос-клик) для картирования семантического пространства остается критически важной.

Важность для SEO

Патент имеет высокое стратегическое значение (8.5/10). Он не описывает фактор ранжирования напрямую, но раскрывает механизм, с помощью которого Google интерпретирует семантическое пространство и кластеризует интенты на основе поведения пользователей. Понимание этого процесса критически важно для разработки контент-стратегии, построения тематического авторитета (Topical Authority) и анализа конкурентной среды.

Детальный разбор

Термины и определения

Association Database (База данных ассоциаций): Хранилище, содержащее Stored Queries, Stored Documents, их связи (Associations) и веса (Weights). Строится офлайн.
Stored Query (Сохраненный запрос): Запрос, ранее введенный пользователями.
Stored Document / Resource (Сохраненный документ / Ресурс): Документ (ресурс), который был выбран пользователем (кликнут) после ввода Stored Query.
Search Query-Resource Pair (Пара Запрос-Ресурс): Логическая связь (Association) между Stored Query и Stored Document. Согласно Claim 1, формируется на основе выбора пользователя (клика).
Weight (Вес ассоциации): Метрика, оценивающая релевантность или частоту связи между Stored Query и Stored Document.
Term Vector (Вектор терминов): Многомерное векторное представление запроса, где каждое измерение соответствует термину, а значение — весу этого термина. Используется для вычисления семантической близости.
Cluster (Кластер): Группа запросов или документов, объединенных на основе близости их Term Vectors. Отражает семантическую группировку или интент.
Centroid (Центроид): Взвешенный центр кластера. Вектор, представляющий среднее значение Term Vectors внутри кластера.
Representative Search Query (Репрезентативный поисковый запрос): Запрос внутри кластера, имеющий наивысший балл (основанный на частоте и близости к Centroid). Используется как предлагаемое уточнение (Refinement).
Relevance Score (Оценка релевантности): Оценка релевантности документа текущему запросу, вычисленная основной поисковой системой.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс генерации уточнений, основанный на поведении пользователей.

Доступ к предварительно вычисленным парам search query-resource pairs и их весам (weights).
Критическое определение: Пара связывает ранее отправленный запрос и ресурс, который был выбран пользователями (selected by users) в ответ на этот запрос (т.е. данные о кликах).
Получение нового (текущего) поискового запроса.
Получение результатов поиска (ресурсов) с их оценками релевантности (relevance scores).
Сопоставление полученных ресурсов с ресурсами, хранящимися в базе пар.
Выбор подмножества сохраненных запросов, которые ассоциированы с совпавшими ресурсами. Выбор основан на relevance scores текущих результатов И weights исторических пар.
Предоставление выбранных запросов в качестве уточнений.

Claim 2 (Зависимый от 1): Детализирует механизм выбора уточнений через кластеризацию.

Для совпавших ресурсов вычисляются term vectors. Вектор представляет термины из исторических запросов, связанных с этим ресурсом.
Ресурсы кластеризуются на основе этих term vectors.
Для кластера выбирается representative search query.

Claim 6 (Зависимый от 2): Определяет метод выбора репрезентативного запроса (Naming).

Для каждого кластера вычисляется centroid (взвешенный центр).
Для каждого уникального запроса внутри кластера вычисляется оценка (score), основанная на (i) частоте этого запроса в кластере и (ii) расстоянии от вектора запроса до centroid.
Запрос с наивысшей оценкой выбирается как репрезентативный.

Claim 7 (Зависимый от 6): Описывает критически важный аспект обработки векторов для обеспечения разнообразия.

Перед нормализацией, значения измерений в term vector, которые соответствуют терминам из исходного (текущего) запроса, умножаются на постоянный коэффициент (пессимизируются/down-weighted). Это обеспечивает концептуальную независимость предлагаемых уточнений.

Где и как применяется

Изобретение функционирует на стыке нескольких этапов поиска, используя офлайн-анализ данных для поддержки онлайн-генерации уточнений.

INDEXING / Прекомпутация (Офлайн)
На этом этапе система анализирует логи запросов (Query Log) и данные о кликах пользователей для построения Association Database. Это офлайн-процесс, который связывает запросы с документами, на которые пользователи переходили.

RANKING – Ранжирование
Основная поисковая система генерирует первичный набор результатов для текущего запроса и вычисляет их Relevance Scores. Эти данные используются системой уточнений в качестве входных.

QUNDERSTANDING – Понимание Запросов / METASEARCH – Метапоиск и Смешивание
Основное применение патента. После того как результаты ранжирования готовы, система уточнений анализирует их для генерации предложений (например, блока «Related Searches»). Это происходит онлайн в момент обработки запроса.

Входные данные:

Текущий запрос пользователя.
Результаты поиска по текущему запросу (Search Documents).
Relevance Scores этих результатов.
Association Database (исторические пары Запрос-Кликнутый Документ и их веса).

Выходные данные:

Отсортированный набор уточнений запроса (Query Refinements).

На что влияет

Специфические запросы: Наибольшее влияние оказывается на неоднозначные запросы (например, «jaguar», «apple») и широкие информационные запросы, где у пользователя может быть несколько разных намерений или аспектов для изучения.
Конкретные типы контента: Влияет на все типы контента, так как система анализирует связи между запросами и любыми кликнутыми ресурсами.

Когда применяется

Условия применения: Алгоритм применяется при обработке поискового запроса, когда для полученных результатов поиска существует достаточное количество исторических данных в Association Database для формирования осмысленных кластеров.
Частота применения: Применяется для большинства запросов в реальном времени, хотя результаты могут кэшироваться для частых запросов.

Пошаговый алгоритм

Процесс А: Прекомпутация (Офлайн)

Сбор данных: Отслеживание поисковых запросов и последующих кликов пользователей по результатам поиска (используя Query Log).
Создание ассоциаций: Формирование пар (Stored Query, Stored Document), где документ был выбран после ввода запроса.
Назначение весов: Присвоение веса (Weight) каждой паре, например, на основе частоты кликов или частоты запроса. Веса суммируются при повторении пар.
Хранение: Сохранение пар и весов в Association Database.

Процесс Б: Генерация уточнений (Онлайн)

Получение данных: Система получает текущий запрос (Q_New) и его результаты (D_New) с Relevance Scores.
Сопоставление результатов: Идентификация результатов D_New, которые присутствуют в Association Database.
Извлечение исторических запросов: Получение всех исторических запросов (Q_Hist) и их весов, связанных с совпавшими документами.
Вычисление Term Vectors: Создание векторов для Q_Hist на основе их терминов и весов ассоциаций.
Пессимизация (Down-weighting) и Нормализация: Уменьшение веса терминов в векторах, которые присутствуют в исходном запросе Q_New. Нормализация длины векторов.
Кластеризация: Группировка векторов с использованием, например, иерархической агломеративной кластеризации для выявления семантических групп.
Ранжирование кластеров: Оценка кластеров на основе Relevance Scores документов в них и размера кластера. Выбор топовых кластеров.
Вычисление Centroids: Определение взвешенного центра для каждого топового кластера.
Оценка запросов в кластере: Оценка каждого Q_Hist внутри кластера на основе его частоты и расстояния до Centroid.
Выбор репрезентативного запроса (Naming): Q_Hist с наивысшей оценкой становится названием кластера (Уточнением).
Презентация: Сортировка полученных уточнений и их отображение пользователю.

Какие данные и как использует

Данные на входе

Патент сосредоточен на использовании поведенческих и системных данных.

Поведенческие факторы (Ключевые): Критически важные данные. Используются исторические логи запросов (Query Log) и данные о кликах пользователей по результатам поиска. Именно эти данные формируют Search Query-Resource Pairs (Claim 1).
Системные данные: Relevance Scores документов для текущего запроса, вычисленные основной системой ранжирования. Weights исторических ассоциаций.
Контентные факторы (Косвенно): Термины из Stored Queries используются для построения Term Vectors.

Какие метрики используются и как они считаются

Weight (Вес ассоциации): Оценка силы связи между историческим запросом и кликнутым документом. Может суммироваться и умножаться на частоту запроса.
Term Vector Value (Значение в векторе термов): Сумма весов терма в наборе ассоциированных запросов. Применяется понижающий коэффициент (Constant Factor) для термов из исходного запроса.
Distance (Расстояние): Используется для измерения близости между Term Vectors при кластеризации и между запросом и Centroid.
Cluster Rank Score (Оценка ранжирования кластера): Функция от Relevance Scores документов в кластере и количества документов в кластере.
Query Cluster Score (Оценка запроса в кластере): Функция от частоты запроса внутри кластера и расстояния его вектора до Centroid кластера.
Методы кластеризации: Упоминается иерархическая агломеративная кластеризация (hierarchical agglomerative clustering).

Выводы

Поведение пользователей определяет семантические связи: Фундаментальный вывод заключается в том, что связь между разными запросами устанавливается через общие документы, на которые кликают пользователи (co-click). Claim 1 явно подтверждает использование данных о кликах (user selections) для построения Association Database.
Кластеризация выявляет интенты, а не просто ключевые слова: Система активно группирует исторические запросы для выявления различных намерений (интентов) или подтем, связанных с исходным запросом.
Принудительное разнообразие (Enforced Diversity): Механизм пессимизации (down-weighting) терминов исходного запроса критически важен. Он гарантирует, что предлагаемые уточнения будут концептуально отличаться и предлагать новые направления поиска, а не просто являться более длинными версиями того же запроса.
Центроиды определяют идеальное уточнение: Предлагаемое уточнение — это реальный прошлый запрос, который наиболее близок к взвешенному семантическому центру (Centroid) кластера. Это обеспечивает максимальную репрезентативность уточнения для всей группы.
Качество уточнений зависит от качества исходной выдачи: Система использует Relevance Scores документов из текущей выдачи для ранжирования кластеров. Качественная и разнообразная исходная выдача приводит к лучшим уточнениям.

Практика

Best practices (это мы делаем)

Анализ уточнений (Related Searches) как основа контент-стратегии: Регулярно анализируйте предлагаемые Google уточнения для ваших целевых запросов. Они показывают, какие семантические кластеры Google распознает в данной теме на основе поведения пользователей. Это прямой инсайт для создания контент-плана и построения Topical Authority.
Цельтесь в центроид кластера: Создавайте контент, который не просто оптимизирован под один ключевой запрос, а соответствует семантическому центру (Centroid) кластера. Это означает удовлетворение нескольких тесно связанных запросов и интентов в рамках одной страницы или хаба.
Оптимизация под удовлетворение интента (Clicks и Satisfaction): Поскольку основой патента является связь между запросом и кликом (Claim 1), критически важно создавать привлекательные сниппеты для повышения CTR и гарантировать, что контент удовлетворяет интент пользователя. Это укрепляет Weight связи в Association Database.
Четкое таргетирование интента для неоднозначных запросов: При работе с широкими запросами убедитесь, что ваш контент четко удовлетворяет одному конкретному кластеру намерений, чтобы избежать размывания релевантности.

Worst practices (это делать не надо)

Игнорирование семантических кластеров: Попытка ранжироваться по широкому запросу без учета различных фасетов и интентов, которые Google идентифицирует через уточнения.
Создание неоднозначного контента: Попытка охватить слишком много разрозненных кластеров на одной странице. Это может ослабить ассоциации внутри конкретных семантических кластеров и затруднить определение Centroid.
Кликбейт и манипуляция CTR: Получение кликов без последующего удовлетворения интента пользователя не приведет к формированию сильных и устойчивых ассоциаций в Association Database.
Фокус только на основном ключевом слове: Игнорирование того, как пользователи уточняют запросы и как развивается их поисковый путь (user journey).

Стратегическое значение

Патент подтверждает, что Google активно моделирует поисковый путь пользователя и тематическое пространство, используя агрегированные поведенческие данные. SEO-стратегия должна выходить за рамки ранжирования по отдельным ключевым словам и фокусироваться на владении семантическими кластерами. Система поощряет контент, который является центром притяжения для определенного набора связанных запросов (близок к Centroid), и использует эти данные для направления пользователей к следующему шагу в их поиске.

Практические примеры

Сценарий: Оптимизация сайта по теме «Выбор ноутбука»

Исходный запрос: «лучший ноутбук» (широкий запрос).
Анализ уточнений (Related Searches): Google генерирует уточнения на основе кластеризации исторических запросов. Уточнения: «лучший ноутбук для студентов», «лучший игровой ноутбук», «лучший бюджетный ноутбук».
Интерпретация кластеров: Каждый из этих уточнений представляет собой Representative Search Query для отдельного семантического кластера (Студенты, Игры, Бюджет).
Действия SEO-специалиста:
- Убедиться, что на сайте созданы отдельные посадочные страницы или разделы для каждого из этих кластеров.
- Оптимизировать страницу «лучший игровой ноутбук» так, чтобы она была близка к Centroid этого кластера, охватывая смежные запросы (например, «ноутбук с RTX 4070», «ноутбук для киберспорта»).
- Создать сильные внутренние ссылки между этими страницами для укрепления тематического авторитета.
Ожидаемый результат: Сайт становится сильным авторитетом в каждом кластере, укрепляя свои позиции в Association Database и увеличивая охват трафика по всей теме.

Вопросы и ответы

Чем описанный метод отличается от простого предложения запросов на основе совместной встречаемости слов (co-occurrence)?

Отличие кардинальное. Совместная встречаемость часто предлагает просто более длинные версии того же запроса. Этот патент использует кластеризацию исторических запросов, связанных с текущими результатами, и, что самое важное, активно пессимизирует (down-weights) термины исходного запроса. Это гарантирует, что предложенные уточнения будут семантически отличаться и предлагать новые направления поиска.

Какова роль кликов пользователей (CTR) в этом патенте?

Роль кликов критически важна. Claim 1 прямо указывает, что база данных ассоциаций строится на основе пар: запрос и ресурс, который был «выбран пользователями» (selected by users) в ответ на этот запрос. Именно клики устанавливают и взвешивают связь между запросами и документами, которая затем используется для генерации уточнений.

Что такое Центроид (Centroid) и почему он важен?

Центроид — это взвешенный центр семантического кластера. Он представляет собой «идеальный» вектор, усредняющий все запросы в этой группе. Важность в том, что система выбирает в качестве уточнения реальный запрос, который ближе всего к этому центру. Это гарантирует, что уточнение максимально релевантно всему кластеру, а не только его части.

Как система определяет, что два разных запроса связаны?

Связь определяется опосредованно, через общие документы (co-click). Если пользователи, вводящие Запрос А и Запрос Б, часто выбирают (кликают) один и тот же Документ X, система устанавливает связь между Запросом А и Запросом Б. Чем больше общих документов и сильнее веса ассоциаций, тем сильнее связь.

Что означает пессимизация (down-weighting) исходных терминов для SEO?

Это означает, что Google целенаправленно ищет разнообразие в уточнениях. Для SEO это подчеркивает необходимость понимания того, как пользователи исследуют тему за пределами основного запроса. Вы должны не только оптимизироваться под основной запрос, но и создавать контент под смежные, но концептуально отличные кластеры интентов.

Как использовать этот патент для планирования контента?

Используйте предлагаемые уточнения (Related Searches) как карту семантического пространства вашей темы. Каждое уточнение — это вход в отдельный кластер интентов. Ваша задача — создать лучший контент для каждого из этих кластеров. Это позволит вам построить Topical Authority и перехватывать пользователей на разных этапах их поискового пути.

Использует ли система анализ контента документов для генерации уточнений?

Согласно этому патенту, нет. Уточнения генерируются исключительно на основе анализа самих запросов (их Term Vectors) и их связей с документами через клики пользователей. Система кластеризует запросы, а не контент документов.

Насколько актуальны методы кластеризации, описанные в патенте?

В патенте упоминается иерархическая агломеративная кластеризация. Хотя этот метод эффективен, современные системы Google, вероятно, используют более продвинутые методы, включая нейронные сети и векторные эмбеддинги (BERT, MUM). Однако базовая концепция кластеризации запросов на основе совместного поведения пользователей остается актуальной.

Что важнее для выбора уточнения: популярность запроса или его репрезентативность?

Оба фактора важны, но репрезентативность играет ключевую роль. Система оценивает запросы на основе их частоты (популярности) в кластере И их расстояния до Centroid (репрезентативности). Цель — найти запрос, который лучше всего представляет весь кластер.

Что означает опциональное «дополнение набора уточнений» (Augment set of refinements)?

Патент предлагает возможность создавать «негативные» уточнения. Например, если исходный запрос «jaguar», а основные уточнения «car», «os», «cat», система может предложить уточнение вида «jaguar -car -os -cat». Это помогает пользователю исключить все основные интерпретации и найти что-то другое, связанное с термином.