
Google использует механизм обобщения запросов для улучшения ранжирования, особенно когда исторических данных по исходному запросу недостаточно. Система создает варианты запроса (удаляя стоп-слова, используя синонимы, стемминг или частичное совпадение) и агрегирует данные о поведении пользователей (клики, dwell time) из этих вариантов. Это позволяет оценить качество документа для исходного запроса, используя статистику из семантически близких запросов.
Патент решает проблему нехватки исторических поведенческих данных (например, click data, dwell time) для оценки релевантности документов по редким, новым или длиннохвостым (long-tail) запросам. Использование поведенческих сигналов эффективно для популярных запросов, но ненадежно при малом объеме данных. Изобретение позволяет использовать накопленную статистику по семантически похожим (обобщенным) запросам для улучшения ранжирования по исходному запросу.
Запатентована система, которая генерирует generalized quality of result statistic (обобщенную статистику качества результата) для документа путем агрегации поведенческих данных из вариантов исходного запроса. Если для пары запрос-документ нет исторических данных в модели, система создает обобщенные варианты запроса (например, путем удаления стоп-слов, использования синонимов, стемминга). Данные о кликах, связанные с этими вариантами, агрегируются и используются как входной сигнал для ранжирования по исходному запросу.
Система работает на основе предварительно построенной модели (Model), хранящей кортежи (tuples) вида <документ, запрос, данные>, где данные — это агрегированная статистика поведения пользователей. При получении нового запроса система проверяет наличие данных для документов в выдаче.
Query Generalizer.match belief score или edit distance).generalized quality of result statistic используется как входной сигнал для модификации ранжирования.Высокая. Обработка long-tail запросов и использование поведенческих факторов остаются критически важными для поисковых систем. Механизмы семантического понимания и агрегации сигналов, описанные в патенте (синонимы, стемминг, определение опциональных терминов), активно развиваются. Этот патент описывает фундаментальный подход к переносу знаний о поведении пользователей между семантически связанными запросами.
Патент имеет высокое значение для SEO-стратегии, особенно для продвижения по СЧ/НЧ и long-tail запросам. Он показывает, что удовлетворение интента пользователя (выраженное в положительных поведенческих сигналах, таких как long clicks) по одному запросу может напрямую влиять на ранжирование этой же страницы по множеству семантически близких запросов, даже если по ним еще не накоплена собственная статистика. Это подчеркивает важность работы над Topical Authority и качеством страницы в целом, а не только над оптимизацией под конкретный ключ.
dwell time) до возврата на страницу выдачи.user behavior data из одного или нескольких обобщенных (variant) запросов.dwell time. Длинный клик обычно интерпретируется как признак релевантности документа, короткий клик — как признак отсутствия релевантности.tuples) как минимум в формате <документ, запрос, данные>.Claim 1 (Независимый пункт): Описывает основной метод использования обобщенных запросов для ранжирования.
model) запросов и документов.variants) исходного запроса для генерации одного или нескольких других запросов, которые соответствуют записям в модели. Эти другие запросы отличаются от исходного.generalized quality of result statistic для первого документа на основе данных, связанных с этими другими запросами в модели. Эти данные указывают на агрегированное поведение пользователей (aggregate user behavior) в отношении этого документа, когда он был результатом поиска по этим другим запросам.Claim 5 (Зависимый от 1): Уточняет методы создания вариантов запроса.
Вариант запроса формируется путем выполнения одного или нескольких действий: замена терминов синонимами, изменение порядка терминов (перестановка) или замена терминов их основами (стемминг).
Claim 4 (Зависимый от 1): Уточняет процесс взвешивания.
Вывод статистики включает модификацию статистики качества результата на основе уровня уверенности (level of certainty) для каждого из сгенерированных запросов (т.е. применение match belief score).
Изобретение затрагивает несколько этапов поиска, связывая офлайн-обработку данных с онлайн-ранжированием.
INDEXING / Офлайн-процессы
На этом этапе происходит построение Модели (Model Building). Система анализирует логи взаимодействия пользователей с поисковой выдачей (result selection logs), агрегирует click data (включая dwell time) и сохраняет их в виде кортежей <документ, запрос, данные>. Также может происходить предварительная обработка запросов, например, создание версий без стоп-слов.
RANKING – Ранжирование
На этом этапе генерируется начальный рейтинг (Initial Ranking) документов на основе стандартных IR-сигналов.
RERANKING – Переранжирование
Основное применение патента. Компонент Rank Modifier использует данные из Модели для корректировки начального рейтинга.
Query Generalizer.generalized quality of result statistic с учетом весов (match belief score, edit distance).Final Ranking).Входные данные:
Initial Ranking).Model) с агрегированными поведенческими данными.Выходные данные:
Generalized quality of result statistic для одного или нескольких документов.Final Ranking).Алгоритм применяется при выполнении следующих условий:
Процесс А: Обработка запроса и переранжирование (Онлайн)
Initial Ranking.Query Generalizer. Перейти к шагу 4.Match Belief Score (наименьшее количество и сложность обобщений).Match Belief Score или Edit Distance.generalized quality of result statistic используется компонентом Rank Modifier для корректировки позиции документа.Процесс Б: Построение Модели (Офлайн)
Tracking Component записывает взаимодействия пользователей (запрос, клик, dwell time) в Result Selection Logs.long clicks и short clicks).Патент фокусируется на использовании поведенческих данных и метаданных запросов.
Click Data, Dwell time (время на документе), классификацию кликов (Long Click, Short Click). Также упоминаются другие данные: позиция клика, информация о сессии, IR-оценки показанных результатов, заголовки и сниппеты, cookie пользователя, IP-адрес, User Agent.edit distance (ed): df(nq,uq)=f(nq,uq)×(1+ed(nq,uq)−k (где nq – запрос из модели, uq – исходный запрос, k > 1).df для каждого термина исходного запроса: ff=1+α(median(V)+αmin(V)) (где α – константа).user behavior data, click data) не только для конкретного запроса, но и агрегирует их из семантически связанных запросов. Это позволяет системе оценивать качество документа даже при отсутствии прямых исторических данных.dwell time (long clicks). Положительные поведенческие сигналы на странице по одному запросу улучшают её ранжирование по множеству других связанных запросов.Match Belief Score) и семантической дистанции (Edit Distance). Чем дальше обобщенный запрос от оригинала, тем меньше вес его поведенческих данных. Применяются сложные формулы взвешивания, включая экспоненциальное затухание.long clicks и минимизировать short clicks. Это главный источник данных для Модели, описанной в патенте. Качество поведенческих факторов напрямую влияет на quality of result statistic.short clicks), будут пессимизироваться. Эти негативные сигналы также агрегируются и могут ухудшить ранжирование по всему кластеру запросов.Патент подчеркивает переход от ранжирования на основе точного совпадения запроса к ранжированию на основе семантической близости и агрегированных поведенческих сигналов. Он демонстрирует, как Google справляется с разреженностью данных в long-tail поиске. Для SEO это означает, что построение тематического авторитета и фокус на качестве взаимодействия пользователя с контентом являются фундаментальными факторами. Поведенческие сигналы становятся переносимым активом страницы в рамках всей темы.
Сценарий: Использование данных из синонимичного запроса
long clicks).Match Belief Score. Так как использовались синонимы, score может быть, например, 0.8.generalized quality of result statistic для Query 1, но с понижающим коэффициентом 0.8.Сценарий: Использование данных из частичного совпадения (Partial Match)
Edit Distance. Для превращения Query 1 в Query 2 нужно удалить 3 слова ("с корицей быстро"). Edit distance = 3.Что такое "Модель" (Model) в контексте этого патента и какие данные она хранит?
Модель — это база данных, которая агрегирует исторические данные о поведении пользователей. Она хранит записи (кортежи) в формате <документ, запрос, данные>, где "данные" – это метрики взаимодействия, такие как количество кликов, время пребывания на сайте (dwell time) и классификация кликов (long/short clicks). Эта модель служит источником знаний о том, какие документы пользователи считали релевантными для конкретных запросов в прошлом.
В каких случаях активируется механизм обобщения запросов?
Механизм обобщения (Query Generalization) активируется, когда система определяет, что для исходного запроса пользователя и конкретного документа в выдаче недостаточно или полностью отсутствуют исторические поведенческие данные в Модели. Это типично для редких, новых или длиннохвостых (long-tail) запросов. Цель обобщения — найти похожий запрос, по которому статистика уже есть.
Какие методы Google использует для обобщения запроса?
Патент описывает несколько ключевых методов: удаление стоп-слов (например, предлогов); удаление опциональных терминов (слов, не меняющих интент); замена терминов синонимами; стемминг (приведение слов к основе); и изменение порядка слов (перестановка). Также упоминается частичное совпадение запросов (Partial Query Match), когда совпадают только некоторые термины.
Как система определяет, насколько можно доверять данным из обобщенного запроса?
Система использует метрики уверенности, такие как Match Belief Score или Edit Distance. Match Belief Score понижается за каждое примененное обобщение (например, использование синонима штрафуется сильнее, чем удаление стоп-слова). Edit Distance измеряет количество изменений, необходимых для преобразования одного запроса в другой. Чем ниже уверенность или больше дистанция, тем сильнее понижается вес (down-weighting) поведенческих данных, часто с использованием экспоненциального затухания.
Что такое экспоненциальное затухание (exponential decay) при частичном совпадении запросов?
Это метод понижения веса поведенческих данных, используемый, когда исходный запрос совпадает с запросом из модели лишь частично. Вес данных уменьшается экспоненциально с увеличением Edit Distance (количества несовпадающих терминов). Это делается для того, чтобы предотвратить переоценку релевантности при слишком свободных совпадениях и учесть потерю семантического контекста.
Как этот патент влияет на стратегию продвижения по НЧ и long-tail запросам?
Он критически важен для НЧ-продвижения. Патент показывает, что для успешного ранжирования по long-tail запросам необходимо иметь страницу, которая уже хорошо себя зарекомендовала (имеет положительные поведенческие сигналы) по более популярным или семантически близким запросам. Стратегия должна фокусироваться на создании авторитетных страниц (Topical Authority), которые агрегируют положительные сигналы со всего кластера, что позволит им ранжироваться по НЧ-запросам даже без прямых исторических данных по ним.
Означает ли этот патент, что точное вхождение ключевых слов больше не важно?
Точное вхождение остается важным фактором ранжирования, но этот патент показывает, что поведенческие сигналы могут быть перенесены между разными формулировками одного интента. Если страница идеально оптимизирована под точное вхождение, но получает негативные поведенческие сигналы (short clicks), эти сигналы могут ухудшить её ранжирование по всем связанным запросам. Важнее удовлетворить интент, стоящий за разными формулировками.
Что такое пропагация данных при уточнении запроса (Query Refinement Propagation)?
Это механизм, описанный в патенте, при котором поведенческие данные переносятся от уточненного запроса к исходному в рамках одной пользовательской сессии. Например, если пользователь ввел "ресторан", не нашел нужного, затем уточнил "итальянский ресторан Москва центр" и совершил long click на документе, этот положительный сигнал может быть засчитан для этого документа и по исходному запросу "ресторан".
Как SEO-специалисту использовать знания из этого патента для улучшения контента?
Необходимо фокусироваться на создании контента, который максимально удовлетворяет интент пользователя (стимулирует long clicks). Контент должен естественно включать синонимы, различные словоформы и отвечать на смежные вопросы. Это позволит странице накапливать положительные поведенческие сигналы из максимально широкого спектра запросов, которые затем будут агрегироваться системой для улучшения ранжирования по всему семантическому кластеру.
Может ли этот механизм привести к тому, что в выдаче появятся менее релевантные результаты?
Теоретически да, если система некорректно определит семантическую связь между запросами или если поведенческие данные из обобщенного запроса не отражают релевантность для исходного запроса. Однако для минимизации этого риска Google использует строгие механизмы взвешивания (Match Belief Score, Edit Distance), которые значительно понижают вес данных при низкой уверенности в семантической близости запросов.

Поведенческие сигналы
Семантика и интент
SERP

Поведенческие сигналы
SERP

Поведенческие сигналы
SERP

SERP
Поведенческие сигналы
EEAT и качество

Поведенческие сигналы
Мультиязычность
Персонализация

Поведенческие сигналы
Персонализация
SERP

EEAT и качество
Антиспам
SERP

SERP
Поведенческие сигналы
Семантика и интент

Семантика и интент
Индексация
Мультимедиа

Семантика и интент
SERP
Поведенческие сигналы

Структура сайта
SERP
Ссылки

Персонализация
Поведенческие сигналы
SERP

Ссылки
EEAT и качество
Антиспам

Local SEO
Поведенческие сигналы

Семантика и интент
SERP
Поведенческие сигналы
