Как Google использует данные о поведении пользователей по похожим запросам для ранжирования новых или редких запросов

Google использует механизм для улучшения ранжирования запросов, по которым недостаточно данных о поведении пользователей (например, кликов). Система находит исторические запросы, семантически похожие на исходный, и «заимствует» их поведенческие данные. Степень сходства рассчитывается с учетом важности терминов, синонимов и порядка слов. Эти заимствованные данные используются для корректировки рейтинга документов по исходному запросу.

Описание

Какую задачу решает

Патент решает проблему нехватки данных о поведении пользователей (User Behavior Data, например, кликов и времени пребывания на странице) для точного ранжирования результатов по новым, редким или длиннохвостым запросам. Стандартные алгоритмы ранжирования, опирающиеся на поведенческие сигналы для оценки релевантности, неэффективны при отсутствии этих данных (Insufficient User Behavior Data). Изобретение позволяет улучшить качество выдачи для таких запросов, используя данные из семантически близких запросов с богатой историей.

Что запатентовано

Запатентована система, которая при недостаточности поведенческих данных для исходного запроса идентифицирует и оценивает схожесть исторических запросов. Система использует сложный механизм взвешивания терминов (учитывая их важность, синонимы, порядок и целостность составных фраз) для расчета оценки схожести (Match Score). Затем она агрегирует User Behavior Data из наиболее похожих запросов и использует эти данные для генерации статистик качества результатов (Quality of Result Statistic), которые влияют на ранжирование исходного запроса.

Как это работает

Система работает следующим образом:

Проверка достаточности данных: Определяется, достаточно ли User Behavior Data для исходного запроса.
Взвешивание терминов запроса: Если данных недостаточно, терминам исходного запроса присваиваются веса в зависимости от их типа: обязательные (Regular/Variant), опциональные (Optional) или стоп-слова (Stopword).
Расчет схожести: Исторические запросы сравниваются с исходным. Рассчитывается Match Score (используя аддитивные и мультипликативные оценки), учитывая веса терминов и применяя штрафы за отсутствие терминов, нарушение порядка слов или «разрыв» составных фраз (Broken Compound Terms).
Выбор и агрегация данных: Выбираются наиболее похожие запросы. Их User Behavior Data комбинируются (например, через взвешенное среднее или ограниченное агрегирование).
Переранжирование: Комбинированные данные используются для расчета Quality of Result Statistic для документов, которые затем используются для корректировки их позиций в выдаче.

Актуальность для SEO

Высокая. По мере роста голосового поиска и появления уникальных запросов, проблема нехватки исторических данных остается крайне актуальной. Способность Google использовать поведенческие сигналы из смежных запросов для оценки релевантности является ключевым компонентом современных систем ранжирования, особенно для обеспечения качества в «длинном хвосте».

Важность для SEO

Патент имеет высокое стратегическое значение (8/10). Он показывает, что эффективность сайта по популярным и смежным запросам может напрямую влиять на его ранжирование по редким или новым запросам в той же тематике. Это подчеркивает важность построения тематического авторитета (Topical Authority) и комплексного удовлетворения интента пользователей в рамках всего кластера запросов, а не только оптимизации под конкретные ключевые слова.

Детальный разбор

Термины и определения

User Behavior Data (Данные о поведении пользователей): Данные, отражающие взаимодействие пользователей с результатами поиска. В патенте упоминаются click data (клики) и время пребывания (dwell time) на документе (long clicks, short clicks).
Historical Query (Исторический запрос): Запрос, ранее отправленный поисковой системе, для которого собраны User Behavior Data.
Input Query (Входной запрос): Текущий запрос пользователя, для которого система выполняет ранжирование.
Quality of Result Statistic (Статистика качества результата): Метрика, производная от User Behavior Data, указывающая на релевантность документа конкретному запросу. Используется как входной сигнал для процесса ранжирования.
Match Score (Оценка схожести): Числовое значение (например, от 0.0 до 1.0), определяющее степень семантической схожести между Input Query и Historical Query.
AMS (Absolute Match Score) Tally (Счетчик абсолютной оценки схожести): Аддитивный (суммирующий) счетчик весов совпадающих терминов при расчете схожести запросов.
MMS (Multiplicative Match Score) Tally (Счетчик мультипликативной оценки схожести): Мультипликативный (перемножающий) счетчик весов и штрафов при расчете схожести запросов.
Regular Term (Обычный термин): Важный или необходимый термин в запросе. Получает высокий вес (например, 1.0). Должен точно совпадать.
Variant Term (Вариативный термин): Важный термин, который может совпадать точно или через варианты (стемминг, синонимы, диакритические варианты). Получает высокий вес.
Required Term (Обязательный термин): Термин (обычно Regular или Variant), который должен присутствовать (точно или в виде варианта) в историческом запросе, чтобы он считался похожим.
Optional Term (Опциональный термин): Термин, не являющийся необходимым для понимания основного интента запроса. Получает средний вес.
Stopword Term (Стоп-слово): Артикли, предлоги, союзы. Получают низкий вес.
Compound Term (Составной термин): Коллекция из двух или более терминов, которые вместе передают определенную концепцию (например, «new york»).
Broken Compound Term (Разбитый составной термин): Ситуация, когда Compound Term из входного запроса присутствует в историческом запросе, но его концепция нарушена (например, изменен порядок слов или вставлены другие слова).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод использования схожих запросов для ранжирования, включая строгие условия фильтрации.

Для документа, найденного по запросу пользователя (user-submitted query), система оценивает (scoring) один или несколько других запросов на основе их схожести с исходным.
Оценка схожести включает:
- Получение разных типов терминов исходного запроса (опциональные, обязательные/regular, стоп-слова) и их весов.
- Определение, содержит ли другой запрос точное совпадение для каждого обязательного (required term) термина. Если нет – запрос удаляется из рассмотрения.
- Расчет оценки схожести (match score) для оставшихся запросов путем корректировки оценки на вес каждого совпавшего термина. Все корректировки выполняются одной и той же операцией (либо сложение, либо умножение).
Выбираются один или несколько других запросов на основе их оценок схожести.
Выводится статистика качества результата (quality of result statistic) для документа на основе данных о поведении пользователей, связанных с выбранными запросами.
Эта статистика передается в процесс ранжирования документов для исходного запроса.

Ключевой момент интерпретации: Система жестко фильтрует кандидатов — если обязательный термин отсутствует, запрос не рассматривается. Это гарантирует сохранение основного интента.

Claim 9 (Зависимый от 1): Детализирует расчет оценки схожести с использованием двух метрик.

Расчет двух оценок: Мультипликативной (multiplicative match score) на основе умножения весов и Абсолютной (absolute match score) на основе сложения весов.
Выбор того, использовать ли Абсолютную оценку, Мультипликативную оценку или их комбинацию в качестве итоговой оценки схожести, основывается на сравнении длины входного запроса и длины другого запроса.

Claim 11 (Зависимый от 1): Добавляет концепцию вариативных терминов.

Система также получает вариативные термины (variant terms) и их варианты (variants) с соответствующими весами. Расчет оценки схожести включает добавление веса вариативного термина, если он присутствует в другом запросе.

Где и как применяется

Изобретение применяется на стыке понимания запросов и ранжирования, используя предварительно обработанные данные о поведении пользователей.

INDEXING – Индексирование и извлечение признаков
На этом этапе (или в смежных офлайн-процессах) происходит сбор и агрегация User Behavior Data (клики, dwell time) для исторических запросов. Эти данные сохраняются в репозитории.

QUNDERSTANDING – Понимание Запросов
Система анализирует входной запрос для определения типов его терминов (Regular, Variant, Optional, Stopword) и генерации вариантов (синонимов, стемминга). Также на этом этапе могут идентифицироваться составные термины (Compound Terms) с помощью Compound Term Identification Engine.

RANKING – Ранжирование / RERANKING – Переранжирование
Основное место применения патента. Query Results Rank Modifier (или Rank Modifier Engine) вмешивается в процесс ранжирования.

Триггер: Система проверяет достаточность User Behavior Data для входного запроса. Если данных недостаточно, активируется механизм поиска похожих запросов.
Оценка схожести: Query Scoring Engine рассчитывает Match Scores между входным запросом и кандидатами исторических запросов, используя детальный алгоритм взвешивания и штрафов.
Агрегация данных: Система выбирает лучшие исторические запросы и комбинирует их User Behavior Data, используя один из методов агрегации (например, взвешенное среднее).
Расчет метрик и Ранжирование: Из агрегированных данных выводятся Quality of Result Statistics для документов. Эти статистики передаются в Ranking Engine как дополнительный сигнал для определения финального порядка результатов.

Входные данные:

Входной запрос и его результаты (с IR-scores).
Типы терминов входного запроса и их веса.
База исторических запросов и связанные с ними User Behavior Data.
Данные о синонимах, стемминге и диакритических вариантах.
Идентификаторы и оценки уверенности для Compound Terms.

Выходные данные:

Quality of Result Statistics для документов, основанные на комбинированных данных похожих запросов.
Скорректированный (переранжированный) набор результатов поиска.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на редкие, новые, длиннохвостые (long-tail) запросы или запросы с высокой степенью уникальности, по которым еще не накоплена статистика поведения пользователей.
Конкретные типы контента: Влияет на все типы контента, где используются поведенческие факторы для ранжирования (веб-страницы, товары в e-commerce).
Языковые особенности: Патент явно учитывает языковые особенности, такие как использование диакритических знаков (diacritical variants), и адаптирует расчет схожести в зависимости от строгости их использования в конкретном регионе (locale).

Когда применяется

Триггер активации: Основное условие активации — недостаточность (insufficiency) данных о поведении пользователей для исторического запроса, идентичного входному запросу.
Условия достаточности: Достаточность может определяться количеством уникальных пользователей, общим объемом данных, статистическим анализом или классификацией запроса.
Применение в реальном времени: Процесс сравнения запросов и агрегации данных происходит в реальном времени во время обработки запроса пользователя.

Пошаговый алгоритм

Этап 1: Инициализация и Проверка Данных

Получение входного запроса.
Проверка достаточности данных. Система определяет, есть ли достаточный объем User Behavior Data для идентичного исторического запроса.
- Если ДА: Использовать эти данные для расчета Quality of Result Statistics и перейти к Этапу 5.
- Если НЕТ: Перейти к Этапу 2.

Этап 2: Взвешивание Терминов Входного Запроса

Определение типов терминов. Каждый термин классифицируется как Regular, Variant, Optional или Stopword.
Присвоение весов. Каждому типу присваивается соответствующий вес.
Идентификация вариантов. Для Variant Terms генерируются варианты (синонимы, стемминг) с весами, основанными на степени схожести, с учетом локали (для диакритических вариантов).

Этап 3: Расчет Сходства Запросов

Выбор исторического запроса для сравнения.
Сравнение терминов и фильтрация. Система итерирует по терминам входного запроса:
- Если обязательный термин (Required Term) не найден (ни точно, ни как вариант) в историческом запросе, этот исторический запрос исключается из рассмотрения.
Расчет промежуточных оценок. Для оставшихся запросов веса совпадений и штрафы за отсутствующие опциональные термины аккумулируются в AMS (сложение) и MMS (умножение).
Применение штрафов за структуру. Применяются штрафы, если термины в историческом запросе находятся в другом порядке (Out of Order Penalty) или если Compound Terms из входного запроса «разбиты» (Broken Compound Penalty).
Определение итогового Match Score. Финальная оценка определяется как AMS, MMS или их линейная аппроксимация, часто в зависимости от разницы в длине запросов.
Повторение для других исторических запросов.

Этап 4: Выбор и Комбинирование Данных

Выбор похожих запросов. Выбираются исторические запросы с наивысшими Match Scores.
Комбинирование User Behavior Data. Данные выбранных запросов агрегируются для каждого документа. Методы могут включать:
- Взвешенное среднее (Weighted Average).
- Ограниченное агрегирование (каждый запрос добавляет не более порогового значения данных).
- Агрегирование до достижения уровня уверенности (Confidence Level).

Этап 5: Финализация и Ранжирование

Расчет Quality of Result Statistics. На основе комбинированных данных рассчитываются метрики качества для документов.
Корректировка оценок (Capping/Squashing). Оценки могут быть ограничены сверху (capping) для снижения риска ложных совпадений или скорректированы (squashing), если контент документа не подтверждает термины запроса.
Передача в Ranking Engine. Финальные Quality of Result Statistics отправляются в систему ранжирования.

Какие данные и как использует

Данные на входе

Поведенческие факторы (User Behavior Data): Критически важные данные. Используются агрегированные данные по историческим запросам: клики (click data), время пребывания на документе (dwell time, long/short clicks). Также может использоваться информация о сессии, местоположении пользователя, языке.
Контентные/Лингвистические факторы: Данные о синонимах, стемминге, диакритических вариантах. Используются для определения вариантов (variants) терминов.
Структурные факторы (Запроса): Порядок слов в запросе, идентификация составных терминов (Compound Terms).
Системные данные: Предварительно рассчитанные IR-scores документов для входного запроса.

Какие метрики используются и как они считаются

Основной фокус патента — расчет схожести запросов и комбинирование данных.

Метрики схожести запросов:

Веса терминов (Term Weights): Присваиваются на основе типа термина. Например: Regular/Variant=1.0; Optional=0.4-0.6; Stopword=0.1-0.2. Веса вариантов зависят от степени схожести.
AMS (Absolute Match Score): Аддитивная метрика. Сумма весов совпавших терминов.

Выводы

Поведенческие данные доминируют, даже если они заимствованы: Google активно стремится использовать User Behavior Data для ранжирования. Если прямых данных нет, система готова использовать данные из похожих запросов, считая их достаточно надежным индикатором релевантности.
Сложный механизм оценки схожести запросов: Схожесть не является простым совпадением ключевых слов. Система использует многоуровневое взвешивание (Regular, Optional, Stopword), учитывает синонимы и стемминг (Variants), а также строго наказывает за нарушение порядка слов и разрыв концепций (Broken Compound Terms).
Обязательные термины как фильтр интента: Патент подчеркивает, что если обязательный (required/regular) термин отсутствует в историческом запросе, такой запрос может быть полностью исключен из рассмотрения. Это защитный механизм против заимствования данных из нерелевантных источников.
Адаптивное комбинирование данных: Система не полагается на один метод агрегации. Описаны различные подходы (взвешенное среднее, ограниченное агрегирование, агрегирование до порога уверенности), что указывает на гибкость в использовании заимствованных данных в зависимости от контекста и уровня доверия к схожести.
Влияние Head Terms на Long Tail: Успешное ранжирование и положительные поведенческие сигналы по высокочастотным (Head) или среднечастотным запросам создают базу данных, которая затем используется для ранжирования связанных с ними низкочастотных (Long Tail) запросов.

Практика

Best practices (это мы делаем)

Укрепление Topical Authority через удовлетворение интента: Сосредоточьтесь на полном удовлетворении пользовательского интента по всем запросам в рамках тематического кластера. Положительные поведенческие сигналы (высокий CTR, длительное время взаимодействия) по одним запросам могут улучшить ранжирование по другим, семантически связанным запросам, благодаря механизму заимствования данных.
Тщательная проработка семантического ядра и синонимов: Поскольку система активно использует Variant Terms (синонимы, стемминг) для поиска похожих запросов, важно включать релевантные синонимы и различные формы ключевых слов в контент. Это увеличивает вероятность того, что ваш контент будет признан релевантным для широкого спектра формулировок.
Оптимизация под концепции (Compound Terms): Работайте над контентом так, чтобы он четко отвечал на концепции, а не просто на набор слов. Система штрафует за «разрыв» составных терминов (Broken Compound Terms) при поиске похожих запросов. Это подтверждает важность оптимизации под сущности и их взаимосвязи.
Фокус на обязательных терминах (Core Intent): Убедитесь, что контент четко соответствует обязательным терминам (Required Terms) целевых запросов. Поскольку отсутствие этих терминов в похожих запросах приводит к их исключению, это подчеркивает их критичность для определения основного интента.

Worst practices (это делать не надо)

Изолированная оптимизация под НЧ-запросы: Оптимизация страниц исключительно под один редкий НЧ-запрос без учета его связи с более широкой темой неэффективна. Если по смежным, более популярным запросам сайт показывает плохие поведенческие факторы, это негативно скажется и на НЧ-запросе.
Игнорирование порядка слов и естественности языка: Создание контента, который содержит ключевые слова, но игнорирует естественный порядок слов или разрывает устоявшиеся фразы. Система применяет штрафы (Out of Order Penalty, Broken Compound Penalty) при оценке схожести, что снижает вероятность использования данных из таких неестественных запросов.
Манипуляции с поведенческими факторами на редких запросах: Попытки искусственно улучшить поведенческие факторы для редких запросов имеют ограниченный эффект, так как система активирует механизм заимствования только тогда, когда данных недостаточно для достижения порога уверенности (Confidence Level).

Стратегическое значение

Патент подтверждает стратегию Google по масштабированию оценки релевантности с помощью поведенческих данных. Для SEO это означает, что невозможно рассматривать запросы изолированно. Ранжирование становится функцией от общего качества взаимодействия пользователей с сайтом в рамках всей тематики. Стратегия должна быть направлена на построение авторитета в теме, где каждая страница усиливает другую, генерируя положительные сигналы, которые Google может использовать для ранжирования смежных запросов, даже если они появляются впервые.

Практические примеры

Сценарий: Ранжирование нового запроса о продукте

Входной запрос (Input Query): «iPhone 17 Pro Max титановый корпус отзывы» (Новый запрос, данных нет).
Анализ запроса:
- Required Terms: iPhone, 17, Pro, Max, титановый, корпус, отзывы.
- Compound Terms: «iPhone 17 Pro Max», «титановый корпус».
Поиск похожих запросов (Historical Queries):
- Q1: «iPhone 16 Pro Max отзывы» (Высокий Match Score, много данных).
- Q2: «iPhone 17 Pro титановый» (Высокий Match Score, меньше данных).
- Q3: «Отзывы корпус титановый Samsung S26» (Низкий Match Score, обязательный термин «iPhone» отсутствует — исключен).
Комбинирование данных: Система агрегирует данные о кликах из Q1 и Q2. Допустим, сайт TechRadar.com имеет отличные поведенческие метрики по Q1 и Q2.
Результат: TechRadar.com получает высокий Quality of Result Statistic для входного запроса и ранжируется высоко, несмотря на отсутствие прямых исторических данных по точному запросу «iPhone 17 Pro Max титановый корпус отзывы».

Вопросы и ответы

Что произойдет, если в моем запросе есть обязательный термин, которого нет в историческом запросе?

Согласно патенту (в частности, Claim 1), если обязательный термин (required term, к которым относятся regular и variant terms) из входного запроса отсутствует в историческом запросе, такой исторический запрос полностью исключается из рассмотрения. Это означает, что его поведенческие данные не будут использоваться для ранжирования входного запроса. Это критически важный механизм для сохранения релевантности и предотвращения заимствования данных из запросов с другим интентом.

Как система определяет, является ли термин обязательным, опциональным или стоп-словом?

Патент не детализирует механизм классификации терминов, но подразумевает, что это происходит на этапе понимания запроса (Query Understanding). На практике это определяется с помощью NLP-моделей, которые анализируют контекст запроса, частотность терминов, их роль в языке и связь с сущностями. Ключевые слова, определяющие основную тему или сущность, обычно классифицируются как обязательные, тогда как модификаторы или общие слова могут быть опциональными.

Насколько сильно штрафуется изменение порядка слов в похожем запросе?

Система применяет штраф (Out of Order Penalty), если термины исторического запроса переставлены относительно входного запроса. Патент предполагает, что штраф может зависеть от степени нарушения порядка. Более того, если изменение порядка слов разрывает составной термин (Compound Term), применяется отдельный, потенциально более строгий штраф (Broken Compound Penalty). Это подчеркивает важность естественного порядка слов и целостности фраз.

Что такое AMS и MMS и почему используются обе метрики?

AMS (Absolute Match Score) — это аддитивная метрика (сумма весов совпавших терминов), а MMS (Multiplicative Match Score) — мультипликативная (произведение весов и штрафов). MMS гораздо сильнее наказывает за отсутствие опциональных терминов или наличие штрафов, так как умножение на число меньше 1.0 быстро уменьшает общую оценку. Система может использовать AMS, MMS или их комбинацию (линейную аппроксимацию) для финальной оценки схожести, часто выбирая метод в зависимости от разницы в длине сравниваемых запросов.

Может ли этот механизм привести к тому, что результаты по широкому запросу будут ранжироваться по моему узкому запросу?

Да, если широкий запрос признан достаточно похожим на узкий, и по широкому запросу накоплено много положительных поведенческих данных. Однако система использует механизмы защиты: требование наличия обязательных терминов и штрафы за отсутствие опциональных терминов (через MMS) призваны минимизировать риск подмешивания слишком общих или нерелевантных результатов.

Как комбинируются данные из нескольких похожих запросов?

Патент описывает несколько методов. Наиболее распространенный — взвешенное среднее (weighted average), где вклад данных каждого запроса пропорционален его оценке схожести (Match Score). Также описаны методы ограниченного агрегирования, где вклад каждого запроса (кроме лучшего) ограничен порогом, и агрегирование до достижения необходимого уровня уверенности (Confidence Level).

Влияет ли этот патент на стратегию построения ссылок?

Прямого влияния нет, так как патент сфокусирован на поведенческих данных (кликах, времени пребывания), а не на ссылочных сигналах. Однако он усиливает важность получения качественного трафика, который генерирует положительные поведенческие сигналы. Если ссылки приводят релевантный трафик, который хорошо взаимодействует с контентом, это косвенно усиливает базу User Behavior Data, которую система может использовать.

Как этот патент связан с Topical Authority?

Связь очень сильная. Если сайт постоянно удовлетворяет интент пользователей по множеству запросов в определенной тематике, он накапливает большой объем положительных поведенческих данных по этим историческим запросам. Когда появляется новый или редкий запрос в этой же теме, система с высокой вероятностью найдет похожие исторические запросы, ведущие на этот авторитетный сайт, и использует его данные для повышения ранжирования.

Что такое Capping и Squashing оценок?

Это механизмы финальной корректировки рассчитанных статистик качества (Quality of Result Statistics). Capping (ограничение сверху) используется для снижения риска переоценки документа из-за потенциально ложных совпадений запросов. Squashing (сжатие/корректировка) может понизить оценку, если контент документа слабо соответствует некоторым терминам входного запроса, даже если заимствованные поведенческие данные высоки.

Учитывает ли система языковые и региональные особенности при поиске похожих запросов?

Да, патент явно упоминает учет региональных особенностей (locale), особенно в контексте использования диакритических знаков (diacritical variants). Система может разрешать или запрещать диакритические варианты, или изменять их вес в зависимости от того, насколько строго они используются в данном регионе. Это позволяет более точно определять схожесть запросов в разных языках.