Как Google агрегирует данные о кликах по связанным запросам для улучшения ранжирования исходного запроса

Google улучшает ранжирование, особенно для редких или новых запросов, используя поведенческие данные (клики) из семантически или сессионно связанных запросов. Если данных по исходному запросу недостаточно, система «заимствует» сигналы о кликах из похожих запросов, применяя взвешивание и нормализацию, чтобы точнее определить релевантность документа.

Описание

Какую задачу решает

Патент решает проблему «разреженности данных» (data sparsity) при ранжировании, особенно для редких, новых или малочастотных запросов (long-tail queries). Когда исторических поведенческих данных (clickthrough data) по конкретному запросу недостаточно, оценка релевантности результатов может быть ненадежной. Изобретение позволяет улучшить качество выдачи, «заимствуя» сигналы релевантности из связанных запросов, по которым статистики больше.

Что запатентовано

Запатентована система и метод для улучшения ranking score документа путем агрегации поведенческих сигналов (selection data или clickthrough data) не только для исходного запроса, но и для связанных с ним запросов (related queries). Суть заключается в том, чтобы использовать сигналы релевантности из связанных запросов для более точной оценки документа по исходному запросу.

Как это работает

Система функционирует следующим образом:

Идентификация связанных запросов: Определяются запросы, связанные с исходным (например, введенные пользователем последовательно в одной сессии, синонимы, исправления).
Сбор данных о кликах: Анализируется, как часто целевой документ выбирался пользователями как по исходному запросу, так и по связанным запросам.
Взвешивание и Нормализация: Данные о кликах из связанных запросов взвешиваются (Weight of Relationship) в зависимости от силы связи между запросами и нормализуются (Normalization Factor), чтобы учесть разницу в популярности запросов.
Смешивание (Blending): Итоговая оценка (Related Query Signal) вычисляется путем смешивания данных исходного запроса и взвешенных данных связанных запросов с использованием Blending Factor, который отражает баланс доверия к данным.

Актуальность для SEO

Высокая. Понимание семантических и сессионных связей между запросами и использование агрегированных поведенческих данных для улучшения ранжирования по «длинному хвосту» (long-tail) являются фундаментальными элементами современного поиска. Описанные методы критически важны для поддержания качества выдачи в условиях постоянного появления новых и редких запросов.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (85/100). Он напрямую описывает механизм, как поведенческие факторы (клики) используются в ранжировании на уровне кластера запросов. Ключевой инсайт для SEO: производительность страницы по одному запросу может напрямую влиять на ее ранжирование по связанным запросам. Это подчеркивает важность оптимизации под темы (Topical Authority) и обеспечения высоких поведенческих метрик по всему кластеру интентов.

Детальный разбор

Термины и определения

Blending Factor (A или λ) (Коэффициент смешивания): Параметр, определяющий баланс доверия между данными исходного запроса и данными связанных запросов. Определяет, в какой пропорции смешиваются #Initial и агрегированные данные.
Clickthrough Data / Selection Data (Данные о кликах / Данные о выборе): Поведенческие данные, фиксирующие взаимодействие пользователя с результатами поиска (клики, показы).
#Initial (Начальная оценка выбора): Данные о кликах на документ, полученные только в контексте исходного запроса.
Normalization Factor (Norm_q’) (Фактор нормализации): Параметр для учета разницы в популярности запросов. Позволяет сравнивать данные из разных по частотности запросов (например, путем деления на общее количество показов S(q) или кликов).
Related Query (Связанный запрос, q’): Запрос, имеющий связь с исходным запросом (q). Связь может определяться на основе последовательного ввода пользователями («back-to-back»), временной близости, синонимии и т.д.
Related Query Signal (Сигнал связанных запросов): Итоговая оценка (например, #Total или main score), рассчитанная путем агрегации и смешивания данных о кликах. Используется для ранжирования.
Weight of Relationship (Wm) (Вес связи): Метрика, определяющая силу связи между исходным и связанным запросом. Более сильная связь придает больший вес данным о кликах из этого связанного запроса.

Ключевые утверждения (Анализ Claims)

Анализ проводится на основе финальной версии патента US8452758B2.

Claim 1 (Независимый пункт): Описывает метод определения main score (основной оценки) для документа по запросу с использованием связанных запросов.

Система определяет main score, основываясь на связанных запросах (related search queries), имеющих пороговую связь с исходным запросом.
Идентифицируются «другие документы» (other documents), которые также были показаны в результатах поиска.
Определяются first click data (для исходного запроса). Они являются комбинацией: (i) данных о кликах на целевой документ И (ii) данных о кликах на «другие документы» по исходному запросу.
Определяются second click data (для связанных запросов). Они также являются комбинацией: (i) данных о кликах на целевой документ И (ii) данных о кликах на «другие документы» по связанным запросам.
Генерируется компонент main score на основе first click data и second click data.

Ядро изобретения — использование агрегированных данных о кликах из связанных запросов. Критически важным нюансом Claim 1 (в версии B2) является включение данных о кликах на «другие документы» в расчет. Это подразумевает, что система не просто считает абсолютные клики на целевой документ, а использует контекст выдачи (поведение пользователей на всем SERP) для контекстуализации или нормализации оценки целевого документа (например, расчет CTR или относительного CTR).

Claim 4 (Зависимый от 1): Уточняет механизм взвешивания.

Second click data взвешиваются на основе весов (weights), которые показывают силу связи между запросами. Итоговый компонент основывается на first click data и взвешенных second click data.

Claim 7 (Зависимый от 5 и 6): Описывает конкретный вариант расчета.

Компонент main score может рассчитываться как сумма first click data и взвешенных second click data, деленная на комбинацию (например, сумму) весов связанных запросов. Это описывает расчет взвешенного среднего значения.

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, связывая понимание запросов с ранжированием на основе поведенческих данных.

QUNDERSTANDING – Понимание Запросов (Офлайн)
Система анализирует логи сессий пользователей (Query Logs) для определения связей между запросами (например, последовательный ввод) и расчета весов связи (Wm). Эти данные сохраняются в Related Query DB.

INDEXING – Индексирование (и сбор данных)
Система собирает, обрабатывает и сохраняет Clickthrough data, привязывая их к парам [запрос, документ]. Эти данные хранятся в Click Through DB.

RANKING – Ранжирование / RERANKING – Переранжирование (Онлайн)
Основное применение патента. При расчете оценки ранжирования Related Query Processor активируется для вычисления Related Query Signal.

Система получает список связанных запросов и их веса из Related Query DB.
Система извлекает данные о кликах для документа по исходному и всем связанным запросам из Click Through DB.
Система рассчитывает итоговую оценку (#Total или main score), применяя взвешивание, нормализацию и смешивание (в патенте описано 6 примеров формул).
Эта итоговая оценка используется как один из сигналов для корректировки позиции документа.

Входные данные:

Исходный запрос и документ-кандидат.
Related Query DB (связи и веса Wm).
Click Through DB (исторические данные о кликах и показах).

Выходные данные:

Скорректированная оценка поведенческих сигналов (Related Query Signal) для документа.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на редкие (long-tail), новые (fresh) или неоднозначные запросы. Это запросы, по которым наблюдается недостаток исторических данных (data sparsity).
Типы контента: Влияет на все типы контента, где поведенческие сигналы (клики) применимы для оценки релевантности.

Когда применяется

Условия работы: Алгоритм применяется в процессе расчета оценки ранжирования для пары [запрос, документ].
Триггеры активации и пороги: Механизм оказывает большее влияние (через настройку Blending Factor), когда собственных данных по запросу недостаточно для надежной оценки. Также Claims упоминают требование «пороговой связи» (threshold relationship) для учета связанного запроса.

Пошаговый алгоритм

Описание процесса на основе примера формулы (1) из патента и логики, описанной в FIG. 3 и 4.

Этап 1: Подготовка (Офлайн)

Сбор данных: Накопление Clickthrough Data.
Анализ связей: Анализ логов сессий для идентификации связанных запросов и расчета веса связи (Wm).

Этап 2: Расчет сигналов (Онлайн)

Получение запроса и кандидатов: Система получает запрос (q) и определяет набор документов-кандидатов (N).
Инициализация расчета: Для каждого документа (D) из набора N начинается расчет Related Query Signal.
Определение связанных запросов: Система определяет набор связанных запросов (M) для q.
Расчет агрегированных данных связанных запросов (SUM):
1. Для каждого связанного запроса (q’m) из M:
2. Определение фактора нормализации (Norm_q’m).
3. Определение количества кликов на документ D по запросу q’m (#q’m).
4. Определение веса связи (Wm).
5. Расчет взвешенного значения: (Wm * #q’m) / Norm_q’m.
6. Суммирование взвешенных значений по всем M запросам (SUM).
Определение Blending Factor: Определение коэффициента смешивания (A).
Определение данных исходного запроса: Определение количества кликов на документ D по запросу q (#Initial).
Расчет итогового сигнала (#Total): Вычисление финальной оценки по формуле смешивания. Например: #Total = A * #Initial + (1-A) * SUM.
Применение сигнала: Использование #Total в качестве сигнала для финального ранжирования.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на использовании поведенческих данных и данных о взаимосвязи запросов.

Поведенческие факторы (Clickthrough Data):
- Количество кликов на конкретный документ по исходному запросу (#Initial).
- Количество кликов на конкретный документ по связанному запросу (#q’m).
- Количество кликов на другие документы по запросу (как указано в Claim 1, используется для контекстуализации/нормализации).
- Количество показов документа по запросу (S(q’m, d)) или частота запросов (S(q)) (упоминается в примерах формул для нормализации).
- Последовательности запросов в сессиях (используются офлайн для расчета Wm).
Системные данные:
- Initial Ranking Scores: В одном из вариантов реализации (Формула 6) используются существующие оценки ранжирования (например, основанные на текстовой релевантности) как входные данные для смешивания с поведенческими сигналами.

Какие метрики используются и как они считаются

Weight of Relationship (Wm): Сила связи между запросами. Рассчитывается офлайн на основе частоты совместного появления запросов в сессиях или последовательного ввода.
Normalization Factor (Norm_q’m): Фактор для приведения данных к единой шкале. Может рассчитываться как общее количество кликов или показов для связанного запроса.
Blending Factor (A): Коэффициент смешивания. Определяет степень доверия к данным исходного запроса. Может устанавливаться на основе объема доступных данных.
Метрики кликабельности (CTR/Relative CTR): Claims (B2) подразумевают расчет нормализованных метрик, таких как CTR или относительный CTR, так как учитываются клики на другие документы в выдаче.
Related Query Signal (#Total / main score): Итоговая метрика. Рассчитывается путем взвешенной линейной комбинации кликов исходного запроса и нормализованных, взвешенных кликов связанных запросов. Пример формулы (1) из описания: #Total = A * #Initial + (1-A) * SUM[ (Wm * #q’m) / Norm_q’m ].

Выводы

Агрегация сигналов на уровне кластера запросов: Google оценивает релевантность документа не изолированно для каждого запроса, а в контексте семантического или сессионного кластера. Положительные поведенческие сигналы агрегируются по всему кластеру.
Решение проблемы «холодного старта» и разреженности данных: Этот механизм позволяет системе эффективно ранжировать документы по новым или редким запросам (long-tail), «заимствуя» данные из более популярных, но связанных запросов.
Критическая роль Query Understanding: Эффективность алгоритма зависит от качества идентификации связанных запросов и точности определения веса связи (Wm), что требует глубокого анализа пользовательских сессий.
Контекстуализация поведенческих данных (Contextual CTR): Клики не используются напрямую. Система применяет взвешивание (Wm), нормализацию (Norm_q’m) и смешивание (A). Кроме того, Claim 1 указывает на учет кликов по другим документам, что подразумевает оценку относительной производительности документа в контексте SERP (например, Relative CTR).
Поведенческие факторы как масштабируемый сигнал релевантности: Патент подтверждает фундаментальную роль Clickthrough data в оценке релевантности и описывает сложный механизм их использования в масштабе всей системы.

Практика

Best practices (это мы делаем)

Фокус на Topical Authority и кластеризацию: Создавайте контент, который всесторонне отвечает на группу связанных интентов, а не на один ключевой запрос. Это увеличивает вероятность сбора положительных поведенческих сигналов по широкому спектру связанных запросов, которые затем будут агрегированы.
Оптимизация поведенческих факторов (Сниппеты и Вовлеченность): Критически важно максимизировать кликабельность (CTR) сниппетов и удовлетворенность пользователей по всем запросам, по которым ранжируется страница. Успех по одному запросу в кластере напрямую помогает другим запросам в этом же кластере.
Анализ семантических и сессионных связей: Изучайте, какие запросы пользователи используют последовательно и что Google считает связанным (например, через блоки «Related Searches»). Убедитесь, что ваш контент релевантен всему семантическому полю для агрегации сигналов.
Мониторинг относительной производительности: Анализируйте CTR вашего сайта в сравнении с конкурентами в выдаче. Высокий относительный CTR является сильным позитивным сигналом, учитывая механизм контекстуализации, описанный в Claims.

Worst practices (это делать не надо)

Узкая оптимизация под один запрос: Создание страниц, гипер-оптимизированных под одну точную формулировку, но игнорирующих связанные интенты. Такая страница не сможет собрать поведенческие сигналы из смежных запросов и не получит преимуществ от этого механизма.
Игнорирование качества сниппетов: Плохие Title и Description приведут к низкому CTR. Это негативно скажется на ранжировании не только по данному запросу, но и ограничит положительный эффект для всего кластера связанных запросов.
Попытки прямой накрутки CTR: Манипуляции с кликами становятся менее эффективными, так как система использует нормализацию, взвешивание и агрегацию данных из множества источников (связанных запросов), что усложняет манипуляцию итоговым сигналом.

Стратегическое значение

Патент подтверждает стратегический сдвиг Google к пониманию семантических кластеров, тем и пользовательских интентов. Он демонстрирует, как поведенческие сигналы используются для валидации релевантности в условиях нехватки данных. Долгосрочная SEO-стратегия должна фокусироваться на построении тематического авторитета и обеспечении максимальной удовлетворенности пользователей в рамках целой темы, а не отдельного запроса.

Практические примеры

Сценарий: Улучшение ранжирования по редкому запросу за счет популярного синонима

Исходный запрос (Q1): «Аренда автокрана Ивановец 25т» (редкий запрос, мало данных о кликах).
Связанный запрос (Q2): «Услуги автокрана 25 тонн цена» (популярный запрос, много данных).
Документ (D): Страница компании, предлагающей услуги аренды.
Ситуация: По Q1 данных мало. По Q2 страница D показывается часто и имеет высокий CTR (пользователи находят ее полезной).
Применение алгоритма:
- Система определяет, что Q1 и Q2 тесно связаны (Wm высокий).
- Система видит сильные поведенческие сигналы для D по Q2.
- Эти сигналы нормализуются и смешиваются с данными по Q1 (Blending Factor смещен в сторону связанных данных из-за нехватки данных по Q1).
Результат: Итоговая оценка (#Total) для документа D по запросу Q1 значительно увеличивается за счет данных из Q2. Страница ранжируется выше по редкому запросу Q1, чем это было бы возможно только на основе его собственных данных.

Вопросы и ответы

Как Google определяет, какие запросы являются связанными (Related Queries)?

Патент упоминает несколько способов. Основной метод — это анализ поведения пользователей (Query Logs): если пользователи часто вводят два запроса последовательно («back-to-back») или в течение короткого промежутка времени в рамках одной сессии, система может установить между ними связь. Также могут использоваться другие типы связей, такие как исправления опечаток, синонимы или акронимы.

Что такое «Вес связи» (Weight of Relationship, Wm) и как он влияет на ранжирование?

Wm — это мера силы связи между исходным и связанным запросом. Чем сильнее связь (например, запросы почти синонимичны и часто заменяют друг друга), тем выше Wm. В алгоритме данные о кликах из связанного запроса умножаются на Wm. Это означает, что клики из тесно связанных запросов сильнее влияют на итоговую оценку ранжирования, чем клики из отдаленно связанных запросов.

Зачем нужна нормализация (Normalization Factor) данных о кликах?

Нормализация необходима для корректного сравнения данных из разных по популярности запросов. Запрос А может иметь 1000 кликов, а запрос Б — 10 кликов. Без нормализации данные из запроса А полностью подавят данные из запроса Б. Нормализация (например, расчет CTR или деление на общее число показов) приводит данные к единой шкале, позволяя справедливо учитывать сигналы из всех связанных запросов.

Что такое Blending Factor (A) и как он работает?

Blending Factor (A) определяет баланс между использованием данных исходного запроса (#Initial) и агрегированных данных связанных запросов. Если А близко к 1, система больше доверяет данным исходного запроса. Если А ближе к 0 (например, когда данных по исходному запросу мало или они ненадежны), система больше полагается на данные связанных запросов. Это позволяет адаптировать алгоритм к разным ситуациям.

Влияет ли этот патент на SEO для «длинного хвоста» (long-tail)?

Да, и очень значительно. Запросы «длинного хвоста» по определению редки, и по ним часто не хватает поведенческих данных. Этот механизм позволяет Google надежно ранжировать результаты по таким запросам, опираясь на данные о кликах из связанных, более популярных запросов, что повышает качество выдачи по long-tail.

Может ли высокий CTR по одному запросу улучшить ранжирование по другому запросу?

Да, именно это и описывает патент. Если ваша страница имеет высокий CTR по запросу А, и система считает запрос Б связанным с запросом А, то положительные поведенческие сигналы из запроса А будут учтены при ранжировании вашей страницы по запросу Б. Это подчеркивает важность оптимизации CTR для всего семантического кластера.

Как этот патент меняет подход к семантическому проектированию сайта?

Он усиливает необходимость перехода от оптимизации отдельных страниц под отдельные ключи к созданию тематических хабов или кластеров контента (Topical Authority). Страница должна быть релевантна не одному запросу, а целому набору связанных интентов, чтобы агрегировать максимальное количество положительных поведенческих сигналов из разных источников.

Делает ли этот механизм накрутку CTR бесполезной?

Он значительно усложняет накрутку. Поскольку итоговая оценка зависит от данных из множества связанных запросов, которые взвешиваются и нормализуются, манипулировать итоговым сигналом становится сложнее. Накрутка по одному запросу может быть нивелирована нормализацией, низким весом связи (Wm) или данными из других запросов кластера.

Что означает включение кликов на «другие документы» в расчет оценки (согласно Claim 1)?

Финальная версия Claim 1 указывает, что в расчет включаются данные о кликах не только на целевой документ, но и на другие документы в той же выдаче. Это техническое уточнение описывает механизм контекстуализации или нормализации. Это позволяет оценить успешность целевого документа относительно других результатов (например, расчет относительного CTR), представленных пользователю в том же контексте.

Актуален ли этот патент, учитывая, что оригинальная идея подана давно (2003 год)?

Да, концепции, заложенные в этом патенте (этот патент выдан в 2013 по заявке 2012, но основан на заявке 2003 года), остаются крайне актуальными и фундаментальными для поиска. Хотя конкретные формулы могли эволюционировать (например, с применением машинного обучения), базовый принцип использования кросс-запросных поведенческих сигналов для преодоления нехватки данных по-прежнему является основой современных поисковых алгоритмов.