
Google использует механизм для устранения позиционной предвзятости (Position Bias) при обучении моделей ранжирования (Learning to Rank). Система анализирует, на какой позиции находился кликнутый результат, и присваивает этому клику вес важности. Клики по нижним позициям получают больший вес, чем клики по ТОП-1. Это позволяет модели учиться определять истинную релевантность, а не просто копировать существующий порядок выдачи.
Патент решает фундаментальную проблему при обучении моделей ранжирования (Learning to Rank, LTR) на основе данных о кликах пользователей — позиционную предвзятость (Position Bias, также называемую в патенте Selection Bias). Пользователи склонны чаще кликать на результаты, расположенные выше, независимо от их фактической релевантности. Если модель обучается на необработанных данных о кликах, она ошибочно усваивает эту предвзятость, а не истинную релевантность. Изобретение направлено на "очистку" обучающих данных от этого уклона. Это особенно критично в системах с разреженными данными о кликах (например, в персональном поиске).
Запатентована система обучения Ranking Machine Learning Model, которая корректирует влияние позиционной предвзятости. Для каждого обучающего примера (клика пользователя) система рассчитывает Selection Bias Value (вероятность клика из-за позиции) и Importance Value (вес важности этого клика для обучения). Importance Value обратно пропорционален Selection Bias Value. Этот вес используется для корректировки функции потерь (Loss Function) во время обучения модели (метод, известный как Inverse Propensity Weighting).
Система работает в два основных этапа:
Experiment Data (например, путем случайного перемешивания результатов в выдаче — randomly permuted) система измеряет, насколько часто пользователи кликают на каждую позицию исключительно из-за ее расположения (Selection Bias Value).Importance Value (например, 1/Bias). Клики на нижних позициях получают больший вес, а клики на верхних — меньший. Модель обучается минимизировать скорректированную функцию потерь (Adjusted Loss), которая учитывает этот вес важности.Критически высокая. Использование поведенческих сигналов (кликов) для обучения моделей ранжирования является стандартом. Корректировка позиционной предвзятости (Debiasing) — обязательное условие для обеспечения точности этих моделей. Описанные методы являются актуальными и стандартными техниками в области Information Retrieval и Machine Learning.
Патент имеет высокое стратегическое значение (8/10) для понимания того, как Google интерпретирует поведенческие факторы. Он описывает не алгоритм ранжирования в реальном времени, а процесс обучения моделей. Ключевое понимание: не все клики одинаково полезны как обучающий сигнал. Клики, полученные на более низких позициях ("глубокие клики"), имеют значительно больший вес (Importance Value) в качестве сигнала релевантности, чем клики на первой позиции.
Loss) на вес важности (Importance Value). Модель обучается минимизировать сумму этих скорректированных потерь.randomly permuted) перед показом пользователям. Это позволяет изолировать влияние позиции от влияния релевантности.Selection Bias Value.pair-wise loss function или list-wise loss function).Ranking Score) для документа на основе его признаков и признаков запроса.Claim 1 (Независимый пункт): Описывает основной метод обучения модели ранжирования с коррекцией предвзятости.
Training Data (запрос, результаты, выбранный результат) и Position Data (позиция выбранного результата).Selection Bias Value (насколько позиция повлияла на выбор).Importance Value, который обратно пропорционален Selection Bias Value.Loss) на основе оценок модели и факта выбора результата.Adjusted Loss путем корректировки Loss с использованием Importance Value. Примеры с более высоким весом важности сильнее влияют на обучение. Указана формула скорректированной потери L(f)=w⋅l(Q,f), где w – Importance Value, а l(Q,f) – Loss.Adjusted Loss.Claim 2 (Зависимый от 1): Уточняет источник данных для определения предвзятости.
Система получает Experiment Data, где позиции результатов были "случайно перемешаны" (randomly permuted) перед показом пользователям. Это ключевое условие для объективной оценки влияния позиции.
Claim 3 и 4 (Зависимые): Описывают метод расчета глобальной позиционной предвзятости.
Experiment Data для каждой позиции подсчитывается количество выборов (кликов).Position Bias Value на основе этого количества.Position Bias Value используется как Selection Bias Value для обучающих примеров.Claim 5 и 6 (Зависимые): Описывают метод расчета предвзятости для разных классов запросов (Query Class).
Experiment Data и Training Data классифицируются.Class-Specific Position Bias Value.Selection Bias Value.Claim 7, 8 и 9 (Зависимые): Описывают метод предсказания предвзятости для конкретного запроса с помощью отдельной модели.
Classifier), который принимает вектор признаков запроса (Feature Vector) и предсказывает Query-Specific Position Bias Value для каждой позиции.Selection Bias Value.Важно понимать, что этот патент описывает офлайн-процесс обучения моделей ранжирования, а не алгоритм, работающий в реальном времени при обработке запроса.
Инфраструктура Обучения (Training Pipeline)
Основное применение патента. Training Engine использует данные, собранные из взаимодействия пользователей с поисковой выдачей (логи кликов), и Experiment Data для обучения Ranking Machine Learning Model. На этом этапе рассчитываются Selection Bias Values, Importance Values и происходит оптимизация параметров модели с использованием Adjusted Loss.
RANKING – Ранжирование
Обученная модель (Ranking Model) затем развертывается в продакшн и используется Ranking Engine на этапах ранжирования (вероятно, L2 или L3) для генерации Ranking Scores. Сама модель уже не выполняет коррекцию предвзятости в реальном времени; она применяет то, что выучила на скорректированных данных.
Входные данные:
Training Data: Запросы, списки результатов, кликнутые документы, позиции кликнутых документов.Experiment Data: Данные о кликах на рандомизированных выдачах.Feature Vectors для запросов (используются при расчете Query-Specific Bias).Выходные данные:
Ranking Machine Learning Model, параметры которой оптимизированы для предсказания релевантности с учетом коррекции позиционной предвзятости.highly sparse), например, в персональном поиске (поиск по почте, документам пользователя), так как он позволяет более эффективно использовать имеющиеся данные.Процесс состоит из двух основных фаз: измерение предвзятости и обучение модели.
Фаза А: Измерение позиционной предвзятости (Офлайн-эксперименты)
randomly permuted). Собираются данные о том, на какие позиции кликают пользователи.Фаза Б: Обучение модели ранжирования (Офлайн-обучение)
Training Data (запрос, результаты, клик).Selection Bias Value. w∝1/Bias.Importance Value. L(f)=w⋅l(Q,f).Adjusted Loss по всем обучающим примерам.result document that was selected by a user) и позиции этих результатов (position data). Эти данные собираются как в стандартных условиях (Training Data), так и в экспериментальных (Experiment Data с рандомизацией).Query-Specific Position Bias могут использоваться признаки запроса (query features) или пользователя. Примеры, упомянутые в патенте: количество слов в запросе, класс запроса, предпочитаемый язык пользователя (preferred language of the user).Selection Bias Value.pair-wise loss, например: l(Q,f)=∑xi>Qxjmax(0,f(xj)−f(xi)), где xi – кликнутый документ, xj – некликнутый.Importance Value, который обратно пропорционален позиционной предвзятости (Inverse Propensity Weighting).Selection Bias Value), получает высокий Importance Value. Это интерпретируется как сильный сигнал релевантности, так как пользователь приложил усилия, чтобы найти этот результат.Selection Bias Value) получает низкий Importance Value, так как он мог быть вызван просто расположением, а не высокой релевантностью.Experiment Data), включая случайное перемешивание результатов, чтобы точно измерить чистый эффект позиционной предвзятости.Class-Specific) или даже для конкретных запросов (Query-Specific) в зависимости от их признаков.Importance Value), критически важно иметь привлекательные и релевантные Title и Description. Если ваш сайт находится на 5-й позиции, но получает CTR выше ожидаемого для этой позиции, это посылает очень сильный положительный сигнал моделям ранжирования во время их обучения.Importance Value из-за высокого Selection Bias Value.Патент подтверждает, что Google рассматривает CTR и поведенческие данные как важный, но "шумный" источник информации для обучения моделей ранжирования и активно применяет методы для его очистки (Debiasing). Наивное понимание "CTR — это фактор ранжирования" неверно. Стратегия SEO должна фокусироваться на демонстрации высокой релевантности, которая проявляется в способности привлекать внимание пользователя и удовлетворять его интент независимо от начальной позиции в выдаче.
Сценарий: Интерпретация кликов для обучения модели
Предположим, Google провел эксперимент (Фаза А) и определил следующие глобальные значения позиционной предвзятости (Selection Bias Value):
Теперь система обучает модель (Фаза Б) и рассматривает два клика с одинаковой базовой потерей (Loss = 1.0):
Клик А (на P1):
Importance Value (1/Bias) = 1 / 0.6 ≈ 1.67Adjusted Loss = 1.0 * 1.67 = 1.67Клик Б (на P5):
Importance Value (1/Bias) = 1 / 0.1 = 10.0Adjusted Loss = 1.0 * 10.0 = 10.0Результат: Клик Б (на P5) оказывает значительно большее влияние (Adjusted Loss = 10.0) на обновление параметров модели ранжирования, чем Клик А (Adjusted Loss = 1.67). Модель получит гораздо более сильный стимул повысить рейтинг документа, получившего клик на P5.
Является ли CTR фактором ранжирования согласно этому патенту?
Не напрямую. Патент показывает, что CTR используется как источник обучающих данных (Training Data) для моделей ранжирования (Learning to Rank). Однако эти данные не используются в сыром виде. Они проходят сложный процесс обработки для устранения позиционной предвзятости (Position Bias). Важен не сам факт клика, а его вес (Importance Value) после коррекции.
Правда ли, что клик на 5-й позиции лучше, чем клик на 1-й?
С точки зрения влияния на обучение модели ранжирования — да. Поскольку 1-я позиция имеет высокую позиционную предвзятость (Selection Bias Value), клик на ней получает низкий вес важности (Importance Value). Клик на 5-й позиции преодолевает значительную предвзятость, поэтому он получает высокий вес важности и сильнее влияет на параметры модели. Это более сильный сигнал истинной релевантности.
Как Google измеряет позиционную предвзятость (Position Bias)?
Патент четко указывает на использование Experiment Data. Это данные, собранные в ходе экспериментов, где результаты поиска были "случайно перемешаны" (randomly permuted). Анализируя клики на рандомизированной выдаче, Google может изолировать влияние позиции от влияния релевантности и точно измерить предвзятость.
Как я могу использовать эти знания для улучшения SEO?
Ключевая тактика — оптимизация сниппетов (Title, Description, микроразметка) для повышения CTR, особенно если вы находитесь не в ТОП-3. Если вы сможете "заработать" клики на более низких позициях, эти клики получат очень высокий Importance Value и послужат сильным сигналом релевантности для обучающихся моделей ранжирования.
Является ли позиционная предвзятость одинаковой для всех запросов?
Нет. Патент описывает три варианта расчета предвзятости: глобальный (одинаковый для всех), специфичный для класса запросов (Class-Specific) и специфичный для конкретного запроса (Query-Specific). Например, предвзятость для навигационных запросов (сильный фокус на ТОП-1) может отличаться от предвзятости для информационных запросов.
Влияет ли этот механизм на ранжирование в реальном времени?
Нет. Этот патент описывает офлайн-процесс обучения модели ранжирования. Система корректирует обучающие данные, а затем обучает модель. В реальном времени используется уже обученная модель, которая применяет выученные закономерности для генерации Ranking Scores.
Делает ли этот патент накрутку поведенческих факторов бесполезной?
Он значительно снижает эффективность накрутки, особенно на высоких позициях (ТОП-1-3), так как вес этих кликов искусственно занижается системой (низкий Importance Value). Накрутка на низких позициях теоретически может дать больший вес, но такие действия, скорее всего, будут отфильтрованы системами обнаружения спама и аномалий как неестественное поведение.
Что такое корректировка функции потерь (Adjusted Loss)?
Это процесс взвешивания ошибок модели во время обучения. Вместо того чтобы считать все ошибки одинаково важными, система умножает стандартную ошибку (Loss) на Importance Value. Ошибки, связанные с кликами на низких позициях, получают больший вес, заставляя модель уделять им больше внимания при оптимизации.
Применяется ли этот метод только для стандартного веб-поиска?
Метод является универсальным для обучения LTR-моделей. Хотя он применим к стандартному поиску, в патенте особо подчеркивается его эффективность в сценариях с разреженными данными о кликах (sparse click data), таких как персональный поиск (поиск по email, документам пользователя).
Что такое Inverse Propensity Weighting (IPW) в контексте этого патента?
Хотя термин IPW не используется в патенте, описанный механизм является его реализацией. Это статистический метод для уменьшения смещения в данных. В данном случае Selection Bias Value — это "склонность" (propensity) к клику из-за позиции, а Importance Value — это обратный вес (inverse weight). IPW позволяет скорректировать обучающие данные, чтобы они лучше отражали истинную релевантность.

Поведенческие сигналы
SERP

Поведенческие сигналы

SERP
Поведенческие сигналы

Персонализация
Поведенческие сигналы
SERP

Local SEO
Поведенческие сигналы
SERP

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
Ссылки
Knowledge Graph

Мультимедиа
EEAT и качество
Семантика и интент

Персонализация
SERP
Ссылки

Семантика и интент
Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы
SERP

Поведенческие сигналы
SERP

Knowledge Graph
Семантика и интент
Ссылки

Семантика и интент
Поведенческие сигналы
Персонализация

Персонализация
Поведенческие сигналы
SERP
