Как Яндекс автоматически определяет вес поведенческих факторов для обучения формулы ранжирования

Яндекс патентует метод автоматического определения важности (веса) различных поведенческих сигналов (клики, dwell time, пропуски). Система создает и оптимизирует «Целевую функцию», которая оценивает релевантность на основе этих сигналов. Затем эта функция используется как эталон (Ground Truth) для обучения основной формулы ранжирования, заменяя ручные оценки асессоров.

Описание

Какую задачу решает

Патент решает проблему масштабирования и точности обучения ранжированию (Learning to Rank). Традиционный подход, основанный на ручных оценках асессоров (expert assessment data), дорог, медленен и непрактичен в больших масштабах, особенно для персонализации. Прямое использование сырых поведенческих данных (например, кликов) является шумным, а определение порогов (например, для dwell time) часто произвольно. Патент предлагает метод для автоматического определения того, какие поведенческие сигналы (post-impression features) важны и какой вес им следует присвоить для создания надежного сигнала релевантности для обучения ранжировщика.

Что запатентовано

Запатентован метод оптимизации ранжировщика результатов поиска (Search Result Ranker) путем автоматического изучения весов поведенческих факторов. Суть изобретения заключается в двухэтапном процессе. Сначала создается и оптимизируется «Целевая функция» (Target Function), основанная исключительно на поведении пользователей. Эта оптимизированная функция затем служит эталоном релевантности (Ground Truth) для обучения основного алгоритма ранжирования.

Как это работает

Система работает в офлайн-режиме. Сначала собираются данные о поведении пользователей для набора пар запрос-документ (Q-D Pairs). Создается Target Function, комбинирующая поведенческие факторы с начальными весами. Эти веса оптимизируются с использованием машинного обучения (например, Gradient Descent) для максимизации метрики производительности (например, MRR или MAP). Полученная Optimized Target Function используется для генерации меток релевантности (Relevance Labels). Наконец, основной Search Result Ranker (который использует стандартные pre-impression факторы, такие как текст и ссылки) обучается так, чтобы его ранжирование соответствовало этим меткам релевантности.

Актуальность для SEO

Высокая. Автоматизированные конвейеры обучения ранжированию, использующие поведенческие данные в качестве основного источника истины о релевантности, являются стандартом в современных поисковых системах. Этот патент описывает фундаментальную инфраструктуру и методологию для реализации такого процесса в Яндексе.

Важность для SEO

Критическое влияние (9/10). Этот патент описывает фундаментальный механизм, с помощью которого Яндекс определяет, какие именно поведенческие сигналы важны и как они влияют на веса в основном алгоритме ранжирования. Он подтверждает, что алгоритм обучается предпочитать документы, генерирующие положительные поведенческие сигналы (такие как Satisfied Clicks), и избегать отрицательных (таких как Skips). Понимание этих конкретных сигналов критически важно для SEO-стратегии.

Детальный разбор

Термины и определения

Dwell Time (Время пребывания)

Количество времени, которое пользователь провел на документе после клика на SERP.

Gradient Descent (Градиентный спуск)

Алгоритм оптимизации. В патенте используется для оптимизации весов Target Function.

Performance Metric (Метрика производительности)

Статистическая мера для оценки и оптимизации Target Function. Примеры: Mean Reciprocal Rank (MRR), Mean Average Precision (MAP), DCG, NDCG.

Post-Impression Features (Пост-импрессионные признаки / Поведенческие факторы)

Данные, собранные после показа SERP пользователю. Описывают взаимодействие пользователя с выдачей. Делятся на два типа:

Document Level Features: Признаки конкретного документа (клик, dwell time, пропуск).
SERP Level Features: Признаки всей страницы выдачи (общее количество кликов, время до первого клика).

Pre-Impression Features (Пре-импрессионные признаки)

Признаки, вычисляемые до показа результата пользователю (текстовое соответствие, метаданные, ссылки). Используются основным Search Result Ranker.

Q-D Pair (Пара Запрос-Документ)

Единица данных из логов поиска, состоящая из запроса и показанного документа, вместе с соответствующими признаками.

Relevance Label (Метка релевантности)

Оценка релевантности Q-D пары. Генерируется оптимизированной Target Function и используется как эталон (Ground Truth) для обучения основного ранжировщика.

Satisfied Click (Удовлетворенный клик)

Конкретный поведенческий признак, определяемый как клик, который был либо последним в сессии (Last Clicked), ЛИБО dwell time которого превышает определенный порог (Long Dwell).

Search Result Ranker (Ранжировщик результатов поиска)

Основной алгоритм ранжирования поисковой системы. Цель патента — оптимизировать этот алгоритм.

Target Function (Целевая функция)

Функция, созданная с использованием Weight Vector и Post-Impression Features. Предназначена для оценки релевантности исключительно на основе поведения пользователя. После оптимизации становится Optimized Target Function.

Weight Vector (Вектор весов)

Набор весов, где каждый вес соответствует определенному post-impression признаку. Оптимизация этих весов определяет важность каждого поведенческого фактора.

Ключевые утверждения (Анализ Claims)

Патент защищает метод обучения ранжированию (Learning to Rank), где эталон релевантности определяется автоматически на основе поведенческих данных, заменяя ручные оценки асессоров.

Claim 1 (Независимый пункт): Описывает основной процесс оптимизации алгоритма ранжирования, состоящий из двух этапов.

Этап 1: Оптимизация Целевой Функции

Получение первого набора пар запрос-документ (Q-D) с векторами post-impression признаков.
Генерация исходного вектора весов (Weight Vector).
Генерация Целевой функции (Target Function).
Оптимизация весов с использованием метрики производительности (Performance Metric) так, чтобы максимизировать эту метрику. Результат — Optimized Target Function.
Критически важно: Оптимизированные веса представляют собой оценку влияния каждого поведенческого признака на определение релевантности документа.

Этап 2: Оптимизация Ранжировщика

Использование Optimized Target Function для генерации меток релевантности (relevance labels) для Q-D пар.
Оптимизация основного алгоритма ранжирования (Search Result Ranking Algorithm) с использованием этих меток релевантности в качестве эталона (Ground Truth).
Использование оптимизированного алгоритма для ранжирования результатов поиска.

Claim 10 (Зависимый пункт): Уточняет, что оптимизация весов Target Function выполняется с использованием техники градиентного спуска (Gradient Descent).

Claims 5-8 (Зависимые пункты): Определяют конкретные Post-Impression Features, используемые в системе, включая детальные признаки уровня документа и признаки уровня SERP.

Где и как применяется

Изобретение описывает процесс обучения модели ранжирования, который происходит в офлайн-режиме, но его результат напрямую влияет на онлайн-ранжирование.

Офлайн-процессы (ML Training Infrastructure)
Это основная область применения патента. Процесс выполняется на тренировочном сервере (Training Server), который получает данные из базы логов (Q-D pairs database).

Входные данные: Наборы Q-D пар, содержащие как pre-impression (текст, ссылки), так и post-impression (поведенческие) признаки.
Процесс: Выполняется двухэтапная оптимизация (Сначала Target Function, затем Search Result Ranker).
Выходные данные: Оптимизированная модель ранжирования (Optimized Search Result Ranker).

RANKING – Ранжирование (Онлайн)
Оптимизированная модель ранжирования, созданная в результате этого процесса, загружается на поисковый сервер (Search Engine Server) и используется для ранжирования результатов в реальном времени (на этапах L1-L4). Сам процесс обучения, описанный в патенте, в реальном времени не происходит.

На что влияет

Все типы контента и запросов: Поскольку метод оптимизирует основной алгоритм ранжирования, он влияет на все результаты поиска.
Персонализация: Патент отмечает, что этот метод особенно полезен для персонализации поиска, где сбор ручных оценок невозможен в нужном масштабе.
Приоритезация факторов ранжирования: Метод определяет, какие pre-impression факторы (текстовые, ссылочные и т.д.) лучше всего коррелируют с положительным поведением пользователей, и увеличивает их вес в итоговой формуле.

Когда применяется

Временные рамки и частота: Процесс выполняется периодически в офлайн-режиме для обновления формулы ранжирования по мере накопления новых данных о поведении пользователей и изменения их потребностей.

Пошаговый алгоритм

Процесс оптимизации ранжировщика результатов поиска (офлайн).

Этап 1: Оптимизация Целевой Функции (Target Function)

Получение данных: Извлечение первого набора пар Q-D из базы данных логов. Каждая пара содержит вектор post-impression признаков.
Инициализация Весов: Создание исходного вектора весов (Weight Vector), соответствующего количеству post-impression признаков.
Генерация Целевой Функции: Создание Target Function (например, линейной функции) с использованием исходных весов и признаков.
Выбор Метрики: Выбор Метрики Производительности (например, MRR или MAP).
Оптимизация Весов: Использование итеративного процесса (например, Gradient Descent) для настройки весов Target Function с целью максимизации выбранной метрики. На этом шаге определяется относительная важность каждого поведенческого признака. Результат — Optimized Target Function.
Валидация Функции (Опционально, Claim 4): Оценка Optimized Target Function на отдельном наборе данных.

Этап 2: Оптимизация Ранжировщика (Search Result Ranker)

Генерация Меток Релевантности: Использование Optimized Target Function для генерации меток релевантности (relevance labels) для набора Q-D пар (может быть тот же или второй набор, Claim 3).
Обучение Ранжировщика: Обучение основного Search Result Ranker (использующего pre-impression признаки) с целью предсказания этих меток релевантности.
Оценка Ранжировщика: Валидация оптимизированного Search Result Ranker.
Развертывание: Загрузка оптимизированного Search Result Ranker на производственные поисковые серверы.

Какие данные и как использует

Данные на входе

Система использует два основных типа данных: Post-Impression Features (для Этапа 1) и Pre-Impression Features (для Этапа 2).

Поведенческие факторы (Post-Impression): Критически важные данные из логов взаимодействия. Патент явно перечисляет следующие:

Document Level Features (Уровень документа):

Click feature: Был ли клик по документу.
Dwell feature: Время пребывания на документе (Dwell Time).
Long dwell feature: Превысило ли время пребывания определенный порог.
Last clicked feature: Был ли этот документ последним кликнутым.
First clicked feature: Был ли этот документ первым кликнутым.
Satisfied click feature: Комбинированный признак (Last clicked ИЛИ Long dwell).
Position feature: Исходная позиция документа на SERP.
Skip feature: Был ли документ пропущен (пользователь кликнул ниже, не кликнув на этот).
Previous skipped feature: Был ли пропущен документ, находящийся непосредственно перед этим.
Skipped above feature: Количество документов, пропущенных над этим документом.

SERP Level Features (Уровень выдачи):

Top click feature: Самая высокая позиция кликнутого документа.
Bottom click feature: Самая низкая позиция кликнутого документа.
Number of clicks feature: Общее количество кликов на SERP.
Top three number of clicks feature: Количество кликов по топ-3 документам.
Number of skips feature: Общее количество пропущенных документов на SERP.
Last query feature: Является ли этот запрос последним в поисковой сессии.
Examination time feature: Время до первого клика на SERP (время изучения выдачи).

Контентные, Технические, Ссылочные факторы (Pre-Impression): Используются основным Search Result Ranker. Примеры: текстовое соответствие запросу, метаданные, популярность документа, соответствие интересам пользователя.

Какие метрики используются и как они считаются

Target Function (Целевая функция): Функция (в простейшей форме — линейная), которая агрегирует post-impression признаки, умноженные на их веса.
$TargetScore = \sum (Weight_i \times Feature_i)$.
Discretization (Дискретизация): Небинарные признаки (такие как Dwell Time, Position) разделяются на несколько уровней (bins), каждый из которых обрабатывается как отдельный бинарный признак. Например, Dwell Time может быть разбит на,,.
Performance Metrics: Метрики для оценки качества ранжирования. Упомянуты Mean Reciprocal Rank (MRR), Mean Average Precision (MAP), DCG и NDCG.
Алгоритмы оптимизации: Для оптимизации весов Target Function явно указан Gradient Descent (Градиентный спуск).

Выводы

Поведенческие факторы как эталон релевантности (Ground Truth): Патент описывает механизм, позволяющий Яндексу заменить ручную оценку асессоров автоматизированной моделью (Target Function), основанной на поведении пользователей. Основная формула ранжирования обучается предсказывать эту поведенческую релевантность.
Автоматическое определение весов ПФ: Система автоматически определяет, какие поведенческие сигналы наиболее важны. Веса не задаются вручную (например, ценность Satisfied Click может быть высокой, а вес простого Click с коротким Dwell Time — низким).
Гранулярность поведенческих данных: Яндекс отслеживает и использует детализированные поведенческие данные. Особое внимание уделяется Skips (пропускам), дискретизированному Dwell Time, порядку кликов (First/Last) и взаимодействиям на уровне всей SERP.
Двухэтапная оптимизация: Ключевым является разделение процесса: сначала определяется, что такое хорошее поведение (оптимизация Target Function), а затем основной ранжировщик обучается находить документы, приводящие к такому поведению (оптимизация Search Result Ranker).
Корреляция факторов: Цель системы — найти те pre-impression факторы (текст, ссылки и т.д.), которые наилучшим образом коррелируют с положительными post-impression результатами, и повысить их вес в основной формуле.

Практика

Best practices (это мы делаем)

Максимизация «Satisfied Clicks»: Это ключевой сигнал, определенный в патенте (Последний клик ИЛИ Длительное пребывание). Стратегия должна быть направлена на полное удовлетворение интента пользователя, чтобы он завершил поиск на вашем сайте (Last Click) или провел на нем значительное время (Long Dwell).
Оптимизация Dwell Time и вовлеченности: Обеспечьте быструю загрузку и немедленное предоставление ценности. Используйте вовлекающий контент и четкую структуру. Поскольку Dwell Time дискретизируется, важно преодолевать пороговые значения короткого времени пребывания.
Минимизация «Skips» (Пропусков): Если пользователи регулярно пропускают ваш результат и кликают на сайты ниже, это сильный негативный сигнал (Skip feature, Skipped above feature). Оптимизируйте Тайтлы и Сниппеты, чтобы они точно отражали содержание и были привлекательными.
Анализ поведения на уровне SERP: Обращайте внимание на время до первого клика (Examination time). Быстрое принятие решения о клике на ваш сайт может быть позитивным сигналом. Создавайте четкие и информативные сниппеты.

Worst practices (это делать не надо)

Кликбейт и обман ожиданий: Генерация кликов, которые приводят к короткому Dwell Time и не являются Satisfied Click. Система автоматически научится распознавать эту комбинацию как негативную и обучит основной ранжировщик пессимизировать такие результаты.
Игнорирование скорости загрузки и UX: Медленные или неудобные сайты увеличивают вероятность быстрого возврата на выдачу, генерируя негативные поведенческие сигналы, которые будут использованы против сайта при следующем обучении модели.
Создание непривлекательных или нерелевантных сниппетов: Если сниппет не мотивирует пользователя кликнуть или не соответствует интенту, это приводит к пропускам (Skips), что напрямую учитывается как негативный фактор при обучении.

Стратегическое значение

Этот патент подтверждает стратегический приоритет Яндекса на использование машинного обучения, основанного на поведенческих данных. Поведенческие факторы являются не просто одним из сигналов, а служат эталоном (Ground Truth) для обучения всей системы ранжирования. Для долгосрочной SEO-стратегии это означает, что удовлетворенность пользователя (User Satisfaction) и положительные метрики взаимодействия являются конечной целью, поскольку именно они формируют алгоритм, определяющий ранжирование на основе традиционных факторов.

Практические примеры

Сценарий 1: Сайт с кликбейтным заголовком (Высокий CTR, Низкий Dwell Time)

Ситуация: Сайт использует кликбейтный заголовок, но контент слабый.
Поведенческие данные: Пользователи часто кликают (Click=1), но быстро уходят (Dwell Time короткий, Satisfied Click=0) и кликают на другие результаты.
Обучение Target Function: Система оптимизирует веса и определяет, что комбинация (Click=1 И Short Dwell=1) коррелирует с низкой релевантностью.
Обучение Ranker: Основной ранжировщик обучается и определяет, какие pre-impression признаки (например, определенные текстовые паттерны заголовка) приводят к такому поведению, и снижает их вес.
Результат: Сайт пессимизируется при следующем обновлении модели.

Сценарий 2: Полезный сайт на низкой позиции (Низкий CTR, Высокий Satisfied Click Rate)

Ситуация: Отличная экспертная статья находится на 8 позиции.
Поведенческие данные: Пользователи часто пропускают результаты 1-7 (Skips=1 для позиций 1-7). Те, кто кликает на 8 позицию, часто завершают поиск на ней (Satisfied Click=1).
Обучение Target Function: Система определяет, что Satisfied Click — это сильный положительный сигнал (высокий вес), а Skips — сильный отрицательный.
Обучение Ranker: Ранжировщик обучается, что pre-impression признаки сайта на 8 позиции (например, экспертность, авторитетность) коррелируют с высокой релевантностью, а признаки сайтов 1-7 — с низкой.
Результат: Сайт на 8 позиции получает значительный буст, а сайты 1-7 понижаются при следующем обновлении модели.

Вопросы и ответы

Что такое «Target Function» и почему она важна?

Target Function (Целевая функция) — это модель, которая действует как автоматизированный асессор. Она оценивает релевантность документа исключительно на основе поведенческих данных (post-impression features). Ее важность в том, что она становится эталоном (Ground Truth) для обучения основного алгоритма ранжирования, позволяя системе масштабироваться без постоянного участия людей.

Означает ли этот патент, что традиционные факторы (текст, ссылки) больше не имеют значения?

Нет, они по-прежнему критически важны. Основной Search Result Ranker использует эти факторы (pre-impression features) для ранжирования в реальном времени. Однако этот патент описывает, как система обучается использовать эти факторы: она учится повышать вес тех традиционных факторов, которые лучше всего предсказывают положительное поведение пользователя (как определено Target Function).

Какой поведенческий фактор является самым важным согласно патенту?

Патент не выделяет один самый важный фактор; его цель — автоматически определить вес каждого. Однако в патенте явно определяется признак «Satisfied Click» (Удовлетворенный клик), который представляет собой комбинацию «Last Click» (последний клик в сессии) ИЛИ «Long Dwell» (длительное пребывание). Логично предположить, что этот признак получает один из самых высоких весов в Optimized Target Function.

Как Яндекс обрабатывает разное время пребывания (Dwell Time)?

Яндекс не использует фиксированные пороги. Вместо этого он использует «дискретизацию», разбивая время на интервалы (например,,,). Система автоматически оптимизирует вес для каждого интервала отдельно, позволяя ей понять, что, например, пребывание менее 10 секунд — это плохо, а более 30 секунд — хорошо, и назначить соответствующие веса.

Что такое «Skips» (Пропуски) и почему они важны?

Skip (Пропуск) происходит, когда пользователь просматривает ваш результат в выдаче, не кликает на него, но кликает на результат, расположенный ниже. Патент явно перечисляет несколько признаков, связанных с пропусками (Skip feature, Skipped above). Это сильный негативный сигнал, указывающий на то, что ваш сниппет менее релевантен или менее привлекателен, чем у конкурентов ниже.

Происходит ли этот процесс обучения в реальном времени?

Нет. Процесс, описанный в патенте (оптимизация Target Function и последующее обучение Search Result Ranker), является офлайн-процессом. Он выполняется периодически на тренировочных серверах для обновления основной формулы ранжирования. Результаты этого обучения затем загружаются в продакшн.

Как этот патент связан с персонализацией поиска?

В патенте упоминается, что традиционная оценка асессорами не масштабируется для нужд персонализации. Этот автоматизированный метод решает проблему масштабирования. Он позволяет использовать огромные объемы поведенческих данных для обучения сложных персонализированных моделей ранжирования без ручного труда.

Какие методы оптимизации и метрики использует Яндекс в этом процессе?

Для оптимизации весов Target Function патент явно указывает на использование техники Градиентного спуска (Gradient Descent). В качестве метрик производительности (Performance Metrics), которые система стремится максимизировать, упомянуты MRR (Mean Reciprocal Rank) и MAP (Mean Average Precision), а также DCG и NDCG.

Как этот патент связан с метриками качества Яндекса, такими как Proxima или Профицит?

Патент описывает техническую реализацию того, как Яндекс может обучать свои системы на основе метрик успеха. Метрики вроде Профицита или Proxima оценивают успешность сессии и качество страницы на основе поведения пользователей. Вероятно, эти метрики используются в качестве Performance Metric для оптимизации Target Function, описанной в патенте.

На чем мне следует сосредоточиться в SEO, чтобы извлечь выгоду из этой системы?

Ключевой фокус должен быть на максимизации Satisfied Clicks и минимизации Skips. Это означает создание контента, который полностью удовлетворяет интент пользователя (увеличивая Dwell Time и вероятность Last Click), и разработку сниппетов, которые точно отражают содержание и мотивируют релевантных пользователей кликнуть (уменьшая пропуски).