Как Яндекс автоматически создает и тестирует относительные (контекстные) факторы ранжирования (Мета-признаки)

Яндекс патентует систему автоматического создания «мета-признаков» для улучшения ранжирования. Мета-признак — это относительный фактор, значение которого зависит не только от самого документа, но и от других документов в выдаче по тому же запросу (например, нормализованный CTR относительно среднего значения по SERP). Система генерирует такие признаки, проверяет их эффективность через A/B тесты и внедряет лучшие в основную формулу ранжирования.

Описание

Какую задачу решает

Патент решает задачу повышения качества ранжирования за счет автоматизации процесса генерации новых факторов (Feature Engineering). Он адресует проблему, когда стандартные (абсолютные) факторы ранжирования не всегда позволяют выявить наиболее релевантные документы, и иногда низкоранжированные результаты могут лучше отвечать на запрос, чем те, что находятся в топе (Параграф). Система направлена на выявление скрытых закономерностей путем создания сложных, агрегированных или относительных признаков (meta-features) и их автоматической валидации.

Что запатентовано

Запатентован метод и система для автоматической генерации, валидации и внедрения мета-признаков в алгоритм машинного обучения (MLA) для ранжирования. Суть изобретения в том, что значение мета-признака для документа рассчитывается на основе (i) значения существующего признака этого документа И (ii) параметра, связанного со всем набором документов, ранжируемых по данному запросу (например, среднее значение признака по выдаче). Это превращает абсолютные признаки в относительные (контекстные).

Как это работает

Система работает в несколько этапов. Сначала она анализирует прошлые запросы и результаты поиска. Для них генерируется новый мета-признак. Например, система может взять абсолютное значение CTR документа и нормализовать его относительно среднего CTR всех документов в этой выдаче (Параграф). Затем этот мета-признак валидируется, обычно через A/B тестирование (Параграфы-[0185]). Система сравнивает вовлеченность пользователей (usefulness) в выдаче, где ранжирование учитывает новый мета-признак, с контрольной выдачей. Если полезность возрастает выше определенного порога, мета-признак принимается, и основной алгоритм ранжирования обучается генерировать и использовать его для будущих запросов.

Актуальность для SEO

Высокая. Автоматизация Feature Engineering (AutoML) и использование относительных/контекстных признаков являются ключевыми направлениями развития современных поисковых систем. Описанный механизм позволяет системе ранжирования динамически адаптироваться к конкурентной среде конкретного запроса, что крайне актуально.

Важность для SEO

Влияние на SEO значительно (7/10). Хотя патент не описывает конкретные факторы, он раскрывает механизм, как именно Яндекс может их создавать и использовать. Ключевое значение имеет переход от абсолютных показателей к относительным. Это означает, что для ранжирования важно не просто иметь «хорошие» показатели (например, CTR или время на сайте), а иметь показатели, которые значительно лучше, чем у конкурентов в рамках конкретной выдачи (SERP Context).

Детальный разбор

Термины и определения

Control Evaluation Metric (Контрольная оценочная метрика): Метрика вовлеченности пользователей для контрольной группы (Версия А) в A/B тесте, где ранжирование происходит без учета нового мета-признака.
Given Feature (Исходный признак): Существующий признак документа (например, BM25, PageRank, CTR), который используется как основа для генерации мета-признака.
Meta-Feature (Мета-признак): Новый признак ранжирования, сгенерированный системой. Его ключевая характеристика в том, что его значение для документа зависит не только от признаков самого документа, но и от параметров, связанных со всем набором документов в выдаче (SERP Context). Часто является относительным признаком (relative feature).
MLA (Machine Learning Algorithm / Алгоритм машинного обучения): Основной алгоритм ранжирования поисковой системы (например, CatBoost), который использует набор признаков для определения порядка результатов.
Parameter associated with the set of past documents (Параметр, связанный с набором прошлых документов): Статистическая характеристика всего набора документов, ранжируемых по запросу. Примеры: среднее значение (average), максимальное значение, стандартное отклонение (standard deviation) исходного признака по всем документам в наборе; или предварительный ранг документа.
Test Evaluation Metric (Тестовая оценочная метрика): Метрика вовлеченности пользователей для тестовой группы (Версия B) в A/B тесте, где ранжирование учитывает новый мета-признак.
Usefulness / Usefulness Threshold (Полезность / Порог полезности): Показатель эффективности мета-признака, основанный на метриках вовлеченности пользователей (Test Evaluation Metric). Порог полезности (Usefulness Threshold) основан на Control Evaluation Metric.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на процессе автоматического создания и проверки факторов ранжирования, которые зависят от контекста выдачи.

Claim 1 (Независимый пункт): Описывает базовый метод генерации и валидации мета-признака.

Система получает данные о прошлом запросе и наборе прошлых документов (SERP), показанных в ответ на него.
Генерация мета-признака. Ключевое определение: значение мета-признака для документа D основано на (i) значении исходного признака документа D И (ii) значении параметра, связанного со всем набором прошлых документов.
Валидация мета-признака на основе его полезности (usefulness).
Если полезность выше порога, мета-признак принимается для использования в будущем.

Claim 3 (Зависит от 1): Уточняет, чем может являться «параметр, связанный с набором прошлых документов».

Это может быть предварительный ранг документа.
Это может быть значение того же исходного признака у других документов в наборе (например, среднее или максимальное).
Это может быть значение другого признака у того же или других документов.

Claim 7 (Зависит от 2): Уточняет один из вариантов параметра.

Параметр может быть средним значением (average value) исходного признака для всего набора документов. (Это ключевой момент для нормализации признаков).

Claim 13 (Независимый пункт): Описывает фазу применения обученной модели (MLA) для новых запросов.

Система получает новый запрос.
Генерируется набор релевантных документов.
MLA генерирует мета-признак. Важно: его значение основано на (i) прогнозируемом значении (predicted value) исходного признака и (ii) прогнозируемом значении параметра, связанного с набором документов.
MLA ранжирует документы, используя стандартные признаки и сгенерированный мета-признак.

Claim 18 (Независимый пункт): Описывает двухэтапный процесс ранжирования с использованием мета-признака (относительного признака).

Предварительное ранжирование на основе части признаков для получения предварительного списка (preliminary ranked list).
Генерация мета-признака (относительного признака). Его значение основано на исходном признаке И параметре, связанном с предварительным ранжированным списком.
Финальное ранжирование (переранжирование) предварительного списка на основе как минимум мета-признака.

Где и как применяется

Изобретение затрагивает офлайн-процессы обучения и онлайн-процессы ранжирования.

Офлайн-процессы (Обучение и Валидация)
Это основная область применения патента. Специализированный сервер (Training Server) выполняет:

Генерацию признаков (Feature Generation): Анализ исторических данных (Query Log, User Interaction Log) для создания новых мета-признаков путем комбинирования и нормализации существующих признаков в контексте конкретных SERP (Параграфы,).
Валидацию (A/B Тестирование): Проверка эффективности новых мета-признаков на реальном трафике путем сравнения метрик вовлеченности (Usefulness) с контрольной группой (Параграф).
Обучение MLA: В случае успеха мета-признака, основной ранжирующий MLA переобучается, чтобы уметь генерировать и использовать этот признак в продакшене (Параграф).

RANKING – Ранжирование (Онлайн-процессы)
После обучения основной MLA применяет эти мета-признаки в реальном времени. Патент (Claim 18) предполагает применение на поздних стадиях ранжирования (L2/L3) в архитектуре Каскада Яндекса:

Предварительное ранжирование (L1/L2): Создание предварительного списка документов на основе базовых (абсолютных) признаков.
Генерация мета-признаков (L2/L3): Для документов в предварительном списке рассчитываются мета-признаки. Это требует знания контекста SERP (например, среднего значения признака по всем кандидатам или предварительного ранга).
Переранжирование (L3): Финальное ранжирование с учетом сгенерированных мета-признаков.

На что влияет

Все типы запросов и контента: Механизм универсален и может применяться для генерации признаков в любых тематиках и для любых типов запросов.
Динамика выдачи: Влияет на то, как система оценивает документы в зависимости от конкурентной среды. В высококонкурентных нишах потребуется большее отклонение от среднего, чтобы мета-признак оказал сильное влияние.

Когда применяется

Генерация и Валидация: Происходит периодически в офлайн-режиме или в рамках контролируемых онлайн-экспериментов (A/B тестов) (Параграф).
Применение в ранжировании: Происходит в реальном времени для новых запросов после того, как MLA был обучен использовать валидированный мета-признак (Claim 13).

Пошаговый алгоритм

Процесс А: Генерация и Валидация Мета-признака (Офлайн/Эксперимент)

Сбор исторических данных: Система получает прошлый запрос и набор документов, которые были показаны в ответ на него, вместе с их признаками и данными о взаимодействии пользователей.
Выбор исходного признака: Выбирается признак (например, CTR, Dwell Time, BM25) для генерации мета-признака.
Расчет параметра контекста SERP: Вычисляется параметр, связанный со всем набором документов. Например, среднее значение (average) и стандартное отклонение (standard deviation) исходного признака по всему набору.
Генерация мета-признака: Для каждого документа рассчитывается значение мета-признака на основе его исходного признака и параметра контекста SERP. Например, с использованием формулы нормализации (Z-score) (Параграф):
$$f_{m}=\frac{f_{ij}-avg(f_{j})}{std(f_{j})}$$
Валидация (A/B Тест):
- Система определяет Порог Полезности (Usefulness Threshold) на основе исторических взаимодействий (Контрольная группа А).
- На реальном трафике для похожих текущих запросов система ранжирует документы, используя новый мета-признак (Тестовая группа B).
- Рассчитывается Полезность (Usefulness) мета-признака на основе взаимодействий в тестовой группе.
Принятие решения: Если Полезность превышает Порог Полезности, мета-признак принимается.
Обучение MLA: Основной алгоритм ранжирования переобучается, чтобы генерировать и использовать этот мета-признак в продакшене.

Процесс Б: Применение Мета-признака в Ранжировании (Онлайн, согласно Claim 18)

Получение запроса: Система получает новый запрос.
Предварительное ранжирование: Система отбирает кандидатов и проводит их ранжирование на основе части признаков (абсолютных) для получения preliminary ranked list.
Генерация мета-признака: MLA генерирует мета-признак для кандидатов. Это требует расчета контекстных параметров (например, среднего значения по предварительному списку или использования предварительного ранга). Система может использовать прогнозируемые значения (Claim 13).
Переранжирование: MLA проводит финальное ранжирование предварительного списка, используя в том числе сгенерированный мета-признак.
Формирование SERP.

Какие данные и как использует

Данные на входе

Система использует широкий спектр стандартных факторов ранжирования в качестве исходных признаков (Given Features) для генерации мета-признаков (Параграфы-[0145]).

Контентные факторы (Query-dependent): TF-IDF, BM25, LMIR (для body, anchor, title, URL).
Ссылочные факторы (Query-independent): PageRank, HITS, количество входящих/исходящих ссылок.
Поведенческие факторы (User Interactions): Критически важны как для генерации мета-признаков, так и для их валидации. Используются: Loss/Win (клик/не клик), Dwell time (время на сайте), Long/short click, CTR, вероятность пропуска (skip).
Технические и структурные факторы: Статистика документа (количество слов), характеристики URL (глубина, количество посещений), тип контента, время создания/модификации.
Данные ранжирования: Предварительные оценки релевантности (Preliminary ranking scores), предварительный ранг (Preliminary rank).

Какие метрики используются и как они считаются

Статистические метрики контекста SERP: Для расчета мета-признаков используются агрегированные показатели по набору документов:
- Average (Среднее значение признака).
- Standard Deviation (Стандартное отклонение).
- Minimum/Maximum value (Минимальное/Максимальное значение).
Мета-признаки (Meta-features): Рассчитываются на основе исходных признаков и метрик контекста. В патенте приведена конкретная формула (Параграф), которая соответствует Z-score нормализации (стандартизации):
$$f_{m}=\frac{f_{ij}-avg(f_{j})}{std(f_{j})}$$
Где $f_{m}$ – значение мета-признака, $f_{ij}$ – значение исходного признака документа, $avg(f_{j})$ – среднее значение признака по набору документов, $std(f_{j})$ – стандартное отклонение признака по набору документов.
Также упоминаются другие методы: относительные значения (деление на максимум) и ранговые мета-признаки (позиция при сортировке по признаку).
Метрики оценки качества (Evaluation Metrics): Для валидации используются метрики вовлеченности пользователей (User Engagement Metrics). Они применяются для расчета Usefulness (Полезности) мета-признака в ходе A/B тестирования.

Выводы

Автоматизация генерации факторов (AutoML): Яндекс использует автоматизированную систему для поиска, тестирования и внедрения новых факторов ранжирования (мета-признаков). Это позволяет постоянно усложнять формулу ранжирования без ручного вмешательства инженеров.
Ключевая роль относительных признаков: Патент подчеркивает важность относительных (relative) признаков. Значение фактора для документа оценивается не в вакууме, а в контексте других документов, конкурирующих за тот же запрос (SERP Context).
Нормализация признаков в рамках SERP: Конкретный пример мета-признака (Формула 1) — это стандартизация (Z-score normalization). Это означает, что система оценивает, насколько сильно значение признака у документа отклоняется от среднего значения этого признака в данной конкретной выдаче.
Валидация через A/B тесты и поведение пользователей: Любой новый мета-признак проходит строгую проверку на реальном трафике. Улучшение метрик вовлеченности пользователей (Usefulness) является единственным критерием для внедрения признака.
Двухэтапное ранжирование: Патент (Claim 18) подтверждает использование многоэтапного ранжирования: предварительное ранжирование на основе базовых признаков, за которым следует переранжирование с использованием сложных мета-признаков, рассчитанных на основе контекста предварительной выдачи.

Практика

Best practices (это мы делаем)

Фокус на превосходстве над прямыми конкурентами в SERP (Benchmarking): Необходимо анализировать не только свои абсолютные показатели (скорость загрузки, CTR, глубина проработки темы), но и показатели сайтов, которые уже ранжируются по целевым запросам. Цель — быть значительно лучше среднего уровня конкурентов в выдаче, чтобы получить максимальный буст от нормализованных мета-признаков.
Максимизация поведенческих метрик: Поскольку поведенческие факторы (CTR, Dwell Time) явно упоминаются как исходные признаки для генерации мета-признаков и как метрики для их валидации, работа над улучшением сниппетов и удовлетворением интента пользователя остается критически важной. Важно добиться показателей вовлеченности, которые выделяются на фоне других результатов.
Комплексное улучшение всех аспектов сайта: Поскольку система может автоматически генерировать мета-признаки из любых исходных данных (контентных, ссылочных, технических), необходимо поддерживать высокие стандарты по всем направлениям SEO. Слабое отклонение от среднего по любому признаку может негативно сказаться на ранжировании.

Worst practices (это делать не надо)

Ориентация на «достаточно хорошо»: Стратегия достижения минимально приемлемых или средних показателей становится неэффективной. Если значение признака близко к среднему по SERP, нормализованный мета-признак будет близок к нулю и не даст преимущества в ранжировании.
Игнорирование конкурентного анализа в SERP: Оптимизация сайта без учета того, как выглядят и какие показатели имеют конкуренты в целевой выдаче. Контекст выдачи напрямую влияет на расчет мета-признаков.
Применение общих рекомендаций без анализа SERP: Использование стандартных рекомендаций (например, по длине текста) без учета специфики выдачи. Если в выдаче средние показатели сильно отличаются, следование общим рекомендациям может привести к негативным относительным метрикам.

Стратегическое значение

Патент подтверждает стратегию Яндекса на усложнение и автоматизацию машинного обучения в ранжировании. Он демонстрирует механизм, который позволяет системе динамически адаптироваться к ландшафту каждого запроса. Для SEO это означает, что конкуренция происходит на уровне отклонений от нормы. Долгосрочная стратегия должна быть направлена на создание ресурсов, которые не просто релевантны, а являются выбросами (outliers) по качеству, проработке контента и поведенческим метрикам по сравнению с остальными результатами в их тематике.

Практические примеры

Сценарий: Применение нормализованного мета-признака (Z-score Normalization)

Предположим, Яндекс сгенерировал мета-признак «Нормализованное Время на Сайте» (Normalized Dwell Time) на основе Формулы 1 из патента.

Запрос 1: «Как выбрать палатку» (Информационный, средняя конкуренция)

Среднее время на сайте (Average) в Топ-10: 90 секунд.
Стандартное отклонение (StdDev): 30 секунд.
Ваш Сайт А: 150 секунд.
Расчет мета-признака для Сайта А: (150 — 90) / 30 = 2.0. (Отличное значение, сильный буст).

Запрос 2: «Купить iPhone 16 Pro Max» (Коммерческий, высокая конкуренция)

Среднее время на сайте (Average) в Топ-10: 180 секунд (пользователи сравнивают характеристики).
Стандартное отклонение (StdDev): 60 секунд.
Ваш Сайт Б: 150 секунд.
Расчет мета-признака для Сайта Б: (150 — 180) / 60 = -0.5. (Значение ниже среднего, возможна пессимизация).

Вывод: Хотя Сайт А и Сайт Б имеют одинаковое абсолютное время на сайте (150 секунд), их мета-признак радикально отличается из-за контекста выдачи (SERP Context). Система автоматически определила, что для Запроса 1 это выдающийся показатель, а для Запроса 2 — показатель ниже среднего.

Вопросы и ответы

Что такое «мета-признак» (Meta-feature) в контексте этого патента?

Мета-признак — это новый фактор ранжирования, который генерируется автоматически на основе существующих признаков. Его ключевая особенность в том, что он является относительным (контекстным). Значение мета-признака для документа зависит не только от самого документа, но и от характеристик других документов, ранжирующихся по тому же запросу (например, от среднего значения признака по всей выдаче или от предварительного ранга документа).

В патенте приводится формула нормализации (Z-score). Что это значит для SEO?

Формула $f_{m}=(f_{ij}-avg(f_{j}))/std(f_{j})$ означает переход от абсолютных значений к относительным. Для ранжирования становится важно не просто иметь высокий показатель (например, CTR), а то, насколько этот показатель отклоняется от среднего значения конкурентов в этой конкретной выдаче. Если ваши показатели близки к средним по SERP, значение нормализованного мета-признака будет близко к нулю, и вы не получите преимущества.

Как система определяет, что новый мета-признак полезен?

Система использует строгий процесс валидации, основанный на A/B тестировании (Параграфы-[0185]). Новый мета-признак добавляется в формулу ранжирования для тестовой группы пользователей. Затем система сравнивает метрики вовлеченности (Usefulness) в тестовой группе с контрольной группой (где ранжирование шло без этого признака). Если метрики улучшаются выше определенного порога, признак считается полезным и внедряется.

Может ли этот механизм использовать предварительный ранг документа для расчета мета-признака?

Да, это прямо указано в патенте (Claim 3 и Claim 19). Система может провести предварительное ранжирование, а затем сгенерировать мета-признак, который учитывает позицию документа в этом предварительном списке. Это может использоваться, например, для создания признаков, которые по-разному работают для Топ-3 и Топ-20 результатов.

Как это влияет на стратегию конкурентного анализа?

Это делает детальный анализ конкурентов в SERP еще более важным. Необходимо понимать распределение ключевых показателей (контентных, технических, поведенческих) среди сайтов в Топ-10. Стратегия должна заключаться не в достижении некоего абстрактного идеала, а в том, чтобы быть значительно лучше среднего уровня текущей выдачи по ключевым параметрам.

Патент описывает инфраструктуру или конкретный фактор ранжирования?

Это инфраструктурный патент. Он описывает механизм автоматического создания и тестирования факторов (AutoML для ранжирования), а не какой-то один конкретный фактор. Система, описанная в патенте, может сгенерировать тысячи различных мета-признаков на основе любых доступных данных.

На каком этапе ранжирования применяются эти мета-признаки?

Патент (Claim 18) предполагает применение на поздних стадиях ранжирования. Сначала происходит предварительное ранжирование (L1/L2) на основе базовых признаков. Затем для этого предварительного списка рассчитываются контекстные мета-признаки, которые используются для финального переранжирования (L3). Это логично, так как для расчета мета-признаков нужно знать контекст SERP (набор кандидатов).

Какие типы признаков могут быть использованы для создания мета-признаков?

Патент не ограничивает типы исходных признаков. Упоминаются как зависимые от запроса (query-dependent, например BM25), так и независимые (query-independent, например PageRank), а также поведенческие факторы (CTR, Dwell Time) (Параграфы-[0145]). Любой из них может быть нормализован или агрегирован для создания мета-признака.

Как система обрабатывает новые запросы, по которым нет статистики для расчета контекста SERP?

Для новых запросов (Claim 13) система использует обученный MLA для прогнозирования значений мета-признаков. MLA обучается предсказывать как значения исходных признаков, так и значения параметров контекста SERP (например, прогнозировать средний CTR для этой новой выдачи), чтобы сгенерировать мета-признак.

Означает ли этот патент, что накрутка ПФ стала бесполезной?

Он не делает ее полностью бесполезной, но может усложнить. Если система использует нормализованные поведенческие признаки, то важен не абсолютный объем накрученного трафика или кликов, а то, как это меняет распределение показателей относительно конкурентов. Манипулировать относительными признаками сложнее, так как они зависят от поведения пользователей на всех сайтах в выдаче.