Как Яндекс автоматически выбирает оптимальные факторы (признаки) для обучения своих ML-алгоритмов

Яндекс патентует метод для автоматического отбора наиболее ценных признаков (Feature Selection) при обучении моделей машинного обучения. Система итеративно оценивает каждый фактор не только по его индивидуальной силе, но и по его синергии (насколько он дополняет другие факторы) и избыточности (насколько он дублирует информацию), используя условную взаимную информацию (CMI).

Описание

Какую задачу решает

Патент решает фундаментальную проблему машинного обучения — эффективный отбор признаков (Feature Selection) из больших наборов данных. Традиционные методы часто не справляются с высокой размерностью данных и не могут одновременно учитывать сложные взаимодействия: синергию (когда признаки сильны вместе, но слабы по отдельности) и избыточность (когда признаки дублируют информацию), особенно при анализе трех и более признаков. Изобретение направлено на повышение точности ML-моделей (например, ранжирования или классификации) при снижении их сложности и риска переобучения.

Что запатентовано

Запатентован способ и система для отбора признаков, основанные на итеративном вычислении Условной Взаимной Информации (Conditional Mutual Information, CMI). Суть изобретения заключается в алгоритме, который для каждого признака-кандидата явно оценивает его синергию с другими признаками и его избыточность. Это позволяет выбрать наиболее информативный и недублирующийся набор факторов для обучения модели.

Как это работает

Алгоритм работает итеративно («жадным» образом). На каждом шаге система оценивает все еще не отобранные признаки. Для каждого кандидата система ищет:

Параметры Релевантности (Синергия): Набор признаков, которые максимизируют информативность кандидата относительно целевой метки.
Параметры Избыточности: Набор признаков, которые минимизируют уникальную информативность кандидата (т.е. уже содержат ту же информацию).

Затем вычисляется Показатель Значимости Признака, который балансирует эти два набора. Признак с наивысшим показателем добавляется в финальный набор. Для управления сложностью вычислений может использоваться бинаризация признаков.

Актуальность для SEO

Высокая (методологически). Отбор признаков является критически важным этапом при построении сложных систем машинного обучения, особенно в поиске, где количество потенциальных факторов огромно. Использование информационно-теоретических методов (MI/CMI) для оценки качества и взаимодействия признаков остается актуальным подходом для оптимизации моделей, таких как CatBoost.

Важность для SEO

Влияние на SEO низкое/инфраструктурное (3/10). Этот патент не описывает алгоритм ранжирования или конкретные факторы. Он описывает внутреннюю методологию, используемую инженерами Яндекса для разработки и оптимизации своих ML-моделей. Патент не дает прямых рекомендаций SEO-специалистам, но демонстрирует, что Яндекс уделяет большое внимание взаимодействию (синергии) факторов, а не только их индивидуальному весу.

Детальный разбор

Термины и определения

Взаимная Информация (Mutual Information, MI, I): Мера взаимной зависимости между двумя случайными переменными. Измеряет, сколько информации один признак содержит о другом признаке или о целевой метке.
Условная Взаимная Информация (Conditional Mutual Information, CMI): Мера взаимной зависимости между двумя переменными при условии знания третьей переменной. Ключевой инструмент патента для оценки синергии и избыточности.
Признак (Feature, f): Индивидуальное измеримое свойство данных. В контексте SEO это может быть фактор ранжирования (например, возраст домена, BM25, CTR).
Целевая Метка (Target Label, c): Значение, которое модель машинного обучения пытается предсказать (например, оценка релевантности асессором, метка спам/не спам).
Синергизм (Synergy) / Релевантность: Характеристика признаков, которые показывают более высокую релевантность целевой метке вместе, чем по отдельности. Моделируется через Набор параметров релевантности (H).
Избыточность (Redundancy): Ситуация, когда признак содержит ту же информацию, что и другие уже отобранные признаки. Моделируется через Набор параметров избыточности (G).
Показатель Значимости Признака (Feature Significance Indicator, Ji): Итоговая оценка ценности признака, вычисленная на основе баланса его синергии и избыточности.
Параметр Взаимодействия (Interaction Parameter, t): Параметр, определяющий сложность взаимодействия признаков, которое учитывает алгоритм (например, t=3 означает учет взаимодействия трех признаков). Определяет размер наборов H и G.
Бинаризация (Binarization): Процесс преобразования признаков в бинарный формат (0 или 1). Используется для снижения вычислительной сложности при расчете CMI для большого числа взаимодействующих признаков.

Ключевые утверждения (Анализ Claims)

Патент защищает конкретный итеративный («жадный») метод отбора признаков, который учитывает сложные взаимодействия между ними.

Claim 1 (Независимый пункт): Описывает ядро изобретения — компьютерный способ отбора подгруппы признаков.

Система анализирует обучающие данные для извлечения множества признаков и целевой метки.
Для еще не отобранного признака (кандидата) итеративно создается Набор параметров релевантности. Это указывает на уровень синергизма кандидата с другими признаками.
Одновременно итеративно создается Набор параметров избыточности. Это указывает на уровень избыточности кандидата.
Определяется Показатель Значимости Признака на основе баланса обоих наборов.
Отбирается признак с наивысшим значением этого показателя и добавляется к финальной подгруппе.

Claim 4 (Зависимый): Уточняет механизм итераций и сложность анализа.

Вводится Параметр взаимодействия (t), который определяет число взаимодействующих признаков. Определение релевантности осуществляется за t-1 итераций, а определение избыточности — за t итераций. Это позволяет системе моделировать взаимодействие между группой из t признаков (в патенте указано, что t может быть равно или больше 3).

Claims 6, 7, 8 (Зависимые): Определяют математический аппарат вычислений на основе CMI.

Релевантность (Claim 6): Определяется путем максимизации CMI. Система ищет признак h, который дает наибольший прирост информации вместе с кандидатом b.
$${h_{j} := \operatorname*{argmax}_{h} I(c; b|h_{1}, \dots, h_{j-1}, h)}$$
Избыточность (Claim 7): Определяется путем минимизации CMI. Система ищет признак g, который максимально «объясняет» информацию, содержащуюся в кандидате b и наборе релевантности H.
$${g_{j} := \operatorname*{argmin}_{g} I(c; b, h_{1}, \dots, h_{j-1}|g_{1}, \dots, g_{j-1}, g)}$$
Показатель Значимости (Claim 8): Вычисляется как CMI между целевой меткой (c) и комбинацией кандидата (b) и набора релевантности (H), при условии (conditioned on) набора избыточности (G).
$${J_{i}[f] := \max_{b \in B[f]} I(c; b; h_{1}, \dots, h_{t-1}|g_{1}, \dots, g_{t})}$$

Где и как применяется

Этот патент относится к инфраструктуре машинного обучения и не применяется напрямую в real-time фазах обработки поискового запроса. Он используется на этапе Офлайн-разработки и Обучения Моделей Машинного Обучения.

Инженеры Яндекса используют этот метод для определения того, какие из тысяч доступных признаков (факторов) должны быть включены в финальную модель.

Модели, построенные с использованием этого метода отбора признаков, затем могут применяться на разных слоях поиска:

INDEXING – Индексирование: Для обучения классификаторов контента (например, определение тематики, спама) или вычисления статических факторов качества (например, моделей Proxima или Anti-Quality).
RANKING – Ранжирование: Самое важное применение — отбор оптимального набора признаков для основной ранжирующей модели (например, CatBoost или YATI). Это позволяет сделать модель точнее и быстрее, исключив из нее избыточные факторы.

Входные данные: Обучающая выборка, извлеченное множество признаков (F), целевые метки (c), параметры k (число признаков для отбора) и t (параметр взаимодействия).

Выходные данные: Отобранная подгруппа признаков (S), которая затем используется для обучения финальной ML-модели.

На что влияет

Алгоритм влияет на эффективность и точность работы моделей машинного обучения в Яндексе. Он не имеет прямого предпочтения к конкретным типам контента, запросов, нишам (YMYL) или географии. Его влияние косвенное: он определяет, какие именно сигналы будут использоваться системой для оценки контента во всех этих категориях. Он специально разработан для выявления факторов, которые могут быть слабыми по отдельности, но сильными в комбинации (синергия).

Когда применяется

Алгоритм применяется исключительно в офлайн-режиме:

При разработке новых моделей машинного обучения.
Во время периодического переобучения и валидации существующих моделей (например, при обновлении формулы ранжирования), когда необходимо пересмотреть набор используемых признаков.

Он не используется при обработке конкретного запроса пользователя в реальном времени.

Пошаговый алгоритм

Процесс отбора оптимальной подгруппы признаков (S) из исходного множества (F).

Инициализация и Подготовка:
- Получение обучающих данных с признаками (F) и целевой меткой (c).
- Определение параметров k (число признаков) и t (глубина взаимодействия).
- (Опционально) Бинаризация признаков (F -> B[F]) для снижения вычислительной сложности.
- (Опционально) Отбор первого признака: Выбор признака с наивысшей индивидуальной Взаимной Информацией (MI) с целевой меткой (c) и добавление его в S.
Итеративный Отбор (Основной Цикл): Повторять, пока в S не наберется k признаков.
1. Оценка Кандидатов: Для каждого еще не отобранного признака (f):
  1. Расчет Синергии (Набор Релевантности H): Итеративно (t-1 раз) найти признаки, которые максимизируют CMI между кандидатом и целевой меткой. Это находит признаки, которые хорошо дополняют кандидата.
  2. Расчет Избыточности (Набор Избыточности G): Итеративно (t раз) найти признаки из уже отобранных (S), которые минимизируют CMI. Это находит признаки, которые уже содержат информацию, имеющуюся у кандидата.
2. Вычисление Показателя Значимости (Ji): Рассчитать итоговую оценку признака f на основе найденных наборов H и G.
Выбор Лучшего Признака: Найти признак fbest с максимальным Показателем Значимости Ji.
Обновление: Добавить fbest в отобранную подгруппу S.
Завершение: Система получает оптимальный набор признаков S для обучения модели.

Какие данные и как использует

Данные на входе

Патент методологический и не специфицирует конкретные типы SEO-факторов (контентные, ссылочные, поведенческие и т.д.). Он оперирует абстрактными данными:

Обучающие документы: Набор данных, используемый для обучения (например, пары запрос-документ, веб-страницы).
Множество Признаков (F): Извлеченные характеристики обучающих документов. Это могут быть любые факторы ранжирования, которые Яндекс хочет протестировать.
Целевые Метки (c): Эталонные оценки для обучающих документов (например, оценки асессоров, данные о кликах, метрики качества).

Какие метрики используются и как они считаются

Ключевые метрики основаны на теории информации.

Энтропия Шеннона (H): Мера неопределенности случайной переменной.
Взаимная Информация (MI): Измеряет снижение неопределенности одной переменной при знании другой.
$${I(f; g) = H(f) + H(g) — H(f, g)}$$
Условная Взаимная Информация (CMI): Измеряет взаимную информацию между двумя переменными (f, g) при условии знания третьей (h).
$${I(f; g|h) = I(f; g, h) — I(f; h)}$$
Параметры Релевантности (h_j): Вычисляются путем максимизации CMI (argmax I(…)).
Параметры Избыточности (g_j): Вычисляются путем минимизации CMI (argmin I(…)).
Показатель Значимости Признака (Ji): Финальная метрика, используемая для ранжирования признаков, основанная на CMI с учетом наборов H и G (см. формулу в анализе Claim 8).

Методы вычислений: Используется итеративный «жадный» (greedy) алгоритм. Для снижения вычислительной нагрузки применяется Бинаризация.

Выводы

Инфраструктурный характер: Патент описывает внутреннюю методологию оптимизации ML-моделей Яндекса (Feature Selection). Он не является патентом на алгоритм ранжирования и не дает прямых SEO-рекомендаций.
Ключевая роль Синергии факторов: Основная ценность изобретения — способность автоматически выявлять синергию (комплементарность). Яндекс рассматривает ранжирование не как сумму независимых факторов, а как сложную систему взаимодействий. Ценность одного фактора зависит от наличия других.
Борьба с Избыточностью: Система активно исключает факторы, которые дублируют информацию. Это позволяет Яндексу строить более эффективные и стабильные модели.
Сложность Взаимодействий (t>=3): Использование параметра взаимодействия (t) и CMI позволяет моделировать сложные нелинейные зависимости между группами из трех и более факторов.
Управление сложностью: Упоминание бинаризации подчеркивает, что анализ сложных взаимодействий является вычислительно трудной задачей, требующей технических оптимизаций.

Практика

Патент описывает внутренние процессы Яндекс, связанные с разработкой ML-моделей. Он не содержит прямых рекомендаций для SEO, но дает важное понимание принципов построения алгоритмов.

Best practices (это мы делаем)

Комплексный подход (Холистическое SEO): Патент математически обосновывает важность синергии между факторами. Это подтверждает необходимость комплексной стратегии, где разные аспекты оптимизации (техническое состояние, качество контента, E-E-A-T, юзабилити, ПФ) работают гармонично и усиливают друг друга. Комбинация позитивных сигналов дает больший эффект, чем сумма их частей.
Создание уникальной ценности: Концепция борьбы с избыточностью применима и к стратегии развития сайта. Необходимо предоставлять уникальную информацию или сервис, который генерирует недублирующиеся (не избыточные) сигналы полезности для пользователя.

Worst practices (это делать не надо)

Поиск «Серебряной пули» и фокус на изолированных факторах: Попытки найти один фактор, гарантирующий топ, или манипулировать изолированным фактором (например, накрутка только ПФ при низком качестве контента). Система ищет комбинации факторов. Если фактор не демонстрирует синергии с общим качеством сайта, его вклад будет ограничен.
Линейное мышление и игнорирование взаимосвязей: Предположение, что факторы независимы и их вклад суммируется линейно. Патент доказывает, что Яндекс анализирует их сложную нелинейную взаимозависимость.

Стратегическое значение

Патент подтверждает высокий уровень зрелости инфраструктуры машинного обучения Яндекса. Стратегически это означает, что система способна автоматически находить сложные, неочевидные комбинации факторов, которые лучше всего предсказывают релевантность и качество. Для SEO это подчеркивает, что попытки реверс-инжиниринга отдельных факторов становятся все менее эффективными. Долгосрочная стратегия должна фокусироваться на создании всесторонне качественного ресурса, генерирующего множество синергичных позитивных сигналов.

Практические примеры

Поскольку патент инфраструктурный, приведем гипотетические примеры того, как этот метод может повлиять на выбор факторов внутри Яндекса.

Сценарий 1: Выявление Синергии (Synergy) в E-E-A-T

Задача: Обучить модель качества для YMYL-тематики.
Входные данные: Факторы: «Наличие автора», «Ссылки на авторитетные источники», «Возраст домена». Целевая метка — оценка E-E-A-T.
Работа алгоритма: Алгоритм может обнаружить, что «Наличие автора» само по себе слабо информативно. Однако комбинация «Наличие автора» + «Ссылки на авторитетные источники» демонстрирует высокую синергию и сильно коррелирует с высокой оценкой E-E-A-T.
Результат: Модель будет обучена придавать большой вес этой комбинации.
SEO Вывод: Недостаточно просто указать автора; необходимо, чтобы контент подтверждался источниками, так как эти факторы усиливают друг друга.

Сценарий 2: Устранение Избыточности (Redundancy)

Задача: Оптимизировать набор текстовых факторов.
Входные данные: Факторы «Вхождение ключа в Title», «Вхождение ключа в H1».
Работа алгоритма: Алгоритм рассчитывает Параметры Избыточности и обнаруживает, что после учета «Вхождение ключа в Title», добавление «Вхождение ключа в H1» дает минимальный прирост информации (высокая избыточность).
Результат: Система может исключить один из избыточных факторов из финальной модели или снизить его вес.
SEO Вывод: Не стоит чрезмерно фокусироваться на дублировании ключевых слов в разных элементах страницы, если они не несут дополнительной уникальной информации.

Вопросы и ответы

Описывает ли этот патент конкретный фактор ранжирования?

Нет, этот патент не описывает фактор ранжирования. Он описывает математический метод (Feature Selection), который инженеры Яндекса используют для автоматического выбора того, какие факторы (признаки) следует использовать при обучении их моделей машинного обучения, включая ранжирующие модели.

Что такое «Синергия» признаков в контексте этого патента?

Синергия (или комплементарность) означает, что два или более признака вместе предоставляют значительно больше информации для предсказания результата, чем сумма их индивидуальных вкладов. Например, два фактора могут быть слабыми по отдельности, но их комбинация может быть очень сильным сигналом качества. Система ищет такие комбинации.

Что такое «Избыточность» признаков и почему Яндекс с ней борется?

Избыточность возникает, когда новый признак дублирует информацию, которая уже содержится в ранее отобранных признаках. Например, если уже есть метрика «Время на сайте», добавление сильно коррелирующей метрики «Глубина просмотра» может быть избыточным. Борьба с избыточностью позволяет делать модели более компактными, быстрыми и устойчивыми к переобучению.

Что такое Условная Взаимная Информация (CMI) и как она используется?

CMI — это метрика из теории информации, которая измеряет зависимость между двумя переменными при условии знания третьей. В этом патенте CMI используется для количественной оценки как синергии (путем максимизации CMI), так и избыточности (путем минимизации CMI). Это позволяет точно измерить уникальный вклад каждого признака.

Зачем в патенте используется «Бинаризация» признаков?

Расчет CMI для большого количества взаимодействующих признаков (высокая сложность) требует огромных вычислительных ресурсов. Бинаризация (преобразование признаков в формат 0/1) значительно упрощает эти вычисления и снижает размерность задачи, делая анализ сложных взаимодействий практически возможным.

Как этот патент влияет на мою SEO-стратегию?

Прямого тактического влияния нет. Но он имеет стратегическое значение, подтверждая необходимость холистического (комплексного) подхода к SEO. Поскольку система Яндекса ценит синергию между факторами, ваша стратегия должна гарантировать, что все аспекты сайта (техника, контент, ПФ, E-E-A-T) работают вместе и усиливают друг друга, а не существуют изолированно.

Работает ли этот алгоритм в реальном времени при обработке запроса?

Нет. Этот алгоритм работает в офлайн-режиме, на этапе разработки и обучения моделей машинного обучения. Когда модель уже обучена и запущена в продакшн, она использует отобранные этим методом признаки, но сам процесс отбора в реальном времени не происходит.

Что означает «Параметр Взаимодействия (t)»?

Этот параметр определяет сложность взаимодействий, которые система анализирует. Он указывает, сколько признаков одновременно учитывается при расчете CMI. Если t=3 (как указано в патенте, что t ≥ 3), система анализирует, как группы из трех и более признаков влияют на результат вместе. Это позволяет улавливать сложные зависимости.

Означает ли этот патент, что Яндекс игнорирует некоторые факторы ранжирования?

Да, это одна из целей метода. Если в процессе отбора какой-либо фактор будет признан высоко избыточным (дублирующим информацию) или неинформативным, он может быть исключен из финальной модели обучения. Система устраняет «шум», оставляя только те признаки, которые вносят уникальный вклад.

Связан ли этот патент с алгоритмом CatBoost или YATI?

Да, существует прямая связь. CatBoost и YATI — это алгоритмы машинного обучения, используемые Яндексом. Описанный в патенте метод отбора признаков является инструментом для подготовки данных перед обучением этих моделей, позволяя выбрать наилучший набор входных данных для них.