Как Яндекс (CatBoost) преобразует категориальные признаки в числа для машинного обучения и борется с переобучением

Патент описывает ключевые механизмы алгоритма CatBoost, используемого Яндексом для ранжирования. Он раскрывает, как система преобразует категориальные признаки (например, регион, тип сайта, URL) в числовые значения. Для предотвращения переобучения используется метод упорядочивания данных и расчета статистики признака только на основе «прошлых» данных в этом порядке, что повышает надежность моделей ранжирования.

Описание

Какую задачу решает

Патент решает фундаментальную проблему в машинном обучении, известную как «утечка целевой переменной» (target leakage), которая возникает при преобразовании категориальных признаков (например, регионов, доменов, типов сайтов) в числовые значения. Стандартные подходы часто приводят к переобучению (overfitting): модель показывает отличные результаты на обучающих данных, но плохо работает в реальных условиях. Это снижает способность модели к обобщению и ухудшает качество ранжирования.

Что запатентовано

Запатентован метод (являющийся ядром алгоритма CatBoost) для устойчивого к переобучению преобразования категориальных признаков в числовые представления во время обучения моделей градиентного бустинга. Суть изобретения — во внедрении «Принципа упорядочивания» (Ordering Principle): введении искусственного «времени» (порядка) в обучающие данные и вычислении статистики признака только на основе «исторических» (предшествующих) данных в рамках этого порядка.

Как это работает

Система создает случайный порядок (перестановку) обучающих данных. Для вычисления числового значения категориального признака для конкретного примера система анализирует только те примеры, которые расположены до него в этом упорядоченном списке. Это предотвращает «заглядывание в будущее» и утечку информации. Для повышения надежности используется несколько различных случайных порядков данных и параллельное обучение нескольких моделей (proto-models). Также патент описывает генерацию сплитов (порогов) «на лету» с использованием предопределенных сеток (grids).

Актуальность для SEO

Высокая. Описанные методы являются фундаментальными компонентами библиотеки CatBoost, разработанной Яндексом. CatBoost активно используется в Яндексе для ранжирования поиска (L2/L3 уровни) и во многих других задачах. Это современный и активно используемый механизм.

Важность для SEO

Влияние на SEO низкое (3/10) с точки зрения тактических действий. Это инфраструктурный патент по машинному обучению. Он не описывает конкретные факторы ранжирования или способы оптимизации под них. Однако он критически важен для понимания того, как работает движок ранжирования Яндекса. Патент объясняет, почему Яндекс может эффективно и надежно использовать категориальные признаки (такие как URL, регионы, типы сайтов) в формулах ранжирования, и почему система устойчива к шуму и случайным корреляциям в данных.

Детальный разбор

Термины и определения

Categorical Feature (Категориальный признак): Признак, который может принимать одно из ограниченного набора значений (категорий). Примеры в SEO: домен, регион, URL, тип сайта, язык, конкретное слово запроса или анкора.
Decision Tree (Решающее дерево): Модель машинного обучения. Состоит из узлов (nodes), где проверяются условия (splits), и листьев (leaves), содержащих предсказание.
Event Indicator (Индикатор события / Целевая переменная / Target): Значение, которое модель должна научиться предсказывать. Например, произошел клик (WIN/1) или нет (LOSS/0); оценка релевантности.
Gradient Boosting (Градиентный бустинг): Техника машинного обучения, которая строит модель в виде ансамбля (Ensemble) слабых предсказательных моделей (обычно решающих деревьев). CatBoost является реализацией этого метода.
Numeric Representation (Числовое представление): Результат преобразования категориального значения в число, которое может быть использовано алгоритмом машинного обучения. В патенте также называется «Count».
Ordered List / Permutation (Упорядоченный список / Перестановка): Случайным образом сгенерированный порядок обучающих примеров. Используется как искусственное «время» для предотвращения переобучения.
Proto-model (Прото-модель): Одна из нескольких параллельно обучаемых моделей, каждая из которых использует свою уникальную перестановку (Ordered List) обучающих данных. Используются для выбора наилучшей структуры дерева и повышения устойчивости.
Split Value (Значение сплита / Порог): Пороговое значение в узле решающего дерева. Если значение признака больше порога, объект идет в одну ветку, если меньше — в другую.
Target Leakage (Утечка целевой переменной): Ситуация, когда для вычисления признаков используется информация из целевой переменной, которая не будет доступна во время реального использования. Приводит к сильному переобучению.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методологии обучения Machine Learning Algorithm (MLA), в частности, на обработке категориальных признаков в решающих деревьях.

Claim 1 (Независимый пункт): Описывает основной механизм (Ordered Target Statistics в терминологии CatBoost) с использованием нескольких моделей.

Система получает набор обучающих объектов.
Генерируется набор моделей (Set of Models).
Для каждой модели обучающие объекты организуются в свой собственный упорядоченный список (respective ordered list). (Важно: используются разные перестановки данных).
При построении итерации дерева система выбирает одну модель и ее список.
Критически важно: При обработке категориального признака для данного объекта система генерирует его числовое представление, основываясь только на данных из предшествующих (preceding) объектов в этом списке.
Числовое представление рассчитывается на основе общего числа предшествующих вхождений этой категории и числа положительных исходов (WINs) среди них.

Это предотвращает утечку целевой переменной, так как для вычисления признака объекта не используется его собственная целевая переменная. Использование нескольких моделей с разными перестановками повышает робастность.

Claim 5 (Зависимый от Claim 1): Расширяет механизм на комбинации признаков.

Метод применяется не только к отдельным признакам, но и к комбинациям (например, «Регион» + «Тип устройства»). Числовое представление рассчитывается на основе предшествующих вхождений именно этой комбинации значений.

Claim 26 (Независимый пункт, не показан в усеченном PDF, но следует из описания и названия): Описывает метод генерации значений сплитов (Split Value).

Поскольку числовые представления генерируются во время построения дерева («на лету»), система заранее не знает все возможные значения. Для решения этой проблемы используется сетка (grid), разделяющая диапазон возможных значений на регионы (buckets). Границы этих регионов используются как значения сплитов (порогов).

Где и как применяется

Этот патент описывает внутренние процессы обучения системы машинного обучения Яндекса (CatBoost). Он не применяется непосредственно в момент обработки запроса пользователя, а используется на этапе подготовки (обучения) моделей, которые затем применяются в поиске.

RANKING – Ранжирование (Офлайн-обучение моделей L2/L3)
Алгоритм CatBoost используется для построения основных формул ранжирования. Описанный в патенте механизм применяется именно во время офлайн-обучения этих моделей на исторических данных. Он позволяет алгоритму корректно обрабатывать категориальные признаки, которые критически важны для ранжирования (регионы, URL, типы документов, слова запросов и анкоров).

Входные данные: Обучающая выборка (признаки документа/запроса) и целевая переменная (оценки асессоров или данные о кликах).
Выходные данные: Обученная модель GBDT (ансамбль решающих деревьев), способная оценивать релевантность.

На что влияет

Категориальные SEO-факторы: Алгоритм напрямую влияет на то, как Яндекс оценивает любые факторы, которые можно представить как категории: регион, язык, доменная зона (TLD), хост, структура URL, тип используемой микроразметки, тип сайта.
Комбинации факторов: Механизм позволяет Яндексу эффективно учитывать сложные взаимодействия между признаками (например, как конкретный тип контента работает в конкретном регионе на конкретном типе устройства).

Когда применяется

Алгоритм применяется исключительно во время офлайн-обучения моделей машинного обучения. Он не работает в реальном времени при ответе на запрос пользователя. Обученные модели затем используются для ранжирования.

Пошаговый алгоритм

Процесс обучения модели (например, CatBoost) с использованием описанного механизма (Ordered Boosting):

Подготовка данных и Инициализация: Получение набора обучающих объектов. Создание нескольких Прото-моделей и одной Продакшн-модели.
Генерация перестановок (Permutations): Для каждой прото-модели создается уникальный случайный упорядоченный список (Ordered List) обучающих данных. Это создает искусственную «временную» последовательность.
Итеративное обучение (Цикл Градиентного Бустинга): Построение нового дерева на каждой итерации.
1. Выбор структуры дерева: Выбирается одна из прото-моделей для определения структуры текущего дерева (признаки и сплиты).
2. Вычисление признаков «на лету»: При построении дерева числовые представления для категориальных признаков вычисляются динамически. Для каждого объекта используются только предшествующие ему объекты в упорядоченном списке данной прото-модели.
3. Генерация сплитов и комбинаций: Используются предопределенные сетки (grids) для определения порогов. Комбинации признаков также обрабатываются «на лету».
4. Пропагация структуры: Выбранная структура дерева копируется во все остальные прото-модели.
5. Вычисление значений в листьях: Каждая прото-модель вычисляет значения в листьях дерева, используя свой собственный упорядоченный список данных (значения будут отличаться).
6. Выбор лучшей модели: Оценивается качество всех прото-моделей.
7. Обновление Продакшн-модели: Дерево из наилучшей прото-модели добавляется в финальную модель.

Какие данные и как использует

Данные на входе

Система использует стандартные данные для обучения моделей ранжирования, но ключевым аспектом является обработка категориальных признаков.

Категориальные факторы: Любые признаки, не являющиеся числовыми: регионы, домены, URL, типы устройств, user-agent, конкретные ключевые слова или сущности в запросе/документе.
Целевая переменная (Event Indicator / Target): Данные, которые модель учится предсказывать. Это могут быть оценки асессоров, данные о кликах (Wins/Losses).

Какие метрики используются и как они считаются

Ключевой метрикой является числовое представление категориального признака (Count), рассчитанное по упорядоченным данным.

Патент описывает формулу расчета как отношение числа положительных исходов к общему числу вхождений для данной категории в «прошлом».

Базовая формула (Formula 1 в патенте):

$$ Count = \frac{Number_{WINS}}{Number_{OCCURRENCES}} $$

Формула с добавлением константы (Formula 2 в патенте) для сглаживания и избежания деления на ноль, если категория встретилась впервые:

$$ Count = \frac{Number_{WINS}}{Number_{OCCURRENCES} + R_{constant}} $$

Где:

$Number_{WINS}$ и $Number_{OCCURRENCES}$ — статистика по объектам с той же категорией, которые предшествовали текущему объекту в упорядоченном списке.
$R_{constant}$ — предопределенное значение (сглаживающий коэффициент).

Обработка комбинаций признаков (Formula 4 в патенте):

Метод также применяется к комбинациям признаков (F1 и F2), рассчитывая статистику для совместного вхождения этих категорий в прошлом.

$$ Count = \frac{Number_{WINS}(F1 \space and \space F2)}{Number_{OCCURRENCES}(F1 \space and \space F2)} $$

Выводы

Это патент про инфраструктуру ML (CatBoost), а не про SEO: Патент описывает фундаментальные алгоритмы машинного обучения, лежащие в основе CatBoost. Он не раскрывает конкретных факторов ранжирования Яндекса.
Яндекс обладает высококлассной технологией обработки категорий: Описанный метод (Ordered Target Statistics) позволяет Яндексу использовать категориальные данные (URL, регионы, типы сайтов) в ранжировании гораздо эффективнее и надежнее, чем стандартные подходы, минимизируя риск переобучения.
Приоритет борьбы с переобучением: Основная цель изобретения — предотвращение Target Leakage с помощью введения искусственного «времени» (упорядочивания данных) и использования нескольких перестановок. Это указывает на то, что Яндекс придает большое значение созданию робастных моделей.
Эффективная работа с комбинациями признаков: Система способна динамически («на лету») обрабатывать сложные комбинации категориальных признаков. Это позволяет строить очень точные модели ранжирования, учитывающие контекст.
Отсутствие прямых SEO-рекомендаций: Поскольку патент фокусируется на том, как модель учится, а не на том, что она считает важным, он не дает прямых практических выводов для SEO-специалистов по оптимизации сайтов.

Практика

Best practices (это мы делаем)

Поскольку патент описывает внутреннюю механику алгоритма обучения, а не конкретные сигналы ранжирования, прямые SEO-рекомендации ограничены. Однако понимание возможностей CatBoost дает стратегические ориентиры:

Фокус на надежных сигналах и долгосрочной стратегии: Учитывая, что модель Яндекса активно борется с переобучением и ищет обобщающие закономерности, краткосрочные трюки или попытки использовать случайные корреляции вряд ли будут эффективны. Стратегия должна основываться на фундаментальном качестве и стабильных положительных сигналах.
Усиление консистентности категориальных сигналов: Необходимо обеспечивать четкие и непротиворечивые сигналы по ключевым категориям (региональность, тематика, тип сайта). CatBoost способен эффективно выявлять и взвешивать эти сигналы.
Фокус на региональной и тематической экспертизе: Способность CatBoost эффективно обрабатывать комбинации признаков означает, что система высоко ценит ресурсы, демонстрирующие сильные сигналы в рамках комбинации или.

Worst practices (это делать не надо)

Попытки манипуляций на основе простых корреляций: Алгоритм специально разработан для того, чтобы избегать ложных выводов на основе случайных корреляций в данных (переобучения). Это делает попытки «нащупать» простые правила ранжирования и манипулировать ими менее эффективными.
Попытки манипулировать статистикой через шум: Ввиду устойчивости алгоритма к переобучению и использования упорядочивания, попытки «зашумления» данных или манипуляции простыми статистическими корреляциями менее эффективны против CatBoost.

Стратегическое значение

Патент подтверждает, что в основе ранжирования Яндекса лежит собственная, проприетарная и очень сложная технология машинного обучения (CatBoost). Это означает, что модели ранжирования Яндекса устойчивы, способны к обобщению и эффективно работают с реальными данными поиска. Для SEO-стратегии это подчеркивает необходимость фокусироваться на долгосрочном развитии качественных и консистентных сигналов, а не на поиске уязвимостей в алгоритме, так как система способна учитывать всю совокупность сигналов.

Практические примеры

Практических примеров применения для SEO нет, так как патент описывает, как работает движок машинного обучения, а не как им управлять с помощью оптимизации сайта. Можно лишь проиллюстрировать эффект от использования этой технологии.

Иллюстрация работы с категориальными комбинациями

Представим, что Яндекс обучает модель для локального поиска, используя признаки: и.

Задача: Определить вес комбинации +.
Стандартный подход (риск переобучения): Посчитать средний CTR всех пиццерий в Казани из обучающей выборки. Это может привести к переоценке качества, если в выборке случайно оказалось несколько очень кликабельных, но нерепрезентативных сайтов.
Подход по патенту (CatBoost):
- Данные случайно перемешиваются (Ordered List).
- Для каждого сайта пиццерии в Казани вес рассчитывается только на основе тех сайтов, которые шли до него в списке.
Результат: Модель ранжирования более надежна и точнее определяет важность этой комбинации признаков на реальной выдаче.
Вывод для SEO: Локальному бизнесу критически важно обеспечивать сильные и стабильные поведенческие сигналы в своем регионе и категории, так как CatBoost точно определит их ценность.

Вопросы и ответы

Что такое категориальные признаки в контексте SEO?

Категориальные признаки — это переменные, которые принимают одно из фиксированного набора значений и не имеют естественного числового порядка. В SEO это критически важные данные: регион пользователя, регион документа, тип сайта (информационный, коммерческий), URL, домен, язык, конкретные слова в запросе или анкоре. Этот патент описывает, как Яндекс эффективно преобразует эти категории в числа для использования в ранжировании.

Что такое CatBoost и какое отношение он имеет к этому патенту?

CatBoost — это проприетарная библиотека градиентного бустинга, разработанная Яндексом и используемая в качестве основного алгоритма ранжирования. Этот патент описывает ключевые изобретения, лежащие в основе CatBoost, в частности, его уникальный метод обработки категориальных признаков (Ordered Target Statistics), который отличает его от аналогов вроде XGBoost или LightGBM.

Что такое «переобучение» (overfitting) и почему Яндекс пытается его решить?

Переобучение — это когда модель слишком хорошо запоминает обучающие примеры, но теряет способность делать правильные предсказания на новых данных. В поиске это привело бы к некачественной выдаче. Яндекс решает эту проблему (в частности, проблему «утечки целевой переменной»), чтобы гарантировать, что модель ранжирования работает стабильно и качественно в реальных условиях, а не только на тестовой выборке.

Как работает механизм «упорядоченного списка» (Ordered List), описанный в патенте?

Для борьбы с переобучением система случайным образом упорядочивает обучающие данные, создавая искусственную «временную» последовательность. Когда рассчитывается статистика для признака, учитываются только те данные, которые находятся «в прошлом» (до текущего объекта в списке). Это не позволяет модели «подсмотреть» правильный ответ для текущего объекта при расчете его же признаков.

В патенте упоминается генерация нескольких моделей (Proto-models). Зачем это нужно?

Это часть механизма Ordered Boosting. Система создает несколько вспомогательных моделей, каждая из которых обучается на своей уникальной случайной перестановке данных. На каждом шаге выбирается лучшая из этих моделей для построения финальной продуктовой модели. Это делает итоговую модель более устойчивой к шуму и менее склонной к переобучению.

Что такое комбинации признаков, которые упоминаются в патенте?

Это автоматическое создание новых признаков на основе пересечения существующих. Например, вместо отдельных признаков «Регион=Москва» и «Тип сайта=Магазин», система может создать комбинированный признак «Регион=Москва И Тип сайта=Магазин». Патент описывает метод эффективного расчета статистики для таких комбинаций «на лету» во время обучения, что позволяет модели выявлять сложные синергетические эффекты между факторами.

Как этот патент влияет на мою стратегию регионального продвижения?

Прямого влияния нет. Однако патент подтверждает, что Яндекс очень эффективно обрабатывает категориальные признаки, такие как «Регион». Это означает, что система способна точно определять и использовать географические сигналы в ранжировании. Ваши стандартные стратегии по региональной привязке и развитию локального авторитета остаются актуальными.

Означает ли этот патент, что Яндекс лучше понимает семантику текста?

Не напрямую. Этот патент не связан с NLP или BERT-подобными моделями (YATI). Однако, если результаты работы NLP-моделей (например, выделенные сущности или классификации текста) используются как категориальные признаки в CatBoost, то этот патент описывает, как эти признаки будут эффективно обработаны основной формулой ранжирования.

Что такое «значение разделения» (Split Value) и как оно генерируется?

Значение разделения — это порог, который используется в решающем дереве. Для числовых представлений категориальных признаков патент предлагает использовать «сетку» (Grid): диапазон возможных значений разбивается на интервалы (buckets), и границы этих интервалов используются как кандидаты для разделения в узле дерева. Это ускоряет обучение.

Стоит ли мне менять подход к оптимизации сайта на основе этого патента?

Нет. Этот патент дает глубокое понимание инфраструктуры Яндекса, но не содержит информации, которая должна привести к изменению практических подходов к SEO. Он подтверждает сложность и робастность системы ранжирования, подчеркивая важность фокусировки на качестве, а не на поиске уязвимостей алгоритма.