Как Яндекс (в алгоритме CatBoost) обрабатывает категориальные признаки (Хосты, URL, Регионы) и борется с переобучением в ранжировании

Патент раскрывает ядро алгоритма CatBoost — основного метода машинного обучения Яндекса для ранжирования. Он описывает, как система преобразует категориальные признаки (например, URL, домен, регион) в числовые значения. Чтобы избежать переобучения и утечки данных, система использует статистику (например, CTR) только из «прошлого», упорядочивая данные случайным образом (Ordered Boosting) и вычисляя значения признаков на основе предшествующих объектов.

Описание

Какую задачу решает

Патент решает фундаментальную проблему в машинном обучении, применяемом для ранжирования: эффективное и устойчивое преобразование категориальных признаков (таких как URL, хосты, типы документов, регионы) в числовые значения, пригодные для алгоритмов на основе решающих деревьев (например, Gradient Boosting). Традиционные методы часто приводят к переобучению (Overfitting) и «утечке целевой переменной» (Target Leakage), когда информация о правильном ответе (например, клике) некорректно используется для расчета значения самого признака, что искажает модель. Изобретение улучшает качество и стабильность ранжирования.

Что запатентовано

Запатентован метод преобразования категориальных признаков в числовые представления, являющийся основой алгоритма CatBoost (метод Ordered Boosting). Суть изобретения заключается в обязательном упорядочивании обучающих объектов (часто случайным образом) и вычислении числового значения для категории, основываясь исключительно на статистике объектов, которые предшествуют (Preceding Training Object) текущему объекту в этом списке.

Как это работает

Система создает несколько моделей (Proto-models), каждая из которых использует свой собственный случайный порядок (Permutation) обучающих данных. Для преобразования категории в число система смотрит назад по этому упорядоченному списку и вычисляет соотношение положительных исходов (Wins) к общему количеству вхождений этой категории только среди предшествующих примеров. Это имитирует анализ данных во времени и предотвращает Target Leakage. Патент также охватывает методы расчета комбинаций признаков «на лету» и генерации порогов (Splits).

Актуальность для SEO

Критически высокая. Этот патент описывает ключевые механизмы CatBoost, который является основным алгоритмом ранжирования Яндекса. Это не устаревшая технология, а актуальный фундамент системы ранжирования на 2025 год.

Важность для SEO

Фундаментальное влияние (9/10). Этот патент описывает не отдельный фактор ранжирования, а сам механизм (движок), с помощью которого Яндекс оценивает множество ключевых признаков. Понимание того, как работает CatBoost, критически важно для Senior SEO. Он объясняет, как Яндекс оценивает качество хоста, URL, региональную привязку и поведенческие сигналы, связанные с ними, подчеркивая важность исторической производительности и взаимодействия признаков.

Детальный разбор

Термины и определения

Categorical Feature (Категориальный признак): Признак, который принимает значения из ограниченного набора категорий, не имеющих естественного числового порядка (например, URL, Хост/Домен, Регион, Тип устройства).
CatBoost: Реализация алгоритма градиентного бустинга на решающих деревьях, разработанная Яндексом. Механизмы этого патента являются его основой.
Count (Счетчик) / Numeric Representation: Числовое значение, в которое преобразуется категориальный признак. Обычно рассчитывается как оценка вероятности успеха (например, CTR) для данного значения признака.
Event Indicator (Индикатор события) / Target Value: Целевая переменная, которую модель учится предсказывать. Например, Клик (WIN/1) или Отсутствие клика (LOSS/0).
Grid (Сетка): Механизм для определения возможных значений разбиения (Split Values) путем деления диапазона значений признака на интервалы (Buckets).
Ordered Boosting (Упорядоченный бустинг): Техника, описанная в патенте, при которой статистика для признака рассчитывается только на основе объектов, предшествующих текущему в упорядоченном списке (перестановке).
Ordered List / Permutation (Упорядоченный список / Перестановка): Набор обучающих данных, отсортированный по времени или (чаще) случайным образом. Используется для имитации временного ряда и предотвращения Target Leakage.
Proto-models (Прото-модели): Вспомогательные модели, обучаемые параллельно, каждая на своей уникальной перестановке данных, для повышения робастности финальной модели (Production Model).
Target Leakage (Утечка целевой переменной): Ситуация, когда информация о целевой переменной непреднамеренно используется при вычислении признаков во время обучения, что приводит к переобучению (Overfitting).

Ключевые утверждения (Анализ Claims)

Патент защищает несколько ключевых инноваций, лежащих в основе CatBoost, направленных на эффективную и устойчивую обработку категориальных данных.

Claim 1 (Независимый пункт): Описывает основной механизм Ordered Boosting.

Система генерирует набор моделей (set of models).
Для КАЖДОЙ модели создается свой собственный упорядоченный список (respective ordered list) обучающих объектов (перестановка).
При построении дерева выбирается модель и ее список.
Критически важно: Числовое представление категориального признака для объекта (O) генерируется на основе статистики (количество вхождений и количество успехов/Wins) ТОЛЬКО объектов, предшествующих (O) в этом конкретном списке.

Это ядро изобретения. Статистика (например, CTR) для признака рассчитывается так, как будто мы движемся во времени, не заглядывая в будущее, что предотвращает Target Leakage.

Claims 3 и 5: Уточняют формулу расчета числового представления (Count) с добавлением сглаживающей константы (Claim 3), которая используется в расчете (Claim 5):

$$ Count = \frac{Number_{WINS}}{Number_{OCCURRENCES} + R_{constant}} $$

Где $R_{constant}$ — предопределенное значение (априорная вероятность или сглаживающий фактор), используемое для регуляризации и избежания деления на ноль для редких категорий.

Claim 13 (Независимый пункт): Описывает метод обработки комбинаций категориальных признаков «на лету» (in-line).

При построении дерева система извлекает признаки, уже выбранные на предыдущих (prior) уровнях.
Система генерирует числовые представления для комбинаций предыдущих признаков и новых признаков, рассматриваемых на текущем уровне.
Это выполняется динамически во время генерации дерева, экономя ресурсы по сравнению с предварительным расчетом всех возможных комбинаций.

Claim 20 (Независимый пункт): Описывает метод генерации порогов разбиения (split value) с использованием сеток (grids).

Генерируется диапазон всех возможных значений числового представления.
К диапазону применяется сетка (Grid) для разделения его на области (buckets).
Границы этих областей используются как значения разбиения (Split Values). Это выполняется до фактического преобразования категорий в числа.

Где и как применяется

Изобретение является фундаментальным механизмом работы алгоритма CatBoost и применяется на ключевых этапах машинного обучения в поиске.

Офлайн-процессы (Обучение модели ранжирования)
Основное применение патента. Когда Яндекс обучает свои основные модели ранжирования (которые затем применяются на уровнях L3/L4), этот метод используется для обработки всех категориальных признаков.

Входные данные: Обучающие данные (логи запросов, кликов, оценки асессоров) с признаками и целевыми метками.
Процесс: Система создает случайные перестановки данных (Ordered Lists) и использует описанный метод (Ordered Boosting) для конвертации категорий в числа (Count), используя статистику только из «прошлого».
Выходные данные: Обученная модель ранжирования (Production Model).

RANKING – Ранжирование (Уровни L2/L3/L4)
Обученная модель применяется для ранжирования документов в реальном времени. Когда модель встречает категориальный признак (например, Хост документа), она использует выученные правила и накопленную статистику для его преобразования в числовое значение, которое затем используется в формуле ранжирования.

На что влияет

Механизм влияет на оценку любого признака, рассматриваемого как категориальный. В SEO это критически важно для:

Хосты/Домены (оценка авторитетности, Host Quality).
URL-адреса и их шаблоны.
Регионы.
Тематики/Категории документов.
Типы устройств пользователя.

Поскольку это часть основного алгоритма (CatBoost), она одинаково влияет на все типы контента, запросов и тематик.

Когда применяется

Алгоритм активируется на этапе обучения моделей машинного обучения (офлайн-процесс). Ключевым условием является наличие категориальных признаков в модели CatBoost.

Пошаговый алгоритм (Обучение модели CatBoost с Ordered Boosting)

Инициализация и Подготовка Данных: Получение обучающих объектов. Инициализация набора прото-моделей (Proto-models) и Продакшн-модели (Production Model).
Генерация Перестановок: Для каждой Прото-модели генерируется уникальный, случайный упорядоченный список (Ordered List / Permutation) обучающих объектов.
Итеративное Построение Ансамбля (Начало итерации): Начало построения очередного дерева.
Выбор Структуры Дерева:
- Выбирается одна из Прото-моделей (например, случайно) и ее перестановка данных.
- На основе этой модели строится структура решающего дерева (выбираются признаки и разбиения для узлов).
Конвертация Признаков (Ключевой этап — Claim 1): При оценке категориального признака происходит его конвертация в число (Count). Для каждого объекта статистика (отношение WINs к OCCURRENCES) рассчитывается только по тем объектам, которые предшествуют ему в выбранной перестановке (Ordered Boosting).
Обработка Комбинаций (Claim 13): Комбинации признаков рассчитываются «на лету» (in-line), комбинируя текущие признаки с теми, что уже выбраны на верхних уровнях дерева.
Проецирование и Валидация: Сгенерированная структура дерева копируется во все остальные прото-модели. Каждая модель заполняет листья значениями, используя свою собственную перестановку данных. Оценивается качество всех прото-моделей.
Обновление Production Model: Лучшая модель используется для добавления дерева в финальную модель ранжирования.
Следующая итерация: Переход к шагу 3 до завершения построения ансамбля.

Какие данные и как использует

Данные на входе

Категориальные факторы: Любой признак, который не является числом. В патенте упоминаются примеры: URL (YANDEX.RU), Домен/Хост (.COM), Текст поискового запроса («SEE EIFFEL TOWER»). В SEO это также: Хост, Регион, Язык, Тип устройства, Классификаторы интента.
Поведенческие факторы (Целевая переменная): Event Indicator (Индикатор события) для каждого объекта. Это данные об исходах (WIN/LOSS), например, клики, долгие клики, оценки асессоров. Эти данные критичны для расчета $Number_{WINS}$.
Числовые факторы: Патент также упоминает стандартные числовые признаки, например: PAGE_RANK, NUMBER_CLICKS.
Временные факторы: Если данные имеют временную метку, она может использоваться для создания исходного упорядоченного списка (вместо случайной перестановки).

Какие метрики используются и как они считаются

Ключевой метрикой является Счетчик (Count) – числовое представление категории.

Формула 1 (Базовый расчет):

$$Count = \frac{Number_{WINS}}{Number_{OCCURRENCES}}$$

Где числитель и знаменатель относятся только к объектам, предшествующим текущему в упорядоченном списке.

Формула 2 (Расчет со сглаживанием, Claim 3/5):

$$Count = \frac{Number_{WINS}}{Number_{OCCURRENCES} + R_{constant}}$$

$R_{constant}$ — это априорное значение (приор), используемое для сглаживания и регуляризации для редких категорий.

Формула 4 (Комбинации признаков):

$$Count(F1, F2) = \frac{Number_{WINS}(F1 \text{ and } F2)}{Number_{OCCURRENCES}(F1 \text{ and } F2)}$$

Статистика считается по совместному вхождению значений признаков F1 и F2 только в предшествующих данных.

Выводы

Фундамент CatBoost и Ранжирования Яндекса: Патент описывает ключевые инновации (Ordered Boosting, обработка комбинаций, использование сеток), которые делают CatBoost основным и наиболее эффективным алгоритмом ранжирования Яндекса для работы с разнородными данными.
Борьба с Переобучением (Overfitting) — Приоритет: Использование случайных перестановок (Random Permutations), нескольких прото-моделей и расчета статистики строго на «прошлых» данных указывает на стремление Яндекса строить максимально робастные (устойчивые) и обобщающие модели, не подверженные шуму и Target Leakage.
Эффективное использование Категориальных Сигналов: Яндекс обладает сложным аппаратом для использования нечисловых данных (Хост, URL, Регион) как сильных факторов ранжирования. Их вес определяется статистически надежным способом.
Оценка основана на истории: Оценка категориального признака (например, Хоста) по сути является его историческим показателем успешности (например, исторический CTR или оценка качества). Метод гарантирует, что этот расчет непредвзят.
Сложные взаимодействия факторов: Система эффективно учитывает комбинации признаков «на лету», позволяя модели улавливать сложные нелинейные взаимодействия (например,).

Практика

Best practices (это мы делаем)

Фокус на долгосрочной последовательности и качестве (Host Quality): Поскольку оценка категориальных признаков, в первую очередь Домена/Хоста, основана на исторической статистике (WINs vs OCCURRENCES), критически важна стабильная положительная эффективность с течением времени. Долгая история высокого CTR и удовлетворенности пользователей формирует сильный статистический профиль для вашего домена в модели CatBoost.
Четкая категоризация и структура сайта: Обеспечьте консистентность в категориальных данных: региональный таргетинг, тематика разделов, структура URL. CatBoost эффективно выявляет паттерны в этих данных. Логичная структура помогает системе точнее оценивать ожидаемое качество для конкретных категорий или шаблонов URL.
Анализ эффективности комбинаций признаков: Понимайте, что Яндекс оценивает комбинации (Claim 13). Убедитесь, что сайт хорошо работает на ключевых пересечениях (например, Тематика + Регион, Тип устройства + Шаблон URL). Конкретные сегменты трафика развивают свои собственные статистические профили в модели.
Стратегия для новых сайтов/страниц: Для новых URL или Хостов история отсутствует. Их оценка будет определяться сглаживающим параметром $R_{constant}$ (априорной вероятностью). Необходимо как можно быстрее нарабатывать позитивную статистику (WINs), чтобы реальный Count начал превышать априорную оценку.

Worst practices (это делать не надо)

Краткосрочные манипуляции поведенческими факторами (ПФ): Попытки искусственно завысить WINs (клики) имеют ограниченный эффект. Механизмы CatBoost (сглаживание через $R_{constant}$, использование обширных исторических данных и случайных перестановок) разработаны для устойчивости к шуму, аномалиям и краткосрочным выбросам.
Непоследовательные сигналы качества: Если сайт демонстрирует нестабильное качество (например, смешивание высококачественного контента с кликбейтом или дорвеями), это затрудняет формирование положительного статистического профиля для домена как категориального признака.
Игнорирование технических проблем на уровне Хоста: Системные проблемы (медленный хостинг, небезопасное соединение) будут негативно влиять на историческую статистику Хоста и тянуть вниз все страницы.

Стратегическое значение

Патент имеет критическое стратегическое значение, так как описывает ДНК алгоритма ранжирования Яндекса. Он подтверждает, что Яндекс полагается на сложный, устойчивый к шуму градиентный бустинг (CatBoost) и уделяет огромное внимание корректной обработке категориальных данных и поведенческих сигналов. Долгосрочная SEO-стратегия должна фокусироваться на формировании положительной истории взаимодействий с Хостом и URL, так как именно эта история определяет их вес в формуле ранжирования.

Практические примеры

Сценарий 1: Оценка репутации Хоста (Домена)

Как Яндекс применяет патент: «Хост» используется как категориальный признак. При обучении модели для каждого вхождения `Host: example.com` CatBoost смотрит назад в упорядоченном списке (Ordered List) и вычисляет: `Count = (Общее количество WINs для example.com на данный момент) / (Общее количество показов для example.com на данный момент + $R_{constant}$)`.
Действие SEO-специалиста: Системно работать над повышением CTR сниппетов и удовлетворенностью пользователей (увеличение WINs) на всем сайте. Это формирует высокое значение `Count` для признака Хоста, что повышает вероятность высокого ранжирования всех документов с этого хоста.

Сценарий 2: Запуск нового раздела сайта (Новый шаблон URL)

Как Яндекс применяет патент: Сайт запускает раздел `/new-category/`. Яндекс рассматривает это как новый категориальный признак (или комбинацию Хост + Шаблон URL). Изначально статистики нет (OCCURRENCES=0), поэтому расчет опирается на априорное предположение ($R_{constant}$).
Действие SEO-специалиста: Убедиться, что новый раздел запускается с высококачественным контентом и получает трафик (показы/OCCURRENCES) и положительные взаимодействия (WINs). Это необходимо, чтобы быстро сформировать фактический статистический профиль для нового шаблона и отойти от стандартного (обычно среднего или низкого) априорного предположения.

Вопросы и ответы

Что такое категориальные признаки в контексте SEO и почему они важны?

Категориальные признаки — это нечисловые характеристики документа или запроса. Ключевые примеры: URL страницы, Хост (домен сайта), Регион пользователя, Тип устройства (десктоп/мобайл), Язык. Они критически важны, потому что часто несут сильные сигналы о качестве и релевантности (например, авторитетность домена или региональная привязка), но их сложно напрямую использовать в математических моделях ранжирования без специальной обработки.

Как именно этот патент (CatBoost) преобразует URL или Хост в число?

Он использует метод «упорядоченной статистики». Представьте, что все показы и клики в поиске выстроены в линию (реальную временную или случайную). Для конкретного URL система считает его успешность (например, CTR), но учитывает только те показы и клики, которые произошли ДО текущего момента в этой линии. Это позволяет оценить историческое качество URL, избегая при этом «заглядывания в будущее» (Target Leakage).

Что такое «утечка целевой переменной» (Target Leakage) и как CatBoost ее предотвращает?

Target Leakage возникает, когда информация о правильном ответе (например, был ли клик) используется для расчета значения признака. Это искажает модель. CatBoost предотвращает это, строго упорядочивая данные (часто случайным образом) и рассчитывая статистику признака только на основе объектов, которые предшествуют текущему в этом порядке. Это имитирует движение во времени и гарантирует, что ответ на текущий объект не повлияет на расчет его же признаков.

В патенте упоминаются случайные перестановки (Permutations) и несколько моделей (Proto-models). Зачем это нужно?

Это ключевой механизм защиты от переобучения (Overfitting). Если использовать только один порядок данных, модель может найти ложные закономерности. Создавая несколько прото-моделей, каждая из которых обучается на своей уникальной случайной перестановке данных, Яндекс гарантирует, что итоговая модель будет более стабильной, устойчивой к шуму и лучше работать на новых данных.

Как это влияет на оценку поведенческих факторов?

Влияние прямое. Поведенческие данные (клики, WINs/LOSSes) являются основой для расчета числовых значений категориальных признаков. Если ваш Хост или URL исторически получает много WINs (например, высокий CTR, долгие клики), его значение как признака в модели CatBoost растет. Это подчеркивает критическую важность долгосрочной работы над качеством сниппетов и удовлетворенностью пользователей.

Что такое комбинации признаков (Feature Combinations) и как CatBoost их обрабатывает?

Это взаимодействие нескольких признаков. Например, ценность документа может быть высока только при комбинации И. CatBoost, согласно патенту (Claim 13), рассчитывает статистику для таких комбинаций динамически («на лету») во время построения дерева. Это позволяет модели выявлять сложные нелинейные зависимости между факторами ранжирования.

Как этот механизм влияет на ранжирование новых сайтов или страниц?

Для новых сайтов или страниц историческая статистика отсутствует (Number OCCURRENCES = 0). В этом случае их оценка определяется сглаживающим параметром $R_{constant}$ (априорной вероятностью успеха). Чтобы новый сайт начал хорошо ранжироваться, ему необходимо быстро набрать положительную статистику (WINs), чтобы его реальная оценка превысила базовую априорную.

Можно ли обмануть эту систему накруткой кликов?

Это крайне сложно. Во-первых, система смотрит на исторические данные. Во-вторых, использование нескольких случайных перестановок данных (Proto-models) делает CatBoost очень устойчивым к шуму и аномалиям в данных. Краткосрочные манипуляции с большой вероятностью будут отфильтрованы как шум или не окажут значимого влияния на итоговую обученную модель.

Как этот патент связан с E-E-A-T и авторитетностью?

Связь стратегическая. Сигналы E-E-A-T часто выражаются через категориальные признаки (например, Имя Автора, Название Организации, Тип Сайта). Поскольку CatBoost, благодаря этому патенту, может эффективно и стабильно использовать эти признаки в ранжировании, это технологически подкрепляет важность работы над E-E-A-T для успешного продвижения в Яндексе.

Какой главный вывод для SEO-стратегии следует из этого патента?

Главный вывод — необходимость фокусироваться на долгосрочном и системном качестве. Поскольку ключевые факторы (Хост, URL) оцениваются на основе их исторической производительности с помощью устойчивого к манипуляциям механизма CatBoost, стратегия должна быть направлена на стабильное обеспечение положительного пользовательского опыта, технического совершенства и экспертности ресурса в целом.