Как Яндекс оптимизирует пороги срабатывания для сложных классификаторов, использующих вложенные метрики (например, Клики и Длинные клики)

Яндекс патентует метод для оптимизации порогов срабатывания в системах бинарной классификации (например, спам/не спам, релевантный/нерелевантный), которые используют несколько «вложенных» метрик одновременно. Метод позволяет итеративно подобрать оптимальную комбинацию порогов для всех метрик сразу, чтобы достичь требуемого баланса между точностью (Precision) и полнотой (Recall).

Описание

Какую задачу решает

Патент решает техническую проблему калибровки сложных систем бинарной классификации. Когда классификатор использует несколько метрик, основанных на «вложенных» данных (например, общее число кликов и доля длинных кликов), и применяет логику «ИЛИ» (объект относится к классу, если хотя бы одна метрика превысила свой порог), стандартные методы оптимизации порогов для каждой метрики по отдельности неэффективны. Патент предлагает метод для совместной (simultaneous) оптимизации всей комбинации порогов для достижения заданных критериев качества.

Что запатентовано

Запатентован итеративный метод определения целевой комбинации пороговых значений (target combination of metric-specific thresholds) для множества вложенных метрик (plurality of nested metrics), используемых для бинарной классификации цифрового объекта. Суть изобретения заключается в методологии многократного тестирования различных комбинаций порогов на валидационном наборе данных, измерении параметров Точности (Precision) и Полноты (Recall) и выборе той комбинации, которая соответствует заранее заданным требованиям (например, precision threshold, recall threshold).

Как это работает

Система использует валидационный набор данных, где для каждого объекта известен истинный класс (ground-truth class). Сначала применяются обученные вложенные метрики (ML-модели) для генерации прогнозов (вероятностей). Затем начинается итеративный процесс: выбирается начальная комбинация порогов. На каждой итерации система рассчитывает Precision и Recall для этой комбинации. Затем один из порогов корректируется, создавая новую комбинацию, и расчеты повторяются. Процесс перебора продолжается до тех пор, пока не будет найдена комбинация порогов, удовлетворяющая заданным ограничениям качества.

Актуальность для SEO

Высокая. Оптимизация порогов срабатывания классификаторов (Thresholding) является критически важным этапом в машинном обучении. Учитывая сложность современных моделей и активное использование поведенческих данных в поиске (где концепция вложенных событий, таких как клики и длинные клики, очень распространена), этот метод актуален для точной калибровки систем антифрода, антиспама и классификаторов качества или релевантности Яндекса.

Важность для SEO

Низкое прямое влияние (3/10). Патент носит инфраструктурный и методологический характер. Он описывает математический аппарат для настройки классификаторов, а не сами классификаторы, новые факторы ранжирования или алгоритмы анализа контента. Он не дает прямых рекомендаций по SEO. Однако он предоставляет ценное понимание того, как Яндекс строит сложные классификаторы, используя концепцию «вложенных событий» (Nested Events), и насколько строго подходит к калибровке точности их срабатывания.

Детальный разбор

Термины и определения

Binary Classification (Бинарная классификация): Задача классификации цифрового объекта в один из двух классов (например, Класс 1 или Класс 2; релевантный или нерелевантный; спам или не спам).
Digital Object (Цифровой объект): Сущность, связанная с онлайн-сервисами, которую необходимо классифицировать. В патенте приводятся примеры: email, пользователь e-commerce платформы или документ (веб-страница).
Ground-Truth Class (Истинный класс): Реальный, известный класс объекта в валидационном наборе данных, используемый для оценки качества классификатора.
Metric-Specific Threshold (Порог для метрики): Пороговое значение, специфичное для конкретной вложенной метрики. Если прогноз метрики превышает этот порог, это считается срабатыванием.
Nested Events (Вложенные события): События разных типов, имеющие иерархическую связь. Событие Типа 2 вложено в Событие Типа 1, если: (а) Тип 2 может произойти, только если произошел Тип 1 (например, Клик может произойти только после Запроса); ИЛИ (б) Тип 2 является подмножеством Типа 1 (например, Длинные клики являются подмножеством Кликов).
Nested Metrics (Вложенные метрики): Множество метрик (реализованных как Machine Learning Algorithms, MLAs), где каждая метрика использует для прогнозирования данные о событиях определенного типа, и эти типы событий являются вложенными (Nested Events).
Precision (Точность, Positive Predictive Value): Параметр качества классификации. Доля объектов, действительно принадлежащих Классу 1, среди всех объектов, которые система классифицировала как Класс 1.
Recall (Полнота, Sensitivity): Параметр качества классификации. Доля объектов, классифицированных системой как Класс 1, от общего числа объектов, которые действительно принадлежат Классу 1.
Target Combination of Metric-Specific Thresholds (Целевая комбинация порогов): Оптимальный набор пороговых значений (по одному для каждой вложенной метрики), выбранный в результате итеративного процесса для использования в продакшене.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методе оптимизации порогов для уже существующих (обученных) вложенных метрик.

Claim 1 (Независимый пункт): Описывает основной итеративный процесс определения целевой комбинации порогов.

Система получает множество валидационных датасетов (с известными ground-truth классами).
Применяются вложенные метрики для генерации прогнозных значений (prediction values).
Первая итерация: Прогнозы сравниваются с первой комбинацией порогов. Рассчитываются первые параметры Precision и Recall.
Вторая итерация: Один из порогов корректируется, создавая вторую комбинацию. Прогнозы сравниваются с новой комбинацией. Рассчитываются вторые параметры Precision и Recall.
Выбор: Целевая комбинация выбирается из первой или второй (и последующих) на основе сравнения их Precision/Recall с заданными требованиями (precision threshold, recall threshold).
Важное уточнение для режима использования (in-use mode): Объект классифицируется как Класс 1, если прогнозное значение хотя бы одной (at least one) из вложенных метрик превышает соответствующий порог из целевой комбинации (Логика «ИЛИ»).

Claim 4 и 5 (Зависимые пункты): Дают определение вложенности метрик через типы событий, которые они используют.

Claim 4: Вторая метрика использует события Типа 2, которые происходят, только если произошли события Типа 1 (используемые первой метрикой).
Claim 5: События Типа 2 являются подмножеством (subset) событий Типа 1.

Где и как применяется

Этот патент описывает процесс, который происходит на этапе разработки, валидации и калибровки моделей машинного обучения, а не во время обработки живого поискового запроса.

Офлайн-процессы и калибровка моделей
Метод применяется для настройки классификаторов, которые затем используются на разных этапах поиска:

INDEXING – Индексирование: Классификаторы могут использоваться для определения спама, контента для взрослых или определения качества документа (например, для расчета метрик типа Proxima). Этот патент описывает, как калибруются пороги срабатывания этих классификаторов.
RANKING – Ранжирование: Классификаторы могут использоваться для определения релевантности документа запросу или для расчета поведенческих факторов. Патент описывает метод настройки точности этих классификаторов.

Система взаимодействует с хранилищем валидационных данных и обученными моделями (MLA). На вход она принимает валидационные датасеты (включая прошлые события объекта и его ground-truth класс) и заданные требования к качеству (Precision/Recall thresholds). На выходе она возвращает Целевую комбинацию пороговых значений для использования классификатором в продакшене.

На что влияет

Метод влияет на любые системы Яндекса, использующие бинарную классификацию на основе вложенных метрик.

Конкретные типы контента и ниши: В патенте явно упоминаются примеры применения:
- Email: классификация письма как спам/не спам.
- E-commerce: классификация пользователя как мошенник/не мошенник.
- Поиск (Document): классификация документа как релевантный/нерелевантный.
Поведенческие факторы: Метод особенно релевантен для классификаторов, основанных на поведении пользователей, так как поведенческие события часто являются вложенными (например, Клики и Длинные клики, упомянутые в патенте).

Когда применяется

Алгоритм применяется офлайн, в следующих ситуациях:

При разработке нового классификатора, использующего вложенные метрики.
При обновлении (переобучении) существующих вложенных метрик, что требует повторной калибровки их порогов.
При изменении требований бизнеса к балансу Precision/Recall (например, если требуется повысить точность антиспам-фильтра).

Пошаговый алгоритм

Процесс определения целевой комбинации порогов:

Подготовка данных: Получение множества валидационных датасетов. Каждый датасет содержит прошлые события объекта и его известный ground-truth класс.
Генерация прогнозов: Применение обученных вложенных метрик (MLAs) к валидационным данным для получения прогнозных значений (вероятностей) для каждого объекта.
Инициализация: Выбор первой (стартовой) комбинации пороговых значений.
Итеративный процесс (Цикл):
1. Определение предсказанных классов: Сравнение прогнозных значений с текущей комбинацией порогов.
2. Оценка качества: Расчет текущих параметров Precision и Recall путем сравнения предсказанных классов с ground-truth классами.
3. Корректировка: Изменение одного из пороговых значений в текущей комбинации для создания новой комбинации (используется «adjustment algorithm»).
Выбор целевой комбинации: Процесс повторяется. Финальный выбор комбинации осуществляется путем сравнения Precision и Recall, полученных на разных итерациях, с заданными требованиями (Precision threshold и/или Recall threshold). Например, выбирается комбинация, которая максимизирует Recall при условии, что Precision выше минимально допустимого порога.

Какие данные и как использует

Данные на входе

Система использует данные о Digital Objects и их прошлых событиях (past object events).

Поведенческие факторы: Являются ключевыми для этого патента, так как концепция Nested Events часто применяется к поведению. В патенте явно упоминаются примеры вложенных событий: «query submissions» (подача запросов) и «search engine result clicks» (клики по результатам); «clicks» (клики) и «long clicks» (длинные клики).
Контентные, Технические, Ссылочные факторы (Косвенно): Патент не специфицирует, какие именно признаки используют сами вложенные метрики (MLAs). Если классифицируется документ или email, то метрики могут использовать любые релевантные для этого данные (текст, ссылки, технические параметры). Однако метод оптимизации порогов работает уже с результатами работы этих метрик.
Системные данные: Ground-truth классы объектов из валидационного набора.

Какие метрики используются и как они считаются

Prediction Value (Прогнозное значение): Вероятность принадлежности объекта к классу, рассчитываемая конкретной вложенной метрикой (MLA).
Precision (Точность): Рассчитывается на каждой итерации как доля истинно положительных срабатываний среди всех положительных срабатываний для текущей комбинации порогов.
Recall (Полнота): Рассчитывается на каждой итерации как доля истинно положительных срабатываний среди всех действительно положительных объектов в датасете.

Патент упоминает использование Machine Learning Algorithms (MLAs) для реализации вложенных метрик. Также упоминается «adjustment algorithm», который управляет тем, как именно корректируются пороги на каждой итерации (направление и величина изменения).

Выводы

Инфраструктурный характер патента: Патент описывает методологию калибровки классификаторов, а не конкретные алгоритмы ранжирования или новые факторы. Он показывает, как Яндекс оптимизирует точность срабатывания своих систем (антиспам, антифрод, оценка качества/релевантности).
Подтверждение использования Вложенных Событий (Nested Events): Патент явно определяет и использует концепцию вложенных событий, приводя в пример связки «Запросы -> Клики» и «Клики -> Длинные клики». Это подтверждает, что Яндекс структурирует поведенческие сигналы иерархически.
Логика «ИЛИ» в классификаторах: Ключевой аспект патента – оптимизация порогов для системы, работающей по логике «ИЛИ». Для классификации объекта (например, как «качественный») достаточно, чтобы хотя бы одна из вложенных метрик превысила свой индивидуальный порог.
Совместная оптимизация порогов: Яндекс не оптимизирует пороги для каждой метрики изолированно, а ищет оптимальную комбинацию для всех метрик одновременно, чтобы достичь глобально лучшего баланса Precision и Recall.

Практика

Best practices (это мы делаем)

Хотя патент инфраструктурный, понимание механизма вложенных метрик дает стратегические инсайты:

Оптимизация всего пути пользователя (User Journey): Поскольку патент явно подтверждает использование вложенных метрик, основанных на событиях типа «Клики» и «Длинные клики», критически важно оптимизировать весь стек поведенческих факторов. Недостаточно просто получить трафик (Клик); необходимо обеспечить положительный опыт после клика (Длинный клик, решение задачи пользователя), так как эти события вложены и анализируются связанными метриками.
Улучшение качества для срабатывания по логике «ИЛИ»: Понимание того, что классификатор может сработать по любой из нескольких метрик (логика «ИЛИ»), подчеркивает важность комплексного улучшения сайта. Если сайт не дотягивает по одной метрике (например, общему числу кликов), он может быть положительно классифицирован за счет другой вложенной метрики (например, очень высокой доли длинных кликов).

Worst practices (это делать не надо)

Накрутка поверхностных ПФ: Попытки манипулировать только верхнеуровневыми событиями (например, накрутка кликов ботами) неэффективны против классификаторов, использующих вложенные метрики. Если есть много «Кликов» (верхний уровень), но нет соответствующих им «Длинных кликов» или «Конверсий» (вложенный уровень), соответствующие вложенные метрики не сработают.
Игнорирование Post-Click Experience: Фокус исключительно на высоком CTR сниппета без работы над удержанием пользователя на странице делает сайт уязвимым, так как метрики, основанные на вложенных событиях (удержание), будут иметь низкие значения.

Стратегическое значение

Патент демонстрирует уровень сложности и математической строгости, с которым Яндекс подходит к разработке и калибровке своих систем машинного обучения. Он подтверждает, что Яндекс стремится к точному, измеримому балансу между Точностью (Precision) и Полнотой (Recall) в своих алгоритмах, будь то фильтры или классификаторы качества. Для SEO это означает, что система устойчива к простым манипуляциям и требует стратегического фокуса на реальном качестве и удовлетворении интента пользователя на всех этапах взаимодействия с сайтом.

Практические примеры

Сценарий: Калибровка классификатора «Полезный документ»

Предположим, Яндекс использует классификатор для определения полезности документа, который использует две вложенные метрики:

Метрика А (Основная): Общий CTR документа по разным запросам.
Метрика Б (Вложенная): Доля Длинных кликов (Long Clicks) от общего числа Кликов.

События Метрики Б вложены в события Метрики А.

Задача Яндекса: Найти оптимальные пороги (Threshold A и Threshold B), чтобы максимизировать Полноту (Recall — найти как можно больше полезных документов) при условии, что Точность (Precision) не ниже 95% (минимум ложных срабатываний).
Действие системы (Описанное в патенте): Яндекс итеративно перебирает комбинации порогов. Например:
- Итерация 1: Threshold A=0.05, Threshold B=0.5. Результат: Precision=98%, Recall=70%.
- Итерация 2 (Корректировка): Threshold A=0.04, Threshold B=0.5. Результат: Precision=96%, Recall=80%.
- Итерация 3 (Корректировка): Threshold A=0.04, Threshold B=0.45. Результат: Precision=94%, Recall=85%. (Не подходит, Precision ниже 95%).
Выбор: Выбирается лучшая подходящая комбинация (например, из Итерации 2).
Применение в SEO (Логика «ИЛИ»): Документ будет классифицирован как «Полезный», если (CTR > 0.04) ИЛИ (Доля Длинных кликов > 0.5). Это значит, что даже документ с невысоким CTR (например, 0.03), но с отличным удержанием (например, 0.6) будет классифицирован как полезный.

Вопросы и ответы

Что такое «вложенные метрики» (Nested Metrics) в контексте этого патента?

Вложенные метрики — это набор из двух или более метрик (ML-моделей), которые используют данные о событиях, имеющих иерархическую связь друг с другом. Метрика считается вложенной в другую, если она анализирует события, которые являются подмножеством событий, анализируемых первой метрикой, или могут произойти только после них.

Что такое «вложенные события» (Nested Events) и какие примеры приводит патент?

Это события, связанные иерархически. Патент приводит два ключевых примера для поиска. Первый: Клики по результатам поиска вложены в Подачу запросов (клик возможен только после запроса). Второй: Длинные клики (Long Clicks) вложены в Клики (Clicks), так как длинные клики являются подмножеством всех кликов. Это важное подтверждение того, как Яндекс структурирует поведенческие сигналы.

В чем суть логики «ИЛИ», упоминаемой в патенте?

Классификатор, использующий вложенные метрики, работает по принципу «ИЛИ». Чтобы объект был отнесен к определенному классу (например, «релевантный документ»), достаточно, чтобы прогноз хотя бы одной из вложенных метрик превысил ее индивидуальный порог. Не требуется, чтобы все метрики одновременно превысили свои пороги.

Описывает ли этот патент новые факторы ранжирования?

Нет. Патент не описывает факторы ранжирования или то, как работают сами метрики (ML-модели). Он описывает исключительно математический метод для калибровки порогов срабатывания (thresholds) для уже существующих метрик, чтобы они работали с заданной точностью и полнотой.

Как понимание этого патента влияет на стратегию работы с поведенческими факторами?

Оно подчеркивает необходимость оптимизации всего пути пользователя. Поскольку используются вложенные метрики (например, Клики и Длинные клики), нельзя фокусироваться только на привлечении трафика (верхний уровень). Необходимо работать над удержанием и удовлетворением интента (вложенный уровень). Накрутка только верхнеуровневых ПФ не даст эффекта, если вложенные события отсутствуют.

Что такое Precision и Recall, и почему Яндекс их балансирует?

Precision (Точность) показывает, как часто система права, когда говорит, что объект принадлежит классу (мало ложноположительных срабатываний). Recall (Полнота) показывает, какую долю объектов нужного класса система смогла найти (мало ложноотрицательных срабатываний). Яндекс балансирует их в зависимости от задачи: например, для антиспама важнее высокая Precision (лучше пропустить спам, чем удалить хорошее письмо), а для поиска релевантных документов может быть важнее Recall.

Почему нельзя оптимизировать пороги для каждой метрики по отдельности?

Поскольку метрики являются вложенными и используется логика «ИЛИ», изменение порога одной метрики влияет на итоговую производительность (Precision/Recall) всей системы. Оптимизация по отдельности не учитывает эти взаимосвязи. Патент предлагает метод совместной (simultaneous) оптимизации всей комбинации порогов для достижения глобального оптимума.

Применяется ли этот алгоритм в реальном времени при обработке запроса?

Нет. Описанный итеративный процесс оптимизации порогов применяется офлайн, на этапе разработки, валидации и калибровки ML-моделей. В реальном времени используется уже результат этого процесса — найденная целевая комбинация порогов.

Какие типы цифровых объектов упоминаются в патенте?

В патенте явно упоминаются три типа объектов, к которым может применяться эта методология: электронные письма (emails) для классификации спама, пользователи платформ электронной коммерции (e-market users) для выявления мошенничества и документы (documents) для определения релевантности.

Может ли сайт с низкими общими ПФ ранжироваться высоко благодаря этому механизму?

Косвенно, да. Если классификатор качества использует логику «ИЛИ» и вложенные метрики, то сайт с низкими показателями по одной метрике (например, общий трафик или CTR) может быть классифицирован положительно, если он сильно превышает порог по другой, вложенной метрике (например, исключительно высокая доля длинных кликов или возвратов). Это подчеркивает важность качества взаимодействия.