Как Яндекс оптимизирует пороги срабатывания классификаторов, использующих вложенные метрики (например, Клики и Длинные клики)

Яндекс патентует метод для точной настройки порогов срабатывания в системах бинарной классификации (например, Спам/Не спам, Качественный/Некачественный), которые используют «вложенные метрики». Вложенные метрики основаны на взаимосвязанных событиях, таких как «Клики» и их подмножество «Длинные клики». Метод итеративно подбирает оптимальное сочетание порогов для всех метрик одновременно, чтобы достичь требуемого баланса точности и полноты классификации.

Описание

Какую задачу решает

Патент решает техническую задачу оптимизации работы систем бинарной классификации, которые используют несколько взаимосвязанных (вложенных) моделей машинного обучения (метрик). Основная проблема заключается в сложности нахождения оптимального сочетания порогов срабатывания для каждой из этих метрик одновременно. Неверная настройка порогов приводит к ошибкам классификации — либо к низкой точности (Precision, много ложноположительных срабатываний), либо к низкой полноте (Recall, много пропусков). Патент предлагает метод для автоматизированного и эффективного подбора этих порогов.

Что запатентовано

Запатентован способ и сервер для определения целевого сочетания зависящих от метрики порогов для множества вложенных метрик. Вложенные метрики — это модели, основанные на взаимосвязанных событиях (например, метрика на основе всех кликов и метрика на основе только длинных кликов). Суть изобретения — это итеративный процесс проверки, который тестирует различные комбинации порогов и выбирает ту, которая наилучшим образом соответствует заданным критериям точности и полноты.

Как это работает

Система использует размеченный проверочный набор данных (где известен правильный класс объектов). Множество вложенных метрик применяется к этим данным для получения прогнозов (вероятностей). Затем начинается итеративный процесс:

Берется начальное сочетание порогов (по одному для каждой метрики).
Система классифицирует объекты: если прогноз хотя бы одной метрики превышает ее порог, объект относится к первому классу.
Вычисляются параметры точности (Precision) и полноты (Recall) для этой итерации.
Один из порогов корректируется, формируя новое сочетание.
Процесс повторяется (шаги 2-4).

В итоге система сравнивает результаты всех итераций и выбирает то сочетание порогов, которое удовлетворяет заранее заданным требованиям (например, максимизирует полноту при сохранении минимально допустимой точности).

Актуальность для SEO

Высокая. Автоматизация и оптимизация конвейеров машинного обучения (MLOps) являются критически важными для крупных технологических компаний. Точная настройка порогов классификаторов напрямую влияет на качество работы поиска, антиспам-систем и систем модерации. Метод актуален для повышения эффективности и снижения ошибок в этих системах.

Важность для SEO

Влияние на SEO умеренное (5/10). Это инфраструктурный патент, описывающий методологию калибровки моделей, а не сами модели или факторы ранжирования. Он не вводит новых SEO-факторов. Однако он важен для понимания того, как Яндекс настраивает свои классификаторы (например, определяющие качество сайта, релевантность или спам). Ключевое значение для SEO имеет подтверждение использования концепции вложенных метрик, основанных на вложенных событиях, в качестве примеров которых прямо указаны «Клики» и «Длинные клики».

Детальный разбор

Термины и определения

Бинарная классификация (Binary Classification): Задача отнесения цифрового объекта к одному из двух классов (например, Первый класс или Второй класс; Спам или Не спам; Релевантный или Нерелевантный).
Вложенные метрики (Nested Metrics): Множество алгоритмов машинного обучения (метрик), которые используют для прогнозирования вложенные события. Если Метрика А использует События А, а Метрика Б использует События Б, и при этом События Б вложены в События А, то метрики называются вложенными.
Вложенные события (Nested Events): События объекта, имеющие взаимосвязь вида «вложенность». События Б вложены в События А, если: (1) События Б могут произойти, только если произошли События А (например, Клики вложены в Запросы), ИЛИ (2) События Б представляют собой подмножество Событий А (например, Длинные клики вложены в Клики).
Зависящий от метрики порог (Metric-Dependent Threshold): Значение, с которым сравнивается прогноз (вероятность), выданный конкретной метрикой. Если прогноз превышает порог, это способствует классификации объекта как принадлежащего к определенному классу.
Параметр полноты (Recall, Полнота): Доля фактически полученных релевантных экземпляров из общего количества релевантных экземпляров. Показывает, насколько хорошо система находит то, что должна найти (чувствительность).
Параметр точности (Precision, Точность): Доля релевантных экземпляров среди всех полученных экземпляров. Показывает, насколько мало система выдает ложных срабатываний (прогностическая ценность).
Цифровой объект (Digital Object): Элемент, подлежащий классификации. В патенте упоминаются примеры: сообщение электронной почты, пользователь платформы электронной торговли, документ (веб-страница).
Целевое сочетание зависящих от метрики порогов (Target Combination): Итоговый набор порогов (по одному для каждой вложенной метрики), выбранный в результате итеративного процесса оптимизации как наилучший.

Ключевые утверждения (Анализ Claims)

Патент фокусируется не на том, *как* работают вложенные метрики, а на том, *как* оптимизировать пороги их срабатывания.

Claim 1 (Независимый пункт): Описывает основной итеративный способ определения целевого сочетания порогов.

Получение проверочных наборов данных (с известными контрольными классами).
Применение множества вложенных метрик к этим данным для формирования прогнозов (вероятностей).
Первая итерация:
- Сравнение прогнозов с первым сочетанием порогов для определения прогнозируемых классов.
- Вычисление первых параметров точности и полноты путем сравнения прогнозируемых классов с контрольными.
Вторая итерация:
- Корректировка порога из первого сочетания для формирования второго сочетания порогов.
- Сравнение прогнозов со вторым сочетанием порогов.
- Вычисление вторых параметров точности и полноты.
Выбор: Выбор первого или второго сочетания в качестве целевого путем сравнения их параметров точности/полноты с заданными пороговыми значениями (Порог точности, Порог полноты).
Применение: Целевое сочетание используется так, что если прогноз хотя бы одной метрики превышает соответствующий порог, объект классифицируется как принадлежащий к первому классу.

Claim 2 (Зависимый пункт): Уточняет, что процесс может включать множество итераций, которые продолжаются до тех пор, пока параметры точности и/или полноты не превысят заданные пороги. Сочетание порогов из этой успешной итерации выбирается как целевое.

Claims 4 и 5 (Зависимые пункты): Определяют концепцию вложенности. Первая метрика основана на событиях первого вида, вторая — на событиях второго вида. События второго вида происходят, только если произошли события первого вида (Claim 4), или события второго вида являются подмножеством событий первого вида (Claim 5).

Где и как применяется

Этот патент описывает методологию (MLOps), а не конкретный компонент поисковой архитектуры. Он применяется на этапе разработки, обучения и калибровки классификаторов, которые затем используются в различных слоях поиска.

Офлайн-процессы и обучение моделей
Основное применение патента — это офлайн-процесс валидации моделей. Сервер выполняет итеративный процесс проверки для выбора оптимальных порогов (Target Combination) перед тем, как классификатор будет запущен в эксплуатацию (в «режиме использования»).

Применение классификаторов в Поиске
Классификаторы, откалиброванные с помощью этого метода, могут применяться на разных этапах:

INDEXING – Индексирование: Для разметки документов флагами (например, Спам/Не спам, Adult/Safe, High-Quality/Low-Quality).
RANKING – Ранжирование: Классификаторы могут использоваться для определения релевантности документа (Релевантный/Нерелевантный) или как часть вычисления метрик качества (например, вклада в Proxima).

Система принимает на вход обученные вложенные метрики и проверочные данные, а на выходе возвращает оптимальное сочетание порогов для этих метрик.

На что влияет

Типы контента и Ниши: Метод универсален и может применяться для классификации любых цифровых объектов. В патенте упоминаются документы (веб-страницы), сообщения электронной почты и пользователи e-commerce. Это влияет на точность работы антиспам-фильтров, систем определения мошенничества и систем оценки качества/релевантности контента.
Поведенческие факторы: Патент явно использует «Клики» и «Длинные клики» как примеры вложенных событий. Это подтверждает, что Яндекс может использовать отдельные, но взаимосвязанные (вложенные) модели для анализа разных типов поведенческих сигналов. Метод влияет на то, насколько чувствительными будут эти модели к изменениям в поведении пользователей.

Когда применяется

Алгоритм применяется во время этапа проверки (Validation Phase) обучения механизма классификации. Это происходит до того, как модель будет использоваться в реальной поисковой системе. Цель — откалибровать пороги срабатывания на основе исторических размеченных данных.

Триггеры активации: Запуск процесса валидации модели или необходимость перекалибровки существующих моделей (например, при значительном изменении данных или поведения пользователей).
Критерий останова: Итеративный процесс продолжается до тех пор, пока не будет найдено сочетание порогов, удовлетворяющее заданным критериям (Порог точности и/или Порог полноты).

Пошаговый алгоритм

Процесс определения целевого сочетания порогов для вложенных метрик.

Подготовка данных: Получение множества зависящих от объекта проверочных наборов данных. Каждый набор содержит прошлые события объекта и его контрольный класс (Ground Truth).
Генерация прогнозов: Применение множества обученных вложенных метрик к проверочным данным. Формирование множества прогнозов (вероятностей) для каждого объекта.
Инициализация (Первая итерация):
- Выбор первого сочетания зависящих от метрики порогов (например, заранее заданное или случайное).
- Классификация проверочных объектов: если прогноз хотя бы одной метрики превышает ее порог в сочетании, объект относится к первому классу.
- Вычисление первых параметров Точности (Precision) и Полноты (Recall) для этой итерации путем сравнения прогнозируемых классов с контрольными.
Корректировка (Вторая и последующие итерации):
- Корректировка одного из порогов из предыдущего сочетания для формирования нового (второго) сочетания порогов. (Патент упоминает возможность использования алгоритма корректировки, управляющего направлением и значением изменения).
- Классификация проверочных объектов с использованием нового сочетания порогов.
- Вычисление новых (вторых) параметров Точности и Полноты.
Оценка и Повторение: Повторение шага 4. Процесс может продолжаться множество итераций.
Выбор целевого сочетания: Сравнение параметров Точности и Полноты всех итераций с заданными требованиями (Порог точности, Порог полноты). Выбор наилучшего сочетания. Например, выбирается сочетание, которое максимизирует Полноту, при условии, что Точность выше минимально допустимого порога.

Какие данные и как использует

Данные на входе

Система использует данные, необходимые для процесса валидации моделей машинного обучения.

Проверочные наборы данных (Validation Datasets): Множество записей о цифровых объектах, содержащих:
- Прошлые события объекта (Object Events): Характеристики или исторические данные об объекте, которые используются вложенными метриками в качестве входных признаков (features).
- Контрольный класс (Ground Truth): Известный правильный класс объекта (например, полученный от асессоров).
Поведенческие факторы: В патенте явно упоминаются поведенческие данные как примеры входных признаков для вложенных метрик:
- События отправки запроса
- События просмотра
- События «кликов» (Clicks)
- События «длинных кликов» (Long Clicks)

Какие метрики используются и как они считаются

Система вычисляет стандартные метрики оценки качества классификаторов.

Параметр точности (Precision): Доля релевантных экземпляров среди полученных экземпляров. $$\text{Precision} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Positives}}$$
Параметр полноты (Recall): Доля фактически полученных экземпляров из общего количества релевантных экземпляров. $$\text{Recall} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Negatives}}$$
Пороги (Thresholds): Система использует заданные Порог точности и Порог полноты как критерии для выбора оптимального сочетания порогов срабатывания метрик.

Выводы

Патент описывает MLOps, а не ранжирование: Изобретение относится к инфраструктуре и методологии машинного обучения (MLOps). Оно описывает, как Яндекс калибрует свои классификаторы, а не как эти классификаторы устроены или как они влияют на ранжирование напрямую.
Подтверждение использования «Вложенных Метрик»: Ключевой вывод для SEO — Яндекс использует концепцию Nested Metrics. Это означает, что разные, но взаимосвязанные сигналы могут обрабатываться отдельными моделями, пороги срабатывания которых настраиваются совместно.
Важность нюансов поведенческих факторов: В качестве основного примера вложенных событий патент приводит «Клики» и «Длинные клики». Это подтверждает, что Яндекс не просто учитывает факт клика, но и анализирует его качество (длительность), причем, вероятно, с помощью специализированных (вложенных) моделей.
Фокус на балансе Precision/Recall: Яндекс уделяет значительное внимание тонкой настройке баланса между точностью (отсутствие ошибок) и полнотой (максимальный охват) в своих системах классификации (антиспам, качество, релевантность).
Логика срабатывания «ИЛИ»: В описанной системе классификации используется логика «ИЛИ»: объект относится к классу, если хотя бы одна из вложенных метрик превысила свой порог. Это позволяет системе быть чувствительной как к общим сигналам, так и к более специфичным.

Практика

Best practices (это мы делаем)

Хотя патент инфраструктурный, понимание концепции вложенных метрик и их калибровки позволяет скорректировать SEO-стратегию.

Фокус на качестве взаимодействий (Engagement): Поскольку «Длинные клики» являются вложенным событием для «Кликов», необходимо максимизировать не просто трафик, а вовлеченность пользователей. Улучшайте контент так, чтобы он решал задачу пользователя и удерживал его на странице. Это обеспечивает сильные сигналы для более специфичных (вложенных) моделей.
Оптимизация сниппетов для релевантных кликов: Обеспечивайте соответствие сниппета содержанию страницы. Это повышает вероятность того, что полученный клик превратится в «длинный клик», что важно для срабатывания вложенных метрик.
Мониторинг удовлетворенности пользователей: Отслеживайте метрики, косвенно указывающие на удовлетворенность (например, низкий процент возвратов на выдачу). Высокая удовлетворенность коррелирует с сигналами, которые используются во вложенных моделях качества.

Worst practices (это делать не надо)

Накрутка CTR и генерация «Коротких кликов»: Использование кликбейтных заголовков или накрутка поведенческих факторов для получения большого количества кликов без реальной вовлеченности (короткие клики). Если основная метрика (Клики) срабатывает, но вложенная метрика (Длинные клики) не активируется, это может указывать на низкое качество взаимодействий и ограничивать потенциал ранжирования.
Игнорирование юзабилити и скорости загрузки: Факторы, которые могут прервать сессию пользователя (медленная загрузка, навязчивая реклама, плохая мобильная адаптация), напрямую снижают вероятность генерации «длинных кликов», лишая сайт преимуществ от вложенных поведенческих моделей.

Стратегическое значение

Патент подтверждает высокий уровень зрелости инфраструктуры машинного обучения Яндекса. Стратегически важно понимать, что анализ поведения пользователей многослоен. Яндекс не просто смотрит на общие метрики (как CTR), но и углубляется в специфические подмножества сигналов (как Long Clicks) с помощью вложенных моделей. Долгосрочная SEO-стратегия должна быть направлена на обеспечение высокого качества пользовательского опыта и реальной удовлетворенности интента, так как именно эти факторы лежат в основе сигналов, используемых такими сложными системами.

Практические примеры

Сценарий: Калибровка классификатора качества контента с использованием вложенных метрик

Предположим, Яндекс использует классификатор для определения «Полезного контента» (Первый класс) против «Бесполезного контента» (Второй класс), используя две вложенные метрики:

Метрика А (Основная): Вероятность полезности на основе всех Кликов.
Метрика Б (Вложенная): Вероятность полезности на основе Длинных кликов.

Система классифицирует контент как Полезный, если (Прогноз А > Порог А) ИЛИ (Прогноз Б > Порог Б).

Процесс калибровки (согласно патенту):

Задача: Найти оптимальные Порог А и Порог Б, чтобы максимизировать Полноту (найти как можно больше полезного контента), сохраняя Точность выше 95%.
Итерация 1: Устанавливаются Порог А=0.8, Порог Б=0.5. Результат: Точность=98%, Полнота=70%.
Итерация 2 (Корректировка): Порог А снижается до 0.7, Порог Б=0.5. Цель — увеличить полноту. Результат: Точность=96%, Полнота=80%.
Итерация 3 (Корректировка): Порог А=0.7, Порог Б снижается до 0.4. Результат: Точность=94%, Полнота=85%.
Выбор: Итерация 2 выбирается как целевая, так как она дает наилучшую полноту (80%) при сохранении требуемой точности (выше 95%).

Как это влияет на SEO: Сайт, который генерирует много средних кликов (Метрика А срабатывает при пороге 0.7), ИЛИ сайт, который генерирует мало, но очень качественных длинных кликов (Метрика Б срабатывает при пороге 0.5), будут классифицированы как Полезные. Это подчеркивает важность работы над вовлеченностью.

Вопросы и ответы

Что такое «вложенные метрики» и почему это важно для SEO?

Вложенные метрики — это набор моделей машинного обучения, которые анализируют взаимосвязанные данные, где один набор данных является подмножеством другого или зависит от него. В патенте приведен ключевой пример для SEO: метрика, основанная на всех «Кликах», и метрика, основанная на «Длинных кликах». «Длинные клики» вложены в «Клики». Это важно, так как показывает, что Яндекс анализирует поведенческие сигналы на разных уровнях детализации, используя специализированные модели для более качественных взаимодействий.

Описывает ли этот патент новый фактор ранжирования?

Нет, этот патент не описывает новые факторы ранжирования. Он описывает методологию (процесс MLOps) для калибровки и оптимизации порогов срабатывания классификаторов, которые используют существующие факторы (например, поведенческие). Это патент о том, как сделать существующие системы более точными и эффективными.

Как именно система определяет, какое сочетание порогов является лучшим?

Система использует итеративный процесс для тестирования множества комбинаций порогов на проверочных данных. Для каждой комбинации рассчитываются Точность (Precision) и Полнота (Recall). Лучшей считается та комбинация, которая соответствует заранее заданным требованиям. Например, цель может состоять в том, чтобы максимизировать Полноту (найти как можно больше релевантных объектов), сохраняя при этом Точность выше определенного минимума (например, 95%).

Что означает логика срабатывания «ИЛИ» в контексте этого патента?

Патент указывает, что если используется несколько вложенных метрик, то объект классифицируется как принадлежащий к первому классу (например, «Качественный»), если прогноз ХОТЯ БЫ ОДНОЙ метрики превышает ее индивидуальный порог. Например: ЕСЛИ (Прогноз по Кликам > Порог А) ИЛИ (Прогноз по Длинным кликам > Порог Б), ТО сайт Качественный. Это делает систему гибкой, позволяя учитывать как общие, так и специфические сильные сигналы.

Какие типы классификаторов Яндекс может настраивать этим методом?

Метод универсален для любой бинарной классификации. В контексте поиска это могут быть классификаторы спама (веб-спам, почтовый спам), системы определения контента для взрослых (SafeSearch), классификаторы мошенничества в e-commerce, а также классификаторы качества сайта (например, компоненты Anti-Quality или Proxima) и релевантности документов.

Как знание об этом патенте должно повлиять на стратегию работы с поведенческими факторами?

Это знание подтверждает необходимость фокусироваться на качестве взаимодействий, а не только на их количестве. Стратегия должна быть направлена на генерацию «Длинных кликов» и удовлетворение интента пользователя. Накрутка простых кликов (коротких взаимодействий) может быть неэффективной, так как специализированные вложенные модели, настроенные на качественные сигналы, не будут активироваться.

Может ли этот механизм привести к внезапным изменениям в выдаче?

Косвенно да. Сам механизм — это процесс калибровки, который происходит офлайн. Однако, когда Яндекс применяет новую, перекалиброванную модель в продакшене (с новыми порогами), это может привести к изменениям в том, как классифицируются сайты. Если пороги стали строже, некоторые сайты могут потерять статус «качественных»; если мягче — наоборот.

Патент упоминает «события объекта». Что это может быть кроме кликов?

Это любые данные, связанные с объектом классификации. Для веб-страницы это могут быть ссылочные данные (например, все входящие ссылки vs. ссылки с авторитетных сайтов), текстовые характеристики, данные о трафике. Для пользователя e-commerce это могут быть все заказы vs. заказы, завершившиеся возвратом или жалобой.

Является ли этот процесс полностью автоматическим?

Да, процесс подбора порогов автоматизирован. Однако исходные параметры — требования к минимальной Точности и Полноте — задаются оператором или бизнес-требованиями. Система автоматически находит оптимальные пороги, соответствующие этим требованиям.

Если мой сайт получает мало трафика, но имеет очень высокий процент длинных кликов, поможет ли это мне, согласно логике патента?

Да, это может помочь. Благодаря логике «ИЛИ» и использованию вложенной метрики для «Длинных кликов», система может классифицировать ваш сайт как качественный или релевантный, даже если общая метрика по всем кликам не срабатывает (из-за малого объема трафика). Если ваша специализированная модель (Длинные клики) превысит свой порог, это приведет к положительной классификации.