Как Яндекс комбинирует метрики для точной оценки качества поиска при A/B тестировании алгоритмов

Яндекс патентует метод для повышения точности оценки изменений в поиске (например, новых алгоритмов ранжирования). Система объединяет два типа метрик: интерпретируемые (показывающие направление изменения – лучше/хуже, например DAU) и чувствительные (показывающие магнитуду изменения, например CTR). Это позволяет Яндексу быстрее и точнее определять, какие изменения действительно улучшают взаимодействие пользователей с сервисом.

Описание

Какую задачу решает

Патент решает фундаментальную проблему оценки качества при проведении A/B тестов (например, при тестировании новых формул ранжирования). Проблема заключается в конфликте между двумя ключевыми требованиями к метрикам:

Интерпретируемость (Directionality): Метрика должна четко показывать направление изменения – улучшился ли сервис или ухудшился.
Чувствительность (Sensitivity): Метрика должна статистически значимо детектировать даже небольшие изменения.

Часто метрики с хорошей интерпретируемостью (например, DAU — Daily Active Users) недостаточно чувствительны для обнаружения тонких изменений. Метрики с высокой чувствительностью (например, CTR) могут быть неоднозначными в плане направления (рост CTR не всегда означает улучшение качества). Патент предлагает метод преодоления этого конфликта.

Что запатентовано

Запатентован метод генерации Комбинированного Метрического Параметра (Combined Metric Parameter) для A/B тестирования. Суть изобретения заключается в создании новой метрики путем линейной комбинации двух существующих: одной, отвечающей за направление (Directionality, $M_1$), и второй, отвечающей за чувствительность (Sensitivity, $M_2$). Система определяет оптимальные весовые коэффициенты для этой комбинации, чтобы итоговая метрика одновременно обладала высокой чувствительностью и четкой интерпретируемостью.

Как это работает

Система использует данные прошлых A/B тестов с известным исходом для обучения. Она берет две метрики, например, DAU ($M_1$) и CTR ($M_2$). Цель — создать комбинированную метрику $M_C = c_1 \cdot M_1 + c_2 \cdot M_2$. Система оптимизирует веса ($c_1$ и $c_2$) таким образом, чтобы максимизировать статистическую значимость (Z-score) комбинированной метрики, сохраняя при этом направление, заданное $M_1$. Это достигается с помощью сложных вычислений, включающих ковариационные матрицы и использование оптимизационных алгоритмов (например, BFGS), для нахождения минимального веса для $M_1$ и максимального веса для $M_2$. Полученная метрика используется для оценки новых экспериментов.

Актуальность для SEO

Высокая. A/B тестирование является основой для развития поисковых систем. Повышение точности и скорости оценки экспериментов критически важно для внедрения улучшений в ранжирование. Описанный метод позволяет Яндексу более эффективно оценивать влияние изменений алгоритмов на пользовательский опыт, что напрямую связано с эволюцией поиска в 2025 году.

Важность для SEO

Влияние на SEO значительное, но косвенное (7/10). Этот патент не описывает фактор ранжирования. Он описывает методологию, с помощью которой Яндекс оценивает и принимает решения о внедрении изменений в алгоритмы. Понимание этой методологии критически важно для Senior SEO, так как она определяет, какие именно изменения в поведении пользователей Яндекс считает улучшением качества. Если Яндекс может точнее измерять успех, он будет быстрее внедрять алгоритмы, которые оптимизируют именно эти комбинированные метрики пользовательского удовлетворения.

Детальный разбор

Термины и определения

A/B Testing (A/B тестирование): Метод сравнения двух версий сервиса (Control и Treatment) путем разделения пользователей на две группы для оценки влияния изменений.
BFGS (Broyden–Fletcher–Goldfarb–Shanno algorithm): Итеративный алгоритм оптимизации. Используется в патенте для нахождения оптимальных весовых коэффициентов ($c_1$, $c_2$).
Combined Metric Parameter (Комбинированный Метрический Параметр, $M_C$): Новая метрика, созданная путем линейной комбинации двух или более существующих метрик (например, $M_1$ и $M_2$) с использованием весовых коэффициентов ($c_1$, $c_2$).
Covariance Matrix (Ковариационная матрица, COV): Матрица, используемая для оценки взаимосвязи между различными метриками (например, между $M_1$ и $M_2$). Используется при расчете Z-score комбинированной метрики.
Directionality (Направленность / Интерпретируемость): Свойство метрики четко указывать, является ли изменение положительным или отрицательным для пользовательского опыта. Метрики с высокой Directionality (например, DAU) используются как $M_1$.
LDA (Linear Discriminant Analysis, Линейный Дискриминантный Анализ): Статистический метод, используемый для нахождения линейной комбинации признаков, которая наилучшим образом разделяет два класса (в данном случае, версии A и B). Упоминается как основа подхода.
Sensitivity (Чувствительность): Способность метрики статистически значимо детектировать разницу между версиями A и B, когда эффект от изменения существует. Квантифицируется через Z-score. Метрики с высокой Sensitivity (например, CTR) используются как $M_2$.
Weight Parameter (Весовой параметр, $c_1$, $c_2$): Коэффициенты, определяющие относительный вклад каждой исходной метрики ($M_1$, $M_2$) в комбинированную метрику ($M_C$).
Z-score (Z-статистика): Статистическая мера, указывающая на уровень значимости различий между средними значениями метрики в группах A и B. Используется как мера чувствительности метрики.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методологии создания оптимальной комбинированной метрики для оценки A/B тестов.

Claim 1 (Независимый пункт): Описывает полный процесс генерации комбинированного метрического параметра.

Сервер получает данные A/B теста для контрольной (A) и тестовой (B) версий.
Сервер получает Первый метрический параметр ($M_1$). Комбинация $M_{1A}$ и $M_{1B}$ указывает на направление (Directionality) изменения (положительное или отрицательное влияние на пользовательский опыт).
Сервер получает Второй метрический параметр ($M_2$). Комбинация $M_{2A}$ и $M_{2B}$ указывает на магнитуду (Sensitivity) изменения.
Генерация комбинированного параметра ($M_C$) включает:

Вычисление Весовых параметров ($c_1, c_2$).
Ключевой шаг оптимизации: Выбор минимального $c_1$ (вес направленной метрики) и максимального $c_2$ (вес чувствительной метрики).
Формирование комбинированных метрик (например, $M_{CA} = c_1 M_{1A} + c_2 M_{2A}$).

Результат: Комбинация $M_{CA}$ и $M_{CB}$ одновременно указывает и на магнитуду, и на направление изменения во взаимодействиях пользователей.

Claim 5 (Зависимый пункт): Уточняет, как определяется направление изменения (Directionality) с помощью $M_1$.

Направление определяется знаком разницы между $M_{1B}$ и $M_{1A}$ для каждой единицы времени (например, дня) в тестовом периоде:

$$ \Delta_{i}=sign(M_{1Bi}-M_{1Ai}) $$

Claim 6 (Зависимый пункт): Уточняет, как измеряется чувствительность комбинированной метрики с помощью взвешенного Z-score.

Для каждой единицы времени вычисляется взвешенный Z-score, который показывает уровень уверенности в магнитуде изменения. Формула использует вектор весов $c =$ и ковариационные матрицы (COV) для версий A и B:

$$ Z_{ABi}(c_{1},c_{2})=\frac{c^{T}\cdot M_{CA}^{i}-c^{T}\cdot M_{CB}^{i}}{\sqrt{c^{T}\cdot COV_{A}^{i}\cdot c+c^{T}\cdot COV_{B}^{i}\cdot c}} $$

Claim 8 (Зависимый пункт): Описывает целевую функцию для оптимизации весов $c_1$ и $c_2$.

Система ищет такие $c_1$ и $c_2$, которые максимизируют сумму произведений Z-score (магнитуда, из Claim 6) и знака разницы $M_1$ (направление, из Claim 5) по всем временным периодам (N). Это гарантирует, что высокая чувствительность согласована с правильным направлением.

$$ \sum_{i=1}^{N}Z_{AB_{i}}(c_{1},c_{2})\cdot sign(M_{1_{Bi}}-M_{1_{Ai}})=\frac{avg(M_{CB})-avg(M_{CA})}{\sqrt{var[avg(M_{CB})-avg(M_{CA})]}} $$

Где и как применяется

Изобретение применяется не в процессе поиска в реальном времени, а в инфраструктуре анализа данных и контроля качества.

QUALITY & GOVERNANCE LAYER (Слой Качества и Метрик)

Это основная область применения патента. Яндекс использует различные метрики (включая, вероятно, Proxima и Профицит) для оценки качества поиска и принятия решений о запуске новых алгоритмов. Описанный метод является инструментом для создания и калибровки этих оценочных метрик.

Взаимодействие с A/B платформой: Система получает данные от платформы, на которой проводятся эксперименты по сравнению различных версий поиска.
Оценка алгоритмов RANKING: Когда тестируется изменение на слое ранжирования (L1-L4), этот метод используется для определения, улучшает ли это изменение пользовательский опыт статистически значимо и в правильном ли направлении.

Входные данные:

Исторические данные A/B тестов с известным исходом (Ground Truth).
Векторы признаков пользовательских взаимодействий для Контрольной и Тестовой групп.
Определенные метрики $M_1$ (Directionality) и $M_2$ (Sensitivity).

Выходные данные:

Оптимальные весовые параметры ($c_1$ и $c_2$).
Combined Metric Parameter ($M_C$), готовый к использованию для оценки будущих A/B тестов.

На что влияет

Патент влияет на скорость и точность эволюции поисковой системы Яндекс.

Все типы контента и запросов: Методология универсальна и может применяться для оценки качества поиска по любым типам запросов и для любых типов контента, так как она оперирует общими метриками пользовательского взаимодействия.
Внедрение тонких улучшений: Позволяет Яндексу детектировать небольшие (subtle), но положительные изменения в алгоритмах, которые могли бы быть пропущены при использовании менее чувствительных метрик.
Защита от ложных сигналов: Предотвращает внедрение изменений, которые повышают чувствительные метрики (например, CTR), но ухудшают общую удовлетворенность (Directionality).

Когда применяется

Алгоритм применяется в двух фазах:

Фаза Обучения/Калибровки (Офлайн): Применяется к данным завершенных A/B тестов для вычисления оптимальных весов $c_1$ и $c_2$ и создания Combined Metric Parameter.
Фаза Применения (Анализ): Сгенерированный Combined Metric Parameter применяется для оценки текущих A/B тестов, чтобы принять решение о запуске нового алгоритма в продакшн.

Пошаговый алгоритм

Процесс генерации Комбинированного Метрического Параметра (Фаза Обучения).

Сбор данных (Обучающая выборка): Сервер получает исторические данные A/B теста (Контроль A vs Тест B) с известным исходом.
Определение Метрик: Выбирается Метрика $M_1$ (Directionality, например, DAU) и Метрика $M_2$ (Sensitivity, например, CTR).
Вычисление Вспомогательных Параметров: Для каждой единицы времени (например, дня $i$) вычисляются:
- Направление изменения: $sign(M_{1Bi} — M_{1Ai})$.
- Ковариационные матрицы ($COV_{Ai}$ и $COV_{Bi}$) между $M_1$ и $M_2$ для каждой группы.
Оптимизация Весовых Параметров ($c_1, c_2$):
- Определяется целевая функция: максимизация общей чувствительности (суммарный Z-score) при сохранении согласованности с направлением ($M_1$). (См. формулу в анализе Claim 8).
- Используется оптимизационный алгоритм (например, BFGS) для нахождения весов $c_1$ и $c_2$, которые удовлетворяют целевой функции.
Выбор Оптимальных Весов: Выбирается решение, которое дает минимальный вес $c_1$ (для $M_1$) и максимальный вес $c_2$ (для $M_2$), сохраняя при этом общую эффективность. (Часто при условии, что $c_1 + c_2 = 1$).
Генерация Комбинированной Метрики: Формируется финальный Combined Metric Parameter $M_C = c_1 M_1 + c_2 M_2$.

Какие данные и как использует

Данные на входе

Система использует исключительно Поведенческие факторы, собранные в ходе A/B тестирования. Они представлены в виде Feature Vectors, из которых извлекаются конкретные метрики взаимодействия. Патент упоминает конкретные примеры метрик:

Daily Active Users (DAU): Пример метрики для Directionality ($M_1$).
Click-Through Rate (CTR): Пример метрики для Sensitivity ($M_2$).
Другие возможные метрики (упомянутые в описании): Sessions, Absence Time (время отсутствия между сессиями), Session Time, Queries, Clicks, Clicks per Query, Average query success rate (например, клик + пребывание > 30 сек) и другие.

Патент не использует контентные, ссылочные, технические или другие группы факторов, так как он описывает систему измерения, а не ранжирования.

Какие метрики используются и как они считаются

Система вычисляет несколько ключевых статистических показателей для оптимизации.

Среднее значение (Average, avg) и Дисперсия (Variance, var): Используются для оценки значений метрик и их разброса.
Ковариационная матрица (Covariance Matrix, COV): Рассчитывается между $M_1$ и $M_2$. Это необходимо для понимания взаимосвязи между метриками при расчете Z-score комбинированной метрики.
Z-score (Z-статистика): Основная мера чувствительности. Рассчитывается по стандартной формуле и в виде взвешенного Z-score для комбинированной метрики.
Sign (Знак разницы): Используется для определения направления изменения на основе метрики $M_1$.

Методы оптимизации: Патент явно упоминает использование алгоритма Broyden-Fletcher-Goldfarb-Shanno (BFGS), градиентных или эвристических алгоритмов для нахождения оптимальных весовых параметров. Также упоминается подход, основанный на Linear Discriminant Analysis (LDA).

Выводы

Яндекс системно подходит к измерению качества: Патент демонстрирует сложную инфраструктуру для оценки влияния изменений в поиске. Качество измеряется не одной метрикой, а их оптимальной комбинацией, основанной на строгих статистических методах.
Баланс между вовлеченностью и лояльностью: Система стремится найти баланс между долгосрочной лояльностью (метрики Directionality, например, DAU) и краткосрочными взаимодействиями (метрики Sensitivity, например, CTR).
Приоритет интерпретируемости: Хотя цель — максимизировать чувствительность ($M_2$), система жестко привязывает ее к направлению, заданному интерпретируемой метрикой ($M_1$). Это значит, что Яндекс не примет изменение, которое увеличивает CTR, если оно негативно сказывается на основной метрике удовлетворенности.
Ускорение эволюции поиска: Более точные и чувствительные комбинированные метрики позволяют Яндексу быстрее проводить A/B тесты и обнаруживать даже незначительные улучшения в алгоритмах ранжирования, что ускоряет общее развитие поисковой системы.
Сложность оценки Поведенческих Факторов: Для SEO это подтверждает, что Яндекс оперирует сложными агрегированными поведенческими метриками, а не просто CTR или временем на сайте в их сыром виде.

Практика

Best practices (это мы делаем)

Хотя патент описывает внутреннюю методологию оценки Яндекса, он дает важные стратегические ориентиры для SEO.

Фокус на комплексном удовлетворении пользователя: Необходимо оптимизировать сайт так, чтобы улучшались как метрики взаимодействия (CTR, глубина просмотра), так и метрики лояльности (возвращаемость пользователей, успешное решение задачи). Яндекс стремится оптимизировать комбинацию этих сигналов.
Оптимизация сниппетов для релевантных кликов, а не просто высокого CTR: Поскольку система валидирует CTR (чувствительная метрика) через метрики удовлетворенности (направляющая метрика), кликбейт становится рискованной стратегией. Сниппеты должны точно отражать контент, чтобы привлекать пользователей, чья задача будет решена.
Построение долгосрочной стратегии контента и UX: Создание качественного контента и улучшение UX, которые стимулируют повторные визиты и формируют лояльность аудитории (улучшает метрики типа DAU или возвращаемости), критически важно, так как эти метрики задают «правильное направление» для оценки качества Яндексом.

Worst practices (это делать не надо)

Оптимизация «чувствительных» метрик в ущерб качеству: Попытки искусственно завысить CTR (кликбейт) или другие метрики взаимодействия без реального улучшения пользовательского опыта. Яндекс использует направляющие метрики ($M_1$), чтобы отфильтровать такие ложноположительные сигналы.
Игнорирование долгосрочных поведенческих сигналов: Фокусировка только на получении клика здесь и сейчас без работы над тем, чтобы пользователь вернулся на сайт или успешно завершил сессию.
Краткосрочные тактики и накрутка ПФ: Если рост метрик взаимодействия (которые часто пытаются накрутить) не сопровождается ростом метрик удовлетворенности и лояльности, система оценки Яндекса может интерпретировать это как негативный сигнал или шум.

Стратегическое значение

Патент подтверждает стратегический приоритет Яндекса на data-driven подход к развитию поиска, основанный на точном измерении пользовательского удовлетворения. Он показывает, что Яндекс инвестирует значительные ресурсы в инфраструктуру оценки качества. Для SEO это означает, что поисковая система становится все более сложной в определении того, что такое «хороший сайт». Долгосрочная стратегия должна быть направлена на реальное улучшение пользовательского опыта во всех его аспектах – от первого клика до повторного визита.

Практические примеры

Сценарий: Оценка нового алгоритма ранжирования (Алгоритм X) Яндексом

Тестирование: Яндекс запускает A/B тест. Группа A видит старую выдачу, Группа B видит выдачу по Алгоритму X.
Измерение Метрик:
- $M_1$ (Directionality, например, Доля успешных сессий или DAU): Увеличилась на +0.1% (статистически незначимо). Направление положительное.
- $M_2$ (Sensitivity, например, CTR на Топ-3): Увеличился на +2.0% (статистически значимо).
Проблема (Стандартный подход): Аналитики не уверены. CTR вырос, но основная метрика качества ($M_1$) не показала значимого роста.
Применение патента: Система использует Combined Metric Parameter ($M_C$), который был заранее обучен комбинировать $M_1$ и $M_2$ (например, $M_C = 0.3 M_1 + 0.7 M_2$).
Результат: Комбинированная метрика $M_C$ показывает статистически значимый рост (высокий Z-score, унаследованный от $M_2$) и положительное направление (согласованное с $M_1$).
Вывод для Яндекса: Алгоритм X успешно внедряется.
Вывод для SEO: Сайты, которые обеспечивают и хороший CTR, и успешные сессии (долгосрочное удовлетворение), получают преимущество в новой выдаче.

Вопросы и ответы

Что такое Directionality (Направленность) и Sensitivity (Чувствительность) метрик?

Directionality — это способность метрики четко показывать, стало лучше или хуже (например, рост DAU — хорошо, падение — плохо). Sensitivity — это способность метрики статистически значимо улавливать даже небольшие изменения между тестовой и контрольной группами, измеряется через Z-score. Проблема в том, что часто эти два свойства конфликтуют: интерпретируемые метрики нечувствительны, а чувствительные — неоднозначны.

В чем суть патента простыми словами?

Яндекс разработал математический метод, который берет две метрики — одну понятную, но «слабую» (например, DAU), и вторую «сильную», но неоднозначную (например, CTR), — и объединяет их в одну супер-метрику. Эта новая комбинированная метрика обладает и силой (чувствительностью), и понятностью (направленностью). Это позволяет точнее оценивать результаты A/B тестов алгоритмов ранжирования.

Является ли эта комбинированная метрика новым фактором ранжирования?

Нет, это не фактор ранжирования. Это инструмент, с помощью которого Яндекс оценивает, стоит ли внедрять НОВЫЕ факторы ранжирования или изменять старые. Патент описывает методологию оценки успеха экспериментов. Однако эта методология напрямую влияет на то, какие именно алгоритмы (и, следовательно, сигналы) будут в итоге использоваться в поиске.

Как этот патент влияет на мою SEO-стратегию?

Он подтверждает необходимость комплексного подхода к оптимизации поведенческих факторов. Нельзя фокусироваться только на CTR или только на времени на сайте. Важно обеспечивать и высокую вовлеченность в рамках сессии (Sensitivity), и долгосрочную лояльность/удовлетворенность (Directionality). Яндекс измеряет и оптимизирует именно эту комбинацию.

Почему Яндекс стремится минимизировать вес метрики Directionality ($c_1$) и максимизировать вес Sensitivity ($c_2$)?

Цель A/B теста — обнаружить изменения. Чем выше чувствительность, тем меньше данных и времени нужно для обнаружения эффекта. Поэтому система стремится максимально использовать вклад чувствительной метрики ($M_2$, максимальный $c_2$). Однако вес метрики направления ($M_1$, минимальный $c_1$) должен оставаться достаточным, чтобы гарантировать, что обнаруженное изменение интерпретируется в правильном направлении (лучше/хуже).

Какие метрики Яндекс может использовать в качестве $M_1$ (Directionality) и $M_2$ (Sensitivity)?

Патент приводит примеры: $M_1$ (Directionality) — Daily Active Users (DAU). $M_2$ (Sensitivity) — Click-Through Rate (CTR). Также упоминаются Sessions, Absence Time, Query Success Rate. Как правило, $M_1$ связана с лояльностью и общей удовлетворенностью, а $M_2$ — с активностью в рамках непосредственного взаимодействия с сервисом.

Значит ли это, что кликбейт теперь менее эффективен?

Да, это подразумевается методологией. Кликбейт может повысить чувствительную метрику (CTR). Однако, если он не приводит к улучшению направляющей метрики (например, пользователи разочаровываются и уходят, снижая DAU или долю успешных сессий), комбинированная метрика не покажет улучшения. Система защищает от внедрения изменений, основанных на ложноположительных сигналах CTR.

Как система определяет оптимальные веса для комбинации метрик?

Она использует исторические данные прошлых A/B тестов, где результат уже известен (Ground Truth). Затем применяется сложная математическая оптимизация (упоминается алгоритм BFGS и LDA), которая максимизирует Z-score (чувствительность) комбинированной метрики, гарантируя, что ее направление совпадает с направлением метрики $M_1$. В расчетах используются ковариационные матрицы.

Как это связано с метриками Proxima и Профицит?

Proxima и Профицит — это известные метрики качества Яндекса. Описанный в патенте метод является универсальным инструментом, который может использоваться для создания или улучшения таких метрик. Возможно, Профицит сам по себе является результатом применения подобной методологии комбинирования различных сигналов пользовательского взаимодействия.

Помогает ли этот патент бороться с накруткой поведенческих факторов (ПФ)?

Косвенно да. Накрутка ПФ часто нацелена на чувствительные метрики (например, CTR). Если эти искусственные улучшения не коррелируют с метриками долгосрочной лояльности (направленными метриками, которые сложнее накрутить), то комбинированный параметр, используемый Яндексом для оценки качества, не покажет значимого улучшения. Это делает простую накрутку менее эффективной.