Как Яндекс анализирует распределения поведенческих метрик для повышения точности и чувствительности A/B тестов

Яндекс патентует статистический метод для повышения чувствительности A/B тестирования изменений в поиске. Вместо сравнения средних значений поведенческих метрик (например, Dwell Time), система анализирует полное распределение этих метрик. Это позволяет обнаруживать статистически значимые изменения в удовлетворенности пользователей, даже если средние показатели меняются незначительно.

Описание

Какую задачу решает

Патент решает проблему низкой чувствительности (low metric sensitivity) традиционных критериев оценки A/B тестов, основанных на средних значениях (mean values) поведенческих метрик. Средние значения могут оставаться неизменными, даже если распределение поведения пользователей существенно изменилось. Это особенно критично при оценке незначительных обновлений алгоритмов или изменений, затрагивающих лишь малую часть трафика (например, только рекламу), так как их влияние на общие средние показатели может быть незаметным.

Что запатентовано

Запатентован метод обнаружения изменений в интерактивности пользователей (User Interactivity) между двумя версиями SERP в рамках A/B тестирования. Суть изобретения — в анализе полного распределения (Distribution) поведенческих метрик, а не только их средних значений. Метод основан на модели смеси распределений (Mixture Model) и обеспечивает более высокую чувствительность для оценки качества поиска на основе данных (data-driven decisions).

Как это работает

Система сравнивает две версии SERP (A и B) и собирает поведенческие метрики (например, Click Dwell-Time). Для каждой версии вычисляется распределение этих метрик. Затем система анализирует эти распределения совместно: вычисляются отношения (Ratios) между распределениями B и A для каждого значения метрики. Определяются наименьшее (Lowest Ratio, m) и наибольшее (Highest Ratio, M) отношения. Эти экстремумы используются в специальной формуле для вычисления минимальной гарантированной величины изменения (Magnitude of Change, $\alpha^0$). Наконец, проверяется статистическая значимость этой величины (например, с помощью Bootstrapping).

Актуальность для SEO

Высокая. Принятие решений на основе данных и высокочувствительное A/B тестирование являются фундаментом развития современных поисковых систем. Преодоление ограничений средних метрик — постоянная задача. Описанная методология критически важна для точной оценки влияния обновлений алгоритмов ранжирования и изменений интерфейса.

Важность для SEO

Влияние на SEO низкое (3/10), но стратегически важное. Это инфраструктурный и методологический патент. Он не описывает, какие факторы Яндекс использует для ранжирования, но описывает, как Яндекс измеряет влияние изменений этих факторов на поведение пользователей. Патент подтверждает, что Яндекс обладает высокоточными инструментами для оценки удовлетворенности пользователей и смотрит глубже простых средних показателей.

Детальный разбор

Термины и определения

A/B Testing (A/B Тестирование): Метод сравнения двух вариантов сервиса (Control — текущая версия, Treatment — новая версия) путем показа их разным группам пользователей.
Distribution (Распределение, Da, Db): Частотное распределение измеренных показателей взаимодействия пользователей для версий A и B соответственно.
Highest Ratio (M) (Наибольшее отношение): Максимальное наблюдаемое отношение между распределением B и распределением A (Supremum). Индикатор наибольшего относительного изменения.
Lowest Ratio (m) (Наименьшее отношение): Минимальное наблюдаемое отношение между распределением B и распределением A (Infimum). Индикатор наименьшего относительного изменения.
Magnitude of Change ($\alpha^0$) (Величина изменения): Ключевая метрика патента. Количественная мера изменения интерактивности. Представляет собой минимальную абсолютную величину изменения, рассчитанную на основе m и M.
Mixture Model (Модель смеси распределений): Статистическая модель, предполагающая, что наблюдаемое распределение данных является взвешенной суммой нескольких базовых распределений.
Pair of Distributions (F0, F1) (Пара распределений): Гипотетические базовые распределения в модели смеси. Обычно интерпретируются как распределения «неуспешных» (F0) и «успешных» (F1) взаимодействий.
User Interactions (Взаимодействие пользователей): Поведенческие метрики, выбранные для анализа. Примеры: Click Dwell-Time (время пребывания), количество сессий, Absence-Time (время отсутствия).
Weight Factors (pA, pB) (Весовые факторы): Пропорции распределения F1 в модели смеси для версий A и B соответственно. Изменение интерактивности определяется как $\alpha = pB — pA$.

Ключевые утверждения (Анализ Claims)

Патент защищает конкретный метод анализа результатов A/B тестирования, основанный на сравнении распределений метрик.

Claim 1 (Независимый пункт): Описывает основной метод обнаружения изменения интерактивности.

Представление первой версии SERP первой группе пользователей и второй версии SERP второй группе.
Оценка показателей взаимодействий пользователей заранее выбранного типа (например, Dwell Time) для обеих версий.
Вычисление первого (Da) и второго (Db) распределений этих показателей.
Совместный анализ распределений для определения величины изменения интерактивности, включающий:

Определение набора отношений (Ratios): Db/Da для каждого показателя взаимодействия.
Определение наименьшего (m) и наибольшего (M) отношения в этом наборе.
Определение величины изменения ($\alpha^0$) на основе комбинации m и M.
Определение статистической значимости этой величины.

Если величина статистически значима, делается вывод, что изменение интерактивности произошло.
На основе изменения интерактивности и типа взаимодействия определяется, следует ли использовать вторую версию SERP вместо первой в качестве текущей продакшн-версии.

Claim 6 (Зависимый пункт, в тексте патента нумерация может отличаться от PDF): Конкретизирует Claim 1, указывая точную формулу для расчета величины изменения ($\alpha^0$):

$$ \alpha^{0} = \frac{(M-1)(1-m)}{M-m} $$

Claim 2 (Зависимый пункт): Описывает этап интерпретации результатов.

Вычисление пары распределений (F0, F1) на основе M и m. Это включает декомпозицию (разложение) наблюдаемых распределений (Da и Db) на взвешенные суммы этой пары.
Определение, является ли обнаруженное изменение интерактивности положительным или отрицательным, на основе этой пары распределений (F0, F1). Это делается путем сравнения средних значений F0 и F1 с учетом типа метрики (Claim 6).

Где и как применяется

Изобретение не является частью основного конвейера поиска (Crawling, Indexing, Ranking), а относится к инфраструктуре оценки качества.

QUALITY & GOVERNANCE LAYER (Слой Качества и Метрик)

Метод применяется на платформе A/B-тестирования Яндекса для анализа результатов экспериментов с целью оценки предлагаемых изменений в SERP (изменения алгоритмов ранжирования, интерфейса, рекламы и т.д.).

Взаимодействие с компонентами: Система взаимодействует с логами поведения пользователей (User Interaction Logs) и платформой экспериментов.
Входные данные: Распределения метрик взаимодействия пользователей (например, Dwell Time), сегментированные по группам A (Control) и B (Treatment).
Выходные данные: Квантифицированная величина изменения ($\alpha^0$), ее статистическая значимость (p-value) и интерпретация (положительное/отрицательное изменение).

На что влияет

Принятие решений: Основное влияние — на процесс принятия решений о внедрении изменений в поиск. Метод позволяет более точно определить, улучшает ли изменение качество поиска.
Компоненты SERP: Метод универсален, но особенно полезен, когда изменения затрагивают только часть выдачи (например, только рекламу (ADV) или только органику (ORG)), что затрудняет оценку стандартными метриками.

Когда применяется

Условия: При проведении A/B тестирования для сравнения текущей версии SERP с модифицированной версией.
Триггеры активации: Необходимость оценить влияние изменения с более высокой чувствительностью, чем позволяют традиционные метрики, особенно когда модификация является незначительной (subtle modification).

Пошаговый алгоритм

Процесс анализа результатов A/B теста (Версия A vs Версия B):

Сбор данных: Проведение A/B теста. Сбор измерений заранее выбранного типа взаимодействия (например, Click Dwell-Time) для пользователей в группах A и B.
Вычисление распределений: Вычисление распределения измерений для группы A ($D_a(x)$) и группы B ($D_b(x)$). Может включать дискретизацию измерений по интервалам (bins).
Определение отношений (Ratios): Для каждого значения измерения (x) вычисляется отношение между распределениями: $R(x) = \frac{D_{b}(x)}{D_{a}(x)}$.
Определение экстремумов (m и M):
- Определение Наименьшего отношения (m): $m=inf~x\in X\frac{D_{b}(x)}{D_{a}(x)}$ (точная нижняя грань R(x)).
- Определение Наибольшего отношения (M): $M=sup~x\in X\frac{D_{b}(x)}{D_{a}(x)}$ (точная верхняя грань R(x)).
Расчет величины изменения ($\alpha^0$): Вычисление минимальной абсолютной величины изменения интерактивности по формуле:
$$\alpha^{0}=\frac{(M-1)(1-m)}{M-m}$$
Определение статистической значимости: Проверка гипотезы о том, что $\alpha^0$ значимо отличается от нуля. Используются статистические тесты, такие как тест Колмогорова-Смирнова (Kolmogorov-Smirnov test) или комбинация бутстрэппинга (bootstrapping technique) с одновыборочным t-тестом (one sample t-test).
Интерпретация (если значимо):
1. Реконструкция пары распределений $F_0$ (неуспешные) и $F_1$ (успешные) на основе $\alpha^0$ и соответствующих весовых коэффициентов.
2. Сравнение средних значений $F_0$ и $F_1$.
3. Определение знака изменения (положительное/отрицательное) на основе того, увеличилась ли доля распределения с «лучшим» средним значением (например, более высоким Dwell Time).

Какие данные и как использует

Данные на входе

Система использует исключительно Поведенческие факторы, собранные в ходе экспериментов.

Конкретные типы взаимодействий, упомянутые в патенте:
- Количество сессий (# OF SESSIONS).
- Время пребывания на сайте после клика (CLICK DWELL-TIME).
- Время отсутствия (ABSENCE-TIME).
Другие возможные взаимодействия: Клики на SERP, переходы на другие веб-страницы с SERP, отправленные запросы, время, проведенное на SERP.

Какие метрики используются и как они считаются

Ключевая идея патента — это математическая модель (Mixture Model), которая предполагает, что наблюдаемое распределение поведения ($D$) является взвешенной суммой двух скрытых распределений: $F_1$ (успешные) и $F_0$ (неуспешные).

$$D(x)=pF_{1}(x)+(1-p)F_{0}(x)$$

Цель метода — оценить разницу в доле успешных взаимодействий (p) между версией A и версией B. Эта разница и есть Величина изменения ($\alpha$):

$$\alpha=p_{B}-p_{A}$$

Система вычисляет минимально возможное абсолютное значение $\alpha$ (обозначаемое как $\alpha^0$), которое может объяснить разницу между наблюдаемыми распределениями $D_A$ и $D_B$.

Ключевые метрики:

m (Lowest Ratio) и M (Highest Ratio).
$\alpha^0$ (Magnitude of Change): Рассчитывается по формуле, приведенной выше (см. Пошаговый алгоритм, шаг 5).

Статистические методы:

Для определения значимости используются Kolmogorov-Smirnov test и Bootstrapping в сочетании с one sample t-test.

Выводы

Патент описывает внутреннюю методологию Яндекса для A/B тестирования, а не алгоритм ранжирования. Он не дает прямых рекомендаций для SEO, но позволяет понять, как Яндекс оценивает изменения в поиске.
Яндекс признает недостаточность средних значений. Система приоритезирует высокую чувствительность метрик, понимая, что средние значения (например, средний Dwell Time) не всегда отражают реальные изменения в удовлетворенности пользователей.
Анализ полного распределения. Ключевым является анализ всего спектра поведенческих метрик. Изменение в форме распределения (например, уменьшение коротких кликов и увеличение длинных) может быть зафиксировано, даже если среднее значение не изменилось.
Модель успешных/неуспешных взаимодействий. Методология предполагает, что взаимодействия можно смоделировать как смесь «успешных» (F1) и «неуспешных» (F0) поведенческих паттернов. Улучшение качества поиска интерпретируется как сдвиг пропорции в сторону F1.
Обнаружение тонких изменений. Эта методология позволяет Яндексу обнаруживать незначительные улучшения (или ухудшения) качества поиска, которые могли бы быть пропущены при использовании традиционных методов.

Практика

Best practices (это мы делаем)

Патент в основном инфраструктурный, но дает важные стратегические инсайты, подтверждающие важность работы над поведенческими факторами.

Максимизация успешных взаимодействий (F1): Сосредоточьтесь на том, чтобы контент полностью решал задачу пользователя. Это приводит к «успешным» сигналам, таким как адекватно длинные клики (высокий Dwell Time) и завершенные сессии.
Минимизация неуспешных взаимодействий (F0): Работайте над снижением показателей отказов и быстрых возвратов на выдачу (pogo-sticking). Это «неуспешные» сигналы, долю которых Яндекс стремится уменьшить.
Оптимизация распределения, а не среднего: Обеспечивайте стабильно высокое качество пользовательского опыта для всех посетителей. Важно не просто иметь высокий средний показатель за счет выбросов, а сместить все распределение в сторону более успешных взаимодействий, минимизируя количество очень плохих сессий.

Worst practices (это делать не надо)

Манипуляции со средними показателями: Попытки искусственно завысить среднее время на сайте (например, с помощью запутанной навигации), которые при этом увеличивают долю разочарованных пользователей (увеличивают $F_0$), могут быть обнаружены этой чувствительной метрикой как негативное изменение.
Игнорирование тонких изменений в поведении. Предполагать, что незначительные проблемы с UX не будут замечены Яндексом. Этот патент доказывает, что у них есть методы для обнаружения даже самых тонких сдвигов в поведении пользователей.
Кликбейт и несоответствие сниппета контенту: Привлечение трафика, который быстро уходит, увеличивает долю коротких кликов (F0). Это негативно скажется на распределении поведенческих метрик.

Стратегическое значение

Патент подтверждает приверженность Яндекса разработке, основанной на данных, и центральную роль поведенческих метрик в оценке качества поиска. Он демонстрирует уровень математической сложности, применяемый для валидации алгоритмов ранжирования. Для SEO это означает, что долгосрочная стратегия должна быть направлена на реальное улучшение пользовательского опыта и удовлетворение интента, поскольку Яндекс постоянно совершенствует свою способность точно измерять эту удовлетворенность.

Практические примеры

Патент описывает внутреннюю методологию статистики, поэтому прямых примеров SEO-тактик нет. Ниже приведен пример того, как Яндекс может использовать этот метод внутри компании.

Сценарий: Оценка нового алгоритма ранжирования Яндексом

Задача: Яндекс тестирует новый алгоритм ранжирования (Версия B) против текущего (Версия A). Метрика оценки — Click Dwell-time.
Традиционный подход (Средние значения): Средний Dwell-time для A = 120 сек. Средний Dwell-time для B = 121 сек. Разница статистически незначима. Вывод: Алгоритм не лучше.
Подход по патенту (Анализ распределений):
- Система обнаруживает, что в Версии B уменьшилось количество очень коротких кликов (0-10 сек) и увеличилось количество длинных кликов (5+ минут), но немного уменьшилось количество средних кликов.
- Система рассчитывает m и M, затем вычисляет величину изменения $\alpha^0$.
- Бутстрэппинг показывает, что это изменение $\alpha^0$ статистически значимо (p-value < 0.001).
Интерпретация: Система реконструирует $F_1$ (успешные) и $F_0$ (неуспешные). Она видит, что вклад $F_1$ увеличился. Вывод: Алгоритм B значительно изменил поведение пользователей в лучшую сторону, несмотря на отсутствие изменения среднего значения.

Вопросы и ответы

Описывает ли этот патент новый фактор ранжирования?

Нет, этот патент не описывает фактор ранжирования. Он описывает статистический метод, который Яндекс использует для анализа результатов A/B тестов. Этот метод позволяет более точно определить, повлияло ли какое-либо изменение в поиске (например, новая формула ранжирования или новый дизайн SERP) на поведение пользователей.

В чем основной недостаток традиционного A/B тестирования, который устраняет этот патент?

Основной недостаток — низкая чувствительность метрик, основанных на средних значениях (mean values). Среднее значение может оставаться неизменным, даже если распределение базовых данных существенно изменилось. Например, если улучшение для одной группы пользователей и ухудшение для другой компенсируют друг друга, среднее значение не изменится, но этот патент позволяет обнаружить такие изменения в распределении.

Что на практике означает «анализ распределения»?

Вместо того чтобы смотреть на одну цифру (например, среднее время на сайте 2 минуты), анализируется весь спектр данных: сколько пользователей провели 10 секунд, сколько 30 секунд, сколько 5 минут и так далее. Затем сравнивается, как эта картина (распределение) выглядит для версии A и версии B. Это дает гораздо более полную информацию о поведении пользователей.

Что такое F0 и F1 (Пара распределений)?

F0 и F1 — это гипотетические базовые распределения. F0 обычно интерпретируется как распределение «неуспешных» взаимодействий (например, короткий Dwell Time, быстрый возврат к выдаче), а F1 — как распределение «успешных» взаимодействий (например, длительное изучение контента). Метод предполагает, что реальные данные являются смесью F0 и F1, и улучшение качества поиска — это увеличение доли F1 в этой смеси.

Какие поведенческие метрики Яндекс использует в этом анализе?

Метод универсален. В патенте явно упоминаются Click Dwell-Time (время пребывания после клика), Absence-Time (время отсутствия) и количество сессий (# of sessions). На практике могут использоваться и другие метрики, связанные с кликами, временем и удовлетворенностью пользователей.

Как это должно изменить мой подход к SEO и аналитике сайта?

Это подчеркивает необходимость смотреть за пределы средних значений. Ваша цель — не просто увеличить среднее время, а систематически уменьшать долю неуспешных визитов (отказов) и увеличивать долю визитов с высокой вовлеченностью. Стратегия должна фокусироваться на реальном удовлетворении пользователя, так как у Яндекса есть чувствительные инструменты для его измерения.

Означает ли это, что Яндекс может обнаружить очень тонкие изменения в поведении пользователей?

Да, именно это и является целью патента. Описанный метод обладает более высокой статистической чувствительностью по сравнению с традиционными методами. Это позволяет Яндексу обнаруживать даже незначительные изменения в поведении пользователей, вызванные изменениями в алгоритмах ранжирования или интерфейсе SERP.

Что такое $\alpha^0$ (Magnitude of Change)?

$\alpha^0$ — это количественная мера того, насколько сильно изменилось распределение поведения пользователей между двумя версиями SERP. Математически, это минимально возможная разница в доле «успешных» взаимодействий, которая может объяснить наблюдаемые данные. Если $\alpha^0$ статистически значимо отличается от нуля, значит, изменение реально.

Если среднее время на моем сайте увеличивается, это всегда хорошо согласно этому методу?

Не обязательно. Метод анализирует, за счет чего произошло изменение. Если увеличилось время успешных взаимодействий (F1), это хорошо. Но если увеличилось время «неуспешных» взаимодействий (F0) — например, пользователи стали дольше искать нужную информацию на странице из-за плохой навигации — метод может определить это как отрицательное изменение, даже если среднее время выросло.

Поможет ли этот метод Яндексу бороться с накруткой поведенческих факторов?

Косвенно, да. Поскольку метод анализирует все распределение поведения, неестественные паттерны, вызванные накруткой (например, слишком много кликов с одинаковой, неестественной длительностью), могут резко изменить форму распределения. Это может быть обнаружено при детальном анализе или при использовании этого метода для оценки алгоритмов антифрода.