Яндекс патентует механизм, который сравнивает фактическое качество сайта (Raw Quality Score), основанное на согласованности поведенческих метрик и лояльности пользователей, с эталонным качеством (Reference Score), ожидаемым для его уровня трафика. При обнаружении отклонения от эталонной кривой тренда система корректирует оценку ранжирования (Adjusted Quality Score), чтобы привести будущий трафик и качество сайта к балансу.
Описание
Какую задачу решает
Патент решает задачу точной оценки и ранжирования веб-ресурсов путем сопоставления их качества и посещаемости. Он направлен на устранение проблемы «холодного старта», когда новым, даже качественным сайтам, сложно занять высокие позиции из-за отсутствия исторических данных (например, CTR). Также система решает задачу нормализации ранжирования, гарантируя, что уровень трафика сайта соответствует его воспринимаемому качеству, и корректируя позиции при обнаружении дисбаланса.
Что запатентовано
Запатентована система корректировки оценки качества веб-ресурса для целей ранжирования. Суть изобретения заключается в сравнении «сырой» оценки качества (Raw Quality Score), основанной на согласованности статистических признаков, с эталонной оценкой (Reference Score), ожидаемой для текущего уровня трафика сайта. Эталонная оценка определяется по кривой тренда (Trend Curve). При наличии расхождения применяется формула корректировки смещения (Offset Adjustment Formula) для получения скорректированной оценки (Adjusted Quality Score), которая используется в ранжировании.
Как это работает
Система сначала рассчитывает Raw Quality Score. Это делается не простым суммированием факторов, а путем оценки того, насколько хорошо различные поведенческие признаки (например, возвращаемость, прямой трафик) согласуются друг с другом с помощью предиктивных алгоритмов. Затем система определяет Reference Score — ожидаемое качество для текущего трафика сайта, используя предварительно построенную логарифмическую Trend Curve. Если Raw Score отличается от Reference Score, применяется Offset Adjustment Formula для расчета Adjusted Quality Score. Эта оценка используется для ранжирования в SERP, влияя на будущий трафик и стремясь привести будущие оценки качества и трафика к балансу на кривой тренда.
Актуальность для SEO
Высокая. Патент опубликован в 2023 году. Использование сложных поведенческих метрик для оценки качества (концептуально близко к метрикам Proxima) и механизмы динамической корректировки ранжирования для обеспечения баланса качества и трафика являются центральными задачами современных поисковых систем.
Важность для SEO
Влияние на SEO значительно (8/10). Патент описывает конкретный механизм, который нормализует сигналы качества относительно объема трафика. Он напрямую влияет на ранжирование, подчеркивая важность не просто привлечения трафика, а формирования лояльной аудитории и обеспечения согласованности всех поведенческих метрик. Система может как способствовать росту качественных сайтов с низким трафиком, так и сдерживать выбросы или пессимизировать популярные сайты с низкой вовлеченностью (в зависимости от точной реализации, которая в патенте описана противоречиво).
Детальный разбор
Термины и определения
- Adjusted Quality Score (Скорректированная оценка качества)
- Итоговая оценка качества веб-ресурса после применения Offset Adjustment Formula. Используется для определения позиции в ранжировании.
- Level of User Traffic (Уровень пользовательского трафика)
- Метрика, отражающая объем аудитории веб-ресурса (например, MAU, WAU, DAU).
- Offset Adjustment Formula (Формула корректировки смещения)
- Формула, применяемая к Raw Quality Score в случае ее отклонения от Reference Score. Использует предопределенные константы, заданные асессорами.
- Predictive Algorithms (Предиктивные алгоритмы)
- Набор алгоритмов, используемых для расчета Raw Quality Score. Каждый алгоритм пытается предсказать значение одного признака на основе остальных, чтобы оценить их согласованность (корреляцию).
- Raw Quality Score (Сырая оценка качества)
- Первичная оценка качества веб-ресурса, основанная на наборе статистических признаков. Рассчитывается путем оценки согласованности и корреляции между признаками.
- Reference Score (Эталонная оценка)
- Ожидаемая оценка качества для веб-ресурса с определенным Level of User Traffic. Определяется на основе Trend Curve.
- Trend Curve (Кривая тренда)
- Логарифмическая кривая, построенная на основе обучающих данных, которая отображает зависимость между Raw Quality Score и Level of User Traffic.
- Weight Value (Весовое значение)
- Значение, присваиваемое предиктивному алгоритму, показывающее, насколько хорошо данный признак коррелирует (предсказывается) с остальными признаками набора.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает общий процесс в фазе использования (in-use phase).
- Система получает набор статистических признаков для веб-ресурса.
- Генерируется Raw Quality Score (воспринимаемое качество).
- Raw Quality Score сравнивается с Reference Score (эталонное качество для данного уровня трафика).
- При наличии смещения (offset) применяется Offset Adjustment Formula для получения Adjusted Quality Score.
- Ресурс ранжируется в SERP на основе Adjusted Quality Score.
- Цель корректировки: сделать так, чтобы будущая Raw Quality Score была ближе к будущей Reference Score при будущем уровне трафика (механизм обратной связи).
Claim 2 (Зависимый от 1): Детализирует метод генерации Raw Quality Score. Качество оценивается через согласованность признаков.
- Исполняется набор Predictive Algorithms. Каждый предсказывает значение одного признака на основе остальных.
- Определяется Weight Value, показывающий, насколько хорошо признак коррелирует с остальными.
- Raw Quality Score рассчитывается на основе признаков и их весов.
Claim 3 и 4 (Зависимые): Детализируют определение Reference Score.
- Raw Quality Scores обучающих ресурсов наносятся на график в зависимости от их трафика.
- Генерируется Trend Curve, аппроксимирующая эти данные. Указывается, что Trend Curve является логарифмической (Claim 4).
Claim 9 и 18 (Зависимые): Описывают эффект корректировки на ранжирование.
ВАЖНО: Обработка Неопределенности и Вариативности. В патенте присутствуют существенные противоречия между Claims 9/18 и основным Описанием (Description) относительно направления корректировки.
Вариант 1: Демпфирование / Регрессия к среднему (Основан на Claims 9 и 18)
Claims 9 и 18 утверждают:
- Если Raw Score > Reference Score (качество выше ожидаемого): скорректированная позиция будет НИЖЕ (хуже), чем позиция на основе Raw Score.
- Если Raw Score < Reference Score (качество ниже ожидаемого): скорректированная позиция будет ВЫШЕ (лучше), чем позиция на основе Raw Score.
В этом варианте система стабилизирует выдачу, возвращая выбросы (как положительные, так и отрицательные) к среднему значению (нормализация).
Вариант 2: Коррекция / Усиление (Основан на Description и заявленной цели)
Описание (Description) и заявленная цель решения проблемы «холодного старта» предполагают обратное:
- Если Raw Score > Reference Score: система ПОВЫШАЕТ ранжирование, чтобы трафик вырос до уровня, соответствующего качеству.
- Если Raw Score < Reference Score: система ПОНИЖАЕТ ранжирование, чтобы трафик упал до уровня, соответствующего качеству.
В этом варианте система активно помогает недооцененным сайтам и пессимизирует переоцененные.
Поскольку патент содержит оба описания, точная реализация в Яндексе неизвестна, и обе интерпретации должны учитываться при анализе.
Где и как применяется
Изобретение затрагивает этапы офлайн-оценки качества и онлайн-ранжирования.
INDEXING / Офлайн-процессы (Слой Качества)
Большая часть процесса происходит офлайн и связана с модулями расчета метрик качества (аналогичных Proxima).
- Сбор данных: Агрегация статистических и поведенческих признаков из логов.
- Расчет Raw Quality Score: Вычисляется для каждого ресурса на основе анализа корреляций признаков (Claim 2).
- Построение Trend Curve: Офлайн-процесс, который анализирует обучающую выборку для построения зависимости качества от трафика (Claim 3, 4).
- Расчет Adjusted Quality Score: Raw Score сравнивается с Reference Score и корректируется. Результат, вероятно, сохраняется в индексе как статический фактор качества сайта.
RANKING – Ранжирование (Уровни L3/L4)
На этапе ранжирования система использует предварительно рассчитанный Adjusted Quality Score как один из важных сигналов в основной формуле ранжирования (например, CatBoost/YATI) для определения финальной позиции документа в выдаче.
На что влияет
- Типы ресурсов: Влияет на все типы веб-ресурсов, для которых можно собрать статистические данные о трафике и поведении пользователей.
- Сайты с аномалиями: Наибольшее влияние оказывается на сайты, чьи показатели качества сильно отклоняются от ожидаемых для их уровня посещаемости (выбросы на графике).
- Новые сайты (Холодный старт): Влияние неоднозначно из-за противоречия в патенте. Система может либо помочь им расти (Вариант 2), либо сдерживать их рост, если их качество аномально высокое (Вариант 1).
Когда применяется
Алгоритм применяется периодически в офлайн-режиме для пересчета оценок качества по мере накопления новых статистических данных. В онлайн-режиме Adjusted Quality Score используется при каждом запросе на этапе ранжирования. Триггером корректировки является наличие смещения (offset) между Raw и Reference оценками.
Пошаговый алгоритм
Фаза 1: Офлайн-подготовка (Построение модели)
- Выборка и Расчет оценок: Отбор обучающих веб-ресурсов, вычисление Raw Quality Scores и уровня трафика для них.
- Генерация Trend Curve: Построение графика и аппроксимация данных логарифмической кривой. Эта кривая определяет Reference Scores.
- Определение параметров корректировки: Эмпирический подбор констант (a, b, c, d) для Offset Adjustment Formula асессорами.
Фаза 2: Офлайн-оценка ресурсов
- Сбор и нормализация данных: Получение и нормализация (например, от 0 до 1) набора признаков для ресурса.
- Расчет Raw Quality Score (Детально):
- Для каждого признака (например, A) исполняется предиктивный алгоритм, который пытается предсказать его значение (A*) на основе остальных признаков (B, C, D…).
- Сравнение предсказанного (A*) с реальным (A) значением.
- Определение Weight Value на основе разницы (сила корреляции/согласованности).
- Вычисление Raw Quality Score как комбинации признаков и их весов.
- Определение Reference Score: Нахождение точки на Trend Curve, соответствующей текущему уровню трафика ресурса.
- Сравнение и Корректировка: Определение смещения и применение Offset Adjustment Formula для расчета Adjusted Quality Score.
- Сохранение: Запись Adjusted Quality Score в индекс.
Фаза 3: Онлайн-ранжирование
- Ранжирование: Использование Adjusted Quality Score веб-ресурсов как фактора ранжирования для определения их позиций в SERP.
- Обратная связь: Изменение ранжирования влияет на будущий трафик, что замыкает цикл выравнивания качества и трафика относительно кривой тренда.
Какие данные и как использует
Данные на входе
Система использует преимущественно поведенческие и статистические факторы на уровне хоста/ресурса. В патенте перечислены 10 признаков:
- Поведенческие факторы (Лояльность и Вовлеченность):
- Monthly user return rate (Возвращаемость пользователей за месяц).
- Long-term attachment of users (Долгосрочная привязанность пользователей, например, за 3 месяца).
- Percentage of hits with a click length of more than 120 seconds (Процент кликов длительностью более 120 секунд).
- Статистические факторы (Трафик и Источники):
- Number of users per month (Количество пользователей в месяц).
- Percentage of unique direct hits (mobile/desktop) (Процент уникальных прямых заходов).
- Logarithm of the absolute number of direct sessions (desktop) (Логарифм абсолютного числа прямых сессий).
- Level of User Traffic (MAU/WAU/DAU) – используется для определения Reference Score.
- Хостовые/Технические факторы:
- Average quality of users (Среднее качество пользователей: соотношение людей и ботов).
- Quality of the web resource (Качество веб-ресурса: параметр доверия, например, на основе белого списка).
- Монетизационные факторы:
- Share of outgoing traffic to an advertisement (Доля исходящего трафика на рекламу).
Какие метрики используются и как они считаются
- Raw Quality Score: Рассчитывается с использованием Predictive Algorithms (Claim 2). Система оценивает не просто значения признаков, а то, насколько хорошо они согласуются друг с другом (коррелируют). Высокая согласованность дает высокую оценку качества.
- Trend Curve (Reference Score): Используется логарифмическая функция (Claim 4) для моделирования зависимости качества от трафика:
$$f(x)=a \cdot \log(b \cdot x+c)$$
Где x – уровень трафика; a, b, c – параметры кривой. (В патенте используется обозначение, предполагающее натуральный логарифм).
- Adjusted Quality Score (Offset Adjustment Formula): Рассчитывается по формуле корректировки смещения (Claim 5):
$$AdjScore = raw\_score — (1-a) \cdot (f(visitors) — raw\_score) \cdot \frac{b}{std(raw\_score)} \cdot \frac{(visitors \cdot c)}{(d \cdot 10)}$$
Где f(visitors) – это Reference Score; visitors – уровень трафика (в Claim 5 указано, что это monthly user return rate); a, b, c, d – предопределенные значения. В патенте подчеркивается, что эти значения подбираются асессорами эмпирически и не обучаются (ML), чтобы обеспечить ортогональность этого сигнала качества другим метрикам и избежать переобучения.
Выводы
- Качество определяется как Согласованность Поведенческих Факторов: Ключевой инсайт — метод расчета Raw Quality Score (Claim 2). Он измеряет внутреннюю согласованность и предсказуемость поведенческих метрик. Если метрики лояльности, прямые заходы и время на сайте гармонично коррелируют, оценка качества высока.
- Связь Качества и Трафика: Яндекс имеет эталонную модель (Trend Curve), определяющую, какое качество ожидается от сайта с определенным трафиком. Ранжирование управляется относительно этой кривой.
- Механизм Корректировки (Неопределенность): Патент содержит противоречивые описания того, как именно корректируется оценка при отклонении от эталона. Система может либо активно продвигать недооцененные ресурсы и пессимизировать переоцененные (Вариант 2: Коррекция/Усиление), либо стабилизировать выдачу, возвращая выбросы к среднему (Вариант 1: Демпфирование/Нормализация).
- Фокус на Лояльности и Прямом Трафике: Набор признаков критически зависит от лояльности аудитории (возвраты, долгосрочная привязанность) и брендового трафика (прямые заходы). Это ключевые сигналы для этой системы.
- Ортогональность Сигналов: Формула корректировки использует коэффициенты, подобранные вручную (асессорами), что делает этот сигнал независимым (ортогональным) от других факторов ранжирования и предотвращает переобучение.
Практика
Best practices (это мы делаем)
- Обеспечение согласованности поведенческих факторов: Критически важно работать над всеми аспектами взаимодействия комплексно. Система наказывает за несогласованность (Claim 2). Недостаточно иметь только хорошее время на сайте, если при этом низкая возвращаемость и нет прямых заходов. Все метрики должны быть гармоничны.
- Стимулирование лояльности и возвратов (Retention): Метрики Monthly user return rate и Long-term attachment являются основными признаками. Используйте email-маркетинг, подписки, программы лояльности для удержания аудитории.
- Развитие бренда и прямых заходов (Direct Traffic): Значительный вес имеют признаки, связанные с прямыми заходами (Direct Hits). Инвестируйте в узнаваемость бренда, чтобы пользователи целенаправленно искали ваш сайт.
- Обеспечение длительного вовлечения: Метрика «Процент кликов длительностью более 120 секунд» напрямую используется в расчете. Оптимизируйте контент и UX для увеличения времени сессии.
- Мониторинг качества трафика (Борьба с ботами): Признак «Среднее качество пользователей» (соотношение людей и ботов) учитывается. Необходимо следить за чистотой трафика.
Worst practices (это делать не надо)
- Накрутка отдельных поведенческих факторов: Попытки искусственно завысить одну метрику при низких показателях остальных приведут к низкой согласованности признаков. Predictive Algorithms выявят эту аномалию, что приведет к низкому Raw Quality Score.
- Накрутка трафика без улучшения качества: Увеличение объема трафика повышает ожидаемый уровень качества (Reference Score). Если Raw Quality Score не растет (пользователи не лояльны), сайт будет пессимизирован, так как его качество окажется ниже ожидаемого для нового уровня трафика.
- Резкие изменения в качестве (если верна интерпретация Нормализации): Если система работает по принципу регрессии к среднему (Claim 9), то резкие положительные изменения в качестве могут быть сдержаны системой, пока они не подтвердятся на большем объеме данных.
Стратегическое значение
Патент подтверждает стратегический приоритет Яндекса на долгосрочном качестве ресурсов, измеряемом через лояльность и согласованное поведение пользователей. Он демонстрирует механизм управления выдачей, который стремится к балансу между размером аудитории и ее вовлеченностью. Для SEO это означает, что устойчивый рост возможен только при гармоничном развитии всех аспектов качества сайта, построении сильного бренда и формировании ядра лояльной аудитории.
Практические примеры
Примеры учитывают неопределенность механизма корректировки (Вариант 1: Нормализация по Claim 9; Вариант 2: Коррекция по Description).
Сценарий 1: Новый качественный сайт (Холодный старт)
- Ситуация: Запущен новый проект. Трафик низкий, но пользователи активно возвращаются и проводят много времени на сайте.
- Действие системы: Raw Quality Score (например, 10) высокий. Reference Score (для низкого трафика) низкий (например, 5). Raw > Reference.
- Результат:
- Вариант 1 (Нормализация): Система рассчитывает Adjusted Score (например, 8). Ранжирование будет НИЖЕ, чем предполагал Raw Score 10. Система сдерживает резкий взлет.
- Вариант 2 (Коррекция): Система рассчитывает Adjusted Score, который приводит к значительному ПОВЫШЕНИЮ ранжирования, чтобы сайт быстрее набрал трафик, соответствующий его качеству.
Сценарий 2: Сайт с низким качеством и высоким трафиком
- Ситуация: Крупный сайт с высоким трафиком, но низкими показателями лояльности и вовлеченности.
- Действие системы: Raw Quality Score низкий (например, 20). Reference Score (для высокого трафика) высокий (например, 50). Raw < Reference.
- Результат:
- Вариант 1 (Нормализация): Система рассчитывает Adjusted Score (например, 30). Ранжирование будет ВЫШЕ, чем предполагал Raw Score 20. Система немного «поддерживает» сайт, смягчая падение.
- Вариант 2 (Коррекция): Система рассчитывает Adjusted Score, который приводит к значительному ПОНИЖЕНИЮ ранжирования, чтобы уменьшить трафик до уровня, соответствующего низкому качеству.
Вопросы и ответы
Что такое Raw Quality Score и как он рассчитывается?
Raw Quality Score — это первичная оценка качества сайта. Она рассчитывается не как сумма факторов, а через анализ их согласованности (Claim 2). Система использует предиктивные алгоритмы, чтобы проверить, насколько хорошо каждый признак (например, возвращаемость) коррелирует и предсказывается остальными (например, прямыми заходами и временем на сайте). Если все метрики гармоничны и согласованы, оценка будет высокой.
Какие признаки используются для расчета качества в этом патенте?
Патент перечисляет 10 ключевых признаков, в основном поведенческих: качество ресурса (доверие), ежемесячный возврат пользователей, долгосрочная привязанность, процент сессий дольше 120 секунд, количество пользователей в месяц, процент уникальных прямых заходов (мобильные/десктоп), логарифм прямых сессий с десктопа, среднее качество пользователей (люди vs боты) и доля исходящего трафика на рекламу.
Что такое Trend Curve и Reference Score?
Trend Curve — это эталонная логарифмическая кривая, показывающая, какое качество ожидается от сайта с определенным уровнем трафика. Она строится на основе анализа множества обучающих веб-ресурсов. Reference Score — это конкретное значение на этой кривой, соответствующее текущему трафику вашего сайта. Это эталон, с которым сравнивается фактическое качество вашего сайта (Raw Score).
Если у моего сайта качество значительно выше, чем ожидается для моего трафика, Яндекс резко повысит меня в выдаче?
Ответ неоднозначен из-за противоречий в патенте. Согласно Claims 9 и 18 (Вариант 1: Нормализация), система может наоборот сдержать рост, притянув оценку к среднему. Однако согласно Описанию и заявленной цели (Вариант 2: Коррекция), система должна повысить сайт, чтобы дать ему заслуженный трафик. Рекомендуется фокусироваться на поддержании высокого качества, но быть готовым к разным сценариям.
Как этот патент влияет на стратегию работы с поведенческими факторами (ПФ)?
Он делает неэффективной накрутку отдельных ПФ. Ключевое значение имеет согласованность всех метрик (Claim 2). Если вы накручиваете время на сайте, но у вас нет естественных прямых заходов и возвратов пользователей, система обнаружит аномалию через предиктивные алгоритмы (низкую корреляцию) и снизит общую оценку качества (Raw Quality Score).
Какое значение имеют прямые заходы (Direct Traffic) согласно этому патенту?
Они имеют критическое значение. В списке признаков сразу три метрики связаны с прямыми заходами. Это мощные индикаторы лояльности и силы бренда, которые напрямую влияют на Raw Quality Score. Развитие бренда и стимулирование прямых заходов должны быть приоритетом SEO-стратегии.
Как повлияет накрутка трафика в свете этого патента?
Накрутка трафика опасна. Увеличение объема трафика автоматически повышает планку ожидаемого качества (Reference Score). Если качество накрученного трафика низкое (нет лояльности), то Raw Quality Score не вырастет. Возникнет разрыв (Raw < Reference), что приведет к корректировке оценки качества в худшую сторону и пессимизации сайта.
Что означает «ортогональный сигнал качества», упомянутый в патенте?
Это относится к формуле корректировки (Offset Adjustment Formula). Ее коэффициенты (a, b, c, d) подбираются асессорами вручную, а не с помощью машинного обучения. Это делает сигнал корректировки независимым (ортогональным) от других факторов ранжирования, что повышает стабильность системы и предотвращает переобучение на существующих метриках.
Является ли Adjusted Quality Score аналогом ИКС или Proxima?
Да, концептуально это очень похожие метрики. Adjusted Quality Score представляет собой интегральную оценку качества веб-ресурса, основанную на анализе поведения пользователей и статистики трафика, которая затем используется как важный фактор ранжирования. Вероятно, описанный механизм является частью или тесно связан с алгоритмами Proxima.
Как использовать инсайты из этого патента для улучшения ранжирования?
Сфокусируйтесь на построении долгосрочных отношений с аудиторией и гармоничном развитии всех показателей. Ваша цель — добиться высокой согласованности метрик лояльности: увеличивайте коэффициент возврата пользователей, стимулируйте прямые заходы через развитие бренда и обеспечивайте длительное вовлечение на сайте (сессии > 120 секунд).