Яндекс патентует систему для выравнивания качества сайта и объема его трафика. Система рассчитывает «Сырую оценку качества» на основе поведенческих метрик и сравнивает ее с «Эталонной оценкой», ожидаемой для данного уровня посещаемости. При обнаружении расхождения система корректирует ранжирование сайта, чтобы привести будущий трафик в соответствие с качеством ресурса. Патент содержит противоречивые описания направления этой корректировки.
Описание
Какую задачу решает
Патент решает проблему несоответствия между воспринимаемым качеством веб-ресурса и объемом получаемого им трафика. Он направлен на устранение проблемы «холодного старта» (0009), когда новые или малопосещаемые качественные ресурсы не могут высоко ранжироваться из-за отсутствия истории. Также он призван бороться с ситуациями, когда низкокачественные сайты получают неоправданно много трафика. Система предлагает механизм обратной связи, чтобы уровень трафика соответствовал качеству ресурса.
Что запатентовано
Запатентована система корректировки ранжирования, основанная на калибровке показателей качества относительно объема трафика. Суть изобретения заключается в расчете Raw Quality Score (сырой оценки качества) на основе поведенческих факторов и сравнении этой оценки с Reference Score (эталонной оценкой), которая представляет собой ожидаемое качество для сайтов с аналогичным уровнем трафика. При обнаружении расхождения применяется формула корректировки для получения Adjusted Quality Score (скорректированной оценки качества), которая используется в ранжировании.
Как это работает
Система функционирует как петля обратной связи. Сначала рассчитывается Raw Quality Score на основе поведенческих признаков (например, возвращаемость пользователей, длительность сессий). Затем эта оценка сравнивается с Trend Curve (кривой тренда), которая показывает эталонное соотношение качества и трафика. Если фактическое качество сайта отличается от ожидаемого, система вычисляет Adjusted Quality Score. Эта новая оценка используется для изменения позиции сайта в SERP. Цель корректировки — изменить будущий трафик сайта так, чтобы его показатели приблизились к эталонной кривой. Важно отметить, что в патенте есть фундаментальное противоречие относительно направления этой корректировки.
Актуальность для SEO
Высокая. Патент опубликован в 2022 году. Описанные механизмы, использующие поведенческие факторы и анализ удержания пользователей для оценки качества сайта, напрямую соотносятся с современными метриками качества Яндекса (такими как Proxima). Калибровка качества и трафика является фундаментальной задачей для поисковых систем.
Важность для SEO
Влияние на SEO критическое (9/10). Этот патент описывает механизм прямой интервенции в ранжирование, основанный на соотношении поведенческих метрик и общего объема трафика. Он демонстрирует, что недостаточно иметь хорошие метрики; они должны соответствовать ожиданиям системы для данного уровня посещаемости. Однако наличие серьезного противоречия в патенте (Claim 9 против Description) создает стратегическую неопределенность в том, как именно работает механизм: поощряет ли он высокое качество или наказывает за аномалии.
Детальный разбор
Термины и определения
- Adjusted Quality Score (Скорректированная оценка качества)
- Итоговая оценка качества, полученная после применения Offset Adjustment Formula к Raw Quality Score. Используется для определения позиции веб-ресурса в SERP (0174).
- Level of User Traffic (Уровень пользовательского трафика)
- Показатель объема трафика на веб-ресурсе. Может измеряться как Monthly Active Users (MAU), Weekly Active Users (WAU) или Daily Active Users (DAU) (0116).
- Offset Adjustment Formula (Формула корректировки смещения)
- Формула, применяемая к Raw Quality Score в случае наличия смещения (offset) между ней и Reference Score. Использует предопределенные константы, установленные асессорами (0128, 0134).
- Predictive Algorithms (Предиктивные алгоритмы)
- Набор алгоритмов для расчета Raw Quality Score. Каждый алгоритм предсказывает значение одного признака на основе остальных, чтобы определить, насколько хорошо признаки коррелируют друг с другом (0106).
- Raw Quality Score (Сырая оценка качества)
- Первичная оценка, указывающая на воспринимаемое качество (perceived quality) веб-ресурса пользователями. Рассчитывается на основе набора статистических и поведенческих признаков и их согласованности (0112).
- Reference Score (Эталонная оценка)
- Ожидаемая оценка качества для веб-ресурса с определенным уровнем трафика. Формирует Trend Curve и определяется на основе обучающей выборки веб-ресурсов (0123).
- Trend Curve (Кривая тренда, Эталонная кривая)
- Логарифмическая кривая на графике зависимости Raw Quality Score от Level of User Traffic. Построена на основе обучающих данных и представляет собой набор Reference Scores (0118).
Ключевые утверждения (Анализ Claims)
Патент описывает систему ранжирования, которая корректирует оценку качества сайта в зависимости от его трафика.
Claim 1 (Независимый пункт): Описывает основной процесс работы системы.
- Система получает набор признаков для веб-ресурса.
- Генерируется Raw Quality Score (сырая оценка качества).
- Эта оценка сравнивается с Reference Score (эталонной оценкой), соответствующей уровню трафика ресурса.
- Если есть смещение (offset), применяется Offset Adjustment Formula для получения Adjusted Quality Score (скорректированной оценки).
- Ранжирование в SERP основано на этой скорректированной оценке.
- Цель: Скорректированная оценка должна привести к тому, что будущие показатели качества и трафика станут ближе к эталонной кривой (петля обратной связи).
Claim 2 (Зависимый пункт): Уточняет, как генерируется Raw Quality Score.
- Используется набор Predictive Algorithms. Каждый алгоритм предсказывает значение одного признака на основе остальных.
- Определяется весовое значение (weight value), показывающее, насколько хорошо данный признак коррелирует с остальными.
- Raw Quality Score рассчитывается на основе признаков и их весов.
Интерпретация: Это указывает на то, что система ценит внутреннюю согласованность и естественность поведенческих метрик. Если метрики не коррелируют друг с другом, оценка будет ниже.
Claim 3 и 4 (Зависимые пункты): Уточняют, как определяется Reference Score.
- Данные обучающих ресурсов наносятся на график (Качество vs Трафик).
- Генерируется Trend Curve (кривая тренда), аппроксимирующая эти данные.
- Кривая тренда является логарифмической (Claim 4).
Claim 9 (Зависимый пункт) и Фундаментальное Противоречие:
Claim 9 описывает механизм корректировки ранга. Этот пункт критически важен, так как он находится в прямом противоречии с Описанием (Description) патента (параграфы 0136-0141).
Логика согласно Claim 9 (Формула изобретения):
- Если Raw Quality Score ВЫШЕ, чем Reference Score (сайт лучше, чем ожидается для его трафика), то позиция в ранжировании становится НИЖЕ (пессимизация).
- Если Raw Quality Score НИЖЕ, чем Reference Score (сайт хуже, чем ожидается для его трафика), то позиция в ранжировании становится ВЫШЕ (бустинг).
Интерпретация Claim 9: Эта логика контринтуитивна. Она может служить механизмом борьбы с аномалиями или накрутками ПФ (наказание за неестественно высокое качество при низком трафике).
Логика согласно Описанию (Description 0136, 0141):
- Если качество выше эталона (Raw > Reference), ранг повышается, чтобы привлечь больше трафика (0136).
- Если качество ниже эталона (Raw < Reference), ранг понижается, чтобы уменьшить трафик (0141).
Интерпретация Description: Эта логика соответствует заявленной цели решения проблемы «холодного старта» и стимулирования качественных ресурсов.
Вывод по противоречию: Патент содержит два взаимоисключающих описания основного механизма. Claims юридически определяют ядро изобретения, но Description объясняет его применение. Для SEO-специалистов критически важно учитывать оба варианта реализации, так как невозможно точно определить, какой из них используется (или используются оба в разных условиях).
Где и как применяется
Изобретение затрагивает офлайн-вычисления и онлайн-ранжирование.
CRAWLING & INDEXING / Офлайн-процессы
Значительная часть работы происходит офлайн:
- Сбор и агрегация поведенческих данных и статистики трафика.
- Расчет Raw Quality Score с использованием Predictive Algorithms (оценка согласованности метрик).
- Построение модели: Генерация Trend Curve и определение Reference Scores на основе обучающей выборки (0117).
- Определение констант для Offset Adjustment Formula асессорами (0134). Это обеспечивает ортогональность сигнала (0134).
- Расчет Adjusted Quality Score.
RANKING – Ранжирование (Уровни L3/L4)
На этапе ранжирования Adjusted Quality Score используется как важный фактор (вероятно, в рамках метрик качества типа Proxima) для определения финальной позиции в SERP. Система использует эту скорректированную оценку вместо исходной Raw Quality Score.
На что влияет
- Типы сайтов: Алгоритм влияет на все типы сайтов, но наиболее сильное воздействие оказывается на ресурсы с дисбалансом между качеством и трафиком. Это могут быть новые сайты, сайты с резким ростом популярности или сайты, использующие накрутки ПФ.
- Факторы ранжирования: Алгоритм напрямую модулирует вес поведенческих факторов в итоговой формуле ранжирования, пропуская их через призму общего объема трафика.
Когда применяется
Расчеты оценок происходят офлайн по мере накопления данных, а применение скорректированной оценки происходит в реальном времени во время ранжирования.
- Триггер активации: Наличие смещения (offset) между Raw Quality Score веб-ресурса и Reference Score, ожидаемой для его текущего уровня трафика (0127).
Пошаговый алгоритм
Этап 1: Расчет сырой оценки (Офлайн)
- Сбор данных: Система собирает набор признаков (поведенческие метрики, статистика трафика) для веб-ресурса.
- Нормализация: Признаки нормализуются (например, от 0 до 1) (0102).
- Вычисление корреляций: Запускается набор Predictive Algorithms. Для каждого признака система пытается предсказать его значение на основе остальных (например, предсказать возвращаемость на основе длительности сессий и доли прямых заходов).
- Взвешивание: Определяется, насколько хорошо каждый признак коррелирует с остальными. Если корреляция высокая (согласованность метрик), признаку присваивается больший вес (0110).
- Расчет Raw Quality Score: Вычисляется сырая оценка качества, например, как сумма взвешенных значений (0112).
Этап 2: Калибровка и корректировка (Офлайн)
- Определение эталона: Используется предварительно построенная Trend Curve. Система находит Reference Score для текущего уровня трафика сайта.
- Сравнение и Определение смещения (Offset): Вычисляется разница между Raw Quality Score и Reference Score.
- Применение корректировки: Если смещение есть, применяется Offset Adjustment Formula для расчета Adjusted Quality Score.
Этап 3: Ранжирование (Онлайн)
- Применение оценки: При ответе на запрос система использует Adjusted Quality Score как фактор ранжирования.
- Изменение позиции (Неопределенность): Позиция сайта изменяется. Направление изменения зависит от того, какая логика реализована:
- По Claim 9: Качество выше нормы -> Пессимизация. Качество ниже нормы -> Буст.
- По Description: Качество выше нормы -> Буст. Качество ниже нормы -> Пессимизация.
- Обратная связь: Изменение позиции влияет на будущий трафик, замыкая петлю обратной связи и стремясь минимизировать смещение.
Какие данные и как использует
Данные на входе
Патент фокусируется почти исключительно на поведенческих и трафиковых факторах. Контентные или ссылочные факторы не упоминаются как прямые входы для этого механизма.
- Поведенческие факторы (User Interactions):
- Ежемесячный коэффициент возврата пользователей (Monthly user return rate) (0085).
- Долгосрочная привязанность пользователей (Long-term attachment), например, за 3 месяца (0087).
- Процент посещений с длительностью клика более 120 секунд (0089).
- Доля исходящего трафика на рекламу (0101).
- Трафиковые факторы (Статистические):
- Количество пользователей в месяц (0091).
- Процент уникальных прямых заходов (direct hits) с мобильных устройств и десктопов (0093, 0095).
- Логарифм абсолютного числа прямых сессий с десктопов (0097).
- Уровень пользовательского трафика (Level of user traffic) — MAU, WAU или DAU (0116).
- Факторы качества/Траста:
- Качество веб-ресурса (Quality of the web resource) — параметр доверия, возможно основанный на белом списке (whitelist) (0083).
- Среднее качество пользователей (Average quality of users) — соотношение людей и ботов (0099).
Какие метрики используются и как они считаются
- Raw Quality Score: Рассчитывается с помощью метода, основанного на взаимном предсказании признаков (Predictive Algorithms). Оценка отражает внутреннюю согласованность (корреляцию) поведенческих метрик.
- Reference Score (Trend Curve): Определяется по логарифмической кривой тренда, построенной на обучающих данных (0118). Формула кривой (Claim 4):
$${f(x) = a \cdot np.log(b \cdot x + c)}$$
где x — уровень трафика, a, b, c — параметры сдвига и резкости кривой. - Adjusted Quality Score: Рассчитывается путем применения Offset Adjustment Formula (0128, Claim 5):
$${raw\_score — (1-a) \cdot (f(visitors) — raw\_score) \cdot b/std(raw\_score) \cdot (visitors \cdot c)/(d \cdot 10)}$$
где $raw\_score$ — сырая оценка качества, $visitors$ — уровень трафика (в Claim 5 указан monthly user return rate, но в Description 0131 используется общий термин visitors), $f(visitors)$ — эталонная оценка (значение на кривой тренда), a, b, c, d — предопределенные константы, заданные асессорами. - Ортогональность сигнала: Константы (a, b, c, d) в формуле корректировки задаются вручную асессорами, а не обучаются с помощью ML. Это делается для предотвращения переобучения и обеспечения того, чтобы сигнал корректировки был ортогонален (независим) от признаков, на которых основана сырая оценка качества (0134).
Выводы
- Качество калибруется трафиком: Яндекс ожидает определенного уровня качества (выраженного через поведенческие метрики) для определенного объема трафика. Это соотношение представлено эталонной кривой (Trend Curve).
- Дисбаланс ведет к интервенции: Любое отклонение фактического качества (Raw Quality Score) от эталонного (Reference Score) запускает механизм корректировки ранжирования. Система стремится привести качество и трафик в соответствие.
- Критическое противоречие в механизме: Патент содержит фундаментальное противоречие. Описание (Description) утверждает, что сайты с качеством выше эталона получают буст (0136). Однако Формула изобретения (Claim 9) описывает противоположный механизм: такие сайты пессимизируются. Это создает стратегическую неопределенность для SEO.
- Сложный расчет качества (Анти-Накрутка): Raw Quality Score рассчитывается не простым суммированием метрик, а через механизм взаимного предсказания признаков (Predictive Algorithms), оценивающий их внутреннюю согласованность (Claim 2). Это усложняет манипуляции отдельными метриками.
- Ключевые метрики лояльности: Возвращаемость пользователей, длительные сессии (>120 сек) и доля прямых заходов являются центральными элементами оценки качества в этой модели.
Практика
Best practices (это мы делаем)
Независимо от того, какая логика (Claim 9 или Description) реализована, система требует соответствия качества и трафика. Фокус должен быть на улучшении ключевых метрик и обеспечении их согласованности.
- Фокус на метриках удержания и лояльности: Стратегически работайте над повышением Monthly User Return Rate и Long-term Attachment. Это ключевые компоненты Raw Quality Score. Используйте email-маркетинг, подписки и создавайте контент, стимулирующий повторные визиты.
- Увеличение вовлеченности: Максимизируйте процент длинных кликов (>120 секунд). Это достигается за счет качественного контента, удобной навигации и интерактивных элементов.
- Развитие прямых каналов (Брендинг): Высокая доля прямых заходов (Direct Hits) является важным фактором. Развивайте бренд и стимулируйте пользователей заходить на сайт напрямую.
- Обеспечение согласованности метрик: Убедитесь, что метрики выглядят естественно и коррелируют друг с другом (например, рост возвратов должен сопровождаться ростом прямых заходов). Система Predictive Algorithms (Claim 2) ищет эту согласованность.
- Сбалансированный рост: При масштабировании трафика следите, чтобы поведенческие метрики не деградировали. Рост посещаемости должен сопровождаться сохранением или ростом показателей качества, чтобы оставаться на Trend Curve.
Worst practices (это делать не надо)
- Резкое увеличение низкокачественного трафика (Покупка трафика, Кликбейт): Это приведет к тому, что Raw Quality Score будет ниже Reference Score.
- По логике Description: это приведет к пессимизации.
- По логике Claim 9: это приведет к бусту (что маловероятно для реальной системы поиска).
В любом случае, это создает дисбаланс и высокие риски пессимизации.
- Накрутка поведенческих факторов на сайтах с низким трафиком: Это приведет к аномально высокому Raw Quality Score относительно Reference Score.
- По логике Description: это даст буст.
- По логике Claim 9: это приведет к пессимизации (как борьба с аномалиями).
Учитывая риск реализации логики Claim 9, это крайне опасная стратегия.
- Манипуляция отдельными метриками: Попытки накрутить только один показатель (например, время на сайте) будут неэффективны, так как система оценивает согласованность всех метрик (Claim 2).
- Чрезмерная монетизация в ущерб UX: Фактор «Доля исходящего трафика на рекламу» напрямую учитывается и может негативно сказаться на оценке качества.
Стратегическое значение
Патент подтверждает стратегический фокус Яндекса на поведенческих факторах как основе измерения качества сайта (аналогично Proxima). Он вводит концепцию, что объем трафика является бенчмарком для ожидаемого качества. Долгосрочная SEO-стратегия должна строиться на создании лояльной аудитории и обеспечении того, чтобы качество пользовательского опыта росло вместе с трафиком.
Наличие противоречия создает стратегическую неопределенность. Если реализуется логика Claim 9 (наказание за качество выше нормы), то система фокусируется на борьбе с аномалиями и накрутками. Если реализуется логика Description (поощрение качества выше нормы), то система помогает качественным сайтам набирать заслуженный трафик. Безопасная стратегия — стремиться к балансу.
Практические примеры
Из-за противоречия в патенте необходимо рассмотреть сценарии для обеих интерпретаций.
Сценарий 1: Новый качественный блог (Raw > Reference)
Ситуация: Блог имеет низкий трафик (100 MAU), но отличные ПФ (высокий return rate, сессии > 120 сек).
- Интерпретация по Description (Буст): Система повышает ранжирование блога, чтобы привлечь трафик, соответствующий его качеству.
- Интерпретация по Claim 9 (Пессимизация): Система понижает ранжирование блога, так как его качество аномально высокое для его трафика (подозрение на накрутку).
Сценарий 2: Кликбейт-сайт с высоким трафиком (Raw < Reference)
Ситуация: Сайт имеет высокий трафик (500,000 MAU), но плохие ПФ (низкий return rate, короткие сессии).
- Интерпретация по Description (Пессимизация): Система понижает ранжирование сайта, чтобы уменьшить трафик до уровня, соответствующего его низкому качеству.
- Интерпретация по Claim 9 (Буст): Система повышает ранжирование сайта. (Этот сценарий выглядит наименее вероятным в реальной поисковой системе).
Вопросы и ответы
В патенте есть критическое противоречие между Claim 9 и Описанием. Что это значит для SEO?
Это ключевой момент неопределенности. Описание (Description) предполагает, что если качество сайта выше эталона для его трафика, его ранг повышается (буст). Claim 9 утверждает обратное: если качество выше эталона, ранг понижается (пессимизация). Это может означать либо ошибку в патенте, либо наличие двух разных режимов работы (один поощряет качество, другой борется с аномалиями/накрутками). Для SEO это создает стратегический риск: слишком хорошие ПФ на новом сайте могут быть восприняты как накрутка (по Claim 9).
Что такое Raw Quality Score и чем он отличается от Adjusted Quality Score?
Raw Quality Score (Сырая оценка качества) — это первичная оценка, основанная на анализе поведенческих и статистических признаков сайта (возвраты, длительность сессий и т.д.) и их согласованности. Adjusted Quality Score (Скорректированная оценка качества) — это результат калибровки сырой оценки относительно объема трафика сайта. Если сырая оценка не соответствует эталону, ожидаемому для данного уровня трафика, она корректируется. Именно Adjusted Quality Score используется в ранжировании.
Как рассчитывается Raw Quality Score? Это просто сумма метрик?
Нет, расчет сложнее и направлен на борьбу с накрутками. Система использует «Предиктивные алгоритмы» (Predictive Algorithms, Claim 2). Они проверяют, насколько хорошо признаки коррелируют друг с другом, пытаясь предсказать значение одного признака на основе других. Если признаки согласованы (например, высокий процент возвратов коррелирует с высокой долей прямого трафика), Raw Quality Score будет выше. Несогласованные метрики снижают оценку.
Какие поведенческие факторы наиболее важны для этого патента?
Патент явно перечисляет ключевые факторы: ежемесячный коэффициент возврата пользователей (monthly user return rate), долгосрочная привязанность (long-term attachment), процент посещений длительностью более 120 секунд, доля уникальных прямых заходов (direct hits), а также соотношение людей и ботов (average quality of users).
Что такое Trend Curve (Кривая тренда)?
Это эталонная логарифмическая кривая, построенная на основе обучающих данных. Она показывает, какой уровень качества (Raw Quality Score) система ожидает увидеть у сайта с определенным объемом трафика (например, MAU). Она служит бенчмарком: если сайт находится значительно выше или ниже этой кривой, запускается механизм корректировки ранжирования.
Помогает ли этот алгоритм новым сайтам (решение «холодного старта»)?
Это зависит от того, какая логика реализована. Согласно Описанию патента (0136), да, он должен помогать: если новый сайт показывает высокое качество при низком трафике, система должна его повысить. Однако, согласно Claim 9, система его понизит, если качество аномально высокое. Это создает неопределенность для старта новых проектов.
Что означает «ортогональный сигнал качества», упомянутый в патенте?
Это означает, что сигнал корректировки является независимым от исходных признаков, использованных для расчета Raw Quality Score. Это достигается за счет того, что формула корректировки использует жестко заданные константы, определенные асессорами, а не выученные с помощью ML на тех же данных (0134). Это добавляет дополнительный, независимый слой оценки качества и предотвращает переобучение.
Как этот патент связан с метрикой Proxima?
Патент не упоминает Proxima, но описывает схожие принципы. Proxima оценивает качество и лояльность аудитории, опираясь на поведенческие сигналы. Описанные в патенте Raw Quality Score и Adjusted Quality Score, основанные на метриках удержания и возвратов, с большой вероятностью являются компонентами или входными данными для расчета интегральной метрики качества, такой как Proxima.
Что произойдет, если я резко увеличу трафик на сайт с помощью рекламы?
Если новый трафик не будет демонстрировать качественного поведения (возвраты, длительность сессий), то Raw Quality Score снизится, а уровень трафика возрастет. Это создаст дисбаланс: качество станет ниже эталонного для нового уровня трафика. Система отреагирует на это корректировкой ранжирования. Согласно Description, это приведет к пессимизации; согласно Claim 9 — к бусту.
Учитывает ли эта система контент или ссылки?
Нет. В данном патенте не упоминаются ни контентные (текстовая релевантность), ни ссылочные факторы как входные данные для этого механизма. Система полностью сосредоточена на анализе статистических данных о трафике и поведении пользователей на сайте.