Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс нормализует оценку качества сайта, корректируя ее в зависимости от объема трафика и лояльности аудитории

    СПОСОБ И СИСТЕМА ДЛЯ РАНЖИРОВАНИЯ ВЕБ-РЕСУРСА (Method and System for Ranking a Web Resource)
    • RU2020142447A
    • Yandex LLC
    • 2022-06-22
    • 2020-12-22
    2022 Антиспам Метрики качества поиска Патенты Яндекс Поведенческие факторы Ранжирование

    Яндекс использует механизм для корректировки оценки качества сайта, сравнивая ее с эталонным значением, ожидаемым для сайтов с аналогичным объемом трафика или уровнем лояльности. Если сайт показывает аномально высокие метрики качества для своего размера, его рейтинг может быть понижен. Если метрики ниже ожидаемых, рейтинг может быть повышен. Это стабилизирует выдачу и усложняет манипуляции поведенческими факторами.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему смещения (bias) в оценках качества веб-ресурсов, возникающего из-за различий в их популярности (объеме трафика) и уровне лояльности. Он направлен на устранение ситуаций, когда сайты с разной аудиторией некорректно сравниваются по абсолютным значениям поведенческих метрик. Ключевая уязвимость, которую устраняет этот механизм — это манипуляции поведенческими факторами (ПФ). Система предотвращает ситуации, когда небольшие сайты пытаются имитировать сигналы крупных авторитетных ресурсов или демонстрируют аномальные показатели. Цель — стабилизировать ранжирование и обеспечить соответствие метрик качества ожидаемому уровню.

    Что запатентовано

    Запатентована система и способ нормализации оценки качества веб-ресурса для использования в ранжировании. Суть изобретения заключается в расчете «Необработанной оценки качества» (Raw Quality Score), основанной на статистических (поведенческих) признаках, и ее последующей корректировке относительно «Эталонной оценки» (Reference Score). Эталонная оценка представляет собой ожидаемое значение качества для сайта с данным уровнем трафика или лояльности. Разница между фактической и эталонной оценками используется в формуле корректировки смещения для получения финальной «Скорректированной оценки качества».

    Как это работает

    Система работает в несколько этапов. Сначала вычисляется Необработанная оценка качества на основе признаков лояльности и вовлеченности (возвраты, прямой трафик, длинные клики), проверяя их согласованность. Затем определяется уровень трафика или лояльности ресурса. На основе заранее рассчитанной логарифмической Кривой тренда система находит Эталонную оценку. Далее применяется контринтуитивная корректировка (Claim 9): если Необработанная оценка значительно выше Эталонной (сайт «слишком хорош» для своего размера), его ранжированная позиция понижается. Если ниже Эталонной, позиция повышается. Это создает петлю обратной связи для стабилизации показателей.

    Актуальность для SEO

    Высокая. Поведенческие факторы играют ключевую роль в ранжировании Яндекса (например, в метриках Proxima), и борьба с их накруткой является постоянным приоритетом. Описанный метод представляет собой сложный механизм нормализации данных, обнаружения аномалий (как накруток, так и статистических выбросов) и стабилизации системы, что крайне актуально для современных поисковых технологий.

    Важность для SEO

    Влияние на SEO значительно (8.5/10). Этот патент описывает конкретный механизм, который напрямую корректирует влияние поведенческих сигналов на ранжирование. Он существенно усложняет продвижение новых или небольших сайтов исключительно за счет манипуляции метриками вовлеченности. Механизм защищает выдачу от аномалий и создает дополнительный барьер для ресурсов, чьи показатели качества неестественно высоки относительно их популярности или базовой лояльности.

    Детальный разбор

    Термины и определения

    Adjusted Quality Score (Скорректированная оценка качества)
    Финальная оценка качества веб-ресурса после применения формулы корректировки смещения. Используется непосредственно для определения ранжированной позиции в SERP.
    Bias Correction Formula (Формула корректировки смещения)
    Формула, применяемая к Необработанной оценке качества для ее нормализации относительно Эталонной оценки.
    Raw Quality Score (Необработанная оценка качества)
    Первичная оценка, генерируемая на основе набора статистических признаков (поведенческих факторов). Указывает на воспринимаемое качество веб-ресурса пользователями. Рассчитывается с учетом согласованности признаков (Claim 2).
    Reference Score (Эталонная оценка)
    Ожидаемое (среднестатистическое) значение Необработанной оценки качества для сайта с определенным Уровнем пользовательского трафика или лояльности. Определяется на основе Кривой тренда.
    Trend Curve (Кривая тренда)
    Логарифмическая функция, аппроксимирующая зависимость между Уровнем трафика/лояльности и Необработанной оценкой качества на основе обучающих данных.
    User Traffic Level (Уровень пользовательского трафика)
    Метрика популярности или лояльности. Может измеряться как объем трафика (MAU, WAU, DAU) (Claim 8) или как коэффициент ежемесячного возврата пользователей (Claim 5).

    Ключевые утверждения (Анализ Claims)

    Патент описывает систему нормализации оценок качества, которая корректирует эти оценки в зависимости от популярности или лояльности ресурса, используя механизм обратной связи для стабилизации ранжирования.

    Claim 1 (Независимый пункт): Описывает основной процесс использования системы.

    1. Сервер получает набор статистических признаков веб-ресурса.
    2. Генерируется Необработанная оценка качества (Raw Quality Score).
    3. Эта оценка сравнивается с Эталонной оценкой (Reference Score). Критически важно: Эталонная оценка соответствует ожидаемому качеству для сайтов со схожим уровнем пользовательского трафика.
    4. При наличии смещения (разницы) применяется Формула корректировки смещения для получения Скорректированной оценки качества.
    5. Ранжирование в SERP происходит на основе Скорректированной оценки.
    6. Заявленный эффект (Петля обратной связи): эта корректировка приводит к тому, что будущие Необработанные оценки приближаются к будущим Эталонным оценкам (стабилизация системы).

    Claim 9 (Зависимый от 1): Разъясняет контринтуитивную логику корректировки для достижения стабилизации. Это ядро изобретения.

    • Если Необработанная оценка качества ВЫШЕ Эталонной (сайт лучше, чем ожидается): Скорректированная оценка приводит к тому, что ранжированная позиция оказывается НИЖЕ, чем была бы при использовании Необработанной оценки. (Подавление аномально высокого качества / борьба с выбросами).
    • Если Необработанная оценка качества НИЖЕ Эталонной (сайт хуже, чем ожидается): Скорректированная оценка приводит к тому, что ранжированная позиция оказывается ВЫШЕ. (Поддержка сайтов, не дотягивающих до нормы).

    Claim 2 (Зависимый): Описывает метод расчета Необработанной оценки. Это механизм Anti-Fraud.

    Используется ансамбль алгоритмов предсказания, где каждый признак пытаются предсказать на основе остальных. Веса алгоритмов зависят от силы корреляции признаков. Это указывает на то, что система оценивает внутреннюю согласованность (естественность) признаков. Несогласованные признаки (например, при накрутках) снижают оценку.

    Claims 3 и 4 (Зависимые): Описывают построение эталона.

    • Необработанные оценки множества сайтов наносятся на график в зависимости от их уровня трафика. Строится Кривая тренда.
    • Кривая тренда (Claim 4) основана на логарифмической формуле: $f(x)=a\cdot np.log(b \cdot x+c)$. Это подразумевает, что с ростом трафика (x) ожидаемое качество растет, но с замедлением (diminishing returns).

    Claim 5 и 8 (Зависимые): Указывают на метрики, используемые для определения эталона и корректировки.

    Существует неоднозначность. Claim 8 указывает, что уровень трафика измеряется MAU/WAU/DAU (объем аудитории). Однако в формуле корректировки в Claim 5 используется параметр visitors, который определяется как «коэффициент ежемесячного возврата пользователей» (метрика лояльности). Система может использовать любую из этих метрик как базу для нормализации.

    Где и как применяется

    Изобретение применяется на этапе ранжирования и тесно связано с системами оценки качества (например, Proxima).

    QUALITY & GOVERNANCE LAYER (Слой Качества и Метрик)
    Основная логика реализуется здесь. Происходит расчет и корректировка метрик качества.

    • Офлайн-обучение: Построение Кривой тренда и определение Эталонных оценок на основе анализа большого корпуса веб-ресурсов.
    • Расчет оценок: Вычисление Необработанной оценки качества с использованием метода кросс-предсказания признаков (Claim 2) для оценки их согласованности.

    RANKING – Ранжирование (Уровни L3/L4)
    Применение механизма на поздних стадиях ранжирования.

    • Входные данные: Необработанная оценка качества и Уровень трафика/лояльности.
    • Процесс: Система определяет Эталонную оценку и применяет Формулу корректировки смещения.
    • Выходные данные: Скорректированная оценка качества, которая используется как фактор в основной формуле ранжирования (например, CatBoost/YATI).

    На что влияет

    • Типы сайтов: Влияет на все типы веб-ресурсов. Наибольшее влияние оказывается на выбросы (outliers):
      1. Небольшие или новые сайты, демонстрирующие аномально высокие поведенческие метрики (потенциальные накрутки или «скрытые жемчужины»). Они будут нормализованы вниз (пессимизированы).
      2. Крупные сайты (высокий трафик), у которых метрики вовлеченности ниже среднего по рынку для их размера. Они получат поддержку (нормализация вверх/буст).
    • Ниши и тематики: Влияние будет сильнее в конкурентных нишах (коммерческие, YMYL), где часто встречаются попытки манипуляции поведенческими факторами.

    Когда применяется

    • Условия работы: Алгоритм применяется в процессе ранжирования при расчете релевантности, когда учитываются хостовые факторы качества.
    • Триггеры активации: Активируется при наличии разницы (смещения) между Необработанной оценкой качества и Эталонной оценкой. Чем больше разница, тем сильнее корректировка.

    Пошаговый алгоритм

    Фаза 1: Офлайн-подготовка (Построение эталона и оценка согласованности)

    1. Сбор данных: Сбор статистических признаков и уровней трафика/лояльности для множества обучающих веб-ресурсов.
    2. Расчет первичных оценок и согласованности: Вычисление Необработанных оценок качества. Обучение алгоритмов предсказания (Claim 2) для определения весов корреляции признаков.
    3. Построение Кривой Тренда: Нанесение данных на график (X=Трафик/Лояльность, Y=Необработанная оценка) и подгонка логарифмической кривой тренда $f(x)=a\cdot np.log(b \cdot x+c)$.
    4. Определение Эталонов: Кривая тренда сохраняется как механизм для определения Эталонной оценки.

    Фаза 2: Применение (Ранжирование)

    1. Расчет Необработанной Оценки: Для ранжируемого веб-ресурса вычисляется Необработанная оценка качества с учетом весов согласованности признаков (Claim 2). (Может выполняться офлайн).
    2. Определение Эталонной Оценки: Уровень трафика/лояльности подставляется в функцию Кривой Тренда (из Фазы 1).
    3. Сравнение и Корректировка (Claim 9): Необработанная оценка сравнивается с Эталонной.
      • Если Необработанная > Эталонная: Применяется формула корректировки, которая уменьшает итоговую оценку (Подавление).
      • Если Необработанная < Эталонная: Применяется формула корректировки, которая увеличивает итоговую оценку (Поддержка).
    4. Получение Скорректированной Оценки: На выходе получается Скорректированная оценка качества (Claim 5).
    5. Ранжирование: Скорректированная оценка используется поисковой машиной для определения позиции веб-ресурса в SERP.

    Какие данные и как использует

    Данные на входе

    Система использует исключительно статистические, поведенческие и трафиковые факторы (Claim 6). Контентные или ссылочные факторы не упоминаются.

    Поведенческие факторы (Лояльность и Вовлеченность):

    • Коэффициент ежемесячного возврата пользователей (Ключевая метрика лояльности).
    • Длительная привязанность пользователей к веб-ресурсу.
    • Процент обращений с длительностью клика более 120 секунд (Long Clicks / High Engagement).

    Трафиковые факторы (Объем и Источники):

    • Количество пользователей в месяц.
    • Ежемесячные (MAU), еженедельные (WAU) или ежедневные (DAU) активные пользователи (Claim 8).
    • Процент уникальных прямых обращений (мобильные и настольные компьютеры) (Brand Awareness / Direct Traffic).
    • Логарифм абсолютного количества прямых сеансов с настольных компьютеров.

    Другие факторы:

    • Доля исходящего трафика от хоста к рекламе (Может указывать на агрессивную монетизацию).
    • Среднее качество пользователей на хосте (Метрика качества аудитории).

    Патент также упоминает (Claim 7), что признаки нормализуются в диапазоне от 0 до 1.

    Какие метрики используются и как они считаются

    • Метод расчета Необработанной оценки (Claim 2): Используется метод, основанный на взаимной корреляции признаков. Алгоритмы предсказывают один признак на основе других; вес признака зависит от того, насколько хорошо он коррелирует с остальными. Это оценка согласованности (естественности) данных.
    • Кривая тренда (Trend Curve): Определяет Эталонную оценку. Используется логарифмическая функция (Claim 4):

      $f(x)=a\cdot np.log(b \cdot x+c)$

      где x – уровень трафика (MAU) или лояльности (коэффициент возврата), a, b, c – параметры смещения и резкости кривой.
    • Формула корректировки смещения (Bias Correction Formula): Используется для расчета Скорректированной оценки (Claim 5). В патенте приводится следующий вид (в тексте патента могут отсутствовать операторы):

      raw_score (1 a) (f(visitors) — raw_score)b/std(raw_score) (visitors c) / (d 10)

      Где:

      • raw_score – Необработанная оценка качества.
      • f(visitors) – Эталонная оценка.
      • visitors – В контексте этой формулы определен как «коэффициент ежемесячного возврата пользователей».
      • a, b, c, d – предварительно определенные значения (гиперпараметры).
      • std(raw_score) – стандартное отклонение Необработанной оценки.

    Выводы

    1. Качество относительно популярности/лояльности: Яндекс явно ожидает корреляцию между объемом трафика сайта (или его базовой лояльностью) и его метриками качества. Эта зависимость формализована в виде логарифмической Кривой Тренда.
    2. Нормализация как механизм стабилизации и анти-фрода: Основная цель патента — нормализовать оценки качества и бороться с выбросами. Система не принимает высокие поведенческие метрики за чистую монету, а проверяет их на соответствие размеру и профилю аудитории сайта.
    3. Пенализация за аномально высокое качество (Claim 9): Ключевой и контринтуитивный механизм: если сайт показывает качество значительно выше Эталонного (Необработанная > Эталонная), его ранжированная позиция понижается. Это направлено против накруток ПФ и предотвращает слишком быстрый взлет аномальных сайтов.
    4. Поддержка «недотягивающих» сайтов (Claim 9): Если качество сайта ниже ожидаемого (Необработанная < Эталонная), его позиция повышается. Это механизм стабилизации, который может поддерживать крупные бренды или сайты, чья ценность не полностью отражена в текущих метриках.
    5. Важность согласованности признаков (Claim 2): Необработанная оценка зависит от того, насколько хорошо признаки коррелируют друг с другом. Это встроенный анти-фрод механизм, выявляющий неестественное поведение (несогласованность метрик).
    6. Ключевые факторы качества (Claim 6): Патент подтверждает критическую важность метрик: коэффициент возврата пользователей, прямой трафик и длинные клики (>120 секунд).

    Практика

    Best practices (это мы делаем)

    • Фокус на сбалансированном и органичном росте: Стратегия должна быть направлена на планомерное увеличение как качества ресурса, так и объема/лояльности его аудитории. Резкий рост метрик качества без соответствующего роста аудитории может привести к подавлению ранжирования (Claim 9).
    • Развитие бренда и лояльности (Retention): Метрики возврата пользователей и прямого трафика критически важны (Claim 6). Необходимо работать над узнаваемостью бренда, стимулировать закладки, использовать email-маркетинг и программы лояльности.
    • Улучшение глубокой вовлеченности: Работайте над UX и контентом, чтобы пользователи решали свою задачу и проводили на сайте больше времени. Патент явно выделяет обращения с длительностью более 120 секунд как важный признак.
    • Обеспечение естественности профиля ПФ: Развивайте сайт гармонично. Механизм оценки согласованности признаков (Claim 2) требует, чтобы все метрики выглядели естественно и коррелировали друг с другом (например, рост прямого трафика должен сопровождаться ростом возвратов).
    • Контроль монетизации: Следите за «долей исходящего трафика от хоста к рекламе» (Claim 6), так как это является одним из признаков качества.

    Worst practices (это делать не надо)

    • Накрутка поведенческих факторов (ПФ): Агрессивные манипуляции ПФ (боты, мотивированный трафик) становятся опасными. Во-первых, несогласованность метрик будет выявлена (Claim 2). Во-вторых, если система зафиксирует аномально высокие метрики качества при низком трафике/лояльности (Необработанная > Эталонная), она активирует механизм понижения (Claim 9).
    • Имитация сигналов крупных сайтов без реальной аудитории: Попытки искусственно создать профиль поведенческих сигналов, характерный для лидера ниши, не имея сопоставимого объема трафика или базовой лояльности, будут нейтрализованы этим алгоритмом нормализации.
    • Фокус только на привлечении нового трафика в ущерб удержанию: Привлечение большого объема трафика без работы над его лояльностью приведет к низким оценкам качества по ключевым метрикам.

    Стратегическое значение

    Патент демонстрирует высокую зрелость Яндекса в использовании поведенческих факторов. Он подтверждает, что Яндекс не просто использует эти факторы, но и обладает сложными механизмами для их валидации, оценки согласованности и нормализации. Стратегически это означает, что для успешного SEO необходимо строить реальный бизнес с лояльной аудиторией. Краткосрочные манипуляции становятся менее эффективными против системы, которая ожидает естественной корреляции между популярностью, лояльностью и качеством.

    Практические примеры

    Сценарий 1: Небольшой сайт с аномально высокими ПФ (Подавление)

    1. Ситуация: Новый интернет-магазин (Низкий трафик) имеет аномально высокие показатели вовлеченности (длинные клики > 120 сек) из-за накрутки или исключительного качества.
    2. Расчеты Яндекса: Система вычисляет высокую Необработанную оценку качества (например, 0.8). Эталонная оценка для его размера составляет 0.3.
    3. Действие системы (Claim 9): Фиксируется значительное превышение (0.8 > 0.3). Активируется механизм корректировки.
    4. Результат: Скорректированная оценка качества оказывается значительно ниже 0.8. Ранжированная позиция сайта понижается по сравнению с той, которую он мог бы занять без нормализации.

    Сценарий 2: Крупный бренд с посредственной вовлеченностью (Поддержка)

    1. Ситуация: Известный новостной портал (Высокий трафик) имеет средние показатели вовлеченности из-за большого количества мимолетного трафика.
    2. Расчеты Яндекса: Система вычисляет Необработанную оценку качества (например, 0.6). Эталонная оценка для его размера составляет 0.75 (согласно Кривой Тренда).
    3. Действие системы (Claim 9): Фиксируется отставание (0.6 < 0.75). Активируется механизм корректировки.
    4. Результат: Скорректированная оценка качества оказывается выше 0.6. Ранжированная позиция сайта повышается по сравнению с той, которую он заслужил бы только по своим текущим метрикам вовлеченности.

    Вопросы и ответы

    Что является главной идеей этого патента?

    Главная идея заключается в том, что Яндекс не оценивает качество сайта в вакууме, а сравнивает его с ожидаемым (эталонным) уровнем качества для сайтов аналогичной популярности или лояльности. Система исходит из предположения, что существует естественная корреляция между этими параметрами. Любые значительные отклонения от этой корреляции нормализуются с помощью петли обратной связи, что стабилизирует выдачу и защищает ее от манипуляций.

    Почему Яндекс понижает сайты, если их качество выше ожидаемого (Необработанная > Эталонная)? Разве это логично?

    Это контринтуитивный механизм (Claim 9), направленный на борьбу с манипуляциями и стабилизацию выдачи. Аномально высокое качество при низком трафике часто является признаком накруток ПФ или статистическим выбросом. Понижая такие сайты, Яндекс предотвращает их слишком быстрое и, возможно, необоснованное попадание в ТОП, заставляя их сначала доказать естественность своих показателей ростом аудитории.

    Почему Яндекс повышает сайты, если их качество ниже ожидаемого (Необработанная < Эталонная)?

    Это также механизм стабилизации (Claim 9). Если у крупного или лояльного сайта временно упали метрики вовлеченности, система дает ему некоторую поддержку (буст), предполагая, что его фундаментальная ценность выше текущих показателей. Это не позволяет крупным игрокам резко падать из-за временных проблем и подтягивает их к среднему уровню.

    Значит ли это, что новым и небольшим сайтам теперь сложнее ранжироваться?

    Да, это может усложнить продвижение. Если маленький сайт демонстрирует аномально высокие метрики качества (даже если они естественные — «скрытая жемчужина»), система может понизить его ранжированную позицию для нормализации. Для успеха необходим сбалансированный и органичный рост как качества, так и аудитории, а не только фокус на метриках.

    Как рассчитывается «Необработанная оценка качества»? Учитывается ли естественность ПФ?

    Да, естественность учитывается. Патент описывает сложный метод (Claim 2), использующий ансамбль алгоритмов, которые предсказывают значение одного признака на основе других. Вес в итоговой оценке зависит от того, насколько хорошо признаки коррелируют (согласованы) между собой. Если метрики несогласованы (например, много длинных кликов, но нет прямых заходов), оценка будет снижена. Это механизм антифрода.

    Какие метрики наиболее важны для оценки качества согласно патенту?

    Патент (Claim 6) выделяет метрики лояльности и вовлеченности: коэффициент ежемесячного возврата пользователей, длительная привязанность, процент обращений с длительностью клика более 120 секунд, а также процент и абсолютное количество уникальных прямых обращений (Direct Traffic). Также учитывается доля исходящего трафика на рекламу.

    Что такое Кривая Тренда и почему она логарифмическая?

    Кривая Тренда описывает зависимость между трафиком/лояльностью и ожидаемым качеством. Использование логарифмической функции ($f(x)=a\cdot np.log(b \cdot x+c)$) означает, что с ростом трафика ожидаемое качество растет, но постепенно замедляется (эффект насыщения). То есть, чем больше сайт, тем сложнее ему поддерживать экстремально высокие показатели качества на единицу трафика.

    Что используется как база для сравнения: объем трафика (MAU) или лояльность (возвраты)?

    В патенте есть неоднозначность. В Claims 1, 8 упоминается «уровень трафика» (MAU/WAU/DAU). Однако в формуле корректировки (Claim 5) параметр visitors определяется как «коэффициент ежемесячного возврата пользователей» (лояльность). Это предполагает, что система может использовать любой из этих показателей как основу для нормализации качества.

    Как этот патент соотносится с метрикой Proxima?

    Патент отлично вписывается в экосистему Proxima. Необработанная оценка качества, основанная на лояльности, вовлеченности и прямом трафике, очень похожа на компоненты Proxima. Данный патент описывает конкретный механизм того, как эти метрики валидируются (Claim 2) и корректируются/нормализуются (Claim 9) с учетом профиля аудитории перед применением в финальной формуле ранжирования.

    Как этот патент влияет на стратегию работы с ПФ?

    Стратегия должна сместиться от попыток максимизации метрик любой ценой к обеспечению их органичности, согласованности и соответствия размеру аудитории. Необходимо фокусироваться на реальном улучшении пользовательского опыта, стимулировании лояльности и росте узнаваемости бренда. Любые искусственные методы улучшения ПФ несут высокие риски активации механизма подавления.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.