Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс искусственно создает волатильность трафика для подозрительных коммерческих сайтов, чтобы бороться с мошенничеством

    СПОСОБ И СЕРВЕР ДЛЯ РАНЖИРОВАНИЯ ЦИФРОВЫХ ДОКУМЕНТОВ В ОТВЕТ НА ЗАПРОС (Method and server for ranking digital documents in response to a request)
    • RU2818279C2
    • Yandex LLC
    • 2024-04-27
    • 2020-12-30
    2024 E-commerce SEO SERP Антикачество Антиспам Патенты Яндекс Ранжирование

    Яндекс патентует анти-фрод механизм, направленный на подозрительные коммерческие сайты (низкое качество, низкий трафик). Система искусственно манипулирует их ранжированием, чередуя периоды повышения и понижения позиций с помощью случайных значений. Цель — создать резкие перепады трафика, чтобы демотивировать владельцев ресурса продолжать потенциально мошенническую деятельность.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу проактивной борьбы с мошенническими коммерческими ресурсами. Традиционные методы обнаружения мошенничества часто реактивны и срабатывают уже после того, как пользователи понесли ущерб. Данное изобретение направлено на то, чтобы сделать мошенническую деятельность экономически нестабильной или невыгодной, тем самым демотивируя операторов таких ресурсов,. Система выявляет подозрительные коммерческие ресурсы и регулирует трафик к ним для снижения риска мошенничества.

    Что запатентовано

    Запатентован способ и система для манипулирования ранжированием подозрительных коммерческих ресурсов с целью борьбы с мошенничеством. Суть изобретения заключается в идентификации сайтов с низким трафиком и низким качеством и последующем искусственном увеличении волатильности их трафика. Это достигается путем введения случайно выбранных значений (положительных и отрицательных) в процесс ранжирования в чередующиеся временные интервалы.

    Как это работает

    Система работает в несколько этапов. Сначала определяются подозрительные коммерческие ресурсы путем фильтрации: исключаются сайты с высоким трафиком и высоким качеством. Для оставшихся ресурсов система генерирует чередующиеся случайные значения. В течение первого временного интервала (T1) используется положительное значение, что приводит к искусственному повышению позиций (позиция повышенного ранга). В течение второго интервала (T2) используется отрицательное значение, что приводит к понижению позиций (позиция пониженного ранга). Это создает максимальный разрыв в пользовательском трафике (Traffic Gap) между T1 и T2. Предполагается, что такая нестабильность заставит оператора ресурса отказаться от мошеннической схемы.

    Актуальность для SEO

    Высокая. Борьба с мошенничеством и низкокачественными коммерческими сайтами (Anti-Quality) является постоянным приоритетом для Яндекса. Описанный механизм интеграции внешних сигналов (случайных значений) в основную модель ранжирования (MLA, которая может быть реализована на базе CatBoost) через специальное обучение является технически реализуемым и актуальным подходом для контроля качества выдачи.

    Важность для SEO

    Влияние на SEO значительно (7/10). Хотя это в первую очередь анти-фрод механизм, он имеет критическое значение для всех коммерческих сайтов. Патент детально описывает критерии, по которым Яндекс определяет «высококачественные ресурсы» (используя конкретные метрики лояльности аудитории). Если легитимный коммерческий сайт классифицируется как низкокачественный и имеет низкий трафик, этот механизм может быть активирован, что приведет к экстремальной и искусственной волатильности позиций и трафика.

    Детальный разбор

    Термины и определения

    Алгоритм Рандомизации (Algorithm of Randomization)
    Алгоритм, используемый для генерирования случайно выбранных значений (положительных или отрицательных), которые применяются к целевым документам для манипулирования их рангом.
    Коммерческий ресурс (Commercial Resource)
    Ресурс, документы которого предоставляются в ответ на коммерческие запросы (запросы, содержащие предварительно определенные термы, такие как «купить», «цена»),.
    Модифицированная метка (Modified Label)
    Метка, используемая для обучения модели ранжирования (MLA). Она представляет собой комбинацию оценочной метки релевантности и обучающего случайно выбранного значения. Это позволяет обучить MLA учитывать случайные значения при ранжировании,.
    Подозрительный коммерческий ресурс (Поднабор коммерческих ресурсов)
    Коммерческие ресурсы, оставшиеся после фильтрации ресурсов с высоким трафиком и высоким качеством. Являются основными целями для описанного механизма манипулирования ранжированием.
    Показатель качества (Quality Score/Metric)
    Метрика, используемая для определения высококачественных ресурсов. В патенте (Формула п.1,) явно перечислены компоненты этой метрики: количество возвращающихся пользователей, положительные отзывы, соотношение прямых посещений, долгосрочное удержание, доля кликов по рекламе от исходящих переходов, доля длительных сеансов.
    Разрыв в пользовательском трафике (Traffic Gap)
    Разница в объеме трафика к целевому документу между первым (повышенным) и вторым (пониженным) временными интервалами. Максимизация этого разрыва является целью изобретения,.
    Случайно выбранное значение (Randomly Selected Value)
    Значение (положительное для повышения, отрицательное для понижения), сгенерированное алгоритмом рандомизации и используемое как входной сигнал для модели ранжирования.
    Целевой ресурс/документ (Target Resource/Document)
    Ресурс (и размещенный на нем документ) из поднабора подозрительных коммерческих ресурсов, к которому применяется механизм искусственного изменения ранга.

    Ключевые утверждения (Анализ Claims)

    Патент описывает систему проактивной борьбы с мошенничеством путем идентификации подозрительных сайтов и манипулирования их трафиком.

    Claim 1 (Независимый пункт): Описывает основной способ работы системы.

    1. Извлечение данных прошлых поисков.
    2. Определение множества коммерческих ресурсов.
    3. Определение поднабора коммерческих ресурсов (подозрительных) путем фильтрации группы ресурсов, у которых показатель трафика ИЛИ показатель качества превышает соответствующие пороги.
    4. Критически важно: В этом пункте явно определяются компоненты Показателя качества: количество/процент возвращающихся пользователей, положительные отзывы, соотношение прямых посещений, долгосрочное удержание, доля кликов по рекламе (исходящих), доля длительных сеансов.
    5. Выбор Целевого ресурса из этого поднабора.
    6. Генерирование Первого случайного значения для ранжирования в течение Первого временного интервала (T1).
    7. В течение T1: Генерирование первого ранжированного списка, где целевой документ находится на позиции повышенного ранга (за счет Первого значения).
    8. Генерирование Второго случайного значения для ранжирования в течение Второго временного интервала (T2).
    9. В течение T2: Генерирование второго ранжированного списка, где целевой документ находится на позиции пониженного ранга (за счет Второго значения).
    10. Цель: Позиция в T1 выше позиции в T2 для увеличения разрыва в пользовательском трафике.

    Claim 3: Уточняет, что Алгоритм рандомизации генерирует положительное значение для T1 и отрицательное значение для T2.

    Claim 6 и 7: Описывают интеграцию механизма в модель машинного обучения (MLA).

    • Генерирование ранжированных списков выполняется MLA, обученным ранжировать на основе (i) релевантности и (ii) случайных значений (Claim 6).
    • Процесс обучения MLA (Claim 7):
      • Получение обучающих данных (запрос, документ, случайное значение, метка релевантности).
      • Генерирование Модифицированной метки как комбинации метки релевантности и случайного значения.
      • Обучение MLA предсказывать эту Модифицированную метку. Это ключевой момент, позволяющий MLA учитывать случайные значения как факторы ранжирования.

    Claim 8: Детализирует процесс фильтрации (идентификации подозрительных ресурсов).

    • Определение коммерческих ресурсов на основе прошлых коммерческих запросов (содержащих предварительно определенные термы).
    • Фильтрация путем удаления ресурсов с высоким трафиком (применение порога трафика).
    • Дальнейшая фильтрация путем удаления высококачественных ресурсов (применение порога качества).

    Где и как применяется

    Изобретение затрагивает офлайн-процессы оценки качества и непосредственно этап ранжирования.

    INDEXING / Офлайн-вычисления (Слой Качества и Метрик)
    На этом этапе происходит предварительная оценка ресурсов и их классификация.

    • Вычисление Показателей качества (на основе метрик лояльности, прямых визитов и т.д.) и Показателей трафика для всех коммерческих ресурсов,. Это связано с работой метрик Proxima.
    • Применение порогов для идентификации «Поднабора коммерческих ресурсов» (подозрительных сайтов). Эта информация сохраняется в индексе или базе данных.
    • Обучение модели ранжирования (MLA) с использованием Модифицированных меток.

    RANKING – Ранжирование (Вероятно L3/Upper Reranking)
    Основное применение происходит во время ранжирования документов в реальном времени.

    • Когда документ-кандидат идентифицируется как принадлежащий к Целевому ресурсу (из подозрительного поднабора).
    • Система определяет текущий временной интервал (например, T1 или T2) и извлекает соответствующее Случайно выбранное значение (положительное или отрицательное).
    • Это значение подается на вход основной модели ранжирования (MLA) вместе с другими признаками документа.
    • MLA, обученная согласно патенту, генерирует скорректированную оценку ранжирования, что приводит к искусственному повышению или понижению документа в выдаче,.

    На что влияет

    • Специфические запросы: Влияет преимущественно на коммерческие запросы.
    • Конкретные ниши: E-commerce, сайты услуг и другие коммерческие тематики, где возможны мошеннические схемы.
    • Типы сайтов: Влияет исключительно на сайты, классифицированные как коммерческие, имеющие низкий трафик и низкие показатели качества (согласно метрикам Яндекса). Крупные бренды, трастовые магазины и сайты с высокой лояльностью аудитории не затрагиваются.

    Когда применяется

    • Условия активации: Алгоритм активируется, когда выполняются все условия: (1) Запрос имеет коммерческий интент; (2) Документ принадлежит ресурсу, который (3) не прошел фильтр по трафику (низкий трафик) И (4) не прошел фильтр по качеству (низкое качество).
    • Временные рамки: Применяется постоянно, но эффект чередуется. Система переключается между интервалами повышения (T1) и понижения (T2). Патент указывает, что интервалы могут иметь общую (одинаковую) продолжительность и последовательно сменяют друг друга.

    Пошаговый алгоритм

    Процесс А: Офлайн-подготовка и классификация

    1. Идентификация коммерческих ресурсов: Анализ данных прошлых поисков для выявления ресурсов, отвечающих на коммерческие запросы (содержащие стоп-слова типа «купить», «цена»)-[108].
    2. Сбор метрик: Сбор данных о трафике и качестве (прямые визиты, длительные сессии, удержание и т.д.) для этих ресурсов.
    3. Фильтрация (Трафик): Применение порога трафика. Ресурсы с высоким трафиком исключаются.
    4. Фильтрация (Качество): Применение порога качества. Ресурсы с высоким качеством исключаются.
    5. Определение Целевой Группы: Формирование поднабора подозрительных коммерческих ресурсов (низкий трафик, низкое качество).
    6. Настройка Рандомизации: Определение временных интервалов (T1, T2) и генерирование соответствующих случайных значений (положительных и отрицательных) для целевых ресурсов.

    Процесс Б: Обучение MLA (Офлайн)

    1. Подготовка данных: Сбор обучающих пар (документ-запрос) с метками релевантности.
    2. Генерация Модифицированных Меток: Комбинирование меток релевантности со случайными значениями.
    3. Обучение: Обучение MLA предсказывать модифицированную метку, используя признаки документа и само случайное значение как входные данные.

    Процесс В: Ранжирование в реальном времени

    1. Получение запроса.
    2. Идентификация кандидатов.
    3. Проверка статуса: Определение, принадлежит ли документ-кандидат к подозрительному поднабору.
    4. Извлечение значения: Если да, система определяет текущий временной интервал (например, T1) и извлекает соответствующее случайное значение (например, положительное).
    5. Ранжирование (MLA): Ввод в MLA признаков документа и извлеченного случайного значения.
    6. Корректировка ранга: MLA генерирует скорректированную оценку (повышенную в T1, пониженную в T2),.
    7. Формирование выдачи: Документ занимает искусственно измененную позицию.

    Какие данные и как использует

    Данные на входе

    Ключевыми данными в этом патенте являются метрики для оценки качества и трафика.

    • Поведенческие факторы и Метрики использования (Usage Metrics): Это наиболее важная группа факторов, используемая для расчета Показателя качества. Патент явно перечисляет (Формула п.1,):
      • Количество и/или процент возвращающихся пользователей (User Retention).
      • Соотношение прямых посещений к общему числу посещений (Direct Traffic Ratio).
      • Долгосрочное удержание (например, пользователи, посещающие сайт в течение более года).
      • Доля длительных сеансов из всех сеансов на ресурсе (Long Sessions Share).
      • Общий пользовательский трафик (для применения порога трафика).
    • Внешние факторы (Репутация):
      • Количество и/или процент положительных отзывов о ресурсе (Reputation/Reviews).
    • Контентные/Технические факторы (Сайта):
      • Доля кликов по рекламе на ресурсе от всех исходящих переходов в целом (Ad Click Share in Outgoing Traffic).
    • Контентные факторы (Запроса):
      • Термы запроса используются для определения коммерческого интента на основе предварительно определенного списка слов («купить», «цена» и т.д.).

    Какие метрики используются и как они считаются

    • Показатель качества (Quality Score): Агрегированная метрика, основанная на перечисленных выше поведенческих и внешних факторах. Конкретная формула агрегации не приводится, но указаны компоненты.
    • Показатель трафика (Traffic Score): Метрика объема пользовательского трафика.
    • Пороги (Thresholds): Основанный на трафике порог и основанный на качестве порог. Используются для бинарной классификации (высокий/низкий). Могут определяться эмпирически или как фиксированное значение/ранг,.
    • Случайно выбранное значение: Генерируется Алгоритмом Рандомизации. Является входным признаком для MLA.
    • Модифицированная метка (Modified Label): Используется при обучении MLA. Концептуально:

      $$Label_{modified} = F(Label_{relevance}, Value_{random})$$

    • Алгоритмы машинного обучения (MLA): Используется для ранжирования. Упоминаются нейронные сети и деревья решений (CatBoost). MLA обучается интегрировать случайное значение в финальную оценку ранжирования.

    Выводы

    1. Яндекс активно манипулирует выдачей для борьбы с мошенничеством: Это не алгоритм улучшения релевантности, а механизм контроля качества (Anti-Quality) и анти-фрода, который намеренно дестабилизирует трафик подозрительных сайтов, чтобы сделать их деятельность невыгодной.
    2. Четкое определение подозрительных коммерческих сайтов: Патент определяет цели как сайты, одновременно обладающие низким трафиком и низким качеством. Сайты с высоким трафиком ИЛИ высоким качеством исключаются.
    3. Критически важный список метрик качества Яндекса (Proxima): Патент предоставляет уникальный инсайт, явно перечисляя в Claim 1 метрики, используемые для оценки качества коммерческого сайта: прямые визиты, удержание пользователей (краткосрочное и долгосрочное), длительные сессии, положительные отзывы и доля исходящих кликов по рекламе. Это прямой список факторов для SEO.
    4. Механизм воздействия — Волатильность: Цель системы — не просто пессимизировать, а создать максимальный разрыв в трафике (Traffic Gap) путем чередования искусственных повышений и понижений позиций.
    5. Интеграция в основное ранжирование: Манипуляция осуществляется не пост-фильтрацией, а через основную модель ранжирования (MLA), которая специально обучена (с помощью Модифицированных меток) принимать случайные значения как управляющие сигналы.

    Практика

    Best practices (это мы делаем)

    Основная задача легитимного коммерческого сайта — избежать классификации в качестве «подозрительного ресурса».

    • Фокус на метриках лояльности и бренда: Необходимо активно работать над улучшением показателей качества, явно перечисленных в патенте (Формула п.1). Это подтверждает стратегическую важность построения бренда, а не только SEO-оптимизации.
    • Увеличение доли прямых посещений (Direct Traffic): Стимулируйте пользователей запоминать адрес сайта и вводить его напрямую или через закладки. Это сильный сигнал качества для Яндекса.
    • Работа над удержанием пользователей (Retention): Внедряйте механизмы для возврата пользователей (email-рассылки, программы лояльности). Яндекс отслеживает как краткосрочное, так и долгосрочное удержание.
    • Максимизация длительных сеансов: Улучшайте UX и качество контента (детальные описания товаров, полезные статьи, обзоры), чтобы пользователи проводили больше времени на сайте.
    • Управление репутацией (Reviews): Активно работайте над получением положительных отзывов на внешних площадках, так как они указаны как компонент показателя качества.
    • Мониторинг исходящего трафика на рекламу: Убедитесь, что сайт не выглядит как дорвей или MFA-ресурс. Доля кликов по исходящей рекламе не должна быть аномально высокой по отношению ко всем исходящим переходам.

    Worst practices (это делать не надо)

    • Запуск коммерческих проектов без стратегии бренда: Создание сайтов, полностью зависящих от поискового трафика, без инвестиций в прямые каналы и лояльность, повышает риск попадания под этот фильтр.
    • Игнорирование UX и поведенческих метрик: Если на сайте низкая доля длительных сессий и плохое удержание, это прямой путь к классификации сайта как низкокачественного.
    • Агрессивная монетизация через исходящую рекламу: Размещение большого количества исходящих рекламных блоков, на которые активно кликают пользователи, может снизить показатель качества согласно патенту.
    • Игнорирование отзывов: Негативная репутация или отсутствие отзывов у коммерческого сайта снижает его качество в глазах системы.

    Стратегическое значение

    Патент подтверждает стратегический курс Яндекса на оценку качества сайтов через метрики реального использования и лояльности аудитории (что коррелирует с метрикой Proxima). Он показывает, что для коммерческих сайтов недостаточно быть просто релевантными; необходимо демонстрировать признаки надежного бизнеса. Долгосрочная SEO-стратегия должна быть неразрывно связана с развитием продукта и бренда. Сайты, не сумевшие завоевать доверие и лояльность пользователей, рискуют столкнуться с искусственной дестабилизацией трафика.

    Практические примеры

    Сценарий 1: Выявление и манипулирование подозрительным сайтом

    1. Сайт: Новый интернет-магазин электроники. Трафик низкий, почти нет прямых заходов, пользователи редко возвращаются, сессии короткие.
    2. Действие системы (Офлайн): Яндекс анализирует метрики. Показатель трафика ниже порога. Показатель качества (из-за низкого Retention и Direct Traffic) ниже порога. Сайт попадает в поднабор «подозрительных».
    3. Действие системы (T1 — Повышение): Система назначает положительное случайное значение. В течение недели (T1) сайт ранжируется по запросу «купить смартфон модель Х» на 3 позиции (вместо естественной 9). Трафик резко возрастает.
    4. Действие системы (T2 — Понижение): Система назначает отрицательное случайное значение. В течение следующей недели (T2) сайт ранжируется по тому же запросу на 18 позиции. Трафик резко падает.
    5. Результат: Создан большой искусственный разрыв в трафике (Traffic Gap). Владелец сайта видит экстремальную нестабильность.

    Сценарий 2: Как выйти из-под действия алгоритма

    1. Проблема: SEO-специалист замечает сильную волатильность трафика, коррелирующую с чередованием высоких и низких позиций (эффект «пилы»), не связанную с апдейтами или работами на сайте.
    2. Анализ: Специалист проверяет метрики, указанные в патенте. Выявляется низкая доля прямых заходов и плохое удержание.
    3. Действия: Запускается медийная кампания для повышения узнаваемости бренда (увеличение прямых заходов). Внедряется программа лояльности и триггерные рассылки (улучшение Retention). Прорабатываются карточки товаров для увеличения вовлеченности (увеличение длительности сессий).
    4. Результат: Через некоторое время Показатель качества сайта превышает порог. Яндекс исключает сайт из поднабора «подозрительных», и механизм манипулирования ранжированием отключается. Волатильность снижается.

    Вопросы и ответы

    Какова основная цель этого патента Яндекса?

    Это не патент об улучшении релевантности. Его основная цель — проактивная борьба с мошенническими коммерческими сайтами. Вместо того чтобы ждать жалоб или постфактум выявлять мошенничество, Яндекс стремится демотивировать владельцев подозрительных ресурсов, искусственно создавая резкие перепады (волатильность) их поискового трафика, делая их деятельность нерентабельной.

    Как Яндекс определяет, что коммерческий сайт является «подозрительным»?

    Патент использует двухфакторную модель фильтрации методом исключения. Подозрительным считается коммерческий ресурс, который одновременно имеет (1) Низкий трафик и (2) Низкое качество. Если у сайта высокий трафик ИЛИ высокое качество, он исключается из числа подозрительных и не подвергается описанным манипуляциям.

    Какие конкретные метрики качества сайта перечислены в этом патенте?

    Это ключевой инсайт патента. В Формуле изобретения (п.1 и п.13) явно перечислены: количество/процент возвращающихся пользователей (Retention), количество/процент положительных отзывов, соотношение прямых посещений (Direct Traffic) к общему числу посещений, долгосрочное удержание пользователей, доля длительных сеансов и доля кликов по исходящей рекламе. Это фактически чек-лист для оценки качества коммерческого сайта Яндексом.

    Как именно система манипулирует ранжированием?

    Система использует Алгоритм Рандомизации для генерации случайных значений. В один период времени (T1) используется положительное значение, которое искусственно повышает позиции сайта (Boost). В следующий период (T2) используется отрицательное значение, которое искусственно понижает позиции (Demote). Это создает максимальный разрыв в трафике между T1 и T2.

    Как случайные значения интегрируются в основную формулу ранжирования (MLA)?

    Патент описывает специальный метод обучения MLA. Модель обучается не на чистых метках релевантности, а на «Модифицированных метках» — комбинации релевантности и случайного значения. Благодаря этому, при получении на вход случайного значения во время реального ранжирования, модель знает, как скорректировать итоговую оценку (повысить или понизить).

    Затрагивает ли этот механизм все сайты?

    Нет. Он направлен исключительно на коммерческие ресурсы, которые были классифицированы как подозрительные (низкий трафик + низкое качество). Крупные бренды, авторитетные интернет-магазины и сайты с высокой лояльностью аудитории не должны затрагиваться этим механизмом.

    Мой трафик очень нестабилен. Значит ли это, что мой сайт попал под этот алгоритм?

    Это возможно, если ваш сайт является коммерческим и имеет низкие показатели качества (особенно по прямым заходам и удержанию). Характерным признаком работы этого алгоритма будет чередование периодов аномально хороших позиций (и высокого трафика) с периодами аномально плохих позиций (и низкого трафика), не связанное с внешними событиями или апдейтами.

    Как защитить свой коммерческий сайт от этого механизма?

    Единственный способ — выйти из категории «подозрительных» ресурсов. Для этого необходимо сосредоточиться на улучшении метрик качества, перечисленных в патенте. Ключевыми являются построение бренда, увеличение доли прямых посещений и работа над долгосрочным удержанием аудитории (Retention).

    Является ли это пессимизацией или фильтром?

    Это скорее механизм манипулирования или дестабилизации. Он включает в себя как периоды пессимизации (понижения), так и периоды искусственного бустинга (повышения). Цель — не наказать за конкретное нарушение, а создать невыносимые условия для ведения потенциально мошеннической деятельности за счет непредсказуемости трафика.

    Насколько важны прямые заходы (Direct Traffic) согласно этому патенту?

    Они критически важны. Соотношение прямых посещений к общему трафику явно указано как один из ключевых компонентов Показателя качества. Высокая доля прямого трафика свидетельствует о силе бренда и лояльности аудитории, что снижает вероятность того, что сайт является мошенническим.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.