Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс искусственно создает нестабильность трафика для борьбы с потенциально мошенническими сайтами

    METHOD AND SERVER FOR RANKING DIGITAL DOCUMENTS IN RESPONSE TO A QUERY (Метод и сервер для ранжирования цифровых документов в ответ на запрос)
    • US20220207094A1
    • Yandex LLC
    • 2022-06-30
    • 2021-08-11
    2022 SERP Антикачество Антиспам Обучение моделей Патенты Яндекс Ранжирование

    Яндекс патентует метод борьбы с мошенничеством путем манипулирования ранжированием подозрительных коммерческих сайтов. Система периодически повышает и понижает эти сайты в выдаче, используя случайные значения. Цель — создать сильные колебания трафика (Gap in user traffic), чтобы демотивировать владельцев продолжать мошеннические схемы, делая их невыгодными.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему реактивного обнаружения мошенничества (fraud detection) в коммерческих поисковых результатах. Традиционные методы часто выявляют мошеннические ресурсы уже после того, как пользователи пострадали. Изобретение предлагает механизм проактивного сдерживания: оно направлено на то, чтобы отпугнуть операторов мошеннических ресурсов, делая их деятельность невыгодной за счет дестабилизации поискового трафика.

    Что запатентовано

    Запатентована система ранжирования, которая целенаправленно вводит рандомизацию для выбранных целевых ресурсов (Target Resources). Суть изобретения заключается в искусственном увеличении вариативности (разрыва) пользовательского трафика (Gap in user traffic) на эти ресурсы в разные промежутки времени. Это достигается путем последовательного чередования искусственного повышения и понижения позиций сайта в поисковой выдаче.

    Как это работает

    Система сначала идентифицирует потенциально мошеннические коммерческие сайты, исключая высокотрафиковые и высококачественные ресурсы (Claim 8). Для оставшихся целевых сайтов генерируются случайные значения (Randomly-selected values). В течение первого временного интервала применяется одно значение (например, положительное), что приводит к искусственному повышению позиций сайта (Promoted-rank position). В течение второго интервала применяется другое значение (например, отрицательное), что приводит к понижению позиций (Demoted-rank position). Эта искусственно созданная нестабильность трафика призвана демотивировать владельцев сайта.

    Актуальность для SEO

    Высокая. Борьба с мошенничеством и обеспечение безопасности и качества коммерческой выдачи (особенно в E-commerce) являются критически важными и постоянными задачами для поисковых систем. Описанный проактивный подход к сдерживанию мошенников актуален.

    Важность для SEO

    Влияние на SEO значительно (7/10). Патент описывает механизм прямой манипуляции ранжированием, направленный против потенциальных мошенников. Ключевое значение для SEO имеет понимание того, как Яндекс идентифицирует «целевые ресурсы». Существует риск того, что легитимные коммерческие сайты с низким трафиком или новые проекты могут быть ошибочно классифицированы как потенциально опасные и подвергнуться искусственной дестабилизации ранжирования.

    Детальный разбор

    Термины и определения

    Commercial Queries (Коммерческие запросы)
    Запросы, указывающие на коммерческий интент пользователя. Определяются по наличию предопределенных терминов, таких как «купить», «цена» («buy», «price») и т.д.
    Demoted-rank position (Пониженная позиция)
    Искусственно заниженная позиция в SERP, достигаемая путем применения (вероятно, отрицательного) Randomly-selected Value.
    Filtering Algorithm (Алгоритм фильтрации)
    Процесс, используемый для идентификации Target Resources путем исключения коммерческих ресурсов, которые с высокой вероятностью не являются мошенническими (т.е. High-traffic и High-quality resources).
    Gap in user traffic (Разрыв в пользовательском трафике)
    Разница в объеме трафика, полученного целевым документом между интервалом повышения и интервалом понижения позиций. Увеличение этого разрыва является целью изобретения.
    Modified Label (Модифицированная метка)
    Синтетическая метка, используемая для обучения MLA. Генерируется как комбинация оценочной метки релевантности (Assessed Label) и случайного значения (Training Randomly-selected Value) (Claim 7).
    Promoted-rank position (Повышенная позиция)
    Искусственно завышенная позиция в SERP, достигаемая путем применения (вероятно, положительного) Randomly-selected Value.
    Randomly-selected Value (Случайно выбранное значение)
    Значение (положительное или отрицательное), сгенерированное алгоритмом рандомизации, которое используется для корректировки ранжирования целевого документа в определенный временной интервал.
    Target Resource (Целевой ресурс)
    Ресурс (веб-сайт), идентифицированный системой как объект для применения механизма рандомизации. Вероятно, это коммерческий сайт, подозреваемый в мошенничестве (не являющийся ни высокотрафиковым, ни высококачественным).

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной процесс искусственного создания волатильности трафика.

    1. Идентификация Target Resource и Target Document.
    2. Генерация первого случайного значения (First Randomly-selected Value) для Первого временного интервала (T1).
    3. В течение T1: Ранжирование документа с использованием этого значения, что приводит к Повышенной позиции (Promoted-rank position).
    4. Генерация второго случайного значения (Second Randomly-selected Value) для Второго временного интервала (T2).
    5. В течение T2: Ранжирование документа с использованием этого значения, что приводит к Пониженной позиции (Demoted-rank position).
    6. Условие: Повышенная позиция выше Пониженной.
    7. Цель: Увеличение разрыва в трафике (Gap in user traffic) между T1 и T2.

    Claim 3 (Зависимый): Уточняет, что для повышения используется положительное значение, а для понижения — отрицательное.

    Claim 6 и 7 (Зависимые): Описывают критически важную деталь реализации — интеграцию в модель машинного обучения (MLA).

    • Ранжирование выполняется MLA, обученным учитывать как релевантность, так и случайные значения (Claim 6).
    • Способ обучения (Claim 7): Система не использует стандартные метки релевантности (Assessed Labels) для обучения. Вместо этого она создает Modified Label путем комбинирования Assessed Label и случайного значения. MLA обучается предсказывать именно Modified Label. Это означает, что механизм рандомизации встроен непосредственно в основную формулу ранжирования.

    Claim 8 (Зависимый): Описывает процесс фильтрации для определения Target Resource (Кого атаковать).

    1. Анализ исторических данных поиска.
    2. Идентификация Commercial Resources (сайтов, отвечающих на коммерческие запросы).
    3. Фильтр 1: Удаление High-traffic resources (применение порога по трафику).
    4. Фильтр 2: Удаление High-quality resources (применение порога по качеству).
    5. Оставшиеся сайты становятся Target Resources.

    Claims 10 и 11 (Зависимые): Подчеркивают логику фильтрации: высокотрафиковые и высококачественные ресурсы с высокой вероятностью не являются мошенническими и исключаются из обработки.

    Где и как применяется

    Изобретение затрагивает офлайн-процессы (обработку данных и обучение) и онлайн-ранжирование.

    Офлайн-процессы (INDEXING / Data Analysis)
    Значительная часть работы происходит офлайн:

    • Идентификация целей: Анализ исторических данных поиска для определения коммерческих ресурсов, расчет метрик трафика и качества, применение Filtering Algorithm для выбора Target Resources (Claim 8).
    • Обучение модели: Обучение основного Ranking Model (MLA) с использованием Modified Labels для интеграции механизма рандомизации (Claim 7).

    RANKING (Вероятно, уровни L2/L3)
    Основное применение патента происходит во время ранжирования.

    • Входные данные: Запрос, документы-кандидаты, идентификатор текущего временного интервала, предопределенное Randomly-selected Value, связанное с документом/ресурсом для текущего интервала.
    • Процесс: Ranking Model (MLA) использует признаки релевантности И Randomly-selected Value для расчета финального ранжирующего балла. Поскольку модель была обучена на Modified Labels, она нативно учитывает это значение.
    • Выходные данные: Ранжированный список документов (SERP) с манипулированными позициями для целевых документов.

    На что влияет

    • Конкретные типы контента и ниши: Влияет исключительно на коммерческие ресурсы (E-commerce, услуги и т.д.), отвечающие на Commercial Queries.
    • Критерии таргетинга: Алгоритм специфически нацелен на сайты, которые одновременно НЕ являются высокотрафиковыми И НЕ являются высококачественными. Это означает, что под наибольшим риском находятся малые бизнесы, новые игроки рынка или нишевые коммерческие сайты.
    • Специфические запросы: Влияние проявляется при обработке коммерческих запросов, по которым ранжируются целевые сайты.

    Когда применяется

    • Условия активации: Механизм активируется, когда документ, идентифицированный как Target Document (размещенный на Target Resource), рассматривается для ранжирования в ответ на запрос.
    • Временные рамки: Применение зависит от текущего временного интервала. Система чередует интервалы повышения (T1) и понижения (T2). Эти интервалы последовательно сменяют друг друга (Claim 15) и могут иметь одинаковую продолжительность (Claim 12).

    Пошаговый алгоритм

    Фаза А: Офлайн-подготовка (Фильтрация и Обучение)

    1. Идентификация коммерческих ресурсов: Анализ исторических данных поиска для выявления ресурсов, отвечающих на коммерческие запросы (содержащие предопределенные коммерческие термины).
    2. Фильтрация по трафику: Расчет метрик пользовательского трафика. Применение порога для исключения высокотрафиковых ресурсов (High-Traffic resources).
    3. Фильтрация по качеству: Расчет метрик качества (например, возвращаемость пользователей, отзывы, прямые заходы, долгосрочная лояльность). Применение порога для исключения высококачественных ресурсов (High-Quality resources).
    4. Выбор целевых ресурсов: Оставшиеся ресурсы формируют набор Target Resources (потенциально мошеннические/низкокачественные/низкотрафиковые коммерческие сайты).
    5. Обучение MLA: Обучение ранжирующей модели MLA с использованием модифицированных меток (Modified Labels = Assessed Relevance Label + Training Randomly-Selected Value). Модель учится корректировать баллы на основе введенных случайных значений (Claim 7).

    Фаза Б: Исполнение в реальном времени (Манипуляция ранжированием)

    1. Генерация и присвоение значений: Генерация Randomly-selected Values (например, положительное значение для интервала T1, отрицательное для T2) и их присвоение целевым документам/ресурсам.
    2. Получение запроса: Поступление пользовательского запроса.
    3. Извлечение признаков: Для каждого документа-кандидата извлекаются признаки релевантности. Если документ является целевым, извлекается также Randomly-selected Value, присвоенное для текущего временного интервала.
    4. Ранжирование (Исполнение MLA): Обученная MLA рассчитывает ранжирующий балл, используя как признаки релевантности, так и извлеченное случайное значение.
    5. Генерация SERP: Формирование ранжированного списка.
      • Если T1 (Интервал повышения): Целевой документ появляется на Promoted-rank position.
      • Если T2 (Интервал понижения): Целевой документ появляется на Demoted-rank position.

    Какие данные и как использует

    Данные на входе

    • Поведенческие факторы (Данные о трафике): Критически важны для процесса фильтрации. Используются для идентификации High-traffic resources. Также используются для расчета метрик качества: процент возвратов пользователей, прямые заходы, долгосрочная лояльность (long-term retention), продолжительность сессий.
    • Временные факторы: Система опирается на определенные временные интервалы (T1, T2) для применения различных значений рандомизации.
    • Системные/Внутренние данные:
      • Исторические данные поиска (логи запросов и результатов).
      • Список предопределенных коммерческих терминов.
      • Randomly-selected Values (генерируются Randomization Algorithm).
      • Assessed Labels (оценки релевантности для обучения MLA).

    Какие метрики используются и как они считаются

    • User-traffic metric (Метрика трафика): Используется для сравнения с Traffic-based threshold для определения высокотрафиковых сайтов.
    • Quality metric (Метрика качества): Используется для сравнения с Quality-based threshold. Патент приводит конкретные примеры:
      • Количество/процент возвращающихся пользователей.
      • Положительные отзывы.
      • Доля прямых заходов (direct visits).
      • Долгосрочное удержание (long-term retention).
      • Доля кликов по рекламе.
      • Доля длинных сессий.
    • Modified Label (Модифицированная метка): Синтетическая метрика для обучения MLA. Рассчитывается как комбинация Assessed Label и Training Randomly-selected Value (Claim 7).

    Выводы

    1. Проактивная борьба с мошенничеством через дестабилизацию: Яндекс использует механизм, который не пытается определить факт мошенничества напрямую, а стремится сделать его экономически невыгодным путем искусственного создания высокой волатильности поискового трафика.
    2. Критерии таргетинга: Низкий Трафик + Низкое Качество: Система целенаправленно исключает высокотрафиковые и высококачественные коммерческие ресурсы. Под действие алгоритма попадают только те сайты, которые имеют низкие показатели как по трафику, так и по метрикам качества (Claim 8).
    3. Механизм: Чередование повышения и понижения: Дестабилизация достигается путем периодического «вброса» положительных и отрицательных случайных значений в формулу ранжирования, что приводит к чередованию интервалов искусственного повышения и понижения позиций сайта.
    4. Глубокая интеграция в ядро ранжирования (MLA): Рандомизация интегрирована непосредственно в обучение основной модели ранжирования через использование «Modified Labels» (Claim 7). Модель нативно учитывает эти случайные значения при расчете итогового балла.
    5. Риск для легитимных малых/новых проектов: Основной вывод для SEO — существует явный риск для легитимных малых или новых коммерческих сайтов. Они объективно могут иметь низкий трафик и еще не накопленные сигналы качества, попадая под критерии фильтрации и подвергаясь искусственной дестабилизации ранжирования.

    Практика

    Best practices (это мы делаем)

    • Фокус на метриках качества (Trust Signals): Необходимо приоритизировать работу над метриками, которые Яндекс использует для определения «High-Quality Resource». Это включает: повышение процента возвратов пользователей (retention), стимулирование положительных отзывов на внешних площадках, увеличение доли прямых заходов (direct visits/bookmarks) и увеличение продолжительности сессий.
    • Построение стабильных и диверсифицированных источников трафика: Критически важно снижать зависимость от органического поиска, особенно на старте проекта. Высокая доля прямого, реферального и брендового трафика помогает быстрее попасть в категорию «High-Quality» или «High-Traffic» и избежать активации этого механизма.
    • Мониторинг волатильности трафика и позиций: Необходимо внимательно отслеживать необъяснимые резкие скачки и падения трафика/позиций, которые происходят периодически. Если сайт коммерческий и имеет невысокий трафик, такая волатильность может быть результатом работы описанного алгоритма.

    Worst practices (это делать не надо)

    • Запуск коммерческого сайта исключительно под SEO: Стратегия запуска нового E-commerce проекта с расчетом только на органический трафик несет высокие риски. Без накопленных сигналов качества и объема трафика сайт попадает в зону риска и может быть подвергнут искусственной дестабилизации.
    • Игнорирование User Experience и Retention: Развитие коммерческого сайта без стратегии удержания пользователей и улучшения UX (что приводит к низкому проценту возвратов и коротким сессиям) увеличивает вероятность классификации сайта как «Low-Quality» и активации анти-фрод механизма.

    Стратегическое значение

    Патент демонстрирует готовность Яндекса искусственно манипулировать ранжированием ради обеспечения безопасности коммерческой выдачи. Он также предоставляет четкий перечень поведенческих метрик, используемых для определения надежности сайта (Trust). Стратегически, для коммерческих сайтов сигналы качества, лояльности аудитории и объем трафика становятся не просто факторами ранжирования, а защитными механизмами, позволяющими избежать попадания под действие этого анти-фрод алгоритма.

    Практические примеры

    Сценарий: Запуск нового нишевого интернет-магазина

    1. Ситуация: Запускается новый интернет-магазин по продаже узкоспециализированного оборудования. Трафик изначально низкий, история сайта отсутствует.
    2. Риск (Действие системы): Сайт соответствует профилю Target Resource (Коммерческий, Низкий трафик, Сигналы качества не накоплены). Система активирует механизм рандомизации. В течение недели магазин получает неожиданно высокие позиции и трафик (T1, Promotion Interval). На следующей неделе позиции резко падают ниже ожидаемых (T2, Demotion Interval), трафик исчезает. Владелец видит крайнюю нестабильность.
    3. Стратегия Митигации (SEO): Чтобы выйти из-под действия алгоритма, необходимо как можно быстрее нарастить сигналы «High-Quality».
      1. Стимулировать прямые заходы и возвраты: Запустить контекстную и таргетированную рекламу, email-маркетинг, программы лояльности.
      2. Работать над UX для увеличения длины сессий.
      3. Активно собирать отзывы на внешних платформах.
    4. Цель: Достичь пороговых значений по метрикам качества, чтобы система исключила сайт из списка Target Resources.

    Вопросы и ответы

    В чем основная цель этого патента? Это новый фактор ранжирования?

    Основная цель — это проактивная борьба с мошенничеством (Proactive Fraud Deterrence). Это не стандартный фактор ранжирования, а механизм целенаправленной манипуляции позициями для специфической группы сайтов. Цель не в том, чтобы лучше ранжировать, а в том, чтобы создать нестабильность трафика (Gap in user traffic) и отпугнуть потенциальных мошенников, сделав их деятельность невыгодной.

    Какие сайты попадают под действие этого алгоритма?

    Патент четко определяет критерии в Claim 8. Под действие алгоритма попадают сайты, которые одновременно соответствуют трем условиям: 1) Это коммерческий ресурс (отвечает на Commercial Queries); 2) Это НЕ высокотрафиковый ресурс (High-Traffic); 3) Это НЕ высококачественный ресурс (High-Quality). По сути, это все коммерческие сайты с низким трафиком и низкими показателями доверия.

    Как Яндекс определяет «высококачественный ресурс» (High-Quality Resource) в контексте этого патента?

    Патент приводит конкретные примеры метрик качества. К ним относятся: высокий процент возвращающихся пользователей (retention), наличие положительных отзывов, высокая доля прямых заходов (direct visits), долгосрочная лояльность аудитории (long-term retention) и большая доля длинных сессий. Накопление этих сигналов позволяет избежать попадания под действие алгоритма.

    Может ли этот алгоритм затронуть мой легитимный малый бизнес или новый сайт?

    Да, это основной риск, следующий из патента. Если ваш сайт новый или является малым бизнесом, у вас объективно может быть низкий трафик и еще не накопленные сигналы качества. По формальным признакам (Claim 8) такой сайт может быть классифицирован как Target Resource и подвергнуться искусственной дестабилизации ранжирования, даже если он полностью легитимен.

    Как работает механизм манипуляции ранжированием?

    Система использует чередующиеся временные интервалы. В первом интервале (T1) к ранжирующему баллу сайта добавляется положительное случайное значение, что повышает его позиции (Promotion). Во втором интервале (T2) добавляется отрицательное случайное значение, что понижает его позиции (Demotion). Это создает эффект резких колебаний трафика.

    Является ли эта рандомизация пост-фильтром или частью основной формулы?

    Это часть основной формулы (MLA). Патент описывает (Claim 7), что модель машинного обучения тренируется с использованием «Модифицированных меток» (Modified Labels), которые уже включают в себя случайные значения. Это означает, что учет этой рандомизации встроен непосредственно в ядро ранжирующей модели, а не применяется на этапе пост-обработки.

    Что делать, если я подозреваю, что мой сайт попал под действие этого алгоритма?

    Если вы наблюдаете периодические, необъяснимые резкие взлеты и падения трафика, и ваш сайт соответствует профилю риска (коммерческий, низкотрафиковый), необходимо сфокусироваться на быстром наращивании сигналов качества, упомянутых в патенте. Ключевое — это диверсификация трафика, увеличение прямых заходов и работа над удержанием пользователей (retention).

    Как долго длится период повышения и понижения позиций?

    Патент не указывает конкретную продолжительность интервалов. Он лишь упоминает, что интервалы могут иметь одинаковую длину (Claim 12) и что они последовательно сменяют друг друга (Claim 15). Продолжительность может варьироваться в зависимости от реализации (например, день, неделя).

    Используется ли этот механизм для всех запросов?

    Нет. Исходя из логики патента (Claim 8), он применяется преимущественно к коммерческим запросам (Commercial Queries), по которым ранжируются идентифицированные целевые ресурсы. Информационные запросы или навигационные запросы к крупным авторитетным ресурсам этим механизмом не затрагиваются.

    Какова главная SEO-стратегия для защиты от этого механизма?

    Главная стратегия — это построение бренда и лояльной аудитории. Необходимо стремиться как можно быстрее преодолеть пороги, отделяющие Target Resource от High-Quality или High-Traffic ресурса. Это достигается через комплексный маркетинг, отличный сервис и фокус на удержании клиентов, а не только на первичном привлечении из поиска.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.