Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс активно манипулирует ранжированием подозрительных коммерческих сайтов для сбора данных о качестве и выявления мошенничества

    СПОСОБ И СЕРВЕР ДЛЯ РАНЖИРОВАНИЯ ЦИФРОВЫХ ДОКУМЕНТОВ В ОТВЕТ НА ЗАПРОС (Method and server for ranking digital documents in response to a query)
    • RU2020143966A
    • Yandex LLC
    • 2022-06-30
    • 2020-12-30
    2022 SERP Антикачество Антиспам Патенты Яндекс Ранжирование

    Яндекс использует систему для временного повышения и понижения позиций определенных сайтов (часто коммерческих, не являющихся высококачественными или высокотрафиковыми). Цель — создать максимальную разницу в трафике между этими периодами. Это позволяет системе собрать чистые данные о поведении пользователей и качестве ресурса для обучения алгоритмов Anti-Quality и выявления мошенничества.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу сбора достаточного количества достоверных данных для оценки качества и выявления потенциально мошеннических ресурсов (мошеннические ресурсы), особенно среди коммерческих сайтов с низким или средним трафиком. Система преодолевает проблему «недостатка данных» для анализа, активно создавая контролируемые условия (значительные колебания позиций и трафика), необходимые для оценки поведения пользователей на этих ресурсах и обучения классификаторов качества (Anti-Quality).

    Что запатентовано

    Запатентован метод активной манипуляции ранжированием для целей тестирования и сбора данных. Суть изобретения заключается в выборе целевого документа и его искусственном повышении в выдаче в течение одного временного интервала и искусственном понижении в течение другого. Ключевая цель — максимизировать разрыв в пользовательском трафике между этими двумя интервалами для последующего анализа.

    Как это работает

    Система сначала идентифицирует целевые ресурсы. Согласно патенту (Claims 8-11), это коммерческие ресурсы, из которых исключены сайты с высоким трафиком и высоким качеством (так как они с высокой вероятностью не являются мошенническими). Для выбранного целевого документа генерируются два случайно выбранных значения. Первое (положительное) используется для агрессивного повышения документа (позиция повышенного ранга) в течение первого интервала. Второе (отрицательное) используется для понижения документа (позиция пониженного ранга) в течение второго интервала. Эти значения интегрируются непосредственно в алгоритм машинного обучения (MLA) ранжирования.

    Актуальность для SEO

    Высокая. Активное зондирование (active probing), A/B тестирование и интеграция контролируемых экспериментов непосредственно в алгоритмы ранжирования являются современными методами для сбора данных, обучения моделей и обеспечения качества поиска, особенно в рамках систем Anti-Quality для борьбы с мошенничеством в коммерческой выдаче.

    Важность для SEO

    Влияние на SEO значительно (7/10). Хотя это не традиционный фактор ранжирования, а механизм сбора данных и тестирования, он напрямую вызывает значительную искусственную волатильность позиций и трафика для таргетированных сайтов. Понимание этого механизма критически важно для диагностики внезапных аномалий трафика (резких взлетов и падений), особенно для коммерческих сайтов, не обладающих сильными сигналами качества или большим объемом трафика.

    Детальный разбор

    Термины и определения

    MLA (Machine Learning Algorithm / Алгоритм машинного обучения)
    Основной алгоритм ранжирования (например, CatBoost), обученный ранжировать документы, учитывая как их релевантность, так и внедренные случайно выбранные значения.
    Целевой ресурс (Target Resource) / Целевой документ (Target Document)
    Ресурс (сайт) и документ на нем, выбранные для тестирования. Обычно это коммерческий ресурс, не являющийся ни высокотрафиковым, ни высококачественным.
    Случайно выбранное значение (Randomly Selected Value)
    Искусственно сгенерированное значение, используемое для манипуляции ранжированием. Первое значение обычно положительное (для повышения), второе — отрицательное (для понижения).
    Первый/Второй временной интервал (First/Second Time Interval)
    Периоды времени, в течение которых применяются соответствующие случайные значения для повышения или понижения целевого документа.
    Позиция повышенного/пониженного ранга (Position of Elevated/Reduced Rank)
    Искусственно завышенная или заниженная позиция в выдаче, достигнутая за счет применения случайных значений.
    Разрыв в пользовательском трафике (Gap in User Traffic)
    Разница в объеме трафика к целевому документу между первым и вторым интервалами. Максимизация этого разрыва является целью механизма.
    Коммерческие ресурсы (Commercial Resources)
    Ресурсы, размещающие документы, которые были предоставлены в качестве результатов поиска по прошлым коммерческим запросам.
    Мошеннические ресурсы (Fraudulent Resources)
    Ресурсы, которые система стремится выявить. В патенте указывается, что ресурсы с высоким трафиком и высоким качеством с высокой вероятностью не являются мошенническими.
    Модифицированная метка (Modified Label)
    Метка, используемая для обучения MLA. Она представляет собой комбинацию оценочной метки релевантности и обучающего случайно выбранного значения. Это позволяет интегрировать механизм манипуляции в саму модель ранжирования.

    Ключевые утверждения (Анализ Claims)

    Патент описывает систему активного тестирования качества ресурсов путем манипуляции их ранжированием для создания контролируемых изменений в трафике.

    Claim 1 (Независимый пункт): Описывает базовый механизм манипуляции ранжированием.

    1. Сервер определяет Целевой ресурс и Целевой документ.
    2. Генерируется Первое случайно выбранное значение для использования в течение Первого временного интервала. Это значение предназначено для повышения документа.
    3. В течение первого интервала ранжирование выполняется с учетом этого значения, помещая документ на Позицию повышенного ранга.
    4. Генерируется Второе случайно выбранное значение для использования в течение Второго временного интервала. Это значение предназначено для понижения документа.
    5. В течение второго интервала ранжирование выполняется с учетом этого значения, помещая документ на Позицию пониженного ранга.
    6. Ключевое условие: Позиция повышенного ранга находится выше позиции пониженного ранга с целью увеличения разрыва в пользовательском трафике между двумя интервалами.

    Claim 8 (Зависит от 1): Описывает критически важный процесс выбора целевых ресурсов (кого тестировать).

    1. Сервер анализирует данные прошлых поисков и определяет множество Коммерческих ресурсов.
    2. Это множество фильтруется путем удаления ресурсов с высоким трафиком (применяется основанный на трафике порог).
    3. Оставшийся набор фильтруется путем удаления высококачественных ресурсов (применяется основанный на качестве порог).
    4. Поднабор, оставшийся после двойной фильтрации, содержит Целевой ресурс.

    Claims 10 и 11 (Зависит от 9 и 10): Объясняют причину такой фильтрации.

    Фильтрация проводится для исключения группы ресурсов, которые с высокой вероятностью НЕ включают в себя Мошеннические ресурсы. Уточняется, что ресурсы с высоким трафиком и высоким качеством считаются надежными. Следовательно, цель всего изобретения — тестирование ресурсов, подозреваемых в низком качестве или мошенничестве.

    Claim 7 (Зависит от 6): Описывает, как Алгоритм Машинного Обучения (MLA) обучается учитывать эти случайные значения (техническая реализация).

    1. При обучении MLA сервер генерирует Модифицированную метку как комбинацию оценочной метки релевантности и обучающего случайно выбранного значения.
    2. MLA корректируется так, чтобы его предсказанные оценки ранжирования были подобны Модифицированной метке. Это означает, что механизм повышения/понижения интегрирован непосредственно в основную формулу ранжирования.

    Где и как применяется

    Изобретение затрагивает несколько слоев поисковой архитектуры, связывая офлайн-анализ, обучение моделей и онлайн-ранжирование.

    Слой Качества и Метрик (QUALITY & GOVERNANCE LAYER)
    Вся система является инструментом для этого слоя, в частности для подсистем типа Anti-Quality. Цель — сбор данных для оценки качества и выявления мошенничества (Claims 10, 11).

    RANKING – Ранжирование (Уровни L3/L4)
    На этом этапе происходит непосредственное применение механизма. Во время обработки запроса, если текущее время попадает в заданный временной интервал для Целевого документа, основной MLA ранжирования использует соответствующее Случайно выбранное значение (повышающее или понижающее) для расчета финальной оценки ранжирования.

    Офлайн-процессы (Data Processing & ML Training)
    Значительная часть работы происходит офлайн:

    • Анализ исторических данных и применение порогов по трафику и качеству для выбора Целевых ресурсов (Claim 8).
    • Обучение MLA с использованием Модифицированных меток для интеграции механизма манипуляции (Claim 7).

    На что влияет

    • Конкретные ниши и тематики: Механизм явно нацелен на коммерческие ресурсы (Claim 8), что затрагивает e-commerce, услуги и другие монетизируемые ниши.
    • Специфические типы сайтов: Влияет исключительно на сайты, которые не классифицированы как высокотрафиковые или высококачественные. Авторитетные и популярные ресурсы исключаются из этого процесса.
    • Волатильность выдачи: Является источником искусственной, контролируемой волатильности (резких взлетов и падений позиций) для таргетированных сайтов.

    Когда применяется

    • Условия активации: Алгоритм активируется для ресурсов, которые были идентифицированы как Целевые ресурсы (коммерческие, не высококачественные, не высокотрафиковые).
    • Временные рамки: Применяется строго в течение заранее определенных Первого (повышение) и Второго (понижение) временных интервалов.
    • Последовательность: Интервалы могут следовать друг за другом (Claim 13, 14) или быть последовательно смещенными во времени (чередоваться) (Claim 15).

    Пошаговый алгоритм

    Процесс можно разделить на три основные фазы.

    Фаза 1: Идентификация целей (Офлайн)

    1. Сбор данных: Извлечение данных прошлых поисков.
    2. Идентификация коммерческих ресурсов: Определение ресурсов, которые ранжировались по коммерческим запросам.
    3. Фильтрация по трафику: Применение основанного на трафике порога. Удаление ресурсов с высоким трафиком.
    4. Фильтрация по качеству: Применение основанного на качестве порога (например, метрики типа Proxima). Удаление высококачественных ресурсов.
    5. Выбор целей: Оставшиеся ресурсы (потенциально низкокачественные или мошеннические) определяются как Целевые ресурсы.

    Фаза 2: Подготовка MLA (Офлайн)

    1. Генерация обучающих данных: Формирование пар документ-запрос.
    2. Создание модифицированной метки: Комбинирование реальной оценки релевантности и обучающего случайного значения (сигнала повышения или понижения).
    3. Обучение: Обучение MLA предсказывать Модифицированную метку, тем самым интегрируя способность к манипуляции в модель.

    Фаза 3: Активная манипуляция (Онлайн/Ранжирование)

    1. Планирование интервалов: Определение Первого и Второго временных интервалов для Целевого документа.
    2. Генерация значений: Создание Первого (положительное) и Второго (отрицательное) случайных значений.
    3. Применение (Интервал 1): Во время ранжирования MLA использует Первое значение, что приводит к Позиции повышенного ранга.
    4. Применение (Интервал 2): Во время ранжирования MLA использует Второе значение, что приводит к Позиции пониженного ранга.
    5. Мониторинг: Отслеживание пользовательского трафика в течение обоих интервалов для фиксации разрыва в трафике (Claim 5).

    Какие данные и как использует

    Данные на входе

    • Поведенческие факторы (Трафик): Данные о пользовательском трафике используются для применения основанного на трафике порога (фильтрация высокотрафиковых сайтов). Также трафик активно отслеживается во время эксперимента.
    • Данные о качестве (Метрики): Используются данные, определяющие качество ресурсов (вероятно, метрики типа Proxima или ИКС), для применения основанного на качестве порога (фильтрация высококачественных сайтов).
    • Временные факторы: Исторические данные о запросах используются для идентификации Коммерческих ресурсов. Система также оперирует четкими временными интервалами для проведения эксперимента.
    • Данные обучения (ML): Оценочные метки релевантности (например, от асессоров) используются для создания Модифицированных меток.

    Какие метрики используются и как они считаются

    • Случайно выбранное значение: Генерируется алгоритмом рандомизации (Claim 2). Для повышения используется положительное значение, для понижения — отрицательное (Claim 3).
    • Модифицированная метка: Комбинация оценочной метки релевантности и обучающего случайно выбранного значения (Claim 7).
    • Предсказанная оценка ранжирования: Выходной результат MLA, который обучен аппроксимировать Модифицированную метку.
    • Основанный на трафике порог и Основанный на качестве порог: Предварительно определенные пороги для фильтрации ресурсов (Claim 8).
    • Разрыв в пользовательском трафике: Разница в объеме пользовательского трафика к целевому документу между первым и вторым временными интервалами. Максимизация этой метрики является целью манипуляции ранжированием (Claim 1).

    Выводы

    1. Активное зондирование качества (Active Probing): Яндекс использует механизм активного вмешательства в ранжирование для сбора данных о качестве сайтов. Это не пассивное наблюдение, а целенаправленная манипуляция позициями в реальной выдаче.
    2. Цель — выявление мошенничества и низкого качества (Anti-Quality): Патент явно указывает, что система нацелена на идентификацию потенциальных Мошеннических ресурсов (Claims 10, 11). Максимизация разрыва в трафике позволяет собрать статистически значимые данные о поведении пользователей на подозрительном сайте.
    3. Критерии таргетинга: Целями являются исключительно коммерческие ресурсы, которые НЕ обладают высоким трафиком и НЕ считаются высококачественными. Авторитетные сайты исключены из этого процесса.
    4. Интеграция в ядро ранжирования: Механизм манипуляции встроен непосредственно в основной алгоритм машинного обучения (MLA) через обучение на Модифицированных метках. Это обеспечивает эффективное и контролируемое изменение позиций.
    5. Искусственная волатильность: Этот механизм объясняет случаи внезапного, резкого роста позиций сайта по конкурентным запросам, за которым следует столь же резкое падение. Это может быть не результатом обновления алгоритма, а целенаправленным тестированием со стороны Яндекса.

    Практика

    Best practices (это мы делаем)

    • Фокус на повышении качества и авторитетности (E-E-A-T/Proxima): Лучшая защита от попадания под этот механизм тестирования (и последующих санкций) — это выход за пределы основанного на качестве порога. Необходимо системно работать над факторами, которые Яндекс использует для оценки качества (экспертность, достоверность, удобство, отсутствие агрессивной рекламы).
    • Наращивание стабильного трафика и лояльной аудитории: Ресурсы с высоким трафиком исключаются из тестирования. Формирование ядра постоянных пользователей и стабильного потока трафика (особенно брендового и прямого) снижает вероятность классификации сайта как подозрительного.
    • Обеспечение коммерческой прозрачности: Поскольку система нацелена на выявление мошенничества в коммерческих тематиках, критически важно обеспечить максимальную прозрачность бизнеса: полные контактные данные, юридическую информацию, четкие условия доставки и оплаты.
    • Анализ поведения во время всплесков трафика: Если вы наблюдаете внезапный резкий рост трафика (возможное срабатывание Первого временного интервала), необходимо тщательно проанализировать поведение пользователей. Высокие показатели отказов, короткое время сессии или жалобы пользователей во время этого периода могут привести к негативным выводам системы качества Яндекса.

    Worst practices (это делать не надо)

    • Имитация качественного ресурса при низком качестве услуг/товара: Попытки обмануть систему качества могут привести к активации этого механизма зондирования. Если во время тестового периода (высокого трафика) пользователи столкнутся с низким качеством услуг или мошенничеством, это будет зафиксировано.
    • Использование агрессивной монетизации и обманных паттернов (Dark Patterns): Наличие элементов, характерных для Мошеннических ресурсов (всплывающие окна, подписки без согласия, вводящая в заблуждение реклама), увеличивает вероятность попадания в Целевые ресурсы и приведет к негативным результатам теста.
    • Игнорирование сигналов качества при работе в коммерческих нишах: Работа в коммерческой тематике без инвестиций в качество и бренд автоматически помещает сайт в зону риска для подобного тестирования.

    Стратегическое значение

    Патент подтверждает агрессивную стратегию Яндекса по контролю качества коммерческой выдачи (Anti-Quality). Он демонстрирует, что Яндекс готов жертвовать краткосрочной релевантностью выдачи (искусственно повышая потенциально плохие сайты) ради долгосрочной цели — очистки поиска от мошенничества и низкокачественных ресурсов. Для SEO это означает, что нахождение в «серой зоне» качества опасно: если система не может однозначно оценить сайт, она может активно его протестировать, отправив значительный объем трафика и проанализировав результат.

    Практические примеры

    Сценарий: Диагностика аномальной волатильности коммерческого сайта

    1. Ситуация: Интернет-магазин средней руки (не лидер рынка, трафик умеренный) внезапно начинает ранжироваться на 1-3 позициях по высококонкурентным запросам. Трафик вырастает в разы. Это длится 1-2 недели (Первый временной интервал).
    2. Развитие: Спустя 1-2 недели сайт резко падает на 3-4 страницу выдачи по тем же запросам, трафик возвращается к прежним значениям или ниже (Второй временной интервал).
    3. Интерпретация: Вероятно, сайт попал в выборку Целевых ресурсов. Яндекс применил механизм активного зондирования для создания максимального разрыва в трафике.
    4. Действия SEO-специалиста:
      1. Проверить, соответствует ли сайт критериям таргетинга (коммерческий, не является лидером по качеству/трафику).
      2. Критически важно проанализировать поведение пользователей во время пика трафика (Вебвизор, Метрика): были ли проблемы с оформлением заказа, соответствием товара описанию, скоростью загрузки, отказами?
      3. Если поведение было плохим, система качества Яндекса сделала выводы, и необходимо срочно устранять проблемы, чтобы избежать дальнейшей пессимизации. Если поведение было хорошим, это позитивный сигнал для системы качества.

    Вопросы и ответы

    Что является основной целью этого патента: улучшение ранжирования или что-то другое?

    Основная цель — не улучшение ранжирования в моменте, а сбор данных для оценки качества сайтов и выявления мошенничества (Fraudulent Resources). Система целенаправленно манипулирует ранжированием (даже временно ухудшая его, повышая потенциально плохие сайты), чтобы создать максимальную разницу в трафике. Этот разрыв позволяет собрать статистически значимые данные о поведении пользователей на тестируемом ресурсе.

    Какие сайты рискуют попасть под действие этого механизма?

    Патент четко определяет критерии (Claim 8): это должны быть коммерческие ресурсы, которые при этом НЕ являются высокотрафиковыми и НЕ классифицированы как высококачественные. Лидеры рынка, крупные бренды и авторитетные ресурсы исключаются. В зоне риска находятся средние и небольшие коммерческие сайты, качество которых вызывает у системы сомнения.

    В патенте упоминаются «мошеннические ресурсы». Как это связано с манипуляцией ранжированием?

    Система предполагает, что сайты с высоким трафиком и качеством вряд ли являются мошенническими (Claims 10, 11). Следовательно, механизм нацелен на оставшиеся сайты. Повышая подозрительный сайт в выдаче, Яндекс направляет на него большой объем трафика и анализирует, как сайт этот трафик обрабатывает (например, выполняет ли обязательства перед клиентами, нет ли жалоб, не используются ли обманные схемы). Это помогает обучить классификаторы мошенничества (Anti-Quality).

    Мой сайт внезапно получил много трафика, а потом все пропало. Это работа этого алгоритма?

    Это весьма вероятно, особенно если ваш сайт соответствует критериям таргетинга (коммерческий, не лидер ниши). Патент описывает именно такой сценарий: период искусственного повышения (Первый временной интервал) сменяется периодом искусственного понижения (Второй временной интервал) для создания разрыва в трафике. Это контролируемое тестирование со стороны Яндекса.

    Что делать, если мой сайт попал под такое тестирование?

    Ключевое — проанализировать, какой пользовательский опыт получил трафик во время пика. Если пользователи успешно решали свои задачи (покупали товары, заказывали услуги), не было сбоев, отказов и жалоб — это позитивный сигнал для системы качества. Если же сайт не справился с нагрузкой, пользователи были недовольны или столкнулись с проблемами — это сигнал для срочного устранения недостатков, так как система может принять меры по пессимизации.

    Как именно система манипулирует ранжированием? Это ручное вмешательство?

    Нет, это автоматизированный процесс, интегрированный в основной алгоритм машинного обучения (MLA). В патенте описан механизм «Модифицированных меток» (Claim 7). При обучении модель учится учитывать искусственное случайное значение (сигнал повышения/понижения) наравне с обычными факторами релевантности. Это позволяет системе автоматически контролировать позиции целевых документов.

    Как долго длится такое тестирование?

    Патент не указывает конкретную продолжительность временных интервалов, но упоминает, что они могут иметь общую продолжительность времени (Claim 12) и могут чередоваться (Claim 15). На практике это может занимать от нескольких дней до нескольких недель для сбора достаточного объема данных.

    Как система определяет «высококачественные ресурсы»?

    Патент не детализирует конкретные метрики, упоминая лишь применение «основанного на качестве порога». Логично предположить, что используются внутренние метрики качества Яндекса, такие как Proxima, ИКС, данные о лояльности аудитории, а также сигналы E-E-A-T и отсутствие нарушений (Anti-Quality).

    Зачем максимизировать разрыв в трафике?

    Максимизация разрыва (Claim 1) необходима для повышения статистической значимости эксперимента. Если разница в позициях между периодом буста и понижения мала, то разница в трафике может быть незначительной и шумной. Создавая большой разрыв (например, Топ-3 против Топ-30), Яндекс получает два сценария с кардинально разным объемом трафика, что делает сравнение поведения пользователей более надежным.

    Можно ли как-то избежать попадания в выборку для тестирования?

    Единственный надежный способ — это перестать соответствовать критериям таргетинга. Необходимо стать либо высокотрафиковым ресурсом (преодолеть основанный на трафике порог), либо высококачественным ресурсом (преодолеть основанный на качестве порог). Это достигается за счет долгосрочной стратегии развития авторитетности, улучшения пользовательского опыта и построения бренда.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2026 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.