Яндекс патентует антифрод-механизм, нацеленный на потенциально мошеннические коммерческие ресурсы. Система намеренно повышает, а затем понижает позиции сайта в выдаче в разные промежутки времени, используя случайные значения. Цель — создать резкие колебания трафика, чтобы демотивировать операторов мошеннических схем, делая их деятельность нестабильной.
Описание
Какую задачу решает
Патент решает задачу проактивной борьбы с мошенническими (fraudulent) коммерческими ресурсами. Традиционные методы обнаружения мошенничества часто реагируют постфактум. Данное изобретение направлено на сдерживание (deterring) операторов мошеннических ресурсов путем воздействия на ключевой фактор их мотивации — пользовательский трафик. Система стремится сделать мошеннические схемы невыгодными за счет создания искусственной нестабильности трафика.
Что запатентовано
Запатентован метод и система для искусственного увеличения разрыва или вариации (increasing a gap or variation) в пользовательском трафике на целевой коммерческий ресурс между разными временными интервалами. Суть изобретения заключается в последовательном чередовании повышения (promoting) и понижения (demoting) позиций документа в результатах поиска с использованием случайно выбранных значений (randomly-selected values).
Как это работает
Система сначала идентифицирует потенциально мошеннические коммерческие ресурсы. Для этого она фильтрует все коммерческие сайты, удаляя из списка ресурсы с высоким трафиком (high-traffic resources) и ресурсы высокого качества (high-quality resources), так как они с высокой вероятностью легитимны. Для оставшихся (целевых) сайтов система генерирует два типа случайных значений. В первом интервале используется значение для продвижения сайта (promoted-rank position), что увеличивает трафик. Во втором интервале используется значение для понижения сайта (demoted-rank position), что резко снижает трафик. Резкий перепад призван демотивировать оператора сайта.
Актуальность для SEO
Высокая. Патент опубликован в 2023 году. Борьба с мошенничеством в коммерческой выдаче является критически важной задачей для поисковых систем. Описанный механизм представляет собой сложный подход к поведенческой экономике мошенничества, использующий инфраструктуру ранжирования для создания нестабильности.
Важность для SEO
Влияние на SEO значительно (7/10), но специфично. Это не алгоритм оценки релевантности, а механизм целенаправленного вмешательства в ранжирование для борьбы с фродом. Он не затрагивает легитимные высококачественные или популярные сайты. Однако он критически важен для коммерческих сайтов в зоне риска (невысокий трафик и качество), так как может вызывать экстремальную и непредсказуемую волатильность позиций. Понимание критериев исключения (качество и трафик) определяет стратегию защиты.
Детальный разбор
Термины и определения
- Commercial Query (Коммерческий запрос)
- Запрос, содержащий хотя бы один предопределенный коммерчески ориентированный термин (например, «купить», «цена»). Используется для идентификации коммерческих ресурсов.
- Demoted-rank position (Пониженная позиция)
- Позиция целевого документа в выдаче во время второго временного интервала, которая ниже, чем его позиция во время первого интервала. Достигается за счет применения второго случайно выбранного значения (обычно отрицательного).
- Gap in user traffic (Разрыв в пользовательском трафике)
- Разница в объеме трафика на целевой документ между первым (высокий трафик из-за продвижения) и вторым (низкий трафик из-за понижения) временными интервалами. Цель изобретения — максимизировать этот разрыв.
- High-Quality Resources (Ресурсы высокого качества)
- Коммерческие ресурсы, чьи метрики качества превышают Quality-based threshold. Считаются легитимными и исключаются из целевой группы.
- High-Traffic Resources (Ресурсы с высоким трафиком)
- Коммерческие ресурсы, чей трафик превышает Traffic-based threshold. Считаются легитимными и исключаются из целевой группы.
- MLA (Machine Learning Algorithm / Алгоритм машинного обучения)
- Основная модель ранжирования (в описании упоминается CatBoost), используемая для определения порядка документов в выдаче.
- Modified Label (Модифицированная метка)
- Метка, описанная в одном из вариантов реализации. Представляет собой комбинацию оценки релевантности (Assessed Label) и случайного значения. Используется для обучения MLA учитывать рандомизацию.
- Promoted-rank position (Повышенная позиция)
- Позиция целевого документа в выдаче во время первого временного интервала. Достигается за счет применения первого случайно выбранного значения (обычно положительного).
- Randomly-Selected Value (Случайно выбранное значение)
- Значение, сгенерированное алгоритмом рандомизации. Используется как фактор или модификатор ранжирования в течение определенного временного интервала.
- Target Resource/Document (Целевой ресурс/документ)
- Коммерческий ресурс (или документ на нем), который был идентифицирован как потенциально подозрительный (т.е. не является ни высококачественным, ни высокотрафиковым) и подлежит манипуляции ранжированием.
Ключевые утверждения (Анализ Claims)
Патент описывает систему манипулирования ранжированием для создания волатильности трафика на подозрительных ресурсах.
Claim 1 (Независимый пункт): Описывает основной метод ранжирования.
- Определение целевого ресурса и целевого документа на нем.
- Генерация первого и второго случайно выбранных значений (randomly-selected values).
- Привязка первого значения к первому временному интервалу и второго значения ко второму временному интервалу.
- Получение запроса от пользователя и определение, в какой интервал он попадает.
- Генерация ранжированного списка релевантных документов.
- Корректировка ранжирования (adjusting):
- Если запрос в первом интервале: Ранжирование целевого документа корректируется на основе первого значения так, чтобы документ занял повышенную позицию (promoted-rank position).
- Если запрос во втором интервале: Ранжирование корректируется на основе второго значения так, чтобы документ занял пониженную позицию (demoted-rank position).
- Условие: Повышенная позиция должна быть выше, чем пониженная позиция.
Claim 3 (Зависимый от 1 и 2): Уточняет природу случайных значений.
Алгоритм рандомизации генерирует (i) положительное значение (positive value) для продвижения и (ii) отрицательное значение (negative value) для понижения.
Claim 8 (Зависимый от 1): Детализирует критически важный процесс определения целевого ресурса.
- Доступ к историческим данным поиска.
- Идентификация множества коммерческих ресурсов путем выявления ресурсов, которые показывались в ответ на прошлые коммерческие запросы (запросы с предопределенными терминами).
- Фильтрация 1: Удаление high-traffic resources путем применения порога трафика (traffic-based threshold).
- Фильтрация 2: Удаление high-quality resources путем применения порога качества (quality-based threshold).
- Оставшееся подмножество содержит целевые ресурсы.
Где и как применяется
Изобретение применяется на стыке слоев качества и ранжирования и функционирует как механизм контроля выдачи.
Офлайн-процессы (Data Analysis / Feature Extraction)
Основная часть логики по идентификации целей происходит офлайн:
- Анализ исторических данных поиска для классификации запросов как коммерческих и идентификации коммерческих ресурсов.
- Расчет метрик трафика и качества для этих ресурсов (используя данные, которые могут собираться на слое QUALITY & GOVERNANCE LAYER).
- Применение фильтрации для исключения легитимных сайтов (High-Traffic/High-Quality) и определения пула целевых ресурсов.
- Генерация случайных значений и назначение временных интервалов.
RANKING – Ранжирование (L3/L4 или Post-processing)
На этом этапе происходит применение механизма в реальном времени. Когда поступает запрос, система должна скорректировать ранг целевых документов.
Патент описывает два варианта реализации этой корректировки:
- Корректировка после ранжирования (Claim 1): Основная модель ранжирования (MLA) генерирует список, после чего система корректирует (adjusting) позицию целевого документа, применяя Randomly-Selected Value (положительное или отрицательное в зависимости от текущего временного интервала).
- Интеграция в MLA (Описано в Description): MLA обучается принимать Randomly-Selected Value как один из признаков ранжирования. Для этого модель обучается предсказывать Modified Label (комбинацию оценки релевантности и случайного значения).
На что влияет
- Специфические запросы и ниши: В первую очередь влияет на коммерческие запросы (Commercial Queries) и коммерческие ниши, где высока вероятность мошенничества (e-commerce, услуги, финансы).
- Типы сайтов: Исключительно на сайты, классифицированные как коммерческие, имеющие низкие показатели качества и низкий объем трафика. Легитимные, качественные и популярные сайты не затрагиваются этим механизмом.
Когда применяется
- Условия активации: Алгоритм активируется только для документов, которые были предварительно идентифицированы как Target Documents.
- Временные рамки: Применение происходит непрерывно, но эффект чередуется. Система определяет First time interval (продвижение) и Second time interval (понижение). Интервалы могут быть последовательными, чередоваться и иметь одинаковую продолжительность.
Пошаговый алгоритм
Фаза 1: Определение целевых ресурсов (Офлайн)
- Сбор данных: Агрегация исторических данных поиска, метрик качества сайтов и данных о трафике.
- Идентификация коммерческих ресурсов: Выделение ресурсов, которые ранжировались по коммерческим запросам (содержащим предопределенные термины).
- Фильтрация по трафику: Применение Traffic-based threshold. Удаление всех High-Traffic Resources.
- Фильтрация по качеству: Применение Quality-based threshold. Удаление всех High-Quality Resources.
- Определение целей: Оставшиеся ресурсы помечаются как Target Resources.
Фаза 2: Подготовка манипуляции (Офлайн/По расписанию)
- Определение интервалов: Установка временных рамок для первого (T1) и второго (T2) интервалов.
- Генерация случайных значений: Использование алгоритма рандомизации для генерации:
- Первого значения (V1, положительное) для T1.
- Второго значения (V2, отрицательное) для T2.
- Сохранение: Сохранение привязки значений к интервалам.
Фаза 3: Обработка запроса (Реальное время)
- Получение запроса и определение времени: Система получает запрос и определяет, попадает ли он в T1 или T2.
- Ранжирование и корректировка:
- Система генерирует список релевантных документов и идентифицирует Target Documents в списке.
- Если текущее время в T1: Ранг целевых документов корректируется с использованием V1 (продвижение).
- Если текущее время в T2: Ранг целевых документов корректируется с использованием V2 (понижение).
- Выдача результатов: Формирование SERP с искусственно измененными позициями.
- Мониторинг: Сбор данных о пользовательском трафике на целевой документ в течение обоих интервалов для оценки разрыва (gap).
Какие данные и как использует
Данные на входе
- Поведенческие факторы (User Traffic Data): Критически важны для Фазы 1. Используются данные об объеме трафика для определения High-Traffic Resources. Также используются для определения High-Quality Resources на основе метрик качества. В патенте упоминаются примеры таких метрик:
- Количество/процент возвращающихся пользователей.
- Количество/процент положительных отзывов.
- Соотношение прямых заходов (закладки, ввод адреса) к общему числу посещений.
- Долгосрочное удержание (long-term retention).
- Доля длинных сессий среди всех сессий на сайте.
- Контентные факторы: Тексты прошлых запросов анализируются на наличие предопределенных коммерческих терминов для идентификации Commercial Queries.
- Временные факторы: Используются для определения текущего временного интервала (T1 или T2) и применения соответствующего модификатора ранжирования.
Какие метрики используются и как они считаются
- Traffic-based threshold и Quality-based threshold: Пороговые значения, определяемые эмпирически или заданные оператором. Могут быть выражены как абсолютные значения метрик или как позиция в ранжированном списке ресурсов (например, Топ-N по трафику/качеству).
- Randomly-Selected Value (V1, V2): Генерируются Randomization algorithm. V1 является положительным числом, V2 — отрицательным.
- Assessed Label (Оценка релевантности): Стандартная оценка релевантности документа запросу (Ground Truth), используемая для обучения MLA.
- Modified Label (Модифицированная метка): В одном из вариантов реализации это комбинация Assessed Label и Randomly-Selected Value. MLA обучается предсказывать эту модифицированную метку.
Выводы
- Цель патента — не улучшение релевантности, а борьба с мошенничеством. Это механизм контроля качества, который использует манипуляцию ранжированием для сдерживания (deterrence) подозрительных операторов путем создания нестабильности трафика.
- Критерии идентификации подозрительных сайтов. Яндекс считает легитимными коммерческие сайты, обладающие либо высоким трафиком, либо высокими показателями качества. Подозрительными считаются сайты, у которых оба показателя низкие.
- Определение «Качества» по версии патента. Патент дает четкое представление о том, какие поведенческие метрики связаны с высоким качеством коммерческого сайта: возвраты пользователей, доля прямых заходов, долгосрочное удержание аудитории, длинные сессии, положительные отзывы.
- Использование рандомизации для волатильности. Система намеренно вносит элемент случайности в ранжирование целевых сайтов, чередуя периоды агрессивного продвижения (положительные значения) и агрессивного понижения (отрицательные значения) для максимизации разрыва в трафике.
- Гибкость реализации. Патент предусматривает как корректировку ранжирования после работы основного MLA (Claim 1), так и интеграцию случайных значений непосредственно в процесс обучения и работы MLA (Description).
Практика
Best practices (это мы делаем)
Главная задача SEO-стратегии в контексте этого патента — гарантировать, что сайт не попадет в сегмент, на который нацелен этот антифрод-механизм. Для этого необходимо фокусироваться на сигналах, которые Яндекс использует для идентификации High-Quality Resources.
- Работа над удержанием и возвратом аудитории (Retention): Внедряйте механизмы, стимулирующие повторные визиты. Метрики возврата пользователей и долгосрочного удержания (long-term retention) являются ключевыми сигналами качества, упомянутыми в патенте.
- Увеличение доли брендового и прямого трафика: Развивайте знание бренда и стимулируйте прямые заходы (direct visits). Патент явно указывает это как признак высокого качества.
- Улучшение пользовательского опыта: Работайте над увеличением доли длинных сессий (share of long sessions). Это сигнализирует о вовлеченности и качестве ресурса.
- Наращивание стабильного трафика: Сайты с высоким трафиком (High-Traffic Resources) также исключаются из целевой группы. Стабильный рост легитимного трафика является защитным фактором.
- Мониторинг волатильности. Если наблюдается экстремальная, периодическая волатильность позиций (резкие взлеты и падения) по коммерческим запросам, это может быть признаком того, что сайт попал в целевую группу. В этом случае требуется немедленный аудит качества.
Worst practices (это делать не надо)
- Игнорирование качества при запуске новых коммерческих сайтов. Запуск низкокачественного коммерческого сайта с малым трафиком создает высокий риск попадания под действие этого алгоритма нестабильности.
- Фокус исключительно на SEO-трафике при игнорировании бренда и лояльности. Сайты, полностью зависящие от поискового трафика и не имеющие ядра лояльной аудитории или прямых заходов, находятся в зоне риска.
- Использование мошеннических или серых схем. Алгоритм специально разработан для противодействия таким ресурсам, делая их экономику непредсказуемой.
Стратегическое значение
Патент демонстрирует, что Яндекс готов жертвовать сиюминутной релевантностью выдачи (искусственно завышая или занижая позиции) ради долгосрочной цели — очищения экосистемы от мошеннических ресурсов. Это подтверждает стратегический приоритет безопасности и качества (Trust). Для SEO это означает, что в коммерческих тематиках долгосрочная стратегия должна строиться на создании авторитетных брендов, а не просто витрин для сбора трафика.
Практические примеры
Сценарий: Подозрительный сайт по продаже авиабилетов
Сайт-агрегатор Х недавно запущен, имеет низкое качество (низкий процент возвратов пользователей) и мало трафика.
- Идентификация: Яндекс классифицирует сайт Х как Target Resource, так как он не прошел фильтры High-Traffic и High-Quality.
- Планирование: Система устанавливает интервалы: Неделя 1 (T1) — продвижение (V1=+X), Неделя 2 (T2) — понижение (V2=-Y).
- Неделя 1 (T1): Пользователь ищет «купить билеты в Сочи». Сайт Х искусственно продвигается в выдаче (например, с 8 позиции на 2-ю). Трафик на сайт Х резко возрастает.
- Неделя 2 (T2): Пользователь ищет «купить билеты в Сочи». Сайт Х искусственно понижается в выдаче (например, с 8 позиции на 18-ю). Трафик на сайт Х резко падает.
- Результат: Оператор сайта Х видит огромный разрыв (Gap in user traffic) между Неделей 1 и Неделей 2. Если это мошенническая схема, такая нестабильность может заставить его прекратить деятельность.
Вопросы и ответы
Какова основная цель этого патента? Улучшить ранжирование?
Нет, основная цель — не улучшение релевантности, а борьба с мошенническими коммерческими сайтами (anti-fraud). Патент предлагает метод сдерживания (deterrence) мошенников путем создания искусственной волатильности трафика. Система намеренно ухудшает ранжирование в одни периоды и улучшает в другие, чтобы создать резкие перепады трафика и демотивировать операторов недобросовестных ресурсов.
Какие сайты попадают под действие этого алгоритма?
Алгоритм нацелен исключительно на коммерческие ресурсы, которые одновременно соответствуют двум критериям: имеют низкий объем трафика (ниже Traffic-based threshold) И низкие показатели качества (ниже Quality-based threshold). Яндекс предполагает, что сайты, не удовлетворяющие ни одному из этих критериев, с высокой вероятностью являются подозрительными.
Защищен ли мой сайт, если у него много трафика, но качество среднее?
Согласно патенту (Claim 8), да. Система фильтрует (удаляет из целевой группы) ресурсы с высоким трафиком (High-Traffic Resources) на отдельном этапе. Если ваш сайт преодолел порог по трафику, он не должен подвергаться этим искусственным колебаниям ранжирования, даже если его качество не идеально.
Какие метрики качества упомянуты в патенте для определения High-Quality Resources?
В описании патента приведены конкретные примеры метрик качества: процент возвращающихся пользователей, процент положительных отзывов, соотношение прямых заходов к общему трафику, долгосрочное удержание пользователей (long-term retention) и доля длинных сессий на сайте. Высокие показатели по этим метрикам позволяют сайту классифицироваться как High-Quality.
Мой новый коммерческий сайт имеет мало трафика. Значит ли это, что он попадет под этот алгоритм?
Не обязательно. Хотя низкий трафик является одним из условий, вторым обязательным условием является низкое качество. Если ваш новый сайт сделан качественно, обеспечивает хороший пользовательский опыт и начинает формировать положительные сигналы качества (например, высокое удержание первых пользователей, длинные сессии), он может быть классифицирован как High-Quality и исключен из целевой группы.
Как именно происходит изменение позиций? Это фильтр или фактор ранжирования?
Патент описывает оба варианта. Основной Claim 1 описывает это как корректировку (adjustment) после генерации ранжированного списка — то есть, как механизм переранжирования или пост-обработки. Однако в описании изобретения также упоминается возможность обучения MLA (например, CatBoost) учитывать эти случайные значения (Randomly-Selected Values) непосредственно как признаки ранжирования.
Что такое «Randomly-Selected Value» в контексте этого патента?
Это искусственно сгенерированное случайное значение, которое используется для модификации ранга целевого документа. Для периода продвижения (First time interval) генерируется положительное значение (Positive value), которое агрессивно повышает сайт. Для периода понижения (Second time interval) генерируется отрицательное значение (Negative value), которое агрессивно понижает сайт.
Как долго длятся периоды продвижения и понижения?
Патент не указывает конкретную продолжительность временных интервалов. Упоминается лишь, что они могут иметь одинаковую длину и могут быть последовательными или чередоваться. На практике это могут быть дни или недели, чтобы эффект изменения трафика был заметен оператору сайта.
Что делать, если я подозреваю, что мой сайт попал под действие этого алгоритма?
Если вы наблюдаете экстремальную периодическую волатильность позиций (например, неделю в ТОП-3, неделю за ТОП-20) по коммерческим запросам, и это не связано с техническими проблемами, возможно, система классифицировала вас как Target Resource. Необходимо срочно провести аудит качества сайта, сфокусировавшись на улучшении метрик качества (удержание, лояльность, прямые заходы) для выхода из подозрительной зоны.
Влияет ли этот патент на информационные запросы?
Нет. Механизм, описанный в патенте, явно нацелен на коммерческие ресурсы, идентифицированные через анализ коммерческих запросов (Commercial Queries). Информационные сайты и запросы не должны затрагиваться этим алгоритмом волатильности.