Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс использует историю браузера для выявления и нейтрализации накруток отзывов и рейтингов

    СПОСОБ И СИСТЕМА ДЛЯ ОПРЕДЕЛЕНИЯ АНОМАЛЬНОЙ КРАУДСОРСИНГОВОЙ МЕТКИ (Method and system for determining an anomalous crowdsourced label)
    • RU2019126515A
    • Yandex LLC
    • 2021-02-24
    • 2019-08-22
    2021 Антиспам Краудсорсинг Патенты Яндекс Яндекс Браузер

    Яндекс патентует метод защиты краудсорсинговых данных (отзывов, рейтингов) от внешних манипуляций, таких как «рейды» или накрутки. При обнаружении аномального всплеска оценок система анализирует историю посещений пользователей, оставивших эти оценки. Сравнивая ее с историей обычных пользователей, Яндекс статистически выявляет внешний источник, мобилизовавший трафик (например, пост в блоге или Telegram-канале), и применяет корректирующие меры: удаляет или понижает вес этих аномальных оценок.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему поддержания целостности и достоверности краудсорсинговых сигналов (рейтингов, отзывов, лайков) на цифровых платформах Яндекса (например, Маркет, Карты, Кинопоиск). Он направлен на обнаружение и нейтрализацию аномальной активности, вызванной внешними событиями. Это включает как негативные «рейды» (review bombing), так и искусственные накрутки позитивных оценок, инициированные внешним источником (например, блогером, вирусным постом или заказной кампанией), которые искажают типичное распределение оценок.

    Что запатентовано

    Запатентована система для определения аномальных краудсорсинговых меток. Суть изобретения заключается в использовании журнала просмотра веб-страниц (истории браузера) пользователей для идентификации источника внешнего воздействия, вызвавшего аномалию. Система сравнивает поведение пользователей, оставивших аномальные оценки, с поведением обычных пользователей, чтобы найти веб-ресурсы, которые посещала преимущественно первая группа, и определяет эти ресурсы как источник манипуляции.

    Как это работает

    Система анализирует поток краудсорсинговых меток для цифрового элемента. Сначала она определяет аномальное подмножество меток — всплеск активности, не соответствующий типичному распределению. Затем система извлекает историю посещений пользователей, оставивших аномальные метки (Группа 1), и пользователей, оставивших обычные метки (Группа 2). Анализируя различия в посещенных ресурсах между этими группами, система формирует дельта-набор веб-ресурсов. Ресурсы в этом наборе, которые статистически значимо чаще посещались Группой 1 (с использованием Z-статистики), идентифицируются как источник внешнего инициирующего события. После идентификации источника система применяет корректирующие действия: удаляет аномальные метки или назначает им уменьшающий весовой коэффициент.

    Актуальность для SEO

    Высокая. Защита от манипуляций пользовательскими оценками и «review bombing» является критически важной задачей для всех платформ, агрегирующих отзывы. Использование кросс-платформенного анализа поведения пользователей (через данные Яндекс.Браузера, Метрики и т.д.) для валидации сигналов является современным и эффективным подходом к обеспечению качества данных.

    Важность для SEO

    Влияние на SEO значительное (7/10), особенно для Local SEO, E-commerce и управления репутацией (ORM/SERM) на платформах Яндекса. Хотя патент напрямую не описывает алгоритмы ранжирования веб-поиска, он описывает механизм очистки сигналов (рейтингов), которые часто используются как факторы ранжирования или влияют на конверсию. Система делает опасными и неэффективными стратегии мобилизации внешнего трафика для накрутки отзывов, так как позволяет точно идентифицировать источник накрутки и нейтрализовать ее последствия.

    Детальный разбор

    Термины и определения

    Аномальная краудсорсинговая метка
    Метка (оценка, отзыв, лайк), являющаяся частью аномального всплеска активности, инициированного внешним событием, не связанным напрямую с самим цифровым элементом.
    Аномальное подмножество
    Группа краудсорсинговых меток, чье распределение значительно отличается от типичного (например, резкий пик низких или высоких оценок).
    Внешнее инициирующее событие
    Событие (например, публикация обзора блогером, пост в социальной сети, задание на бирже), которое ссылается на цифровой элемент и мотивирует пользователей массово оставлять метки.
    Дельта-набор веб-ресурсов
    Набор веб-ресурсов, выявленных путем анализа различий в истории просмотра между пользователями, оставившими аномальные метки, и пользователями, оставившими обычные метки. Содержит потенциальные источники внешнего инициирующего события.
    Журнал просмотра веб-страниц
    Хранилище данных на сервере, содержащее историю посещений веб-ресурсов пользователями (например, данные Яндекс.Браузера, Метрики).
    Краудсорсинговая метка
    Любая форма пользовательской обратной связи для цифрового элемента, например, рейтинг (звезды), отзыв, лайк/дизлайк.
    Типичное распределение меток
    Ожидаемое, исторически сложившееся распределение краудсорсинговых меток для данного цифрового элемента в отсутствие внешних манипуляций.
    Цифровой элемент
    Объект на цифровой платформе, который могут оценивать пользователи (например, фильм на Кинопоиске, товар на Маркете, организация на Картах).
    Z-статистика (Z-statistic)
    Статистический критерий, используемый для определения статистической значимости различий в долях посещений веб-ресурса между двумя группами пользователей.

    Ключевые утверждения (Анализ Claims)

    Патент фокусируется на методе использования истории посещений для выявления источника манипуляции рейтингами.

    Claim 1 (Независимый пункт): Описывает основной механизм работы системы.

    1. Анализ краудсорсинговых меток, собранных в течение определенного периода времени.
    2. Определение аномального подмножества меток, потенциально вызванного внешним событием.
    3. Получение истории просмотра (из журнала) пользователей, оставивших эти метки.
    4. Разделение истории просмотра на две группы: Первая группа (связанная с аномальными метками) и Вторая группа (связанная с остальными метками).
    5. Формирование дельта-набора веб-ресурсов путем анализа различий между Первой и Второй группами. Дельта-набор содержит ресурсы, связанные с аномальным характером посещений (т.е. посещаемые значительно чаще Первой группой).
    6. Сопоставление ресурсов из дельта-набора с источником внешнего инициирующего события.

    Claims 2, 3, 4 (Зависимые пункты): Описывают действия после идентификации источника.

    • Система определяет пользователей, которые обращались к идентифицированному источнику (веб-ресурсу) в течение периода аномалии (Claim 2).
    • Далее система может:
      • Удалить метки от этих пользователей (Claim 3).
      • Назначить уменьшающий весовой коэффициент для меток от этих пользователей (Claim 4).

    Claim 5 (Зависимый пункт): Описывает проактивную защиту и долгосрочные последствия.

    • В будущем система может идентифицировать пользователей, которые ранее обращались к выявленному источнику манипуляции.
    • Метки от таких пользователей могут быть автоматически удалены или пессимизированы в будущем.

    Claims 6-9 (Зависимые пункты): Детализируют механизм определения аномалий (Шаг 2 в Claim 1).

    • Аномалия определяется путем анализа пиковых тенденций, которые не соответствуют типичному распределению (Claim 6).
    • Это может включать аномальные пики, например, резкий всплеск меток низкого уровня (например, 1 звезда) или меток высокого уровня (например, 5 звезд) (Claims 7-9).

    Claims 10-13 (Зависимые пункты): Детализируют механизм определения аномального характера посещений и статистического подтверждения источника.

    1. Рассчитывается Первая доля пользователей (в аномальной группе), посетивших конкретный веб-ресурс.
    2. Рассчитывается Вторая доля пользователей (в обычной группе), посетивших этот же веб-ресурс.
    3. Ресурс связывается с аномальным характером посещений, если Первая доля больше Второй доли (Claim 11).
    4. Для сравнения долей используется Z-статистика (Claim 12).
    5. Если Z-статистика указывает на статистически значимое различие, веб-ресурс определяется как источник внешнего инициирующего события (Claim 13).

    Claim 21 (Зависимый пункт): Описывает возможность использования машинного обучения.

    • Система может выбрать N источников с наибольшим рангом и обучить алгоритм машинного обучения, используя эти источники для предсказания источника внешнего инициирующего события с наибольшим рангом.

    Где и как применяется

    Изобретение применяется в инфраструктуре Яндекса, отвечающей за сбор, обработку и валидацию пользовательских сигналов. Оно не относится напрямую к классическим этапам веб-поиска, а скорее к системам антифрода.

    Слой Сбора Данных (CRAWLING & ACQUISITION LAYER)
    На этом уровне система агрегирует данные, необходимые для анализа: краудсорсинговые метки с различных цифровых платформ и журналы просмотра веб-страниц (данные от Яндекс.Браузера, Метрики).

    Слой Качества и Метрик (QUALITY & GOVERNANCE LAYER)
    Основное применение патента. Система функционирует как механизм контроля качества данных и анти-фрода, аналогично подсистеме Anti-Quality, но с фокусом на пользовательские сигналы. Она обеспечивает целостность данных, используемых для расчета метрик (например, рейтинга товара или организации).

    • Входные данные: Множество краудсорсинговых меток, временные метки, идентификаторы пользователей, журнал просмотра веб-страниц.
    • Выходные данные: Идентифицированный источник внешнего инициирующего события; скорректированное множество краудсорсинговых меток (после удаления или изменения весов).

    RANKING – Ранжирование
    Влияние на ранжирование косвенное. Очищенные краудсорсинговые сигналы (например, средний рейтинг) могут использоваться как факторы ранжирования на различных уровнях (например, в Local SEO или на Маркете). Система гарантирует, что эти факторы не подвержены манипуляциям.

    На что влияет

    • Конкретные типы контента и платформы: В первую очередь влияет на сервисы Яндекса, где активно используются отзывы и рейтинги: Яндекс.Маркет (товары), Яндекс.Карты (организации, Local SEO), Кинопоиск (фильмы), Яндекс.Дзен.
    • Управление репутацией (ORM/SERM): Система напрямую влияет на усилия по управлению репутацией, делая неэффективными грубые методы накрутки или черного PR, основанные на мобилизации трафика из одного источника.
    • Конкретные ниши: Особенно актуально для конкурентных ниш и тем, подверженных общественному резонансу (рестораны, отели, медиа, YMYL тематики).

    Когда применяется

    • Триггеры активации: Система активируется при обнаружении аномалии в распределении краудсорсинговых меток. Это происходит при фиксации пиковых тенденций, не соответствующих типичному распределению (Claim 6). Например, резкие всплески активности или внезапное изменение тональности оценок (много единиц или пятерок подряд).
    • Временные рамки: Анализ проводится за определенный период времени, в течение которого наблюдается аномалия.

    Пошаговый алгоритм

    1. Сбор данных: Агрегация краудсорсинговых меток для цифрового элемента и доступ к журналу просмотра веб-страниц пользователей.
    2. Обнаружение аномалии: Анализ распределения меток во времени. Идентификация пиковых тенденций, не соответствующих типичному распределению. Определение аномального подмножества меток.
    3. Получение истории просмотра: Извлечение истории посещений для пользователей, оставивших метки в анализируемый период.
    4. Сегментация пользователей и истории: Разделение истории на две группы:
      • Группа 1 (Аномальная): История пользователей, связанных с аномальным подмножеством меток.
      • Группа 2 (Нормальная): История пользователей, связанных с остальными метками.
    5. Анализ различий и формирование Дельта-набора: Идентификация веб-ресурсов, посещенных пользователями. Для каждого ресурса проводится статистический анализ:
      1. Расчет доли пользователей, посетивших ресурс, в Группе 1 (P1).
      2. Расчет доли пользователей, посетивших ресурс, в Группе 2 (P2).
      3. Сравнение P1 и P2 с использованием Z-статистики.
      4. Если P1 значительно больше P2 (статистически значимое различие), ресурс добавляется в Дельта-набор как связанный с аномальным характером посещений.
    6. Идентификация источника: Ранжирование ресурсов в Дельта-наборе (например, по доле пользователей из Группы 1, просмотревших ресурс — Claim 14). Может использоваться порог отсечения по абсолютному количеству пользователей (Claim 15). Выбор Топ-N ресурсов как источников внешнего инициирующего события.
    7. Применение корректирующих действий: Идентификация пользователей из Группы 1, которые посещали источник внешнего события. Удаление их меток или назначение им уменьшающего весового коэффициента. Эти правила могут применяться и к будущим меткам этих пользователей (Claim 5).
    8. (Опционально) Обучение ML: Обучение алгоритма машинного обучения с использованием N источников с наибольшим рангом для улучшения предсказания источника внешнего инициирующего события (Claim 21).

    Какие данные и как использует

    Данные на входе

    • Поведенческие факторы (Ключевые данные): Журнал просмотра веб-страниц (история браузера). Это данные о том, какие URL посещали пользователи и когда. Это позволяет Яндексу отслеживать поведение пользователей за пределами своих платформ (при наличии технических возможностей, таких как Яндекс.Браузер, Метрика на сайтах). Также используются сами краудсорсинговые метки.
    • Пользовательские факторы: Идентификаторы пользователей, оставляющих краудсорсинговые метки.
    • Временные факторы: Временные метки краудсорсинговых меток и временные метки посещений веб-ресурсов в журнале просмотра. Критически важны для корреляции активности и определения периода аномалии.

    Какие метрики используются и как они считаются

    • Типичное распределение меток: Историческая модель распределения оценок, используемая как эталон для обнаружения аномалий.
    • Пиковые тенденции: Метрики, характеризующие резкие изменения в объеме или распределении меток за короткий период времени.
    • Доли пользователей (Proportions): Расчет доли пользователей, посетивших определенный веб-ресурс, отдельно для аномальной группы (P1) и нормальной группы (P2).
    • Z-статистика (Z-statistic): Используется для проверки гипотезы о равенстве долей (P1 = P2). Это стандартный статистический метод (Z-test for two proportions) для определения, является ли наблюдаемая разница статистически значимой. Формула расчета Z-статистики для сравнения двух долей:

      $$ Z = \frac{P_1 — P_2}{\sqrt{P_{общ}(1-P_{общ})(\frac{1}{N_1} + \frac{1}{N_2})}} $$

      Где $P_1, P_2$ — доли в группах, $N_1, N_2$ — размеры групп, $P_{общ}$ — общая доля в объединенной выборке.

    • Ранжирование источников: Потенциальные источники ранжируются по степени их вовлеченности в аномалию (например, по доле пользователей из аномальной группы, посетивших ресурс — Claim 14).

    Выводы

    1. Яндекс использует историю браузера для валидации пользовательских сигналов: Ключевой вывод — Яндекс обладает технической возможностью и запатентованным методом для анализа истории посещений пользователей (через Яндекс.Браузер, Метрику и другие инструменты) и использования этих данных для оценки органичности их действий на своих платформах.
    2. Сложный механизм борьбы с накрутками и «рейдами»: Патент описывает не просто фильтрацию подозрительных отзывов по шаблону, а сложную систему, направленную на выявление первопричины (источника мобилизации трафика).
    3. Органичность поведения превыше всего: Система защищает «типичное распределение» и пессимизирует любое поведение, которое выглядит как скоординированная внешняя кампания, независимо от ее направленности (позитивной или негативной).
    4. Статистическая точность определения источника: Использование Z-статистики для сравнения долей посещений позволяет с высокой степенью достоверности определять, какие внешние ресурсы ответственны за аномальный всплеск активности, минимизируя ложные срабатывания.
    5. Долгосрочные последствия для нарушителей: Система может не только нейтрализовать текущую аномалию, но и помечать пользователей, участвовавших в ней (посещавших источник), для применения санкций к их будущим действиям (Claim 5).

    Практика

    Best practices (это мы делаем)

    • Стимулирование органических отзывов: Сосредоточьтесь на получении отзывов от реальных клиентов непосредственно в момент взаимодействия с продуктом или услугой (например, через QR-коды на месте, email после покупки). Эти отзывы будут соответствовать «типичному распределению» и не будут связаны с внешними инициирующими событиями.
    • Диверсификация каналов для сбора обратной связи: При проведении маркетинговых кампаний, направленных на сбор отзывов, используйте множество различных каналов (email-рассылки, push-уведомления, разные социальные сети) и растягивайте активность во времени. Это снизит вероятность того, что система идентифицирует один конкретный источник как причину аномального всплеска.
    • Мониторинг репутации и защита от атак: Для легитимных бизнесов этот патент является позитивным сигналом. Он показывает, что Яндекс активно борется с «review bombing» и черным PR. В случае несправедливой атаки система должна автоматически ее обнаружить и нейтрализовать.
    • Работа над качеством продукта/услуги: Наилучшая долгосрочная стратегия — обеспечение высокого качества, которое естественным образом формирует положительное типичное распределение оценок.

    Worst practices (это делать не надо)

    • Покупка мобилизованного трафика для отзывов: Заказ кампаний в Telegram-каналах, на форумах, у блогеров или на биржах заданий с прямым призывом поставить определенную оценку. Система с высокой вероятностью обнаружит этот источник через анализ истории браузера участников и обнулит все эти отзывы.
    • Организация «рейдов» на конкурентов (Review Bombing): Попытки организовать массовое занижение рейтинга конкурентам также будут обнаружены и нейтрализованы, а аккаунты участников могут быть пессимизированы в будущем.
    • Резкие всплески активности: Любые действия, приводящие к резкому и неестественному изменению количества или тональности отзывов за короткий промежуток времени, являются триггером для активации этой системы.

    Стратегическое значение

    Патент подтверждает стратегический приоритет Яндекса на обеспечение достоверности данных и борьбу с манипуляциями. Он демонстрирует глубину интеграции различных сервисов Яндекса (Поиск, Браузер, Метрика, Платформы с отзывами) для контроля качества. Для SEO и SERM это означает, что любые попытки манипулирования пользовательскими сигналами должны быть максимально нативными и растянутыми во времени. Грубые методы накрутки не только неэффективны, но и рискованны, так как система точно определяет источник и участников манипуляции.

    Практические примеры

    Сценарий 1: Попытка накрутки рейтинга через Telegram-канал

    1. Ситуация: Ресторан заказывает рекламу в популярном городском Telegram-канале с призывом поставить 5 звезд на Яндекс.Картах.
    2. Действие пользователей: 500 человек переходят по ссылке из Telegram и в течение часа ставят 5 звезд.
    3. Реакция системы (Обнаружение аномалии): Система фиксирует резкий пик высоких оценок, не соответствующий типичному распределению. Определяется аномальное подмножество меток.
    4. Реакция системы (Анализ истории): Система анализирует историю браузера этих 500 пользователей (Группа 1) и сравнивает ее с историей обычных пользователей (Группа 2).
    5. Реакция системы (Идентификация источника): Система обнаруживает, что 90% пользователей из Группы 1 недавно посещали specific-telegram-channel.url, в то время как в Группе 2 этот ресурс посещали только 1%. Z-статистика показывает высокое статистическое различие. Telegram-канал идентифицируется как источник.
    6. Результат: Всем оценкам от пользователей, посетивших этот Telegram-канал, назначается уменьшающий весовой коэффициент (или они удаляются).

    Сценарий 2: Нейтрализация накрутки через биржу микрозаданий

    1. Ситуация: Компания закупает положительные отзывы на свой товар на Яндекс.Маркете через биржу микрозаданий.
    2. Реакция системы: Фиксируется аномальный пик положительных оценок.
    3. Анализ и Идентификация: Анализ истории просмотра выявляет, что значительная часть пользователей, оставивших эти оценки, посещала сайт биржи микрозаданий (URL биржи попадает в дельта-набор).
    4. Результат: Положительные отзывы от этих пользователей нейтрализуются. Рейтинг товара корректируется до объективного уровня.

    Вопросы и ответы

    Означает ли этот патент, что Яндекс отслеживает всю историю моего браузера?

    Патент описывает техническую возможность и метод анализа «журнала просмотра веб-страниц», хранящегося на сервере. На практике доступ к этим данным у Яндекса есть, если вы используете Яндекс.Браузер (с включенной синхронизацией), если на посещаемых вами сайтах установлены счетчики Яндекс.Метрики, или вы используете другие продукты экосистемы, дав соответствующие разрешения. Система использует эти данные агрегированно для выявления статистических закономерностей и борьбы с манипуляциями.

    Может ли система ошибочно принять органический всплеск интереса за накрутку?

    Теоретически да, если органический всплеск вызван одним мощным внешним событием (например, упоминанием на ТВ). Механизм патента направлен именно на то, чтобы идентифицировать этот источник. Однако при естественном вирусном эффекте источники трафика обычно более разнообразны, а распределение оценок менее однородным, чем при скоординированной накрутке. Система анализирует совокупность факторов для принятия решения.

    Как безопасно стимулировать клиентов оставлять отзывы на Яндекс.Картах?

    Наиболее безопасный способ — стимулировать отзывы в момент оказания услуги (например, QR-код на месте, напоминание сразу после визита). Избегайте массовых кампаний через один внешний канал (например, покупка поста в соцсети с призывом поставить оценку). Растягивайте процесс сбора отзывов во времени, чтобы избежать резких пиков, которые триггерят систему анализа.

    Влияет ли этот патент на ранжирование в основном веб-поиске Яндекса?

    Напрямую нет. Патент сфокусирован на очистке краудсорсинговых сигналов на цифровых платформах (Маркет, Карты и т.д.). Однако косвенное влияние есть. Эти сигналы (например, рейтинг организации) могут использоваться как факторы ранжирования в основном поиске (особенно локальном) или при формировании колдунщиков. Система гарантирует, что эти факторы достоверны и не накручены.

    Что такое «типичное распределение меток»?

    Это исторически сложившаяся картина оценок для данного объекта в отсутствие внешних манипуляций. Например, для хорошего ресторана типичным может быть 80% пятерок, 15% четверок и 5% низких оценок. Если внезапно за один день появляется 50% единиц, это аномалия («пиковая тенденция»), которая активирует систему анализа.

    Что такое Z-статистика и как она используется в этом патенте?

    Z-статистика — это стандартный статистический тест для сравнения долей двух групп. В патенте он используется, чтобы доказать, что пользователи, оставившие аномальные отзывы (Группа 1), статистически значимо чаще посещали определенный веб-ресурс, чем обычные пользователи (Группа 2). Если Z-значение высоко, это подтверждает, что данный ресурс является источником мобилизации трафика, а не случайным совпадением.

    Если я использую множество разных источников для накрутки отзывов, система меня не обнаружит?

    Система ищет статистически значимые различия. Если вы используете множество мелких, не связанных между собой источников, и активность распределена во времени, системе будет сложнее идентифицировать конкретный источник манипуляции. Однако, если общая активность все равно выглядит аномально (не соответствует типичному распределению), система может применить другие методы фильтрации, не описанные в данном патенте.

    Что произойдет с аккаунтами пользователей, чьи отзывы были признаны аномальными?

    Патент предусматривает возможность применения санкций не только к текущим, но и к будущим меткам этих пользователей (Claim 5). Это означает, что участие в накрутках или «рейдах» может привести к долгосрочной пессимизации аккаунта: его будущие отзывы на любых платформах Яндекса могут иметь пониженный вес или игнорироваться.

    Защищает ли этот патент от покупки отзывов на биржах (буксах)?

    Да, если пользователи биржи переходят на целевую страницу непосредственно с сайта биржи заданий. Сайт биржи будет идентифицирован как источник внешнего инициирующего события через анализ истории браузера. Если же пользователи вводят запрос вручную (имитируя органический поиск), этот конкретный механизм может не сработать, но Яндекс использует другие поведенческие анализы для выявления таких накруток.

    Какие конкретно корректирующие действия предпринимает Яндекс?

    Патент описывает два основных варианта (Claims 3 и 4). Первый — это полное удаление меток от пользователей, которые посещали источник аномалии. Второй — назначение «уменьшающего весового коэффициента» для этих меток, то есть они учитываются в общем рейтинге, но с гораздо меньшим весом, чем органические оценки.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.