Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс использует графовый анализ для выявления скоординированных накруток рейтингов организаций

    СПОСОБ И СИСТЕМА ДЛЯ ВЫЯВЛЕНИЯ АНОМАЛЬНОГО РЕЙТИНГОВАНИЯ (Method and System for Detecting Anomalous Rating)
    • RU2019128284A
    • Yandex LLC
    • 2021-03-09
    • 2019-09-09
    2021 Local SEO Антикачество Антиспам Патенты Яндекс

    Яндекс патентует метод борьбы с фродом в рейтингах организаций (например, на Картах). Система строит граф связей между организациями на основе общих пользователей, которые их оценили. Алгоритм ищет плотные кластеры (клики), где группа пользователей массово оценила одну и ту же группу организаций. Если распределение этих оценок статистически аномально (например, только 5 звезд), система маркирует этих пользователей как фрод и удаляет их оценки.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу обеспечения целостности и достоверности пользовательских рейтингов организаций (например, в Яндекс.Картах или Яндекс.Бизнесе). Он направлен на выявление и нейтрализацию аномального рейтингования, вызванного скоординированными действиями групп пользователей (ботов, платных акторов). Основная уязвимость, которую устраняет патент — это возможность манипулирования репутацией организации через массовые накрутки позитивных оценок или атаки негативными оценками.

    Что запатентовано

    Запатентованы способ и система для выявления пользователей, формирующих аномальные рейтинги. Суть изобретения заключается в применении методов графового анализа для обнаружения скоординированной активности. Система моделирует взаимосвязи между организациями на основе общих пользователей, которые их оценили, и ищет в этом графе полные подграфы (клики). Обнаружение такого подграфа с аномальным (статистически невероятным) распределением рейтингов указывает на фрод.

    Как это работает

    Система строит граф рейтингования организаций. Узлы графа — это организации. Ребро между двумя организациями существует, если есть пользователи, оценившие обе организации. Вес ребра — это количество таких общих пользователей. Алгоритм ищет полные подграфы (клики) — группы организаций, где каждая связана с каждой другой. Если такая плотная группа найдена, система анализирует распределение оценок внутри нее. Если распределение соответствует пороговому распределению (например, доля максимальных или минимальных оценок аномально высока), пользователи, участвующие в этом подграфе, маркируются как аномальные, и их оценки могут быть удалены.

    Актуальность для SEO

    Высокая. Манипуляции с пользовательским контентом (UGC) и рейтингами являются постоянной проблемой для всех платформ. Методы, основанные на графовом анализе для выявления скоординированного неаутентичного поведения (Coordinated Inauthentic Behavior), являются стандартом в индустрии борьбы с фродом и критически актуальны для поддержания качества экосистемы Яндекса.

    Важность для SEO

    Влияние на SEO значительно (8/10), особенно критично для Локального SEO и управления репутацией (ORM/SERM). Патент описывает конкретный механизм, который Яндекс использует для фильтрации накрученных отзывов и рейтингов. Поскольку рейтинги являются важным фактором ранжирования в локальном поиске и влияют на доверие пользователей, понимание этого механизма позволяет избежать рисков пессимизации за использование недобросовестных методов продвижения и подчеркивает важность получения органических, естественно распределенных оценок.

    Детальный разбор

    Термины и определения

    Аномальные рейтинги (Anomalous Ratings)
    Рейтинги, сформированные в результате скоординированной неаутентичной активности (фрода, накрутки, бот-атаки), а не в результате органического пользовательского опыта.
    Вес ребра (Edge Weight)
    В контексте графа рейтингования — количественный показатель, указывающий на количество общих пользователей, оценивших две организации, соединенные этим ребром.
    Граф рейтингования организаций (Organization Rating Graph)
    Структура данных, в которой каждый узел соответствует организации, а ребра соединяют пары организаций, оцененных одними и теми же пользователями.
    Полный подграф (Клика / Complete Subgraph / Clique)
    Подмножество узлов графа, в котором каждый узел соединен ребром со всеми остальными узлами этого подмножества. В контексте патента — это группа организаций, где каждая пара организаций имеет общих пользователей, которые их оценили. Это сильный индикатор скоординированной активности.
    Пороговое распределение (Threshold Distribution)
    Заранее определенное распределение рейтингов, которое считается статистически аномальным или невероятным для органической активности. Например, распределение, в котором 99% оценок составляют 5 звезд или 1 звезду.
    Пороговый вес (Threshold Weight)
    Минимальное количество общих пользователей, необходимое для того, чтобы связь (ребро) между двумя организациями учитывалась в анализе. Используется для фильтрации случайных связей.

    Ключевые утверждения (Анализ Claims)

    Патент фокусируется на выявлении скоординированного поведения путем анализа структуры связей между оцененными организациями и статистического анализа распределения этих оценок.

    Claim 1 (Независимый пункт): Описывает основной способ выявления аномалий с использованием графового подхода.

    1. Получение данных рейтингования (организации и их оценки).
    2. Формирование графа рейтингования: Узлы = организации; Вес ребра = количество пользователей, оценивших обе организации.
    3. Определение полного подграфа (клики) в этом графе. Это означает нахождение группы организаций, тесно связанных между собой общими пользователями.
    4. Проверка соответствия рейтингов внутри этого подграфа пороговому распределению (т.е. проверка на аномальность распределения).
    5. Если распределение аномально, пользователи, связанные с этим подграфом, маркируются как формирующие аномальные рейтинги.

    Claim 16 (Независимый пункт): Описывает альтернативный способ, который по сути эквивалентен Claim 1, но сформулирован без явной терминологии графов.

    1. Получение данных рейтингования.
    2. Определение набора организаций, в котором для каждой пары организаций из набора есть хотя бы один общий пользователь, оценивший их обе (это определение полного подграфа).
    3. Анализ распределения рейтингов в этом наборе и определение его аномальности.
    4. Сохранение индикатора связи пользователей, оценивших две или более организаций из набора, с аномальными рейтингами.

    Зависимые пункты (Уточнения механизма):

    Фильтрация связей (Claims 2, 13): Для повышения точности система может удалять из графа ребра с весом ниже порогового веса. Это позволяет игнорировать случайные совпадения и фокусироваться только на сильных связях (много общих пользователей).

    Фильтрация пользователей (Claims 3, 14, 17, 20): Система может исключать из анализа или маркировать только тех пользователей, которые оценили больше заранее заданного порогового количества организаций из подграфа. Это помогает отделить активных фродеров от легитимных пользователей, случайно попавших в кластер.

    Определение аномальности (Claims 6, 9, 18, 19): Аномальность распределения определяется несколькими способами:

    • Определение доли наибольших (например, 5 звезд) или наименьших (например, 1 звезда) возможных рейтингов и сравнение этой доли с пороговой (Claims 6, 18). Если доля экстремальных оценок слишком велика, это аномалия.
    • Сравнение метрики текущего распределения с метрикой нормального распределения (Claim 19).

    Действие (Claims 4, 15): После выявления пользователей, связанных с аномальными рейтингами, их оценки удаляются из данных рейтингования.

    Где и как применяется

    Изобретение применяется в инфраструктуре Яндекса, отвечающей за обработку пользовательского контента (UGC) и контроль качества данных. Это антифрод-система.

    CRAWLING & DATA ACQUISITION (Сбор данных)
    Система получает данные о рейтингах, оставленных пользователями на сервисах Яндекса (Карты, Бизнес и т.д.).

    INDEXING & FEATURE EXTRACTION (Индексирование и извлечение признаков)
    Основной этап применения. Система анализирует собранные данные для выявления аномалий. Это, вероятно, происходит в офлайн или near-real-time режиме.

    1. Обработка данных: Построение графа рейтингования и поиск клик.
    2. Контроль качества: Выявленные аномальные рейтинги удаляются, а пользователи маркируются.
    3. Извлечение признаков: Очищенные данные используются для расчета достоверного рейтинга организации, который затем используется как признак (feature) для ранжирования.

    Слой Качества (QUALITY & GOVERNANCE LAYER)
    Механизм является частью глобальной системы контроля качества, аналогично Anti-Quality, но с фокусом на UGC-фрод. Он обеспечивает чистоту данных, которые затем могут использоваться метриками вроде Proxima для оценки надежности организации.

    Входные данные: Множество организаций, множество пользователей, рейтинги (оценки), оставленные пользователями для организаций. Данные могут быть ограничены периодом времени (Claim 8).

    Выходные данные: Индикатор связи пользователей с аномальными рейтингами (список фродеров); Очищенный набор рейтингов (после удаления фрода).

    На что влияет

    • Конкретные типы контента: Влияет на пользовательские рейтинги и отзывы организаций, товаров или других сущностей в экосистеме Яндекса.
    • Конкретные ниши или тематики: Особенно актуально для высококонкурентных ниш, где распространены накрутки рейтингов (рестораны, отели, услуги, e-commerce), а также для YMYL-тематик, где достоверность репутации критична.
    • Локальный поиск: Оказывает прямое влияние на ранжирование организаций в локальном поиске и на Картах, так как рейтинг является значимым фактором.

    Когда применяется

    Алгоритм применяется при обработке массивов данных о рейтингах. Это может происходить периодически или при достижении определенного объема новых данных.

    • Условия работы: Наличие достаточного объема данных для построения статистически значимого графа.
    • Триггеры активации:
      1. Обнаружение в графе полного подграфа (клики) определенного размера (Claim 11) с достаточно сильными связями (вес ребер).
      2. Распределение рейтингов внутри этого подграфа соответствует пороговому (аномальному) распределению.

    Пошаговый алгоритм

    Процесс выявления аномального рейтингования:

    1. Сбор данных: Получение данных рейтингования организаций за определенный период времени.
    2. Построение графа: Формирование графа рейтингования организаций. Узлы — организации. Ребра соединяют организации, оцененные общими пользователями. Вес ребра — количество таких пользователей.
    3. Предварительная фильтрация (Прунинг графа): Удаление слабых связей — ребер с весом меньше заранее заданного порогового веса (Claim 2).
    4. Обнаружение Клики (Clique Detection): Поиск в графе полных подграфов (клик). Это потенциальные зоны скоординированной активности.
    5. Фильтрация пользователей в клике (Опционально): Удаление из анализа информации о пользователях, которые оценили меньше порогового количества организаций внутри клики (Claim 3).
    6. Анализ распределения рейтингов: Для оставшихся данных в клике анализируется распределение оценок. Вычисляется доля экстремальных (наибольших или наименьших) рейтингов.
    7. Детектирование аномалии: Сравнение полученного распределения с пороговым распределением. Если доля экстремальных рейтингов превышает пороговую долю, распределение признается аномальным.
    8. Применение санкций: Сохранение индикатора связи пользователей, соответствующих клике, с аномальными рейтингами. Удаление этих рейтингов из общей базы данных (Claim 4).

    Какие данные и как использует

    Данные на входе

    • Поведенческие факторы (Взаимодействия): Являются основой для анализа. Используются данные о действиях пользователей: какая учетная запись какую организацию оценила и какую оценку поставила (шкальную или бинарную, Claim 5). Анализируется паттерн этих действий (скоординированность).
    • Временные факторы: В патенте упоминается возможность получения данных, собранных в течение заранее заданного периода времени (Claim 8), что позволяет анализировать активность в динамике или срезах.

    Другие типы факторов (контентные, ссылочные, технические) в данном патенте напрямую не используются. Алгоритм не анализирует текст отзывов.

    Какие метрики используются и как они считаются

    • Вес ребра (Edge Weight): Рассчитывается как количество уникальных пользователей, которые оценили обе организации, соединенные ребром.
    • Доля экстремальных рейтингов: Метрика для анализа распределения. Рассчитывается как отношение количества наибольших (или наименьших) возможных рейтингов к общему количеству рейтингов в рамках анализируемого подграфа.
    • Пороговые значения:
      • Пороговый вес ребра: Минимальный вес для учета ребра в анализе.
      • Пороговое количество организаций: Минимальное количество организаций из подграфа, которое должен оценить пользователь, чтобы учитываться в анализе.
      • Пороговая доля экстремальных рейтингов: Максимально допустимая доля экстремальных оценок, выше которой распределение считается аномальным.
    • Методы анализа: Используются алгоритмы теории графов, в частности, алгоритмы поиска клик (Clique Detection / Complete Subgraph Identification), и методы статистического анализа распределений.

    Выводы

    1. Яндекс активно борется со скоординированными накрутками рейтингов: Патент описывает сложный механизм для выявления фрода, основанный не на анализе текста отзывов, а на анализе структуры взаимодействий пользователей и организаций.
    2. Графовый анализ для выявления координации: Ключевым инструментом является построение графа связей на основе общих пользователей и поиск полных подграфов (клик). Наличие клики — сильный сигнал о том, что группа пользователей действует сообща (боты одного владельца или сотрудники сервиса накрутки).
    3. Статистический анализ распределения оценок: Сама по себе скоординированная активность еще не является фродом. Фрод детектируется, если распределение оценок внутри клики является аномальным — статистически невероятным для органического поведения (слишком много одинаковых экстремальных оценок).
    4. Многоуровневая фильтрация для точности: Система использует несколько порогов (минимальное количество общих пользователей для связи, минимальная активность пользователя в клике, порог аномальности распределения) для минимизации ложных срабатываний (False Positives).
    5. Важность чистоты данных для Локального SEO: Обеспечение достоверности рейтингов критично для Яндекса, так как эти данные напрямую влияют на ранжирование в локальном поиске и доверие к платформе.

    Практика

    Best practices (это мы делаем)

    • Стимулирование органических отзывов: Сосредоточьтесь на получении настоящих отзывов от реальных клиентов. Лучшая защита от алгоритмов антифрода — это естественный паттерн пользовательской активности.
    • Обеспечение естественного распределения оценок: Понимайте, что нормальное распределение включает разные оценки (не только 5 звезд). Высокое качество сервиса естественным образом приведет к преобладанию положительных оценок, но их распределение не будет выглядеть статистически аномальным.
    • Диверсификация времени и источников получения отзывов: Отзывы должны поступать постепенно, а не массовыми всплесками. Стимулируйте клиентов оставлять отзывы через разные каналы (QR-коды в офисе, email-рассылки после покупки), но избегайте схем, которые могут выглядеть как скоординированная акция.
    • Мониторинг репутации и активности конкурентов: Анализируйте паттерны отзывов у конкурентов. Если вы видите признаки накрутки (массовые однотипные отзывы за короткий период), данный алгоритм, вероятно, их обнаружит и нейтрализует.

    Worst practices (это делать не надо)

    Этот патент напрямую направлен против следующих тактик:

    • Покупка отзывов на биржах или у сервисов накрутки: Это самая уязвимая тактика. Сервисы накрутки используют пул аккаунтов (ботов или платных исполнителей) для оценки разных заказчиков. Эти аккаунты и заказчики неизбежно сформируют полный подграф (клику) с аномальным распределением (все ставят 5 звезд), что будет легко обнаружено алгоритмом.
    • Использование бот-сетей (Sock Puppets): Создание множества фейковых аккаунтов для повышения собственного рейтинга или понижения рейтинга конкурентов. Скоординированные действия этих аккаунтов будут выявлены через графовый анализ.
    • Массовые скоординированные акции по оценке: Просьбы к сотрудникам или лояльным клиентам массово поставить оценки в короткий промежуток времени, особенно если они также оценивают связанные организации, могут быть ошибочно интерпретированы как фрод из-за формирования клики и аномального распределения.

    Стратегическое значение

    Патент подтверждает стратегический приоритет Яндекса на обеспечение достоверности и качества данных в своей экосистеме. Для SEO и SERM это означает, что любые попытки манипулирования репутацией с использованием скоординированных действий будут пресекаться на инфраструктурном уровне. Долгосрочная стратегия должна строиться исключительно на органическом развитии и улучшении качества продукта/услуги. В Локальном SEO надежность и подлинность сигналов (включая рейтинги) имеют первостепенное значение.

    Практические примеры

    Сценарий: Выявление сервиса по накрутке отзывов

    1. Действующие лица: Сервис накрутки использует 50 ботов (Пользователи U1-U50). У них есть 5 клиентов (Организации O1-O5), которые заказали по 50 положительных отзывов (5 звезд).
    2. Действие системы (Построение графа): Система строит граф. Между любой парой организаций (например, O1 и O2) существует ребро с весом 50 (так как все 50 ботов оценили их обе).
    3. Обнаружение Клики: Организации O1-O5 формируют полный подграф (клику размера 5), так как все они связаны друг с другом сильными связями (вес 50).
    4. Анализ распределения: Система анализирует рейтинги внутри этой клики (всего 250 оценок). Доля оценок «5 звезд» составляет 100%.
    5. Детектирование аномалии: Это распределение признается аномальным (превышает пороговое значение, например, 95%).
    6. Результат: Пользователи U1-U50 маркируются как фрод. Все 250 оценок удаляются. Организации O1-O5 не получают выгоды от накрутки и могут быть дополнительно пессимизированы за участие в ней.

    Вопросы и ответы

    Что такое «полный подграф» или «клика» в контексте этого патента?

    Полный подграф (клика) — это группа организаций, где каждая организация связана с каждой другой организацией в этой группе. Связь означает, что у них есть общие пользователи, которые оценили их обе. Обнаружение такой структуры является сильным индикатором того, что группа пользователей действовала скоординированно, например, это могут быть боты, массово оценивающие группу заказчиков.

    Означает ли это, что нельзя получать много 5-звездочных отзывов?

    Нет, получать много положительных отзывов можно и нужно. Алгоритм срабатывает не просто на количество 5-звездочных отзывов, а на комбинацию двух факторов: (1) наличие скоординированной группы пользователей (выявленной через клику) И (2) аномальное, статистически невероятное распределение оценок внутри этой группы. Если отзывы поступают от органических пользователей, которые естественно взаимодействуют с разными организациями, риск отсутствует.

    Как система отличает ботов от реальных активных пользователей, которые оставляют много отзывов?

    Патент предусматривает механизмы фильтрации. Во-первых, учитывается сила связи (вес ребра) — для срабатывания нужно много общих пользователей. Во-вторых, анализируется распределение оценок — реальные пользователи редко ставят только экстремальные оценки (только 1 или только 5). В-третьих, система может фокусироваться только на пользователях, которые оценили значительное количество организаций именно внутри подозрительной клики (Claim 3).

    Чем опасна покупка отзывов на биржах в свете этого патента?

    Покупка отзывов на биржах крайне опасна, так как это идеальный сценарий для обнаружения данным алгоритмом. Исполнители с биржи (или боты сервиса) обслуживают множество заказчиков. Когда они массово оценивают этих заказчиков, они формируют клику с аномальным распределением оценок (обычно 5 звезд). Система легко обнаружит эту активность, удалит отзывы и пометит аккаунты как фрод.

    Может ли этот алгоритм использоваться для борьбы с негативными атаками на рейтинг?

    Да, абсолютно. В патенте указано, что анализируется доля как наибольших (5 звезд), так и наименьших (1 звезда) возможных рейтингов (Claim 6). Если скоординированная группа пользователей (клика) массово ставит 1 звезду группе организаций (например, в рамках конкурентной войны), это распределение также будет признано аномальным, и оценки будут удалены.

    Что такое «пороговый вес» ребра и зачем он нужен?

    Пороговый вес ребра — это минимальное количество общих пользователей, которые должны оценить две организации, чтобы связь между ними считалась значимой (Claim 2). Это нужно для фильтрации случайных связей. Если два ресторана в Москве оценил один общий пользователь, это случайность. Если их оценили 20 общих пользователей за день, это подозрительная связь, которую стоит анализировать.

    Влияет ли этот патент на текстовое содержание отзывов?

    Нет, данный патент не описывает анализ текста отзывов (например, с помощью NLP). Он фокусируется исключительно на метаданных: кто, кого, какую оценку поставил, и как эти действия структурированы и распределены статистически. Анализ содержания отзывов, вероятно, осуществляется другими системами Яндекса.

    Если я попрошу всех сотрудников своей компании оставить отзыв, сработает ли этот алгоритм?

    Это рискованно. Если сотрудники оставят отзывы примерно в одно время и поставят только максимальные оценки, это может выглядеть как аномальное распределение. Если они при этом также скоординированно оценят другие связанные организации (например, партнеров), они могут сформировать клику. Лучше избегать таких скоординированных действий и стимулировать органические отзывы от клиентов.

    Где конкретно применяется этот алгоритм в Яндексе?

    Хотя в патенте это не указано, наиболее вероятные области применения — это сервисы, где рейтинги организаций играют ключевую роль: Яндекс.Карты, Яндекс.Бизнес, возможно, Яндекс.Маркет (рейтинги магазинов). Алгоритм обеспечивает чистоту данных в этих сервисах.

    Как обеспечить естественный профиль отзывов и избежать проблем с этим алгоритмом?

    Нужно фокусироваться на качестве услуг и стимулировать реальных клиентов оставлять отзывы в разное время и через разные каналы. Не стремитесь к 100% пятизвездочных оценок — естественное распределение выглядит достовернее. Главное — категорически избегать любых форм покупки отзывов или использования ботов.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.