Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс использует графовый анализ для выявления скоординированных накруток рейтингов организаций

    METHOD OF AND SYSTEM FOR IDENTIFYING ABNORMAL RATING ACTIVITY (Метод и система для выявления аномальной активности в рейтингах)
    • US11334559B2
    • Yandex LLC
    • 2022-05-17
    • 2020-05-08
    2022 Local SEO Антикачество Антиспам Патенты Яндекс Яндекс Карты

    Яндекс патентует систему для борьбы с накруткой отзывов. Система строит граф связей между организациями на основе общих рецензентов. Если группа организаций тесно связана (образует «клику») и распределение их оценок аномально (например, только максимальные баллы), система идентифицирует это как скоординированную атаку, удаляет фейковые отзывы и помечает аккаунты нарушителей.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу борьбы с манипуляциями рейтингами организаций (abnormal organization ratings). Он направлен на выявление скоординированных действий «плохих акторов» (bad actors), которые инструктируют или оплачивают пользователей для выставления неестественных оценок — завышенных для продвигаемых организаций или заниженных для конкурентов. Такие манипуляции вводят пользователей в заблуждение, снижают доверие к поисковой системе и могут искусственно влиять на ранжирование в локальном поиске и на картах.

    Что запатентовано

    Запатентована система для выявления аномальной активности в рейтингах с использованием графового анализа. Суть изобретения заключается в идентификации групп пользователей и организаций, вовлеченных в скоординированную накрутку. Это достигается путем построения графов рейтинговой активности и поиска в них полных подграфов (complete subgraphs или клик), которые указывают на тесную взаимосвязь между группой организаций через общих рецензентов. Затем анализируется статистическое распределение оценок внутри этих кластеров.

    Как это работает

    Система анализирует историю рейтингов и строит граф, где узлы — это организации, а вес ребра между двумя организациями равен числу общих пользователей, оценивших обе. Далее система ищет полные подграфы — группы организаций, где каждая связана с каждой. Это выявляет кластеры подозрительной активности. Внутри кластера отфильтровываются случайные пользователи (те, кто оценил мало организаций из группы). Для оставшихся пользователей анализируется метрика распределения (distribution metric) оценок. Если распределение аномально (например, слишком много максимальных или минимальных оценок), активность признается накруткой. Пользователи маркируются, их оценки удаляются, а рейтинг организаций может быть понижен.

    Актуальность для SEO

    Высокая. Манипуляции с отзывами и рейтингами являются постоянной проблемой в Local SEO, E-commerce и на картографических сервисах. Использование графового анализа для выявления скоординированных, а не только индивидуальных нарушений, является современным и эффективным подходом к обеспечению качества данных.

    Важность для SEO

    Влияние на SEO значительно (7/10), особенно для Local SEO и управления репутацией (ORM). Рейтинги напрямую влияют на CTR, конверсии и доверие пользователей, а также являются важными сигналами ранжирования в локальной выдаче. Патент описывает конкретный и сложный механизм, который Яндекс использует для нейтрализации попыток манипуляции этими сигналами. Это делает стратегии «черного SEO», основанные на покупке отзывов или организации рейтинговых колец, крайне рискованными и легко обнаруживаемыми.

    Детальный разбор

    Термины и определения

    Abnormal Organization Ratings (Аномальные рейтинги организаций)
    Оценки, выставленные пользователями под влиянием внешних инструкций или стимулов (например, за плату), а не на основе личного опыта. Цель таких оценок — манипуляция общим рейтингом.
    Complete Subgraph (Полный подграф, Клика)
    Подмножество вершин графа, в котором каждая пара вершин соединена ребром. В контексте патента — это группа организаций, где каждая организация имеет общих рецензентов с каждой другой организацией в группе. Это индикатор плотной, скоординированной активности.
    Distribution Metric (Метрика распределения)
    Статистический показатель, описывающий распределение оценок внутри подграфа (например, стандартное отклонение, процент максимальных/минимальных оценок). Используется для определения естественности выставленных оценок.
    First Graph (Первый граф)
    Двудольный граф (Bipartite Graph), в котором узлами являются как пользователи, так и организации. Ребро существует, если пользователь оценил организацию.
    Organization Rating Activity (Активность в рейтингах организаций)
    Накопленные данные о том, какие пользователи какие организации оценили и какие оценки выставили (хранятся в Rating Log).
    Second Graph (Второй граф)
    Граф, построенный на основе Первого графа. Узлами являются только организации. Ребро между двумя организациями существует, если у них есть хотя бы один общий пользователь, оценивший обе. Ребра взвешены.
    Threshold Distribution (Пороговое распределение)
    Эталонное или граничное значение для Distribution Metric. Если метрика подграфа удовлетворяет этому порогу (например, превышает его), распределение оценок считается аномальным.
    Weighted Edges (Взвешенные ребра)
    Ребра во Втором графе, вес которых равен количеству уникальных пользователей, которые оценили обе организации, соединенные этим ребром.

    Ключевые утверждения (Анализ Claims)

    Патент описывает систему, которая использует графовую структуру данных для выявления скоординированных манипуляций с рейтингами.

    Claim 1 (Независимый пункт): Описывает основной метод выявления пользователей, участвующих в аномальной рейтинговой активности. Это многоступенчатый процесс:

    1. Извлечение данных о рейтинговой активности.
    2. Построение Первого графа (пользователи и организации как узлы).
    3. Построение Второго графа на основе Первого (только организации как узлы, ребра взвешены по количеству общих пользователей).
    4. Удаление из Второго графа ребер с весом ниже заданного порога (фильтрация шума и случайных связей).
    5. Определение Полного подграфа (Клики) во Втором графе (группа тесно связанных организаций).
    6. Критически важный шаг: Удаление из подграфа информации о пользователях, которые оценили меньше порогового числа организаций ВНУТРИ этого подграфа. Это отсекает органических пользователей от потенциальных мошенников, которые обычно оценивают много организаций в целевой группе.
    7. Определение Метрики распределения для оставшихся оценок в подграфе.
    8. Сравнение метрики с Пороговым распределением.
    9. Если порог удовлетворен (распределение аномально), сохранение индикатора того, что пользователи, соответствующие этому подграфу, связаны с аномальной активностью.

    Claim 2 (Зависимый пункт): Уточняет, что после выявления аномальной активности, оценки, выставленные этими пользователями, удаляются из общей базы данных.

    Claim 4 (Зависимый пункт): Уточняет, как может определяться аномальность распределения (Шаги 7-8 из Claim 1). Это включает определение процента оценок, которые являются наивысшими или наинизшими из возможных, и сравнение этого процента с пороговым значением. (Например, если 95% оценок — это 5 звезд, это аномально).

    Где и как применяется

    Изобретение относится к слою качества данных и антифрод-системам, которые обеспечивают чистоту сигналов, используемых поиском.

    Слой Качества и Метрик (QUALITY & GOVERNANCE LAYER)
    Основное применение патента. Это система контроля качества входных данных (рейтингов). Она работает как компонент системы Антикачества (Anti-Quality), направленный на борьбу с манипуляциями пользовательскими сигналами (UGC). Система анализирует данные из Rating Log и очищает их.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе происходит обработка и валидация данных. Очищенные рейтинги затем могут индексироваться как признаки (features) качества для организаций.

    RANKING – Ранжирование
    Система косвенно влияет на ранжирование. Очищенные данные о рейтингах организаций используются алгоритмами ранжирования (особенно в локальном поиске, на картах или в вертикалях сервисов) как фактор доверия или качества. Если система выявляет накрутку, она может не только удалить оценки (Claim 2), но и, согласно описанию (Step 635 в патенте), понизить рейтинг организаций-бенефициаров в подграфе.

    На что влияет

    • Конкретные типы контента: В первую очередь влияет на страницы и объекты, для которых собираются пользовательские рейтинги: локальные организации (магазины, рестораны, сервисы), товары в E-commerce, объекты на картах.
    • Специфические запросы: Наибольшее влияние оказывается на локальные и коммерческие запросы, где рейтинги играют ключевую роль в выборе пользователя.
    • Конкретные ниши или тематики: Критически важно для высококонкурентных локальных ниш (автосервисы, медицина, общепит, недвижимость), где высока мотивация к манипуляции рейтингами.

    Когда применяется

    Алгоритм, вероятно, выполняется в офлайн или около-реалтайм режиме как периодический процесс очистки базы данных рейтингов.

    • Условия работы: Наличие достаточного объема накопленной рейтинговой активности для построения статистически значимых графов.
    • Триггеры активации: Обнаружение плотных кластеров (Полных подграфов) в графе рейтинговой активности, удовлетворяющих минимальным требованиям по размеру и весам ребер.
    • Временные рамки: Анализ может проводиться за определенный период времени (например, активность за последние 30 дней, как упомянуто в описании патента).

    Пошаговый алгоритм

    Процесс выявления и нейтрализации скоординированной накрутки рейтингов.

    1. Сбор данных: Извлечение истории рейтингов (Rating History) из логов за определенный период. Данные включают: User ID, Organization ID, Rating Score, Timestamp.
    2. Построение Первого графа (Двудольный граф): Создание графа, где узлы — это пользователи и организации. Ребра соединяют пользователя с организацией, которую он оценил.
    3. Построение Второго графа (Граф организаций): Трансформация Первого графа. Узлы — только организации. Ребро между двумя организациями создается, если у них есть общие рецензенты. Вес ребра равен числу этих общих рецензентов.
    4. Фильтрация Второго графа: Удаление ребер с весом ниже заданного порога. Это убирает случайные пересечения и фокусирует анализ на сильных связях.
    5. Выявление кластеров (Клик): Поиск Полных подграфов (Complete Subgraphs) в отфильтрованном графе. Это группы организаций, тесно связанных между собой общими рецензентами.
    6. Анализ кластера и фильтрация пользователей: Для каждого подграфа:
      1. Определение списка всех пользователей, оценивших организации в подграфе.
      2. Подсчет, сколько организаций ВНУТРИ подграфа оценил каждый пользователь.
      3. Удаление из анализа оценок тех пользователей, кто оценил меньше порогового числа организаций в подграфе (фильтрация органических пользователей).
    7. Анализ распределения оценок: Расчет Метрики распределения для оставшихся оценок. Например, вычисление процента максимальных (5 звезд) или минимальных (1 звезда) оценок.
    8. Принятие решения: Сравнение метрики с порогом. Если процент экстремальных оценок слишком высок, кластер признается аномальным (накрученным).
    9. Корректирующие действия:
      1. Маркировка вовлеченных пользователей как мошенников (Store indicator).
      2. Удаление аномальных оценок из базы данных (Delete abnormal ratings).
      3. Понижение рейтинга организаций-бенефициаров в подграфе (Lower the rating).

    Какие данные и как использует

    Данные на входе

    Система использует исключительно данные из логов рейтинговой активности (Rating Log).

    • Пользовательские факторы: Идентификаторы пользователей (User ID, IP адрес, username).
    • Поведенческие факторы: Факты выставления оценок конкретным организациям. Используются сами значения оценок (Rating Score) — патент упоминает бинарные (да/нет) или шкальные (1-10) рейтинги.
    • Временные факторы: Временные метки выставления оценок (используются для ограничения периода анализа).
    • Данные об организациях: Идентификаторы организаций (Organization ID).

    Контентные (текст отзыва), ссылочные, технические или мультимедиа факторы в этом патенте не упоминаются и не используются.

    Какие метрики используются и как они считаются

    • Вес ребра (Edge Weight): Рассчитывается как количество уникальных пользователей, которые оценили обе организации, соединенные ребром во Втором графе.
    • Метрика распределения (Distribution Metric): Статистическая метрика, характеризующая разброс оценок. Патент предлагает несколько вариантов расчета:
      • Процент оценок, являющихся наивысшими или наинизшими из возможных (Claim 4).
      • Метрики статистической дисперсии (например, стандартное отклонение, межквартильный размах, MAD).
    • Пороговые значения: Система использует несколько настраиваемых порогов:
      • Порог веса ребра (для фильтрации Второго графа).
      • Порог числа организаций в подграфе, которые должен оценить пользователь, чтобы его не отфильтровали (Threshold number of organizations).
      • Пороговое распределение (Threshold distribution) — значение, определяющее границу между нормальным и аномальным распределением оценок.
    • Алгоритмы анализа графов: Используются алгоритмы для идентификации Полных подграфов (Cliques) в графе.

    Выводы

    1. Фокус на скоординированных атаках: Яндекс использует сложный графовый анализ для борьбы не просто с отдельными фейковыми отзывами, а с организованными кампаниями по накрутке рейтингов (Review Fraud Rings).
    2. Ключевой паттерн — Полный подграф (Клика): Обнаружение группы организаций, которые систематически оцениваются одной и той же группой пользователей, является главным индикатором подозрительной активности.
    3. Двойная верификация мошенничества: Система не просто находит связь, она проверяет ее двумя способами: (1) убеждается, что пользователи активно оценивали именно эту группу организаций (отсекая случайных пользователей), и (2) проверяет статистическое распределение оценок на предмет аномалий (поляризации).
    4. Комплексное противодействие: Меры включают не только удаление фейковых оценок, но и маркировку пользователей-мошенников, и потенциальную пессимизацию организаций, которые пытались манипулировать рейтингом.
    5. Риск для Black Hat SEO: Покупка пакетных отзывов или участие в биржах отзывов создает именно те графовые структуры (клики), которые этот алгоритм эффективно обнаруживает.

    Практика

    Best practices (это мы делаем)

    • Стимулирование органических отзывов: Сосредоточьтесь на получении настоящих отзывов от реальных клиентов. Используйте легитимные методы напоминания (email-рассылки после оказания услуги, QR-коды в заведении), но не предлагайте вознаграждение за конкретную оценку.
    • Диверсификация базы рецензентов: Безопасный профиль отзывов формируется разнообразной аудиторией в течение длительного времени, а не всплеском активности от группы связанных аккаунтов.
    • Фокус на качестве сервиса: Лучшая защита от низких рейтингов и лучшая стратегия для высоких рейтингов — это высокое качество предоставляемых услуг или товаров. Это обеспечивает естественное положительное распределение оценок.
    • Мониторинг профиля отзывов: Регулярно отслеживайте появление новых отзывов. Резкие всплески активности, особенно с экстремальными оценками, могут быть признаком атаки конкурентов или некачественной работы подрядчиков по управлению репутацией (SERM/ORM).

    Worst practices (это делать не надо)

    • Покупка пакетных отзывов (Bulk Reviews): Это самая опасная практика. Сервисы, продающие отзывы, используют одну и ту же сетку аккаунтов для разных клиентов. Это неизбежно создает Полные подграфы (клики) между вами и другими клиентами сервиса, что легко обнаруживается алгоритмом.
    • Участие в кольцах обмена отзывами (Review Exchange Rings): Практика «ты мне — я тебе» между владельцами бизнеса также создает плотные графовые связи, которые алгоритм идентифицирует как скоординированную аномальную активность.
    • Систематическое занижение рейтингов конкурентов: Организация кампаний по выставлению негативных оценок конкурентам также будет обнаружена через графовый анализ, так как паттерн активности (Клика + аномальное распределение низких оценок) идентичен положительной накрутке.
    • Требование только 5-звездочных отзывов: Агрессивное стимулирование клиентов оставлять только максимальные оценки приводит к аномальному распределению, что повышает риск признания отзывов фродом.

    Стратегическое значение

    Патент подтверждает, что Яндекс инвестирует значительные ресурсы в обеспечение достоверности пользовательских сигналов, таких как рейтинги. Для SEO это означает, что попытки краткосрочного манипулирования репутацией становятся все более рискованными и неэффективными. Долгосрочная стратегия должна строиться на реальном улучшении пользовательского опыта и органическом управлении репутацией. Доверие (Trust) в Local SEO должно быть заработано, а не симулировано.

    Практические примеры

    Сценарий: Обнаружение сети покупки отзывов

    1. Ситуация: Владелец Ресторана А покупает пакет из 20 пятизвездочных отзывов у «ORM-агентства». Это агентство также продает отзывы Автосервису Б и Стоматологии В, используя ту же базу из 50 аккаунтов (ботов).
    2. Действие системы (Построение графа): Яндекс строит Второй граф. Между Рестораном А, Автосервисом Б и Стоматологией В появляются сильные связи (взвешенные ребра), так как у них много общих рецензентов (ботов агентства).
    3. Действие системы (Выявление клики): Система идентифицирует Полный подграф (клику), включающий эти три организации.
    4. Действие системы (Анализ распределения): Система фильтрует случайных пользователей и анализирует оценки, выставленные ботами. Метрика распределения показывает, что 100% этих оценок — 5 звезд. Это признается аномальным.
    5. Результат: 50 аккаунтов агентства маркируются как мошеннические. Все отзывы, оставленные ими для всех трех организаций, удаляются. Ресторан А, Автосервис Б и Стоматология В могут быть пессимизированы в локальной выдаче за попытку манипуляции.

    Вопросы и ответы

    Чем этот метод отличается от обычной модерации отзывов?

    Обычная модерация часто фокусируется на анализе текста отзыва или поведении отдельного пользователя (например, слишком много отзывов за короткое время). Этот патент описывает более сложный подход, основанный на графовом анализе для выявления скоординированных действий. Он ищет не отдельных нарушителей, а целые группы пользователей и организаций, связанных подозрительными паттернами выставления оценок.

    Что такое «Полный подграф» (Клика) в контексте этого патента?

    Полный подграф (или Клика) — это группа организаций, где каждая организация связана с каждой другой в этой группе. Связь означает, что у них есть значительное число общих пользователей, которые их оценили. На практике это часто означает группу бизнесов, которые пользуются услугами одной и той же фермы отзывов или участвуют в схеме обмена отзывами.

    Как система определяет, что распределение оценок является «аномальным»?

    Система рассчитывает статистическую метрику распределения оценок внутри подозрительного кластера. Аномалией считается ситуация, когда наблюдается неестественная поляризация оценок. Например, если группа пользователей ставит всем организациям в кластере только 5 звезд (накрутка позитива) или только 1 звезду (атака на конкурента). Органические отзывы обычно имеют более разнообразное распределение.

    Может ли этот алгоритм по ошибке удалить настоящие положительные отзывы?

    Риск минимален благодаря двум уровням защиты. Во-первых, алгоритм фокусируется только на плотных кластерах (Полных подграфах). Во-вторых, он специально отфильтровывает пользователей, которые оценили мало организаций внутри кластера (Claim 1, шаг 6) — это поведение характерно для органических пользователей. Алгоритм таргетирует только тех, кто массово и систематически оценивает всю группу организаций.

    Какие последствия для бизнеса, если Яндекс обнаружит накрутку с помощью этого метода?

    Патент предусматривает несколько действий. Во-первых, все накрученные оценки будут удалены (Claim 2). Во-вторых, аккаунты, выставлявшие оценки, будут помечены как мошеннические (Claim 1). В-третьих, патент прямо указывает на возможность понижения рейтинга организаций в подграфе (Step 635 в описании), что может означать пессимизацию в поисковой выдаче, особенно в локальном поиске и на картах.

    Является ли обмен отзывами с партнерами безопасной стратегией?

    Нет, это крайне рискованно. Обмен отзывами (Review Exchange Ring) создает именно тот паттерн скоординированной активности и тесные графовые связи между вашими организациями, которые данный алгоритм эффективно выявляет. Это прямой путь к удалению отзывов и пессимизации.

    Как безопасно стимулировать клиентов оставлять отзывы?

    Стимулируйте клиентов оставлять честные отзывы, не указывая, какую оценку нужно поставить. Используйте напоминания после покупки, email-рассылки или QR-коды. Главное, чтобы инициатива исходила от широкой и разнообразной базы клиентов, а распределение оценок было естественным. Избегайте стимулов (скидок, бонусов) именно за положительный отзыв.

    Если конкуренты начнут атаку негативными отзывами, обнаружит ли это система?

    Да, должна обнаружить. Механизм работает симметрично как для аномально высоких, так и для аномально низких оценок (Claim 4). Если группа аккаунтов скоординированно ставит низкие оценки вам и, возможно, другим целям, это сформирует Полный подграф с аномальным распределением (много 1 звезды), что приведет к активации алгоритма и удалению этих оценок.

    Влияет ли этот патент на текстовое содержание отзывов?

    Нет. Этот патент фокусируется исключительно на анализе структуры связей (кто кого оценил) и статистическом распределении числовых или бинарных оценок. Анализ текста отзывов (например, на предмет копипаста или генерации) является отдельной задачей, которая в данном патенте не рассматривается.

    Насколько быстро система реагирует на появление накрученных отзывов?

    В патенте не указана точная частота запуска алгоритма. Учитывая сложность построения и анализа больших графов, вероятно, это происходит периодически в пакетном режиме (например, ежедневно или еженедельно), а не в реальном времени для каждого отдельного отзыва. Анализ проводится за определенный период времени (например, последние 30 дней).

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.