Яндекс патентует метод борьбы с манипуляциями рейтингами организаций (например, в Картах или Поиске). Система строит граф связей между организациями на основе общих пользователей, которые их оценивали. Алгоритм ищет плотные группы организаций (полные подграфы), которые массово оцениваются одним и тем же пулом пользователей. Если распределение этих оценок аномально (например, только максимальные или минимальные баллы), система идентифицирует это как скоординированную атаку, помечает пользователей как нарушителей и удаляет их оценки.
Описание
Какую задачу решает
Патент решает задачу обеспечения достоверности пользовательских рейтингов организаций, которые используются в поисковых и рекомендательных сервисах. Он направлен на противодействие скоординированным манипуляциям со стороны недобросовестных акторов (bad actors), которые инструктируют группы пользователей искусственно завышать рейтинг продвигаемой организации или занижать рейтинг конкурентов. Такие манипуляции (abnormal organization ratings) вводят пользователей в заблуждение и снижают доверие к данным, предоставляемым поисковой системой.
Что запатентовано
Запатентована система для выявления пользователей, участвующих в скоординированной аномальной рейтинговой активности. Суть изобретения заключается в комбинации графового анализа и статистического анализа распределения оценок. Система моделирует активность пользователей в виде графа для обнаружения неестественных паттернов связей (complete subgraphs), указывающих на скоординированные действия, и проверяет эти паттерны на наличие статистических аномалий в оценках.
Как это работает
Система анализирует историю рейтинговой активности. Строится граф, где узлами являются организации. Ребро между двумя организациями взвешивается по количеству общих пользователей, оценивших обе организации. Затем система ищет полные подграфы (клики) — группы организаций, где каждая связана с каждой сильной связью. Для найденного подграфа анализируется распределение оценок. Если распределение сильно поляризовано (например, преобладают только высшие или только низшие оценки), что нетипично для естественного поведения, система классифицирует активность как аномальную. Участвующие пользователи помечаются, а их оценки удаляются.
Актуальность для SEO
Высокая. Манипуляции с отзывами и рейтингами являются постоянной проблемой для всех платформ, агрегирующих пользовательский контент (UGC), включая Яндекс.Карты и локальный поиск. Графовые методы анализа и обнаружение скоординированного неаутентичного поведения (Coordinated Inauthentic Behavior) являются передовыми и актуальными методами борьбы с мошенничеством в 2025 году.
Важность для SEO
Влияние на SEO значительно (8/10), особенно в сфере Local SEO и управления репутацией (ORM/SERM). Рейтинги являются критически важными сигналами доверия, влияющими на локальное ранжирование и CTR сниппетов. Патент описывает конкретный алгоритмический механизм защиты от манипулирования этими сигналами. Он делает стратегии «черного» SEO, основанные на покупке отзывов или участии в сетях обмена, высокорискованными и потенциально неэффективными, а также защищает бизнес от скоординированных негативных атак.
Детальный разбор
Термины и определения
- Abnormal Organization Ratings (Аномальные рейтинги организаций)
- Пользовательские оценки, представленные под влиянием внешних инструкций (например, за плату от bad actors), а не на основе личного опыта. Противопоставляются Naturally Occurring Ratings (естественным рейтингам).
- Complete Subgraph (Полный подграф, Клика)
- Подмножество узлов (организаций) в графе, где каждый узел связан ребром с каждым другим узлом в этом подмножестве. В контексте патента это указывает на группу организаций, где каждая пара была оценена значительным числом общих пользователей.
- Distribution Metric (Метрика распределения)
- Статистический показатель, характеризующий разброс оценок внутри подграфа. Используется для выявления поляризации оценок.
- Edge Weight (Вес ребра)
- В графе организаций вес ребра между двумя узлами (организациями) указывает на количество уникальных пользователей, которые оценили обе эти организации.
- Organization Rating Activity (Активность в рейтингах организаций)
- Собранные данные о пользовательских оценках, включающие идентификатор пользователя, идентификатор организации и саму оценку (бинарную или шкалированную). Хранятся в Rating Log.
- Threshold Distribution (Пороговое распределение)
- Критерий, используемый для определения аномальности распределения оценок. Если фактическое распределение оценок в подграфе удовлетворяет этому порогу (например, процент экстремальных оценок слишком высок), активность считается аномальной.
Ключевые утверждения (Анализ Claims)
Патент фокусируется на методе обнаружения скоординированной аномальной активности путем выявления неестественных паттернов в связях и распределении оценок.
Claim 1 (Независимый пункт): Описывает основной метод выявления пользователей, ставящих аномальные оценки.
- Извлекается история рейтинговой активности.
- Генерируется граф: Узлы = Организации. Вес ребра между двумя организациями равен количеству пользователей, оценивших обе организации.
- В графе определяется полный подграф (клика).
- Определяется, удовлетворяют ли оценки, относящиеся к этому подграфу, пороговому распределению (т.е. являются ли аномальными).
- Если распределение аномально, сохраняется индикация того, что пользователи, связанные с этим подграфом, ассоциированы с аномальными рейтингами.
Ядро изобретения — это комбинация структурного анализа (поиск клик указывает на координацию) и статистического анализа (проверка распределения выявляет неестественный характер оценок).
Claim 2 (Зависимый от 1): Уточняет, что из графа могут быть удалены ребра с весом ниже определенного порога.
Это повышает надежность, фокусируя анализ только на сильных связях (значительном количестве общих пользователей).
Claim 3 (Зависимый от 1): Уточняет, что из анализа подграфа может быть удалена информация о пользователях, которые оценили меньше порогового числа организаций в этом подграфе.
Это позволяет отфильтровать случайных пользователей и сфокусироваться на ядре группы накрутчиков.
Claim 4 (Зависимый от 1): Описывает контрмеру.
Рейтинги, соответствующие пользователям, связанным с аномальной активностью, удаляются из Organization Rating Activity.
Claim 6 (Зависимый от 1): Детализирует проверку порогового распределения.
- Определяется процент оценок в подграфе, которые являются наивысшими или наинизшими из доступных.
- Определяется, превышает ли этот процент пороговое значение.
Это конкретный механизм выявления поляризации оценок.
Claim 16 (Независимый пункт): Представляет альтернативную, более общую формулировку метода, функционально идентичную Claim 1.
- Определяется набор организаций, где каждая организация в наборе имеет хотя бы одного общего пользователя с каждой другой организацией в наборе (определение клики).
- Определяется, что оценки для этого набора имеют аномальное распределение.
- Сохраняется индикация, что пользователи, оценившие две или более организаций в этом наборе, связаны с аномальными рейтингами.
Где и как применяется
Изобретение применяется для контроля качества данных и борьбы с мошенничеством. Это преимущественно офлайн-процесс очистки данных.
CRAWLING & DATA ACQUISITION (Сбор данных)
Система собирает пользовательские оценки через различные интерфейсы (Поиск, Карты). Эти данные сохраняются в Rating Log (Лог рейтингов).
QUALITY & GOVERNANCE LAYER (Слой качества и метрик)
Это основной слой применения патента. Механизм функционирует как детектор мошенничества (Fraud Detection), связанный с подсистемами типа Anti-Quality. Специализированный сервер (Abnormal Organization Rating Detection Server) анализирует данные из Rating Log.
- Входные данные: История рейтингов (User ID, Organization ID, Rating Value, Timestamp).
- Процесс: Построение графа, обнаружение клик, статистический анализ распределения.
- Выходные данные: Список User ID, помеченных как мошеннические; список аномальных рейтингов для удаления.
INDEXING (Индексирование)
Результаты работы алгоритма влияют на данные в индексе. Аномальные рейтинги удаляются (Claim 4), а общие рейтинги организаций пересчитываются и сохраняются как признаки (features) для сущности организации.
RANKING (Ранжирование)
Алгоритм влияет на ранжирование косвенно. Очищенные рейтинги используются как факторы ранжирования, особенно в локальном поиске. Кроме того, в описании патента упоминается возможность понижения рейтинга организаций, которые были бенефициарами положительных накруток (пессимизация).
На что влияет
- Конкретные типы контента: Рейтинги и отзывы организаций (бизнесов, мест, POI на картах).
- Специфические запросы: Наибольшее влияние на локальный поиск и запросы, где рейтинг организации играет важную роль в выборе пользователя (коммерческие, геозависимые запросы).
- Конкретные ниши или тематики: Влияет на все ниши, где существует конкуренция и мотивация для манипулирования рейтингами (рестораны, автосервисы, медицина, e-commerce и т.д.).
Когда применяется
Алгоритм применяется периодически для анализа накопленной истории рейтинговой активности.
- Временные рамки: Анализ может проводиться за определенный период времени (например, активность за последние 30 дней, как упомянуто в описании).
- Триггеры активации и пороговые значения: Активация происходит при выполнении нескольких условий:
- Обнаружение полного подграфа (клики) достаточного размера (Claim 11).
- Превышение порогового веса ребер (значительное количество общих пользователей) (Claim 2).
- Достаточная активность пользователей внутри подграфа (Claim 3).
- Аномальное распределение оценок внутри подграфа (превышение порога поляризации) (Claim 6).
Пошаговый алгоритм
Процесс выявления аномальной рейтинговой активности:
- Сбор данных: Извлечение истории рейтинговой активности за определенный период времени из Rating Log.
- Построение Графа Организаций:
- Создание узлов для каждой организации.
- Создание взвешенных ребер между парами организаций. Вес равен количеству общих пользователей, оценивших обе организации.
- Фильтрация Графа (Опционально): Удаление ребер, чей вес ниже установленного порога. Это оставляет только сильные связи.
- Идентификация Полных Подграфов (Клик): Поиск в графе групп организаций, где каждый узел связан с каждым другим узлом.
- Анализ Подграфа (Итерация): Для каждого найденного подграфа:
- Фильтрация Пользователей (Опционально): Удаление из анализа оценок пользователей, которые оценили меньше порогового числа организаций внутри данного подграфа (фокусировка на ядре группы).
- Расчет Метрики Распределения: Анализ оставшихся оценок. Например, расчет процента оценок, которые являются максимальными или минимальными.
- Проверка Порога: Сравнение метрики с пороговым значением. Если порог превышен (распределение аномально поляризовано), подграф помечается как мошеннический.
- Применение Контрмер: Если подграф помечен как мошеннический:
- Пометка участвующих пользователей как связанных с аномальной активностью.
- Удаление аномальных оценок из базы данных.
- (Опционально) Понижение рейтинга или позиций в поиске для организаций-бенефициаров в подграфе.
Какие данные и как использует
Данные на входе
Система использует исключительно данные из журнала рейтингов (Rating Log). Анализ текста отзывов или других контентных факторов в патенте не упоминается.
- Поведенческие факторы (Активность пользователей): Основные данные — это действия пользователей по проставлению оценок. Анализируются паттерны этой активности: какие организации оценивает пользователь и какие оценки он ставит.
- Системные данные (из Rating Log):
- Идентификаторы пользователей (User ID, IP address, username).
- Идентификаторы организаций (Organization ID, Web host, адрес).
- Значения оценок (Binary ratings или Scale ratings, например 1-5 звезд).
- Временные факторы: Временные метки (Timestamp) используются для ограничения периода анализа.
Какие метрики используются и как они считаются
- Вес ребра (Edge Weight): Количество общих уникальных пользователей, оценивших две организации. Используется для определения силы связи.
- Активность пользователя в подграфе: Количество организаций внутри подграфа, которые оценил пользователь. Используется для фильтрации случайных пользователей (Claim 3).
- Метрика распределения оценок (Distribution Metric): Метрика, характеризующая поляризацию оценок внутри подграфа. Ключевой метрикой является процент оценок, являющихся наивысшими или наинизшими (Claim 6). Также в описании упоминаются общие метрики статистической дисперсии (стандартное отклонение, median absolute deviation (MAD)).
- Структурные метрики: Используются алгоритмы поиска полных подграфов (клик) в графе.
Выводы
- Яндекс системно борется со скоординированными накрутками: Патент описывает сложный алгоритмический механизм, направленный на обнаружение целых групп пользователей и организаций, участвующих в скоординированных кампаниях по манипулированию рейтингами, а не на модерацию отдельных отзывов.
- Графовый анализ как основа детекции: Ключевым инструментом является построение связей между организациями через общих ревьюеров. Обнаружение плотных структур (полных подграфов или клик) с высоким весом ребер является сильным индикатором скоординированной активности.
- Поляризация оценок как триггер: Система исходит из того, что естественные оценки имеют более равномерное распределение. Аномально высокая концентрация экстремальных оценок (только 1 или только 5 звезд) внутри связанной группы считается ключевым признаком мошенничества.
- Многоуровневая фильтрация повышает точность: Использование порогов по весу ребер и по активности пользователей внутри подграфа позволяет отсеять органический трафик и сфокусироваться на ядре мошеннической схемы, минимизируя ложные срабатывания.
- Контрмеры включают удаление оценок и санкции: Последствия обнаружения включают очистку данных (удаление накрученных оценок) и маркировку участвующих пользователей. Также упомянута возможность пессимизации организаций-бенефициаров.
Практика
Best practices (это мы делаем)
- Стимулирование органических и разнообразных отзывов: Необходимо мотивировать реальных клиентов оставлять честные отзывы. Естественное распределение оценок (не только «пятерки») выглядит достоверным для алгоритма. Чем больше органического разнообразия, тем меньше вероятность, что организация случайно попадет в подозрительный подграф.
- Мониторинг профиля отзывов: Регулярно отслеживайте динамику и распределение получаемых оценок. Резкие скачки количества оценок, особенно если они сконцентрированы на максимальных или минимальных значениях, могут быть признаком атаки (на вас или вашими подрядчиками).
- Реагирование на негативные атаки: Если вы стали жертвой скоординированной негативной атаки, этот алгоритм должен помочь Яндексу автоматически обнаружить ее, так как атака сформирует клику с аномально низкими оценками. Патент упоминает, что рейтинг жертв негативных атак может быть повышен для компенсации.
Worst practices (это делать не надо)
- Покупка пакетов отзывов на биржах или у агентств: Это именно та активность, которую патент призван выявлять. Сервисы накрутки используют одну и ту же сетку аккаунтов для разных клиентов. Если вы и другие клиенты сервиса будете оценены этой сеткой, вы сформируете полный подграф, который будет обнаружен.
- Участие в сетях обмена отзывами (Review Networks): Когда группа владельцев бизнесов договаривается оценить друг друга. Это в точности соответствует паттерну клики с аномальным (положительным) распределением оценок.
- Скоординированное проставление оценок сотрудниками: Попытки массово поднять рейтинг силами компании также формируют неестественные паттерны связей и поляризованное распределение оценок, которые могут быть обнаружены.
- Запрос только «пятерок» (Review Gating): Инструктирование пользователей ставить только высший балл приводит к аномальному распределению, что повышает риск обнаружения при массовом характере активности.
Стратегическое значение
Патент подтверждает стратегический приоритет Яндекса на поддержание целостности сигналов, основанных на пользовательском контенте (UGC). Для Local SEO и SERM это означает, что использование «серых» и «черных» методов работы с репутацией становится не просто неэффективным, но и высокорискованным, так как алгоритмы выявления скоординированного поведения постоянно совершенствуются. Долгосрочная стратегия должна опираться исключительно на органическое улучшение качества услуг и сбор естественной обратной связи.
Практические примеры
Сценарий 1: Обнаружение накрутки рейтинга через сервис
- Действие (Worst Practice): Автосервис А, Ресторан Б и Клиника В заказывают услугу «10 положительных отзывов» у одного и того же подрядчика (Fraud Service).
- Исполнение: Подрядчик использует 15 аккаунтов (Пользователи 1-15). Большинство из этих аккаунтов оценивают все три организации на 5 звезд.
- Анализ Яндекса:
- Система строит граф. Между А, Б и В возникают ребра с высоким весом (например, вес 12-14 общих пользователей).
- Система идентифицирует А, Б и В как полный подграф.
- Система анализирует оценки от Пользователей 1-15 для этого подграфа и определяет распределение: 98% оценок — 5 звезд.
- Распределение признается аномальным (превышает порог поляризации).
- Результат: Пользователи 1-15 помечаются как мошенники. Их отзывы удаляются из А, Б и В. Организации А, Б и В могут быть дополнительно пессимизированы в локальной выдаче за участие в схеме накрутки.
Сценарий 2: Отличие естественной активности (например, в ТЦ)
- Ситуация: В новом торговом центре открылись Кафе X, Кинотеатр Y и Магазин Z. Многие посетители ТЦ посещают все три места и оставляют отзывы.
- Анализ Яндекса:
- X, Y и Z формируют полный подграф с сильными связями (много общих посетителей).
- Система анализирует распределение оценок. Она видит разнообразные оценки: много 4 и 5 звезд, некоторое количество 3, и немного 1 и 2 звезд.
- Результат: Распределение признается естественным (не удовлетворяет пороговому значению аномальности). Рейтинги сохраняются.
Вопросы и ответы
Что такое «полный подграф» (complete subgraph) или «клика» в контексте этого патента?
Полный подграф (клика) — это группа организаций, где каждая организация связана с каждой другой организацией в этой же группе. Связь означает наличие значительного числа общих пользователей, которые оставили отзывы обеим организациям. Обнаружение такой структуры указывает на высокую вероятность скоординированной активности, так как неестественно для группы случайных пользователей массово оценивать один и тот же набор разных организаций.
Что система считает «аномальным распределением» оценок?
Аномальным считается распределение, в котором непропорционально высокая доля оценок приходится на крайние значения шкалы — наивысшие (например, 5 звезд при положительной накрутке) или наинизшие (1 звезда при атаке на конкурентов). Естественное поведение пользователей обычно приводит к более гладкому распределению. Если процент таких поляризованных оценок превышает установленный порог, система считает это аномалией.
Насколько опасно покупать отзывы у агентств или на биржах, учитывая этот патент?
Крайне опасно. Этот алгоритм специально разработан для выявления таких действий. Агентства и биржи используют одну и ту же базу аккаунтов для разных клиентов, создавая те самые графовые связи (клики), которые ищет алгоритм. Как только система обнаружит эту связь и аномальное распределение оценок, все купленные отзывы будут удалены, а ваша организация может попасть под санкции (пессимизацию).
Может ли моя компания пострадать, если конкуренты закажут на нас атаку негативными отзывами?
В краткосрочной перспективе рейтинг может упасть, но алгоритм эффективен и против негативных атак. Скоординированная атака негативными отзывами (все ставят 1 звезду) также формирует полный подграф с аномальным распределением (высокий процент наинизших оценок). Система должна обнаружить эту активность, удалить негативные отзывы и заблокировать аккаунты атакующих. В патенте даже упоминается возможность повысить рейтинг организации, ставшей жертвой негативной атаки.
Как система отличает мошенников от активных пользователей, которые просто ставят много оценок?
Система использует комбинацию фильтров. Во-первых, она ищет не просто активных пользователей, а группы, которые оценивают один и тот же набор организаций (формируя клику). Во-вторых, она анализирует распределение оценок: мошенники обычно ставят только экстремальные оценки согласно инструкции. В-третьих, применяется фильтр (Claim 3), который исключает пользователей, оценивших слишком мало организаций внутри клики, фокусируясь на ядре группы.
Влияет ли этот патент на ранжирование сайтов в основном (Web) поиске?
Напрямую нет, так как патент описывает систему анализа рейтингов организаций (актуально для Карт, Справочника, Локального поиска). Однако косвенное влияние есть. Если рейтинг организации используется Яндексом как сигнал доверия к сайту этой организации или влияет на CTR сниппета в основном поиске, то очистка этих данных влияет на финальную выдачу. Пессимизация организаций за накрутки также может повлиять на их общую видимость.
Использует ли система анализ текста отзывов?
В данном патенте анализ текста отзывов не упоминается. Метод полностью основан на графовом анализе связей между пользователями и организациями, а также на статистическом анализе числовых значений оценок (рейтингов). Система выявляет аномалии по паттернам поведения, а не по содержанию контента.
Что происходит с пользователями и организациями, уличенными в накрутке?
Пользователи помечаются как связанные с аномальной активностью (Claim 1), что может привести к игнорированию их будущих оценок или блокировке аккаунта. Для организаций последствия включают удаление фейковых оценок (Claim 4) и, как упомянуто в описании, возможность дополнительного понижения рейтинга (пессимизации) для бенефициаров накрутки.
Обнаруживает ли этот метод одиночные фейковые отзывы?
Нет, этот метод сфокусирован именно на обнаружении скоординированного поведения и масштабных атак. Для работы алгоритма необходимо формирование графовых связей и полных подграфов, что требует участия группы пользователей, оценивающих несколько организаций. Для обнаружения одиночных фейковых отзывов используются другие методы.
Как я могу определить, какие пороги использует система для определения аномалий?
Конкретные числовые значения порогов (например, минимальное количество общих пользователей для связи или точный процент экстремальных оценок для признания распределения аномальным) в патенте не раскрываются. Указано лишь, что эти пороги являются предопределенными (predetermined). На практике они подбираются эмпирически и могут динамически меняться для повышения точности детекции.