Яндекс патентует метод борьбы с фальсификацией рейтингов организаций (например, в Картах или Поиске). Система строит граф связей между организациями на основе того, какие пользователи оценивали их одновременно. Выявляя плотные группы (клики) организаций с аномально поляризованным распределением оценок (слишком много крайне положительных или отрицательных), Яндекс маркирует участвующих пользователей как ботов или спамеров и аннулирует их оценки.
Описание
Какую задачу решает
Патент решает задачу противодействия манипуляциям с рейтингами организаций в экосистеме Яндекса (например, в Поиске, Картах, Бизнесе). Он направлен на устранение влияния аномальных рейтингов — оценок, которые пользователи выставляют по инструкции недобросовестных акторов (например, за плату), а не на основе личного опыта. Такие манипуляции (накрутка своего рейтинга или пессимизация конкурентов) искажают результаты поиска, снижают удовлетворенность пользователей и подрывают надежность поисковой системы.
Что запатентовано
Запатентована система и способ выявления пользователей, формирующих аномальные рейтинги организаций. Суть изобретения заключается в использовании графового анализа для обнаружения скоординированного поведения при выставлении оценок. Система строит граф рейтингования организаций на основе общих пользователей и ищет в нем полные подграфы (клики). Обнаружение клики с аномальным (поляризованным) распределением оценок указывает на скоординированную атаку или накрутку.
Как это работает
Система анализирует историю рейтингов и строит граф, где узлы — это организации, а вес ребра между двумя организациями равен количеству общих пользователей, оценивших обе. Затем алгоритм ищет клики — группы организаций, тесно связанных между собой (каждая связана с каждой). Для каждой клики анализируется распределение выставленных оценок. Если распределение аномально поляризовано (например, преобладают только самые высокие или только самые низкие оценки), система определяет это как аномальное рейтингование. Пользователи, участвовавшие в формировании этой клики, маркируются как нарушители, а их оценки могут быть аннулированы.
Актуальность для SEO
Высокая. Борьба с фейковыми отзывами и накрутками рейтингов является критически важной задачей для всех платформ, агрегирующих мнения пользователей, особенно в Local SEO и E-commerce. Графовые методы анализа и обнаружение скоординированных действий (Coordinated Inauthentic Behavior) являются стандартом в современных антифрод-системах.
Важность для SEO
Влияние на SEO значительно (7/10), особенно для Local SEO и управления репутацией (ORM). Патент описывает конкретный механизм, который Яндекс использует для защиты достоверности рейтингов организаций. Для бизнеса это означает, что стратегии, основанные на покупке отзывов или атаках на конкурентов, с высокой вероятностью будут обнаружены и нейтрализованы. Достоверность и естественность профиля отзывов становятся ключевыми факторами успеха.
Детальный разбор
Термины и определения
- Аномальный рейтинг организации (Abnormal organization rating)
- Рейтинг, отправленный пользователем на основе инструкций от источника постороннего влияния (например, за плату), а не на основе личного опыта. Характеризуется крайне высокими или крайне низкими значениями.
- Естественный рейтинг организации (Natural organization rating)
- Рейтинг, основанный на собственных впечатлениях пользователя и не подверженный постороннему влиянию. Характеризуется более равномерным распределением в пределах диапазона рейтингов.
- Граф рейтингования организаций (Organization ranking graph)
- Граф, в котором узлы соответствуют организациям. Ребро соединяет две организации, если существует хотя бы один общий пользователь, оценивший обе. Вес ребра указывает на количество таких общих пользователей.
- Полный подграф (Клика) (Complete subgraph / Clique)
- Подграф, в котором каждый узел соединен ребром с каждым другим узлом. В контексте патента — это группа организаций, где каждая пара организаций имеет хотя бы одного общего пользователя, оценившего их обе.
- Пороговое распределение (Threshold distribution)
- Эталонное распределение рейтингов, характерное для аномальной активности (например, высокая степень поляризации — преобладание экстремальных оценок).
- Метрика распределения (Distribution metric)
- Статистический показатель, характеризующий распределение рейтингов в группе (например, доля максимальных/минимальных оценок, среднеквадратическое отклонение).
Ключевые утверждения (Анализ Claims)
Патент фокусируется на выявлении скоординированного аномального поведения через анализ связей между организациями, получившими оценки от одних и тех же пользователей.
Claim 1 (Независимый пункт): Описывает основной способ выявления аномального рейтингования.
- Получение данных рейтингования организаций.
- Формирование графа рейтингования организаций: узлы = организации, вес ребра = количество пользователей, оценивших обе соединенные организации.
- Определение в графе полного подграфа (клики).
- Определение соответствия рейтингов внутри клики пороговому распределению (т.е. проверка на аномальность/поляризацию).
- В случае соответствия (аномалия обнаружена): сохранение индикатора связи пользователей, соответствующих подграфу, с аномальными рейтингами.
Ядром изобретения является комбинация графового метода (поиск клик в графе совместного рейтингования) и статистического анализа (проверка распределения оценок) для идентификации фрода.
Claim 2 (Зависимый): Уточняет, что перед поиском клик из графа могут удаляться ребра с весом меньше порогового.
Это позволяет сфокусироваться только на сильных связях, где много общих пользователей, что повышает эффективность и снижает шум.
Claim 3 (Зависимый): Уточняет, что при анализе клики может удаляться информация о пользователях, оценивших меньше порогового количества организаций внутри этой клики.
Это фокусирует анализ на наиболее активных участниках подозрительной группы, исходя из предположения, что мошенники оценивают много целей сразу.
Claim 4 (Зависимый): Указывает на действие после обнаружения: удаление рейтингов, соответствующих идентифицированным аномальным пользователям.
Claim 6 (Зависимый): Конкретизирует механизм проверки распределения (Шаг 4 из Claim 1).
- Определение доли наибольших или наименьших возможных рейтингов.
- Определение соответствия этой доли пороговой доле.
Статистический тест на аномалию — это проверка на поляризацию. Если слишком много экстремальных оценок (например, 1 и 5 звезд), распределение считается аномальным.
Claim 16 (Независимый пункт): Альтернативное, более широкое описание метода без явного использования термина «граф».
- Получение данных рейтингования.
- Определение набора организаций, в котором для каждой пары имеется хотя бы один общий пользователь, оценивший обе (это определение клики).
- Получение рейтингов для этого набора.
- Определение аномальности распределения рейтингов.
- Сохранение индикатора связи пользователей, оценивших две или более организаций из набора, с аномальными рейтингами.
Этот пункт защищает ту же логику выявления скоординированных групп, даже если реализация не использует формальные графовые алгоритмы.
Где и как применяется
Изобретение применяется в инфраструктуре Яндекса для обеспечения качества данных о репутации организаций.
CRAWLING & DATA ACQUISITION LAYER
Система получает данные рейтингования от клиентских устройств через сеть связи. Эти данные сохраняются в Журнале рейтингов.
INDEXING & FEATURE EXTRACTION (Offline/Batch Processing)
Основная логика патента выполняется на этом слое, вероятно, в виде периодического пакетного процесса (batch job). Сервер обнаружения аномальных рейтингов анализирует исторические данные из Журнала рейтингов за определенный период (например, 30 суток).
- Входные данные: Данные рейтингования организаций (User ID, Organization ID, Rating Value, Timestamp).
- Процесс: Построение графа, поиск клик, статистический анализ распределений.
- Выходные данные: Список идентификаторов пользователей, связанных с аномальными рейтингами; список аномальных рейтингов для удаления.
RANKING LAYER
Результаты работы алгоритма косвенно влияют на ранжирование. Очищенные от фрода данные используются для расчета общего рейтинга организаций, который является фактором ранжирования (особенно в локальном поиске). В патенте также упоминается возможность снижения рейтингов организаций, получивших выгоду от аномальных рейтингов, или понижения их позиций на SERP.
QUALITY & GOVERNANCE LAYER (Anti-Quality)
Этот патент является реализацией механизма Anti-Quality, направленного specifically на борьбу с мошенничеством в рейтингах и отзывах.
На что влияет
- Конкретные типы контента: Влияет на данные об организациях, для которых предусмотрена система рейтингования (Яндекс Карты, Яндекс Бизнес, возможно, Яндекс Маркет). Это касается карточек компаний, локальных объектов, товаров.
- Конкретные ниши: Наибольшее влияние оказывается на конкурентные локальные ниши (рестораны, автосервисы, медицинские центры, услуги) и E-commerce, где высока мотивация к манипулированию репутацией.
Когда применяется
- Временные рамки: Алгоритм, вероятно, выполняется периодически (например, ежедневно или еженедельно), анализируя данные за последнее время (в патенте упомянут пример — последние 30 суток).
- Триггеры активации и пороги: Активация анализа происходит при обнаружении полного подграфа (клики) достаточного размера. Детектирование аномалии происходит, если статистическая метрика распределения оценок внутри клики превышает заранее заданный порог (например, доля экстремальных оценок слишком велика).
- Упомянутые пороги:
- Порог веса ребра (минимальное число общих пользователей).
- Минимальный размер клики (количество организаций).
- Пороговое количество организаций, оцененных пользователем внутри клики.
- Пороговая доля экстремальных рейтингов.
Пошаговый алгоритм
Процесс выявления аномального рейтингования:
- Сбор данных: Получение истории рейтингов организаций из Журнала рейтингов за заданное временное окно.
- Предварительная фильтрация (Опционально): Исключение из анализа организаций с количеством рейтингов меньше минимального или больше максимального порога (для повышения эффективности).
- Построение Графа Организаций: Формирование графа, где узлы — организации. Между двумя организациями создается ребро, если их оценил хотя бы один общий пользователь. Вес ребра равен количеству таких общих пользователей.
- Фильтрация Графа (Опционально): Удаление ребер с весом ниже заданного порога (фильтрация слабых связей).
- Выявление Клик (Полных подграфов): Поиск в графе групп организаций, где каждая организация связана с каждой другой (все пары имеют общих пользователей).
- Анализ Клики (Итерация): Для каждой найденной клики выполняется:
- Фильтрация пользователей (Опционально): Исключение из рассмотрения рейтингов от пользователей, которые оценили меньше порогового числа организаций внутри данной клики.
- Расчет Метрики Распределения: Анализ оставшихся рейтингов. Вычисление статистической метрики, характеризующей поляризацию (например, доли самых высоких и самых низких оценок).
- Детектирование Аномалии: Сравнение вычисленной метрики с пороговым значением. Если порог превышен (распределение слишком поляризовано), клика считается аномальной.
- Принятие Мер: Если клика признана аномальной:
- Маркировка пользователей, участвовавших в рейтинговании этой клики, как источников аномальных рейтингов.
- Удаление соответствующих аномальных рейтингов из базы данных.
- (Опционально) Применение штрафных санкций к организациям-бенефициарам (снижение общего рейтинга или позиций в SERP).
Какие данные и как использует
Данные на входе
- Поведенческие факторы: Основной используемый сигнал — это паттерн поведения при выставлении оценок (Rating Behavior). Ключевым является факт скоординированного оценивания нескольких организаций одними и теми же пользователями (Co-Rating). Классические ПФ (клики, dwell time) в этом патенте не используются.
- Системные данные: Идентификаторы пользователей (IP-адрес, имя пользователя, UID, адрес электронной почты). Идентификаторы организаций (веб-хост, название, адрес). Значения рейтингов (бинарные или шкальные).
- Временные факторы: Отметки времени отправки рейтингов. Используются для ограничения анализа определенным временным окном.
Какие метрики используются и как они считаются
- Вес ребра (Edge Weight): Количество общих пользователей, оценивших две организации. Используется для построения и фильтрации графа.
- Размер клики (Clique Size): Количество узлов (организаций) в полном подграфе. Может использоваться для фильтрации слишком маленьких групп.
- Активность пользователя в клике: Количество организаций внутри конкретной клики, оцененных данным пользователем. Используется для фильтрации случайных пользователей от активных участников группы.
- Метрика распределения (Distribution Metric): Статистическая мера, определяющая степень поляризации рейтингов. Конкретные методы расчета, упомянутые в патенте:
- Доля наибольших или наименьших возможных рейтингов от общего числа рейтингов в клике.
- Количество рейтингов, больших высокого порогового рейтинга, и количество рейтингов, меньших низкого порогового рейтинга, в сравнении с общим количеством.
- Также в качестве базиса для метрики могут использоваться стандартные меры статистического разброса (среднеквадратическое отклонение, межквартильный размах, MAD).
Выводы
- Яндекс рассматривает накрутку рейтингов как угрозу надежности системы: Компания активно инвестирует в сложные методы обнаружения и нейтрализации фейковых отзывов и оценок.
- Скоординированное поведение (Co-Rating) — ключевой индикатор фрода: Алгоритм основан на предположении, что мошенники (боты или оплаченные пользователи) действуют скоординировано и оценивают несколько организаций одновременно. Естественные пользователи реже демонстрируют такое поведение.
- Графовый анализ для выявления связей: Использование графа рейтингования организаций и поиск клик (полных подграфов) позволяет эффективно выявлять плотные группы пользователей и организаций, вовлеченных в совместную активность.
- Поляризация оценок как статистическая аномалия: Ключевым признаком аномального рейтингования является неестественное распределение оценок внутри подозрительной группы — преобладание экстремальных значений (например, только 1 или 5 звезд) и отсутствие промежуточных.
- Комплексное противодействие: Система не только аннулирует фейковые оценки, но и идентифицирует аккаунты мошенников для дальнейшего контроля (блокировка, снижение веса их будущих оценок) и может применять санкции к организациям-бенефициарам.
Практика
Best practices (это мы делаем)
- Стимулирование органического потока отзывов (Local SEO/ORM): Обеспечивайте постоянный приток естественных отзывов от реальных клиентов. Естественный профиль характеризуется нормальным распределением оценок (не только пятерки) и отсутствием скоординированного поведения. Это лучшая защита от негативных атак и ложных срабатываний антифрод-систем.
- Мониторинг репутационного профиля: Регулярно отслеживайте динамику рейтингов и новые отзывы. Обращайте внимание на внезапные всплески активности, особенно если они имеют поляризованный характер (много оценок 1 или 5).
- Анализ связей при атаках: Если вы заметили атаку (массовое занижение рейтинга), попытайтесь проанализировать профили пользователей, оставивших негативные отзывы. Если эти же пользователи одновременно оставили отзывы другим организациям (формируя клику), система Яндекса с высокой вероятностью обнаружит и нейтрализует эту активность автоматически.
- Работа с негативом: Адекватно реагируйте на негативные отзывы. Это демонстрирует естественность профиля и улучшает качество сервиса.
Worst practices (это делать не надо)
- Массовая покупка отзывов через биржи или бот-сети: Это именно та активность, против которой направлен патент. Исполнители с бирж обычно выполняют много заказов одновременно, создавая плотные связи (клики) между разными организациями. Если закупаются однотипные положительные отзывы, поляризация будет максимальной, что гарантирует обнаружение.
- Скоординированные атаки на конкурентов: Попытки массово занизить рейтинг конкурентам также будут выявлены, так как исполнители, атакующие несколько целей, сформируют клику с крайне негативной поляризацией.
- Использование собственных сеток аккаунтов (PBN для отзывов): Управление группой аккаунтов для проставления нужных рейтингов нескольким своим проектам рискованно. Совместная активность этих аккаунтов сформирует клику, которая может быть детектирована как аномальная.
- Стимулирование только экстремальных оценок: Просьбы к клиентам ставить «только 5 звезд» могут привести к неестественной поляризации профиля, что повышает риски, если эта активность окажется скоординированной.
Стратегическое значение
Патент подтверждает стратегический приоритет Яндекса на достоверность репутационных сигналов. Для Local SEO и E-commerce это означает, что качество продукта или услуги и органическое управление репутацией являются единственной надежной долгосрочной стратегией. Механические накрутки становятся не просто неэффективными, а высокорисковыми, так как современные методы графового и статистического анализа позволяют эффективно выявлять и нейтрализовать скоординированное неаутентичное поведение.
Практические примеры
Сценарий 1: Накрутка рейтинга через биржу
- Действие: Владельцы Ресторана А, Магазина Б и Салона В независимо друг от друга заказывают на одной и той же популярной бирже по 30 положительных отзывов (5 звезд).
- Исполнение: Группа из 20 исполнителей биржи выполняет эти заказы в течение дня. Многие из них оценивают все три организации.
- Работа алгоритма Яндекса:
- Система строит граф. Между А, Б и В возникают сильные связи (большой вес ребер), так как у них много общих пользователей.
- А, Б и В формируют клику.
- Алгоритм анализирует распределение оценок в клике: 100% оценок — «5 звезд». Это экстремальная поляризация.
- Результат: Распределение признается аномальным. Все 90 отзывов аннулируются. Аккаунты 20 исполнителей маркируются как спам.
Сценарий 2: Атака на конкурентов
- Действие: Владелец Автосервиса X заказывает атаку на конкурентов Y и Z, поручая бот-сети выставить им по 100 отзывов с рейтингом «1».
- Исполнение: Бот-сеть выполняет задание.
- Работа алгоритма Яндекса:
- Y и Z формируют клику (или часть большей клики) с очень сильной связью.
- Распределение оценок в клике: 100% оценок — «1 звезда». Это экстремальная поляризация.
- Результат: Атака детектируется. Отзывы аннулируются. Аккаунты ботов блокируются. Рейтинги Y и Z не страдают.
Вопросы и ответы
Что такое «Клика» (Полный подграф) в контексте этого патента?
Клика — это группа организаций, где каждая организация связана с каждой другой организацией в этой группе. Связь означает, что существует хотя бы один общий пользователь, который оценил обе организации. Поиск клик позволяет Яндексу выявить группы организаций, которые были оценены скоординировано, что является сильным сигналом потенциальной накрутки или атаки.
Что такое «Аномальное распределение» или «Поляризация» рейтингов?
Это ситуация, когда в группе отзывов наблюдается неестественно высокая концентрация экстремальных оценок и отсутствие промежуточных. Например, если группа пользователей поставила нескольким организациям только «5 звезд» (накрутка) или только «1 звезду» (атака). Естественные отзывы обычно имеют более равномерное распределение (много 4 и 5, но есть и 3, и 2, и 1).
Насколько опасно покупать отзывы для Local SEO в Яндексе с учетом этого патента?
Это высокорискованная стратегия. Патент напрямую нацелен на выявление покупных отзывов, особенно если они закупаются массово через биржи или бот-сети. Исполнители на биржах обслуживают много клиентов одновременно, создавая те самые «клики», которые ищет алгоритм. Обнаружение приведет к аннулированию отзывов и возможным санкциям против организации.
Может ли этот алгоритм ошибочно удалить честные отзывы?
Теоретически да, если честные пользователи случайно сформируют клику с поляризованным распределением. Однако патент предусматривает механизмы снижения ложных срабатываний. Например, фильтрация слабых связей (Claim 2) и исключение пользователей, которые оценили мало организаций внутри клики (Claim 3). Это помогает отделить случайные совпадения от целенаправленной скоординированной активности.
Как защитить свой бизнес, если конкуренты начали массово занижать рейтинг?
Патент описывает механизм автоматической защиты. Если атака скоординирована (много пользователей ставят «1 звезду» вам и, возможно, другим целям), алгоритм должен выявить эту клику по признаку экстремальной негативной поляризации и аннулировать эти оценки. Со своей стороны, необходимо продолжать стимулировать органические отзывы от реальных клиентов, чтобы поддерживать естественный профиль.
Влияет ли этот патент только на Яндекс Карты или на весь Поиск?
Патент описывает общую систему выявления аномального рейтингования организаций. Она применима везде, где Яндекс агрегирует рейтинги: в первую очередь это Яндекс Карты и Яндекс Бизнес, но также результаты в основной поисковой выдаче (SERP), где отображаются рейтинги организаций, и потенциально Яндекс Маркет. Рейтинги часто используются как фактор ранжирования.
Если я попрошу 10 своих сотрудников поставить «5 звезд» моей компании, это будет обнаружено?
Если эти 10 сотрудников оценят только вашу компанию, вероятность обнаружения ниже, так как не формируется клика с другими организациями. Однако, если эти же сотрудники также оценят другие компании (например, партнеров или другие ваши филиалы), и распределение будет поляризованным (только «5 звезд»), риск обнаружения значительно возрастает. В любом случае, это является нарушением правил Яндекса.
Что происходит с пользователями, которых система пометила как «аномальных»?
Патент указывает, что сохраняется индикатор связи этих пользователей с аномальными рейтингами. На практике это означает, что их текущие оценки могут быть удалены (Claim 4), а будущие оценки могут игнорироваться, иметь пониженный вес или их аккаунты могут быть заблокированы в сервисе отзывов.
Учитывает ли система текст отзыва или только числовой рейтинг?
Описанный в патенте механизм фокусируется исключительно на числовых (шкальных или бинарных) рейтингах и паттернах их выставления (кто, кого и когда оценил). Текстовый анализ отзывов (NLP) в данном конкретном алгоритме не используется, хотя он может применяться в других антифрод-системах Яндекса.
Как быстро работает этот алгоритм? В реальном времени?
Патент предполагает анализ истории рейтингов за определенный период (например, 30 суток). Построение графа и поиск клик — ресурсоемкие операции. Поэтому наиболее вероятно, что этот алгоритм работает не в реальном времени, а в режиме периодической пакетной обработки (batch processing), например, раз в сутки или раз в неделю.