Яндекс патентует метод защиты целостности рейтингов (например, на Маркете, Картах или Кинопоиске) от «флешмобов», вызванных внешними событиями (например, вирусным обзором блогера). Система обнаруживает аномальные всплески оценок, анализирует историю посещений пользователей, поставивших эти оценки, и вычисляет конкретный URL-источник, спровоцировавший всплеск. Оценки от пользователей, посетивших этот источник, пессимизируются или удаляются.
Описание
Какую задачу решает
Патент решает проблему искажения краудсорсинговых сигналов (рейтингов, отзывов, голосов) из-за внешнего влияния, так называемых «флешмобов» (flash mob). Проблема заключается в том, что пользователи часто ставят оценки не на основе личного опыта взаимодействия с объектом (фильмом, товаром, организацией), а под влиянием внешнего триггера (external trigger event) — например, скандального обзора блогера или вирусного поста в социальной сети. Это приводит к появлению abnormal crowd-sourced labels (аномальных меток), которые не отражают реальное качество объекта и снижают ценность рейтинговой системы.
Что запатентовано
Запатентована система для идентификации источника внешнего влияния, вызвавшего аномальный всплеск оценок, и последующей нейтрализации этого влияния. Суть изобретения заключается в корреляции аномалий в распределении оценок с историей посещений (browsing history) пользователей. Система не просто определяет факт накрутки или спама, а находит конкретный веб-ресурс (URL), который спровоцировал пользователей на необъективную оценку.
Как это работает
Система анализирует распределение оценок объекта за период времени и выявляет аномальные всплески (например, резкий рост числа оценок «1» или «10»), отличающиеся от типичного распределения (typical distribution). Пользователи делятся на две группы: те, кто поставил аномальные оценки, и контрольная группа. Система запрашивает историю посещений обеих групп из логов (например, Яндекс.Метрики или браузера). Затем она ищет веб-ресурсы, которые посещались группой с аномальными оценками статистически значимо чаще, чем контрольной группой. Эти ресурсы идентифицируются как источник внешнего триггера. Метки от пользователей, посетивших этот источник, могут быть удалены или им может быть присвоен понижающий вес (lowering weight).
Актуальность для SEO
Высокая. Защита от манипуляций отзывами и рейтингами является критически важной задачей для всех платформ, агрегирующих пользовательский контент (UGC), включая сервисы Яндекса (Маркет, Карты, Кинопоиск). Использование поведенческих данных, включая историю посещений, для валидации действий пользователя является современным трендом в антифрод-системах.
Важность для SEO
Влияние на SEO среднее (7/10). Патент не описывает алгоритмы ранжирования веб-поиска напрямую. Однако он имеет критическое значение для Local SEO, E-commerce (Яндекс.Маркет) и управления репутацией (ORM/SERM). Он демонстрирует техническую возможность Яндекса обнаруживать и нейтрализовывать скоординированные репутационные атаки или искусственное завышение рейтингов, инициированные через внешние источники (PR-кампании, посты в соцсетях). Это повышает требования к естественности и качеству отзывов.
Детальный разбор
Термины и определения
- Abnormal Crowd-Sourced Label (Аномальная краудсорсинговая метка)
- Оценка (рейтинг, отзыв, голос), поставленная пользователем под влиянием внешнего триггера, а не на основе личного опыта. Является частью Abnormal subset.
- Abnormal Pattern of Visits (Аномальный паттерн посещений)
- Характеристика посещаемости веб-ресурса, при которой он посещается пользователями, поставившими аномальные оценки, статистически значимо чаще, чем остальными пользователями.
- Crowd-Sourced Label (Краудсорсинговая метка)
- Любая форма обратной связи от пользователей относительно цифрового объекта (Digital Item) — рейтинг, лайк, дизлайк, отзыв, голос.
- Delta Set (Дельта-набор)
- Набор веб-ресурсов, выявленный путем анализа различий в истории посещений между двумя группами пользователей. Содержит ресурсы с аномальным паттерном посещений, которые являются кандидатами на роль источника внешнего триггера.
- Digital Item (Цифровой объект)
- Контент или сущность, к которой пользователи оставляют метки (например, фильм, товар, организация, приложение).
- External Trigger Event (Внешнее триггерное событие)
- Событие (например, публикация обзора блогером, пост в соцсети), которое ссылается на цифровой объект, но не связано с ним напрямую, и провоцирует пользователей на выставление аномальных оценок («флешмоб»).
- First Browsing History Group (Первая группа истории посещений)
- История посещений пользователей, которые предоставили аномальные метки (Abnormal subset).
- Second Browsing History Group (Вторая группа истории посещений)
- История посещений пользователей, которые предоставили остальные (нормальные) метки. Используется как контрольная группа.
- Spike Trends (Тренды всплесков)
- Анализ разницы в концентрации между соседними значениями оценок. Используется для обнаружения аномалий в распределении.
- Typical Distribution (Типичное распределение)
- Ожидаемое распределение оценок для цифрового объекта при отсутствии внешнего влияния.
- Web History Log (Лог истории посещений)
- База данных (например, на сервере отслеживания Tracking Server, таком как Яндекс.Метрика), хранящая данные о посещенных пользователями веб-ресурсах.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод определения аномальной метки и идентификации источника внешнего влияния.
- Система анализирует набор краудсорсинговых меток, собранных за период времени.
- Определяется аномальное подмножество (abnormal subset) меток, потенциально вызванное внешним триггером.
- Из лога (Web history log) извлекается история посещений пользователей, предоставивших эти метки.
- История посещений разделяется на две группы:
- First browsing history group (пользователи, давшие аномальные метки).
- Second browsing history group (пользователи, давшие остальные метки).
- Генерируется Delta set путем анализа различий в посещенных ресурсах между двумя группами.
- Delta set содержит ресурсы с аномальным паттерном посещений (abnormal pattern of visits).
- Эти ресурсы ассоциируются как источник (source) внешнего триггерного события.
Claim 6 (Зависимый от 1): Уточняет метод определения аномального подмножества (Шаг 2 в Claim 1).
Определение основано на анализе трендов всплесков (spike trends) между соседними метками в фактическом распределении. Если эти тренды не совпадают (misaligned) с типичным распределением, определяется аномальное подмножество.
Claim 7 (Зависимый от 6): Уточняет критерии несовпадения с типичным распределением.
Несовпадение определяется, если обнаружен аномальный всплеск, связанный с (i) одной парой соседних меток (Single Spike) или (ii) двумя наборами последовательных соседних меток (Joint Spike).
Claims 8 и 9 (Зависимые от 7): Уточняют, что эти всплески обычно связаны с низкими (low label) или высокими (high label) оценками (например, 1 или 10 по 10-балльной шкале).
Claim 11 (Зависимый от 10): Уточняет метод определения аномального паттерна посещений (Шаг 6 в Claim 1).
- Вычисляется первая пропорция пользователей из Group 1, посетивших определенный веб-ресурс.
- Вычисляется вторая пропорция пользователей из Group 2, посетивших тот же веб-ресурс.
- Если первая пропорция больше второй, определяется, что ресурс связан с аномальным паттерном посещений.
Claims 12 и 13 (Зависимые от 11): Уточняют, что для сравнения пропорций используется подход Z-статистики (Z-statistics approach). Если Z-статистика указывает на статистически значимое различие, ресурс определяется как источник внешнего триггера.
Где и как применяется
Этот патент описывает систему анализа данных и антифрода, которая применяется преимущественно в сервисах Яндекса, агрегирующих отзывы и рейтинги (Яндекс.Маркет, Кинопоиск, Яндекс.Карты/Бизнес, Авто.ру). В контексте глобальной архитектуры поиска:
CRAWLING – Сканирование и Сбор данных (Data Acquisition)
Система критически зависит от данных, собираемых на этом слое. Однако это не стандартный краулинг веба, а сбор поведенческих данных через системы трекинга (например, Яндекс.Метрика, данные браузера). Система использует Web History Log, хранящийся на Tracking Server, который содержит URL и время доступа (Access time) для пользователей.
INDEXING – Индексирование и извлечение признаков (Feature Extraction)
Основная работа алгоритма происходит на этом этапе в офлайн или near-real-time режиме. Алгоритм (Abnormal crowd-sourced label processor) анализирует собранные метки (Crowd-Sourced Labels) для конкретного объекта (Digital Item) и вычисляет его итоговый, очищенный от флешмобов рейтинг. Этот очищенный рейтинг сохраняется как признак объекта в индексе.
RANKING – Ранжирование
Очищенный рейтинг, вычисленный с помощью этого алгоритма, используется как фактор ранжирования в вертикальных поисках (например, ранжирование товаров на Маркете или организаций на Картах).
BLENDER – Метапоиск и Смешивание
Очищенные рейтинги используются при генерации обогащенных ответов, сниппетов со звездами и колдунщиков (Wizards) в основной выдаче.
На что влияет
- Конкретные типы контента/сущностей: Влияет на рейтинги товаров (E-commerce), организаций (Local), медиаконтента (фильмы, игры), приложений.
- Конкретные ниши или тематики: Наибольшее влияние в высококонкурентных нишах и тематиках, подверженных репутационным войнам или виральному обсуждению (авто, недвижимость, электроника, медиа).
Когда применяется
- Триггеры активации: Алгоритм активируется при обработке новых поступающих оценок для объекта. Анализ запускается периодически или при достижении определенного количества новых оценок.
- Условия работы: Ключевым условием является обнаружение статистической аномалии (всплеска) в распределении оценок за определенный период времени (Sliding Time Window).
Пошаговый алгоритм
Процесс работы системы (Abnormal Crowd-Sourced Label Processor) по выявлению и обработке аномальных меток.
Этап 1: Анализ меток и обнаружение аномалий (Initial Label Analyzer)
- Сбор данных: Получение набора краудсорсинговых меток для объекта за скользящее временное окно (T).
- Анализ всплесков (Spike Trend Analyzer):
- Вычисление разницы в значениях (DIVs) концентрации меток между соседними оценками (например, разница между количеством оценок «1» и «2»).
- Нормализация DIVs.
- Определение наличия аномально высоких значений нормализованных DIVs, указывающих на «флешмоб». Анализируются два паттерна:
- Single Spike (один аномальный пик).
- Joint Spike (два соседних аномальных пика).
- Приоритет отдается анализу крайних значений (низкие и высокие оценки).
- Выбор аномального подмножества (Abnormal Subset Selector): Если обнаружены всплески, не соответствующие типичному распределению, метки, формирующие этот всплеск, помечаются как аномальное подмножество (Abnormal Subset).
Этап 2: Анализ истории посещений и идентификация источника (Browsing History Analyzer)
- Получение истории (Browsing History Acquirer): Запрос истории посещений (Browsing History Data) из Web History Log для пользователей, оставивших метки в период T.
- Разделение на группы (Browsing History Parser): Пользователи и их истории делятся на:
- Group 1: Пользователи, предоставившие Abnormal Subset.
- Group 2: Остальные пользователи (контрольная группа).
- Генерация Дельта-набора (Delta Set Generator):
- Для каждого URL в истории посещений вычисляется пропорция пользователей, посетивших его, отдельно для Group 1 и Group 2.
- Сравнение пропорций. Ищутся URL, где пропорция в Group 1 значительно выше, чем в Group 2.
- Для подтверждения статистической значимости используется Z-статистика.
- URL, показавшие статистически значимое различие, формируют Delta Set. Они считаются источниками внешнего триггера.
- Ранжирование источников (Опционально): Если источников несколько, они ранжируются по пропорции пользователей, которые их посетили. Может применяться пороговое значение для отсечения низкочастотных источников.
Этап 3: Применение корректировок (Final Label Analyzer)
- Идентификация пользователей: Определение пользователей, которые посетили идентифицированный источник триггера в течение периода T.
- Корректировка меток: Применение одной из стратегий к меткам этих пользователей:
- Discarding (Удаление меток).
- Assigning a lowering weight (Присвоение понижающего веса).
- Проактивная защита (Опционально): При поступлении новых оценок в будущем система проверяет, посещал ли пользователь ранее идентифицированный источник триггера, и применяет корректировку.
Какие данные и как использует
Данные на входе
- Краудсорсинговые данные: Значения оценок/меток (Crowd-Sourced Labels), время их проставления, идентификаторы пользователей.
- Поведенческие факторы (Ключевые данные): История посещений пользователей (Browsing History), получаемая из Web History Log. Включает набор URL и время доступа (Access Time). Это данные кросс-сайтового трекинга (например, через Яндекс.Метрику или данные браузера).
Какие метрики используются и как они считаются
- Difference in Values (DIVs): Метрика для анализа всплесков. Рассчитывается как разница в концентрации (пропорции) между двумя соседними значениями оценок.
- Normalized DIVs: Нормализованные значения DIVs (например, в процентах от общей суммы DIVs). Используются для выявления аномально высоких значений.
- Proportion of Users (Пропорция пользователей): Рассчитывается как доля пользователей в группе (Group 1 или Group 2), которые посетили определенный URL.
- Z-statistics (Z-статистика): Статистический метод, используемый для определения того, является ли разница между пропорциями пользователей в Group 1 и Group 2 статистически значимой. Если различие значимо, это подтверждает, что URL является источником триггера.
Выводы
- Яндекс активно борется с влиянием внешних источников на рейтинги: Система направлена на защиту от «флешмобов» в отзывах, вызванных PR-кампаниями, вирусными обзорами или постами в социальных сетях. Это повышает целостность и надежность рейтингов на платформах Яндекса.
- Глубокий анализ поведенческих данных: Патент подтверждает, что Яндекс использует кросс-сайтовые поведенческие данные (историю посещений пользователей) для оценки качества и достоверности действий пользователей на своих сервисах. Это возможно благодаря инфраструктуре Яндекс.Метрики и Яндекс.Браузера.
- Идентификация конкретного источника влияния: Ключевая особенность системы — способность вычислить точный URL, который спровоцировал аномальное поведение пользователей, путем сравнения истории посещений участников «флешмоба» и контрольной группы.
- Статистический подход к обнаружению аномалий: Для выявления неестественного поведения используются четкие статистические методы (анализ всплесков в распределении оценок, Z-статистика), что минимизирует ложные срабатывания.
- Механизм корректировки: Идентифицированные аномальные оценки не обязательно удаляются; им может быть присвоен понижающий вес, что позволяет сохранить информацию, но нейтрализовать ее искажающее влияние на итоговый рейтинг.
Практика
Best practices (это мы делаем)
- Фокус на органическом получении отзывов: Стимулируйте реальных клиентов оставлять отзывы после совершения транзакции или получения услуги. Естественное распределение оценок во времени и по значениям защищено от пессимизации этим алгоритмом.
- Мониторинг репутации и информационного поля (ORM/SERM): Отслеживайте появление вирусных обзоров или негативных публикаций о вашем бренде/товаре. Если вы видите начало «флешмоба» в отзывах, знайте, что Яндекс, вероятно, также его обнаружит и попытается идентифицировать источник.
- Работа с негативом: В случае возникновения реальной проблемы, которая может вызвать естественный всплеск негативных отзывов (без внешнего триггера), важно оперативно реагировать и решать проблемы клиентов. Этот патент направлен против искусственно вызванных флешмобов, но не отменяет важности реального качества сервиса.
Worst practices (это делать не надо)
- Заказные PR-кампании для стимуляции отзывов: Попытки инициировать массовое оставление положительных отзывов через внешние публикации (например, пост у блогера с призывом поддержать компанию) высокорискованны. Яндекс может идентифицировать эту публикацию как источник триггера и аннулировать все отзывы от пользователей, которые ее посетили.
- Черный PR против конкурентов: Инициирование негативных «флешмобов» против конкурентов через внешние ресурсы также неэффективно. Система обнаружит аномалию, найдет источник и нейтрализует негативные оценки.
- Резкая накрутка отзывов: Любые действия, приводящие к резким всплескам в количестве и тональности отзывов за короткий промежуток времени, будут триггером для активации этого алгоритма.
Стратегическое значение
Патент подчеркивает стратегический приоритет Яндекса на обеспечение достоверности и качества данных на своих платформах. Для SEO-специалистов это означает, что манипуляции с рейтингами становятся все более сложными и неэффективными. Долгосрочная стратегия должна опираться на реальное улучшение качества продукта/услуги и органическое управление репутацией. Также патент демонстрирует уровень интеграции данных между различными сервисами Яндекса (Поиск/Вертикали, Метрика, Браузер) для контроля качества.
Практические примеры
Сценарий: Нейтрализация влияния обзора блогера на рейтинг фильма
- Событие: Популярный блогер выпускает резко негативный обзор нового фильма и призывает подписчиков «наказать» его низким рейтингом на Кинопоиске (сервис Яндекса).
- Действие пользователей: Тысячи пользователей, посмотрев обзор, переходят на Кинопоиск и ставят оценку «1», не посмотрев сам фильм.
- Анализ Яндекса (Этап 1): Система обнаруживает резкий всплеск оценок «1» за короткий период (аномалия Single Spike). Эти оценки помечаются как Abnormal Subset.
- Анализ Яндекса (Этап 2): Система анализирует историю посещений пользователей, поставивших «1» (Group 1), и сравнивает ее с историей пользователей, поставивших другие оценки (Group 2).
- Идентификация источника: Система обнаруживает, что 80% пользователей из Group 1 посещали URL обзора блогера незадолго до выставления оценки, в то время как в Group 2 этот URL посещали только 5%. Z-статистика подтверждает значимость. URL обзора идентифицируется как источник триггера.
- Результат (Этап 3): Оценкам пользователей, посетивших URL обзора, присваивается минимальный вес при расчете итогового рейтинга фильма. Рейтинг стабилизируется.
Вопросы и ответы
Что такое «флешмоб» (flash mob) в контексте этого патента?
Это ситуация, когда большое количество пользователей скоординированно или под влиянием внешнего события (например, вирусного обзора, новости, поста в социальной сети) начинают массово оставлять необъективные оценки (слишком низкие или слишком высокие) какому-либо объекту (товару, фильму, организации), часто даже не имея личного опыта взаимодействия с ним. Это приводит к искажению реального рейтинга.
Как система понимает, что всплеск оценок является аномальным?
Система анализирует распределение оценок за определенный период времени и сравнивает его с типичным распределением. Она ищет статистические аномалии, называемые Spike Trends. В частности, она вычисляет разницу в концентрации между соседними оценками (например, между «1» и «2»). Если эта разница аномально велика (особенно на краях шкалы), это сигнализирует о возможном «флешмобе».
Каким образом Яндекс получает доступ к истории посещений пользователей?
Патент упоминает использование Web History Log, хранящегося на Tracking Server. На практике это реализуется через экосистему Яндекса. Основными источниками таких данных являются счетчики Яндекс.Метрики, установленные на множестве сайтов, данные Яндекс.Браузера, а также история взаимодействия пользователя с другими сервисами Яндекса, при условии, что пользователь авторизован или его можно идентифицировать по цифровому отпечатку.
Как система определяет конкретный URL, который вызвал «флешмоб»?
После обнаружения аномалии система делит пользователей на две группы: тех, кто поставил аномальные оценки (Group 1), и остальных (Group 2). Затем она сравнивает их историю посещений. Если какой-то URL посещался пользователями из Group 1 статистически значимо чаще (используется Z-статистика), чем пользователями из Group 2, этот URL идентифицируется как источник внешнего триггера (External Trigger Event).
Что происходит с оценками, которые были идентифицированы как часть «флешмоба»?
Патент предусматривает два основных варианта действий. Такие оценки могут быть полностью удалены (discarded) из системы и не учитываться при расчете рейтинга. Альтернативно, им может быть присвоен понижающий вес (lowering weight), что значительно снижает их влияние на итоговый результат, но сохраняет их в базе данных.
Влияет ли этот патент на ранжирование сайтов в веб-поиске?
Напрямую на алгоритмы ранжирования веб-документов этот патент не влияет. Он предназначен для защиты целостности рейтингов внутри сервисов Яндекса (Маркет, Карты, Кинопоиск и т.д.). Однако очищенные рейтинги используются как факторы ранжирования внутри этих вертикалей и отображаются в основной выдаче (например, звезды в сниппетах), что косвенно влияет на общую видимость и кликабельность объектов.
Что это значит для стратегий управления репутацией (ORM)?
Это делает стратегии, основанные на искусственной стимуляции отзывов через внешние каналы (например, заказные публикации у блогеров с призывом оставить отзыв), крайне рискованными. Система может легко обнаружить источник трафика и аннулировать все связанные с ним отзывы. Необходимо фокусироваться на органическом получении обратной связи от реальных клиентов.
Может ли система ошибочно принять естественный всплеск негатива за «флешмоб»?
Теоретически да, но механизм патента снижает эту вероятность. Если всплеск негатива вызван реальной проблемой с продуктом, пользователи узнают о ней из разных источников или сталкиваются с ней лично. В этом случае система не сможет выделить один доминирующий внешний источник (URL) в истории посещений этих пользователей. Алгоритм ищет именно корреляцию между аномалией и конкретным внешним триггером.
Защищает ли этот алгоритм от обычной накрутки отзывов ботами или мотивированными пользователями?
Этот алгоритм специализирован на обнаружении «флешмобов», вызванных внешними событиями. Для борьбы с традиционным спамом и ботами Яндекс использует другие антифрод-системы. Однако если накрутка организована таким образом, что вызывает резкий статистический всплеск, этот алгоритм также может ее обнаружить, особенно если мотивированные пользователи получают задание через один и тот же веб-ресурс.
Если я запущу легитимную рекламную кампанию, которая приведет к росту отзывов, не посчитает ли Яндекс это флешмобом?
Если кампания приводит реальных новых клиентов, которые оставляют отзывы после взаимодействия с продуктом, распределение оценок, скорее всего, останется естественным (не будет резкого перекоса только в «1» или только в «10»). Алгоритм активируется при обнаружении аномального распределения (Spike Trend). Если же реклама содержит прямой призыв поставить определенную оценку, это повышает риск пессимизации.