Как Яндекс использует кросс-девайсный анализ истории браузера и многоуровневые URL-эмбеддинги для агрессивной верификации отзывов

Яндекс патентует систему борьбы с фейковыми отзывами, основанную на анализе истории браузера пользователя со всех его устройств. Система ищет URL страниц подтверждения транзакций («Спасибо за покупку»), используя многоуровневые эмбеддинги (общие, на основе статической и динамической частей URL). Если подтверждение найдено, все отзывы пользователя верифицируются. Если нет — все отзывы удаляются, а User ID попадает в черный список.

Описание

Какую задачу решает

Патент решает критическую проблему фрода и манипуляций на платформах пользовательского контента (UGC), таких как Яндекс.Маркет или Яндекс.Карты. Он направлен на устранение фальшивых отзывов от пользователей, которые не являлись реальными клиентами организации. Это повышает достоверность рейтингов и защищает пользователей от дезинформации, предлагая метод верификации транзакций без доступа к конфиденциальным финансовым данным.

Что запатентовано

Запатентована система и метод верификации подлинности клиента (genuine customer) путем комплексного анализа его поведения. Суть изобретения заключается в кросс-девайсном сборе истории браузера пользователя (user browsing history) и использовании многоуровневых векторных представлений URL (URL embeddings) для идентификации страниц подтверждения транзакций («Thank You» page). Система также включает агрессивные меры по борьбе с выявленным фродом.

Как это работает

Система поддерживает базу данных подлинности (Genuity Database) с эталонными эмбеддингами. При получении отзыва система идентифицирует все устройства пользователя (Claim 1) и запрашивает их историю браузера. URL из истории векторизуются и сравниваются с эталонами. Если найдено сходство (разница ниже порога), система обучается на новом URL, генерируя специализированные эмбеддинги (pattern-based и mask-based), и помечает все отзывы пользователя как подлинные. Если подтверждение не найдено, система действует жестко: удаляет ВСЕ отзывы этого пользователя и заносит его User ID в базу мошенников (Fraudulent User Database).

Актуальность для SEO

Высокая. Обеспечение достоверности отзывов является ключевой задачей для всех E-commerce и локальных платформ. Использование кросс-девайсного анализа поведенческих данных и методов ML (эмбеддингов) для верификации является современным подходом. Реализация, вероятно, опирается на экосистему Яндекса (например, Яндекс.Браузер) для доступа к истории посещений.

Важность для SEO

Влияние на SEO значительно (8/10), особенно для E-commerce и Local SEO в экосистеме Яндекса. Хотя патент не описывает алгоритмы веб-поиска, он определяет правила игры для управления репутацией (ORM/SERM). Система агрессивно борется с накрутками, делая акцент на реальном клиентском опыте. Техническая корректность сайта (наличие и структура страниц подтверждения заказа) становится фактором, влияющим на успешную верификацию отзывов.

Детальный разбор

Термины и определения

Embedding (Векторное представление, Эмбеддинг): Численное векторное представление URL-адреса. Позволяет численно оценить структурное сходство разных URL. В патенте упоминается применение алгоритма Word2Vector к строке URL.
Fraudulent User Database (База данных мошеннических пользователей): Черный список User ID, которые не прошли верификацию транзакции.
Genuity Database (База данных подлинности): База данных, хранящая эталонные эмбеддинги (Template Embeddings) и шаблоны URL известных страниц подтверждения транзакций.
Mask-based Embedding (Эмбеддинг на основе маски): Векторное представление, сгенерированное на основе динамической части URL (например, ID транзакции, ID пользователя). Упомянуто в Claim 1.
Pattern-based Embedding (Эмбеддинг на основе шаблона): Векторное представление, сгенерированное на основе статической части URL (например, домен и путь domain.com/cart/success/). Упомянуто в Claim 1.
Transaction Confirmation Page (Страница подтверждения транзакции): Веб-страница (например, «Спасибо за покупку»), которая показывается пользователю после завершения заказа. Наличие URL этой страницы в истории браузера служит доказательством транзакции.
User Browsing History (История браузера пользователя): Список URL-адресов, посещенных пользователем. Согласно Claim 1, собирается со всех устройств, связанных с User ID.

Ключевые утверждения (Анализ Claims)

Патент защищает комплексную и агрессивную систему верификации отзывов. Анализ основан на детальном независимом пункте Claim 1, который описывает полный цикл работы.

Claim 1 (Независимый пункт):

Часть A: Кросс-девайсный сбор данных

Система получает первый отзыв от первого устройства.
Определяется первый User ID.
Критически важно: Система идентифицирует *второе* устройство, связанное с тем же первым User ID.
Система отправляет запросы на получение истории браузера на ПЕРВОЕ и ВТОРОЕ устройства.
Получение историй с обоих устройств.

Часть B: Верификация и Обучение (Подлинный клиент)

Выбор первого URL из объединенной истории.
Генерация первого эмбеддинга для этого URL.
Сравнение с эталонными эмбеддингами (template embeddings).
Если разница МЕНЬШЕ порога (embedding difference threshold) (т.е. URL похож на страницу подтверждения):

Первый эмбеддинг добавляется в Genuity Database.
Проводится структурный анализ URL: определяются статическая и динамическая части.
Генерируются и сохраняются два дополнительных эмбеддинга: pattern-based embedding (на основе статической части) и mask-based embedding (на основе динамической части).
ВСЕ отзывы, связанные с первым User ID, помечаются в Recommendation Database как подлинные.

Часть C: Обработка Фрода (Мошеннический пользователь)

Эта часть описывает обработку другого пользователя (второй User ID):

Система получает второй отзыв (от третьего устройства, второй User ID), определяет второй URL и генерирует второй эмбеддинг.
Сравнение с эталонными эмбеддингами.
Если разница БОЛЬШЕ порога (т.е. подтверждение транзакции не найдено):

ВСЕ отзывы, связанные со вторым User ID, УДАЛЯЮТСЯ из Recommendation Database.
Второй User ID сохраняется в базе данных мошеннических пользователей (Fraudulent User Database).

Ядром изобретения является не просто анализ истории браузера, а комплексный подход: кросс-девайсный сбор данных, многоуровневый анализ эмбеддингов (общий, статический, динамический) и применение жестких санкций к пользователям, не прошедшим верификацию.

Где и как применяется

Этот патент не относится к классической архитектуре веб-поиска (Crawling, Indexing, Ranking). Он описывает механизм контроля качества для платформ пользовательского контента (UGC) и E-commerce (например, Яндекс.Маркет, Отзывы на Картах).

Слой Качества и Метрик (QUALITY & GOVERNANCE LAYER)
Изобретение функционирует как система антифрода, обеспечивая достоверность отзывов и рейтингов.

Взаимодействие с компонентами:

User Electronic Devices: Устройства пользователя (ПК, смартфоны). Система должна иметь возможность получить с них историю браузера, что подразумевает наличие клиентского кода (например, в Яндекс.Браузере или приложениях Яндекса).
Recommendation Database: База отзывов. Система обновляет статус отзывов или удаляет их из этой базы.
Genuity Database: Хранилище эталонных данных (эмбеддингов) для верификации.
Fraudulent User Database: Черный список пользователей.

Входные данные: Отзывы (Review submissions), User ID, История браузера (Browsing History URLs) со всех устройств пользователя.

Выходные данные: Метка подлинности отзыва, обновленная Genuity Database (с новыми эмбеддингами), обновленная Recommendation Database (с удаленными фальшивыми отзывами), обновленная Fraudulent User Database.

На что влияет

Конкретные типы контента: Влияет исключительно на пользовательские отзывы и рейтинги организаций на платформах Яндекса.
Конкретные ниши или тематики: Наибольшее влияние оказывается на E-commerce (отзывы о товарах и магазинах) и локальный бизнес (рестораны, услуги), где транзакция завершается показом страницы подтверждения онлайн.

Когда применяется

Триггеры активации: Получение нового отзыва (Review submission) или плановая проверка существующих отзывов.
Условия работы: Критически необходимо наличие доступа к истории браузера пользователя со всех его устройств (согласно Claim 1). Если доступ не предоставлен или история очищена, система не сможет верифицировать пользователя этим методом.

Пошаговый алгоритм

Алгоритм основан на детальном процессе, описанном в Claim 1.

Этап 1: Сбор данных и Кросс-девайс анализ

Получение отзыва от первого устройства.
Идентификация User ID автора.
Поиск всех устройств (минимум двух), связанных с этим User ID (например, ПК и смартфон).
Запрос и получение истории браузера со всех идентифицированных устройств.
Агрегация и выбор релевантных URL из объединенной истории.

Этап 2: Генерация и Сравнение Эмбеддингов

Генерация эмбеддинга (например, с помощью Word2Vec) для выбранного URL.
Извлечение эталонных эмбеддингов (Template Embeddings) из Genuity Database.
Сравнение нового эмбеддинга с эталонными и вычисление разницы (расстояния).

Этап 3: Принятие решения и Действия

Проверка условия: Разница < Embedding Difference Threshold?
Путь А (YES — Подлинный клиент):
1. Маркировка ВСЕХ отзывов этого User ID как подлинных.
2. Обогащение Genuity Database (Самообучение):
  - Добавление нового эмбеддинга URL.
  - Анализ URL: выделение статической и динамической частей.
  - Генерация и добавление pattern-based embedding (статическая часть) и mask-based embedding (динамическая часть).
Путь Б (NO — Мошеннический пользователь): (Примечание: Claim 1 описывает это на примере другого пользователя, но логика применима к любому пользователю, не прошедшему верификацию)
1. Удаление ВСЕХ отзывов этого User ID из Recommendation Database.
2. Добавление User ID в Fraudulent User Database (Черный список).

Какие данные и как использует

Данные на входе

Поведенческие факторы (История посещений): Основной источник данных. Система анализирует список URL-адресов (User Browsing History), посещенных пользователем на всех его устройствах.
Пользовательские факторы (Идентификаторы): User ID используется для кросс-девайс анализа и применения санкций/верификации ко всем отзывам пользователя. Также используется Device ID.
Технические факторы (Структура URL): Структура URL анализируется для генерации эмбеддингов и выделения статических (Static Portion) и динамических (Dynamic Portion) частей.

Какие метрики используются и как они считаются

URL Embedding: Векторное представление URL. В патенте явно указано использование алгоритма Word2Vector, применяемого к строке URL.
Pattern-based Embedding: Векторное представление, сгенерированное на основе статической части URL (Claim 1).
Mask-based Embedding: Векторное представление, сгенерированное на основе динамической части URL (Claim 1).
Difference (Разница/Расстояние): Метрика расстояния между новым эмбеддингом и эталонным эмбеддингом в многомерном векторном пространстве.
Embedding Difference Threshold: Пороговое значение для метрики Difference. Если расстояние ниже порога, URL считаются структурно схожими.

Выводы

Кросс-девайсный анализ истории браузера: Яндекс разработал механизм, который запрашивает и анализирует историю посещений пользователя со ВСЕХ его устройств (Claim 1) для подтверждения факта покупки. Это значительно усложняет задачу для фродеров, использующих «чистые» устройства для накруток.
Структурный анализ URL через Эмбеддинги: Система использует ML для распознавания страниц подтверждения заказа («Thank You Page»). Она ищет структурное сходство URL с известными шаблонами (например, от популярных CMS), используя векторные представления.
Многоуровневые эмбеддинги: Патент защищает генерацию не только общего эмбеддинга URL, но и специализированных эмбеддингов для статической (pattern-based) и динамической (mask-based) частей URL. Это повышает точность и глубину анализа структуры.
Агрессивная политика в отношении фрода: Система применяет жесткие санкции. При неудачной верификации удаляются ВСЕ отзывы пользователя, а его User ID заносится в черный список (Fraudulent User Database).
Самообучение системы: При успешной верификации нового URL его эмбеддинги (все три типа) добавляются в Genuity Database, что постоянно расширяет базу знаний системы.
Зависимость от экосистемы: Эффективность метода зависит от доступа к истории браузера, что наиболее вероятно реализуется через собственные продукты Яндекса (например, Яндекс.Браузер).

Практика

Best practices (это мы делаем)

Техническая реализация «Thank You Page»: Критически важно убедиться, что после оформления заказа пользователь перенаправляется на уникальную страницу подтверждения. Эта страница должна иметь структурированный URL, характерный для e-commerce (например, содержащий /order-success/, /thank-you/, /confirmation/). Это увеличит вероятность корректного распознавания эмбеддинга этого URL системой Яндекса.
Фокус на реальный клиентский опыт (ORM): Манипуляции с отзывами становятся крайне высокорискованными. Стратегия должна быть сосредоточена на качестве сервиса и мотивации реальных покупателей оставлять отзывы.
Использование стандартных CMS-решений: Патент основан на том, что сайты используют схожие шаблоны URL из популярных CMS. Использование стандартных, хорошо структурированных решений для оформления заказа может способствовать более легкому распознаванию страниц транзакций.
Мониторинг статуса отзывов: Регулярно проверяйте статус отзывов на платформах Яндекса (Карты, Маркет). Если реальные отзывы удаляются, это может указывать на проблемы с распознаванием ваших страниц подтверждения заказа.

Worst practices (это делать не надо)

Накрутка отзывов (Черное ORM): Попытки накрутки крайне опасны. Кросс-девайс анализ и верификация транзакций с высокой вероятностью обнаружат фрод, что приведет к удалению ВСЕХ отзывов связанных аккаунтов и их блокировке (Claim 1).
Отсутствие страницы подтверждения заказа: Если подтверждение заказа происходит через AJAX или во всплывающем окне без изменения URL в адресной строке, система Яндекса не найдет подтверждения транзакции в истории браузера. Отзывы таких клиентов могут быть ошибочно классифицированы как фальшивые.
Нестандартные или обфусцированные URL транзакций: Использование сложных или слишком нестандартных структур URL для страниц подтверждения может помешать их распознаванию, так как их эмбеддинги не будут соответствовать эталонам.

Стратегическое значение

Патент подтверждает стратегический приоритет Яндекса на обеспечение достоверности пользовательского контента с использованием передовых технологий (кросс-девайс анализ, многоуровневые эмбеддинги). Для бизнеса и SEO это означает, что репутация на платформах Яндекса будет зависеть исключительно от реального клиентского опыта и технической корректности сайта. Манипулятивные техники управления репутацией (SERM) теряют эффективность и становятся источником риска.

Практические примеры

Сценарий 1: Техническая оптимизация E-commerce сайта

Проблема: Интернет-магазин использует AJAX для оформления заказа. После покупки появляется сообщение «Спасибо», но URL остается shop.ru/cart. Отзывы реальных клиентов не проходят верификацию в Яндексе.
Анализ (на основе патента): Система Яндекса ищет в истории браузера URL подтверждения. Эмбеддинг shop.ru/cart не соответствует эталонам страниц подтверждения.
Решение: Перенастроить сайт так, чтобы после успешного заказа пользователь перенаправлялся на страницу с уникальным URL, например, shop.ru/order/success/id12345.
Результат: Эмбеддинг нового URL распознается как подлинный. Отзывы клиентов успешно проходят верификацию.

Сценарий 2: Обнаружение накрутки (Кросс-девайс)

Ситуация: Фродер использует виртуальную машину на ПК для имитации активности и написания отзыва. Однако его личный смартфон также залогинен в тот же аккаунт Яндекса.
Действие системы Яндекса: Система получает отзыв с ПК. Согласно Claim 1, она идентифицирует смартфон как второе устройство и запрашивает историю с обоих устройств.
Анализ: Анализ объединенной истории не выявляет реального подтверждения транзакции (например, нет перехода на страницу оплаты или «Thank You Page» ни на одном из устройств).
Результат: Система классифицирует пользователя как мошеннического. Все его отзывы удаляются, а User ID попадает в Fraudulent User Database.

Вопросы и ответы

Что является ключевой особенностью этого патента по сравнению с другими методами борьбы с фродом?

Ключевыми особенностями являются три вещи. Первая — это кросс-девайсный анализ: система собирает историю браузера со всех устройств, связанных с User ID (Claim 1). Вторая — использование многоуровневых эмбеддингов (общий, Pattern-based, Mask-based) для идентификации структурного сходства страниц подтверждения заказа. Третья — агрессивные меры при обнаружении фрода: удаление всех отзывов пользователя и его блокировка.

Как именно Яндекс получает доступ к истории браузера пользователя?

В патенте указано, что сервер «отправляет запрос» и «получает» историю с устройств. Технически это реализуемо, если пользователь использует продукты экосистемы Яндекса — например, Яндекс.Браузер с включенной синхронизацией или мобильные приложения Яндекса, имеющие соответствующие разрешения и согласие пользователя. Доступ к истории сторонних браузеров (Chrome, Safari) напрямую затруднен.

Что такое Pattern-based и Mask-based embeddings и зачем они нужны?

Это специализированные векторные представления частей URL. Система разделяет URL на статическую часть (например, site.ru/order/success/) и динамическую (ID заказа 12345). Pattern-based embedding — это вектор статической части. Mask-based embedding — это вектор динамической части (маски). Генерация отдельных эмбеддингов позволяет более точно и гибко анализировать структуру URL и находить сходства на разных уровнях.

Насколько опасна накрутка отзывов в свете этого патента?

Крайне опасна. Claim 1 описывает очень жесткие меры: при неудачной верификации система удаляет ВСЕ отзывы, связанные с данным User ID (а не только подозрительный отзыв), и заносит User ID в черный список (Fraudulent User Database). Это приводит к полной потере репутации аккаунта на платформах Яндекса.

Что делать, если на моем сайте нет отдельной страницы «Спасибо за покупку» (например, используется AJAX)?

Это серьезная проблема для этого механизма верификации. Если подтверждение заказа происходит без изменения URL в адресной строке, система не найдет доказательств транзакции в истории браузера. Отзывы реальных клиентов могут быть ошибочно классифицированы как фальшивые. Настоятельно рекомендуется реализовать перенаправление на уникальную страницу подтверждения после успешного заказа.

В патенте упоминается Word2Vec. Означает ли это, что Яндекс не использует более современные модели типа BERT/YATI?

Word2Vec упоминается в патенте как пример алгоритма для генерации эмбеддингов URL. Патенты часто указывают известные примеры, но не ограничивают реализацию. Для анализа структуры URL, возможно, Word2Vec или его аналоги (FastText) оказываются достаточно эффективными и быстрыми. Использование более тяжелых моделей для этой задачи может быть избыточным, хотя и не исключено.

Может ли эта система верифицировать офлайн-покупки?

Нет. Механизм, описанный в данном патенте, предназначен исключительно для верификации онлайн-транзакций, которые оставляют след в виде URL страницы подтверждения в истории браузера. Для верификации офлайн-активности используются другие методы (например, геолокация), которые здесь не рассматриваются.

Как этот патент влияет на SEO-стратегию сайта?

Прямого влияния на алгоритмы ранжирования в веб-поиске нет. Но он критически важен для Local SEO и E-commerce. Достоверные отзывы и высокий рейтинг на Картах и Маркете улучшают CTR, конверсию и поведенческие факторы. Обеспечение технической корректности страниц подтверждения заказа становится важной задачей в рамках технического SEO и ORM.

Может ли система ошибочно удалить отзыв реального клиента?

Да, это возможно. Например, если клиент очистил историю браузера сразу после покупки, если он использует браузер, который не передает историю Яндексу, или если сайт использует крайне нестандартную структуру URL для страницы подтверждения заказа, которую система не смогла распознать (ее эмбеддинг оказался слишком далеко от эталонов).

Как система обучается распознавать новые страницы подтверждения?

Система самообучаема (Claim 1). Если новый URL из истории пользователя оказывается структурно похож (близок по эмбеддингу) к уже известным эталонам, он также признается страницей подтверждения. Его эмбеддинги (общий, pattern-based и mask-based) добавляются в Genuity Database. Это позволяет системе адаптироваться к новым сайтам и CMS.