Как Яндекс персонализирует товарные рекомендации на основе совместных покупок и глубокого профилирования пользователей

Яндекс патентует двухэтапную систему для персонализации рекомендаций товаров (например, в Яндекс.Маркете). Система сначала определяет товары, которые часто покупают вместе (на основе истории всех пользователей), а затем агрессивно переранжирует эти товары для конкретного пользователя. Для этого используется многоуровневая ML-модель, анализирующая данные устройства, историю браузинга и социально-демографические характеристики пользователя.

Описание

Какую задачу решает

Патент решает проблему низкой релевантности стандартных систем рекомендаций на Online Listing Platforms (например, маркетплейсах). Традиционные системы часто показывают просто похожие товары (той же категории), которые могут не соответствовать реальным потребностям или интересам пользователя в момент покупки, что ухудшает пользовательский опыт и снижает средний чек.

Что запатентовано

Запатентована двухэтапная система персонализированных рекомендаций для маркетплейсов. Суть изобретения заключается в комбинации (1) отбора кандидатов на основе глобальной популярности совместных покупок (Mutual Popularity Score) и (2) последующего глубокого персонализированного ранжирования этих кандидатов. Ранжирование осуществляется с помощью многоуровневой ML-архитектуры, которая вычисляет User-Specific Ranking Parameter на основе детального профиля пользователя (данные устройства, история браузинга, демография).

Как это работает

Система строит граф совместных покупок, где вес ребра между товарами отражает частоту их покупки вместе. Когда пользователь взаимодействует с товаром (например, добавляет в корзину), система сначала находит связанные товары в этом графе (кандидаты). Затем активируется модуль персонализации: система анализирует профиль пользователя, используя отдельные ML-модели для данных устройства (Device ID Data) и данных поведения/демографии (User ID Data). Результаты этих моделей объединяются (например, с помощью CatBoost) для предсказания вероятности интереса пользователя к каждому кандидату, формируя финальный персонализированный рейтинг рекомендаций.

Актуальность для SEO

Высокая. Персонализированные рекомендации критически важны для современных e-commerce платформ для повышения среднего чека и лояльности пользователей. Описанные технологии (графы покупок, эмбеддинги пользователей, многоэтапное ранжирование, CatBoost, использование site2vec) являются передовыми практиками в индустрии.

Важность для SEO

Влияние на SEO (6/10). Патент имеет высокое значение для специалистов, занимающихся оптимизацией внутри e-commerce платформ (Marketplace Optimization), так как он напрямую описывает механизм попадания в блоки рекомендаций. Для общего веб-поиска влияние косвенное. Патент демонстрирует глубину и сложность инфраструктуры профилирования пользователей Яндекса (сбор данных о посещении сторонних сайтов, установленных приложениях, характеристиках устройства), которая используется для персонализации всех сервисов.

Детальный разбор

Термины и определения

CatBoost: Алгоритм машинного обучения на основе градиентного бустинга. Упоминается как возможная реализация финальной модели (Model 3), объединяющей сигналы для расчета User-Specific Ranking Parameter.
Device Feature Vector (Вектор признаков устройства): Численное представление (эмбеддинг) устройства пользователя, созданное на основе Device ID Data.
Device ID Data (Данные устройства): Информация, собранная об устройстве пользователя: производитель, модель, установленные приложения, географические данные (например, основной регион использования).
MLA (Machine-Learning Algorithm): Общий термин для алгоритма машинного обучения, используемого для персонализированного ранжирования. В патенте описывается архитектура, которая может включать три модели (Model 1, Model 2, Model 3).
Mutual Popularity Score (Оценка взаимной популярности, $P_i$): Метрика, указывающая на частоту, с которой два товара были выбраны для совместной покупки (single purchase) предыдущими пользователями. Является основой для отбора кандидатов.
Online Listing Platform: Электронный онлайн-ресурс (например, маркетплейс типа Яндекс.Маркет), позволяющий пользователям искать и покупать товары/услуги.
site2vec: Алгоритм извлечения признаков, упомянутый как возможный метод для генерации User Feature Vector на основе истории браузинга пользователя.
User Feature Vector (Вектор признаков пользователя): Численное представление (эмбеддинг) пользователя, созданное на основе User ID Data.
User ID Data (Данные пользователя): Информация, связанная с аккаунтом пользователя: социально-демографические характеристики (возраст, пол, доход), история браузинга (статистика посещения предопределенного набора веб-ресурсов), предполагаемые интересы пользователя.
User-Specific Ranking Parameter (Пользовательский параметр ранжирования, $R\{r_i\}$): Финальная оценка, рассчитываемая MLA. Она указывает на вероятность того, что пользователь сочтет данный рекомендуемый товар интересным. Используется для финального ранжирования кандидатов.

Ключевые утверждения (Анализ Claims)

Патент описывает систему рекомендаций, которая приоритизирует персонализацию над общей популярностью на этапе ранжирования.

Claim 1 (Независимый пункт): Описывает основной процесс работы системы.

Система получает запрос на рекомендации, инициированный взаимодействием пользователя с товаром (Given Item), например, добавлением его в корзину.
Идентификация набора рекомендуемых товаров (Set of Recommendable Items). Критически важно: этот отбор основан на Mutual Popularity Scores (частоте совместных покупок) относительно Given Item.
Получение данных о пользователе (User Data).
Вычисление User-Specific Ranking Parameter для каждого рекомендуемого товара на основе User Data. Этот параметр отражает вероятность интереса пользователя.
Ранжирование набора рекомендуемых товаров в соответствии с вычисленными User-Specific Ranking Parameters.
Выбор одного или нескольких товаров с наивысшим рейтингом для показа пользователю.

Claim 5 (Зависимый от 1): Уточняет, что вычисление User-Specific Ranking Parameter выполняется с помощью обученного алгоритма машинного обучения (MLA).

Claim 8 (Зависимый от 5): Детализирует архитектуру MLA и используемые данные.

User Data включают User Browsing Data (история браузинга) и User Device Data (данные устройства).
MLA состоит как минимум из двух моделей: First Model и Second Model.
First Model обучена предсказывать вероятность интереса на основе User Browsing Data.
Second Model обучена предсказывать вероятность интереса на основе User Device Data.
Финальный User-Specific Ranking Parameter определяется путем конкатенации (объединения) результатов первой и второй моделей.

Примечание о неопределенности: Существует несоответствие между Claim 8 и Описанием (Description, параграфы 0109-0113). В Описании Модель 1 обрабатывает данные устройства, а Модель 2 — данные пользователя (включая браузинг). В Claim 8 наоборот: Первая модель обрабатывает browsing data, а Вторая — device data. Несмотря на это несоответствие в тексте, ключевой механизм остается неизменным: используются две независимые модели для обработки разных типов пользовательских данных, а их результаты объединяются.

Где и как применяется

Изобретение предназначено исключительно для использования на Online Listing Platforms (например, Яндекс.Маркет) и не относится к основному веб-поиску Яндекса. Оно применяется для генерации блоков типа «С этим товаром часто покупают» или «Рекомендуем вам».

Система работает в рамках слоя RANKING рекомендательного движка и представляет собой двухэтапный процесс:

Этап 1: Retrieval (Отбор кандидатов)

Взаимодействие: Использует предварительно рассчитанный офлайн граф взаимной популярности (Mutual Purchase Popularity Graph).
Входные данные: ID товара, с которым взаимодействует пользователь.
Выходные данные: Набор кандидатов (Set of Recommendable Items) — товары, связанные с исходным в графе.

Этап 2: Personalized Ranking (Персонализированное ранжирование)

Взаимодействие: Задействует сложную MLA архитектуру (включая CatBoost) для переранжирования кандидатов. Обращается к системам профилирования пользователей для получения данных.
Входные данные: Набор кандидатов, User Feature Vector, Device Feature Vector.
Выходные данные: Отсортированный список товаров на основе User-Specific Ranking Parameter.

На что влияет

Типы контента: Влияет исключительно на ранжирование товарных предложений (Items) внутри маркетплейса.
Конкретные ниши: Наиболее заметно в категориях, где часто покупают комплекты (электроника и аксессуары, одежда и т.д.).

Когда применяется

Триггеры активации: Запрос на рекомендации генерируется, когда пользователь проявляет намерение покупки, например, добавляет товар в корзину.
Временные рамки: Ранжирование (Этап 2) происходит в реальном времени. Построение графа (Этап 1) и обучение моделей происходят офлайн и периодически обновляются.
Особые случаи (Claim 14): Система может отложить показ рассчитанной рекомендации до будущих взаимодействий пользователя с платформой.

Пошаговый алгоритм

Офлайн-процессы (Подготовка данных и моделей)

Построение графа: Анализ исторических данных о покупках всех пользователей. Расчет Mutual Popularity Score ($P_i$) для всех пар товаров на основе частоты их совместного попадания в корзину. Построение графа популярности.
Профилирование пользователей и устройств:
1. Сбор Device ID Data (модель, география, приложения) и User ID Data (демография, история браузинга на сторонних ресурсах).
2. Применение алгоритмов извлечения признаков (например, site2vec) для генерации эмбеддингов: Device Feature Vector и User Feature Vector.
Обучение MLA:
1. Независимое обучение Model 1 (например, на основе Device Data).
2. Независимое обучение Model 2 (например, на основе User Data).
3. Обучение Model 3 (например, CatBoost) для объединения результатов Model 1 и Model 2 в финальный скор.

Онлайн-процесс (Генерация рекомендаций)

Триггер: Пользователь взаимодействует с товаром (Given Item). Система получает запрос на рекомендации.
Отбор кандидатов (Этап 1): Система обращается к графу популярности и извлекает товары, связанные с Given Item (Set of Recommendable Items).
Извлечение признаков пользователя: Получение актуальных Device Feature Vector и User Feature Vector для текущего пользователя.
Персонализированное ранжирование (Этап 2):
1. Применение Model 1 для получения скора $R_1$ для каждого кандидата.
2. Применение Model 2 для получения скора $R_2$ для каждого кандидата.
3. Применение Model 3 (CatBoost) к скорам $R_1$, $R_2$ (и, возможно, исходным векторам) для вычисления финального User-Specific Ranking Parameter ($R$).
Формирование выдачи: Ранжирование кандидатов по параметру $R$. Выбор Топ-N результатов и их отображение пользователю.

Какие данные и как использует

Данные на входе

Патент описывает использование широкого спектра данных, демонстрируя возможности Яндекса по кросс-сервисному и кросс-сайтовому профилированию пользователей.

Поведенческие факторы (Глобальные): История совместных покупок (co-purchase history) всех пользователей платформы. Это основа для расчета Mutual Popularity Score.
Поведенческие факторы (Пользовательские / User ID Data): История браузинга пользователя (User Browsing Data), включая данные о посещении предопределенного набора внешних веб-ресурсов. Предполагаемые интересы пользователя.
Технические и Пользовательские факторы (Device ID Data): Модель и производитель устройства, географические данные устройства, данные об установленных на устройстве приложениях.
Пользовательские факторы (Социально-демографические / User ID Data): Предполагаемые возраст, пол, статус занятости, средний доход пользователя.

Какие метрики используются и как они считаются

Mutual Popularity Score ($P_i$): Вычисляется офлайн как частота совместной покупки пары товаров.
Feature Vectors (Эмбеддинги): User Feature Vector и Device Feature Vector генерируются с помощью алгоритмов извлечения признаков (упомянут site2vec) для представления поведения пользователя и характеристик устройства в многомерном пространстве.
Промежуточные оценки вероятности ($R_1$, $R_2$): Вычисляются в реальном времени с помощью Model 1 и Model 2. Представляют собой вероятность интереса, рассчитанную независимо на основе данных устройства и данных пользователя соответственно. Упоминаются нейронные сети (ASSIST, Apoc, IsoMIF) как возможные реализации этих моделей.
User-Specific Ranking Parameter ($R$): Финальная оценка для ранжирования. Вычисляется путем объединения (конкатенации) $R_1$ и $R_2$. В патенте указано, что это может включать присвоение весов или использование третьей ML-модели (Model 3). В качестве реализации Model 3 упоминается CatBoost.

Выводы

Двухэтапное ранжирование рекомендаций: Яндекс четко разделяет процесс на отбор кандидатов по глобальной популярности (что покупают вместе) и последующее глубокое персонализированное ранжирование. Популярный сопутствующий товар может быть понижен, если он не соответствует профилю пользователя.
Значимость данных о совместных покупках: Чтобы товар попал в рекомендации к другому товару, он должен иметь высокую частоту совместных покупок (Mutual Popularity Score). Это базовое требование для видимости в рекомендательных блоках.
Глубокое и экстенсивное профилирование пользователей: Патент подтверждает, что Яндекс собирает и использует для персонализации очень подробные данные: характеристики устройства, установленные приложения, географию, предполагаемую демографию и, что критически важно, историю посещения сторонних веб-сайтов.
Сложная ML-архитектура для персонализации: Используется многоуровневая система моделей. Отдельные модели обрабатывают разные типы данных (устройство vs поведение), а финальное решение принимает мастер-модель (CatBoost). Это указывает на высокую сложность инфраструктуры ранжирования Яндекса.
Специфичность для E-commerce, но инсайты для SEO: Хотя описанные механизмы относятся к платформам типа Яндекс.Маркет, инфраструктура профилирования пользователей (сбор внешних данных, генерация эмбеддингов типа site2vec), вероятно, общая и используется для персонализации веб-поиска.

Практика

Best practices (это мы делаем)

Для оптимизации на E-commerce платформах (Marketplace SEO/MPO):

Стимулирование совместных покупок: Для повышения Mutual Popularity Score и попадания в блок рекомендаций необходимо стратегически подходить к тому, с какими товарами покупается ваш продукт. Используйте бандлы (комплекты), оптимизируйте описания товаров, упоминая комплементарные продукты и сценарии совместного использования.
Анализ кросс-категорийных связей: Изучайте, с товарами из каких категорий чаще всего покупают ваш продукт. Это поможет выявить неочевидные связи, которые использует система для генерации кандидатов.
Обеспечение широкого охвата аудитории: Поскольку система глубоко персонализирует выдачу на основе демографии и интересов, важно, чтобы карточка товара была понятной и привлекательной для разных сегментов пользователей.

Для общего понимания работы Яндекса (Web SEO):

Учет глубокого профилирования: SEO-стратегия должна учитывать, что Яндекс обладает обширными данными о пользователях (их кросс-сайтовом поведении, устройствах, приложениях). При анализе позиций необходимо минимизировать влияние персонализации.
Понимание интересов аудитории: Патент подтверждает, что Яндекс анализирует интересы пользователей на основе их активности вне вашего сайта (история браузинга). SEO-стратегия должна учитывать весь путь пользователя и его общие интересы.

Worst practices (это делать не надо)

Изолированное продвижение товара (MPO): Концентрация усилий только на продаже одного товара без учета его связей с комплементарными продуктами снижает шансы на получение дополнительной видимости через систему рекомендаций.
Накрутка совместных покупок (MPO): Попытки искусственно завысить Mutual Popularity Score через фейковые заказы рискованны и могут привести к санкциям.
Игнорирование персонализации (SEO и MPO): Ошибочно предполагать, что все пользователи видят одинаковую выдачу или одинаковые рекомендации. Патент направлен на то, чтобы заменить популярность персонализированной релевантностью.

Стратегическое значение

Патент демонстрирует стратегический приоритет Яндекса на максимизацию эффективности своих платформ за счет сложной персонализации. Он раскрывает техническую инфраструктуру, которую Яндекс построил для отслеживания и моделирования поведения пользователей в интернете (включая использование эмбеддингов типа site2vec и моделей типа CatBoost). Эти данные используются для динамической адаптации пользовательского опыта и показывают высокий уровень зрелости Яндекса в области Data Science и ML.

Практические примеры

Примеры ниже иллюстрируют работу алгоритма в контексте E-commerce (Яндекс.Маркет), как описано в патенте.

Сценарий: Оптимизация листинга HDMI-кабеля на Яндекс.Маркете.

Цель: Добиться того, чтобы HDMI-кабель рекомендовался при покупке телевизоров.
Действие (Оптимизация совместных покупок):
- Проанализировать, какие модели телевизоров наиболее популярны.
- В описании HDMI-кабеля указать совместимость с этими моделями и сценарии использования (например, подключение игровых консолей).
- Если платформа позволяет, предложить скидку при покупке кабеля вместе с телевизором (бандл) для стимулирования совместных покупок и повышения Mutual Popularity Score.
Понимание работы персонализации:
- Пользователь А покупает ТВ. Его история браузинга показывает частые посещения игровых сайтов, а на его устройстве установлены игровые приложения. Система (используя Model 1 и Model 2) определит высокий User-Specific Ranking Parameter для игровых консолей и HDMI-кабеля.
- Пользователь Б покупает тот же ТВ. Его профиль указывает на пожилой возраст и интересы, связанные с садоводством. Система может понизить кабель и консоли, и вместо этого порекомендовать кронштейн для крепления на стену, если он имеет более высокий предсказанный интерес для данного профиля.

Вопросы и ответы

Этот патент описывает алгоритмы ранжирования основного веб-поиска Яндекса?

Нет. Патент явно указывает, что он относится к Online Listing Platform, то есть к маркетплейсам (например, Яндекс.Маркет). Описанные механизмы используются для генерации товарных рекомендаций внутри этой платформы, а не для ранжирования сайтов в веб-поиске.

Что такое Mutual Popularity Score и почему это важно?

Mutual Popularity Score — это метрика, показывающая, как часто два товара покупают вместе. Это критически важный показатель, так как он определяет первый этап отбора кандидатов для рекомендации. Если ваш товар никогда не покупают вместе с другим товаром, он не будет ему рекомендован, независимо от качества персонализации.

Какие данные Яндекс собирает о пользователях согласно этому патенту?

Патент раскрывает очень широкий спектр собираемых данных. К ним относятся Device ID Data (модель устройства, география, установленные приложения) и User ID Data (предполагаемый возраст, пол, доход, а также история посещения предопределенного набора внешних веб-сайтов). Это подтверждает наличие у Яндекса инфраструктуры для глубокого кросс-сайтового профилирования.

Как устроена система машинного обучения для персонализации?

Используется многоуровневая архитектура. Одна модель (Model 1) анализирует данные устройства. Другая модель (Model 2) анализирует данные поведения и демографии. Обе модели обучаются независимо. Затем их результаты объединяются (конкатенируются), часто с помощью третьей модели (Model 3, например, CatBoost), для вычисления финального User-Specific Ranking Parameter.

Что означает использование site2vec, упомянутое в патенте?

Site2vec — это алгоритм, который позволяет создать векторное представление (эмбеддинг) пользователя на основе истории посещенных им сайтов. Использование этого алгоритма означает, что Яндекс конвертирует последовательность посещенных URL в компактный числовой вектор, который затем используется как признак в модели машинного обучения для предсказания интересов пользователя.

Если мой товар самый популярный аксессуар к другому товару, гарантирует ли это показ в рекомендациях?

Нет, не гарантирует. Высокий Mutual Popularity Score гарантирует попадание в список кандидатов (Этап 1). Однако на Этапе 2 система применяет персонализацию. Если система решит, что ваш товар не интересен конкретному пользователю (на основе его профиля), он будет понижен в рекомендациях в пользу менее популярных, но более релевантных для данного пользователя товаров.

Как SEO-специалист или продавец на маркетплейсе может повлиять на работу этого алгоритма?

Ключевая стратегия — стимулирование совместных покупок для повышения Mutual Popularity Score. Это включает создание бандлов (комплектов), улучшение описаний товаров с упоминанием комплементарных позиций и сценариев использования. Повлиять на персонализацию сложнее, но можно обеспечить привлекательность товара для широкой аудитории.

Может ли информация из этого патента помочь в продвижении обычного интернет-магазина в веб-поиске?

Прямых рекомендаций для веб-SEO здесь нет. Однако патент полезен для понимания того, насколько глубоко Яндекс профилирует пользователей и как он использует поведенческие данные (включая внешнюю историю браузинга). Это подчеркивает важность работы над поведенческими факторами и учетом возможной персонализации выдачи в веб-поиске.

Что означает независимое обучение моделей (Model 1 и Model 2)?

Это означает, что модель, анализирующая данные устройства, обучается без доступа к данным о поведении пользователя, и наоборот. Такой подход позволяет создавать специализированные модели для разных типов данных. Объединение сигналов происходит только на финальном этапе через Model 3.

Используется ли CatBoost в этой системе?

Да, CatBoost упоминается в патенте как пример реализации третьей модели (Model 3), которая отвечает за объединение сигналов от первых двух моделей и вычисление финального параметра ранжирования (User-Specific Ranking Parameter).