Как Яндекс персонализирует товарные рекомендации на основе взаимной популярности товаров и данных о пользователе

Яндекс патентует метод для персонализации товарных рекомендаций на e-commerce платформе. Система сначала определяет товары, которые часто покупают вместе (оценка взаимной популярности). Затем она ранжирует эти товары для конкретного пользователя, используя модели машинного обучения, которые учитывают его социально-демографические характеристики, историю просмотров и данные об устройстве.

Описание

Какую задачу решает

Патент решает задачу повышения релевантности товарных рекомендаций на платформе для онлайн-торговли (например, Яндекс Маркет). Проблема заключается в том, что стандартные рекомендации, основанные только на том, что часто покупают вместе, могут быть нерелевантны интересам, контексту или профилю конкретного пользователя. Изобретение улучшает пользовательский опыт и конверсию за счет глубокой персонализации рекомендательного блока. Оно не направлено на устранение SEO-манипуляций в веб-поиске.

Что запатентовано

Запатентована двухэтапная система генерации персонализированных товарных рекомендаций. На первом этапе система определяет набор кандидатов на основе оценки взаимной популярности (частоты совместной покупки товаров). На втором этапе эти кандидаты переранжируются с использованием алгоритма машинного обучения (MLA), который учитывает разнообразные пользовательские данные (социально-демографические характеристики, историю просмотров, данные устройства) для предсказания интереса конкретного пользователя.

Как это работает

Когда пользователь выбирает товар (данный товар), система сначала находит товары, которые исторически часто покупались вместе с ним. Это формирует первичный набор рекомендаций. Затем система собирает данные о пользователе. MLA анализирует эти данные и для каждого товара-кандидата вычисляет параметр ранжирования для конкретного пользователя — вероятность того, что товар заинтересует пользователя. Товары сортируются по этому параметру, и лучшие из них показываются пользователю.

Актуальность для SEO

Высокая (для E-commerce). Персонализация рекомендаций с использованием машинного обучения и агрегации различных пользовательских сигналов является стандартом в современных рекомендательных системах и критически важна для платформ онлайн-торговли.

Важность для SEO

Влияние на SEO минимальное (2/10). Патент описывает внутренние механизмы рекомендательной системы e-commerce платформы (например, Яндекс Маркет), а не алгоритмы ранжирования сайтов в органическом веб-поиске Яндекса. Он не дает прямых рекомендаций для SEO веб-сайтов. Однако он имеет высокое значение для оптимизации товарных листингов внутри самой платформы (Marketplace Optimization) и дает представление о технологиях персонализации, которые использует Яндекс.

Детальный разбор

Термины и определения

MLA (Алгоритм машинного обучения): Модель машинного обучения, используемая для персонализации рекомендаций. Может состоять из нескольких подмоделей (например, первая модель для данных просмотров, вторая модель для данных устройства).
Данные пользовательского устройства (User device data): Информация об устройстве пользователя: модель, производитель, географические данные, данные об установленных приложениях.
Данные просмотров пользователем (User browsing data): История просмотров пользователем множества заранее определенных веб-ресурсов.
Данный товар (Given product): Товар, который пользователь просматривает или выбрал для покупки, и который инициирует запрос на рекомендации.
Оценка взаимной популярности (Mutual popularity score): Метрика, указывающая частоту появления пары товаров, выбранных предыдущими пользователями для одной покупки (co-purchase frequency). Основа для определения связанных товаров.
Параметр ранжирования для конкретного пользователя (User-specific ranking parameter): Выходное значение MLA. Указывает значение вероятности восприятия пользователем рекомендуемого товара в качестве представляющего интерес.
Платформа для онлайн-торговли (Online trading platform): E-commerce платформа или маркетплейс, где размещаются товары для продажи (например, Яндекс Маркет).
Пользовательские данные (User data): Совокупность информации о пользователе, используемая для персонализации. Включает социально-демографические характеристики, данные просмотров и данные устройства.

Ключевые утверждения (Анализ Claims)

Патент описывает способ рекомендации товаров на e-commerce платформе, основанный на двух ключевых компонентах: общей популярности совместных покупок и глубокой персонализации.

Claim 1 (Независимый пункт): Описывает основной процесс работы системы.

Система получает запрос на рекомендацию, инициированный пользователем, который выбрал данный товар.
Идентифицируется набор рекомендуемых товаров (кандидатов). Эта идентификация основана на оценках взаимной популярности между данным товаром и другими товарами.
Система получает пользовательские данные, связанные с текущим пользователем.
Для каждого товара-кандидата определяется параметр ранжирования для конкретного пользователя. Этот параметр указывает вероятность интереса пользователя к товару и рассчитывается на основе пользовательских данных.
Набор кандидатов ранжируется в соответствии с этими параметрами, создавая ранжированный набор.
Выбирается по меньшей мере один товар из ранжированного набора для показа пользователю.

Claim 3 (Зависимый от 1): Уточняет метод выбора кандидатов.

Идентификация набора рекомендуемых товаров может включать ранжирование всех товаров по их оценке взаимной популярности относительно данного товара и выбор заранее определенного количества (Топ-N) товаров с наивысшими оценками.

Claim 4 (Зависимый от 1): Описывает модель данных.

Множество товаров может быть представлено в виде графа. Узлы — это товары. Ребро между двумя узлами представляет оценку взаимной популярности между ними. Идентификация кандидатов заключается в поиске узлов, соединенных с узлом данного товара (соседей в графе).

Claim 5 (Зависимый от 1): Уточняет механизм персонализации.

Определение параметра ранжирования для конкретного пользователя выполняется с помощью алгоритма машинного обучения (MLA), обученного на пользовательских данных.

Claims 6 и 7 (Зависимые от 1 и 6): Уточняют типы пользовательских данных.

Пользовательские данные включают социально-демографические характеристики: возраст, пол, статус занятости, средний доход пользователя.

Claim 8 (Зависимый от 5): Описывает архитектуру MLA (Двухмодельный подход).

MLA может включать две модели:

Первая модель обучена определять вероятность интереса на основе данных просмотров пользователем (Claim 11 уточняет: просмотры заранее определенных веб-ресурсов).
Вторая модель обучена определять вероятность интереса на основе данных пользовательского устройства (Claim 12 уточняет: модель, производитель, геоданные, установленные приложения).

Финальный параметр ранжирования определяется путем объединения значений вероятности от первой и второй моделей.

Claim 9 (Зависимый от 8): Уточняет метод объединения.

Значениям вероятности от первой и второй моделей могут быть присвоены соответствующие заранее определенные весовые значения (взвешенное объединение).

Где и как применяется

Важно понимать, что этот патент НЕ применяется к стандартной архитектуре веб-поиска Яндекс (CRAWLING, INDEXING, RANKING веб-страниц). Он описывает алгоритм, работающий исключительно внутри инфраструктуры Платформы для онлайн-торговли (например, Яндекс Маркет).

E-commerce Platform – Recommendation Engine

Алгоритм применяется в рекомендательном движке платформы, который отвечает за генерацию блоков типа «С этим товаром часто покупают» или «Вам также может понравиться».

Взаимодействие компонентов:

Product Catalog & Co-purchase Graph: Хранит данные о товарах и оценки взаимной популярности (рассчитанные офлайн). Используется на этапе выбора кандидатов.
User Profile Database: Предоставляет данные о пользователе (соцдем, история просмотров, данные устройства), собранные экосистемой Яндекс.
Personalization Service (MLA): Принимает кандидатов и данные пользователя, возвращает персонализированные оценки (параметры ранжирования).

Входные данные: ID текущего товара (Данный товар), ID пользователя.

Выходные данные: Ранжированный список ID рекомендуемых товаров.

На что влияет

Конкретные типы контента: Влияет исключительно на видимость товарных карточек (листингов) в рекомендательных блоках на e-commerce платформе.
Конкретные ниши или тематики: Применяется ко всем категориям товаров на платформе (E-commerce).
Не влияет на ранжирование информационных статей, новостей или любых других типов контента в общем веб-поиске Яндекса.

Когда применяется

Триггеры активации: Алгоритм активируется, когда пользователь взаимодействует с товаром на платформе — например, просматривает карточку товара или добавляет его в корзину (в патенте: «пользователем, указавшим данный товар для покупки»).
Частота применения: Применяется в реальном времени при каждом запросе на генерацию рекомендаций. Однако базовые данные (оценки взаимной популярности) и модели (MLA) обновляются офлайн с заданной частотой (Claim 13).

Пошаговый алгоритм

Этап 0: Офлайн подготовка

Расчет взаимной популярности: Анализ исторических данных о покупках. Для каждой пары товаров вычисляется оценка взаимной популярности (частота совместной покупки). Данные могут быть представлены в виде графа.
Обучение MLA: Обучение моделей машинного обучения (Первая и Вторая модели) предсказывать вероятность интереса пользователя к товару на основе его данных просмотров и данных устройства. Модели обучаются независимо (Claim 10).

Этап 1: Обработка запроса (Онлайн)

Прием запроса: Пользователь выбирает Данный товар.
Идентификация кандидатов (Recall/Candidate Generation): Система находит товары, связанные с Данным товаром, используя оценки взаимной популярности. Например, выбирается Топ-N товаров с наивысшими оценками (соседи в графе).
Получение пользовательских данных: Извлечение данных о текущем пользователе (соцдем, история просмотров, данные устройства).
Персонализация и Скоринг (Ranking): Применение MLA к каждому кандидату.
- Первая модель вычисляет вероятность P1 на основе данных просмотров.
- Вторая модель вычисляет вероятность P2 на основе данных устройства.
Объединение оценок: Вычисление финального Параметра ранжирования для конкретного пользователя путем объединения P1 и P2 (например, с использованием весовых коэффициентов).
Ранжирование: Сортировка набора рекомендуемых товаров по финальному параметру.
Выбор и Представление: Выбор лучших товаров и отправка их на устройство пользователя.

Какие данные и как использует

Данные на входе

Система использует три основных типа данных. Контентные, ссылочные или технические факторы веб-сайтов в этом патенте не упоминаются.

1. Исторические данные о транзакциях (Поведенческие факторы):

Исторические данные предыдущих пользователей: Логи покупок, которые фиксируют, какие товары были куплены вместе в рамках одной транзакции. Это основа для расчета взаимной популярности.

2. Данные о поведении пользователя (Поведенческие факторы):

Данные просмотров пользователем: История посещений пользователем множества заранее определенных веб-ресурсов (вероятно, ресурсы Яндекса и партнерской сети РСЯ). Используются Первой моделью MLA.

3. Данные профиля и устройства пользователя (Пользовательские факторы):

Социально-демографические характеристики: Возраст, пол, статус занятости, средний доход.
Данные пользовательского устройства: Модель и производитель устройства.
Географические факторы: Географические данные от устройства (локация).
Данные приложений: Данные о приложениях, установленных на устройстве.

Какие метрики используются и как они считаются

Оценка взаимной популярности: Метрика, указывающая частоту совместной покупки пары товаров. Формула расчета не приводится, но она основана на анализе исторических транзакций.
Параметр ранжирования для конкретного пользователя: Вероятностная оценка интереса пользователя к товару. Рассчитывается с помощью MLA.
Алгоритм машинного обучения (MLA): Используется для расчета персонализированной оценки. Патент описывает возможность использования двух независимых моделей (для данных просмотров и данных устройства), результаты которых объединяются.
Весовые значения (Weights): Используются для объединения оценок от разных моделей MLA (Claim 9), позволяя настроить важность данных просмотров относительно данных устройства.

Выводы

Патент не относится к веб-поиску: Это изобретение описывает внутренний алгоритм рекомендаций на e-commerce платформе (например, Яндекс Маркет) и не имеет прямого отношения к ранжированию сайтов в органическом поиске Яндекса.
Двухэтапная архитектура рекомендаций: Яндекс использует классический подход: сначала быстрый отбор кандидатов на основе общих паттернов (Recall, co-purchase data), затем точное ранжирование на основе глубокой персонализации (Ranking, MLA).
Глубокая и разнообразная персонализация: Патент демонстрирует, что Яндекс агрегирует и использует широкий спектр данных для персонализации: социально-демографические данные (возраст, доход), историю браузинга (посещенные сайты) и данные с устройства (модель, география, установленные приложения).
Модульная архитектура MLA: Использование отдельных моделей для разных типов данных (браузинг vs устройство) с последующим взвешенным объединением обеспечивает гибкость системы и позволяет независимо обучать и настраивать влияние разных групп факторов.
Взаимная популярность как основа: Фундаментом для рекомендаций является граф совместных покупок. Персонализация работает только с теми товарами, которые уже доказали свою связь с исходным товаром на основе исторических данных.

Практика

Best practices (это мы делаем)

Для специалистов по общему веб-поиску (SEO) этот патент не дает прямых практических рекомендаций. Однако для специалистов по E-commerce и оптимизации на маркетплейсах (например, Яндекс Маркет) выводы значительны:

Стимулирование совместных покупок (Cross-Sell): Активно работайте над стратегиями бандлирования (наборов) и кросс-продаж. Чем чаще ваш товар покупают вместе с другими популярными товарами, тем выше его оценка взаимной популярности, и тем чаще он будет попадать в первичный набор кандидатов для рекомендаций.
Понимание целевой аудитории: Персонализация основана на социально-демографических данных и интересах (история просмотров). Убедитесь, что ваш товар и его описание соответствуют профилю пользователей, которым он может быть рекомендован. Например, премиальные товары будут активнее рекомендоваться пользователям с высоким доходом и соответствующей историей просмотров.
Оптимизация товарного фида: Обеспечьте максимальную точность и полноту данных в товарном фиде, чтобы система могла корректно идентифицировать товар и связать его в графе взаимной популярности.

Worst practices (это делать не надо)

Игнорирование внутренних инструментов платформы: Полагаться только на органический трафик из веб-поиска и игнорировать оптимизацию под внутренние механизмы маркетплейса (поиск по Маркету и рекомендательные блоки) — значит терять значительную часть потенциальных продаж.
(Предположение) Манипуляции с совместными покупками: Попытки искусственно накрутить оценки взаимной популярности путем фейковых совместных покупок могут быть рискованными, если платформа имеет механизмы обнаружения мошенничества.

Стратегическое значение

Патент подтверждает стратегический фокус Яндекса на глубокой персонализации пользовательского опыта. Он демонстрирует технические возможности Яндекса по сбору и интерпретации разнородных пользовательских сигналов, включая данные о поведении вне платформы (история просмотров веб-ресурсов) и данные об устройстве (включая установленные приложения). Хотя этот патент специфичен для e-commerce, он показывает уровень развития технологий персонализации в Яндексе, которые, вероятно, в той или иной форме используются и в других сервисах, включая веб-поиск.

Практические примеры

Сценарий: Персонализация рекомендации аксессуара

Действие пользователя: Пользователь А просматривает товар «Смартфон X».
Выбор кандидатов (Этап 1): Система определяет, что со Смартфоном X часто покупают: «Чехол Базовый» (Оценка популярности 0.8) и «Чехол Премиум» (Оценка популярности 0.6). Оба попадают в кандидаты.
Анализ пользователя А: Система извлекает данные: Мужчина, 35 лет, Доход: Высокий (Соцдем). История просмотров: сайты luxury брендов, автообзоры (Данные просмотров). Устройство: Последняя модель iPhone, установлено приложение банка Топ-5 (Данные устройства).
Скоринг (Этап 2, MLA):
- «Чехол Базовый»: MLA предсказывает низкую вероятность интереса (Параметр ранжирования 0.3), так как профиль пользователя указывает на предпочтение дорогих товаров.
- «Чехол Премиум»: MLA предсказывает высокую вероятность интереса (Параметр ранжирования 0.9).
Результат: «Чехол Премиум» будет показан выше в рекомендациях, чем «Чехол Базовый», несмотря на то, что его общая оценка взаимной популярности ниже.

Вопросы и ответы

Этот патент описывает, как Яндекс ранжирует сайты в поиске?

Нет. Этот патент описывает исключительно алгоритм генерации товарных рекомендаций на платформе для онлайн-торговли (например, Яндекс Маркет). Он не имеет прямого отношения к алгоритмам ранжирования веб-сайтов в органической выдаче Яндекса. Механизмы, описанные здесь, касаются блоков типа «С этим товаром покупают».

Какое значение этот патент имеет для SEO-специалиста?

Для классического SEO значение минимально. Однако патент очень важен для специалистов, занимающихся продвижением товаров на маркетплейсах (Marketplace Optimization). Он раскрывает, как формируются рекомендации и какие факторы влияют на попадание товара в эти блоки, подчеркивая важность совместных покупок и персонализации.

Что такое «Оценка взаимной популярности»?

Это метрика, которая показывает, насколько часто два товара покупаются вместе в рамках одной транзакции предыдущими пользователями. Если пользователи часто покупают молоко и хлеб одновременно, у этой пары будет высокая оценка взаимной популярности. Эта оценка является основой для выбора кандидатов на рекомендацию.

Как работает персонализация в этом патенте?

Персонализация работает на втором этапе. Сначала система отбирает популярные сопутствующие товары. Затем алгоритм машинного обучения (MLA) анализирует данные о конкретном пользователе (его соцдем профиль, историю просмотров, данные устройства) и предсказывает, какие из этих сопутствующих товаров с наибольшей вероятностью его заинтересуют. Товары переранжируются на основе этой вероятности.

Какие данные о пользователе Яндекс использует для персонализации рекомендаций?

Патент упоминает три группы данных: 1) Социально-демографические характеристики (возраст, пол, доход, занятость). 2) Данные просмотров (история посещения различных веб-ресурсов). 3) Данные устройства (модель, производитель, геолокация, установленные приложения). Это указывает на очень глубокий уровень профилирования пользователей.

Что означает двухмодельная архитектура MLA (Claim 8)?

Это означает, что система может использовать две независимые модели машинного обучения для персонализации. Одна модель анализирует только историю просмотров пользователя, а вторая — только данные его устройства. Затем результаты обеих моделей объединяются (например, с использованием весов) для получения финальной оценки. Это делает систему более гибкой.

Как я могу повлиять на то, чтобы мой товар чаще рекомендовали?

Основной способ повлиять на это — увеличить частоту совместных покупок вашего товара с другими товарами (улучшить «Оценку взаимной популярности»). Это достигается через стратегии кросс-продаж, создание наборов (бандлов) и грамотное управление ассортиментом. Также важно, чтобы ваш товар соответствовал профилю целевой аудитории, так как персонализация может отфильтровать его, если он не подходит пользователю по статусу или интересам.

Использует ли Яндекс данные о моих доходах и установленных приложениях в веб-поиске?

Этот патент подтверждает, что Яндекс собирает и использует такие данные (средний доход, установленные приложения) для персонализации товарных рекомендаций на своей e-commerce платформе. Хотя мы не можем утверждать на основе только этого патента, что эти же данные используются в веб-поиске, он демонстрирует техническую возможность Яндекса обрабатывать такие сигналы для персонализации.

Что такое представление товаров в виде графа (Claim 4)?

Это способ моделирования ассортимента, где каждый товар является узлом (вершиной) графа, а связь (ребро) между двумя товарами отражает их оценку взаимной популярности (насколько часто их покупают вместе). Поиск рекомендаций в такой модели сводится к поиску ближайших соседей для узла исходного товара.

Может ли товар с низкой общей популярностью быть рекомендован?

Да, если он часто покупается вместе с текущим товаром (высокая взаимная популярность) И если модель персонализации (MLA) определит, что он с высокой вероятностью заинтересует конкретного пользователя, исходя из его профиля и истории поведения.