Как Яндекс использует данные об устройстве и историю браузера для глубокой персонализации товарных рекомендаций в E-commerce

Яндекс патентует метод персонализации товарных рекомендаций на E-commerce платформах (например, Яндекс.Маркет). Система сначала определяет товары, которые часто покупают вместе (Взаимная Популярность). Затем она использует две отдельные ML-модели для оценки интереса пользователя: одна анализирует историю браузера и демографию, другая — данные устройства (модель, приложения, гео). Результаты объединяются (например, через CatBoost) для финального ранжирования.

Описание

Какую задачу решает

Патент решает задачу повышения релевантности товарных рекомендаций на платформах онлайн-торговли. Стандартные рекомендации, основанные только на схожести товаров или общей популярности, могут не соответствовать интересам конкретного пользователя. Изобретение направлено на повышение качества персонализации за счет использования глубокого профилирования пользователя, что улучшает пользовательский опыт и потенциально увеличивает средний размер покупки на платформе.

Что запатентовано

Запатентован способ и система для персонализированного ранжирования товарных рекомендаций в E-commerce. Суть изобретения заключается в использовании многокомпонентного Алгоритма Машинного Обучения (MLA), который оценивает вероятность интереса пользователя на основе двух независимых источников данных: истории поведения в сети (данные просмотров) и характеристик его устройства. Этот персонализированный скоринг применяется к товарам, предварительно отобранным по принципу частоты совместных покупок (Оценка взаимной популярности).

Как это работает

Система работает в два этапа. Сначала, когда пользователь проявляет намерение купить товар (например, кладет в корзину), система идентифицирует кандидатов — товары, которые часто покупали вместе с этим товаром. Затем происходит персонализация. Система собирает данные о пользователе (история просмотров, демография) и его устройстве (модель, приложения, гео),. Эти данные преобразуются в Векторы признаков. Две независимые ML-модели обрабатывают эти векторы: одна оценивает вероятность интереса на основе поведения, другая — на основе устройства. Финальный этап объединяет эти две оценки (например, с помощью третьей модели, такой как CatBoost) для расчета финального Параметра ранжирования для конкретного пользователя и ранжирования кандидатов.

Актуальность для SEO

Высокая. Глубокая персонализация является ключевым фактором эффективности современных E-commerce платформ. Использование данных из всей экосистемы Яндекса (Браузер, Почта и т.д.) и детальных характеристик устройств для повышения релевантности коммерческих предложений соответствует текущим стратегиям компании и трендам индустрии.

Важность для SEO

Влияние на традиционное SEO (Web Search) минимально (1/10). Патент не описывает ранжирование в веб-поиске, а фокусируется на внутренних механизмах рекомендаций E-commerce платформы. Однако влияние на E-commerce SEO (оптимизацию внутри маркетплейсов, например, Яндекс.Маркет) значительно (8/10). Патент раскрывает, что видимость товара в рекомендациях зависит как от истории совместных покупок, так и от глубокой персонализации на основе внешних поведенческих данных и данных устройства.

Детальный разбор

Термины и определения

Алгоритм машинного обучения (MLA): Основной алгоритм системы, используемый для персонализированного ранжирования. Состоит из Первой, Второй и, возможно, Третьей моделей.
Вектор признаков устройства (Device Feature Vector): Численное представление (эмбеддинг) данных об устройстве пользователя (модель, производитель, установленные приложения, география), полученное с помощью алгоритма извлечения признаков.
Вектор признаков пользователя (User Feature Vector): Численное представление (эмбеддинг) данных о пользователе (история просмотров, социально-демографические характеристики), полученное с помощью алгоритма извлечения признаков (например, site2vec).
Оценка взаимной популярности ($P_{i}$): Метрика, указывающая частоту, с которой два товара выбирались предыдущими пользователями для одной покупки (совместная покупка/помещение в корзину). Используется для отбора кандидатов.
Параметр ранжирования для конкретного пользователя ($R\{r_{j}\}$): Финальная оценка, указывающая значение вероятности того, что пользователь воспримет данный рекомендуемый товар как представляющий для него интерес. Используется для финального ранжирования.
Первая модель (Model 1) и Вторая модель (Model 2): Компоненты MLA, обученные независимо. Они предсказывают вероятность интереса на основе разных наборов данных. (См. Анализ Claims ниже для обсуждения неоднозначности их определений в патенте).
Третья модель (Model 3 / CatBoost): Опциональный компонент MLA, используемый для объединения выходов Первой и Второй моделей. В патенте в качестве примера реализации упоминается CatBoost.
site2vec: Алгоритм извлечения признаков пользователя, упомянутый в патенте как способ генерации User Feature Vector на основе истории посещения веб-сайтов.

Ключевые утверждения (Анализ Claims)

Патент защищает метод персонализации рекомендаций, основанный на раздельном анализе данных устройства и данных поведения пользователя.

Важное замечание о неоднозначности (Internal Contradiction):
В тексте патента присутствует внутренняя противоречивость в определении Первой и Второй моделей. Мы обязаны следовать определениям, данным в Формуле изобретения (Claims), так как они определяют ядро изобретения.

Определение согласно Claim 1 и: Первая модель обучается на основе данных просмотров пользователя; Вторая модель обучается на основе данных пользовательского устройства.
Определение согласно Детальному Описанию ([0109],) и Фигурам 5, 6: Первая модель (502) использует вектор признаков устройства (420); Вторая модель (602) использует вектор признаков пользователя (422).

Анализ ниже следует определению из Claim 1.

Claim 1 (Независимый пункт): Описывает основной способ работы системы.

Система получает запрос на рекомендацию (например, пользователь добавил товар в корзину). В базе хранятся товары и их оценки взаимной популярности.
Идентификация кандидатов: Отбирается набор рекомендуемых товаров на основе частоты совместных покупок с исходным товаром.
Получение пользовательских данных: Собираются данные просмотров и данные устройства.
Определение параметра ранжирования для конкретного пользователя (вероятности интереса) с помощью MLA. Этот этап включает ключевые механизмы изобретения:
- Используется MLA, состоящий из Первой и Второй моделей.
- Генерируются Вектор признаков пользователя (из данных просмотров) и Вектор признаков устройства (из данных устройства).
- Первая модель (обученная на данных просмотров) принимает Вектор признаков пользователя и генерирует Первое значение вероятности.
- Вторая модель (обученная на данных устройства) принимает Вектор признаков устройства и генерирует Второе значение вероятности.
- Эти два значения вероятности объединяются.
Ранжирование набора кандидатов в соответствии с объединенным параметром ранжирования.
Выбор и передача пользователю наиболее рекомендуемого товара.

Claim 13 (Независимый пункт): Описывает систему (сервер, процессор, запоминающее устройство), сконфигурированную для выполнения метода, аналогичного Claim 1. Он подтверждает те же ключевые этапы: отбор кандидатов по взаимной популярности и персонализированное ранжирование с использованием двух раздельных моделей и векторизации признаков.

Где и как применяется

Этот патент не относится к архитектуре Веб-Поиска Яндекса (CRAWLING, INDEXING, RANKING веб-страниц). Он описывает работу Рекомендательной Системы (Recommendation Engine) в рамках Платформы для онлайн-торговли (E-commerce platform), такой как Яндекс.Маркет.

Этапы применения в E-commerce:

1. Офлайн-обработка данных и обучение моделей

Расчет взаимной популярности: Анализ исторических данных о покупках для построения графа совместных покупок и расчета Оценок взаимной популярности ($P_{i}$).
Сбор и векторизация данных: Сбор данных об устройствах и поведении пользователей из экосистемы Яндекса (Браузер, Почта, Паспорт) и сторонних источников (упоминается VK.COM). Применение алгоритмов (например, site2vec) для создания Векторов признаков.
Обучение MLA: Независимое обучение Первой и Второй моделей. Обучение Третьей модели (например, CatBoost) для их объединения.

2. Онлайн-обработка запроса на рекомендацию

Триггер: Взаимодействие пользователя с товаром (например, добавление в корзину).
Отбор кандидатов (Retrieval): Быстрый отбор набора рекомендуемых товаров на основе предварительно рассчитанных Оценок взаимной популярности.
Извлечение признаков (Feature Extraction): Получение актуальных векторов признаков пользователя и устройства.
Ранжирование (Ranking/Scoring): Применение MLA (Модели 1, 2 и 3) для расчета Параметра ранжирования для конкретного пользователя для каждого кандидата.
Выдача: Отображение топ-N рекомендаций пользователю.

На что влияет

Конкретные типы контента: Влияет исключительно на товарные карточки (SKU) на платформе онлайн-торговли.
Специфические запросы: Применяется не к поисковым запросам, а к запросам на рекомендацию, инициированным действиями пользователя (например, добавление в корзину). Влияет на блоки типа «С этим товаром покупают».
Конкретные ниши или тематики: Влияет на все категории товаров, доступные на платформе.

Когда применяется

Триггеры активации: Запрос рекомендаций по товарам, инициированный пользователем, указавшим данный товар для покупки (например, помещение в корзину).
Условия работы: Наличие исторических данных о совместных покупках для отбора кандидатов и доступность данных об устройстве и/или поведении текущего пользователя для персонализации.
Временные рамки: Применяется в реальном времени. Однако модели могут переобучаться с заданной частотой (например, ежедневно, еженедельно). Патент также упоминает возможность отложенного представления рекомендаций.

Пошаговый алгоритм

Примечание: Алгоритм следует определениям Моделей из Claim 1 (Модель 1=Поведение, Модель 2=Устройство), несмотря на противоречия в основном описании патента.

Прием запроса: Получение запроса на рекомендацию, инициированного пользователем, указавшим Товар А для покупки.
Идентификация кандидатов: Отбор набора рекомендуемых товаров, которые имеют высокие Оценки взаимной популярности с Товаром А.
Получение и обработка пользовательских данных:
- Получение идентификатора устройства и идентификатора учетной записи пользователя.
- Запрос данных у поставщика системы устройств и аффилированных приложений (Яндекс.Браузер, VK и т.д.).
Извлечение признаков (Векторизация):
- Генерация Вектора признаков пользователя (из данных просмотров, например, с помощью site2vec).
- Генерация Вектора признаков устройства (из данных устройства).
Расчет промежуточных оценок (Scoring):
- Применение Первой модели: Вход (Вектор признаков пользователя, Кандидаты) -> Выход (Первый массив вероятностей $R_{1}$).
- Применение Второй модели: Вход (Вектор признаков устройства, Кандидаты) -> Выход (Второй массив вероятностей $R_{2}$).
Объединение оценок: Объединение промежуточных оценок. Может использоваться взвешивание или Третья модель (например, CatBoost): Вход (Массивы $R_{1}$ и $R_{2}$, Векторы устройства и пользователя) -> Выход (Финальный Параметр ранжирования для конкретного пользователя $R$).
Ранжирование и Выбор: Ранжирование набора кандидатов по $R$. Выбор Топ-N товаров.
Представление: Передача выбранных рекомендаций на устройство пользователя.

Какие данные и как использует

Данные на входе

Система использует обширный набор данных, агрегированных из разных источников экосистемы Яндекса и данных устройств.

Поведенческие факторы (Глобальные): Исторические данные о покупках всех пользователей платформы. Ключевой фактор — совместное появление товаров в одной корзине/покупке.
Поведенческие факторы (Персональные / Данные просмотров):
- История просмотров пользователя на множестве заранее определенных веб-ресурсов.
- Статистика просмотров.
- Выявленные интересы пользователя (например, музыкальные предпочтения, используемые провайдеры).
Пользовательские факторы (Демография): Возраст, пол, статус занятости, средний доход (полученные из аффилированных сервисов, например, Яндекс.Паспорт или VK),.
Технические факторы (Данные устройства):
- Идентификатор устройства (IDFA, Google Ad ID, MAC-адрес).
- Модель и производитель устройства.
- Данные приложений, установленных на устройстве.
Географические факторы: Географические данные от электронного устройства (например, основная область использования).

Какие метрики используются и как они считаются

Оценка взаимной популярности ($P_{i}$): Рассчитывается офлайн на основе частоты совместных покупок пар товаров.
Векторы признаков (Device/User Feature Vectors): Генерируются путем применения алгоритмов извлечения признаков (эмбеддингов) к сырым данным. Для User Feature Vector упомянут алгоритм site2vec.
Промежуточные вероятности ($R_{1}, R_{2}$): Рассчитываются Первой и Второй моделями (вероятно, нейронными сетями) на основе соответствующих векторов признаков. Указывают вероятность интереса пользователя к товару с точки зрения данных поведения ($R_{1}$) и устройства ($R_{2}$) (согласно Claim 1).
Параметр ранжирования для конкретного пользователя ($R$): Финальная метрика ранжирования. Рассчитывается путем объединения $R_{1}$ и $R_{2}$. В патенте описаны варианты объединения: использование весов или использование Третьей модели (например, CatBoost).

Выводы

Контекст патента — E-commerce, не Веб-поиск: Этот патент описывает систему товарных рекомендаций (например, для Яндекс.Маркета), а не алгоритмы ранжирования в основном поиске Яндекса. Выводы применимы к оптимизации внутри маркетплейсов.
Двухуровневая система рекомендаций: Система использует каскадный подход: (1) Отбор кандидатов на основе глобальной истории совместных покупок (Mutual Popularity), и (2) Глубокое персонализированное ранжирование на основе профиля пользователя.
Критичность совместных покупок: Если товар не имеет истории совместных покупок, он не попадет в набор кандидатов для рекомендации по этому алгоритму. Это ключевой фактор для E-commerce SEO.
Глубокая и раздельная персонализация: Яндекс использует детальные данные, разделяя их на два независимых потока: данные о поведении (история браузера, демография, интересы) и данные об устройстве (железо, софт, гео).
Использование экосистемных данных и Фингерпринтинг: Система активно использует данные из аффилированных сервисов (Яндекс.Браузер, Почта) и сторонних партнеров (упоминается VK.com), а также детальный фингерпринтинг устройства, включая установленные приложения.
Сложная архитектура ML: Используется многоступенчатая модель (векторизация с помощью site2vec -> две независимые модели -> модель-комбайнер CatBoost), что указывает на высокую сложность системы персонализации.

Практика

Best practices (это мы делаем)

Патент не дает прямых рекомендаций для традиционного веб-SEO. Рекомендации ниже применимы для SEO-специалистов, занимающихся продвижением на маркетплейсах (например, Яндекс.Маркет).

Стимулирование совместных покупок (Cross-Sell): Это критически важная стратегия. Необходимо активно работать над увеличением Оценки взаимной популярности, чтобы товар попадал в набор кандидатов для рекомендаций. Используйте скидки на комплекты, создавайте бандлы (bundles) и анализируйте покупательские корзины для выявления эффективных связей между товарами.
Анализ покупательской корзины: Изучайте, какие товары часто покупают вместе в вашей категории. Если вы продаете основной товар, рассмотрите возможность добавления в ассортимент сопутствующих товаров с высоким потенциалом совместной покупки.
Оптимизация под целевые сегменты аудитории: Понимайте, что система учитывает демографию, интересы (на основе истории браузера) и тип устройства пользователя. Убедитесь, что позиционирование, описание и цена товара соответствуют интересам и возможностям целевой аудитории, которая часто покупает основной товар. Система персонализации оценит это соответствие.

Worst practices (это делать не надо)

Изолированные продажи: Продажа товаров, которые не имеют естественных дополнений или которые сложно объединить в комплект, снижает вероятность их появления в рекомендациях по этому алгоритму.
Игнорирование персонализации: Рассчитывать только на общую популярность товара неэффективно. Финальное ранжирование агрессивно персонализируется на основе профиля пользователя, который может сильно отличаться от среднестатистического.
Манипуляции с совместными покупками: Попытки искусственно накрутить совместные покупки могут быть рискованными, так как система использует сложные ML-модели (включая CatBoost) и анализирует профили покупателей, что позволяет выявлять аномалии в поведении.

Стратегическое значение

Патент подтверждает стратегический приоритет Яндекса на использование всей доступной экосистемы данных для максимизации эффективности своих коммерческих платформ. Он демонстрирует, как поведение пользователя в одном сервисе (например, Яндекс.Браузере) напрямую влияет на ранжирование в другом (например, Яндекс.Маркете). Для E-commerce SEO это подчеркивает переход от простой оптимизации листинга к управлению поведением покупателей и пониманию их глобального цифрового профиля.

Практические примеры

Сценарий: Продвижение нового чехла для популярного смартфона на Яндекс.Маркете.

Задача: Попасть в блок рекомендаций на карточке смартфона.
Действие (Этап 1: Повышение Взаимной Популярности): Запустить акцию: скидка на новый чехол при покупке смартфона или при покупке комплекта «Чехол + Защитное стекло». Это повысит частоту совместных покупок и увеличит Оценку взаимной популярности чехла относительно смартфона.
Анализ (Этап 2: Персонализация): Понять целевую аудиторию. Например, смартфон бюджетный, покупается студентами (определяется Яндексом по истории браузера, доходу и возрасту).
Действие (Позиционирование): Убедиться, что цена и описание чехла соответствуют этому сегменту. Система персонализации (Модель 1, основанная на поведении) оценит вероятность интереса студента к этому чехлу выше, чем к дорогому кожаному аксессуару.
Результат: Чехол попадает в набор кандидатов благодаря совместным покупкам и получает высокий ранг в выдаче для целевого сегмента (студентов) благодаря персонализации.

Вопросы и ответы

Влияет ли этот патент на ранжирование сайтов в органическом поиске Яндекса?

Нет, прямого влияния нет. Патент явно описывает способ предоставления рекомендаций на «платформе для онлайн-торговли» (например, Яндекс.Маркет). Он регулирует ранжирование товаров в рекомендательных блоках (например, «С этим товаром покупают»), а не ранжирование веб-страниц в органической выдаче Яндекса.

Что такое «Оценка взаимной популярности» (Mutual Popularity Score) и почему она важна?

Это метрика, которая показывает, как часто два товара покупали вместе (или добавляли в одну корзину) предыдущие пользователи. Она критически важна, так как является первым фильтром для отбора кандидатов на рекомендацию. Если у товара нет истории совместных покупок с другими товарами, он не попадет в список для дальнейшего ранжирования и персонализации.

Как SEO-специалист может повлиять на «Оценку взаимной популярности»?

Основной способ влияния — это стимулирование совместных покупок (Cross-Sell). Для этого можно использовать маркетинговые инструменты маркетплейса: создание комплектов (bundles), предложение скидок при покупке нескольких товаров, акции типа «купи А и получи скидку на Б». Цель состоит в том, чтобы увеличить частоту появления вашего товара в корзине вместе с другими популярными товарами.

Какие данные Яндекс использует для персонализации рекомендаций согласно патенту?

Яндекс использует два основных блока данных. Первый — Данные поведения и профиля: история просмотров в браузере (посещенные сайты), социально-демографические данные (возраст, пол, доход) и выявленные интересы. Второй — Данные устройства: модель, производитель, география и список установленных приложений. Эти данные собираются из экосистемы Яндекса и от партнеров.

В чем особенность архитектуры машинного обучения (MLA) в этом патенте?

Особенность в раздельной обработке данных. Система использует две независимые модели. Согласно Claim 1, Первая модель анализирует данные поведения (просмотров), а Вторая — данные устройства. Затем их оценки объединяются (например, с помощью Третьей модели, такой как CatBoost). Это позволяет более точно улавливать сигналы из разных источников данных.

Что такое Вектор признаков пользователя и как он создается?

Это численное представление (эмбеддинг) профиля пользователя, включающее его поведение и демографию. Он создается путем обработки сырых данных (например, истории посещения сайтов) с помощью специального алгоритма извлечения признаков. В патенте в качестве примера такого алгоритма упоминается site2vec.

Может ли популярный товар не быть рекомендован конкретному пользователю?

Да, это и есть цель изобретения. Если товар имеет высокую глобальную Оценку взаимной популярности, но профиль пользователя (его история браузера или данные устройства) указывает на низкую вероятность интереса (например, пользователь уже владеет аналогом, как в примере с телевизором и звуковой системой), система понизит его в ранжировании и предложит более релевантную альтернативу.

Используется ли CatBoost в этой системе?

Да, CatBoost явно упоминается в патенте. Он предлагается как возможная реализация Третьей модели, задача которой — объединить оценки вероятности, полученные от Первой и Второй моделей, для расчета финального параметра ранжирования.

Если мой товар новый и у него нет истории совместных покупок, он не будет рекомендоваться?

Согласно описанному в патенте алгоритму, для отбора кандидатов необходима история совместных покупок (Оценка взаимной популярности). Новый товар действительно столкнется с «проблемой холодного старта» в рамках именно этой системы рекомендаций. Для его продвижения необходимо как можно скорее набрать статистику совместных покупок.

Означает ли этот патент, что Яндекс следит за тем, какие приложения установлены на моем телефоне?

Да, согласно патенту,, система рекомендаций использует «данные приложений, установленных на электронном устройстве» как часть данных об устройстве. Эти данные используются одной из моделей MLA для оценки вероятности того, что пользователя заинтересует тот или иной товар.