Как Яндекс использует данные о поведении пользователей на одних ресурсах для ранжирования контента на других (Кросс-ресурсная персонализация)

Яндекс патентует механизм кросс-ресурсного ранжирования. Система анализирует, как пользователь (или похожие на него пользователи) взаимодействовал с другими ресурсами (например, поисковой выдачей), чтобы определить его предпочтения. Затем эти данные используются для персонализированного ранжирования элементов (новостей, товаров, стилей оформления) на текущем сайте, даже если пользователь посещает его впервые.

Описание

Какую задачу решает

Патент решает проблему «холодного старта» (cold start) при персонализации контента. Традиционные системы персонализации требуют истории взаимодействия пользователя с конкретным сайтом, чтобы понять его предпочтения, что не позволяет оптимизировать контент при первом посещении. Изобретение позволяет ранжировать элементы ресурса для нового пользователя, используя данные о его взаимодействии (или взаимодействии похожих пользователей) с другими, совершенно отличными ресурсами.

Что запатентовано

Запатентована система и метод кросс-ресурсного ранжирования. Суть изобретения заключается в использовании Ranking Server (Второй Сервер) для ранжирования элементов First Network Resource (Первого Сетевого Ресурса, например, новостного сайта), размещенного на First Server. Ранжирование основывается на Context Information, которая включает данные о прошлых взаимодействиях пользователя с Second Network Resource (Вторым Сетевым Ресурсом, например, поисковой системой). Ключевым механизмом является перенос знаний о предпочтениях (Relevancy Factor) от похожих пользователей (Second User) к текущему пользователю (First User).

Как это работает

Система работает как централизованный сервис ранжирования. Когда пользователь посещает Ресурс А (например, новостное приложение), этот ресурс отправляет запрос на Ranking Server, передавая идентификатор пользователя (например, настройки устройства) и элементы для ранжирования (например, новости). Ranking Server анализирует прошлое поведение этого пользователя на Ресурсе Б (например, в поиске Яндекса) и формирует First Context Information. Если данных недостаточно, система находит других пользователей (Second Users), чей контекст похож. Система извлекает известные предпочтения этих похожих пользователей (Relevancy Factor) и применяет их для ранжирования новостей на Ресурсе А для текущего пользователя.

Актуальность для SEO

Высокая. Кросс-платформенное отслеживание, персонализация и использование данных о поведении в поиске для рекомендательных систем (таких как Дзен и Новости) являются ключевыми компонентами экосистемы Яндекса. Использование цифровых отпечатков устройств и моделей look-alike для переноса предпочтений является стандартной практикой.

Важность для SEO

Влияние на SEO среднее (6.5/10). Этот патент не описывает алгоритмы ранжирования в органической поисковой выдаче (SERP). Он в большей степени относится к CRO (Conversion Rate Optimization) и работе платформ дистрибуции контента (Дзен, Новости). Однако он имеет важное значение для понимания того, как Яндекс профилирует пользователей на основе их поискового поведения и применяет это профилирование в широком масштабе. Это подчеркивает ценность удовлетворения интента пользователя в SERP, поскольку эти поведенческие данные обучают глобальные модели персонализации Яндекса.

Детальный разбор

Термины и определения

Context Information (Контекстная информация): Информация, извлекаемая из базы данных, указывающая на относительную релевантность элементов для пользователя. Включает данные о прошлых взаимодействиях пользователя с сетевыми ресурсами.
First Network Resource (Первый Сетевой Ресурс): Ресурс, элементы которого необходимо ранжировать (например, новостной сайт, мобильное приложение, интернет-магазин).
First Server / Hosting Server (Первый Сервер): Сервер, на котором размещен Первый Сетевой Ресурс.
First User (Первый Пользователь): Текущий пользователь, для которого выполняется ранжирование.
Ranking Server (Второй Сервер / Сервер Ранжирования): Сервер, который выполняет логику ранжирования, используя контекстную информацию. Он общается с Первым Сервером.
Relevancy Factor (Фактор Релевантности): Информация о предпочтениях пользователя. В Claim 1 это фактор, который известен о Втором Пользователе, но еще не известен о Первом Пользователе, и который используется для ранжирования.
Second Network Resource (Второй Сетевой Ресурс): Ресурс, отличный от Первого, взаимодействие с которым используется для получения контекстной информации (например, поисковая система).
Second User (Второй Пользователь): Другой пользователь, чья контекстная информация совпадает (полностью или частично) с контекстной информацией Первого Пользователя. Используется для look-alike моделирования.

Ключевые утверждения (Анализ Claims)

Патент описывает механизм переноса знаний о предпочтениях между пользователями и ресурсами для улучшения ранжирования.

Claim 1 (Независимый пункт): Описывает метод ранжирования элементов Первого Сетевого Ресурса для Первого Пользователя, выполняемый Вторым Сервером (Ranking Server).

Второй Сервер получает от Первого Сервера указание на элементы и на Первого Пользователя.
Второй Сервер получает информацию о прошлом взаимодействии Первого Пользователя со Вторым Сетевым Ресурсом (отличным от Первого).
На основе этого взаимодействия генерируется First Context Information (Первая Контекстная Информация) для Первого Пользователя.
Система определяет Второго Пользователя, чья Second Context Information (Вторая Контекстная Информация) совпадает (хотя бы частично) с First Context Information.
Критически важно: Second Context Information содержит Relevancy Factor (Фактор Релевантности), который отсутствует в First Context Information.
Ранжирование элементов для Первого Пользователя определяется на основе этого Relevancy Factor, полученного от Второго Пользователя.

Это описание механизма коллаборативной фильтрации или look-alike моделирования, применяемого кросс-ресурсно. Пользователь А приходит на Сайт 1. Система анализирует его поведение на Сайте 2 (например, в Поиске) — это Контекст А. Система находит Пользователя Б, который вел себя похоже на Сайте 2 (Контекст Б похож на Контекст А). Система знает дополнительные предпочтения Пользователя Б (Фактор Релевантности), например, что он предпочитает Контент X, а не Контент Y. Система использует этот Фактор Релевантности для ранжирования Контента X выше Контента Y на Сайте 1 для Пользователя А.

Claim 13: Уточняет, что Вторым Сетевым Ресурсом может быть поисковая система.

Claims 14-16: Уточняют, что прошлым взаимодействием может быть отправка поискового запроса (Claim 14) или выбор одного элемента (например, результата поиска) вместо другого (Claims 15, 16).

Claims 11-12: Уточняют, что элементами для ранжирования могут быть не только контент, но и стили оформления (Claim 11) или графический макет (Claim 12).

Claims 21-26: Уточняют, что указанием на пользователя может служить индикация клиентского устройства (Claim 21), включая IP-адрес (Claim 22), характеристики устройства (модель, производитель, размер/разрешение экрана) (Claims 23, 24) и программные атрибуты (ОС, установленные приложения, пользовательские настройки, такие как язык или регион) (Claims 25, 26).

Где и как применяется

Изобретение представляет собой сервис-ориентированную архитектуру, где логика ранжирования вынесена на отдельный сервер (Ranking Server), который может обслуживать множество других ресурсов (Hosting Servers).

RANKING – Ранжирование (Слой Персонализации/Рекомендаций)
Система ранжирует не результаты веб-поиска Яндекса, а элементы другого сайта или сервиса (например, новости в Дзене, товары на Маркете). Это уровень персонализации контента на целевом ресурсе.

Взаимодействие компонентов:

Hosting Server (например, сервер новостей) получает запрос от пользователя.
Hosting Server отправляет запрос на Ranking Server, передавая элементы для ранжирования и идентификаторы пользователя (настройки устройства, IP, cookies).
Ranking Server обращается к базам данных других сервисов (например, логам Поисковой системы), чтобы получить Context Information.
Ranking Server выполняет логику сопоставления пользователей (look-alike) и определяет Relevancy Factors.
Ranking Server возвращает ранжированный список элементов на Hosting Server.

Данные на входе: Идентификаторы пользователя (IP, настройки устройства, язык клавиатуры), список элементов для ранжирования (URL, ID новостей/товаров).

Данные на выходе: Ранжированный список элементов или указание на наиболее релевантный элемент.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на ресурсы с большим количеством элементов, требующих персонализации: новостные ленты, рекомендательные системы (Дзен), каталоги товаров в e-commerce.
Персонализация интерфейса: Как указано в Claims 11 и 12, система может выбирать дизайн сайта или стиль оформления, который больше понравится пользователю, основываясь на его прошлых взаимодействиях с другими сайтами.
Новые пользователи: Система специально разработана для улучшения опыта новых пользователей (решение проблемы «холодного старта»).
Скрытые корреляции: В описании патента упоминается использование ML для выявления неочевидных корреляций (например, связь между интересом к ремонту велосипедов и предпочтением длинношерстных кошек).

Когда применяется

Условия работы: Алгоритм применяется, когда целевой ресурс (First Network Resource) интегрирован с системой ранжирования (Ranking Server) и когда доступны данные о взаимодействиях пользователей с другими ресурсами (Second Network Resource).
Триггеры активации: Запрос пользователя на доступ к контенту, требующему ранжирования (например, открытие главной страницы новостного сайта или ленты приложения). Механизм look-alike (Claim 1) активируется, когда данных о текущем пользователе недостаточно для определения его предпочтений.

Пошаговый алгоритм

Процесс ранжирования элементов для Первого Пользователя.

Инициализация Запроса: Первый Пользователь открывает Первый Сетевой Ресурс (например, мобильное приложение).
Передача Данных: Приложение отправляет запрос на свой бэкенд (Первый Сервер), включая идентификаторы пользователя (например, настройки языка ОС).
Запрос Ранжирования: Первый Сервер извлекает элементы для ранжирования (например, новости) и отправляет их вместе с идентификаторами пользователя на Второй Сервер (Ranking Server).
Получение Контекста (Кросс-Ресурсный анализ): Ranking Server использует полученные идентификаторы для запроса данных из базы Второго Сетевого Ресурса (например, поисковой системы). Он получает информацию о прошлых взаимодействиях Первого Пользователя с этим ресурсом.
Генерация Контекста: Ranking Server генерирует First Context Information для Первого Пользователя.
Look-alike Моделирование: Ranking Server ищет Вторых Пользователей, чья Second Context Information совпадает с First Context Information (например, пользователи с такими же настройками языка или моделью устройства).
Извлечение Фактора Релевантности: Система идентифицирует Relevancy Factor в данных Вторых Пользователей, который отсутствует у Первого Пользователя (например, известно, что Вторые Пользователи предпочитают новости категории X, а не Y).
Определение Ранжирования: Ranking Server использует этот Relevancy Factor для ранжирования элементов Первого Сетевого Ресурса для Первого Пользователя. (Этот шаг может выполняться с помощью обученной ML-модели).
Ответ: Ranking Server отправляет ранжированный список обратно Первому Серверу.
Отображение: Первый Пользователь видит элементы в персонализированном порядке.

Какие данные и как использует

Данные на входе

Система использует широкий спектр данных для идентификации пользователя и определения контекста.

Поведенческие факторы (с Второго Ресурса):
- Отправка поисковых запросов (Claim 14).
- Выбор одного элемента вместо другого (Claim 15). Например, выбор одного результата поиска вместо другого (Claim 16).
Технические факторы (Данные Устройства):
- IP-адрес (Claim 22).
- Производитель, модель устройства (Claim 23).
- Аппаратные атрибуты: размер и разрешение экрана (Claim 24).
Пользовательские и Программные факторы:
- Операционная система, установленные приложения (Claim 25).
- Пользовательские настройки ОС или приложения (Claim 25), включая язык и географический регион (Claim 26). В примере патента используется язык виртуальной клавиатуры.
- Идентификаторы пользователя в онлайн-сервисах (например, логин в поиске или почте) (Упоминается в описании).

Какие метрики используются и как они считаются

Context Information Matching (Сопоставление Контекстной Информации): Метрика схожести между First Context Information и Second Context Information. Патент не определяет конкретную формулу, но указывает, что совпадение может быть частичным (Claim 1). Используется для look-alike моделирования.
Relevancy Factor (Фактор Релевантности): Конкретное знание о предпочтениях, извлеченное из данных Второго Пользователя. Может быть выражено как предпочтение одного элемента другому или как высокий скоринг для определенной категории контента.
Машинное обучение: В описании патента (не в Claims) упоминается, что для выявления скрытых корреляций и определения ранжирования могут использоваться техники машинного обучения. Упомянуты нейронные сети, байесовские сети, деревья решений, SVM и обучение с подкреплением. Функция ранжирования может быть обучена с использованием этих техник для предсказания релевантности на основе Context Information.

Выводы

Кросс-ресурсное профилирование: Яндекс активно использует поведение пользователей на одном ресурсе (особенно в Поиске) для влияния на ранжирование и персонализацию на других ресурсах (например, в рекомендательных системах Дзен, Новости).
Поисковое поведение как главный источник данных: Поисковые запросы и клики в SERP являются критически важными данными для понимания предпочтений пользователя, которые затем применяются в других контекстах экосистемы.
Решение проблемы «Холодного старта»: Запатентованный механизм позволяет персонализировать контент даже при первом посещении сайта, если у Яндекса есть данные о пользователе из других источников или о похожих на него пользователях.
Look-alike моделирование как ядро (Claim 1): Центральным элементом системы является способность находить похожих пользователей (на основе поведения, настроек устройства и т.д.) и переносить их известные предпочтения (Relevancy Factors) на нового пользователя.
Важность технических и пользовательских настроек: Система использует детальные данные об устройстве и его конфигурации (фингерпринтинг: язык клавиатуры, разрешение экрана, ОС) для сегментации пользователей и повышения точности look-alike моделирования.
Персонализация не только контента, но и интерфейса: Система может ранжировать не только статьи или товары, но и стили оформления или макеты страниц (Claims 11, 12).

Практика

ВАЖНО: Этот патент в первую очередь описывает рекомендательные системы и персонализированное ранжирование на контентных платформах, а не ранжирование в органическом веб-поиске.

Best practices (это мы делаем)

Фокус на удовлетворении интента в Поиске (SEO): Поведение пользователя в поисковой выдаче Яндекса напрямую обучает его модели предпочтений. Высокий CTR и успешное решение задачи пользователя в SERP критически важны, так как эти данные используются для профилирования и могут влиять на видимость вашего контента в рекомендательных системах Яндекса (например, Дзен).
(Для паблишеров на платформах Яндекса): Понимайте, что ранжирование вашего контента (новости, статьи) сильно персонализировано на основе всей истории взаимодействия пользователя с Яндексом. Контент должен быть нацелен на четко определенные группы интересов, которые Яндекс определяет через кросс-ресурсное поведение.
Техническая оптимизация под разные устройства и локали: Патент явно указывает на использование характеристик устройства (экран, ОС) и настроек (язык, регион) для профилирования. Убедитесь, что ваш сайт корректно адаптирован под мобильные устройства и правильно обрабатывает языковые и региональные настройки пользователей.
Анализ аудиторных сегментов: Изучайте свою аудиторию через системы аналитики, обращая внимание на кросс-девайсное поведение и интересы пользователей, чтобы лучше понять, как их может сегментировать Яндекс для look-alike моделирования.

Worst practices (это делать не надо)

Стратегия «Один размер для всех» (One-size-fits-all): Создание статического контента без учета различных интересов и предпочтений аудитории снижает вовлеченность. Патент подтверждает, что Яндекс стремится к максимальной персонализации.
Игнорирование мобильного опыта: Учитывая, что многие идентификаторы связаны с мобильными устройствами и их настройками (фингерпринтинг), плохая оптимизация под мобильные устройства негативно скажется на пользовательском опыте и сборе корректных данных.
Использование кликбейта в Поиске: Генерация кликов от незаинтересованных пользователей загрязняет данные, используемые для обучения моделей персонализации. Это может привести к неправильной ассоциации вашего контента с нерелевантными группами интересов.

Стратегическое значение

Патент подчеркивает стратегию Яндекса на создание интегрированной экосистемы, где данные из одного сервиса обогащают другой (например, через Yandex ID и Крипту). Успех в Поиске (понимание интента) напрямую конвертируется в качество рекомендательных и контентных сервисов. Для бизнеса это означает, что взаимодействие с пользователем должно рассматриваться холистически, а не изолированно в рамках одного канала. Понимание этого механизма позволяет строить более эффективные стратегии дистрибуции контента.

Практические примеры

Сценарий 1: E-commerce и поисковое поведение (Кросс-ресурсная персонализация)

Действие пользователя: Пользователь ищет в Яндексе (Второй Ресурс) «лучшие беспроводные наушники для бега» и кликает на обзоры моделей Jabra и Bose.
Анализ системы: Яндекс фиксирует это взаимодействие и обновляет Context Information пользователя, отмечая интерес к спортивным аудио-гаджетам.
Кросс-ресурсное применение: Позже пользователь заходит на Яндекс.Маркет (Первый Ресурс).
Результат: Ranking Server использует выведенный интерес и динамически поднимает спортивные модели наушников (Jabra, Bose) выше в каталоге или показывает их в блоке рекомендаций на главной странице.

Сценарий 2: Контентный сайт и Look-alike моделирование (Холодный старт)

Сбор данных: Яндекс знает, что группа пользователей (Вторые Пользователи), использующих определенную модель смартфона Xiaomi с русским языком интерфейса, активно читает статьи про «рецепты пасты карбонара» в Дзене. Это их Relevancy Factor.
Новый пользователь: Новый пользователь (Первый Пользователь) с таким же смартфоном Xiaomi и русским интерфейсом впервые открывает приложение Дзен (Первый Ресурс). У него еще нет истории.
Look-alike matching: Система ранжирования определяет, что Первый Пользователь похож на Вторых Пользователей по типу устройства и настройкам (Context Information совпадает).
Результат: Система переносит Relevancy Factor и ранжирует статьи с рецептами пасты выше в ленте рекомендаций для нового пользователя, предугадывая его интересы.

Вопросы и ответы

Какое основное отличие этого патента от стандартной персонализации на сайте?

Стандартная персонализация обычно опирается на историю действий пользователя на этом же самом сайте. Этот патент описывает кросс-ресурсное ранжирование: система использует данные о поведении пользователя на других, совершенно не связанных ресурсах (например, в поисковой системе), чтобы ранжировать контент на текущем сайте (например, в новостном приложении). Это позволяет решить проблему «холодного старта» и персонализировать выдачу при первом посещении.

Как этот патент связан с SEO?

Напрямую он не описывает ранжирование в органической поисковой выдаче. Однако он критически важен для понимания того, как Яндекс использует данные из Поиска. Ваше поведение в SERP (запросы, клики, удовлетворенность результатом) используется Яндексом для построения вашего профиля предпочтений. Этот профиль затем применяется для ранжирования контента в других сервисах (например, Дзен). Это подчеркивает важность качественной работы над SEO и удовлетворением интента пользователя.

Что такое «Relevancy Factor» и как он определяется?

Relevancy Factor — это конкретное знание о предпочтениях пользователя. Например, что пользователь предпочитает новости о знаменитости А новостям о знаменитости Б, или что он предпочитает видео-формат текстовому. Этот фактор определяется путем анализа поведения похожих пользователей (Second Users). Если пользователи, похожие на вас (по устройству, настройкам или поведению), часто выбирают контент X, система будет использовать это как Relevancy Factor для вас.

Что такое look-alike моделирование в контексте этого патента?

Это процесс, детально описанный в Claim 1. Система берет текущего пользователя (First User) и его контекст (например, тип устройства, язык, последние поисковые запросы) и ищет других пользователей (Second Users) с максимально похожим контекстом. Затем система анализирует, что нравится этим похожим пользователям (Relevancy Factors), и предполагает, что это понравится и текущему пользователю. Это позволяет переносить предпочтения между пользователями.

Какие данные Яндекс использует для идентификации и сопоставления пользователей?

Патент перечисляет широкий спектр данных. К ним относятся поведенческие данные (поисковые запросы и клики), технические данные устройства (IP-адрес, модель, производитель, размер и разрешение экрана, операционная система, установленные приложения) и пользовательские настройки (язык интерфейса или клавиатуры, географический регион). Также могут использоваться логины в сервисах Яндекса (Yandex ID).

Может ли эта система использоваться для персонализации дизайна сайта?

Да. В патенте (Claims 11, 12) явно указано, что элементами для ранжирования могут быть не только контент (новости, товары), но и стили оформления или графические макеты. Например, система может определить, что пользователи, которые ищут информацию о классической музыке, предпочитают более строгий дизайн сайта, и выбрать соответствующий шаблон оформления для такого пользователя.

Описывает ли этот патент работу Яндекс Дзен?

Хотя патент напрямую не упоминает Дзен, описанные в нем механизмы идеально ложатся в основу работы рекомендательных систем такого типа. Дзен использует информацию о поведении пользователя в Поиске и на других ресурсах для построения профиля предпочтений и ранжирования контента. Механизмы кросс-ресурсного ранжирования и look-alike моделирования, описанные здесь, являются фундаментальными для Дзена.

Что такое «скрытые корреляции», упомянутые в описании патента?

Это неочевидные связи между поведением на разных платформах, выявляемые с помощью машинного обучения. Патент приводит пример: система может обнаружить, что пользователи, которые долго изучают инструкцию по ремонту велосипедов, чаще предпочитают длинношерстных кошек. Яндекс использует такие неинтуитивные закономерности для предсказания релевантности контента, даже если тематики кажутся не связанными.

Как владелец сайта может использовать этот механизм в своих интересах?

Владелец сайта должен сосредоточиться на привлечении и удержании четко определенной целевой аудитории. Стратегически важно собирать данные о своей аудитории (например, через Яндекс Метрику), анализировать сегменты и понимать их широкие интересы. Это поможет создавать контент, который будет резонировать с аудиторией и хорошо показываться в рекомендательных системах Яндекса.

Что важнее для этой системы: мои настройки устройства или мое поведение в поиске?

Оба типа данных важны и используются в комплексе для формирования Context Information. Поведение в поиске дает представление о текущих интересах и предпочтениях. Настройки устройства (например, язык, тип устройства) помогают определить демографический или социальный контекст и повышают точность сопоставления с другими пользователями (look-alike). В примере патента именно совпадение настройки (испанская клавиатура) позволило перенести поведенческий фактор.