Как Яндекс использует данные о поведении пользователей на одних сайтах для персонализации контента на других сайтах (Cross-Site Personalization)

Яндекс патентует механизм кросс-ресурсной персонализации. Система собирает данные о взаимодействиях пользователей с одним ресурсом (например, поисковой системой) и использует эту «контекстную информацию» для ранжирования элементов на совершенно другом ресурсе (например, новостном сайте). Это позволяет персонализировать выдачу даже при первом визите, используя машинное обучение для поиска скрытых корреляций между поведением на разных сайтах.

Описание

Какую задачу решает

Патент решает проблему ограниченности традиционных систем персонализации, которые обычно требуют накопления истории взаимодействия пользователя с тем же самым ресурсом, который оптимизируется. Это создает проблему «холодного старта» (cold start problem) — невозможность персонализировать контент для новых посетителей. Изобретение устраняет этот недостаток, позволяя использовать данные, собранные на других, не связанных ресурсах, для персонализации текущего ресурса с первого визита.

Что запатентовано

Запатентована система и способ кросс-ресурсной персонализации (Cross-Resource Personalization). Суть изобретения заключается в использовании централизованного сервера ранжирования (Ranking Server), который определяет релевантность элементов Первого сетевого ресурса, используя Контекстную информацию. Эта информация включает данные о прошлых взаимодействиях пользователя (или других похожих пользователей) со Вторым сетевым ресурсом, который отличается от Первого. Для определения релевантности используется функция, обученная с помощью методов машинного обучения.

Как это работает

Система работает как централизованный сервис персонализации. Когда пользователь заходит на Ресурс А (например, новостной сайт), этот ресурс отправляет запрос на Сервер Ранжирования, передавая идентификаторы пользователя/устройства и список элементов для ранжирования (например, новости). Сервер Ранжирования использует эти идентификаторы для извлечения Контекстной информации из своей базы данных. Эта информация содержит историю взаимодействий этого пользователя (или пользователей с похожими идентификаторами) с Ресурсом Б (например, поисковой системой). Затем применяется модель машинного обучения, которая на основе этой истории предсказывает, какие элементы Ресурса А будут наиболее релевантны пользователю, и возвращает отранжированный список.

Актуальность для SEO

Высокая. Кросс-платформенное отслеживание и персонализация являются фундаментом экосистемы крупных интернет-компаний, включая Яндекс (с использованием Yandex ID, Метрики, Крипты). Использование централизованных данных о поведении пользователя для персонализации различных сервисов (Поиск, Новости, Дзен, Маркет) является стандартной практикой. Опора на машинное обучение для выявления скрытых корреляций также крайне актуальна.

Важность для SEO

Влияние на SEO значительно (7.5/10). Хотя патент напрямую не описывает алгоритмы ранжирования органического поиска, он описывает инфраструктуру, которую Яндекс использует для персонализации любого сетевого ресурса. Это включает персонализацию самой поисковой выдачи (SERP) — выбор колдунщиков, порядок элементов, внешний вид сниппетов, а также ранжирование в персонализированных сервисах (Новости, Дзен). Патент подчеркивает, что Яндекс рассматривает историю пользователя в экосистеме холистически: поведение в Поиске влияет на Новости, и наоборот.

Детальный разбор

Термины и определения

Второй сетевой ресурс (Second Network Resource): Ресурс, отличающийся от Первого сетевого ресурса. Взаимодействия пользователей с этим ресурсом служат источником Контекстной информации. Примером может быть Поисковая система.
Второй сервер (Second Server) / Сервер ранжирования (Ranking Server): Централизованный сервер, который выполняет расчет ранжирования элементов для других серверов (Первых серверов). Он имеет доступ к базе данных Контекстной информации и выполняет модель машинного обучения.
Контекстная информация (Contextual Information): Информация, извлекаемая из базы данных, которая указывает на относительную релевантность элементов для пользователя. Включает данные о прошлых взаимодействиях Первого или Второго пользователя со Вторым сетевым ресурсом.
Первый пользователь (First User): Пользователь, для которого в данный момент осуществляется ранжирование элементов Первого сетевого ресурса.
Первый сетевой ресурс (First Network Resource): Сетевой ресурс (например, веб-сайт, мобильное приложение), элементы которого необходимо отранжировать для пользователя. Расположен на Первом сервере.
Первый сервер (First Server) / Хост-сервер (Host Server): Сервер, на котором расположен Первый сетевой ресурс. Он отправляет запрос на ранжирование Второму серверу.
Указание от пользователя (Indication from the user): Идентификаторы, позволяющие связать пользователя с Контекстной информацией. Могут включать IP-адрес, User ID, характеристики клиентского устройства (модель, ОС), настройки ПО (язык, регион).
Элементы (Elements): Объекты Первого сетевого ресурса, подлежащие ранжированию. Могут быть ссылками (URL), отдельными веб-страницами, компонентами веб-страницы (графика, аудио), стилями представления (CSS, макеты) или новостными сообщениями.

Ключевые утверждения (Анализ Claims)

Патент описывает инфраструктуру для предоставления персонализированного ранжирования как сервиса, основанного на данных, собранных с различных ресурсов.

Claim 1 (Независимый пункт): Описывает основной механизм работы системы на Втором сервере (Сервере ранжирования).

Получение списка элементов от Первого сервера (Хост-сервера).
Получение указания (идентификаторов) Первого пользователя.
Извлечение Контекстной информации из базы данных на основе этих идентификаторов.
Критически важно: Контекстная информация содержит данные о прошлых взаимодействиях Первого ИЛИ Второго пользователя со Вторым сетевым ресурсом (который отличается от Первого).
Определение ранжирования элементов для Первого пользователя на основе этой Контекстной информации.
Критически важно: Определение ранжирования выполняется путем исполнения функции на процессоре, причем эта функция обучена с использованием способа машинного обучения.

Claim 9 и 10: Уточняют механизм обработки «холодного старта».

Система может использовать историю Второго пользователя для персонализации выдачи для Первого пользователя (Claim 9). Это возможно даже если в Контекстной информации нет данных о взаимодействиях Первого пользователя со Вторым ресурсом (Claim 10). В этом случае связь между пользователями устанавливается через другие общие признаки (например, использование одной и той же модели смартфона или одинаковых языковых настроек), как описано в патенте.

Claim 18 и 19: Уточняют источники данных.

Второй сетевой ресурс может являться поисковой системой (Claim 18). Прошлое взаимодействие может включать отправку поискового запроса (Claim 19). Это прямо указывает на использование поисковой истории для персонализации других сервисов.

Claim 22 и 23: Подчеркивают сложность задачи и необходимость ML.

Второй сетевой ресурс может существенно отличаться от Первого сетевого ресурса (Claim 22). Например, использование данных с сайта по ремонту велосипедов для персонализации сайта об автомобилях. Поскольку корреляции между поведением на таких разных ресурсах не очевидны, патент подчеркивает необходимость обучения функции ранжирования с использованием способа машинного обучения (Claim 23 и описание) для выявления этих скрытых корреляций.

Где и как применяется

Изобретение описывает инфраструктурный механизм персонализации, который может применяться в различных слоях и сервисах Яндекса.

Сбор данных (CRAWLING & DATA ACQUISITION)
Система опирается на непрерывный сбор данных о взаимодействиях пользователей со всеми ресурсами экосистемы Яндекса (Поиск, Почта, Метрика на сторонних сайтах). Эти данные агрегируются в базу данных Контекстной информации, к которой имеет доступ Сервер Ранжирования.

Ранжирование (RANKING — L4 Personalization)
Механизм может применяться на финальных этапах ранжирования (L4) для переупорядочивания результатов поиска с учетом глобальной истории пользователя, собранной с других ресурсов (Вторых сетевых ресурсов).

Метапоиск и Смешивание (METASEARCH & BLENDING)
Сервер Ранжирования может использоваться для персонализации самой структуры SERP. В этом случае «элементами» (Claim 14, 15) могут быть различные стили представления, графические макеты или выбор конкретных колдунщиков/блоков для показа конкретному пользователю на основе его предпочтений, выявленных на других ресурсах.

Персонализированные сервисы (Дзен, Новости)
Наиболее очевидное применение — ранжирование контента (новостей, статей) в бесконечных лентах, где история взаимодействий с Поиском (Второй ресурс) используется для ранжирования Новостей (Первый ресурс).

Система функционирует как API-сервис: принимает на вход список элементов и идентификаторы пользователя, а на выходе возвращает отранжированный список или наиболее релевантный элемент.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на контент, где важны предпочтения пользователя: новостные ленты, рекомендации товаров (Маркет), медиа-контент.
Персонализация SERP: Влияет на внешний вид и состав поисковой выдачи для конкретного пользователя, даже если сам алгоритм базового ранжирования остается неизменным.
Когортный анализ: Система позволяет применять персонализацию не только на основе личной истории, но и на основе поведения когорты, к которой принадлежит пользователь (определенной по устройству, настройкам, демографии — Claim 27-30).

Когда применяется

Алгоритм применяется при генерации контента для пользователя при соблюдении следующих условий:

Запрос на персонализацию: Первый сетевой ресурс (например, Яндекс Новости) должен запросить ранжирование у Второго сервера.
Идентификация пользователя/когорты: Сервер Ранжирования должен смочь идентифицировать пользователя (через Yandex ID, IP) или его устройство/когорту (через настройки языка, модель устройства).
Наличие Контекстной информации: В базе данных должна присутствовать релевантная история взаимодействий, связанная с этими идентификаторами.

Пошаговый алгоритм

Процесс можно разделить на две фазы: подготовительную и фазу реального времени.

Фаза 1: Подготовка и сбор данных (Офлайн/Постоянно)

Сбор взаимодействий: Пользователи взаимодействуют с различными (Вторыми) сетевыми ресурсами (например, Поисковой системой).
Логирование: Система записывает действия (например, поисковые запросы, выбор одного результата поиска вместо другого) вместе с Указаниями от пользователя (идентификаторы устройства, настройки языка и т.д.).
Сохранение: Данные сохраняются в Базе Данных Контекстной Информации.
Обучение модели (ML): Функция ранжирования обучается с использованием способов машинного обучения для выявления скрытых корреляций между взаимодействиями на разных ресурсах и предпочтениями пользователей.

Фаза 2: Ранжирование в реальном времени

Запрос пользователя: Первый пользователь обращается к Первому сетевому ресурсу (например, открывает Новостное приложение).
Запрос на ранжирование: Первый сервер (Новостной сервер) отправляет запрос Второму серверу (Серверу ранжирования). Запрос включает список Элементов (новости) и Указание от Первого пользователя (например, его языковые настройки и модель смартфона).
Извлечение Контекста: Второй сервер использует полученные идентификаторы для поиска в Базе Данных Контекстной Информации. Он извлекает прошлые взаимодействия этого пользователя ИЛИ других пользователей с похожими идентификаторами (например, пользователей с теми же языковыми настройками).
Выполнение ML-функции: Извлеченная Контекстная информация подается на вход обученной функции ранжирования.
Определение ранжирования: Функция рассчитывает относительную релевантность каждого Элемента для Первого пользователя.
Ответ: Второй сервер передает отранжированный список Элементов Первому серверу.
Отображение: Первый сервер отображает Элементы пользователю в персонализированном порядке.

Какие данные и как использует

Данные на входе

Ключевыми данными являются идентификаторы пользователя и его поведение на других ресурсах.

Поведенческие факторы (Прошлые взаимодействия):
- Отправка поискового запроса (Claim 19).
- Выбор одного элемента вместо другого (Claim 20). Например, выбор одного результата поиска вместо другого (Claim 21).
Пользовательские и Технические факторы (Указание от пользователя):
- Идентификаторы клиентского устройства (Claim 31).
- IP-адрес (Claim 32).
- Характеристики устройства: производитель, модель (Claim 33).
- Аппаратные признаки: размер и разрешение экрана (Claim 34).
- Программные признаки: Операционная система, установленные приложения (Claim 35).
- Пользовательские настройки: Язык, географический регион (Claim 36).
Идентификаторы Он-лайн сервисов (Указание от пользователя):
- Пользовательский идентификатор (например, Yandex ID) (Claim 37).
- Идентификатор в поисковой системе (Claim 38).
- Адрес электронной почты (Claim 40).
Внешние данные:
- Ранжирование Первого сетевого ресурса по отношению к Третьему по определенному критерию (например, демографическому или критерию поисковой системы) (Claim 24, 25).

Какие метрики используются и как они считаются

Относительная релевантность (Relative Relevance): Основная метрика, которую вычисляет система. Она определяет порядок ранжирования элементов.
Машинное обучение (Machine Learning): Расчет релевантности производится функцией, обученной с помощью ML (Claim 1). Патент упоминает, что это необходимо для выявления скрытых корреляций между поведением на существенно разных ресурсах. В описании упоминаются различные методы ML: нейронные сети, байесовские сети вывода, деревья решений, машины опорных векторов (SVM) и обучение с подкреплением. На практике это, вероятно, реализации CatBoost или нейросетевые модели, принимающие на вход агрегированные поведенческие и идентификационные данные.
Когортный анализ: Система группирует пользователей по общим признакам (демография, поведение, география, тип устройства) (Claim 27-30) и использует агрегированные данные когорты для ранжирования, если личной истории недостаточно.

Выводы

Централизованная инфраструктура персонализации: Яндекс использует выделенную инфраструктуру (Сервер Ранжирования) для предоставления персонализации как услуги другим своим сервисам и, потенциально, внешним партнерам.
Кросс-ресурсная персонализация — это стандарт: Поведение пользователя на одном ресурсе Яндекса напрямую влияет на ранжирование и отображение контента на других ресурсах. Поисковая история (запросы и клики) является ключевым источником данных для персонализации (Claim 18-21).
Решение проблемы «холодного старта» через когорты: Если личной истории нет, Яндекс использует данные других пользователей, которые похожи на текущего. Схожесть определяется по широкому спектру идентификаторов: от модели устройства и IP до настроек языка (Claim 9, 10, 31-36).
ML для поиска неявных связей: Система разработана для работы даже тогда, когда ресурсы существенно отличаются (Claim 22). Машинное обучение используется для поиска неочевидных корреляций между поведением на разных сайтах (например, как интересы в кино влияют на предпочтения в спортивных новостях).
Широкое определение «Элементов»: Персонализация не ограничивается ранжированием ссылок. Она может включать адаптацию стиля, макета и внешнего вида страниц под предпочтения пользователя (Claim 13-15).

Практика

Best practices (это мы делаем)

Понимание холистического профиля пользователя: При анализе трафика и поведения необходимо учитывать, что Яндекс знает о пользователе гораздо больше, чем историю его взаимодействия с вашим сайтом. Учитывайте возможный кросс-доменный контекст и интересы аудитории за пределами вашей ниши.
Оптимизация под поведенческие когорты: Сегментируйте аудиторию не только по демографии, но и по техническим характеристикам (тип устройства, ОС, регион). Патент показывает, что эти данные используются для отнесения пользователя к когорте и применения соответствующих паттернов персонализации. Анализируйте, как пользователи разных когорт взаимодействуют с вашим контентом.
Максимизация вовлеченности в экосистеме Яндекса: Активное использование инструментов Яндекса (Метрика, Вебмастер, Бизнес, Турбо-страницы) способствует передаче данных о поведении пользователей в централизованную систему (Базу Контекстной Информации), что может положительно влиять на видимость вашего ресурса в персонализированных сервисах (Дзен, Новости) и при персонализированном поиске.
Анализ персонализации выдачи: Проводите тесты с использованием разных профилей пользователей (разные истории поиска, разные устройства), чтобы понять, как Яндекс персонализирует выдачу по вашим целевым запросам. Это даст представление о том, какие факторы система считает важными для разных сегментов.

Worst practices (это делать не надо)

Анализ «средней температуры» по выдаче: Ориентироваться на обезличенную выдачу становится опасно. Патент подтверждает, что пользователи с разной историей и разными характеристиками устройств могут видеть существенно разный контент и ранжирование.
Игнорирование технических и региональных настроек: Пренебрежение оптимизацией под различные устройства, языковые настройки и регионы. Эти параметры являются ключевыми идентификаторами для системы кросс-ресурсной персонализации, особенно при «холодном старте».
Узкая фокусировка на нише: Попытка оптимизировать контент только под прямые запросы без учета смежных интересов аудитории. Система ML ищет скрытые корреляции, и контент, отвечающий более широким интересам когорты, может получить преимущество.

Стратегическое значение

Патент подтверждает стратегию Яндекса на построение единой экосистемы с централизованным управлением пользовательским опытом. Данные не изолированы внутри сервисов, а агрегируются для создания детального профиля пользователя или когорты. Для SEO это означает, что персонализация является не просто дополнительным слоем, а фундаментальной частью инфраструктуры ранжирования. Долгосрочная стратегия должна учитывать неизбежное усиление персонализации и фокусироваться на построении бренда и контента, который резонирует с целевыми поведенческими когортами.

Практические примеры

Сценарий 1: Использование поисковой истории для ранжирования новостей

Сбор данных (Второй ресурс): Пользователь А ищет в Яндексе (Второй ресурс) «Дженифер Лопез» и кликает на результаты о ней, игнорируя результаты о Дженифер Энистон. Система логирует это предпочтение вместе с идентификатором пользователя (Yandex ID).
Запрос (Первый ресурс): Позже Пользователь А открывает Яндекс Новости (Первый ресурс).
Ранжирование: Новостной сервер запрашивает ранжирование у Сервера Ранжирования, передавая Yandex ID. Сервер извлекает Контекстную информацию (предпочтение Дженифер Лопез).
Результат: В ленте новостей статьи о Дженифер Лопез будут ранжироваться выше статей о Дженифер Энистон.

Сценарий 2: Холодный старт и когортный анализ

Сбор данных (Когорта): Яндекс замечает, что пользователи, установившие испанский язык клавиатуры на смартфонах модели X, часто интересуются латиноамериканской музыкой в Поиске и на Яндекс Музыке. ML-модель фиксирует эту корреляцию.
Запрос (Новый пользователь): Новый пользователь Б (без истории поиска), у которого смартфон модели X и установлен испанский язык, впервые заходит на Яндекс Дзен.
Ранжирование: Сервер Дзена передает идентификаторы (Модель X, Язык: Испанский) Серверу Ранжирования. Сервер не находит личной истории, но относит пользователя к когорте.
Результат: ML-модель, основываясь на данных когорты, повышает в ленте Дзена статьи и видео, связанные с латиноамериканской музыкой, даже если пользователь никогда явно не выражал этот интерес.

Вопросы и ответы

Описывает ли этот патент алгоритм органического ранжирования Яндекса?

Напрямую нет. Патент описывает инфраструктуру для персонализации и ранжирования элементов на любом сетевом ресурсе, используя данные, собранные с других ресурсов. Однако эта инфраструктура может использоваться для персонализации самой поисковой выдачи (SERP), например, на этапе L4 (Personalization), или для адаптации макета и выбора блоков (Blender), основываясь на глобальной истории пользователя в экосистеме Яндекса.

Что такое «Контекстная информация» в понимании этого патента?

Это ключевое понятие патента. Контекстная информация — это данные о прошлых взаимодействиях пользователя (или похожих пользователей) с другими сетевыми ресурсами. Например, это могут быть отправленные поисковые запросы, клики по результатам поиска, история покупок на Маркете или предпочтения на Яндекс Музыке. Эта информация используется для предсказания релевантности контента на текущем ресурсе.

Как работает система, если я новый пользователь и у Яндекса нет моей истории (холодный старт)?

Патент специально адресует эту проблему (Claim 9, 10). Если личной истории нет, система пытается отнести пользователя к определенной когорте на основе доступных идентификаторов («Указание от пользователя»). Это может быть модель устройства, IP-адрес, настройки языка и региона. Затем система использует агрегированную Контекстную информацию этой когорты для персонализации контента.

Зачем в патенте акцентируется внимание на Машинном обучении (ML)?

ML необходим, потому что система работает с «существенно отличающимися» ресурсами (Claim 22). Корреляции между поведением на разных сайтах часто не очевидны (например, как интерес к ремонту велосипедов коррелирует с предпочтениями в новостях). ML-модели (нейросети, деревья решений) обучаются находить эти скрытые закономерности в больших данных и использовать их для ранжирования.

Какие идентификаторы Яндекс использует для связи моего поведения на разных сайтах?

Патент перечисляет широкий спектр идентификаторов (Claim 31-40): пользовательский ID (Yandex ID), адрес электронной почты, IP-адрес, технические характеристики устройства (производитель, модель, размер экрана), программные настройки (ОС, установленные приложения), а также пользовательские настройки (язык, регион).

Может ли поведение пользователей на моем сайте влиять на персонализацию других сервисов Яндекса?

Да, это весьма вероятно. Если на вашем сайте установлена Яндекс Метрика или вы используете другие сервисы Яндекса (например, Турбо-страницы), данные о взаимодействии пользователей с вашим сайтом могут агрегироваться в централизованную Базу Контекстной Информации и использоваться для персонализации Поиска, Дзена, Новостей и других ресурсов для этих пользователей.

Что означает, что система может персонализировать «стиль» или «макет» страницы?

Это означает (Claim 14, 15), что персонализация не ограничивается порядком ссылок или новостей. Система может выбирать, какую версию дизайна, цветовую схему, размер шрифта или расположение блоков показать пользователю. Например, если система определила, что пользователь предпочитает минималистичный дизайн (на основе его поведения на других сайтах), она может выбрать более строгий макет для отображения контента.

Какое практическое значение этот патент имеет для SEO-специалиста?

Главное значение — это понимание глубины и механизмов персонализации Яндекса. Нельзя анализировать выдачу в вакууме. Необходимо учитывать, что ранжирование и внешний вид SERP зависят от глобальной истории пользователя и характеристик его устройства. Это требует тестирования на разных профилях и устройствах, а также фокуса на удовлетворении интента различных поведенческих когорт.

В чем разница между Первым и Вторым сетевым ресурсом?

Первый сетевой ресурс — это тот, который пользователь просматривает сейчас и для которого нужно выполнить ранжирование (например, Яндекс Дзен). Второй сетевой ресурс — это любой другой ресурс (например, Поиск Яндекса), история взаимодействия с которым используется как источник данных для ранжирования на Первом ресурсе. Ключевое условие патента — эти ресурсы должны отличаться.

Как этот патент связан с технологией «Крипта» от Яндекса?

Хотя «Крипта» явно не упоминается, описанная в патенте система функционально очень похожа на задачи, которые решает Крипта. Крипта занимается идентификацией пользователей по косвенным признакам (поведение, устройства) и объединением их в когорты. Вероятно, Сервер Ранжирования, описанный в патенте, использует данные, обработанные Криптой, в качестве Контекстной информации для реализации кросс-ресурсной персонализации.