Как Яндекс персонализирует смешивание (блендинг) вертикальных и веб-результатов на основе истории пользователя

Яндекс использует историю поиска пользователя для персонализации агрегированной выдачи (блендинга). Система анализирует предпочтения пользователя между веб-сайтами и вертикальными сервисами (картинки, видео) на основе прошлых кликов и Dwell Time. Рассчитываются персональные параметры, которые определяют, насколько высоко показывать вертикальные блоки конкретному пользователю, смешивая их с основной веб-выдачей.

Описание

Какую задачу решает

Патент решает проблему неоптимального смешивания (блендинга) результатов в агрегированном поиске. Традиционные системы определяют релевантность и позицию вертикальных блоков (картинки, видео, новости) на основе общих признаков запроса и усредненной статистики, игнорируя индивидуальные предпочтения пользователя в форматах контента. Это может приводить к нерелевантной структуре SERP для конкретного человека. Изобретение улучшает пользовательский опыт, персонализируя порядок смешивания веб- и вертикальных результатов на основе истории поведения пользователя.

Что запатентовано

Запатентован метод персонализации агрегированных результатов поиска (Personalized Blending). Суть изобретения заключается в расчете «специфичного для пользователя параметра предпочтения агрегации» (user-specific aggregation preference parameter). Этот параметр генерируется на основе исторических данных о взаимодействии пользователя с разными типами результатов. Затем он используется на этапе Метапоиска для ранжирования веб-результатов (general search result item) и вертикальных результатов (vertical search result item) относительно друг друга.

Как это работает

Система анализирует историю поиска пользователя, фокусируясь на его взаимодействии с различными типами контента. Учитываются детальные поведенческие метрики: частота кликов на вертикали, время пребывания (Dwell Time) после клика (с порогами 30 и 100 секунд) и последние клики в сессии (Last Clicks). На основе этих данных вычисляются три класса признаков предпочтений. Эти признаки подаются в модель машинного обучения (упоминается Gradient Boosted Decision Trees — GBDT), которая определяет финальный порядок смешивания. Если пользователь исторически предпочитает видео, блок видео может быть ранжирован выше первого веб-результата.

Актуальность для SEO

Высокая. Агрегированный поиск (Метапоиск и Blender в архитектуре Яндекса) и персонализация являются ключевыми компонентами современных поисковых систем. Механизм, позволяющий персонализировать структуру выдачи (соотношение веб и вертикалей) на основе предпочтений форматов, остается крайне актуальным.

Важность для SEO

Влияние на SEO значительно (7.5/10). Патент описывает механизм, который напрямую влияет на структуру SERP для конкретного пользователя. Позиция №1 в веб-поиске не гарантирует первую позицию на экране, если система определит, что этот пользователь исторически предпочитает вертикальный контент (например, видео или картинки). Это усложняет мониторинг позиций и подчеркивает стратегическую важность комплексной оптимизации, включающей работу с вертикальными сервисами (Яндекс Картинки, Видео и т.д.).

Детальный разбор

Термины и определения

Aggregated search (Агрегированный поиск / Блендинг): Процесс интеграции (смешивания) общих (веб) результатов поиска и вертикальных результатов на одной странице выдачи (SERP). В Яндексе за это отвечает слой Метапоиска и компонент Blender.
Aggregated search need (Потребность в агрегированном поиске): Класс персонализированных признаков (обозначается как $\Phi_{a}(u)$). Описывает общую склонность пользователя предпочитать любые вертикальные результаты веб-результатам, независимо от запроса.
Certain vertical preference (Предпочтение определенной вертикали): Класс персонализированных признаков (обозначается как $\Phi_{c}(u,r_{i})$). Описывает склонность пользователя предпочитать результаты из конкретной вертикали (например, Видео) независимо от запроса.
Dwell Time (C30, C100): Время пребывания пользователя на странице после клика. C30 и C100 обозначают клики с Dwell Time более 30 и 100 секунд соответственно. Используются как индикаторы удовлетворенности.
GBDT (Gradient Boosted Decision Tree): Алгоритм машинного обучения (градиентный бустинг над решающими деревьями). Используется для обучения модели агрегации. Аналогичен CatBoost.
General search result item (Общий результат поиска): Результат поиска из основного веб-индекса (General Domain).
Last Click (CL30): Клик, который был последним действием пользователя в сессии и имел Dwell Time более 30 секунд.
User-specific aggregation preference parameter (Специфичный для пользователя параметр предпочтения агрегации): Ядро изобретения. Набор признаков, сгенерированный на основе истории пользователя, который используется для определения относительного ранга веб- и вертикальных результатов на этапе блендинга.
Vertical navigationality (Вертикальная навигационность): Класс персонализированных признаков (обозначается как $\Phi_{n}(q,u,r_{i})$). Описывает предпочтение пользователя к конкретной вертикали для конкретного запроса на основе его прошлой истории взаимодействия именно с этой связкой запрос-вертикаль.
Vertical search result item (Вертикальный результат поиска): Результат поиска из специализированного индекса (Vertical Domain), например, Яндекс.Картинки, Видео, Новости.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на персонализации этапа смешивания (блендинга) результатов, а не на первичном ранжировании внутри индексов.

Claim 1 (Независимый пункт): Описывает основной метод персонализированной агрегации.

Определение user-specific aggregation preference parameter, сгенерированного на основе признаков из истории поиска пользователя.
Агрегирование (объединение) первого общего (веб) результата и первого вертикального результата в единый набор.
Ключевой этап: Ранжирование этих результатов (общего и вертикального) относительно друг друга внутри агрегированного набора, основываясь как минимум на этом персонализированном параметре.
Отображение итогового ранжированного порядка на SERP.

Claims 6-9 (Зависимые пункты): Уточняют, что система может предварительно ранжировать результаты внутри своих доменов (на основе general/vertical domain-ranking parameter) ДО финального агрегированного ранжирования.

Claims 10-13 (Зависимые пункты): Указывают на возможность двухуровневой персонализации: параметры предварительного ранжирования также могут быть персонализированы (основаны на user-specific ranking attributes). Таким образом, патент описывает возможность персонализации как ранжирования внутри индексов, так и их смешивания.

Claim 19 (Зависимый пункт): Явно перечисляет три класса признаков, используемых для генерации параметра предпочтения: Aggregated search need, Certain vertical preference и Vertical navigationality.

Claims 20, 21 (Зависимые пункты): Указывают, что параметр генерируется с использованием ML-алгоритма, в частности GBDT.

Где и как применяется

Изобретение применяется на финальных этапах формирования поисковой выдачи.

BLENDER – Метапоиск и Смешивание (MetaSearch & Blending)
Это основной слой применения патента. Компонент Blender получает ранжированные списки от разных вертикалей и веб-поиска. Описанный механизм используется для Cross-Corpus Ranking — определения порядка смешивания. User-specific aggregation preference parameter выступает как ключевой сигнал для этого процесса.

RANKING – Ранжирование (Уровень L4 — Personalization)
Признаки, используемые в Blender, являются персонализационными. Они рассчитываются на основе истории пользователя и применяются для модификации ранжирования (в данном случае – ранжирования смешивания).

Взаимодействие и Потоки данных:

На входе: Ранжированные списки из General и Vertical Domains; Признаки запроса; Признаки пользователя (история, логи взаимодействий).
Процесс: Вычисление или извлечение user-specific aggregation preference parameter. Применение GBDT-модели для ранжирования всех результатов относительно друг друга.
На выходе: Финальный ранжированный список агрегированных результатов для SERP.

На что влияет

Структура SERP: Напрямую влияет на то, где будут расположены блоки вертикального поиска (картинки, видео, новости) относительно стандартных веб-результатов.
Типы запросов: Наибольшее влияние оказывается на неоднозначные запросы, где интент неясен из текста. История пользователя помогает определить предпочтительный формат контента (например, по запросу «Metallica» одному пользователю выше покажут видео, другому — веб-сайт). В патенте (в разделе примеров) отмечается, что эффект персонализации растет с ростом адаптированной энтропии кликов (Click Entropy) по запросу.
Типы контента: Повышается значимость мультимедийного контента (видео, изображения), если пользователь демонстрирует к нему исторический интерес.

Когда применяется

Условия активации: Алгоритм активируется, когда поисковая система решает показать агрегированную выдачу (присутствуют результаты из разных доменов).
Пороговые значения: Требуется достаточный объем истории пользователя. В детальном описании патента (в разделе примеров) упоминается фильтрация пользователей, которые видели вертикальные результаты менее 5 раз за период сбора данных.

Пошаговый алгоритм

Процесс А: Офлайн-подготовка и обучение

Сбор данных: Агрегация логов взаимодействия пользователей с SERP (клики C, показы S, Dwell Time C30/C100, Last Clicks CL30) по разным запросам и типам результатов.
Вычисление признаков: Расчет user-specific aggregation preference parameters. Это включает вычисление трех классов признаков:
- Aggregated search need (Φa).
- Certain vertical preference (Φc).
- Vertical navigationality (Φn).
Обучение модели: Обучение модели ранжирования агрегированных результатов (GBDT). Модель учится предсказывать релевантность результата (веб или вертикального) для пользователя и запроса, используя вычисленные параметры предпочтений как признаки.

Процесс Б: Обработка запроса в реальном времени

Получение запроса и идентификация пользователя (например, через UID cookie).
Поиск по доменам: Выполнение поиска в General Domain и Vertical Domains. Получение предварительно ранжированных списков.
Извлечение параметров: Получение (или вычисление) user-specific aggregation preference parameters (Φa, Φc, Φn) для данного пользователя и запроса.
Агрегация и Ранжирование (Blender): Применение обученной GBDT-модели ко всем результатам. Модель ранжирует веб-результаты и вертикальные результаты относительно друг друга, используя параметры предпочтений.
Генерация SERP: Формирование итоговой страницы выдачи в персонализированном порядке.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Являются основой изобретения. Используются детальные логи взаимодействий:
- Clicks (C) и Shows (S): Количество кликов и показов.
- Dwell Time: Время пребывания после клика. Используются пороги 30 секунд (C30) и 100 секунд (C100).
- Last Clicks (CL30): Клики, которые были последними в сессии и имели Dwell Time более 30 секунд.
Контентные/Запросные факторы: Тексты запросов (текущих и прошлых) используются для построения языковых моделей пользователя и вертикалей, а также для расчета Vertical Navigationality.
Системные данные: Тип результата (веб или вертикаль), его позиция в оригинальном ранжировании домена до блендинга.

Какие метрики используются и как они считаются

Система вычисляет три основных класса персонализационных признаков. Во всех формулах C – клики, S – показы, u – пользователь, q – запрос, Vj – конкретная вертикаль, *v – все вертикали вместе.

1. Aggregated search need (Признаки F^u / Φa): Общая склонность пользователя кликать на вертикали.

Пример расчета (CTR по всем вертикалям для пользователя):

$$ F^u = \frac{C(\bullet, u, \bullet_v)}{S(\bullet, u, \bullet_v)} $$

Также рассчитываются аналогичные метрики для C30, C100, CL30 и доля кликов по вертикалям от всех кликов пользователя.

2. Certain vertical preference (Признаки F^uv / Φc): Склонность пользователя кликать на конкретную вертикаль Vj.

Пример расчета (CTR по вертикали Vj для пользователя):

$$ F^{uv} = \frac{C(\bullet, u, V_j)}{S(\bullet, u, V_j)} $$

Дополнительно используется расчет Дивергенции Кульбака-Лейблера (Kullback-Leibler divergence) между языковой моделью пользователя (Pu) и языковой моделью вертикали (PVj). Это измеряет тематическую близость интересов пользователя к вертикали:

$$ \sum_{w\in W}P_{Vj}(w)*log\frac{P_{V_{j}}(w)}{P_{u}(w)} $$

3. Vertical navigationality (Признаки F^quv / Φn): Склонность пользователя u кликать на вертикаль Vj по конкретному запросу q.

Пример расчета (CTR по вертикали Vj для пользователя u и запроса q):

$$ F^{quv} = \frac{C(q, u, V_j)}{S(q, u, V_j)} $$

Методы машинного обучения:

Для обучения финальной модели ранжирования агрегированных результатов используется Gradient Boosted Decision Trees (GBDT). Модель использует все вышеперечисленные признаки.

Выводы

Персонализация структуры SERP: Яндекс активно персонализирует не только ранжирование внутри веб-поиска, но и саму структуру выдачи на этапе Блендинга (Метапоиска). Решение о том, насколько высоко показать блок картинок или видео, принимается индивидуально для пользователя.
Историческое поведение определяет предпочтения форматов: Система использует историю кликов пользователя (с акцентом на Dwell Time и Last Clicks) как индикатор его предпочтений в отношении форматов контента. Если пользователь часто смотрит видео, система будет чаще предлагать ему видео-контент на высоких позициях.
Три уровня анализа предпочтений: Патент выделяет три конкретных сигнала: общая любовь к вертикалям (Aggregated search need), любовь к конкретной вертикали (Certain vertical preference) и любовь к вертикали в контексте данного запроса (Vertical navigationality).
Машинное обучение для смешивания: Финальное решение о порядке смешивания принимается сложной моделью машинного обучения (GBDT/CatBoost), где параметры предпочтений пользователя являются важными признаками.
Влияние на неоднозначные запросы: Механизм особенно важен для запросов с неявным интентом или высокой энтропией кликов, где история пользователя помогает разрешить неоднозначность в пользу того или иного формата.

Практика

Best practices (это мы делаем)

Диверсификация контент-стратегии (Оптимизация под вертикали): Необходимо создавать и оптимизировать контент для всех релевантных вертикальных поисков (Яндекс.Видео, Яндекс.Картинки, Новости, Товары). Если тематика предполагает мультимедийный контент, его наличие критически важно для охвата пользователей, которые предпочитают эти форматы, так как для них эти блоки могут занимать топовые позиции.
Оптимизация поведенческих факторов (Dwell Time): Патент явно использует клики с длительным временем пребывания (>30 и >100 секунд) и последние клики как сигналы предпочтения. Необходимо максимизировать вовлеченность пользователя на всех типах контента (и веб-страницах, и вертикальных результатах).
Построение Topical Authority через разные форматы: Становитесь авторитетным источником информации в своей нише, предоставляя ее в разных форматах (текст, видео, инфографика). Это увеличивает вероятность взаимодействия с вашим контентом пользователями с разными предпочтениями форматов.
Анализ SERP с учетом потенциальной персонализации: При анализе выдачи следует понимать, что видимая структура SERP может сильно отличаться для разных сегментов аудитории. Необходимо учитывать наличие и потенциал вертикальных блоков, а не только позиции веб-результатов.

Worst practices (это делать не надо)

Игнорирование вертикального поиска: Фокусировка исключительно на текстовой оптимизации для веб-поиска приведет к потере видимости среди пользователей, чьи предпочтения склоняются к мультимедийным форматам.
Создание контента с низким вовлечением (Кликбейт): Контент (веб или вертикальный), который генерирует короткие клики (Dwell Time < 30 сек) или высокий показатель отказов, не будет способствовать формированию позитивных предпочтений пользователя в отношении этого формата контента.
Оценка позиций без учета смешивания: Опираться только на позиции в веб-поиске для оценки трафика неэффективно, так как персонализированное смешивание может радикально изменить видимость веб-результатов для конкретного пользователя.

Стратегическое значение

Патент подтверждает стратегию Яндекса на построение экосистемы (Метапоиск) и глубокую персонализацию пользовательского опыта. Для SEO это означает, что видимость сайта становится все более фрагментированной и зависимой от поведения конкретного пользователя. Конкуренция происходит не только между сайтами, но и между типами контента. Долгосрочная стратегия должна включать оптимизацию под всю экосистему Яндекса (вертикали, сервисы), а не только под основной веб-индекс.

Практические примеры

Сценарий 1: Влияние Certain Vertical Preference

Профиль пользователя А: Пользователь часто ищет товары и сравнивает их визуально. В его истории высокий показатель Certain Vertical Preference для вертикали Картинки.
Профиль пользователя Б: Предпочитает читать текстовые обзоры. Низкий интерес к Картинкам.
Запрос: «Обзор iPhone 15».
Действие системы (Блендинг): Модель GBDT использует персонализированные параметры для ранжирования блоков.
Результат:
- Для Пользователя А: Блок Яндекс.Картинок будет показан высоко, возможно, над первым веб-результатом.
- Для Пользователя Б: Веб-результаты (текстовые обзоры) будут выше, а блок Картинок смещен вниз.

Сценарий 2: Влияние Vertical Navigationality

Профиль пользователя: Пользователь В обычно предпочитает веб-результаты (низкий Aggregated search need). Однако каждый раз, когда он ищет «Расписание электричек Москва-Тверь», он кликает на специализированный вертикальный блок (колдунщик) расписаний и завершает поиск (Last Click).
Запрос: «Расписание электричек Москва-Тверь».
Действие системы: Несмотря на общие предпочтения, система фиксирует высокий показатель Vertical navigationality для этого конкретного запроса и вертикали.
Результат: Блок расписаний гарантированно показывается на самой высокой позиции для этого пользователя по этому запросу.

Вопросы и ответы

Этот патент о персонализации органического ранжирования или о чем-то другом?

Этот патент в первую очередь описывает персонализацию агрегированного поиска (Блендинга/Метапоиска). Речь идет о том, как система решает, в каком порядке смешивать результаты из разных источников (веб-поиск, картинки, видео) на итоговой странице. Система решает, показать ли блок видео выше или ниже веб-результата, основываясь на истории конкретного пользователя.

Какие поведенческие факторы наиболее важны для этой системы персонализации?

Ключевыми сигналами являются клики с длительным временем пребывания (Dwell Time). Патент явно выделяет клики с Dwell Time более 30 секунд (C30) и более 100 секунд (C100) как позитивные индикаторы релевантности. Также учитываются последние клики в сессии (Last Click) с Dwell Time более 30 секунд (CL30). Эти метрики считаются надежными индикаторами удовлетворенности и предпочтений.

Что такое «Aggregated search need» и как он рассчитывается?

«Aggregated search need» (Потребность в агрегированном поиске) – это один из трех ключевых классов признаков. Он показывает общую склонность пользователя взаимодействовать с любыми вертикальными результатами по сравнению с веб-результатами, без привязки к конкретному запросу. Рассчитывается он как глобальный CTR по всем вертикалям для данного пользователя (отношение всех кликов на вертикали ко всем показам вертикалей), а также через аналогичные метрики для кликов с долгим Dwell Time.

Чем отличается «Certain vertical preference» от «Vertical navigationality»?

«Certain vertical preference» – это общее предпочтение пользователя к конкретной вертикали (например, он всегда любит смотреть видео), независимо от запроса. «Vertical navigationality» – это предпочтение пользователя к конкретной вертикали в контексте конкретного запроса (например, он не любит видео в целом, но по запросу «как завязать галстук» всегда кликает на них). Первый параметр глобален для пользователя, второй – специфичен для пары пользователь-запрос.

Как этот патент влияет на SEO-стратегию?

Он подчеркивает необходимость холистической стратегии. Нельзя фокусироваться только на веб-поиске. Необходимо оптимизировать контент под все релевантные вертикали (Видео, Картинки, Новости). Если ваша аудитория предпочитает определенный формат, вы должны быть там представлены, так как персонализированный блендинг повысит видимость этого формата для них, потенциально вытесняя веб-результаты.

Означает ли это, что инструменты отслеживания позиций бесполезны?

Они становятся менее точными для оценки реальной видимости. Поскольку структура SERP персонализирована на уровне блендинга, у разных пользователей ваши веб-результаты или вертикальные блоки могут находиться на разных позициях. Инструменты показывают усредненную или «чистую» выдачу, поэтому для оценки эффективности лучше ориентироваться на трафик и конверсии, а не только на абсолютные позиции.

Используется ли в этой системе CatBoost?

В патенте упоминается использование алгоритма GBDT (Gradient Boosted Decision Trees) для обучения модели ранжирования агрегированных результатов. CatBoost является реализацией GBDT от Яндекса. Логично предположить, что в реальной инфраструктуре Яндекса (в компоненте Blender) используется именно CatBoost или его аналоги для выполнения этой задачи.

Может ли этот механизм понизить мой веб-сайт в выдаче?

Да, косвенно может. Механизм не пессимизирует ваш сайт в органическом ранжировании. Однако он может повысить ранжирование вертикальных блоков в персонализированной выдаче пользователя. В результате ваш веб-результат, даже если он занимает Топ-1 в веб-поиске, может оказаться ниже на итоговой SERP из-за вставки предпочтительных для пользователя вертикальных блоков над ним.

Что делать, если у пользователя еще нет истории поиска?

Если истории поиска недостаточно для вычисления «user-specific aggregation preference parameter» (в патенте упоминается порог минимум в 5 показов вертикалей), система будет полагаться на стандартные (неперсонализированные) алгоритмы смешивания. Эти алгоритмы основываются на общих признаках запроса и усредненном поведении всех пользователей.

Учитывает ли система Дивергенцию Кульбака-Лейблера, упомянутую в патенте?

Да, она используется в рамках признака «Certain vertical preference». Система строит языковую модель пользователя (на основе его прошлых запросов) и языковую модель вертикали (на основе запросов, которые приводили к успешным кликам на эту вертикаль). KL-дивергенция измеряет разницу между этими моделями. Чем меньше разница, тем больше тематические интересы пользователя соответствуют тематике вертикали, что используется как сигнал для повышения этой вертикали в выдаче.