Яндекс патентует систему персонализации агрегированного поиска (блендинга). Система анализирует историю кликов пользователя, чтобы определить его предпочтения к различным типам контента (веб, видео, изображения и т.д.). На основе этих данных вычисляется «Параметр предпочтительной агрегации», который определяет, как высоко и в каком порядке смешивать результаты из вертикальных поисков с основными веб-результатами для конкретного пользователя.
Описание
Какую задачу решает
Патент решает задачу повышения качества агрегированного поиска (блендинга) путем его персонализации. Стандартные модели агрегации определяют релевантность вертикального домена (например, Картинки, Видео) запросу на основе общих характеристик, не учитывая индивидуальные предпочтения пользователя. Это приводит к неоптимальной выдаче, когда пользователю, предпочитающему видео, показываются текстовые результаты, или наоборот. Изобретение улучшает пользовательский опыт, адаптируя состав и порядок смешивания результатов под конкретного человека.
Что запатентовано
Запатентован способ персонализации агрегированных результатов поиска. Суть изобретения заключается в оценке «Параметра предпочтительной агрегации для конкретного пользователя» (Preferred Aggregation Parameter). Этот параметр рассчитывается на основе исторических данных о взаимодействии пользователя с общим (веб) и вертикальным контентом. Затем этот параметр используется для ранжирования результатов общего и вертикального поиска по отношению друг к другу, определяя финальную структуру SERP.
Как это работает
Система анализирует историю поиска пользователя и извлекает персонализированные характеристики, разделенные на три класса: общие требования к агрегированному поиску (любит ли пользователь вертикали в целом), конкретные предпочтения к вертикалям (какие именно вертикали он предпочитает) и запрос-специфичные предпочтения. Эти характеристики, основанные на метриках кликов (CTR, время ожидания, последние клики), используются для обучения модели машинного обучения (упоминается Gradient Boosted Decision Tree, GBDT). Эта модель вычисляет Параметр предпочтительной агрегации. На этапе блендинга результаты из веба и вертикалей переранжируются относительно друг друга на основе этого параметра, адаптируя выдачу под предпочтения пользователя.
Актуальность для SEO
Высокая. Персонализация и агрегированный поиск являются ключевыми элементами современных поисковых систем. Использование истории поведения для адаптации блендинга соответствует общим трендам развития поиска Яндекса, направленным на улучшение пользовательского опыта и метрик качества (например, Профицит).
Важность для SEO
Влияние на SEO значительно (8/10). Патент описывает механизм, который напрямую влияет на видимость и позиционирование контента в выдаче. Видимость становится зависимой от предпочтений конкретного пользователя: для одного пользователя ваш веб-сайт может быть на первой позиции, а для другого он может быть смещен вниз блоком вертикального поиска (например, видео или картинками). Это подчеркивает критическую важность оптимизации контента под вертикали и формирования позитивного опыта взаимодействия.
Детальный разбор
Термины и определения
- Агрегированный результат поиска (Aggregated Search Result)
- Интегрирование (блендинг) результатов общего (веб) поиска и результатов вертикального поиска в пределах одной страницы результатов поиска (SERP).
- Вертикальный домен (Vertical Domain)
- Информационный домен, содержащий контент определенного типа (например, изображения, видео, новости, погода, музыка). Поиск по нему дает «результат вертикального поиска».
- Общий домен (General Domain)
- Контент общего вида, например, индексированный Интернет-контент (веб). Поиск по нему дает «результат общего поиска» (или «сетевой результат»).
- Параметр предпочтительной агрегации для конкретного пользователя (Preferred Aggregation Parameter)
- Ключевой элемент изобретения. Инструмент ранжирования (скор), основанный на характеристиках истории поисков пользователя. Используется для ранжирования агрегированных результатов (веб и вертикальных) относительно друг друга на этапе блендинга.
- Характеристики истории поиска пользователя
- Данные из истории взаимодействия пользователя с результатами поиска. Включают метрики кликов (C), показов (S), CTR, время ожидания (Dwell Time), последние клики.
- Требования к агрегированному поиску
- Класс 1 персонализированных признаков. Описывает, заинтересован ли пользователь в вертикальных результатах в целом.
- Конкретные предпочтения к вертикалям
- Класс 2 персонализированных признаков. Описывает желание пользователя получать результаты из конкретной вертикали (например, Видео) для всех его поисковых запросов (долгосрочный интерес).
- Способность переходить по вертикалям
- Класс 3 персонализированных признаков. Отражает потребности пользователя для конкретного запроса (краткосрочный интент), которые могут не совпадать с его общими предпочтениями.
- GBDT (Gradient Boosted Decision Tree)
- Алгоритм градиентного бустинга дерева решений. Используется в патенте для создания функции агрегации.
Ключевые утверждения (Анализ Claims)
Патент защищает метод персонализации процесса смешивания (блендинга) результатов из разных источников на основе истории пользователя.
Claim 1 (Формула изобретения, п. 1): Описывает базовый механизм.
- Система оценивает Параметр предпочтительной агрегации для пользователя.
- Оценка основана на прошлых предпочтениях пользователя относительно агрегированного общего (веб) и вертикального содержимого.
- Система ранжирует результат общего поиска и результат вертикального поиска по отношению друг к другу.
- Это ранжирование (определение порядка смешивания) зависит от вычисленного Параметра предпочтительной агрегации.
- Формируется финальная SERP с учетом этого персонализированного ранжира.
Claims 6-9 (Формула изобретения, пп. 6-9): Описывают взаимодействие с базовым ранжированием.
Результаты общего и вертикального поиска могут быть предварительно ранжированы в рамках своих доменов (с помощью параметра общего/вертикального доменного ранжирования) ДО того, как произойдет персонализированное агрегированное ранжирование.
Claims 10-13 (Формула изобретения, пп. 10-13): Уточняют возможность многоуровневой персонализации.
Параметры доменного ранжирования (используемые для предварительного ранжирования) также могут зависеть от признаков для конкретного пользователя. Это означает, что персонализация может применяться как на этапе ранжирования внутри вертикали/веба, так и на этапе их смешивания.
Claims 14-19 (Формула изобретения, пп. 14-19): Детализируют используемые данные.
Параметр предпочтительной агрегации основан на характеристиках истории поиска, включая: предпочтения к конкретным вертикалям, интент, метрики поведения (CTR, время ожидания, последние клики), данные о запросе и данные из поискового лога.
Где и как применяется
Изобретение применяется на поздних этапах обработки поискового запроса, затрагивая слой смешивания результатов.
BLENDER – Метапоиск и Смешивание (MetaSearch & Blending)
Это основной слой применения патента. Компонент Blender получает списки результатов от разных вертикалей (Web, Video, Images) и результаты общего поиска. Он использует Параметр предпочтительной агрегации для конкретного пользователя для определения финального порядка смешивания.
- Входные данные: Запрос (q), Идентификатор пользователя (u), Списки ранжированных результатов из общего и вертикальных доменов.
- Выходные данные: Единый ранжированный список агрегированных результатов (SERP).
Офлайн-процессы и обработка данных
Значительная часть работы происходит офлайн:
- Анализ поисковых логов для сбора истории взаимодействий пользователей с общими и вертикальными результатами.
- Расчет персонализированных характеристик (три класса, описанные в патенте) на основе метрик кликов и времени ожидания.
- Обучение модели машинного обучения (GBDT) для предсказания релевантности различных типов результатов для пользователя.
На что влияет
- Структура SERP: Патент напрямую влияет на то, что пользователь увидит выше на странице — стандартные веб-результаты или блоки вертикального поиска (Колдунщики).
- Конкретные типы контента: Наибольшее влияние оказывается на контент, представленный в вертикальных доменах: изображения, видео, музыка, новости, погода (упомянуты в патенте).
- Специфические запросы: Влияние наиболее заметно на запросы с неоднозначным интентом или запросы, где релевантны несколько вертикалей. Патент указывает, что эффект персонализации коррелирует с энтропией клика запроса (разнообразием кликов по разным типам результатов).
- Конкретные ниши: Особенно сильно влияет на ниши с богатым мультимедийным контентом (рецепты, товары, развлечения), где конкуренция между форматами высока.
Когда применяется
- Триггеры активации: Запрос должен инициировать агрегированный поиск (т.е. есть релевантные результаты и в вебе, и в вертикалях).
- Условия работы: Наличие у пользователя достаточной истории поисков для расчета надежных характеристик персонализации. В описании патента упоминается фильтрация пользователей, которые видели результат в какой-либо вертикали по меньшей мере 5 раз за период сбора данных.
Пошаговый алгоритм
Процесс А: Офлайн-подготовка и обучение
- Сбор данных: Накопление логов поисковых сессий (запрос q, пользователь u, результат r, клики C, показы S, время ожидания).
- Извлечение характеристик: Расчет трех классов персонализированных характеристик для пользователей (Общие предпочтения вертикалей, Предпочтения конкретных доменов, Запрос-специфичные предпочтения), а также базовых (независимых от пользователя) характеристик.
- Обучение модели: Обучение алгоритма машинного обучения (GBDT) для предсказания релевантности результата (r) для запроса (q) и пользователя (u). Целевой меткой релевантности выступает, например, клик с временем ожидания более 30 секунд или последний клик в сессии.
Процесс Б: Обработка запроса в реальном времени
- Получение запроса и идентификация пользователя.
- Поиск по доменам и предварительное ранжирование: Выполняется поиск в общем и вертикальных доменах, результаты ранжируются внутри своих доменов.
- Извлечение характеристик: Для пары (пользователь, запрос) извлекаются или рассчитываются персонализированные и базовые характеристики.
- Расчет Параметра предпочтительной агрегации: Обученная модель (GBDT) применяется к каждому результату для вычисления персонализированного скора релевантности.
- Агрегация (Блендинг) и Переранжирование: Результаты общего и вертикального поиска ранжируются по отношению друг к другу на основе вычисленного персонализированного параметра.
- Формирование SERP: Отображение финальной персонализированной страницы результатов.
Какие данные и как использует
Данные на входе
- Поведенческие факторы: Критически важные данные. Используются логи сессий, включающие:
- Клики (C) и Показы (S) результатов (общих и вертикальных).
- Время ожидания (Dwell Time) после клика (пороги 30 и 100 секунд).
- Индикатор последнего клика в сессии.
- Пользовательские факторы: Идентификатор пользователя (UID, например, из cookies) для связи запроса с историей.
- Контентные факторы (Текстовые): Тексты запросов пользователя (используются для построения языковой модели пользователя и языковых моделей вертикалей).
- Системные данные: Тип результата, позиция результата в оригинальном (доменном) ранжировании, величина релевантности из алгоритма оригинального ранжирования.
Какие метрики используются и как они считаются
Система вычисляет множество характеристик на основе исторических данных. Ключевые метрики основаны на кликах и времени ожидания.
1. Базовые характеристики (независимые от пользователя, \(F^c\))
Рассчитываются для запроса (q) на основе кликов всех пользователей (\(\bullet\)). Включают CTR, CTR с Dwell Time >30s, >100s, Last Clicks.
Пример (Общий CTR): \(F^{c}=\frac{C(q,\bullet,\chi(r))}{S(q,\bullet,\chi(r))}\)
2. Персонализированные характеристики: Требования к агрегированному поиску (\(F^u\))
Оценивают взаимодействие пользователя (u) со всеми вертикальными результатами (\(\bullet_V\)) за всю историю запросов (\(\bullet\)).
Пример (Персональный CTR по всем вертикалям): \(F^{u}=\frac{C(\bullet,u,\bullet_{V})}{S(\bullet,u,\bullet_{V})}\)
Пример (Доля кликов по вертикалям от всех кликов): \(F_{\%}^{u}=\frac{C(\bullet,u,\bullet_{V})}{C(\bullet,u,\bullet)}\)
3. Персонализированные характеристики: Конкретные предпочтения к вертикалям (\(F^{uv}\))
Оценивают взаимодействие пользователя (u) с конкретным вертикальным доменом (\(V_j\)) за всю историю запросов (\(\bullet\)).
Пример (Персональный CTR по конкретной вертикали \(V_j\)): \(F^{uv}=\frac{C(\bullet,u,V_{j})}{S(\bullet,u,V_{j})}\)
Также используется Расстояние Кульбака-Лейблера (KL-Divergence) между языковой моделью пользователя (\(P_u\)) и языковой моделью вертикали (\(P_{Vj}\)):
$$\sum_{w\in W}P_{V_{j}}(w)*log\frac{P_{V_{j}}(w)}{P_{u}(w)}$$
4. Персонализированные характеристики: Способность переходить по вертикалям (\(F^{quv}\))
Оценивают взаимодействие пользователя (u) с конкретным вертикальным доменом (\(V_j\)) для конкретного запроса (q).
Пример (Персональный CTR по вертикали \(V_j\) для запроса q): \(F^{quv}=\frac{C(q,u,V_{j})}{S(q,u,V_{j})}\)
Алгоритмы машинного обучения: Упоминается Градиентный бустинг дерева решений (GBDT), который использует все эти характеристики для вычисления финального Параметра предпочтительной агрегации.
Выводы
- Персонализация структуры SERP: Яндекс активно персонализирует не только ранжирование ссылок внутри выдачи, но и саму структуру (блендинг) SERP. Порядок смешивания веб-результатов и вертикальных блоков адаптируется под пользователя.
- Предпочтения форматов контента: Система определяет, какие форматы контента (веб, картинки, видео и т.д.) предпочитает пользователь, и использует эту информацию для определения позиций вертикальных блоков (колдунщиков).
- Три уровня персонализации блендинга: Патент четко определяет три класса признаков: (1) общая склонность к смешанной выдаче, (2) долгосрочные предпочтения конкретных вертикалей, (3) краткосрочный интент для конкретного запроса.
- Поведенческие факторы как основа: Поведенческие данные, особенно удовлетворенные клики (с длительным временем ожидания >30с, >100с) и последние клики, являются основой для расчета признаков и обучения модели агрегации (GBDT).
- Вариативность видимости: Видимость контента сайта (как веб-страниц, так и медиа-контента) может значительно варьироваться для разных пользователей по одному и тому же запросу.
Практика
Best practices (это мы делаем)
- Диверсификация контент-стратегии: Необходимо инвестировать в создание высококачественного контента для релевантных вертикалей (Изображения, Видео, Новости, Товары). Этот контент может быть агрессивно повышен в выдаче (вплоть до первой позиции) для пользователей, которые исторически им интересуются.
- Оптимизация под вертикальные поиски (VSO): Критически важно оптимизировать контент для Яндекс.Картинок, Яндекс.Видео и т.д. Сильные позиции в вертикальном поиске увеличивают вероятность попадания в персонализированный блендинг на основной выдаче.
- Максимизация удовлетворенности пользователя (Dwell Time): Патент явно использует клики с длительным временем ожидания (более 30 и 100 секунд) как сигнал релевантности для обучения модели агрегации. Работа над поведенческими факторами и удержанием пользователя на сайте критически важна для всех типов контента.
- Формирование паттернов потребления: Стратегически важно приучать свою аудиторию к потреблению определенных типов контента. Если пользователи вашего сайта часто ищут и кликают на видео, Яндекс учтет это предпочтение и будет чаще и выше показывать им видеоконтент (в том числе ваш) в агрегированном поиске.
Worst practices (это делать не надо)
- Игнорирование вертикальной оптимизации: Фокусировка исключительно на текстовом SEO для основного веб-поиска может привести к потере значительной части видимости, так как веб-результаты могут быть понижены в пользу вертикальных блоков для заинтересованных пользователей.
- Предположение о статической структуре SERP: Нельзя полагаться на то, что структура выдачи одинакова для всех. Мониторинг позиций должен учитывать динамический и персонализированный характер блендинга.
- Кликбейт в вертикальных результатах: Использование заманчивых, но нерелевантных превью для вертикального контента. Это приведет к коротким кликам (Dwell Time < 30 сек), что негативно скажется на расчете персонализированных характеристик и уменьшит вероятность показа вашего контента этому пользователю в будущем.
Стратегическое значение
Патент подтверждает стратегический приоритет Яндекса на доставку информации в том формате, который предпочитает пользователь. Это означает, что Яндекс стремится показать не просто самый релевантный документ, а самый релевантный *тип* ответа. Для SEO это подчеркивает необходимость холистической стратегии, охватывающей все релевантные форматы контента. Персонализация в Яндексе распространяется далеко за пределы ранжирования ссылок и затрагивает фундаментальную архитектуру поисковой выдачи.
Практические примеры
Сценарий 1: Долгосрочные предпочтения формата (Класс 2 признаков)
- Запрос: «Рецепт борща».
- Пользователь А: Исторически часто ищет и долго просматривает видео-рецепты.
- Пользователь Б: Исторически предпочитает текстовые пошаговые рецепты и редко кликает на видео.
- Действие системы: Система рассчитывает Параметр предпочтительной агрегации. Для пользователя А вес вертикали Видео будет высоким, для Б — низким.
- Результат: Пользователь А увидит блок Яндекс.Видео на первой или второй позиции SERP. Пользователь Б увидит сначала текстовые веб-результаты, а блок Видео будет смещен вниз.
Сценарий 2: Контекстный интент (Класс 3 признаков)
- Пользователь В: Обычно предпочитает читать новости (Высокое общее предпочтение вертикали Новости).
- Текущий Запрос: «Кот Мурзик».
- История по этому запросу: Ранее пользователь В уже вводил запрос «Кот Мурзик» и активно кликал на Яндекс.Картинки.
- Действие системы: Несмотря на общую любовь пользователя к Новостям, система обнаруживает сильный сигнал контекстного интента к Картинкам для этого конкретного запроса (признак «Способность переходить по вертикалям»).
- Результат: Блок Яндекс.Картинок будет показан высоко в выдаче, даже если общие предпочтения пользователя (Класс 2) говорили бы об обратном.
Вопросы и ответы
Что такое «Параметр предпочтительной агрегации»?
Это ключевая метрика в патенте, представляющая собой персонализированный скор релевантности. Он рассчитывается для каждого результата (как веб, так и вертикального) на основе истории взаимодействия пользователя с различными типами контента. Этот параметр используется на этапе блендинга (смешивания), чтобы определить, в каком порядке расположить веб-результаты и блоки вертикалей относительно друг друга.
На каких данных основана эта персонализация?
Персонализация основана исключительно на истории поискового поведения пользователя. Ключевыми данными являются клики (CTR), время ожидания (Dwell Time, в патенте упоминаются пороги 30 и 100 секунд) и последние клики в сессии. Система анализирует, как часто пользователь взаимодействует с веб-результатами по сравнению с вертикальными, и какие именно вертикали он предпочитает.
Какие три класса персонализированных характеристик выделяет патент?
Патент выделяет три класса признаков. Класс 1: «Требования к агрегированному поиску» — любит ли пользователь вертикальные результаты в целом. Класс 2: «Конкретные предпочтения к вертикалям» — какие именно вертикали (видео, картинки) пользователь предпочитает в своей истории (долгосрочный интерес). Класс 3: «Способность переходить по вертикалям» — предпочтения пользователя в контексте конкретного запроса (краткосрочный интент).
Влияет ли этот патент на ранжирование внутри веб-поиска?
Основное применение патента — это ранжирование веб-результатов *относительно* вертикальных на этапе блендинга. Однако в Claims (пп. 10-13) упоминается, что предварительное ранжирование внутри общего (веб) домена также может использовать персонализированные признаки. Таким образом, патент допускает многоуровневую персонализацию, хотя фокус сделан на агрегации.
Как это влияет на SEO для сайтов с мультимедийным контентом?
Это критически важно. Если ваш контент хорошо оптимизирован под вертикали (например, Видео или Картинки), он имеет шанс попасть в топ основной выдачи через блендинг, но его позиция будет сильно зависеть от предпочтений конкретного пользователя. Это подчеркивает необходимость создания качественного мультимедиа и оптимизации его под вовлечение (длинные клики).
Какой алгоритм машинного обучения используется для расчета параметра агрегации?
В патенте явно упоминается использование алгоритма градиентного бустинга дерева решений (GBDT — Gradient Boosted Decision Tree). Этот алгоритм обучается на базовых и персонализированных характеристиках, чтобы предсказать вероятность того, что конкретный результат будет релевантен пользователю. На практике Яндекс, вероятно, использует CatBoost, который является реализацией GBDT.
Как я могу повлиять на предпочтения пользователей в свою пользу?
Ключ к влиянию — это качество и вовлеченность. Создавайте лучший контент в нужном формате и оптимизируйте его представление (например, превью видео/картинок), чтобы максимизировать CTR и время ожидания (>30 сек). Если пользователи будут систематически выбирать ваш контент определенного типа и долго его изучать, система зафиксирует это предпочтение и будет чаще показывать им этот тип контента в будущем.
Что такое «энтропия клика» и как она связана с этим патентом?
Энтропия клика — это мера разнообразия кликов по запросу. Если клики распределены между вебом, видео и картинками, энтропия высокая. Патент показывает, что эффект от персонализированной агрегации выше для запросов с более высокой энтропией клика, так как там есть больше пространства для адаптации выдачи под индивидуальные предпочтения.
Как этот патент влияет на мониторинг позиций?
Он значительно усложняет мониторинг. Поскольку порядок смешивания результатов персонализирован, выдача у разных пользователей будет отличаться. Усредненные позиции, снятые без учета персонализации, могут не отражать реальную видимость сайта для целевой аудитории. Необходимо смещать фокус с позиций на анализ трафика из разных вертикалей.
Работает ли эта система для новых пользователей без истории?
Для работы механизма необходима история поисков пользователя и его идентификация (Cookie/Login). Для новых пользователей или пользователей без достаточной истории система будет использовать стандартный, не персонализированный алгоритм блендинга, основанный на общих данных о запросе, вертикалях и усредненных поведенческих данных.