Как Яндекс генерирует отсутствующие признаки ранжирования, заимствуя их значения из похожих запросов

Яндекс патентует метод для решения проблемы нехватки данных при ранжировании (проблема «холодного старта»). Если у документа отсутствует значение для важного признака (например, поведенческих данных) по текущему запросу, система находит похожие прошлые запросы, по которым этот документ уже оценивался. Значения признаков из этих прошлых запросов переносятся и агрегируются для оценки документа по текущему запросу пропорционально степени их схожести.

Описание

Какую задачу решает

Патент решает проблему неполноты данных (data sparsity) при ранжировании. Алгоритмы машинного обучения (MLA) используют множество признаков для оценки релевантности, но часто для конкретной пары «запрос-документ» значения критически важных признаков отсутствуют (например, нет статистики поведенческих факторов из-за недостатка взаимодействий). Это снижает точность ранжирования и создает проблему «холодного старта». Патент предлагает механизм для генерации (импутации) этих отсутствующих значений, что улучшает качество ранжирования.

Что запатентовано

Запатентована система генерации отсутствующих значений признаков ранжирования. Суть изобретения заключается в переносе (трансфере) знаний: если для текущего запроса значение признака у документа отсутствует, система ищет похожие прошлые запросы (past queries), для которых значение этого признака у данного документа известно. Отсутствующее значение генерируется на основе этих исторических значений, взвешенных по степени схожести (Similarity Parameter) между текущим и прошлыми запросами.

Как это работает

Когда система обнаруживает, что у документа нет значения для определенного признака по текущему запросу, активируется механизм импутации. Сначала извлекается набор прошлых запросов, по которым этот документ показывался (часто используя предварительно рассчитанные Аннотации документа). Затем определяется параметр схожести между текущим и прошлыми запросами. Схожесть может рассчитываться двумя путями: на основе пересечения результатов выдачи и поведения пользователей (поведенческая схожесть) или с помощью отдельного MLA на основе текстового содержания (текстовая схожесть). Наконец, отсутствующее значение признака генерируется путем агрегации известных значений этого признака по прошлым запросам, взвешенных по их параметру схожести.

Актуальность для SEO

Высокая. Решение проблемы разреженности данных и «холодного старта» является центральной задачей современных поисковых систем. Методы переноса знаний (Transfer Learning) и использование схожести запросов (как поведенческой, так и семантической через эмбеддинги) активно применяются в Яндексе для улучшения качества ранжирования, особенно для новых документов и редких запросов.

Важность для SEO

Влияние на SEO значительно (8/10). Патент демонстрирует механизм, при котором успешность документа (например, хорошие поведенческие факторы) по одному запросу может быть напрямую перенесена для улучшения его ранжирования по другому, семантически похожему запросу, даже если по второму запросу статистики еще нет. Это подчеркивает критическую важность построения Topical Authority и оптимизации под кластеры интентов, а не под отдельные ключевые слова.

Детальный разбор

Термины и определения

MLA (Алгоритм машинного обучения)

В патенте упоминается несколько MLA:

Первый MLA (220): Основной алгоритм ранжирования (упоминается GBDT – Gradient Boosted Regression Trees, аналог CatBoost). Использует признаки для финального ранжирования.
Второй MLA (240): Вспомогательный алгоритм (упоминается как модифицированная DSSM), используемый для обогащения признаков документа.
Третий MLA (260): Алгоритм (например, нейронная сеть), обученный определять текстовую схожесть запросов. (Примечание: В Claims 5 и 6 он называется Вторым MLA).

Аннотация (Annotation) / Вектор Аннотации (344, 632)

Представление документа, генерируемое офлайн. Оно содержит список прошлых запросов, по которым этот документ показывался, и, опционально, связанные с ними параметры пользовательских взаимодействий (например, CTR). Используется для быстрого доступа к истории документа.

Вектор Запроса (Query Vector) (434)

Поведенческий вектор. Численное представление запроса, построенное на основе документов, показанных в ответ на этот запрос, и взаимодействий пользователей с этими документами.

Вектор Слов (Word Vector) (514)

Текстовый вектор (эмбеддинг). Численное представление запроса, сгенерированное на основе его текста с использованием алгоритмов вложения слов (упомянуты word2vec, LDA).

Параметр Сходства (Similarity Parameter)

Метрика, указывающая на степень схожести между двумя запросами. Бывает двух типов:

Первый Параметр Сходства (Поведенческий) (482): Основан на пересечении результатов поиска и схожести пользовательских взаимодействий. Рассматривается как эталон (Ground Truth).
Второй Параметр Сходства (Текстовый) (532): Генерируется Третьим MLA на основе Векторов Слов. Является аппроксимацией Поведенческого параметра.

Признак (Feature) (624)

Переменная, используемая MLA для ранжирования. В контексте патента это может быть зависящий от запроса признак или параметр пользовательского взаимодействия.

Ключевые утверждения (Анализ Claims)

Ядром изобретения является метод генерации значения признака для документа, когда это значение отсутствует для текущего запроса (импутация признака).

Claim 1 (Независимый пункт): Описывает основной процесс генерации отсутствующего признака.

Система получает запрос (Q) и генерирует набор релевантных документов.
Выбирается документ (D), у которого отсутствует значение для определенного признака (F).
Извлекается набор прошлых запросов (PQs), по которым документ D ранее показывался в SERP.
Для этих PQs извлекаются соответствующие (исторические) значения признака F.
Определяется параметр схожести между текущим запросом Q и каждым из прошлых запросов PQs.
Генерируется отсутствующее значение признака F для документа D по запросу Q. Оно основывается на (i) параметрах схожести и (ii) исторических значениях признака F.
Основной MLA ранжирует документ D, используя это сгенерированное значение.

Claim 2 (Зависимый): Уточняет источник прошлых запросов.

Прошлые запросы извлекаются с использованием предварительно сгенерированной аннотации документа (Вектор Аннотации).

Claims 3 и 4 (Зависимые): Описывают метод определения Поведенческой схожести.

Параметр схожести определяется на основе схожести наборов документов (пересечение выдачи), показанных в ответ на текущий и прошлый запросы (Claim 3). Дополнительно, схожесть учитывает параметры пользовательских взаимодействий с этими документами (Claim 4).

Claims 5 и 6 (Зависимые): Описывают метод определения Текстовой схожести и обучение необходимой модели (Второй MLA в Claims / Третий MLA 260 в описании).

Система использует обученный MLA для определения схожести на основе текстового содержимого запросов (Claim 5).

Claim 6 детализирует фазу обучения этого MLA:

Генерируются Поведенческие Векторы Запросов на основе пользовательских взаимодействий.
Рассчитывается эталонный (поведенческий) параметр схожести между парами прошлых запросов.
MLA обучается предсказывать этот эталонный параметр схожести, используя только текстовое содержимое запросов. Цель — научить модель аппроксимировать поведенческую схожесть через текстовую близость.

Claim 7 (Зависимый): Вводит пороговое значение.

Для генерации признака выбираются только те прошлые запросы, чей параметр сходства превышает предопределенный порог.

Где и как применяется

Изобретение применяется на этапе ранжирования для обогащения набора признаков, но тесно интегрировано с офлайн-процессами.

RANKING – Ранжирование (Уровни L2/L3)
Основное применение происходит на этапе вычисления признаков перед финальным скорингом. Когда система ранжирования (Первый MLA) обрабатывает документ и обнаруживает отсутствие значения для признака (например, поведенческого фактора), активируется описанный механизм.

Процесс: Система выполняет поиск похожих запросов (используя Аннотации), извлекает исторические значения и генерирует отсутствующее значение (например, через взвешенное усреднение).
Выход: Сгенерированное значение признака передается в Первый MLA для расчета ранга.

QUERY PROCESSING – Понимание Запросов
На этом этапе может происходить генерация текстовых векторов (эмбеддингов) для текущего запроса, которые затем используются Третьим MLA (260) для определения текстовой схожести, если поведенческих данных недостаточно.

Офлайн-процессы (Связаны с INDEXING и Data Processing)
Значительная часть работы происходит офлайн на Сервере Обучения (140):

Генерация Векторов Аннотации (Процедура 300): Анализ логов для связывания документов с прошлыми запросами и взаимодействиями.
Расчет Поведенческой Схожести (Процедура 400): Генерация Векторов Запросов и расчет эталонной поведенческой схожести между прошлыми запросами.
Обучение Третьего MLA (Процедура 500): Обучение модели предсказывать поведенческую схожесть на основе текстового содержимого.

На что влияет

Специфические запросы (Холодный старт): Наибольшее влияние оказывается на новые, редкие или длиннохвостые (long-tail) запросы, по которым статистика взаимодействий ограничена или отсутствует.
Типы признаков: Механизм критически важен для расчета зависящих от запроса признаков и параметров пользовательского взаимодействия (например, прогнозируемый CTR), для которых часто не хватает данных.
Документы с разреженными данными: Влияет на новые документы или документы, которые только начинают ранжироваться по определенному кластеру запросов.

Когда применяется

Алгоритм активируется динамически в процессе ранжирования.

Триггер активации: Момент, когда система ранжирования обнаруживает отсутствие значения для необходимого признака у конкретного документа в контексте текущего запроса. Это часто происходит из-за недостатка информации для расчета признака стандартным путем.
Условие применения: Должна существовать история показов этого документа по другим (прошлым) запросам, и для этих прошлых запросов значение интересующего признака должно быть известно.

Пошаговый алгоритм

Процесс состоит из офлайн-подготовки и онлайн-применения.

Процесс А: Офлайн-подготовка (Сервер Обучения)

Генерация Векторов Аннотации (Процедура 300):
- Анализ логов поиска и взаимодействий.
- Для каждого документа формируется Вектор Аннотации, содержащий историю прошлых запросов и связанных параметров взаимодействий (например, CTR).
Расчет Поведенческой Схожести (Эталон) (Процедура 400):
- Генерация Поведенческих Векторов Запросов на основе SERP и кликов.
- Расчет Первого Параметра Сходства между парами прошлых запросов.
Обучение Третьего MLA (Текстовая Схожесть) (Процедура 500):
- Генерация Текстовых Векторов Слов (эмбеддингов) для запросов.
- Обучение Третьего MLA предсказывать Поведенческую Схожесть, используя только Текстовые Векторы.

Процесс Б: Онлайн-обработка запроса и генерация признака (Сервер Поисковой Системы) (Процедура 600)

Получение запроса и кандидатов: Система получает текущий запрос (Q_new) и набор документов.
Идентификация проблемы: Система определяет документ (D), у которого отсутствует значение признака (F) по запросу Q_new.
Извлечение истории документа: Извлечение Вектора Аннотации для документа D, содержащего прошлые запросы (Q_past) и их значения признака F (F_past).
Расчет схожести: Определение Параметра Сходства (Sim) между Q_new и каждым Q_past. Используется либо Поведенческая схожесть, либо Текстовая схожесть (через Третий MLA).
Выбор и Фильтрация: Отбор подмножества наиболее похожих Q_past (например, схожесть выше порога).
Генерация признака (Импутация): Вычисление отсутствующего значения признака F. Например, путем усреднения исторических значений F_past, взвешенных по соответствующим Параметрам Сходства Sim.
Ранжирование: Использование сгенерированного значения признака в Первом MLA для расчета финального ранга документа D.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важные данные. Используются для генерации Аннотаций, расчета Поведенческой схожести (эталон) и обучения Третьего MLA. Включают CTR, Клики (Loss/Win), Время пребывания (Dwell time), Длинный/короткий клик. Данные берутся из Журнала Запросов (136) и Журнала Пользовательских Взаимодействий (138).
Контентные факторы (Текстовые): Тексты запросов используются для генерации Векторов Слов (эмбеддингов) при расчете Текстовой схожести. Текст и наименование документа упоминаются при обучении Второго MLA (DSSM).
Системные данные: Наборы документов (SERPs), показанные в ответ на запросы (используются для расчета пересечения выдачи). Исторические значения признаков ранжирования.

Какие метрики используются и как они считаются

Вектор Аннотации: Вектор, агрегирующий историю взаимодействий с документом по разным запросам.
Поведенческий Вектор Запроса: Вектор, представляющий запрос на основе его результатов и взаимодействий с ними.
Текстовый Вектор Слов (Эмбеддинг): Генерируется на основе текста запроса с помощью моделей Word Embedding (упомянуты word2vec, LDA, на практике вероятны более современные модели).
Параметр Сходства: Рассчитывается как мера близости между векторами запросов. В патенте упоминается косинусное сходство (cosine similarity) как пример расчета.
Генерация Признака: Финальное значение отсутствующего признака может рассчитываться как среднее взвешенное значений признака из похожих прошлых запросов, где весами выступают Параметры Сходства.

Выводы

Перенос ранжирующих сигналов между запросами: Яндекс явно использует механизм переноса (Transfer) значений признаков (включая поведенческие) с одного запроса на другой, если считает их похожими. Успех документа в одном контексте напрямую способствует его успеху в схожем контексте.
Решение проблемы «холодного старта»: Этот механизм критически важен для ранжирования по новым или редким запросам, где стандартной статистики недостаточно. Система может быстро сформировать оценку, опираясь на существующие данные по смежным запросам.
Поведенческая схожесть как эталон: Патент подтверждает, что схожесть запросов, основанная на реальном поведении пользователей (пересечение выдачи и кликов), является эталоном (Ground Truth).
Текстовая схожесть как аппроксимация: Текстовая (семантическая) схожесть, рассчитываемая с помощью MLA (на основе эмбеддингов), используется как замена поведенческой схожести, когда данных нет. Она обучается имитировать поведенческую схожесть.
Центральная роль поведенческих данных: Поведенческие данные используются двояко: они являются теми признаками, которые часто переносятся (например, CTR), и они же определяют эталонную схожесть запросов для обучения всей системы.

Практика

Best practices (это мы делаем)

Фокус на Topical Authority и охват семантического кластера: Создавайте контент, который отвечает на широкий спектр связанных запросов в рамках одной темы. Это увеличивает вероятность того, что позитивные сигналы (например, хороший CTR), полученные по одному запросу, будут перенесены на другие запросы в этом кластере, где статистики еще недостаточно.
Максимизация позитивных поведенческих сигналов: Поскольку переносятся именно поведенческие признаки, критически важно добиваться высокой вовлеченности пользователей. Хорошие ПФ не только улучшают ранжирование по текущему запросу, но и формируют сильные исторические значения в Векторе Аннотации для будущего переноса.
Оптимизация под интент и анализ SERP Similarity: Изучайте пересечение выдачи по разным запросам. Если Яндекс показывает схожие результаты, он считает запросы поведенчески близкими. Убедитесь, что ваша страница соответствует интенту всего кластера, чтобы максимизировать эффект от переноса признаков.
Использование QBST фраз: Насыщайте текст терминами из связанных запросов и синонимами. Это увеличивает вероятность того, что Третий MLA определит высокую текстовую схожесть между разными формулировками одного интента, что позволит перенести факторы, даже если поведенческой схожести еще нет.

Worst practices (это делать не надо)

Создание узкоспециализированных страниц под каждый НЧ запрос: Стратегия создания множества страниц, оптимизированных только под один точный запрос, менее эффективна. Такие страницы не смогут эффективно накапливать и переносить поведенческие сигналы в рамках кластера.
Игнорирование юзабилити и вовлеченности: Если документ плохо работает (низкий CTR, короткие клики) по одному запросу, существует риск, что эти негативные значения признаков будут перенесены на похожие запросы, ухудшая ранжирование в рамках всего кластера.
Разделение похожих интентов на разные страницы (Каннибализация): Создавая отдельные страницы для очень похожих запросов, вы размываете поведенческие сигналы. Лучше объединить их на одной сильной странице, которая аккумулирует ПФ по всему кластеру.

Стратегическое значение

Патент подтверждает стратегический курс Яндекса на холистическую оценку документа в контексте всего поискового поведения пользователей. Ранжирование перестает быть изолированной задачей для пары. Для SEO это означает, что долгосрочная стратегия должна фокусироваться на создании авторитетного контента, который стабильно демонстрирует высокие показатели вовлеченности по широкому спектру запросов в рамках своей тематики, создавая синергетический эффект благодаря механизму переноса признаков.

Практические примеры

Сценарий: Перенос CTR для нового или редкого запроса

Ситуация: У вас есть статья «Полное руководство по выбору треккинговых ботинок». Она хорошо ранжируется и имеет высокий исторический CTR (Признак F = 15%) по запросу «как выбрать ботинки для похода» (Прошлый Запрос, Qp1).
Новый запрос (Текущий Запрос, Q_new): Пользователь вводит редкий запрос «лучшая обувь для хайкинга в горах». Статистики по этому точному запросу нет (Признак F отсутствует).
Действие системы:
- Система идентифицирует отсутствие Признака F.
- Через Вектор Аннотации система находит Qp1.
- Третий MLA определяет высокую текстовую схожесть (Параметр Сходства = 0.9) между Q_new и Qp1 (так как поведенческих данных для Q_new нет).
- Система генерирует Признак F для нового запроса, основываясь на прошлом значении и схожести (например, агрегируя 15% с учетом веса 0.9).
Результат: Ваша статья получает высокий прогнозируемый CTR для нового запроса, что значительно повышает ее ранг в выдаче, опережая конкурентов, у которых нет такой положительной истории по схожим запросам.

Вопросы и ответы

В чем основная суть этого патента Яндекса?

Суть патента в решении проблемы нехватки данных («холодный старт») при ранжировании. Если для пары «запрос-документ» нет значения важного признака (например, CTR), система находит похожие прошлые запросы, по которым у этого документа есть значение этого признака. Затем она переносит это значение с прошлых запросов на текущий, пропорционально их схожести. Это позволяет точнее ранжировать документ, даже если статистики по нему мало.

Что такое Вектор Аннотации документа и какова его роль?

Вектор Аннотации — это предварительно рассчитанная структура данных для документа, которая содержит историю его показов: список прошлых запросов, которые приводили к показу этого документа, и связанные с ними пользовательские взаимодействия. Это позволяет системе быстро найти исторические данные для генерации отсутствующих признаков, не сканируя весь лог поиска в реальном времени.

Патент описывает два способа определения схожести запросов. В чем разница и какой важнее?

Первый способ — Поведенческая схожесть, основанная на пересечении выдачи и схожести кликов пользователей. Она считается эталоном (Ground Truth). Второй способ — Текстовая схожесть, рассчитываемая специальным MLA на основе эмбеддингов запросов. Текстовая схожесть обучается имитировать поведенческую и используется, когда поведенческих данных недостаточно. Таким образом, Поведенческая схожесть является приоритетной целью.

Как этот патент влияет на стратегию работы с поведенческими факторами (ПФ)?

Значение ПФ возрастает многократно. Хорошие поведенческие факторы теперь не только улучшают позиции по конкретному запросу, но и формируют сильные исторические значения признаков, которые будут переноситься на все похожие запросы. Это создает синергетический эффект: улучшая ПФ по части кластера, вы потенциально улучшаете ранжирование по всему кластеру.

Может ли этот механизм навредить сайту?

Да, если у вашего документа плохие значения признаков по прошлым запросам. Например, если по запросу А у документа низкий CTR, и система определит, что запрос Б похож на А, то это низкое значение CTR может быть перенесено на запрос Б. Механизм переносит как позитивные, так и негативные сигналы.

Как это влияет на сбор семантического ядра и кластеризацию?

Это подтверждает необходимость фокусироваться на широких семантических кластерах и Topical Authority. Необходимо понимать, какие запросы Яндекс считает поведенчески схожими (анализируя SERP Similarity). Стратегия должна заключаться в том, чтобы страница полностью отвечала на интент всего кластера, так как признаки ранжирования будут переноситься между запросами внутри этого кластера.

Какие типы признаков могут генерироваться этим способом?

В патенте указано (Claim 10), что это могут быть зависящие от запроса признаки или параметры пользовательского взаимодействия. На практике это чаще всего касается прогнозируемых поведенческих метрик, таких как прогнозируемый CTR (pCTR), или оценки, генерируемые вспомогательными моделями (например, DSSM).

Упоминаются ли в патенте конкретные модели эмбеддингов?

Да, в патенте явно упоминаются word2vec и LDA (Латентное размещение Дирихле) как примеры алгоритмов для создания Векторов Слов (эмбеддингов). Хотя на практике Яндекс, вероятно, использует более современные трансформерные модели (например, YATI), эти упоминания подтверждают базовый принцип использования векторных представлений текста для определения схожести.

Все ли прошлые запросы используются для генерации признака?

Нет. Патент описывает механизм фильтрации (Claim 7). Система рассчитывает параметр схожести между текущим запросом и прошлыми запросами из Аннотации документа. Затем она выбирает только те прошлые запросы, чей параметр схожести превышает определенный предопределенный порог. Это гарантирует, что перенос осуществляется только с действительно релевантных исторических данных.

Является ли этот патент разновидностью Query Expansion (Расширения запроса)?

Нет. Query Expansion обычно означает добавление синонимов или связанных терминов к исходному запросу для поиска большего числа документов (увеличение полноты). Этот патент описывает Feature Generation (Генерацию признаков) или Data Imputation. Он не меняет запрос, а заполняет пробелы в значениях факторов ранжирования для уже найденных документов, заимствуя данные из похожего контекста (увеличение точности оценки).