Как Яндекс прогнозирует недостающие факторы ранжирования, используя историю похожих запросов

Яндекс патентует метод генерации отсутствующих значений признаков ранжирования (например, поведенческих) для решения проблемы «холодного старта». Если данных по текущему запросу нет, система находит похожие прошлые запросы, по которым документ уже ранжировался. Значения признаков из прошлого переносятся на текущий запрос с учетом степени схожести запросов, обеспечивая более точное ранжирование.

Описание

Какую задачу решает

Патент решает проблему «холодного старта» (cold start problem) и разреженности данных при ранжировании по новым или редким запросам. Ключевая проблема заключается в отсутствии исторических данных, особенно поведенческих факторов (например, CTR), для конкретной пары запрос-документ. Это затрудняет точную оценку релевантности алгоритмом машинного обучения (MLA). Изобретение предлагает механизм генерации (импутации) этих отсутствующих значений, используя данные, накопленные для этого же документа по другим, но похожим запросам.

Что запатентовано

Запатентована система генерации отсутствующих значений признаков (feature generation/imputation). Суть изобретения заключается в вычислении ожидаемого значения признака для документа по текущему запросу путем анализа исторических значений этого же признака для того же документа, но по прошлым запросам. Эти исторические значения агрегируются и взвешиваются на основе параметра сходства между текущим и прошлыми запросами.

Как это работает

Если при ранжировании документа по текущему запросу отсутствует значение важного признака (например, CTR), система обращается к базе данных журнала поиска. Извлекаются прошлые запросы, по которым этот документ уже показывался. Определяется степень сходства между текущим и прошлыми запросами. Сходство может определяться двумя путями: на основе пересечения результатов и поведения пользователей (поведенческое сходство) или с помощью второго алгоритма машинного обучения (Второй MLA), анализирующего текст запросов (текстовое сходство). Затем система генерирует отсутствующее значение, основываясь на исторических значениях признака по похожим запросам и степени их сходства.

Актуальность для SEO

Высокая. Обработка разреженных данных и генерация признаков для решения проблемы «холодного старта» являются критически важными задачами в современных поисковых системах. Использование сходства запросов (поведенческого и семантического) для переноса знаний является стандартной практикой.

Важность для SEO

Влияние на SEO значительно (8/10). Этот патент описывает механизм, который позволяет Яндексу переносить ранжирующие сигналы (особенно поведенческие) между похожими запросами. Это означает, что исторический успех документа по одному запросу может напрямую улучшить его ранжирование по новому или редкому похожему запросу, даже если по нему еще нет статистики. Это подчеркивает важность построения Topical Authority и стабильной производительности по всему кластеру.

Детальный разбор

Термины и определения

Алгоритм машинного обучения (MLA): Основной алгоритм ранжирования (например, CatBoost), использующий множество признаков для определения порядка документов.
Второй алгоритм машинного обучения (Второй MLA): Вспомогательный алгоритм, обученный определять параметр сходства между запросами на основе их текстового содержимого. Используется, когда поведенческих данных недостаточно.
База данных журнала поиска: Хранилище исторических данных о запросах, показанных результатах (SERP) и взаимодействиях пользователей.
Параметр сходства (Similarity Parameter): Метрика, указывающая на степень схожести между текущим и прошлым запросами. Может быть рассчитан на основе поведения пользователей или текстового анализа.
Параметр пользовательского взаимодействия: Поведенческие метрики (клики, CTR, dwell time). Один из типов признаков, которые могут быть сгенерированы этим методом (Claim 10).
Зависящий от запроса признак: Признак ранжирования, значение которого зависит как от документа, так и от запроса (например, BM25, поведенческие факторы для пары запрос-документ). Также может быть сгенерирован этим методом (Claim 10).
Вектор запроса (Query Vector): Упоминается в Claim 6. Численное представление запроса, основанное на параметрах пользовательского взаимодействия, связанных с результатами поиска по этому запросу (Поведенческий вектор).
Прошлый запрос (Past Query): Запрос, который ранее задавался поисковой системе и по которому накоплена статистика.

Ключевые утверждения (Анализ Claims)

Патент описывает систему генерации признаков для ранжирования, решающую проблему отсутствия данных путем использования истории похожих запросов.

Claim 1 (Независимый пункт): Описывает базовый механизм работы системы.

Система получает запрос и генерирует набор релевантных документов.
Идентифицируется документ, у которого отсутствует значение для некоторого признака (например, нет истории CTR по этому запросу).
Из журнала поиска извлекаются прошлые запросы и соответствующие значения этого же признака для данного документа по этим прошлым запросам.
Вычисляется параметр сходства между текущим запросом и каждым из прошлых запросов.
Генерируется отсутствующее значение признака. Это значение основано на: (i) параметрах сходства прошлых запросов и (ii) значениях признака по этим прошлым запросам. (Это подразумевает взвешенное агрегирование).
Основной MLA ранжирует документы, используя сгенерированное значение признака.

Claims 3 и 4 (Поведенческое сходство): Определяют, как может рассчитываться параметр сходства для известных запросов.

Сходство основано на степени пересечения наборов документов в выдаче (SERP Similarity) (Claim 3).
Дополнительно, сходство основано на схожести параметров пользовательских взаимодействий с этими документами (Claim 4). Если пользователи кликают на одни и те же документы по разным запросам, запросы считаются поведенчески схожими.

Claims 5 и 6 (Текстовое сходство и Второй MLA): Описывают альтернативный метод расчета сходства для новых или редких запросов.

Система может использовать Второй MLA, который определяет сходство запросов на основе их текстового содержимого (Claim 5).
Обучение Второго MLA (Claim 6): Происходит офлайн. Система генерирует поведенческие векторы запросов на основе пользовательских взаимодействий. Рассчитывается поведенческое сходство между парами запросов (Ground Truth). Второй MLA обучается предсказывать это поведенческое сходство, используя только текст запросов. Цель — аппроксимировать поведенческое сходство текстовым.

Claim 8 (Уточнение генерации): Указывает, что генерация значения признака может дополнительно основываться на соответствующем показателе релевантности документа прошлому запросу. Это добавляет дополнительный вес данным от более релевантных прошлых показов.

Где и как применяется

Изобретение применяется на этапе ранжирования для обогащения набора признаков, используемых основной формулой.

RANKING – Ранжирование (Уровни L2/L3)

Основное применение происходит на этапе извлечения и генерации признаков перед финальным расчетом релевантности основным MLA.

Проверка наличия признаков: Когда основной MLA запрашивает значение признака (например, CTR) для пары запрос-документ, система проверяет его наличие.
Обработка отсутствующих значений: Если значение отсутствует (например, запрос новый или редкий), активируется механизм импутации. Система ищет похожие запросы и генерирует ожидаемое значение.
Применение в формуле: Сгенерированное значение используется основным MLA наравне с фактически измеренными признаками.

QUERY PROCESSING – Понимание Запросов

На этом этапе происходит расчет параметра сходства. Это включает выбор метода (поведенческий или текстовый) и, при необходимости, использование Второго MLA для анализа текстовых векторов (эмбеддингов).

Офлайн-процессы

Значительная часть работы происходит офлайн:

Обработка журналов поиска для расчета поведенческих векторов запросов.
Обучение Второго MLA для предсказания поведенческого сходства по тексту.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на новые, редкие и длиннохвостые (long-tail) запросы, для которых не хватает исторических данных. Система позволяет применить накопленные знания о качестве документа к новому контексту.
Типы контента: Особенно выигрывают документы с богатой историей и Topical Authority. Сайты, которые стабильно показывают хорошие результаты по широкому спектру смежных запросов, получают преимущество за счет переноса позитивных сигналов.

Когда применяется

Алгоритм применяется во время процесса ранжирования.

Триггер активации: Когда для документа из набора кандидатов отсутствует значение для определенного признака ранжирования (Claim 1) (в частности, зависящего от запроса или поведенческого).
Условие применения: Документ должен иметь историю показов по другим (прошлым) запросам, для которых значение интересующего признака существует (Claim 1).
Пороговые значения: Система использует предопределенный порог для параметра сходства (Claim 7). Только достаточно похожие прошлые запросы используются для генерации признака.

Пошаговый алгоритм

Процесс А: Генерация признака в реальном времени

Получение запроса и кандидатов: Система получает текущий запрос (Q) и набор документов (D).
Идентификация отсутствующего признака: Определяется, что для Документа D1 отсутствует значение Признака F (например, CTR по запросу Q).
Извлечение истории: Из журнала поиска извлекается набор прошлых запросов (P1, P2, …), по которым D1 уже показывался, и исторические значения Признака F (F1, F2, …).
Расчет сходства: Для каждого прошлого запроса (Pn) рассчитывается Параметр Сходства (Sn) с текущим запросом Q.
- Путь 1 (Поведенческий): Сравнение результатов и пользовательских взаимодействий (если данные есть).
- Путь 2 (Текстовый): Использование Второго MLA (если данных нет).
Фильтрация: Отбор прошлых запросов, чей параметр сходства (Sn) превышает порог.
Генерация значения признака: Расчет ожидаемого значения Признака F для пары (Q, D1) на основе исторических значений (Fn) и параметров сходства (Sn). Также может учитываться показатель релевантности (Rn) (Claim 8). Упрощенная иллюстрация расчета: $F(Q,D1) \approx \frac{\sum (Sn * Fn * Rn)}{\sum Sn}$.
Ранжирование: Использование сгенерированного значения в основном MLA для ранжирования D1.

Процесс Б: Офлайн-обучение Второго MLA

Сбор данных: Анализ логов поиска для идентификации пар прошлых запросов.
Расчет Поведенческого Сходства (Ground Truth): Для каждой пары вычисляется истинный параметр сходства на основе пересечения результатов и схожести взаимодействий пользователей.
Обучение: Второй MLA обучается предсказывать это поведенческое сходство, используя только текстовое содержимое запросов.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важны. Используются параметры пользовательских взаимодействий (клики, CTR и т.д.) для:
1. Расчета поведенческого сходства между запросами.
2. Обучения Второго MLA (в качестве целевой переменной/Ground Truth).
3. В качестве исторических значений признаков, которые переносятся на новый запрос.
Контентные факторы (Текстовые): Тексты запросов используются Вторым MLA для определения текстового сходства.
Системные данные: Журналы поиска (Query Logs), наборы документов (SERP) для прошлых запросов. Показатели релевантности документов прошлым запросам (Claim 8).

Какие метрики используются и как они считаются

Параметр Сходства (Similarity Parameter): Рассчитывается двумя способами: Поведенческий (на основе Claims 3, 4) или Текстовый (с помощью Второго MLA, Claim 5).
Вектор Запроса (Query Vector): Поведенческий вектор, генерируемый на основе взаимодействий пользователей с результатами поиска (Claim 6). Используется для расчета поведенческого сходства.
Генерация значения признака: Рассчитывается путем агрегации (например, взвешенного усреднения) исторических значений признака, где весами выступают параметры сходства и, возможно, показатели релевантности.

Выводы

Перенос поведенческих факторов между запросами: Яндекс системно переносит накопленные поведенческие сигналы (например, CTR) с одного запроса на другой похожий запрос. Это позволяет оценивать качество документа даже при отсутствии прямой истории по текущему запросу.
Решение проблемы «холодного старта» для запросов: Система напрямую решает проблему ранжирования по новым и редким запросам, позволяя быстро адаптироваться без ожидания накопления статистики.
Поведенческое сходство как эталон: Схожесть запросов, основанная на действиях пользователей, является для Яндекса эталоном (Ground Truth). Текстовое сходство (Второй MLA) обучается имитировать этот эталон и используется как запасной вариант.
Важность истории документа и стабильной производительности: Механизм требует, чтобы у документа уже была история ранжирования. Важно стабильно показывать хорошие поведенческие метрики по всему кластеру связанных запросов, так как эта история будет использована для бустинга по новым запросам.
Преимущество для авторитетных ресурсов: Сайты с богатой позитивной историей ранжирования получают преимущество, так как у них больше данных для переноса, что создает дополнительный барьер для совершенно новых сайтов.

Практика

Best practices (это мы делаем)

Фокус на Topical Authority и семантические кластеры: Создавайте контент, который полностью покрывает тему. Это увеличивает вероятность того, что у документа будет богатая история ранжирования по разным запросам в рамках одной тематики, что позволит системе эффективно переносить позитивные сигналы.
Максимизация позитивных поведенческих сигналов по всем запросам: Работайте над CTR и вовлеченностью пользователей (User Engagement) не только по ВЧ, но и по СЧ/НЧ запросам. Позитивные ПФ, накопленные по любому запросу, могут быть перенесены на похожие запросы.
Оптимизация под интент кластера: Убедитесь, что документ удовлетворяет интент пользователя, стоящий за группой схожих запросов. Позитивное взаимодействие по разным, но семантически близким запросам усиливает позиции документа по всему кластеру, включая новые вариации.
Анализ SERP Similarity: Изучайте схожесть выдачи по разным запросам. Это индикатор того, какие запросы Яндекс считает поведенчески схожими. Оптимизируйте страницу под этот объединенный интент для максимизации переноса сигналов.

Worst practices (это делать не надо)

Создание множества страниц под отдельные НЧ запросы (Thin Content): Стратегия создания узко оптимизированных страниц менее эффективна. Такие страницы медленнее накапливают историю и не получают преимуществ от переноса сигналов с других запросов.
Игнорирование пользовательского опыта и ПФ: Если документ имеет плохие поведенческие сигналы по историческим запросам, этот негативный опыт будет перенесен на новые похожие запросы, что приведет к низкому ранжированию с самого начала.
Накрутка ПФ по узкому пулу запросов: Попытки манипулировать ПФ только для нескольких ключевых запросов могут быть неэффективны и рискованны. Система оценивает совокупность исторических данных, а аномалии могут быть обнаружены системами Anti-Quality.

Стратегическое значение

Патент подтверждает глубокую интеграцию поведенческих факторов в ядро ранжирования Яндекса и демонстрирует механизм масштабирования их применения даже в условиях нехватки данных. Стратегически это подчеркивает необходимость построения авторитетных ресурсов, которые стабильно удовлетворяют потребности пользователей. Успех в SEO зависит от накопления позитивной истории взаимодействий, которая становится активом, работающим на будущие результаты по всем связанным запросам.

Практические примеры

Сценарий: Ранжирование по новому запросу с переносом CTR

Ситуация: У вас есть статья, которая хорошо ранжируется по запросу и имеет исторический CTR 12%.
Новый запрос: Пользователь вводит новый редкий запрос. Данных по нему нет.
Действие системы:
- Система определяет, что для статьи отсутствует признак «CTR по текущему запросу».
- Находится прошлый запрос.
- Рассчитывается параметр сходства между запросами. Допустим, сходство высокое (например, 0.85), рассчитанное с помощью Второго MLA (текстовая близость, так как новый запрос не имеет поведенческих данных).
Генерация признака: Система генерирует ожидаемое значение CTR для нового запроса, основываясь на историческом CTR (12%) и параметре сходства (0.85). (Упрощенно: 12% * 0.85 = 10.2%).
Результат: Статья получает высокое ожидаемое значение поведенческого фактора и сразу ранжируется высоко по новому запросу, опережая конкурентов без такой позитивной истории по похожим запросам.

Вопросы и ответы

Какие именно признаки ранжирования генерируются этим методом?

В патенте (Claim 10) явно указано, что это могут быть зависящие от запроса признаки или параметры пользовательского взаимодействия. На практике это чаще всего означает генерацию ожидаемых значений поведенческих метрик, таких как ожидаемый CTR (pCTR) документа по данному конкретному запросу, вероятность длинного клика или другие метрики вовлеченности.

В чем разница между поведенческим и текстовым сходством запросов?

Поведенческое сходство определяется на основе того, насколько пересекаются результаты поиска и как пользователи взаимодействуют с ними (например, кликают на одни и те же сайты). Оно считается эталоном (Ground Truth). Текстовое сходство определяется Вторым MLA на основе анализа текста запросов (эмбеддингов). Оно используется, когда поведенческих данных нет (для новых запросов), и обучается аппроксимировать поведенческое сходство.

Как этот патент влияет на новые сайты или новые страницы?

Этот механизм создает дополнительный барьер для совершенно новых сайтов. Поскольку у них нет истории ранжирования по прошлым запросам и нет накопленных поведенческих данных, система не может использовать механизм переноса позитивных сигналов (согласно Claim 1). Напротив, устоявшиеся авторитетные документы с богатой позитивной историей получают преимущество, так как их прошлые успехи помогают им быстро занимать высокие позиции по новым похожим запросам.

Что произойдет, если у документа плохие поведенческие факторы по прошлым запросам?

Механизм работает в обе стороны. Если документ имел низкий CTR или плохую вовлеченность по прошлым запросам, система сгенерирует низкое ожидаемое значение этих признаков и для нового похожего запроса. Это приведет к тому, что документ будет ранжироваться ниже. Поэтому крайне важно поддерживать высокое качество и релевантность контента постоянно.

Как я могу использовать этот механизм для улучшения ранжирования своего сайта?

Ключевая стратегия — это построение Topical Authority и обеспечение стабильно высоких поведенческих метрик по всему семантическому кластеру. Создавайте контент, который полностью отвечает на интент пользователя по широкому кругу связанных запросов. Чем больше у вашего документа позитивной истории по разным запросам в рамках одной темы, тем выше он будет ранжироваться по новым запросам в этой же теме.

Используется ли этот механизм для всех запросов?

Механизм активируется, когда для пары запрос-документ отсутствует значение определенного признака (Claim 1). Это наиболее характерно для новых, редких или длиннохвостых запросов. Для популярных запросов с богатой историей система, вероятно, предпочитает использовать фактические накопленные данные, а не сгенерированные (прогнозные) значения.

Что такое Второй MLA и какова его роль?

Второй MLA — это вспомогательная модель машинного обучения (вероятно, на базе трансформеров типа YATI). Его роль — определять степень семантического (текстового) сходства между запросами, когда поведенческих данных недостаточно. Он обучается предсказывать поведенческую схожесть, используя только текст, что позволяет находить релевантные прошлые запросы для генерации признаков.

Насколько похожими должны быть запросы, чтобы система перенесла значения признаков?

В патенте (Claim 7) упоминается использование предопределенного порога (predetermined threshold) для параметра сходства. Только если сходство между текущим и прошлым запросом превышает этот порог, данные из прошлого запроса будут использованы. Конкретные значения порога не указаны и настраиваются Яндексом.

Влияет ли показатель релевантности на генерацию признака?

Да, влияет. В Claim 8 указано, что при генерации значения признака может учитываться показатель релевантности документа соответствующему прошлому запросу. Это работает как дополнительный весовой коэффициент: если документ был очень релевантен прошлому запросу и показал там хороший результат, этот опыт будет перенесен с большим весом.

Что важнее для этой системы: высокое сходство запросов или высокие исторические значения признаков?

Оба фактора критически важны. Генерация значения основывается как на параметре сходства, так и на историческом значении признака (Claim 1). Высокое историческое значение (например, высокий CTR) не будет перенесено, если сходство запросов низкое. И наоборот, высокое сходство запросов не поможет, если исторические значения признака были низкими. Необходим баланс.