Как Яндекс генерирует отсутствующие факторы ранжирования, используя данные из похожих прошлых запросов

Яндекс патентует метод генерации (импутации) значений факторов ранжирования для пары запрос-документ, когда данные отсутствуют (проблема «холодного старта»). Если для текущего запроса у документа нет значения признака (например, поведенческих данных), система находит похожие прошлые запросы, по которым этот документ уже показывался. Значения признака из этих прошлых запросов переносятся на текущий запрос пропорционально степени схожести запросов.

Описание

Какую задачу решает

Патент решает проблему неполноты данных (data sparsity) при ранжировании, часто называемую проблемой «холодного старта». Алгоритмы машинного обучения (MLA) требуют наличия значений признаков для точного ранжирования. Если для конкретной пары запрос-документ данных недостаточно (например, документ редко показывался по этому запросу или запрос новый), MLA не может корректно рассчитать ранг, так как отсутствуют значения важных признаков, особенно query-dependent features и user interaction parameters (например, CTR). Изобретение улучшает качество ранжирования за счет генерации (импутации) этих отсутствующих значений.

Что запатентовано

Запатентована система генерации отсутствующего значения признака ранжирования (generating a feature). Суть изобретения заключается в использовании исторических данных документа по другим запросам. Система находит прошлые запросы (past queries), похожие на текущий запрос (given query), по которым данный документ уже ранжировался и имеет значение для искомого признака. Затем она переносит эти значения на текущий запрос, взвешивая их по степени схожести (similarity parameter) запросов.

Как это работает

Когда система ранжирования обнаруживает, что у документа нет значения для определенного признака по текущему запросу, активируется механизм импутации. Система извлекает историю документа (например, используя Annotation Vector) — список прошлых запросов, по которым он показывался. Затем рассчитывается схожесть между текущим запросом и этими прошлыми запросами. Схожесть может определяться либо на основе пересечения результатов и поведения пользователей (Behavioral Similarity), либо на основе текстовой близости с помощью специально обученной модели (Second MLA). Наконец, отсутствующее значение признака генерируется на основе значений этого же признака из прошлых запросов, учитывая рассчитанные параметры схожести (например, как взвешенное среднее).

Актуальность для SEO

Высокая. Проблема нехватки данных и «холодного старта» является фундаментальной для поисковых систем. Использование исторических данных и механизмов переноса знаний (transfer learning) через схожесть запросов (поведенческую и текстовую) является стандартом в современных системах Information Retrieval и критически важно для поддержания качества поиска, особенно для редких и новых запросов.

Важность для SEO

Влияние на SEO значительно (8/10). Этот патент демонстрирует, что историческая эффективность документа по кластеру связанных запросов напрямую влияет на его ранжирование по новым или редким запросам в этом же кластере. Система вознаграждает документы, которые стабильно показывают хорошие результаты (например, высокий CTR) по различным схожим запросам, позволяя им ранжироваться выше даже в условиях нехватки прямых данных по текущему запросу. Это подчеркивает важность работы над Topical Authority и качеством пользовательского опыта в рамках всего семантического кластера.

Детальный разбор

Термины и определения

Annotation Vector (Вектор аннотации): Структура данных, ассоциированная с документом. Содержит список прошлых запросов (Past Queries), по которым этот документ показывался или на него кликали, а также связанные с этими запросами параметры взаимодействия пользователей (User Interaction Parameters). Генерируется офлайн.
Given Feature (Искомый/Заданный признак): Признак ранжирования, значение которого отсутствует для документа по текущему запросу и которое система пытается сгенерировать (импутировать). В патенте указано, что это может быть query-dependent feature или user interaction parameter (например, прогнозируемый CTR).
First MLA (Первый MLA): Основной алгоритм ранжирования (например, GBDT или CatBoost), который использует сгенерированные признаки для определения порядка результатов в выдаче.
Past Queries (Прошлые запросы): Запросы, которые ранее задавались поисковой системе и по которым у документа есть исторические данные (показы, клики, значения признаков).
Query Vector (Вектор запроса): Численное представление запроса. Может быть построено на основе документов, показанных в ответ на запрос, и взаимодействий пользователей с ними (поведенческий вектор), либо на основе текстового содержания запроса (текстовый вектор/эмбеддинг).
Second MLA (Второй MLA): Вспомогательный алгоритм (например, нейронная сеть), обученный определять схожесть запросов на основе их текстового содержания (Word Embeddings). Он учится аппроксимировать поведенческую схожесть. (Примечание: В описании патента этот же механизм иногда называется Third MLA).
Similarity Parameter (Параметр схожести): Метрика, указывающая на степень схожести между текущим и прошлым запросами. Используется как вес при переносе значений признаков из прошлого.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод генерации отсутствующего признака для ранжирования.

Система получает текущий запрос и генерирует набор релевантных документов.
Выбирается документ, у которого отсутствует значение для искомого признака (Given Feature) по этому запросу.
Извлекается набор прошлых запросов (Past Queries), по которым этот документ ранее показывался в SERP.
Для этих прошлых запросов извлекаются соответствующие значения искомого признака для данного документа.
Определяется параметр схожести (Similarity Parameter) между текущим запросом и каждым из прошлых запросов.
Отсутствующее значение искомого признака генерируется на основе (i) значений признака из прошлых запросов и (ii) соответствующих параметров схожести.
Документ ранжируется с использованием этого сгенерированного значения признака.

Claim 2 (Зависимый от 1): Уточняет способ получения прошлых запросов.

Прошлые запросы извлекаются из аннотации документа (Annotation Vector), которая содержит историю запросов, использованных для доступа к этому документу. Это указывает на использование предварительно рассчитанных структур данных для эффективности.

Claims 3 и 4 (Зависимые от 1): Уточняют метод расчета схожести запросов (Поведенческая схожесть).

Параметр схожести определяется на основе степени пересечения наборов документов, показанных в ответ на текущий и прошлый запросы. Дополнительно учитывается схожесть параметров взаимодействия пользователей (User Interaction Parameters) с этими документами. Это «эталонный» метод определения схожести.

Claims 5 и 6 (Зависимые от 1): Уточняют альтернативный метод расчета схожести запросов (Текстовая схожесть).

Используется Second MLA, обученный определять схожесть на основе текстового содержания запросов. Этот MLA обучается офлайн (Claim 6) на парах запросов, для которых известна поведенческая схожесть (из Claims 3 и 4). Цель обучения — предсказывать поведенческую схожесть, используя только текст запросов (например, через Word Embeddings). Этот метод используется как запасной вариант.

Claim 7 (Зависимый от 1): Уточняет фильтрацию прошлых запросов.

Для генерации признака используются только те прошлые запросы, чей параметр схожести с текущим запросом превышает определенный порог.

Где и как применяется

Изобретение применяется на этапе ранжирования для обогащения признакового описания документов и тесно связано с офлайн-процессами подготовки данных.

INDEXING / Офлайн-процессы

Генерация аннотаций: Система анализирует логи (Query Log, User Interaction Log) и создает Annotation Vectors для документов. В них записываются прошлые запросы и связанные с ними поведенческие метрики.
Обучение модели схожести: Вычисляется поведенческая схожесть между парами прошлых запросов. Эти данные используются для обучения Second MLA, который учится предсказывать эту схожесть по тексту запросов.

RANKING – Ранжирование (Онлайн-процесс, Уровни L2/L3)

Извлечение/Генерация признаков (Feature Extraction/Generation): На этом этапе система определяет значения признаков для кандидатов ранжирования. Если значение признака отсутствует (например, недостаточно данных для расчета CTR по текущему запросу), активируется механизм из патента.
Импутация признака: Система извлекает Annotation Vector документа, вычисляет схожесть текущего запроса с прошлыми запросами из вектора и генерирует отсутствующее значение.
Ранжирование (First MLA): Основная формула ранжирования (например, CatBoost) использует это сгенерированное значение как обычный признак для расчета финального ранга документа.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на новые, редкие или длиннохвостые (long-tail) запросы. Для них часто не хватает статистики для расчета поведенческих факторов. Механизм позволяет использовать данные, накопленные по похожим, более популярным запросам.
Типы контента: Влияет на документы, которые релевантны широкому спектру схожих запросов (Topical Authority). Если документ хорошо работает по кластеру запросов, его эффективность будет легче перенесена на новые запросы в этом кластере.
Типы признаков: Механизм напрямую влияет на расчет и применение поведенческих факторов (user interaction parameters) и других запросозависимых признаков (query-dependent features).

Когда применяется

Алгоритм активируется при выполнении следующих условий во время ранжирования:

Триггер активации: Обнаружено, что для пары «текущий запрос – документ» отсутствует значение для определенного признака (Given Feature), или имеющихся данных недостаточно для его надежного расчета.
Необходимое условие: Для этого же документа существуют исторические данные по другим (прошлым) запросам (т.е. его Annotation Vector не пустой), и по этим прошлым запросам значение искомого признака известно.

Пошаговый алгоритм

Процесс А: Офлайн-подготовка (Индексация и Обучение)

Генерация Annotation Vectors: Для документов в индексе анализируются логи и создаются векторы, содержащие прошлые запросы и связанные с ними метрики взаимодействия (например, CTR).
Расчет Поведенческой Схожести: Для пар прошлых запросов вычисляется схожесть на основе пересечения результатов выдачи и схожести пользовательских взаимодействий.
Обучение Second MLA: Модель обучается предсказывать поведенческую схожесть, используя только текстовое содержание запросов (Word Embeddings).

Процесс Б: Онлайн-обработка (Ранжирование)

Получение запроса и кандидатов: Система получает текущий запрос (Qc) и набор релевантных документов.
Идентификация проблемы: При расчете признаков для документа (D) обнаруживается, что значение признака (F) отсутствует или ненадежно.
Извлечение истории: Система извлекает Annotation Vector документа D, получая список прошлых запросов (Qp) и значения признака F для них (Fp).
Расчет схожести: Система вычисляет параметр схожести (S) между Qc и каждым Qp.
- Если есть поведенческие данные для Qc, используется Поведенческая схожесть.
- Если Qc новый/редкий, используется Second MLA для расчета Текстовой схожести.
Фильтрация: Отбираются наиболее похожие прошлые запросы (например, S > порога) (Claim 7).
Генерация признака (Импутация): Отсутствующее значение признака F для текущего запроса (Fc) генерируется на основе значений Fp и параметров схожести S (например, как взвешенное среднее).
Ранжирование: First MLA использует сгенерированное значение Fc для расчета финального ранга документа D.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важны для офлайн-процессов и для онлайн-генерации признаков. Используются данные из логов (Query Log, User Interaction Log). Упомянутые примеры включают: клики (Loss/Win), показы (Views), время на сайте (Dwell time), длинные/короткие клики, CTR.
Контентные факторы (Текстовые): Тексты запросов (текущего и прошлых) используются для генерации текстовых векторов (Word Embeddings) при обучении и применении Second MLA.
Системные данные: Наборы документов (Search Results), показанные в ответ на прошлые и текущий запросы. Значения признаков (Feature Values) для документов по прошлым запросам. Оценки релевантности (Relevance Scores) документов прошлым запросам (Claim 8).

Какие метрики используются и как они считаются

Annotation Vector: Вектор вида, где Q — прошлый запрос, V — параметр взаимодействия (например, CTR) для данного документа по этому запросу.
Query Vector (Поведенческий): Вектор, представляющий запрос на основе документов, показанных в ответ на него, и взаимодействий с ними. Используется для расчета поведенческой схожести.
Word Embedding (Текстовый вектор): Вектор, сгенерированный на основе текста запроса. Упоминаются методы word2vec и LDA, но на практике могут использоваться более современные трансформерные модели. Используется для расчета текстовой схожести.
Similarity Parameter: Мера близости между запросами. Рассчитывается как близость между Query Vectors или Word Embeddings. В патенте упоминается косинусная близость (cosine similarity).
Сгенерированное значение признака: Рассчитывается на основе значений признака из прошлых запросов и их параметров схожести. Патент упоминает возможность использования взвешенного усреднения или другой функции/MLA для агрегации.

Выводы

Перенос факторов ранжирования между запросами: Яндекс активно использует механизм «переноса» (импутации) значений факторов ранжирования (особенно поведенческих) с одних запросов на другие, если эти запросы признаны похожими.
Решение проблемы «холодного старта»: Система целенаправленно решает проблему недостатка данных для новых, редких запросов или новых документов, позволяя им «наследовать» факторы ранжирования от схожих запросов с богатой историей.
Два типа схожести с приоритетом поведения: Патент подтверждает использование поведенческого (на основе кликов и выдачи) и текстового (на основе эмбеддингов) подходов к определению схожести запросов. Поведенческая схожесть является эталоном (Ground Truth) для обучения текстовой.
Важность Annotation Vectors: Для эффективной работы системы используются предварительно рассчитанные офлайн структуры данных (Annotation Vectors), которые хранят историю эффективности документа по разным запросам.
Усиление кластерной эффективности: Документы, которые показывают хорошие результаты в рамках целого кластера схожих запросов, получают системное преимущество. Эффективность по одному запросу помогает ранжированию по всему кластеру.

Практика

Best practices (это мы делаем)

Укрепление Topical Authority и работа с семантическими кластерами: Создавайте контент, который отвечает на широкий спектр семантически связанных запросов в рамках одной темы. Успех страницы по одному запросу в кластере теперь может напрямую способствовать ее ранжированию по другим, более редким или новым запросам в этом же кластере, даже если по ним нет статистики.
Максимизация позитивных поведенческих сигналов по всему кластеру: Работайте над повышением CTR и вовлеченности (Dwell Time) не только по ВЧ-запросам, но и по СЧ/НЧ-запросам кластера. Сильные поведенческие факторы по любому запросу формируют Annotation Vector и могут быть использованы системой для улучшения ранжирования по схожим запросам через механизм импутации.
Оптимизация под интент и анализ SERP Similarity: При сборе семантики уделяйте внимание тому, как Яндекс группирует запросы. Используйте анализ SERP Similarity, чтобы понять, какие запросы Яндекс считает поведенчески схожими. Убедитесь, что ваша страница оптимизирована под интент всего кластера.
Оптимизация под НЧ-запросы: Не игнорируйте низкочастотные запросы. Накопление позитивной истории по ним создаст базу для будущей импутации признаков при ранжировании по схожим, более конкурентным запросам.

Worst practices (это делать не надо)

Узкая оптимизация под один запрос: Создание страниц, заточенных строго под один ключевой запрос без учета смежных интентов. Такая страница не сможет накапливать разнообразные поведенческие сигналы и не получит преимуществ от механизма переноса факторов.
Игнорирование качества пользовательского опыта: Если документ имеет плохие поведенческие метрики (например, низкий CTR, короткие клики) по историческим запросам, этот негативный сигнал может быть перенесен на текущий запрос, ухудшая ранжирование по всему кластеру.
Создание дорвеев или тонкого контента (Thin Content): Попытки манипулировать выдачей с помощью множества страниц под микро-запросы не будут эффективны, если эти страницы не генерируют реальных положительных поведенческих сигналов, которые система могла бы использовать для импутации.

Стратегическое значение

Патент подтверждает стратегический фокус Яндекса на использовании больших данных о поведении пользователей для улучшения ранжирования во всех сегментах, включая long-tail. Он демонстрирует, как система борется с нехваткой данных, используя семантическую и поведенческую близость. Для SEO это означает, что репутация и эффективность документа не привязаны строго к конкретным ключевым словам, а рассматриваются в контексте интентов и тем. Долгосрочная стратегия должна быть направлена на создание качественного контента, который стабильно показывает высокие результаты по широкому кругу связанных запросов.

Практические примеры

Сценарий: Перенос положительного CTR на новый запрос

Ситуация: У вас есть статья «Как выбрать треккинговые ботинки для летнего похода». Она хорошо ранжируется и имеет высокий CTR (15%) по запросу (Прошлый запрос Qp).
Новый запрос: Пользователь вводит редкий запрос (Текущий запрос Qc). Статистики по нему нет, значение признака «CTR по запросу» отсутствует.
Действие системы:
- Система анализирует Annotation Vector статьи и находит Qp.
- Second MLA определяет, что Qc и Qp текстуально очень похожи (Similarity Parameter = 0.9).
Генерация признака: Система генерирует значение CTR для Qc, основываясь на данных Qp (например, используя формулу, которая может выглядеть как взвешенное среднее, где вес зависит от схожести 0.9). Например, генерируется значение 13.5%.
Результат: Ваша статья получает значительный буст в ранжировании по новому запросу Qc благодаря переносу положительного поведенческого фактора с Qp, опережая конкурентов, у которых нет такой сильной истории по схожим запросам.

Вопросы и ответы

Что такое «отсутствующее значение признака» (missing feature value) в контексте этого патента?

Это ситуация, когда для пары «запрос-документ» нет данных для расчета определенного фактора ранжирования. Например, если документ никогда ранее не показывался по данному запросу, у него не может быть рассчитан CTR или другие поведенческие метрики по этому запросу. Патент предлагает метод генерации (импутации) этого значения на основе исторических данных этого же документа по другим, но похожим запросам.

Какой тип признаков чаще всего генерируется этим методом?

В патенте (Claim 10) явно указано, что это могут быть запрос-зависимые признаки (query-dependent features) или параметры взаимодействия пользователя (user interaction parameters). На практике это чаще всего касается поведенческих факторов, таких как прогнозируемый CTR, Dwell Time или вероятность клика, так как именно для них часто не хватает статистики по новым или редким запросам.

Чем отличаются два метода расчета схожести запросов, описанные в патенте?

Первый метод — Поведенческая схожесть (Claims 3, 4). Он основан на анализе того, насколько пересекаются результаты выдачи по двум запросам и насколько схоже пользователи взаимодействуют с этими результатами. Второй метод — Текстовая схожесть (Claims 5, 6). Он использует MLA и Word Embeddings для анализа текстового содержания запросов. Текстовая схожесть обучается предсказывать поведенческую и используется, когда данных для первого метода недостаточно.

Что такое Annotation Vector и зачем он нужен?

Annotation Vector — это предварительно рассчитанная структура данных для документа, которая хранит историю его эффективности. Она содержит список прошлых запросов, по которым документ показывался, и соответствующие поведенческие метрики. Это позволяет системе во время ранжирования быстро получить доступ к историческим данным документа, не обращаясь к сырым логам, что критически важно для скорости работы поиска.

Как этот патент влияет на стратегию работы с семантическим ядром?

Он подчеркивает необходимость работы с широкими семантическими кластерами, а не отдельными ключами. Важно добиваться хороших показателей (особенно поведенческих) по максимальному количеству запросов внутри кластера. Успех по одному запросу может напрямую улучшить ранжирование по всем схожим запросам в этом кластере благодаря механизму переноса факторов.

Может ли этот механизм перенести негативные факторы ранжирования?

Да, абсолютно. Если документ имеет плохие поведенческие метрики (например, очень низкий CTR или много коротких кликов) по прошлым запросам, система может сгенерировать аналогичное низкое значение признака для текущего запроса, если он похож на прошлые. Это приведет к понижению документа в выдаче. Механизм переносит фактическую эффективность, будь она положительной или отрицательной.

Как система определяет, какие прошлые запросы использовать для генерации признака?

Система рассчитывает параметр схожести между текущим запросом и всеми прошлыми запросами из Annotation Vector документа. Затем она отбирает наиболее похожие запросы. В патенте (Claim 7) упоминается использование порога (threshold): используются только те прошлые запросы, чья схожесть превышает этот порог. Это гарантирует, что для генерации признака используются только действительно релевантные исторические данные.

Как именно агрегируются значения признаков из прошлого?

Патент не дает точной формулы, но указывает, что новое значение генерируется на основе значений признака из прошлых запросов И параметров схожести. В описании упоминается возможность использования усреднения (averaging). Логично предположить, что используется взвешенное усреднение: чем выше схожесть прошлого запроса с текущим, тем больший вес имеет значение признака из этого прошлого запроса при расчете нового значения.

Влияет ли этот патент на ранжирование новых документов?

Косвенно. Новый документ изначально не имеет Annotation Vector, так как у него нет истории показов. Однако, как только документ начнет получать первые показы и клики хотя бы по нескольким запросам, этот механизм позволит быстрее распространить полученные сигналы на другие похожие запросы, ускоряя выход документа из «песочницы» и решение проблемы холодного старта.

Используются ли в этом механизме текстовые эмбеддинги (например, BERT/YATI)?

Патент упоминает использование «Word Vectors» для расчета текстовой схожести (Second MLA) и приводит примеры методов их генерации, такие как word2vec и LDA. Хотя современные модели типа BERT или YATI прямо не названы в тексте патента, логично предположить, что на практике Яндекс использует свои самые современные языковые модели для генерации этих эмбеддингов при определении семантической близости запросов.