Как Яндекс переносит значения признаков ранжирования с похожих запросов, если для текущего запроса данных недостаточно

Яндекс патентует метод улучшения ранжирования в условиях нехватки данных. Если для пары «запрос-документ» отсутствует значение важного признака (например, CTR), система находит прошлые похожие запросы, по которым этот документ уже показывался и имеет рассчитанное значение признака. Затем система переносит это значение на текущий запрос, учитывая степень схожести запросов. Это позволяет точнее ранжировать документы даже по новым или редким запросам.

Описание

Какую задачу решает

Патент решает проблему разреженности данных (Data Sparsity) в ранжировании. Алгоритмы машинного обучения (MLA) требуют значений для множества признаков, но для многих пар «запрос-документ», особенно по новым или редким запросам, критически важные данные (например, поведенческие факторы) отсутствуют из-за недостатка статистики. Это снижает точность ранжирования. Изобретение предлагает метод генерации этих отсутствующих значений, используя исторические данные.

Что запатентовано

Запатентована система генерации отсутствующих значений признаков ранжирования (Feature Generation). Суть изобретения заключается в переносе (трансфере) значений признака с прошлых запросов (past queries), по которым документ уже ранжировался, на текущий запрос. Этот перенос осуществляется пропорционально степени схожести (similarity parameter) между текущим и прошлыми запросами.

Как это работает

Когда система обнаруживает, что у документа (D) нет значения для признака (F) по текущему запросу (Qc), она извлекает набор прошлых запросов (Qp), по которым документ D уже показывался (например, используя Annotation Vector). Затем рассчитывается параметр схожести между Qc и Qp. Схожесть может определяться на основе пересечения результатов выдачи и поведения пользователей или с помощью отдельного MLA, обученного определять схожесть по тексту. Финальное значение признака F(Qc, D) генерируется путем агрегации исторических значений F(Qp, D), взвешенных по соответствующим параметрам схожести.

Актуальность для SEO

Высокая. Борьба с разреженностью данных и использование схожести запросов (поведенческой и семантической) для переноса знаний (Transfer Learning) являются фундаментальными задачами в современных поисковых системах. Эти методы активно используются для улучшения качества ранжирования в «длинном хвосте» и для новых запросов.

Важность для SEO

Влияние на SEO значительно (8/10). Патент описывает механизм, благодаря которому успех документа по одному запросу может напрямую влиять на его ранжирование по другим схожим запросам. Это подчеркивает стратегическую важность построения Topical Authority и обеспечения высоких поведенческих показателей по всему семантическому кластеру, так как эти позитивные сигналы могут быть перенесены системой на те запросы, где у сайта еще нет статистики.

Детальный разбор

Термины и определения

Annotation Vector (Вектор аннотации): Предварительно рассчитанная структура данных для документа. Содержит историю прошлых запросов, по которым этот документ показывался в выдаче, и, опционально, связанные с ними параметры взаимодействия пользователей. Используется для быстрого доступа к истории ранжирования документа.
Given Feature (Искомый признак): Конкретный фактор ранжирования, значение которого отсутствует для документа по текущему запросу и которое система пытается сгенерировать. Например, query-dependent feature или user interaction parameter (например, CTR).
MLA (Machine Learning Algorithm): Алгоритм машинного обучения. Основной MLA (First MLA) используется для финального ранжирования. Вспомогательный MLA (Third MLA) может использоваться для определения текстовой схожести запросов.
Past Query (Прошлый запрос): Запрос, который ранее задавался поисковой системе и в ответ на который анализируемый документ был показан в SERP.
Query Vector (Вектор запроса): Численное представление запроса. Может быть поведенческим (основанным на результатах выдачи и кликах) или текстовым (эмбеддинг текста запроса).
Similarity Parameter (Параметр схожести): Метрика, указывающая на степень схожести между текущим и прошлым запросами. Может рассчитываться на основе пересечения результатов выдачи (SERP Overlap), схожести поведенческих паттернов или текстовой близости.

Ключевые утверждения (Анализ Claims)

Ядром изобретения является метод генерации недостающего значения признака путем переноса данных с похожих исторических запросов.

Claim 1 и Claim 8 (Независимые пункты — Метод и Система): Описывают основной процесс, где схожесть определяется через пересечение выдачи.

Система получает текущий запрос (Qc) и генерирует набор релевантных документов (SERP_Qc).
Выбирается документ (D), у которого отсутствует значение для заданного признака (F).
Из базы логов извлекается набор прошлых запросов (Qp), по которым документ D показывался в SERP.
Извлекаются исторические значения признака F для документа D по этим прошлым запросам (F(Qp, D)).
Извлекаются наборы документов (SERP_Qp), которые были показаны в ответ на каждый прошлый запрос Qp.
Критический шаг (Определение схожести): Рассчитывается параметр схожести между Qc и Qp. Расчет основан на степени пересечения (degree of an overlap) между SERP_Qc и SERP_Qp.
Генерируется отсутствующее значение F(Qc, D) на основе исторических значений F(Qp, D) и соответствующих параметров схожести.
Основной MLA ранжирует документы, используя сгенерированное значение.

Claim 3 и Claim 10 (Зависимые пункты): Уточняют механизм расчета схожести из Claim 1/8.

Определение параметра схожести дополнительно основывается на параметрах взаимодействия пользователей (user interaction parameters) с документами в обоих наборах (SERP_Qc и SERP_Qp). Это описывает механизм расчета поведенческой схожести.

Примечание по альтернативным реализациям (Embodiments): В описании патента (Description) также детально описан альтернативный метод, когда схожесть определяется обученной моделью (Third MLA) на основе текстового контента запросов (Textual Similarity). Этот метод полезен для новых запросов, где данных о SERP и поведении еще нет. Однако, Claims 1 и 8 защищают именно метод, основанный на пересечении выдачи.

Где и как применяется

Изобретение применяется на этапе ранжирования и требует значительной офлайн-подготовки данных.

INDEXING и Офлайн-процессы

На этом этапе происходит подготовка данных для быстрого выполнения механизма в онлайне:

Генерация Annotation Vectors: Анализ логов (Query Log, User Interaction Log) и создание для документов Annotation Vectors, агрегирующих историю показов и взаимодействий документа по разным запросам.
Расчет Поведенческой Схожести: Предварительный расчет Query Vectors (поведенческих представлений запросов) и схожести между прошлыми запросами.
Обучение Текстовой Схожести: Обучение Third MLA предсказывать поведенческую схожесть на основе текста запросов (если этот метод используется).

RANKING – Ранжирование (Уровни L2/L3)

Основное применение происходит во время расчета признаков для основной модели ранжирования (First MLA).

Импутация признаков (Feature Imputation): Если для пары «запрос-документ» значение признака отсутствует, система активирует описанный механизм для его генерации на лету.
Входные данные: Текущий запрос, документ-кандидат, Annotation Vector документа.
Выходные данные: Сгенерированное значение признака, которое подается в основной MLA.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на редкие, длиннохвостые (long-tail) или новые запросы, где наблюдается недостаток накопленных данных (особенно поведенческих).
Типы признаков: Метод напрямую влияет на расчет запросозависимых признаков (query-dependent features) и параметров взаимодействия пользователей (user interaction parameters), таких как предсказанный CTR или Dwell Time.

Когда применяется

Триггер активации: В процессе ранжирования система обнаруживает, что у документа отсутствует значение (no respective value) для определенного признака по текущему запросу.
Необходимое условие: Для данного документа существуют исторические данные о его ранжировании по другим (прошлым) запросам, и для этих прошлых запросов значение искомого признака известно.
Пороги схожести: Система может использовать порог схожести (упомянуто в Claim 4) для отбора прошлых запросов. Используются только данные из достаточно похожих запросов.

Пошаговый алгоритм

Процесс генерации признака во время ранжирования (на основе Claims 1/8):

Получение запроса и кандидатов: Система получает текущий запрос (Qc) и генерирует набор релевантных документов (SERP_Qc).
Идентификация пробела в данных: Система определяет документ (D), у которого отсутствует значение для признака (F).
Извлечение истории документа: Извлекается набор прошлых запросов (Qp), по которым документ D показывался (например, через Annotation Vector).
Извлечение исторических значений признака: Для каждого Qp извлекается историческое значение признака F(Qp, D).
Извлечение исторических SERP: Для каждого Qp извлекается набор документов, которые были показаны в ответ на него (SERP_Qp). (Примечание: этот шаг необходим для расчета схожести по методу Claim 1).
Расчет схожести запросов: Вычисляется параметр схожести Sim(Qc, Qp) между текущим и каждым прошлым запросом.
- Метод (согласно Claim 1): Сравнение SERP_Qc и SERP_Qp. Схожесть определяется степенью их пересечения (Overlap), опционально с учетом поведенческих сигналов на этих документах (Claim 3).
Отбор похожих запросов (Опционально): Выбор подмножества прошлых запросов, чья схожесть превышает порог.
Генерация признака (Агрегация): Вычисление значения признака F(Qc, D) на основе исторических значений F(Qp, D) и параметров схожести Sim(Qc, Qp). (Например, взвешенное усреднение).
Ранжирование: Использование сгенерированного значения F(Qc, D) в основном MLA для ранжирования документа D.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важны. Используются данные из логов (User Interaction Log, Query Log): клики, CTR, Dwell time. Они используются для:
1. Расчета поведенческой схожести между запросами (Claim 3).
2. Как исторические значения признаков, которые нужно перенести (если искомый признак — поведенческий).
Системные данные (SERP Data): Наборы документов (Search Results), показанные в ответ на текущий и прошлые запросы. Пересечение этих наборов является основой для расчета схожести согласно Claims 1 и 8.
Структуры данных: Annotation Vectors документов, содержащие историю показов и значения признаков по прошлым запросам.

Примечание: Текстовые факторы (тексты запросов) не используются в механизме, описанном в Claims 1 и 8, но упоминаются в описании патента как альтернативный метод определения схожести.

Какие метрики используются и как они считаются

Query Vector (Вектор запроса): Поведенческое представление запроса. Строится на основе SERP, ассоциированного с запросом. Измерениями могут быть документы, а значениями — метрики взаимодействия (например, CTR).
Similarity Parameter (Параметр Схожести): Метрика близости между Query Vectors. Отражает «degree of an overlap» между SERP. Может рассчитываться как косинусная схожесть (cosine similarity) между поведенческими векторами запросов.
Агрегированное значение признака: Вычисляется на основе значений признака для прошлых запросов и их параметров схожести. Вероятно, используется взвешенное среднее, где весами выступают параметры схожести. Например (гипотетическая формула):
$$ F(Q_c, D) = \frac{\sum_{Q_p} Sim(Q_c, Q_p) \cdot F(Q_p, D)}{\sum_{Q_p} Sim(Q_c, Q_p)} $$
Где $F(Q_c, D)$ – сгенерированное значение, $Sim(Q_c, Q_p)$ – схожесть запросов, $F(Q_p, D)$ – историческое значение признака.

Выводы

Перенос значений факторов ранжирования: Яндекс использует механизм переноса значений признаков (особенно поведенческих) между похожими запросами для борьбы с нехваткой данных по редким или новым запросам.
Поведенческая схожесть (SERP Overlap) как основа: Ключевым элементом запатентованного метода (Claims 1 и 8) является определение схожести запросов на основе степени пересечения результатов поиска и схожести пользовательских взаимодействий с ними.
Успех по одному запросу влияет на другие: Производительность документа (например, высокий CTR) по одному запросу может напрямую повысить его ранжирование по другому похожему запросу, даже если по второму запросу у документа нет собственной истории.
Важность исторических данных (Annotation Vectors): Система опирается на накопленную историю показов и взаимодействий документа. Документы с богатой и позитивной историей получают преимущество благодаря этому механизму.
Фильтрация по схожести: Система использует пороги схожести, чтобы гарантировать, что перенос данных происходит только между действительно релевантными контекстами (запросами).

Практика

Best practices (это мы делаем)

Фокус на Topical Authority и кластеризацию интентов: Создавайте контент, который отвечает на широкий кластер поведенчески связанных запросов. Если страница собирает позитивные сигналы по нескольким запросам в кластере, этот механизм перенесет эти сигналы на другие (например, более редкие или новые) запросы в этом же кластере.
Анализ SERP Similarity: При кластеризации семантики уделяйте первостепенное внимание схожести выдачи (SERP Overlap). Это прямой индикатор того, какие запросы Яндекс считает похожими согласно Claim 1 этого патента. Группируйте запросы с высокой схожестью выдачи и оптимизируйте страницу под общий интент этой группы.
Максимизация позитивных поведенческих сигналов (ПФ) по всему кластеру: Критически важно добиваться высокого CTR и вовлеченности по всем запросам, по которым ранжируется страница. Хорошие ПФ по одному запросу теперь могут напрямую помочь ранжированию по другому, похожему запросу.
Оптимизация под СЧ/НЧ для накопления истории: Не игнорируйте средне- и низкочастотные запросы. Успешное ранжирование по ним формирует сильный Annotation Vector, который служит базой для переноса признаков на другие запросы в будущем.

Worst practices (это делать не надо)

Создание узкоспециализированных страниц под единичные НЧ запросы: Стратегия создания множества страниц под точное вхождение одного НЧ запроса менее эффективна. Такие страницы не смогут эффективно накапливать и переносить позитивные сигналы между связанными запросами по сравнению с авторитетной страницей, покрывающей кластер.
Игнорирование плохих ПФ: Если страница имеет плохие ПФ (низкий CTR, отказы) по популярным запросам, этот механизм может перенести эти негативные значения признаков на связанные редкие запросы, ухудшая видимость по всему кластеру.
Фокус только на текстовой схожести при кластеризации: Группировка запросов только по текстовой близости без учета SERP Similarity может привести к неоптимальной структуре, так как система полагается именно на поведенческую схожесть для переноса признаков (согласно Claim 1).

Стратегическое значение

Патент подтверждает стратегический приоритет Яндекса на использование больших данных о поведении пользователей для определения релевантности и схожести интентов. Он демонстрирует механизм «knowledge transfer» между запросами для борьбы с проблемой «холодного старта». Для SEO это означает, что успех определяется не столько оптимизацией под конкретный запрос, сколько общей полезностью контента в рамках целой темы. Долгосрочная стратегия должна фокусироваться на создании качественного контента, который стабильно генерирует позитивные поведенческие сигналы по широкому пулу запросов.

Практические примеры

Сценарий: Ранжирование по редкому запросу в E-commerce

Текущий запрос (Редкий): «купить ноутбук Lenovo Yoga 9i Gen 8 серый космос» (Статистики мало).
Документ D: Карточка товара для этого ноутбука. Признак F (например, Прогнозируемый CTR) отсутствует.
Действие системы: Система ищет похожие запросы, по которым Документ D уже показывался (используя Annotation Vector).
Поиск похожих запросов:
- Qp1: «Lenovo Yoga 9i Gen 8 отзывы»
- Qp2: «лучшие ноутбуки трансформеры 2025»
Система определяет (через SERP Overlap), что выдача по текущему запросу сильно пересекается с выдачей по Qp1 и Qp2.
Извлечение значений: Документ D имеет высокий CTR по запросам Qp1 и Qp2.
Генерация признака: Система генерирует прогнозируемый CTR для текущего запроса на основе высоких исторических значений и высокой схожести.
Результат: Карточка товара получает высокий ранг по редкому запросу, «унаследовав» позитивные поведенческие сигналы от похожих популярных запросов.

Вопросы и ответы

Что такое «разреженность данных» (data sparsity), которую решает этот патент?

Разреженность данных означает отсутствие статистики взаимодействий (например, кликов) для конкретной пары запрос-документ. Это часто случается с редкими запросами или новыми документами. Без этих данных сложно рассчитать важные признаки ранжирования (например, CTR). Патент решает эту проблему, позволяя сгенерировать эти отсутствующие данные, используя информацию из похожих запросов, по которым статистика уже есть.

Как именно система определяет, что два запроса похожи, согласно этому патенту?

Согласно защищенным пунктам (Claims 1 и 8), схожесть определяется на основе степени пересечения результатов поиска (SERP Overlap). Если по запросу А и запросу Б показывается много одинаковых документов, система считает их похожими. Дополнительно (Claim 3) учитывается, если пользователи взаимодействуют с этими пересекающимися результатами схожим образом (Поведенческая схожесть).

Используется ли текстовая (семантическая) схожесть запросов в этом механизме?

В описании патента (Description) упоминается возможность использования отдельного MLA, обученного определять схожесть на основе текста запросов (например, для новых запросов, где нет данных о SERP). Однако, формула изобретения (Claims 1 и 8) защищает метод, где схожесть определяется именно через пересечение результатов поиска. Для SEO-специалистов это означает, что поведенческая схожесть (SERP Similarity) является ключевым фактором для этого механизма.

Какие типы признаков могут быть сгенерированы этим методом?

Патент упоминает query-dependent features (запросозависимые признаки) и user interaction parameters (параметры взаимодействия пользователей). На практике это чаще всего касается поведенческих метрик, таких как прогнозируемый CTR (pCTR), вероятность длинного клика или Dwell Time, для расчета которых требуется статистика.

Может ли этот механизм перенести негативные сигналы?

Да. Если документ имеет низкие значения признаков (например, плохой CTR) по прошлым запросам, система сгенерирует низкое значение признака и для текущего запроса, если он похож на прошлые. Это означает, что плохие поведенческие факторы по одному запросу могут ухудшить ранжирование по всему кластеру связанных запросов.

Как этот патент влияет на стратегию построения Topical Authority?

Он значительно усиливает важность Topical Authority. Если ваш контент качественно отвечает на множество связанных запросов в одной теме и собирает по ним позитивные ПФ, этот механизм позволяет переносить эти позитивные сигналы на новые или редкие запросы в этой же теме. Это создает кумулятивный эффект авторитетности.

Что такое Annotation Vector и как его усилить?

Annotation Vector — это профиль документа, хранящий историю его показов и взаимодействий по разным запросам. Чтобы его усилить, необходимо, чтобы страница была релевантна широкому пулу семантически и поведенчески связанных запросов и стабильно демонстрировала хорошие ПФ по этим запросам. Это достигается за счет глубокой проработки контента и оптимизации под интент кластера.

Как SEO-специалисту работать с SERP Similarity на практике?

Используйте инструменты для анализа схожести выдачи при кластеризации семантического ядра. Запросы с высоким SERP Overlap следует рассматривать как единый интент и оптимизировать на одной странице. Это позволит максимизировать сбор позитивных ПФ по всему набору похожих запросов и усилит эффект от механизма переноса признаков.

Влияет ли этот патент на ранжирование новых сайтов или страниц?

Для совершенно новых страниц без истории показов (пустой Annotation Vector) этот механизм неприменим, так как нет данных для переноса. Однако, как только страница начинает получать первые показы и клики, механизм включается в работу, помогая странице быстрее набрать вес по похожим запросам, если первые сигналы были позитивными.

Использует ли система все прошлые запросы для генерации признака?

Не обязательно. В патенте (Claim 4) упоминается использование порога (predetermined threshold) для параметра схожести. Для генерации признака используются только те прошлые запросы, которые достаточно похожи на текущий запрос. Это предотвращает перенос нерелевантных данных.