Как Яндекс использует схожесть между документами в выдаче (D2D) как фактор ранжирования

Яндекс патентует метод ранжирования, учитывающий схожесть между самими документами-кандидатами (D2D proximity). Система генерирует векторы документов и рассчитывает, насколько каждый документ близок к «среднему» результату в выдаче (Reference Vector) или к самому релевантному результату. Эта метрика D2D используется как дополнительный признак в финальной формуле ранжирования для обеспечения тематической целостности и выявления «выбросов».

Описание

Какую задачу решает

Патент решает задачу повышения качества ранжирования путем учета контекста, формируемого набором релевантных документов. Он направлен на улучшение удовлетворенности пользователей (user satisfaction). Система позволяет оценить не только релевантность документа запросу (Q2D), но и его схожесть с другими отобранными документами (D2D). Это помогает идентифицировать документы, которые, хотя и релевантны, являются «выбросами» (outliers) по отношению к основному массиву результатов. Также патент решает инфраструктурную задачу дополнения недостающих данных (supplementing missing document data) для документов, используя данные из похожих документов.

Что запатентовано

Запатентован метод ранжирования, использующий метрики схожести между документами-кандидатами (D2D proximity values) как фактор ранжирования. Суть изобретения заключается в двухэтапном процессе. На первом этапе используются векторные представления, сгенерированные обученным алгоритмом машинного обучения (MLA), для оценки релевантности (Q2D proximity) и отбора кандидатов. На втором этапе вычисляется мера близости (D2D) между вектором каждого кандидата и «другим вектором документа» (например, Reference Vector). Эти значения D2D используются для финального ранжирования.

Как это работает

Система использует MLA (например, нейронную сеть), обученный генерировать векторы так, чтобы близость Q2D отражала релевантность. Процесс работает следующим образом:

Генерируются вектор запроса и векторы документов.
Вычисляется близость Q2D для оценки релевантности и отбора сокращенного набора кандидатов.
Для этого набора вычисляется близость D2D. Это может быть близость к наиболее релевантному документу или к Reference Vector (например, среднему вектору всех кандидатов).
Финальное ранжирование учитывает эти значения D2D как дополнительные признаки (additional document data).

Актуальность для SEO

Высокая. Использование векторных представлений (эмбеддингов) и нейронных сетей (включая архитектуры типа DSSM, упоминаемые в патенте) является основой современного семантического поиска в Яндексе. Идея использования контекста выдачи (SERP context) для уточнения ранжирования отдельных документов крайне актуальна и соответствует трендам на повышение консистентности и качества поисковой выдачи.

Важность для SEO

Влияние на SEO значительно (8/10). Патент описывает механизм, который может пессимизировать документы, являющиеся «выбросами» в контексте остальной выдачи. Это означает, что для успешного ранжирования документ должен быть не только релевантен запросу (Q2D), но и соответствовать общему тематическому и семантическому консенсусу топовых результатов (D2D). Это подчеркивает критическую важность анализа интента и соответствия доминирующим результатам в SERP.

Детальный разбор

Термины и определения

D2D Proximity Value (Document-to-Document Proximity): Метрика близости между двумя векторами документов. Указывает на степень семантической схожести между документами. Используется как фактор ранжирования на финальном этапе.
Document Vector / Query Vector (Вектор документа / запроса): Численные представления (эмбеддинги) документа или запроса, сгенерированные MLA. Обучены так, что их близость отражает релевантность.
MLA (Machine Learning Algorithm): Алгоритм машинного обучения, в патенте упоминается Нейронная Сеть (NN). Состоит из двух частей: query-dedicated portion и document-dedicated portion, которые обучаются совместно (архитектура типа DSSM).
Outlier (Выброс): Документ, который релевантен запросу (высокий Q2D), но значительно отличается от большинства других релевантных документов в выборке (низкий D2D по отношению к Reference Vector).
Q2D Proximity Value (Query-to-Document Proximity): Метрика близости между вектором запроса и вектором документа. Отражает релевантность документа запросу. Используется для предварительного отбора кандидатов.
Reference Vector (Опорный вектор): Вектор, используемый в качестве эталона для расчета D2D. Представляет собой «усредненный документ» или центроид кластера выдачи. Может быть рассчитан как средний вектор (average vector), медианный (mean vector) или медоидный (medoid vector).
Relevance Score (Оценка релевантности): Эталонная оценка релевантности документа запросу (Ground Truth), используемая для обучения MLA.

Ключевые утверждения (Анализ Claims)

Патент защищает метод ранжирования, который включает два основных этапа: предварительный отбор на основе релевантности запросу и финальное ранжирование на основе схожести между документами.

Claim 1 (Независимый пункт): Описывает полный метод ранжирования.

Генерация векторов документов и запроса с помощью MLA. (MLA обучен так, чтобы Q2D близость отражала Relevance Score).
Выполнение двухэтапного процесса ранжирования (two-step ranking process):

Этап 1 (на основе Q2D):
1. Вычисление Q2D proximity для множества документов.
2. Определение сокращенного множества документов (reduced plurality of documents) на основе этих Q2D значений (отбор кандидатов).
Этап 2 (на основе D2D):
1. Вычисление D2D proximity для каждого документа из сокращенного множества. Близость рассчитывается между вектором документа и «другим вектором документа» (an other document vector).
2. Ранжирование документов сокращенного множества с использованием этих D2D значений.

Отображение результатов пользователю.

Claim 2 (Зависимый от 1): Уточняет, что такое «другой вектор документа».

Система генерирует Reference Vector как комбинацию векторов документов из множества.
Этот Reference Vector используется как «другой вектор документа». D2D близость в этом случае показывает схожесть документа с усредненным представлением всех остальных документов.

Claim 9 (Зависимый от 8): Описывает механизм дополнения данных (Data Supplementation).

Если у Документа 1 есть данные Типа А, а у Документа 2 их нет.
Система вычисляет D2D близость между их векторами.
Если близость выше порога (документы очень похожи), система использует данные Типа А Документа 1 как оценку (estimation) для Документа 2.

Где и как применяется

Изобретение применяется на нескольких этапах поисковой архитектуры Яндекса.

INDEXING – Индексирование и извлечение признаков (Офлайн)

Обучение MLA (NN): Нейронная сеть обучается офлайн на исторических данных для генерации качественных векторов.
Генерация Document Vectors: Document-dedicated portion сети используется для генерации и сохранения векторов документов в индексе.

QUERY PROCESSING – Понимание Запросов (Онлайн)

При получении запроса Query-dedicated portion сети генерирует Query Vector в реальном времени.

RANKING – Ранжирование (Каскад L1-L3)

Процесс охватывает как предварительный отбор, так и финальное ранжирование.

L1/L2 (Retrieval/Middle Ranking): Соответствует этапу Pre-selection и Этапу 1 (Claim 1). Происходит отбор кандидатов. Сначала могут использоваться быстрые методы (например, по частотным параметрам Frequency Parameters), затем используется расчет Q2D proximity (векторная релевантность) для сокращения списка до финального набора кандидатов.
L3 (Upper Reranking): Соответствует Этапу 2 (Claim 1).
- Feature Extraction: Система вычисляет D2D proximity values для отобранных кандидатов. Это включает генерацию Reference Vector или идентификацию наиболее релевантного документа.
- Ранжирование: Финальная формула ранжирования (например, CatBoost/YATI) использует эти D2D proximity values как дополнительные признаки для переранжирования топа.

На что влияет

Тематическая целостность (Cohesion) и Выбросы (Outliers): Алгоритм позволяет оценить, насколько хорошо документ вписывается в общую тематику, сформированную другими релевантными документами. Документы, которые сильно отличаются от «среднего» (Reference Vector), могут быть идентифицированы как выбросы.
Специфические запросы: Влияние может быть более заметным в запросах с неоднозначным интентом, где система может предпочесть документы, соответствующие доминирующему интенту (определяемому через Reference Vector).
Ранжирование новых документов: Механизм Data Supplementation позволяет использовать данные из известных похожих документов для ранжирования новых документов, по которым еще нет статистики.

Когда применяется

Алгоритм применяется в процессе ранжирования при обработке поискового запроса в реальном времени.

Триггеры активации D2D: Активируется на стадиях L3 ранжирования после того, как отобраны первичные кандидаты (L1/L2) и рассчитана их базовая релевантность (Q2D).
Условие для Data Supplementation: Активируется, когда для документа отсутствуют данные, а для другого, семантически похожего (D2D близость выше порога), эти данные есть.

Пошаговый алгоритм

Процесс А: Офлайн-обучение и подготовка

Обучение MLA: Обучение Нейронной Сети (NN) на парах (запрос, документ) и Relevance Scores. Цель — чтобы Q2D близость коррелировала с Relevance Score.
Генерация и Индексация: Генерация и сохранение Document Vectors для документов в базе.

Процесс Б: Обработка запроса и Ранжирование (Онлайн)

Генерация вектора запроса: Генерация Query Vector с помощью MLA.
Предварительный отбор (L1/L2):
1. (Опционально) Отбор по частотным характеристикам (Frequency Parameters).
2. Расчет Q2D proximity.
3. Формирование сокращенного списка кандидатов (Этап 1 Claim 1).
Вычисление D2D признаков (L3): (Этап 2 Claim 1)
1. Определение «Опорного вектора» (an other document vector). Варианты:
  - Вариант А: Выбор вектора документа с наивысшим Q2D скором.
  - Вариант Б: Расчет Reference Vector (например, усреднение векторов кандидатов).
2. Расчет D2D proximity для каждого кандидата путем сравнения его вектора с Опорным вектором.
Финальное ранжирование (L3): Использование D2D proximity values как дополнительных признаков в основной формуле ранжирования.
Выдача результатов: Формирование SERP.

Какие данные и как использует

Данные на входе

Контентные факторы (Текстовые): Тексты запросов и документов используются как входные данные для векторизационных моделей (упомянуты DSSM, bag-of-words, Word2vec, Sent2vec), которые подают данные в MLA для генерации эмбеддингов.
Поведенческие факторы: Используются для обучения MLA (как основа для Relevance Scores). Упоминаются популярность, CTR, время на клик (time-per-click). Также могут использоваться в механизме восполнения данных.
Системные данные (Document Data / Query Data): Различные характеристики документов и запросов (статистические, текстовые данные), используемые как входные данные для MLA и для финального ранжирования.

Какие метрики используются и как они считаются

Векторы (Эмбеддинги): Генерируются с помощью обученной Нейронной Сети (MLA).
Proximity Value (Q2D и D2D): Метрика близости («векторное расстояние») между векторами. Патент упоминает Евклидово расстояние (Euclidian distance) и скалярное произведение (scalar product) как примеры расчета.
Reference Vector: Рассчитывается как комбинация векторов документов-кандидатов. Методы расчета: среднее (average), среднее значение (mean), медоид (medoid).
Frequency Parameters: Метрики частоты вхождения терминов запроса в документ (используются для первичного отбора, L1).

Выводы

D2D схожесть как фактор ранжирования: Яндекс явно использует метрики схожести между документами (D2D proximity) как признаки на финальных этапах ранжирования. Позиция документа зависит не только от его релевантности запросу (Q2D), но и от того, насколько он похож на другие топовые документы.
Концепция «Reference Vector» (Усредненный результат): Ключевой механизм – расчет усредненного вектора для выборки кандидатов. Сравнение документа с этим Reference Vector показывает, насколько документ соответствует «консенсусу» или «центру тяжести» выдачи.
Идентификация и обработка «Выбросов» (Outliers): Механизм позволяет идентифицировать документы, которые семантически далеки от Reference Vector. Это дает поисковой системе рычаг для управления гомогенностью выдачи.
Многоступенчатое ранжирование: Патент подтверждает каскадную модель: сначала отбор по релевантности (включая Q2D на L1/L2), затем уточнение ранжирования с учетом контекста выдачи (D2D на L3).
Восполнение данных через схожесть (Data Supplementation): Яндекс использует D2D схожесть для переноса характеристик. Если новый документ семантически очень похож на авторитетный документ, он может наследовать часть его характеристик для ранжирования.

Практика

Best practices (это мы делаем)

Глубокий анализ SERP и определение тематического консенсуса: Необходимо анализировать Топ-10/Топ-20, чтобы понять, какой семантический профиль формирует «средний вектор» (Reference Vector) выдачи. Ваш контент должен соответствовать этому консенсусу, чтобы максимизировать D2D близость к эталону.
Соответствие доминирующему интенту: Если запрос неоднозначен, но в выдаче доминирует один интент, попытка ранжирования по вторичному интенту может быть затруднена. Документ по вторичному интенту будет считаться «выбросом» и может быть пессимизирован. Следует фокусироваться на доминирующем интенте.
Создание семантически богатого контента, соответствующего лидерам: Убедитесь, что ваш контент покрывает тему схожим образом с лидерами выдачи, используя релевантные QBST фразы и сущности. Это особенно важно в YMYL-тематиках, где отклонение от консенсуса может сильно повлиять на D2D метрики.
Кластеризация контента и использование Data Supplementation: Развивайте авторитетные страницы (Hubs). Новые страницы (Spokes), семантически близкие к авторитетным, могут быстрее набирать вес благодаря механизму восполнения данных, «наследуя» позитивные сигналы.

Worst practices (это делать не надо)

Создание «Выбросов» (Outliers) без сильного авторитета: Попытка ранжироваться с контентом, который сильно отличается от общего консенсуса выдачи. Даже если Q2D релевантность будет достаточной, механизм D2D может идентифицировать страницу как выброс и скорректировать ее ранг.
Игнорирование семантической структуры и формата лидеров: Создание контента, который использует совершенно другую лексику, структуру (например, короткая заметка против лонгридов в топе) и набор подтем, чем топовые результаты. Это снижает D2D близость к Reference Vector.
Фокус только на текстовой релевантности (Q2D): Оптимизация текста под ключевые слова без учета общей семантики и тематики топовых результатов.

Стратегическое значение

Патент подтверждает, что Яндекс стремится формировать тематически целостную и последовательную выдачу. Система не просто ищет релевантные документы, но и оценивает, как они соотносятся друг с другом. Это снижает вероятность появления в топе случайных или не вполне соответствующих общему интенту результатов. Для SEO это означает, что анализ конкурентов в SERP становится критичным – необходимо не просто быть релевантным запросу, но и соответствовать ожиданиям системы относительно того, как выглядит «идеальный ответ» в контексте других ответов.

Практические примеры

Сценарий 1: Идентификация и обработка «Выброса» (Outlier) в YMYL

Запрос: «Лечение простуды».
Кандидаты (L2): Система отобрала документы с высоким Q2D. Большинство — медицинские порталы с доказательной медициной. Один из документов — форум о лечении простуды нетрадиционными методами.
Расчет Reference Vector (L3): Система вычисляет средний вектор. Он сильно смещен в сторону семантики доказательной медицины.
Расчет D2D (L3): Медицинские порталы имеют высокую D2D близость к Reference Vector. Форум имеет очень низкую D2D близость (является семантическим выбросом).
Результат: При финальном ранжировании низкое значение D2D может привести к понижению форума, так как он не соответствует общему профилю качественной выдачи по YMYL-запросу.

Сценарий 2: Восполнение данных (Data Supplementation) для новой страницы

Ситуация: На авторитетном сайте публикуется новая статья (Документ А). По ней еще нет поведенческих данных (CTR, вовлеченность). Есть старая популярная статья того же сайта (Документ Б) на очень похожую тему с отличными метриками.
Анализ схожести: Система определяет, что D2D близость между А и Б очень высока.
Действие системы (Claim 9): Система использует поведенческие метрики Документа Б как оценку (estimation) для Документа А.
Результат: Новая статья (Документ А) получает преимущество при ранжировании благодаря «наследованию» положительных сигналов, решая проблему «холодного старта».

Вопросы и ответы

Что такое Q2D Proximity и D2D Proximity и в чем разница?

Q2D (Query-to-Document) Proximity — это мера близости между вектором запроса и вектором документа, она отражает релевантность документа запросу. D2D (Document-to-Document) Proximity — это мера близости между векторами двух документов, она отражает их семантическую схожесть. В этом патенте Q2D используется для первичного отбора кандидатов (L1/L2), а D2D — как дополнительный фактор в финальном ранжировании (L3).

Что такое Reference Vector и как он используется?

Reference Vector — это опорный вектор, который представляет собой «усредненный документ» среди всех отобранных кандидатов для ранжирования. Он рассчитывается как комбинация (например, среднее значение) векторов всех кандидатов и служит эталоном контекста выдачи. Система измеряет близость (D2D) каждого отдельного документа к этому Reference Vector и использует это значение как фактор ранжирования.

Если мой документ сильно отличается от конкурентов в ТОПе (является «выбросом»), это хорошо или плохо?

Чаще всего это плохо. Если ваш документ сильно отличается от Reference Vector, он получает низкий D2D скор. Если формула ранжирования настроена на повышение консистентности выдачи (что часто бывает, особенно в YMYL), это приведет к понижению позиций. Исключением может быть ситуация, когда система стремится к разнообразию (Diversity) и специально «подмешивает» качественные выбросы для покрытия смежных интентов, но полагаться на это рискованно.

Что означает механизм восполнения данных (Data Supplementation)?

Это механизм переноса характеристик между документами. Если система определяет, что два документа очень похожи (высокая D2D близость), и у одного из них отсутствуют какие-либо данные (например, поведенческие метрики у новой страницы), система может использовать данные похожего документа в качестве оценки. Это помогает быстрее и точнее ранжировать новые страницы.

Как этот патент влияет на стратегию создания контента?

Он подчеркивает критическую важность анализа консенсуса выдачи (SERP Analysis). Недостаточно написать релевантный текст; необходимо убедиться, что ваш контент структурно и семантически соответствует тому типу контента, который уже доминирует в выдаче. Ваш контент должен вписываться в основной семантический кластер, формируемый лидерами.

Как обучается MLA, генерирующий эти векторы?

MLA (Нейронная сеть) обучается на большом наборе данных из пар (запрос, документ) и их оценок релевантности (Relevance Score), полученных от асессоров или из поведенческих данных. Цель обучения — научить сеть генерировать такие векторы, чтобы расстояние (Q2D proximity) между ними максимально точно соответствовало их оценке релевантности. Архитектура напоминает DSSM.

Использует ли система сравнение каждого документа с каждым?

Патент предлагает более эффективные методы, чтобы избежать ресурсоемкого попарного сравнения. Основные методы — это сравнение каждого документа с одним усредненным эталонным вектором (Reference Vector) или сравнение с вектором наиболее релевантного документа в наборе. Это значительно ускоряет расчет D2D признаков на этапе L3.

Может ли этот алгоритм использоваться для борьбы со спамом?

Да, косвенно. Спамные или низкокачественные документы часто семантически отличаются от качественных ресурсов по той же теме, даже если они манипулируют текстовой релевантностью. В этом случае они будут иметь низкую D2D близость к Reference Vector (если он сформирован качественными документами) и будут идентифицированы как выбросы, что позволит скорректировать их ранжирование.

Как SEO-специалисту измерить D2D Proximity своего сайта к центроиду выдачи?

Прямых инструментов нет. Однако можно использовать косвенные методы: провести семантический анализ Топ-10/20 результатов, извлечь ключевые сущности, терминологию, структуру и оценить, насколько ваш документ соответствует этому усредненному профилю. Чем больше пересечений по всем параметрам, тем выше вероятность близости вашего вектора к Reference Vector.

Стоит ли пытаться ранжироваться по интенту, который отличается от большинства в топе?

Это рискованная стратегия. Если 9 из 10 результатов отвечают на Интент А, а вы продвигаете Интент Б по тому же запросу, механизм D2D ранжирования может активно этому препятствовать, помечая вашу страницу как выброс из-за низкой близости к Reference Vector. В таких случаях лучше искать более специфические запросы, где ваш интент является доминирующим.