Как Яндекс использует схожесть между результатами поиска (D2D Similarity) как фактор ранжирования и для выявления аутлаеров

Яндекс патентует метод, который вводит контекст самой поисковой выдачи как фактор ранжирования. Система рассчитывает векторную близость (D2D proximity) между документами, попавшими в топ. Измеряется, насколько документ похож на «средний» документ выдачи (Reference Vector) или на самый релевантный результат. Эти значения используются как признаки ранжирования, позволяя идентифицировать аутлаеров (outliers) и дополнять недостающие данные о документах.

Описание

Какую задачу решает

Патент решает задачу повышения качества ранжирования за счет учета контекста самой поисковой выдачи. Традиционные модели часто фокусируются только на релевантности документа запросу (Query-to-Document, Q2D). Данное изобретение предлагает учитывать схожесть документа с другими релевантными документами в выдаче (Document-to-Document, D2D). Это позволяет идентифицировать «outliers» (аутлаеров) — документы, которые могут быть релевантны запросу, но семантически отличаются от основного кластера результатов в топе ([0011]). Также патент решает проблему нехватки данных для новых документов, предлагая механизм дополнения (data supplementation) данных на основе схожести с известными документами ([0126]).

Что запатентовано

Запатентована система ранжирования, которая использует D2D proximity values (значения близости между векторами документов) в качестве дополнительных признаков ранжирования. Суть изобретения заключается в том, чтобы на этапе ранжирования оценить, насколько каждый документ-кандидат похож на другие документы-кандидаты (например, на «средний» документ выдачи или на самый релевантный результат), и использовать эту оценку схожести в финальной формуле ранжирования.

Как это работает

Система основана на использовании Machine Learning Algorithm (MLA), например, нейронной сети (NN), обученной генерировать векторы запросов (QV) и документов (DV) так, что их близость (Q2D) отражает релевантность ([0151]). Ключевое наблюдение: такое обучение также делает близость между двумя DV (D2D) показателем их семантической схожести ([0152]-[0154]). В процессе ранжирования, после отбора кандидатов по Q2D релевантности, система выполняет DSD procedure (процедуру определения схожести). Например, генерируется Reference Vector (среднее значение векторов всех кандидатов), и для каждого документа измеряется его близость к этому эталону. Полученные значения D2D близости подаются как дополнительные признаки в основной алгоритм ранжирования.

Актуальность для SEO

Высокая. Использование векторных представлений (эмбеддингов) и нейронных сетей (включая трансформерные модели типа YATI) является стандартом в современном поиске Яндекса. Описанный механизм анализа контекста выдачи и выявления семантических аутлаеров через анализ D2D близости крайне актуален для улучшения качества поиска, управления разнообразием и уточнения интента.

Важность для SEO

Влияние на SEO значительно (7.5/10). Патент вводит фактор «соответствия консенсусу». Недостаточно быть просто релевантным запросу (высокий Q2D); необходимо также семантически соответствовать основному кластеру результатов, который формирует выдачу (высокий D2D к центру кластера). Это требует от SEO-специалистов глубокого анализа семантики всей выдачи (SERP Context) и обеспечения того, чтобы контент не являлся семантическим аутлаером по сравнению с лидерами ниши.

Детальный разбор

Термины и определения

D2D Proximity Value (Document-to-Document): Метрика близости между двумя векторами документов (DV). В контексте патента является показателем семантической схожести между двумя документами ([0157]).
Document Vector (DV) (Вектор документа): Векторное представление (эмбеддинг) документа, сгенерированное MLA на основе данных документа ([0012]).
DSD Procedure (Document Similarity Determination Procedure): Процедура определения схожести документов. Процесс вычисления значений D2D proximity для набора документов-кандидатов ([0189]).
Machine Learning Algorithm (MLA) / Neural Network (NN): Алгоритм машинного обучения (например, нейронная сеть), используемый для генерации векторов. Состоит из двух частей: document-dedicated portion и query-dedicated portion, которые обучаются совместно ([0144],).
Outliers (Аутлаеры, «Выбросы»): Документы, которые релевантны запросу (высокое Q2D proximity), но значительно отличаются от большинства других релевантных документов в наборе (низкое D2D proximity к Reference Vector) ([0011],).
Q2D Proximity Value (Query-to-Document): Метрика близости между вектором запроса (QV) и вектором документа (DV). Является показателем релевантности документа запросу ([0157]).
Query Vector (QV) (Вектор запроса): Векторное представление (эмбеддинг) запроса, сгенерированное MLA на основе данных запроса.
Reference Vector (Эталонный вектор): Вектор, сгенерированный путем комбинации векторов документов из набора кандидатов. Может быть средним (average/mean), или медоидным (medoid) ([0207]). Представляет собой центр кластера или «средний документ» выдачи.

Ключевые утверждения (Анализ Claims)

Патент защищает идею использования схожести между результатами поиска как фактора ранжирования.

Claim 1 (Независимый пункт): Описывает основной метод ранжирования множества документов.

Предпосылка: Система имеет векторы документов (DV) и вектор запроса (QV), сгенерированные так, что близость между DV и QV (Q2D) отражает релевантность.
Основное действие: Для каждого документа из множества определяется значение близости (D2D) между его DV и «an other document vector» (другим вектором документа).
Это значение D2D указывает на схожесть между текущим документом и по крайней мере одним другим документом из этого множества.
Финальное действие: Использование этих значений D2D близости для ранжирования множества документов.

Claim 2 и 13: Уточняют механизм генерации векторов (предпосылка Claim 1).

Используется MLA (например, NN), обученный на парах запрос-документ с известными оценками релевантности. NN состоит из двух частей (для документов и для запросов), которые обучаются совместно, чтобы максимизировать корреляцию между векторной близостью (Q2D) и оценкой релевантности. Это обучение обеспечивает осмысленность как Q2D, так и D2D близости.

Claim 3 и 4: Описывают ключевой вариант реализации для определения «an other document vector».

Система генерирует Reference Vector путем комбинации (например, усреднения (average/mean) или вычисления медоида (medoid)) векторов всех документов из ранжируемого множества. Этот Reference Vector и используется как «an other document vector». В этом случае значение D2D близости указывает на схожесть между текущим документом и остальными документами множества (т.е. насколько он близок к центру кластера).

Claim 5, 6 и 7: Описывают процедуру предварительного отбора (Pre-selection).

Перед применением D2D анализа документы отбираются из общего пула. Описан двухэтапный процесс: (1) Отбор по частотным параметрам (вхождение терминов запроса). (2) Отбор по Q2D близости (векторная релевантность запросу) выше определенного порога. D2D анализ применяется только к этому итоговому набору.

Claim 8 и 9: Уточняют механизм использования D2D в ранжировании.

Система выполняет алгоритм ранжирования, который учитывает данные документа и «additional document data». Значения D2D близости используются именно как эти «additional document data» (т.е. как признаки/факторы ранжирования).

Claim 11: Описывает механизм дополнения данных (Data Supplementation).

Если для Документа А данные есть, а для Документа Б они отсутствуют, система проверяет D2D близость между ними. Если близость выше порога (документы очень похожи), данные Документа А используются как оценка (estimation) для Документа Б.

Где и как применяется

Изобретение затрагивает несколько слоев поисковой архитектуры, но его основное применение происходит на поздних стадиях ранжирования.

INDEXING & Feature Extraction (Офлайн-процессы)
На этом этапе происходит обучение MLA (NN). Также здесь генерируются и сохраняются в индексе векторы документов (DV) для всего пула документов с помощью document-dedicated portion MLA.

QUERY PROCESSING – Понимание Запросов
При получении запроса система использует query-dedicated portion MLA для генерации вектора запроса (QV).

RANKING – Ранжирование (L1/L2 — Retrieval/Middle Ranking)
На этих этапах происходит Pre-selection Procedure. Система отбирает кандидатов сначала по быстрым критериям (например, BM25 или частота терминов, как описано в Claim 6), а затем использует Q2D близость между QV и DV для отбора наиболее релевантных документов.

RANKING – Ранжирование (L3 — Upper Reranking)
Это основной этап применения изобретения (DSD Procedure). Система анализирует набор отобранных кандидатов.

Определение «Other Document Vector»: Система либо вычисляет Reference Vector (усредненный вектор всех кандидатов) (Claim 3), либо (как описано в патенте, но не выделено в отдельный Claim) идентифицирует вектор самого релевантного документа (на основе максимального Q2D).
Расчет D2D Proximity: Для каждого кандидата вычисляется его D2D близость к «Other Document Vector».
Применение в ранжировании: Рассчитанные значения D2D подаются в основную модель ранжирования (например, CatBoost) как дополнительные признаки (Claim 9).

На что влияет

Специфические запросы (Неоднозначные и широкие): Наибольшее влияние оказывается на запросы, где возможно несколько интерпретаций или тем. Механизм помогает усилить доминирующий интент (близость к центру кластера) и идентифицировать аутлаеров.
Разнообразие выдачи (Diversity): Механизм может влиять на разнообразие выдачи. Агрессивное использование D2D близости к центру кластера может привести к слишком однородной выдаче, отфильтровывая минорные интенты.
Новые документы: Через механизм Data Supplementation (Claim 11) новые документы могут быстрее получать оценки качества или другие признаки (например, поведенческие), если они семантически близки к уже известным авторитетным документам.

Когда применяется

Алгоритм применяется во время выполнения запроса на поздних стадиях ранжирования (L3).

Условие применения: Наличие множества документов-кандидатов, прошедших предварительный отбор (Pre-selection).
Триггер активации: Завершение этапов L1/L2 ранжирования и передача набора кандидатов на этап L3 для вычисления дополнительных признаков.

Пошаговый алгоритм

Процесс А: Офлайн-подготовка

Обучение MLA (NN): Обучение модели на парах запрос-документ с оценками релевантности для генерации векторов DV и QV так, чтобы Q2D близость отражала релевантность ([0148]).
Генерация индекса: Генерация и сохранение DV для всех документов в пуле ([0162]).

Процесс Б: Обработка запроса в реальном времени

Получение запроса и генерация QV: Система получает запрос и генерирует его вектор QV с помощью MLA ([0165]).
Предварительный отбор (Pre-selection — L1/L2):
1. (Опционально) Отбор первого набора документов (например, по частоте терминов) ([0176]).
2. Расчет Q2D близости между QV и DV для этого набора.
3. Отбор финального множества кандидатов (Plurality of Documents) на основе порога Q2D близости ([0184]).
Анализ D2D (DSD Procedure — L3):
1. Определение «Other Document Vector». Вариант 1 (по Claim 3): Генерация Reference Vector (например, усреднение всех DV кандидатов) ([0205]-[0208]). Вариант 2 (по описанию патента): Идентификация DV с максимальным Q2D (самый релевантный документ) ([0195]-[0197]).
2. Расчет D2D Proximity: Для каждого документа-кандидата вычисление близости его DV к «Other Document Vector».
Финальное ранжирование (L3): Использование рассчитанных значений D2D Proximity как дополнительных признаков (Additional Document Data) в основном алгоритме ранжирования наряду с другими факторами ([0218]).
Формирование SERP: Генерация ранжированного списка результатов.

Какие данные и как использует

Данные на входе

Контентные факторы: Текстовое содержимое документов и запросов используется для генерации векторов (DV и QV) с помощью MLA (NN). В патенте упоминаются модели векторизации, такие как DSSM, bag-of-words, Word2vec, Sent2vec, как возможные входные данные для NN ([0142]).
Поведенческие факторы / Асессорские оценки: Данные о релевантности (Relevance Score) пар запрос-документ. Критически важны для обучения MLA (NN). Также упоминаются популярность, CTR, time-per-click как данные, которые могут использоваться при векторизации или в механизме Data Supplementation ([0100]-[0121]).
Системные данные: Векторы документов (DV), хранящиеся в индексе или оперативной памяти.

Какие метрики используются и как они считаются

Document Vector (DV) и Query Vector (QV): Генерируются с помощью обученного MLA (NN). Упоминаются архитектуры: fully-connected NN, feed-forward-type NN, auto-encoder-type NN ([0088]).
Q2D Proximity Value: Рассчитывается как мера близости между QV и DV. В патенте упоминаются Евклидово расстояние (Euclidian distance) и скалярное произведение (scalar product) как примеры «векторного расстояния» ([0147]).
Reference Vector: Вычисляется путем комбинации DV документов-кандидатов. Упоминаются методы ([0207]):
- Average vector (средний вектор)
- Mean vector (средний вектор, часто синоним Average)
- Medoid vector (медоидный вектор — вектор одного из документов, наиболее близкий к центру кластера)
D2D Proximity Value: Рассчитывается как мера близости между DV текущего документа и «Other Document Vector» (например, Reference Vector). Используются те же методы расчета близости, что и для Q2D.

Выводы

D2D схожесть как фактор ранжирования: Яндекс явно патентует использование схожести между документами в выдаче (D2D Proximity) как самостоятельного признака ранжирования, дополняющего стандартную оценку релевантности запросу (Q2D).
Контекст выдачи (SERP Context) имеет значение: Вводится понятие контекста выдачи. Ранжирование документа зависит не только от его содержания, но и от того, насколько он соответствует другим документам в топе.
Выявление аутлаеров (Outlier Detection): Ключевой механизм, описанный в патенте (использование Reference Vector), направлен на измерение близости документа к центру семантического кластера выдачи. Документы, далекие от центра (аутлаеры), могут быть идентифицированы и потенциально пессимизированы, даже если они релевантны запросу.
Значимость векторных моделей: Эффективность системы напрямую зависит от качества обучения базовой векторной модели (MLA/NN). Именно качество эмбеддингов определяет, насколько точно Q2D отражает релевантность, а D2D — семантическую схожесть.
Позднее применение в ранжировании: D2D анализ применяется на поздних стадиях ранжирования (L3) к уже отобранному набору релевантных кандидатов.
Дополнение данных (Data Supplementation): Система может использовать высокую D2D схожесть для переноса признаков (например, поведенческих метрик или оценок качества) с известных документов на новые или малоизвестные (Claim 11).

Практика

Best practices (это мы делаем)

Анализ семантического соответствия выдаче (SERP Context Analysis): Необходимо анализировать не просто релевантность вашего контента запросу, но и его семантическое соответствие доминирующему кластеру результатов. Если ваша страница сильно отличается по структуре, лексике и освещаемым подтемам от Топ-10, она может быть классифицирована как аутлаер.
Ориентация на «Reference Vector» (Консенсус Интента): Стремитесь создавать контент, который семантически близок к «среднему документу» выдачи. Это означает покрытие всех ключевых аспектов темы, которые освещают лидеры. Используйте инструменты анализа QBST-фраз и сущностей, общих для Топ-10, чтобы убедиться в близости к центру кластера.
Укрепление Topical Authority для переноса признаков: Развивайте авторитетность ресурса в тематике. Согласно механизму Data Supplementation, если ваш авторитетный сайт будет признан семантически близким (высокий D2D) к новому документу (вашему или чужому), ваши положительные сигналы могут быть частично перенесены на него.
Кластеризация семантики по схожести выдачи: При проектировании структуры сайта и контент-плана группируйте запросы, которые имеют схожую выдачу. Это гарантирует, что страницы будут оптимизированы под конкретный семантический кластер, минимизируя риск стать аутлаером.

Worst practices (это делать не надо)

Создание контента, радикально отличающегося от Топ-10: Попытка ранжироваться по устоявшемуся запросу с контентом, который семантически выбивается из общего ряда (даже если он качественный и релевантный), может быть затруднена из-за низких показателей D2D близости к Reference Vector.
Игнорирование доминирующего интента и формата: Оптимизация под минорный интент или использование формата контента (например, статья вместо листинга), который не соответствует основному кластеру выдачи. Система может предпочесть документы, соответствующие доминирующему интенту и формату.
Фокус только на Q2D релевантности: Оптимизация только под текст запроса без учета семантического контекста других ранжирующихся документов.

Стратегическое значение

Патент подтверждает стратегию Яндекса на глубокое семантическое понимание контента и контекста поиска. Он демонстрирует механизм, который позволяет системе предпочесть «конформность» и соответствие общему тренду выдачи. Для SEO это означает, что анализ конкурентов переходит на новый уровень: необходимо анализировать не просто наличие ключевых слов, а семантическую близость и структуру контента лидеров, чтобы соответствовать ожиданиям системы о том, как должен выглядеть «идеальный» ответ в данном кластере.

Практические примеры

Сценарий 1: Выявление и обработка аутлаера (Outlier Detection)

Запрос: «Ягуар».
Предварительный отбор (L1/L2): Система отбирает 100 документов, релевантных запросу (высокий Q2D). 90 из них про автомобили, 10 — про животное.
Расчет Reference Vector (L3): Система вычисляет средний вектор (Reference Vector) для этих 100 документов. Поскольку большинство документов про автомобили, Reference Vector будет сильно смещен в сторону автомобильной тематики.
Расчет D2D Proximity (L3): Система измеряет близость каждого документа к Reference Vector. Документы про автомобили получат высокую D2D близость. Документы про животное окажутся далеко от центра кластера и получат низкую D2D близость.
Финальное ранжирование: Модель ранжирования использует низкое значение D2D как негативный сигнал (или высокое значение как позитивный). В результате документы про животное (аутлаеры) могут быть понижены в выдаче по сравнению с документами про автомобили, даже если их Q2D релевантность была сопоставима.

Сценарий 2: Дополнение данных для нового документа (Data Supplementation)

Ситуация: В индексе появляется новый документ (Документ Б) — карточка новой модели смартфона. По нему еще нет поведенческих данных (например, CTR, Dwell Time). Есть старая авторитетная карточка (Документ А) на похожую модель того же бренда с высокими поведенческими метриками.
Анализ схожести: Система анализирует векторы Документа А и Документа Б и определяет, что их D2D близость очень высока (они семантически очень близки по характеристикам и структуре).
Перенос признаков: Система использует поведенческие метрики Документа А в качестве оценки (estimation) для Документа Б (Claim 11).
Результат: Документ Б может получить преимущество в ранжировании за счет «заимствованных» поведенческих факторов еще до того, как накопит собственные.

Вопросы и ответы

В чем разница между Q2D и D2D близостью, и что важнее для ранжирования?

Q2D (Query-to-Document) близость — это мера релевантности документа конкретному запросу. D2D (Document-to-Document) близость — это мера семантической схожести двух документов, независимо от запроса. Для ранжирования важны оба показателя. Q2D используется на ранних этапах (L1/L2) для отбора кандидатов (Pre-selection). D2D используется на позднем этапе (L3) как дополнительный фактор для уточнения порядка этих кандидатов, учитывая контекст всей выдачи.

Что такое Reference Vector и как он используется?

Reference Vector — это вектор, представляющий собой центр семантического кластера результатов поиска. Он вычисляется как среднее (average/mean) или медоид (medoid) векторов всех документов-кандидатов. Система измеряет близость каждого документа к этому Reference Vector (D2D близость). Чем ближе документ к Reference Vector, тем больше он соответствует основному интенту или теме выдачи.

Как система борется с аутлаерами (outliers) согласно патенту?

Система идентифицирует аутлаеров путем измерения их D2D близости к Reference Vector. Аутлаер — это документ, который, хотя и релевантен запросу (высокий Q2D), находится далеко от центра кластера (низкий D2D к Reference Vector). Поскольку D2D близость используется как признак ранжирования, низкое значение может привести к понижению аутлаера в финальной выдаче, отдавая предпочтение документам, соответствующим консенсусу.

Может ли этот механизм навредить моему сайту?

Да, может, если ваш контент является семантическим аутлаером для данного запроса. Например, если вы пытаетесь ранжироваться по общему запросу с очень узкоспециализированным контентом, который отличается от того, что представлено в Топ-10, система может посчитать ваш документ не соответствующим основному кластеру и понизить его, несмотря на высокую текстовую релевантность.

Как оптимизировать контент с учетом фактора D2D близости?

Необходимо проводить глубокий анализ SERP Context. Изучите Топ-10 и определите общие семантические характеристики: используемую лексику, освещаемые подтемы, структуру и формат контента. Ваш контент должен семантически соответствовать этому «усредненному портрету» (Reference Vector). Используйте QBST-фразы и сущности, общие для лидеров выдачи, чтобы увеличить вероятность нахождения в центре семантического кластера.

Патент описывает только сравнение со средним вектором (Reference Vector)?

Нет. Хотя Claims (Формула изобретения) акцентируют внимание на этом варианте (Claim 3), в описании патента (Description, FIG. 8) также упоминается вариант сравнения каждого документа с самым релевантным документом в выдаче (тем, у кого максимальный Q2D). Во всех случаях цель одна — получить значения D2D близости и использовать их как факторы ранжирования.

Что такое механизм Data Supplementation, описанный в патенте?

Это механизм дополнения отсутствующих данных (Claim 11). Если для нового или малоизвестного документа нет каких-либо данных (например, поведенческих метрик), но он семантически очень похож (высокая D2D близость) на старый авторитетный документ, система может использовать данные авторитетного документа в качестве оценки для нового. Это помогает решить проблему «холодного старта».

Влияет ли этот патент на разнообразие выдачи (Diversity)?

Да, потенциально влияет. Если система будет слишком агрессивно повышать документы, близкие к центру кластера (Reference Vector), это может привести к снижению разнообразия выдачи. Аутлаеры, представляющие минорные интенты или альтернативные точки зрения, могут быть отфильтрованы, делая выдачу более однородной. Однако система может использовать эту же метрику для контроля разнообразия.

Какие модели используются для генерации векторов в этом патенте?

Патент не специфицирует конкретную модель, используя общие термины MLA и NN. Упоминается, что NN обучается поверх базовых моделей векторизации, таких как DSSM, Bag-of-Words или Word2Vec ([0142]). На практике для генерации таких семантических векторов Яндекс, скорее всего, использует свои современные трансформерные модели (например, YATI).

На каком этапе ранжирования происходит расчет D2D близости?

Расчет D2D близости происходит на поздних этапах ранжирования, вероятнее всего на уровне L3 (Upper Reranking). Это происходит после того, как система уже отобрала наиболее релевантных кандидатов на этапах L1/L2 с использованием Q2D близости (процедура Pre-selection).