Как Яндекс использует семантическую близость между результатами поиска для улучшения ранжирования и переноса факторов

Яндекс патентует метод улучшения ранжирования, который анализирует, насколько семантически похожи друг на друга документы, уже отобранные в качестве кандидатов. Система вычисляет «базисный вектор» (смысловой центр выдачи) и использует близость каждого документа к этому центру как дополнительный фактор ранжирования. Также метод позволяет переносить признаки (факторы ранжирования) с одного документа на другой, если они семантически очень близки.

Описание

Какую задачу решает

Патент решает задачу повышения качества ранжирования путем использования взаимосвязей между документами-кандидатами. Он предлагает механизм для идентификации документов, которые семантически центральны по отношению к основной теме, представленной в наборе результатов. Кроме того, патент решает проблему отсутствия данных или признаков (факторов) для некоторых документов, предлагая механизм переноса признаков (feature propagation) от семантически похожих документов, для которых эти признаки известны.

Что запатентовано

Запатентована система и способ для ранжирования (точнее, переранжирования) множества документов, отобранных в качестве кандидатов. Суть изобретения заключается в использовании семантической близости между самими документами (измеренной через близость их векторов), а не только близости документа к запросу, в качестве фактора ранжирования. Основной механизм предполагает сравнение каждого документа с «базисным вектором» (смысловым центром) набора кандидатов.

Как это работает

Система работает на основе векторных представлений (эмбеддингов). Сначала документы и запрос преобразуются в векторы с помощью алгоритма машинного обучения (MLA), обученного так, что близость векторов соответствует релевантности. После отбора набора кандидатов система вычисляет «базисный вектор» для этого набора (например, среднее значение всех векторов). Затем для каждого документа рассчитывается значение близости его вектора к этому базисному вектору. Это значение близости (указывающее на семантическую центральность документа) используется как дополнительный признак в основной формуле ранжирования. Дополнительно, если два документа имеют очень близкие векторы, система может перенести известные факторы ранжирования с одного документа на другой.

Актуальность для SEO

Высокая. Описанный в патенте MLA (нейронная сеть с частью для документа и частью для запроса) соответствует архитектуре двухбашенных нейронных сетей (например, DSSM), которые являются стандартом в современном поиске для быстрого извлечения и ранжирования. Использование взаимосвязей между документами на поздних стадиях ранжирования и перенос признаков через эмбеддинги являются актуальными и мощными техниками.

Важность для SEO

Влияние на SEO значительно (7.5/10). Патент подчеркивает важность тематической центральности и семантического соответствия консенсусу качественных результатов по запросу. Документы, которые точно попадают в основной интент (близки к базисному вектору), могут быть предпочтительнее, чем документы-выбросы (outliers), даже если последние содержат ключевые слова. Механизм переноса факторов также подчеркивает важность создания контента, семантически близкого к авторитетным источникам.

Детальный разбор

Термины и определения

MLA (Алгоритм машинного обучения): Алгоритм, используемый для формирования векторов документов и запросов. В патенте описан как нейронная сеть, состоящая из двух частей (для документа и для запроса), которые обучаются совместно. Это соответствует архитектуре DSSM (Deep Structured Semantic Models) или аналогичных двухбашенных моделей.
Базисный вектор (Basis Vector): Вектор, сформированный как сочетание (агрегация) векторов документов из множества кандидатов. Он представляет собой смысловой центр или консенсус всего набора результатов. Может быть усредненным вектором, вектором средних значений (центроидом) или вектором медоида.
Вектор документа / Вектор запроса (Document/Query Vector): Численное представление (эмбеддинг) документа или запроса, сформированное MLA. Векторы сформированы так, что их близость отражает семантическую релевантность.
Значение близости (Proximity Value): Метрика, указывающая на сходство между двумя векторами (например, косинусная близость). Используется для оценки релевантности (близость Документ-Запрос) и для оценки схожести между документами (близость Документ-Документ или Документ-Базисный вектор).
Коэффициент релевантности (Relevance Coefficient): Оценка релевантности документа запросу (например, оценка асессора), используемая для обучения MLA.

Ключевые утверждения (Анализ Claims)

Патент описывает два основных механизма: ранжирование на основе межддокументной близости и перенос признаков между близкими документами.

Claim 1 (Независимый пункт): Ядро изобретения. Описывает общий способ ранжирования.

Система предполагает, что для множества документов-кандидатов и запроса уже существуют векторы, где близость вектора документа и вектора запроса представляет релевантность.
Для каждого документа система определяет значение близости его вектора и вектора другого документа (или документов) из этого множества. Это значение указывает на сходство между документами.
Система использует эти значения межддокументной близости для ранжирования множества документов.

Claim 3 (Зависит от 1): Концепция Базисного Вектора. Уточняет, что такое «другой документ» из Claim 1.

Система формирует базисный вектор для множества документов как сочетание (агрегацию) векторов этих документов. Базисный вектор выступает в роли «другого документа». Значение близости в этом случае указывает на сходство документа с остальными документами множества (т.е., близость к смысловому центру).

Claim 4 (Зависит от 3): Типы Базисного Вектора.

Базисный вектор может быть усредненным вектором, вектором средних значений (центроидом) или вектором медоида.

Claim 6 (Зависит от 5): Место в конвейере ранжирования. Описывает, когда применяется изобретение.

Процесс происходит после двух этапов предварительного выбора (Pre-selection):

Первый этап: Отбор документов на основе параметров частоты (например, BM25 или наличие терминов запроса), превышающих первый порог. (Соответствует L1 Retrieval).
Второй этап: Формирование векторов с помощью MLA и отбор документов, чье значение близости к вектору запроса (релевантность) превышает второй порог. (Соответствует L2 Ranking или продвинутому L1).

Изобретение (расчет близости к базисному вектору) применяется к результатам второго этапа, что указывает на его использование на поздних стадиях ранжирования (L3/Upper Reranking).

Claim 9 (Зависит от 8): Интеграция в ранжирование.

Использование значений близости (к базисному вектору) заключается в том, что они подаются в основной алгоритм ранжирования (например, CatBoost) в качестве дополнительных данных документов (т.е. как новые факторы ранжирования).

Claim 11 (Зависит от 10): Перенос признаков (Feature Propagation). Описывает второй ключевой механизм.

Есть первый документ с данными первого вида (например, фактор «Авторитетность») и второй документ, для которого эти данные отсутствуют.
Система определяет значение близости векторов этих двух документов.
Если значение близости превышает пороговое значение (документы семантически очень похожи), система использует данные первого документа как оценку (estimate) данных второго документа.

Claim 13 (Зависит от 2): Архитектура MLA.

MLA представляет собой нейронную сеть, содержащую предназначенную для документа часть и предназначенную для запроса часть. Обе части обучаются совместно так, что значение близости выходных векторов представляет собой коэффициент релевантности. Это точное описание архитектуры двухбашенной нейронной сети (Two-Tower Model), такой как DSSM.

Где и как применяется

Изобретение применяется на этапе ранжирования, конкретно на поздних стадиях.

RANKING – Ранжирование (Уровень L3/Upper Reranking)

Как описано в Claim 6, этот механизм применяется после первичного отбора кандидатов (L1) и их предварительного ранжирования/фильтрации (L2). Это процесс переранжирования (Reranking).

Вычисление Базисного Вектора: После получения финального набора кандидатов (например, Топ-200), система агрегирует их векторы (полученные от MLA/DSSM) для создания Базисного Вектора.
Расчет Факторов Центральности: Для каждого документа вычисляется близость к Базисному Вектору.
Перенос Признаков: Система может сравнить векторы документов между собой для идентификации пар с высокой близостью и выполнить перенос недостающих факторов (например, оценок качества, авторитетности).
Финальное Ранжирование: Основная модель ранжирования (например, CatBoost на этапе L3) принимает на вход стандартные факторы, а также новые факторы центральности и перенесенные признаки, для определения финального порядка выдачи.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на широкие или неоднозначные запросы, где в выдаче могут присутствовать документы по разным интентам. Механизм помогает выделить основной интент (формирующий базисный вектор) и повысить документы, соответствующие ему, понижая при этом выбросы (outliers).
Типы контента: Влияет на все типы контента, которые могут быть векторизованы с помощью MLA. Способствует продвижению контента, который семантически совпадает с консенсусом выдачи.

Когда применяется

Алгоритм применяется во время выполнения запроса на этапе финального ранжирования. Триггером является наличие множества документов-кандидатов, прошедших предыдущие этапы отбора (фильтрацию по частоте терминов и фильтрацию по векторной релевантности запросу).

Пошаговый алгоритм

Процесс работы системы в конвейере ранжирования:

Предварительный выбор (Этап 1): Получение запроса. Отбор первичного пула документов из индекса на основе параметров частоты (например, BM25), превышающих первый порог.
Генерация векторов: Использование MLA (двухбашенной нейросети) для генерации векторов отобранных документов и вектора запроса.
Предварительный выбор (Этап 2): Расчет значений близости между вектором запроса и векторами документов (оценка релевантности). Отбор подмножества документов, чья близость превышает второй порог. Это финальный набор кандидатов для ранжирования.
Расчет Базисного Вектора: Агрегация векторов документов из финального набора кандидатов для формирования Базисного Вектора (например, вычисление среднего значения).
Расчет Близости к Центру: Для каждого документа из набора кандидатов вычисляется значение близости его вектора к Базисному Вектору.
Перенос Признаков (Опционально): Сравнение векторов документов между собой. Если близость между двумя документами превышает порог переноса, недостающие признаки копируются с одного документа на другой.
Финальное Ранжирование: Использование основного алгоритма ранжирования. Значения близости к Базисному Вектору и перенесенные признаки используются как дополнительные факторы ранжирования.
Выдача результатов: Формирование SERP.

Какие данные и как использует

Данные на входе

Контентные факторы: Данные документа (текст, заголовки и т.д.), которые подаются на вход MLA для генерации Вектора Документа. Данные запроса, используемые для генерации Вектора Запроса.
Системные данные (Признаки): Существующие факторы ранжирования (например, статические факторы, оценки качества, поведенческие данные). Эти данные используются в механизме переноса признаков (Claim 11).

Какие метрики используются и как они считаются

MLA (Двухбашенная Нейронная Сеть / DSSM): Используется для преобразования контента в векторное представление (эмбеддинги). Обучается на парах (Документ, Запрос) с известным Коэффициентом Релевантности.
Значение близости (Proximity Value): Метрика схожести векторов. В патенте конкретная формула не указана, но обычно это косинусная близость (cosine similarity) или скалярное произведение (dot product).
Расчет Базисного Вектора: Математические операции агрегации векторов: усреднение, вычисление центроида или медоида.
Пороговые значения: Используются на нескольких этапах:
- Первый порог (частота терминов) для Этапа 1 отбора.
- Второй порог (близость Запрос-Документ) для Этапа 2 отбора.
- Порог близости (близость Документ-Документ) для активации переноса признаков.

Выводы

Семантическая центральность как фактор ранжирования: Яндекс явно использует семантическую близость между документами в выдаче как фактор ранжирования. Введение «Базисного вектора» означает, что система определяет смысловой центр (консенсус) выдачи и поощряет документы, близкие к этому центру.
Потенциальное понижение выбросов (Outliers): Документы, которые семантически далеки от основного массива результатов (даже если они формально релевантны запросу), могут быть понижены, так как их близость к Базисному вектору будет низкой.
Перенос факторов ранжирования (Feature Propagation): Критически важный механизм. Если два документа семантически очень похожи (на уровне векторных представлений), система может переносить факторы ранжирования (например, оценки качества, авторитетности, поведенческие сигналы) с одного документа на другой. Это позволяет быстрее оценивать новые документы или документы с недостаточной статистикой.
Архитектура Двухбашенных Моделей (DSSM): Патент подтверждает использование архитектуры, подобной DSSM (MLA с двумя частями), для генерации семантических векторов, которые лежат в основе этих механизмов.
Поздняя стадия ранжирования: Описанные механизмы применяются на поздних стадиях ранжирования (L3), после того как базовые фильтры релевантности уже отработали.

Практика

Best practices (это мы делаем)

Фокус на основном интенте (Core Intent): Убедитесь, что ваш контент точно соответствует основному намерению пользователя. Анализируйте Топ выдачи, чтобы понять, какой контент формирует «смысловой центр» (Базисный вектор), и стремитесь семантически соответствовать этому центру.
Семантическое соответствие авторитетным источникам: Поскольку система может переносить факторы (включая авторитетность и качество) между семантически похожими документами, полезно создавать контент, который по структуре, лексике и смыслу близок к уже известным высококачественным ресурсам в вашей нише.
Построение Тематического Авторитета (Topical Authority): Работайте над качеством всего сайта. Если высококачественные страницы вашего сайта будут семантически близки к новым страницам, механизм переноса признаков может способствовать более быстрому росту новых страниц за счет переноса позитивных факторов.
Использование четкого и релевантного языка: Используйте терминологию и язык, принятые в вашей тематике. Это поможет MLA (DSSM) правильно интерпретировать контент и расположить ваш вектор ближе к Базисному вектору релевантных запросов.

Worst practices (это делать не надо)

Создание контента-выброса (Outlier Content): Попытки ранжироваться по широким или неоднозначным запросам с контентом, который затрагивает тему лишь косвенно или с необычной стороны, могут быть затруднены. Такой контент будет далек от Базисного вектора.
Игнорирование семантического контекста выдачи: Оптимизация под ключевые слова без учета того, как выглядит общая картина выдачи и какие документы формируют консенсус.
Ассоциация с низкокачественным контентом: Создание контента, который семантически близок к спаму или низкокачественным ресурсам, может привести к переносу негативных факторов ранжирования через механизм Feature Propagation.

Стратегическое значение

Патент подтверждает стратегический переход от оценки соответствия «Документ-Запрос» к более сложной оценке соответствия «Документ-Контекст Выдачи». Ранжирование документа зависит не только от его собственного содержания, но и от того, как он соотносится с другими результатами поиска. Механизм переноса факторов подчеркивает, что семантическая близость используется Яндексом не только для понимания контента, но и для распространения оценок качества и авторитетности, что делает построение общего авторитета ресурса еще более важным.

Практические примеры

Сценарий 1: Ранжирование по неоднозначному запросу (Центральность)

Запрос: «Ягуар».
Кандидаты: 80 документов про автомобиль, 20 документов про животное.
Действие системы: Система вычисляет Базисный Вектор. Из-за преобладания документов про автомобиль, Базисный Вектор будет сильно смещен в сторону автомобильной тематики.
Результат: Документы про автомобиль получат высокое значение близости к Базисному Вектору и дополнительный буст в ранжировании. Документы про животное (выбросы) получат низкое значение близости и могут быть понижены относительно основного интента.

Сценарий 2: Перенос Авторитетности (Feature Propagation)

Ситуация: Документ А — известная, авторитетная статья о лечении гипертонии с высокими оценками качества (например, Proxima/E-E-A-T). Документ Б — новая статья на другом сайте, также посвященная лечению гипертонии.
Действие системы: MLA определяет, что векторы Документа А и Документа Б очень близки (семантически почти идентичны). Близость превышает порог.
Перенос факторов: Система переносит факторы авторитетности/качества с Документа А на Документ Б, используя их как оценку для Документа Б.
Результат: Документ Б получает значительный буст в ранжировании благодаря ассоциации с авторитетным источником, даже если его собственные факторы еще не накоплены.

Вопросы и ответы

Что такое «Базисный вектор» простыми словами?

Базисный вектор — это «смысловой центр» или «консенсус» поисковой выдачи. Он рассчитывается как среднее значение векторов всех документов, отобранных в качестве кандидатов. Если большинство документов в выдаче посвящено теме А, а меньшинство — теме Б, базисный вектор будет ближе к теме А. Он помогает поисковой системе понять основной интент, представленный в результатах.

Как этот патент влияет на контент, который является «выбросом» (outlier)?

Патент описывает механизм, который может понижать контент-выбросы. Поскольку близость к Базисному вектору используется как фактор ранжирования, документы, которые семантически далеки от основного массива результатов (т.е. являются выбросами), получат низкий балл по этому фактору. Это может привести к их понижению в выдаче, даже если они релевантны запросу по другим метрикам.

Что такое перенос признаков (Feature Propagation) и как он работает?

Это механизм, позволяющий переносить известные факторы ранжирования (например, авторитетность, качество, поведенческие данные) с одного документа на другой. Он активируется, если система определяет, что векторные представления (эмбеддинги) двух документов очень близки, то есть они семантически почти идентичны. Это позволяет Яндексу быстрее оценивать новые или редкие документы, «наследуя» характеристики похожих известных документов.

Как сделать так, чтобы мой контент был ближе к Базисному вектору?

Для этого необходимо фокусироваться на основном интенте пользователя и анализировать консенсус Топ-10 выдачи. Ваш контент должен семантически соответствовать тем результатам, которые уже высоко ранжируются и формируют смысловой центр. Используйте релевантную терминологию, покрывайте основные аспекты темы и избегайте ухода в смежные или второстепенные вопросы, если они не являются частью основного интента.

Какой тип алгоритма машинного обучения (MLA) описан в патенте?

В патенте описана нейронная сеть, состоящая из двух частей: одна обрабатывает документ, другая — запрос. Они обучаются совместно, чтобы выходные векторы были близки, если документ релевантен запросу. Это классическая архитектура двухбашенной нейронной сети (Two-Tower Model), ярким примером которой является DSSM (Deep Structured Semantic Models). Такие модели широко используются в современном поиске.

На каком этапе ранжирования применяется этот механизм?

Патент четко указывает, что механизм применяется на поздних стадиях ранжирования (L3/Переранжирование). Это происходит после того, как документы уже прошли два этапа предварительного отбора: сначала по частотным характеристикам (например, BM25), а затем по базовой векторной релевантности запросу.

Заменяет ли этот механизм традиционную релевантность?

Нет, не заменяет. Он используется как дополнительный фактор. Документы сначала должны пройти порог релевантности (близость вектора документа к вектору запроса), чтобы попасть в набор кандидатов. Только после этого рассчитывается их близость к Базисному вектору, которая используется как один из множества факторов в финальной формуле ранжирования.

Как механизм переноса признаков влияет на новые сайты?

Влияние может быть двояким. Позитивное влияние: если новый сайт создает контент, семантически очень близкий к известным авторитетным источникам, он может «унаследовать» позитивные факторы качества и быстрее вырасти. Негативное влияние: если контент нового сайта семантически близок к низкокачественным или спамным ресурсам, он может унаследовать негативные факторы и быть пессимизирован.

Противоречит ли этот патент принципу разнообразия выдачи (Diversity)?

На первый взгляд, да. Механизм поощряет центральность и схожесть, что может снижать разнообразие. Однако в реальной поисковой системе этот алгоритм балансируется другими механизмами, специально направленными на обеспечение разнообразия выдачи (например, для неоднозначных запросов) и подмешивание различных источников. Этот патент описывает лишь один из компонентов сложной системы ранжирования.