Как Яндекс комбинирует семантическое и лексическое соответствие в ранжировании с помощью трех векторов

Яндекс патентует метод ранжирования, который учитывает как общий смысл документа, так и точное вхождение ключевых слов. Система использует три вектора: запроса, документа (для семантики) и специально отобранных фраз из документа (для лексики). Это позволяет нейросетям (Трансформерам) не упускать документы с точными совпадениями, улучшая релевантность выдачи.

Описание

Какую задачу решает

Патент решает критическую проблему современных поисковых систем, основанных на трансформерных моделях (таких как BERT или YATI). Эти модели превосходно справляются с определением семантической (смысловой) близости, но могут упускать важные лексические связи (точное соответствие ключевых слов). Из-за механизма внимания модель может игнорировать или присваивать низкий ранг документам, содержащим точные вхождения запроса, если семантический контекст смещает фокус. Изобретение направлено на улучшение релевантности ранжирования путем интеграции учета как семантических, так и лексических аспектов.

Что запатентовано

Запатентована система и способ ранжирования, основанные на использовании трех различных векторных представлений в модели машинного обучения. Суть изобретения заключается в дополнении стандартных векторов запроса и документа (отвечающих за семантику) третьим вектором, представляющим фразы-кандидаты, извлеченные из документа и лексически связанные с запросом. Это гарантирует, что модель ранжирования явно учитывает точные вхождения ключевых слов наряду с общим смыслом.

Как это работает

Система использует гибридный подход. Вектор документа (Второе векторное представление) рассчитывается заранее (офлайн) и отражает общую семантику документа. Когда поступает запрос, система в реальном времени (онлайн) рассчитывает вектор запроса (Первое векторное представление). Затем она анализирует документы-кандидаты, находит в них фразы, содержащие ключевые слова из запроса (лексически связанные), и формирует вектор этих фраз (Третье векторное представление). Все три вектора передаются в Объединенную модель машинного обучения (например, DSSM или Трансформер), которая вычисляет финальный параметр ранжирования.

Актуальность для SEO

Высокая. Интеграция традиционных сигналов лексического соответствия (подобных BM25) с современными нейросетевыми методами семантического поиска (Трансформеры) является ключевым направлением развития современных поисковых систем (Hybrid Search). Описанная архитектура предоставляет конкретный механизм для реализации такого гибридного ранжирования на поздних стадиях.

Важность для SEO

Влияние на SEO критическое (9/10). Патент явно демонстрирует механизм, который заставляет нейросетевое ранжирование учитывать точное наличие ключевых слов в тексте. Это подтверждает, что, несмотря на развитие семантического поиска, лексическая оптимизация (использование точных формулировок и ключевых слов в релевантных фразах) остается фундаментально важной. Стратегии, игнорирующие точные вхождения в пользу только синонимов и общего смысла, будут проигрывать.

Детальный разбор

Термины и определения

Второе векторное представление (Vector 2, V2): Вектор документа. Отражает общую семантику (смысл) всего документа. Рассчитывается заранее (офлайн) с помощью Второй модели машинного обучения,.
Глубокая модель для определения семантической близости (DSSM): Deep Semantic Similarity Model. Тип нейронной сети, используемый для оценки смысловой близости между текстами. Упоминается как один из вариантов реализации Объединенной модели.
Лексические связи: Соответствие документа лингвистической форме ключевого слова. Определяется наличием в документе точных совпадений с ключевым словом, его грамматических форм или однокоренных слов.
Модель машинного обучения на основе трансформера: Модель глубокого обучения (например, BERT), использующая механизм внимания для понимания контекста слов. Используется для реализации Первой и Второй моделей,,.
Объединенная модель машинного обучения (Combined Model): Основная модель ранжирования. Принимает на вход все три векторных представления (V1, V2, V3) и определяет финальное значение параметра ранжирования.
Первое векторное представление (Vector 1, V1): Вектор поискового запроса. Рассчитывается в реальном времени (онлайн) с помощью Первой модели машинного обучения.
Первая модель машинного обучения (Model 1): Модель (например, Трансформер), используемая онлайн для формирования Вектора 1 (Запрос) и Вектора 3 (Фразы).
Вторая модель машинного обучения (Model 2): Модель (например, Трансформер), используемая офлайн для предварительного расчета Вектора 2 (Документ).
Семантические связи: Соответствие документа смыслу (семантике) ключевого слова. Определяется наличием в документе слов из того же семантического поля (синонимы, связанные понятия).
Третье векторное представление (Vector 3, V3): Вектор фраз-кандидатов. Отражает лексическое соответствие документа запросу. Формируется на основе отобранных из документа фраз, содержащих ключевые слова. Рассчитывается онлайн с помощью Первой модели.
Фраза-кандидат: Фраза, извлеченная из документа-кандидата, которая лексически связана с поисковым запросом (содержит ключевые слова или их формы).

Ключевые утверждения (Анализ Claims)

Патент защищает архитектуру ранжирования, которая явно разделяет и затем объединяет сигналы семантического и лексического соответствия через использование трех векторов.

Claim 1 (Независимый пункт): Описывает основной процесс ранжирования.

Получение запроса.
Формирование Первого векторного представления (V1 — Запрос).
Нахождение документов-кандидатов.
Получение Второго векторного представления (V2 — Документ). Критически важно: V2 сформировано до поступления поискового запроса (офлайн).
Нахождение в документах фраз-кандидатов, лексически связанных с запросом.
Формирование Третьего векторного представления (V3 — Фразы).
Определение параметра ранжирования на основе V1, V2 И V3.
Ранжирование документов.

Ядро изобретения — это использование трех векторов, где V2 отвечает за общую семантику (офлайн), а V3 специально вводится для учета лексического соответствия (онлайн).

Claim 4 (Зависимый от 1): Детализирует процесс нахождения фраз-кандидатов (для V3).

Для каждой фразы в документе формируется векторное представление фразы.
Определяется значение расстояния (близости) между вектором запроса (V1) и вектором фразы.
Фразы ранжируются в зависимости от этого расстояния.
Выбирается заданное количество приоритетных (наиболее близких) фраз.

Это механизм отбора наиболее релевантных с лексической точки зрения участков текста.

Claim 8 (Зависимый от 1): Уточняет механизм ранжирования.

Значение параметра ранжирования определяется путем передачи V1, V2 и V3 в Объединенную модель машинного обучения, которая обучена использовать все три источника информации.

Claim 12 и 17 (Зависимые от 1): Описывают архитектуру генерации векторов.

V2 получается от Второй модели машинного обучения (Model 2), обученной формировать представления документов (Claim 12).
V1 и V3 формируются с применением (Первой) модели машинного обучения (Model 1), обученной формировать представления входных фраз (Claim 17).

Это подтверждает разделение архитектуры на офлайн-компонент (Model 2 для документов) и онлайн-компонент (Model 1 для запроса и фраз).

Где и как применяется

Изобретение затрагивает несколько слоев поисковой архитектуры, реализуя гибридную модель ранжирования.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходят ключевые офлайн-процессы:

Вторая модель (Model 2) обрабатывает все документы в индексе для формирования Вторых векторных представлений (V2). Эти векторы сохраняются в индексе.
В индексе также сохраняются необработанные версии (raw text) документов, которые необходимы для последующего извлечения фраз-кандидатов,.

QUERY PROCESSING – Понимание Запросов
При получении запроса Первая модель (Model 1) используется для формирования Первого векторного представления (V1) в реальном времени.

RANKING – Ранжирование (Уровни L1, L2/L3)

L1 (Retrieval): Нахождение кандидатов может осуществляться с использованием стандартных функций ранжирования, например, Okapi BM25,.
L2/L3 (Re-ranking): Основной этап применения патента.
1. Система извлекает из индекса V2 для кандидатов.
2. Система анализирует необработанные версии кандидатов для нахождения лексически связанных фраз (Claim 4).
3. Первая модель (Model 1) используется для формирования Третьего векторного представления (V3) на основе этих фраз.
4. Объединенная модель принимает V1, V2 и V3 и вычисляет финальный параметр ранжирования.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на запросы, где важна точность формулировок (бренды, названия продуктов, технические термины, имена собственные). Пример в патенте: «Macarons recipe Cedric Grolet». Чисто семантическая модель может упустить специфику, а данный механизм гарантирует учет точных имен и названий.
Контентные факторы: Повышается важность наличия точных ключевых слов (лексическое соответствие) в тексте, но не в виде спама, а в составе естественно звучащих и релевантных фраз, которые система отберет для формирования V3.

Когда применяется

Алгоритм применяется на этапе ранжирования (Re-ranking) после первичного отбора кандидатов. Описанный механизм является интегральной частью основной модели ранжирования (Объединенной модели), а не отдельным фильтром или пост-обработкой. Следовательно, он применяется при обработке большинства поисковых запросов для формирования финальной выдачи.

Пошаговый алгоритм

Процесс А: Офлайн-подготовка (Индексация)

Обучение Второй модели (Model 2): Обучение модели на основе трансформера на всем корпусе документов для формирования векторных представлений документов.
Расчет V2: Применение Model 2 к каждому документу для генерации Второго векторного представления (V2).
Сохранение: Сохранение V2 и необработанной версии документа в поисковом индексе.

Процесс Б: Обработка запроса (Ранжирование)

Получение запроса.
Генерация V1: Формирование Первого векторного представления (V1) запроса с помощью Первой модели (Model 1).
Отбор кандидатов: Нахождение множества документов-кандидатов (например, с помощью BM25).
Извлечение V2: Получение из индекса предварительно рассчитанных Вторых векторных представлений (V2) для кандидатов.
Извлечение лексических фраз: Анализ необработанных версий документов-кандидатов. Идентификация фраз, лексически связанных с запросом. Это может включать расчет близости между вектором запроса и векторами фраз и выбор Топ-N приоритетных фраз,.
Генерация V3: Формирование Третьего векторного представления (V3) на основе отобранных фраз с помощью Первой модели (Model 1).
Вычисление ранга: Передача V1, V2 и V3 в Объединенную модель машинного обучения для определения финального значения параметра ранжирования.
Ранжирование: Сортировка кандидатов на основе полученных значений.

Какие данные и как использует

Данные на входе

Контентные факторы:
- Текст поискового запроса (для генерации V1).
- Полный текст документа (для генерации V2 офлайн).
- Необработанная версия (Raw text) документа (для извлечения фраз-кандидатов онлайн).
- Фразы-кандидаты, извлеченные из документа (для генерации V3).
Системные данные: Предварительно рассчитанные векторные представления документов (V2), хранящиеся в индексе.

Какие метрики используются и как они считаются

Векторные Представления (V1, V2, V3): Генерируются с использованием моделей машинного обучения на основе Трансформера (BERT упоминается как пример).
Метрика Близости / Расстояние между векторами: Используется для отбора фраз-кандидатов. Сравнивается близость вектора запроса (V1) и векторов отдельных фраз документа. Упоминается косинусоидальная метрика близости.
TF-IDF (Term Frequency-Inverse Document Frequency): Упоминается как один из возможных способов формирования векторов для нахождения фраз-кандидатов,.
Алгоритмы векторного представления текста: Упоминаются Word2Vec, GloVe, FastText как возможные методы векторизации текста,.
Параметр ранжирования: Финальная оценка релевантности, вычисляемая Объединенной моделью на основе V1, V2 и V3.
Сокращение объема представлений (Truncation): Патент описывает усечение (сокращение размерности) векторов V1, V2 и V3 для оптимизации производительности и размера. Длины могут быть разными для разных векторов (например, 8, 16 или 32 значения)-[0121].

Выводы

Явный учет лексического соответствия в нейросетевом ранжировании: Яндекс разработал архитектуру, которая принудительно заставляет модель ранжирования учитывать точные вхождения ключевых слов, решая известную проблему Трансформеров, склонных игнорировать лексические совпадения в пользу общей семантики.
Три вектора как основа ранжирования: Ключевой особенностью архитектуры является использование трех входных потоков в финальной модели ранжирования: V1 (Запрос), V2 (Документ — семантика) и V3 (Фразы — лексика). Это обеспечивает баланс между смыслом и ключевыми словами.
Гибридная архитектура (Офлайн + Онлайн): Система оптимизирована по скорости за счет разделения вычислений. Тяжелые вычисления семантики документа (V2) выполняются заранее (офлайн), в то время как анализ запроса (V1) и извлечение лексических фраз (V3) выполняются в реальном времени (онлайн).
Активное извлечение релевантных фраз: Система не просто анализирует весь текст, а целенаправленно ищет и отбирает наиболее релевантные фразы, содержащие ключевые слова (используя векторную близость или TF-IDF), чтобы сформировать вектор V3. Это подчеркивает важность качества и релевантности текста вокруг ключевых слов.
Семантика и Ключевые слова неразделимы: Для достижения высоких позиций документ должен обладать как сильной семантической релевантностью (сильный V2), так и содержать точные ключевые слова в релевантном контексте (сильный V3).

Практика

Best practices (это мы делаем)

Точность формулировок и использование ключевых слов: Убедитесь, что целевые ключевые слова и их грамматические формы присутствуют в тексте. Патент подтверждает, что лексическое соответствие (V3) является отдельным и критически важным входом для модели ранжирования.
Оптимизация фраз вокруг ключевых слов: Важно не просто наличие ключевого слова, а контекст фразы, в которой оно употреблено. Система отбирает фразы-кандидаты на основе их близости к запросу (Claim 4). Пишите четкие, информативные предложения, содержащие ключевые слова, чтобы они были выбраны для формирования V3.
Комплексное раскрытие темы (Семантика): Продолжайте работать над Topical Authority и широким охватом темы. Это необходимо для формирования сильного Второго векторного представления (V2), отражающего общую семантику документа.
Использование словоформ и однокоренных слов: Патент явно определяет лексическую связь как включающую грамматические формы и однокоренные слова. Используйте естественное разнообразие морфологии для повышения шансов на идентификацию фраз-кандидатов.

Worst practices (это делать не надо)

Игнорирование точных вхождений: Стратегия написания текстов исключительно с использованием синонимов, QBST фраз и абстрактных понятий без употребления основных ключевых слов является рискованной. Это приведет к слабому сигналу лексического соответствия (V3).
Переспам и Keyword Stuffing: Механизм направлен на поиск релевантных фраз, а не на подсчет плотности ключевых слов. Бессвязный набор ключевых слов не сформирует качественные фразы-кандидаты и не даст преимуществ, особенно если общая семантика документа (V2) слабая.
«Водянистый» контент: Контент, в котором ключевые слова размыты большим объемом нерелевантного текста, усложняет системе задачу выбора качественных фраз-кандидатов для V3.

Стратегическое значение

Этот патент является ярким подтверждением перехода поисковых систем к гибридному ранжированию (Hybrid Search). Он показывает, как Яндекс интегрирует сильные стороны традиционного Information Retrieval (лексическое соответствие, BM25-подобные сигналы) и современного NLP (нейросети, Трансформеры, семантические векторы). Стратегически это означает, что SEO-специалисты должны обладать компетенциями в обеих областях. Нельзя полагаться только на семантику или только на ключевые слова; успех зависит от синергии этих подходов в контенте.

Практические примеры

Сценарий: Оптимизация страницы рецепта

Запрос пользователя: «Рецепт десерта макарон Седрика Гроле».
Плохая оптимизация (Слабый V3): В тексте используются формулировки: «Известный французский кондитер делится секретами приготовления знаменитого печенья». Ключевые слова «макарон» и «Седрик Гроле» не встречаются в явном виде или разнесены далеко друг от друга. Система может не выбрать качественные фразы-кандидаты.
Хорошая оптимизация (Сильный V3): В тексте есть четкая фраза: «Представляем точный рецепт десерта макарон от шефа Седрика Гроле».
Действие системы: Система идентифицирует эту фразу как лексически связанную и близкую к запросу. Она используется для формирования V3.
Результат: При прочих равных (например, схожем качестве V2), документ с хорошей оптимизацией получит буст за счет сильного V3 и ранжируется выше.

Сценарий: Оптимизация карточки товара

Запрос пользователя: «Купить iPhone 15 Pro Max 512GB Натуральный Титан».
Анализ карточки: Система ищет фразы, лексически связанные с запросом.
Фразы-кандидаты: «Смартфон Apple iPhone 15 Pro Max», «Объем памяти 512GB», «Цвет: Натуральный Титан (Natural Titanium)».
Результат: Наличие этих четких фраз позволяет сформировать сильный V3. Если в описании товара используются размытые формулировки (например, «Флагманский телефон с большим объемом памяти в новом цвете»), сигнал V3 будет слабее, что может негативно сказаться на ранжировании по точному товарному запросу.

Вопросы и ответы

Что такое Первое, Второе и Третье векторные представления в этом патенте?

Первое представление (V1) — это вектор поискового запроса, генерируемое онлайн. Второе представление (V2) — это семантический вектор документа, рассчитанный заранее (офлайн), он отражает общий смысл контента. Третье представление (V3) — это вектор лексических фраз, генерируемый онлайн; он кодирует информацию о точных совпадениях ключевых слов из запроса во фразах документа. Все три вектора используются Объединенной моделью для расчета финальной релевантности.

В чем разница между семантическими и лексическими связями в контексте патента?

Семантические связи основаны на смысле и контексте (например, слова «кошка» и «котенок» связаны семантически). Лексические связи основаны на лингвистической форме слова — это точные совпадения ключевых слов, их грамматические формы или однокоренные слова (например, «кошка», «кошки», «кошачий»). Патент вводит механизм (V3) для гарантированного учета лексических связей.

Означает ли этот патент возврат к эпохе точных вхождений ключевых слов?

Не совсем возврат, скорее, это эволюция. Точные вхождения (лексическая связь) крайне важны и выделены в отдельный сигнал (V3). Однако это не отменяет необходимости общей семантической релевантности (V2). Система ищет баланс. Кроме того, лексическая связь оценивается не простым подсчетом слов, а через анализ релевантности фраз с помощью трансформерных моделей, что требует качества и естественности текста.

Как система определяет, какие фразы использовать для Вектора V3?

Система анализирует все фразы в документе, которые содержат ключевые слова или их формы. Она рассчитывает векторное представление для каждой такой фразы и сравнивает его с вектором запроса (V1), используя метрику расстояния (например, косинусную близость). Затем она выбирает Топ-N фраз, которые наиболее близки к запросу (Claim 4). Именно эти приоритетные фразы формируют Вектор V3.

Почему Вектор Документа (V2) рассчитывается офлайн, а Вектор Фраз (V3) — онлайн?

V2 (документ) рассчитывается офлайн, потому что анализ всего документа — это ресурсоемкая задача, и контент документа не зависит от текущего запроса. Это экономит время при поиске. V1 (запрос) и V3 (лексические фразы) должны рассчитываться онлайн, так как они напрямую зависят от текста текущего поискового запроса. Система должна знать запрос, чтобы найти лексически связанные с ним фразы.

Что такое Первая и Вторая модели машинного обучения?

Это две разные модели, вероятно, на основе Трансформеров. Вторая модель (Model 2) используется офлайн для генерации векторов документов (V2). Первая модель (Model 1) используется онлайн для генерации векторов запроса (V1) и векторов фраз (V3). Они обучаются независимо для выполнения своих задач.

Как этот механизм влияет на ранжирование по низкочастотным (long-tail) запросам?

Влияние значительно и положительно. Низкочастотные запросы часто содержат специфические термины, которые чисто семантические модели могут упустить. Механизм извлечения лексических фраз (V3) гарантирует, что если документ содержит точное вхождение длинного запроса, это будет учтено при ранжировании, повышая релевантность выдачи.

Какие типы моделей машинного обучения упоминаются в патенте?

Упоминаются Трансформеры и BERT как основа для генерации векторов (Model 1 и 2). Для финального ранжирования (Объединенная модель) упоминаются DSSM (Глубокая модель семантической близости), LSTM (Нейронная сеть с долговременной и кратковременной памятью) или также Трансформер. Для векторизации текста упомянуты FastText, Word2Vec, GloVe.

Заменяет ли этот механизм BM25?

Нет, не заменяет. BM25 упоминается в патенте (Claim 3) как возможный механизм для первичного отбора кандидатов (Retrieval stage / L1). Описанная в патенте система работает на последующих этапах ранжирования (Re-ranking / L2 или L3), уточняя порядок отобранных кандидатов с помощью нейросетей, учитывающих и семантику, и лексику.

Как оптимизировать контент с учетом этого патента?

Необходимо найти баланс. Во-первых, обеспечить глубокое раскрытие темы и семантическое богатство для сильного V2. Во-вторых, убедиться, что основные ключевые слова и их формы присутствуют в тексте в составе четких и информативных фраз. Это позволит системе выбрать качественные фразы-кандидаты и сформировать сильный V3.