Как Яндекс комбинирует семантическое и лексическое соответствие в ранжировании с помощью трех типов эмбеддингов

Яндекс патентует метод ранжирования, который учитывает не только семантику (смысл), но и точное лексическое (словесное) соответствие запросу. Система использует три векторных эмбеддинга: один для запроса, один для всего документа (семантика) и один специально для фраз внутри документа, которые точно соответствуют словам из запроса. Это позволяет повышать в выдаче документы, содержащие точные формулировки, решая проблему игнорирования лексики трансформерными моделями.

Описание

Какую задачу решает

Патент решает критическую проблему современных поисковых систем, основанных на трансформерных моделях (таких как BERT или YATI). Эти модели превосходно определяют семантическую релевантность (смысл), но могут игнорировать лексическое соответствие (точное вхождение слов). Из-за механизмов внимания (attention mechanism) трансформеры могут присваивать низкий вес документам, содержащим точные слова из запроса, предпочитая семантически близкие, но лексически отличающиеся результаты. Например, по запросу «Рецепт макарон Седрик Гроле» система может высоко ранжировать общие рецепты макарон или информацию о Седрике Гроле, упуская документы, содержащие именно рецепты от этого кондитера. Изобретение направлено на обеспечение баланса между семантическим пониманием и лексической точностью.

Что запатентовано

Запатентована система ранжирования, которая явно учитывает как семантические, так и лексические связи. Суть изобретения заключается в использовании трех отдельных векторных эмбеддингов в качестве входных данных для консолидированной модели ранжирования (Consolidated ML model): (1) эмбеддинг запроса, (2) эмбеддинг всего документа (семантика), и (3) отдельный эмбеддинг, представляющий «фразы-кандидаты» (Phrase Candidates) из документа, которые лексически связаны с запросом.

Как это работает

Система комбинирует офлайн и онлайн вычисления. Предварительно (офлайн) рассчитывается Второй векторный эмбеддинг (документа). Во время поиска (онлайн) генерируется Первый векторный эмбеддинг (запроса). Затем в документах-кандидатах идентифицируются фразы, точно или грамматически соответствующие терминам запроса (Phrase Candidates). Для этих фраз генерируется Третий векторный эмбеддинг. Все три эмбеддинга подаются на вход консолидированной модели ранжирования (например, DSSM), которая вычисляет финальный скор релевантности, учитывая как общий смысл документа, так и точные лексические совпадения.

Актуальность для SEO

Высокая. Это очень свежая патентная заявка (приоритет от декабря 2023 года). Сочетание лексических (подобных BM25) и семантических (плотных векторных) сигналов, известное как гибридный поиск (Hybrid Search), является передовым направлением в информационном поиске (Information Retrieval). Описанная архитектура соответствует современным практикам Яндекса.

Важность для SEO

Влияние на SEO критическое (9/10). Патент напрямую описывает механизм расчета релевантности в Яндексе. Он демонстрирует, что для высокого ранжирования недостаточно просто быть семантически релевантным. Критически важно также использовать точные формулировки и фразы, которые лексически соответствуют запросу пользователя. Это требует от SEO-специалистов обеспечения как широкого семантического охвата, так и хирургически точного использования ключевых фраз.

Детальный разбор

Термины и определения

Consolidated ML Model (Консолидированная модель МО): Финальная модель ранжирования (в патенте упоминается Deep Semantic Similarity Model (DSSM), также возможны LSTM или Трансформер), которая принимает на вход три типа эмбеддингов и вычисляет итоговый Ranking Parameter.
First Vector Embedding (Первый векторный эмбеддинг): Векторное представление поискового запроса. Генерируется в реальном времени.
Second Vector Embedding (Второй векторный эмбеддинг): Векторное представление всего документа. Отражает общую семантику документа. Рассчитывается заранее (офлайн) и хранится в индексе.
Third Vector Embedding (Третий векторный эмбеддинг): Векторное представление набора «фраз-кандидатов». Отражает лексическую связь документа с запросом. Генерируется в реальном времени.
Phrase Candidates (Фразы-кандидаты): Фразы или пассажи внутри документа, которые идентифицированы как лексически связанные с терминами поискового запроса.
Lexical Relations (Лексические отношения): Связь, основанная на лингвистической форме слов. Включает: (i) точные совпадения, (ii) различные грамматические формы (склонения, спряжения) и (iii) однокоренные слова.
Semantic Relations (Семантические отношения): Связь, основанная на значении (смысле). Включает синонимы, антонимы и слова из одного семантического поля.
First ML Model (Первая модель МО): Модель (например, Трансформер), используемая онлайн для генерации Первого (запрос) и Третьего (фразы) векторных эмбеддингов.
Second ML Model (Вторая модель МО): Модель (например, Трансформер), используемая офлайн для генерации Второго (документ) векторного эмбеддинга.

Ключевые утверждения (Анализ Claims)

Основное изобретение описано в независимом пункте Claim 1. Он определяет метод ранжирования, основанный на трехкомпонентном входе.

Техническая интерпретация Claim 1:

Система получает поисковый запрос.
Генерируется Первый векторный эмбеддинг, представляющий запрос.
Идентифицируется набор документов-кандидатов.
Для каждого кандидата извлекается Второй векторный эмбеддинг, представляющий документ. Критически важно: этот эмбеддинг был сгенерирован *до* получения запроса (офлайн).
В документе идентифицируется по крайней мере одна фраза-кандидат, которая лексически связана с термином запроса.
Генерируется Третий векторный эмбеддинг, представляющий эту фразу-кандидата (или набор фраз).
Значение параметра ранжирования определяется на основе всех трех эмбеддингов (Первого, Второго и Третьего).
Документы ранжируются на основе этих значений.

Техническая интерпретация Claim 4 (зависит от Claim 1). Он уточняет метод идентификации фраз-кандидатов:

Для каждой фразы в документе генерируется соответствующий векторный эмбеддинг фразы (промежуточный).
Вычисляется расстояние (дистанция) в эмбеддинговом пространстве между эмбеддингом запроса (Первым) и эмбеддингом каждой фразы.
Фразы ранжируются в соответствии с этими расстояниями.
Выбирается Топ-N фраз из ранжированного списка.

Техническая интерпретация Claims 5, 6, 7 (зависимые от 4): Уточняют, что для генерации промежуточных эмбеддингов фраз (в Claim 4) могут использоваться более простые методы, такие как TF-IDF или FastText.

Техническая интерпретация Claim 8 (зависит от Claim 1): Определение значения параметра ранжирования включает передачу трех векторных эмбеддингов в Консолидированную модель МО (Consolidated ML model), обученную для этой задачи.

Где и как применяется

Изобретение затрагивает несколько ключевых слоев поисковой архитектуры Яндекса, демонстрируя сложную архитектуру взаимодействия офлайн и онлайн компонентов.

INDEXING – Индексирование и извлечение признаков (Офлайн)

На этом этапе происходит предварительный расчет Вторых векторных эмбеддингов (документных). Вторая модель МО (Second ML Model) обрабатывает весь корпус документов. Эти эмбеддинги сохраняются в поисковом индексе (Search Index).

QUERY PROCESSING – Понимание Запросов (Онлайн)

При получении запроса Первая модель МО (First ML Model) используется для генерации Первого векторного эмбеддинга (запросного).

RANKING – Ранжирование (Онлайн)

Это основной этап применения патента, вероятно, на уровнях L2 (Middle Ranking) и/или L3 (Upper Reranking).

Поиск кандидатов (Retrieval/L1): Первичный отбор документов может выполняться с использованием стандартных методов. В патенте упоминается возможность использования Okapi BM25 (Claim 3).
Идентификация лексических фраз: Для отобранных кандидатов система анализирует текст и идентифицирует Топ-N фраз-кандидатов, лексически связанных с запросом.
Генерация лексического эмбеддинга: Первая модель МО используется для генерации Третьего векторного эмбеддинга (фразового).
Финальное ранжирование: Консолидированная модель МО (например, DSSM) принимает на вход три эмбеддинга (Первый, Второй, Третий) и вычисляет финальный скор релевантности (Ranking Parameter).

На что влияет

Точность соответствия: Основное влияние – повышение важности наличия точных ключевых слов (лексического соответствия) в документе. Система гарантирует, что семантический поиск не упустит документы с точными вхождениями.
Специфические запросы: Особенно сильно влияет на запросы, где важна точность формулировок: названия продуктов, имена собственные (как в примере с Седриком Гроле), технические термины, артикулы.
Контентные факторы: Повышает значимость тех пассажей (Passages) в документе, которые содержат ключевые слова из запроса.

Когда применяется

Алгоритм применяется на этапе ранжирования для уточнения релевантности документов, которые уже прошли первичный отбор. Это механизм уточнения, который гарантирует, что лексическое соответствие будет учтено наравне с семантическим перед финальной выдачей результатов.

Пошаговый алгоритм

Процесс А: Офлайн-индексация (Подготовка)

Обработка документов: Система обрабатывает документы из поискового индекса.
Генерация семантических эмбеддингов: Вторая модель МО генерирует Второй векторный эмбеддинг для каждого документа.
Сохранение: Эмбеддинги сохраняются в индексе вместе с документами.

Процесс Б: Обработка запроса в реальном времени (Ранжирование)

Получение запроса: Система получает запрос от пользователя.
Генерация эмбеддинга запроса: Первая модель МО генерирует Первый векторный эмбеддинг.
Поиск кандидатов: Идентификация релевантных документов (например, с помощью BM25).
Извлечение семантических эмбеддингов: Для кандидатов из индекса извлекаются предварительно рассчитанные Вторые векторные эмбеддинги.
Идентификация лексических фраз: Для каждого документа система идентифицирует фразы-кандидаты:
- Векторизация фраз документа (например, с помощью FastText или TF-IDF).
- Расчет схожести (например, косинусной близости) между вектором запроса и векторами фраз.
- Выбор Топ-N наиболее схожих фраз.
Генерация лексического эмбеддинга: Первая модель МО генерирует Третий векторный эмбеддинг, представляющий набор выбранных фраз-кандидатов.
Вычисление скора: Консолидированная модель МО принимает Первый, Второй и Третий эмбеддинги и вычисляет итоговый параметр ранжирования.
Ранжирование: Формирование поисковой выдачи.

Какие данные и как использует

Данные на входе

Контентные факторы:
- Текст запроса: Используется для генерации Первого эмбеддинга.
- Полный текст документа: Используется для генерации Второго эмбеддинга (офлайн).
- Фрагменты текста документа (фразы): Используются для идентификации фраз-кандидатов и генерации Третьего эмбеддинга (онлайн). Патент указывает (Claim 19), что для идентификации фраз может использоваться необработанная версия (unprocessed version) документа из индекса.
Данные для обучения:
- Оценки релевантности (Labels): Используются для обучения Консолидированной модели МО. Они могут быть получены от асессоров или сгенерированы другой моделью МО, обученной на высококачественных экспертных оценках (Claim 10).

Какие метрики используются и как они считаются

Векторные Эмбеддинги (Vector Embeddings): Генерируются с помощью моделей на основе Трансформеров (Transformer-based ML model).
Методы идентификации фраз-кандидатов:
- Схожесть эмбеддингов (Distance Value): Расчет расстояния (например, косинусной близости) между эмбеддингом запроса и эмбеддингами отдельных фраз документа.
- Алгоритмы эмбеддинга текста: Для генерации векторов фраз на этапе отбора могут использоваться TF-IDF (Claim 5) или FastText (Claim 7).
Okapi BM25: Упоминается как возможный метод для первичного поиска документов-кандидатов (Claim 3).
Алгоритмы машинного обучения:
- Трансформеры (например, BERT/YATI): используются в First и Second ML Models.
- DSSM (Deep Semantic Similarity Model): Упоминается как возможная реализация Consolidated ML Model (Claim 11).
Вариативность реализации лексического сигнала: Патент описывает важную вариацию: вместо генерации Третьего векторного эмбеддинга система может использовать сырые числовые данные (raw integer values), такие как частота встречаемости терминов запроса или N-грамм запроса в документе (in-use frequency vectors), в качестве входных данных для Консолидированной модели.
Оптимизация (Truncation): Упоминается техника сокращения размерности эмбеддингов путем прогрессивного усечения (truncating) выходов Трансформера для повышения эффективности (Claim 15).

Выводы

Явное разделение и интеграция семантики и лексики: Яндекс использует архитектуру, которая обрабатывает семантическую релевантность (через эмбеддинг всего документа) и лексическую релевантность (через эмбеддинг ключевых фраз или частотные характеристики) как отдельные сигналы, объединяя их на финальном этапе ранжирования.
Компенсация недостатков Трансформеров: Система специально разработана для решения проблемы, когда модели типа BERT/YATI игнорируют точные совпадения слов. Внедрение Третьего эмбеддинга заставляет модель учитывать лексику.
Контекстуальная оценка лексики (Phrase Candidates): Лексическое соответствие оценивается не просто по наличию слов, а по идентификации и анализу конкретных фраз, наиболее близких к запросу. Это позволяет учитывать контекст, в котором используются точные совпадения.
Гибридная архитектура (Офлайн/Онлайн): Система оптимизирована по скорости: тяжелая обработка всего документа (Второй эмбеддинг) выполняется офлайн, а обработка запроса и ключевых фраз (Первый и Третий эмбеддинги) — онлайн.
Важность точных формулировок для SEO: Патент подтверждает, что использование точных слов и фраз, которые ищет пользователь, напрямую влияет на ранжирование через механизм Третьего эмбеддинга. Семантической близости может быть недостаточно.

Практика

Best practices (это мы делаем)

Обеспечение лексической точности: Убедитесь, что контент содержит ключевые термины и фразы, которые пользователи используют в своих запросах, в точной или близкой грамматической форме. Не полагайтесь исключительно на синонимы. Это необходимо для формирования сильного Третьего векторного эмбеддинга.
Оптимизация ключевых пассажей (Phrase Candidates): Поскольку система идентифицирует Топ-N наиболее лексически релевантных фраз, критически важно, чтобы наиболее важная информация была сформулирована четко и соответствовала запросу. Уделите внимание заголовкам, введениям и выделенным блокам текста.
Баланс семантики и лексики: Продолжайте работать над общим раскрытием темы и Topical Authority (для Второго эмбеддинга), но дополняйте это точной проработкой формулировок (для Третьего эмбеддинга). Контент должен быть одновременно и исчерпывающим, и точным.
Оптимизация под конкретные интенты и long-tail запросы: Этот механизм особенно важен для сложных и специфических запросов (артикулы, названия, имена). Необходимо уделять внимание точному соответствию низкочастотным запросам.

Worst practices (это делать не надо)

«Водянистый» контент без конкретики: Контент, который семантически близок к теме, но не содержит точных терминов запроса, будет проигрывать. У него будет хороший Второй эмбеддинг, но слабый Третий эмбеддинг.
Отказ от точных ключевых слов в пользу синонимов: Стратегия написания текста с использованием только синонимов и QBST фраз, избегая при этом основного термина запроса, становится рискованной. Система может не найти достаточного лексического соответствия.
Переспам и неестественное употребление ключей: Хотя лексика важна, она работает только в комбинации с семантическим вектором всего документа (Второй эмбеддинг). Если документ в целом низкокачественен, наличие точных вхождений не спасет его. Искусственное повторение ключей не приведет к качественному эмбеддингу.

Стратегическое значение

Этот патент подтверждает стратегическую важность гибридных систем поиска (Hybrid Search) в Яндексе. Это уход от чисто семантического поиска к сбалансированному подходу, где традиционные лексические сигналы интегрированы в современные нейросетевые архитектуры. Для SEO это означает, что классические принципы текстовой релевантности (использование ключевых слов в тексте) не устарели, а эволюционировали. Долгосрочная стратегия должна фокусироваться на качестве и точности языка не меньше, чем на глубине проработки темы.

Практические примеры

Сценарий: Ранжирование по запросу о конкретном продукте (на основе примера из патента)

Запрос: «Macarons recipe Cedric Grolet».
Документ А (Семантический): Большая статья о французских десертах, упоминающая макаруны и шефа Седрика Гроле, но не содержащая конкретного рецепта макарун от него.
Документ Б (Лексический и Семантический): Статья с заголовком «Лучший рецепт макарун от Седрика Гроле» и фразой в тексте «…следуйте этому Macarons recipe, чтобы повторить шедевр Cedric Grolet…».

Анализ системы:

Второй Эмбеддинг (Документ): Оба документа могут иметь схожие семантические эмбеддинги.
Идентификация фраз: В Документе А система найдет мало фраз с точным лексическим совпадением всех трех терминов. В Документе Б фраза «…Macarons recipe… Cedric Grolet…» будет идентифицирована как высокорелевантный Phrase Candidate.
Третий Эмбеддинг (Фразы): Третий эмбеддинг Документа Б будет значительно сильнее, чем у Документа А.

Результат: Консолидированная модель МО присвоит Документу Б более высокий ранг, так как он удовлетворяет как семантическим, так и лексическим требованиям запроса.

Вопросы и ответы

Чем отличаются три типа эмбеддингов, описанные в патенте?

Первый эмбеддинг представляет запрос и генерируется онлайн. Второй эмбеддинг представляет весь документ, отражает его общую семантику и рассчитывается заранее (офлайн). Третий эмбеддинг — ключевое нововведение — представляет только те фразы из документа, которые лексически (точно или грамматически) совпадают с запросом. Он генерируется онлайн и отвечает за учет точных вхождений.

Значит ли этот патент, что Яндекс отказывается от семантического поиска и возвращается к точному вхождению (BM25)?

Нет, не отказывается. Этот патент описывает гибридную систему. Семантика по-прежнему критически важна (за нее отвечает Второй эмбеддинг). Однако теперь система гарантирует, что точное вхождение ключевых слов (Третий эмбеддинг) также будет учтено при ранжировании. BM25 может использоваться, но только для первичного отбора кандидатов (L1), а не для финального ранжирования.

Как система определяет, какие фразы являются «Phrase Candidates»?

Система оценивает все фразы в документе на предмет лексической близости к запросу. Для этого могут использоваться более простые методы векторизации (например, TF-IDF или FastText). Рассчитывается расстояние (Distance Value) между вектором запроса и вектором каждой фразы. Фразы ранжируются по этому расстоянию, и Топ-N наиболее близких выбираются как кандидаты.

Используется ли одна и та же модель для генерации всех трех эмбеддингов?

Нет. Патент разделяет Первую модель МО и Вторую модель МО. Вторая модель используется офлайн для генерации документных эмбеддингов (Второй эмбеддинг). Первая модель используется онлайн для генерации эмбеддинга запроса (Первый эмбеддинг) и эмбеддинга фраз-кандидатов (Третий эмбеддинг). Обе модели могут быть Трансформерами (например, YATI), но они обучаются и применяются раздельно.

Патент упоминает альтернативу Третьему эмбеддингу. Что это?

Да, в качестве альтернативы генерации сложного Третьего эмбеддинга патент предлагает использовать сырые данные о частотности (Frequency Vectors). В этом случае в Консолидированную модель подаются не эмбеддинги фраз, а целочисленные значения, показывающие, сколько раз термины (или N-граммы) из запроса встречаются в документе. Это более простой способ учета лексического соответствия.

Как это изобретение связано с Passage Ranking (ранжированием пассажей)?

Это изобретение напрямую связано с ранжированием пассажей. Механизм идентификации и оценки Phrase Candidates по сути является формой оценки релевантности отдельных пассажей документа. Система не просто оценивает документ целиком, но и «подсвечивает» наиболее релевантные фрагменты текста (лексически совпадающие), используя их как сильный сигнал для итогового ранжирования документа.

Нужно ли теперь использовать больше точных вхождений ключевых слов в тексте?

Да, наличие точных или близких грамматических вхождений становится более важным. Если в тексте нет лексического соответствия запросу, система не сможет сгенерировать сильный Третий эмбеддинг, и документ может потерять позиции. Однако это не означает возврат к переспаму – вхождения должны быть естественными и находиться в релевантных пассажах.

Что такое DSSM и почему он используется для финального ранжирования?

Deep Semantic Similarity Model (DSSM) – это архитектура нейронной сети, предназначенная для оценки близости между различными сущностями на основе их векторных представлений. Она подходит для задачи консолидации, так как может эффективно обработать три разных эмбеддинга (запрос, документ, фразы) и обучиться находить оптимальный баланс между этими сигналами для определения итоговой релевантности.

Что означает упоминание «необработанной версии» (unprocessed version) документа?

Это означает (Claim 19), что для поиска лексически связанных фраз (Phrase Candidates) система обращается к исходному тексту документа, как он был сохранен в индексе, а не к нормализованной или очищенной версии. Это важно для точного учета грамматических форм и оригинальных формулировок, что критично для определения именно лексического соответствия.

Как я могу проверить, какие фразы на моей странице Яндекс может считать «фразами-кандидатами»?

Можно провести самопроверку, используя принципы из патента. Проанализируйте текст на наличие предложений, которые содержат максимальное количество слов из целевого запроса в точной или близкой грамматической форме. Инструменты, измеряющие TF-IDF фраз на странице относительно запроса, также могут дать подсказку, так как TF-IDF упоминается в патенте как один из способов идентификации этих фраз.