Как Яндекс в реальном времени рассчитывает близость и совместное вхождение ключевых слов для ранжирования

Яндекс патентует метод эффективного расчета сложных факторов ранжирования, зависящих от взаимодействия нескольких слов в запросе (например, их близость друг к другу или совместное вхождение в Title/URL). Система использует данные из инвертированного индекса о позициях отдельных слов для динамического вычисления этих факторов на лету. Затем эти данные обрабатываются Нейронной Сетью для генерации комплексного признака ранжирования.

Описание

Какую задачу решает

Патент решает проблему баланса между скоростью поиска и качеством ранжирования. Высококачественное ранжирование требует учета сложных признаков, зависящих от взаимодействия нескольких терминов в запросе (например, близость слов друг к другу в тексте или их совместное вхождение в заголовок). Такие признаки называются Query-Dependent Features. Их невозможно рассчитать заранее (офлайн), а расчет в реальном времени (онлайн) слишком ресурсоемок. Патент предлагает эффективный метод генерации этих сложных признаков на лету, используя уже существующие в индексе данные.

Что запатентовано

Запатентован метод и система для динамической генерации признаков ранжирования, зависящих от запроса (Query-Dependent Features), на основе данных, не зависящих от запроса (Query-Independent Data), хранящихся в инвертированном индексе. Суть изобретения заключается в извлечении информации о позициях отдельных терминов из индекса и последующем динамическом вычислении их «группового вхождения» (Group Occurrence) в документе. Затем эти динамические признаки используются Нейронной Сетью (Neural Network) для создания комплексного фактора ранжирования.

Как это работает

На этапе индексации система сохраняет в индексе Query-Independent Data — точные позиции каждого слова в разных зонах документа (Title, URL, Body).

Во время поиска система извлекает эти позиции для слов из текущего запроса. Затем Dynamic Feature Generator обрабатывает эти данные в реальном времени для создания Query-Dependent Features. Например, сравнивая позиции Термина А и Термина Б, генератор определяет их близость друг к другу (positional offset) или факт совместного вхождения в заголовок.

Наконец, эти динамические признаки вместе с эмбеддингами терминов поступают на вход Нейронной Сети (Ranking Feature Generator), которая генерирует итоговый Ranking Feature. Этот признак используется основной моделью ранжирования (например, CatBoost) для сортировки результатов.

Актуальность для SEO

Высокая. Патент опубликован в январе 2024 года. Эффективный расчет взаимодействия терминов (Term Interaction) и использование нейронных сетей для генерации сложных признаков ранжирования являются ключевыми направлениями развития современных поисковых систем. Это соответствует стремлению к более глубокому пониманию релевантности при сохранении высокой скорости ответа.

Важность для SEO

Влияние на SEO значительно (8/10). Патент напрямую подтверждает критическую важность не просто наличия ключевых слов в документе, но и их взаимного расположения (близости) и совместного вхождения (Group Occurrence) в ключевых зонах документа (Title, URL, Body). Он описывает конкретный механизм, с помощью которого Яндекс эффективно оценивает и интерпретирует эти сигналы. Это требует от SEO-специалистов тщательной оптимизации структуры контента и мета-тегов.

Детальный разбор

Термины и определения

Document-Term (DT) Pair (Пара Документ-Термин): Ассоциация между конкретным документом и конкретным термином, который в нем содержится.
Dynamic Feature Generator (Генератор динамических признаков): Компонент системы (описанный в патенте), который в реальном времени обрабатывает Query-Independent Data для создания Query-Dependent Features.
Group Occurrence (Групповое вхождение): Метрика, характеризующая совместное появление двух или более терминов из запроса в контенте документа. Примеры включают совместное вхождение в Title, URL, тело документа или позиционное смещение (positional offset / близость) между терминами.
Inverted Index (Инвертированный индекс): Структура данных поисковой системы. В контексте патента хранит Query-Independent Data для DT пар.
Query-Dependent Feature (Признак, зависящий от запроса): Признак ранжирования, значение которого зависит от взаимодействия двух или более терминов в запросе (например, близость слов). Генерируется динамически в реальном времени.
Query-Independent Data (Данные, не зависящие от запроса): Данные, хранящиеся в инвертированном индексе для конкретной DT пары. Они не зависят от того, какие еще термины присутствуют в запросе. Пример: позиции Термина А в Документе D.
Ranking Feature Generator / Neural Network (NN) (Генератор признаков ранжирования / Нейронная сеть): Модель машинного обучения (в патенте указана NN). Она синтезирует эмбеддинги терминов и динамически сгенерированные признаки для создания комплексного Ranking Feature.
Ranking Model / Decision-tree-based MLA (Модель ранжирования): Основная модель ранжирования (например, CatBoost), которая использует Ranking Feature, сгенерированный NN, а также другие факторы, для финального ранжирования документов.
Term-Specific Occurrence (Вхождение конкретного термина): Информация о том, как именно термин встречается в документе. Включает позиции термина в различных зонах (Title, URL, Body).

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методе генерации сложных признаков ранжирования в реальном времени с использованием Нейронной Сети.

Claim 1 (Независимый пункт): Описывает основной метод ранжирования и процесс обучения Нейронной сети.

Фаза Применения (In-use Phase):

Для данного документа система извлекает из Inverted Index Query-Independent Data для Термина 1 и Термина 2 из запроса.
Эти данные указывают на Term-Specific Occurrence (например, позиции) каждого термина.
Система генерирует Query-Dependent Feature, используя извлеченные данные. Этот признак указывает на Group Occurrence (совместное вхождение/близость) Термина 1 и Термина 2.
Система генерирует Ranking Feature для документа на основе Терминов 1, 2 и сгенерированного Query-Dependent Feature. Критически важно: эта генерация выполняется Нейронной Сетью (NN).
Документ ранжируется на основе этого Ranking Feature.

Фаза Обучения (Training Phase): Claim 1 также детально описывает обучение этой NN.

Используется обучающий набор (Запрос, Документ) с меткой релевантности (label).
Генерируются эмбеддинги терминов запроса.
Из индекса извлекаются Query-Independent Data.
Генерируются векторы признаков (включая динамические Query-Dependent Features).
Эмбеддинги и векторы признаков подаются в NN для предсказания Ranking Feature.
NN корректируется на основе сравнения предсказания и метки (label), чтобы научиться предсказывать релевантность.

Claim 7 и 8 (Зависимые от 1): Уточняют, что именно хранится и рассчитывается.

Term-Specific Occurrence (хранится в индексе) включает позиции термина в заголовке (Title), URL или теле (Body) документа.
Group Occurrence (рассчитывается динамически) включает количество раз, когда один термин запроса встречается вместе с другим в Title, URL или Body.

Где и как применяется

Изобретение применяется на этапах индексирования и ранжирования для эффективного расчета сложных признаков релевантности.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка документов и сохранение Query-Independent Data в Инвертированный Индекс. Ключевым моментом является сохранение детальной информации о Term-Specific Occurrence — точных позиций каждого термина в разных зонах документа (Title, URL, Body).

RANKING – Ранжирование (Вероятно L2/L3)
Основное применение патента. На этапе ранжирования кандидатов система выполняет следующие действия в реальном времени:

Извлечение данных: Быстрый доступ к Инвертированному Индексу для получения позиционных данных терминов.
Динамическая генерация: Dynamic Feature Generator вычисляет Query-Dependent Features (близость, совместное вхождение).
Нейросетевой синтез: Ranking Feature Generator (NN) объединяет эмбеддинги терминов (вероятно, полученные на этапе QUERY PROCESSING) и динамические признаки для создания комплексного Ranking Feature.
Финальное ранжирование: Основная модель ранжирования (Ranking Model, например, CatBoost, как указано в патенте) использует этот NN-признак вместе с другими факторами для определения итогового ранга документа.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на многословные запросы, где важен порядок слов, их близость и контекст взаимодействия.
Контентные факторы: Повышается значимость точной оптимизации ключевых зон документа (Title, URL, Body). Алгоритм напрямую измеряет совместное вхождение терминов в этих зонах.
Структура текста: Влияет на то, как структурирован контент. Близость связанных терминов в теле документа становится вычислимым фактором ранжирования.

Когда применяется

Алгоритм применяется в реальном времени (real-time) во время процедуры ранжирования документов для каждого запроса, содержащего более одного термина. Он активируется после получения запроса и использует данные, которые были сохранены в индексе до получения запроса.

Пошаговый алгоритм

Фаза 1: Индексирование (Офлайн)

Сбор и анализ контента: Система анализирует документ, разбивая его на зоны (Title, URL, Body).
Сохранение позиций: Для каждого термина в документе система определяет его точные позиции в каждой зоне.
Запись в индекс: Эта информация сохраняется в Инвертированном Индексе как Query-Independent Data для соответствующей пары Документ-Термин (DT).

Фаза 2: Ранжирование (Реальное время)

Получение запроса и генерация эмбеддингов: Система получает запрос (например, с Терминами A и B) и генерирует их эмбеддинги.
Извлечение данных из индекса: Для ранжируемого Документа D система извлекает Query-Independent Data (позиции) для Термина A и Термина B.
Динамическая генерация признаков: Dynamic Feature Generator сравнивает извлеченные позиции.
- Вычисляется близость (например, позиционное смещение) между A и B в теле документа.
- Определяется факт и количество совместных вхождений A и B в Title/URL.
Эти вычисленные значения являются Query-Dependent Features.
Нейросетевая обработка (NN): Эмбеддинги терминов (A, B) и сгенерированные динамические признаки подаются на вход обученной Нейронной Сети (Ranking Feature Generator).
Генерация Ranking Feature: NN выводит комплексный признак ранжирования.
Финальное ранжирование: Основная модель ранжирования (например, CatBoost) использует этот признак для определения места документа в выдаче.

Какие данные и как использует

Данные на входе

Контентные и Структурные факторы: Ключевые данные – это структура документа, разделенная на зоны. Патент явно упоминает Title (Заголовок), URL и Body (Тело документа). Для ранжирования используются тексты и позиции терминов внутри этих зон.
Системные данные (Inverted Index): Query-Independent Data, включающие Term-Specific Occurrence (позиции терминов). Также могут использоваться данные о текстовом контексте термина (например, соседние слова).
Поведенческие факторы (Косвенно): Используются на этапе обучения NN. Метки релевантности (labels), используемые для обучения NN предсказывать релевантность, могут быть основаны на оценках асессоров или исторических данных о поведении пользователей.

Какие метрики используются и как они считаются

Система динамически вычисляет метрики Group Occurrence (Query-Dependent Features). Патент приводит следующие примеры:

Количество раз, когда Второй Термин из запроса включен в дополнение к Первому Термину в Title документа.
Количество раз, когда Второй Термин из запроса включен в дополнение к Первому Термину в URL документа.
Количество раз, когда Второй Термин из запроса включен в дополнение к Первому Термину в Body документа.

В описании патента также упоминается positional offset (позиционное смещение/близость) между терминами в теле документа как пример Group Occurrence.

Алгоритмы машинного обучения:

Neural Network (NN): Используется для синтеза эмбеддингов и динамических признаков в единый Ranking Feature. Обучается с использованием меток релевантности (labels).
Decision-tree-based MLA (например, CatBoost): Упоминается как финальный алгоритм ранжирования, который использует признак, сгенерированный NN, для сортировки документов.
Term Embeddings: Используются для векторного представления терминов запроса на входе в NN.

Выводы

Динамическая генерация признаков взаимодействия терминов: Яндекс разработал эффективный механизм для расчета сложных, зависящих от запроса признаков (таких как близость слов и совместное вхождение) в реальном времени. Это позволяет учитывать тонкие нюансы релевантности без замедления поиска.
Критическая важность позиционных данных в индексе: Эффективность системы зависит от хранения в инвертированном индексе точных позиций терминов (Query-Independent Data) в разных зонах документа (Title, URL, Body).
Групповое вхождение и близость как ключевые факторы: Патент явно выделяет Group Occurrence (совместное вхождение и близость терминов запроса в Title, URL и Body) как важный признак ранжирования, который вычисляется динамически.
Нейронные сети для синтеза признаков: Для объединения информации о терминах (эмбеддингов) и их взаимодействии (динамических признаков) используется Нейронная Сеть. Это указывает на способность системы улавливать сложные, нелинейные зависимости при оценке релевантности.
Многоуровневое ранжирование: Сгенерированный нейросетью признак (Ranking Feature) затем используется основной моделью ранжирования (например, CatBoost), что подтверждает многослойную архитектуру ранжирования Яндекса.

Практика

Best practices (это мы делаем)

Оптимизация Title и H1 для совместного вхождения: Убедитесь, что основные термины целевого запроса совместно встречаются в заголовках (Title и H1). Патент напрямую указывает на генерацию признаков на основе Group Occurrence в Title. Термины должны быть расположены естественно и близко друг к другу.
Включение ключевых терминов в URL: Если это возможно и релевантно, включайте основные термины запроса в структуру URL. Система также динамически оценивает совместное вхождение терминов в URL.
Оптимизация близости терминов в контенте (Proximity): В основном тексте (Body) располагайте семантически связанные термины из целевого кластера запросов близко друг к другу (в рамках одного предложения или абзаца). Поскольку система хранит точные позиции слов и динамически вычисляет их близость (positional offset), это является важным сигналом релевантности.
Использование точных вхождений фраз: Поскольку система анализирует точные позиции слов, использование прямых вхождений ключевых фраз (где слова идут подряд) будет иметь положительный эффект, так как расстояние между ними минимально.

Worst practices (это делать не надо)

Разделение связанных терминов (Keyword Dilution): Размещение ключевых терминов далеко друг от друга в тексте или в разных частях заголовка снижает оценку Group Occurrence и увеличивает positional offset, что негативно скажется на релевантности.
Переспам и неестественные конструкции: Попытки искусственно разместить все возможные комбинации слов рядом. Поскольку итоговый признак генерируется Нейронной Сетью, которая также учитывает эмбеддинги терминов, неестественные конструкции могут быть распознаны как низкокачественные.
Игнорирование URL и Title: Оптимизация только текста страницы при неинформативных URL и заголовках приведет к потере важных сигналов релевантности, которые система динамически вычисляет для этих зон.

Стратегическое значение

Патент подтверждает стратегический фокус Яндекса на глубоком анализе взаимодействия терминов (Term Interaction) для оценки релевантности. Это не просто статистический анализ (как в BM25), а сложный процесс, использующий динамические вычисления и нейронные сети. Для SEO это означает, что качество текстовой оптимизации, включая структуру предложений, близость связанных понятий и точность формулировок в заголовках и URL, имеет измеримое и прямое влияние на ранжирование. Стратегия должна фокусироваться на создании контента, где ключевые понятия естественно и тесно переплетены.

Практические примеры

Сценарий: Оптимизация карточки товара для запроса «купить смартфон samsung galaxy s24 синий»

Пример плохой оптимизации:

Title: Купить Смартфон Samsung. Модель Galaxy S24. Цвет: Синий. Лучшая цена!
URL: /product/12345
Body: В первом абзаце описание смартфона, в середине характеристики Samsung Galaxy S24, в конце упоминание доступных цветов, включая синий.

Анализ системы: Dynamic Feature Generator рассчитает слабое групповое вхождение в Title (термины разделены), нулевое в URL. В Body близость низкая (большое позиционное смещение). NN получит слабые сигналы.

Пример хорошей оптимизации:

Title: Смартфон Samsung Galaxy S24 128Gb Синий — купить в Москве
URL: /catalog/samsung-galaxy-s24-siniy
Body: Представляем новый смартфон Samsung Galaxy S24 в элегантном синем корпусе. Купить эту модель можно…

Анализ системы: Dynamic Feature Generator рассчитает сильное групповое вхождение в Title и URL (все ключевые термины рядом). В Body близость высокая (малое позиционное смещение). NN получит сильные сигналы и сгенерирует высокий Ranking Feature.

Вопросы и ответы

Что такое Query-Independent Data и почему система не может использовать только их для ранжирования?

Query-Independent Data — это информация о вхождении отдельного термина в документ, которая хранится в инвертированном индексе (например, позиции слова «синий» в документе). Эти данные не зависят от того, с какими другими словами этот термин пришел в запросе. Их недостаточно для качественного ранжирования, потому что они не учитывают взаимодействие терминов. Например, они не покажут разницу между документом, где «синий» относится к «ботинкам», и документом, где «синий» относится к «машине», если запрос был «синяя машина».

Что такое Query-Dependent Feature и как он генерируется в этом патенте?

Query-Dependent Feature — это признак, который зависит от нескольких слов в запросе одновременно (например, расстояние между словом А и словом Б в тексте). В данном патенте он генерируется динамически в реальном времени. Система быстро извлекает из индекса Query-Independent Data (позиции) для слов А и Б, а затем модуль Dynamic Feature Generator сравнивает эти позиции, вычисляя их близость (positional offset) или факт совместного вхождения в заголовок.

Какова роль Нейронной Сети (NN) в этом патенте?

Нейронная Сеть выступает в роли Ranking Feature Generator. Ее задача — синтезировать несколько входных данных: эмбеддинги (смысл) самих терминов и динамически сгенерированные Query-Dependent Features (факты взаимодействия терминов в документе). NN обучается понимать, как комбинация этих данных влияет на общую релевантность, и выводит комплексный Ranking Feature. Это позволяет улавливать сложные нелинейные зависимости.

В каких зонах документа система проверяет «групповое вхождение» (Group Occurrence)?

Патент явно указывает три ключевые зоны, для которых рассчитывается групповое вхождение терминов и хранятся их позиции: Заголовок (Title), URL и Тело документа (Body). Это подтверждает необходимость тщательной оптимизации мета-тегов и структуры URL, а не только основного текста страницы.

Означает ли этот патент, что близость слов (Proximity) стала более важным фактором ранжирования?

Да, это сильное подтверждение важности близости слов. Патент описывает конкретный технический механизм, как Яндекс эффективно измеряет и использует совместное вхождение и близость (positional offset) терминов запроса в документе. Если ключевые понятия, связанные с интентом пользователя, расположены близко друг к другу в тексте и заголовках, система динамически сгенерирует сильный положительный признак ранжирования.

Заменяет ли эта Нейронная сеть основную формулу ранжирования (например, CatBoost)?

Нет, не заменяет. Патент описывает многоуровневую систему. Нейронная сеть генерирует сложный признак (Ranking Feature), который затем используется как один из множества входов для основной модели ранжирования, описанной как Decision-tree-based MLA (например, CatBoost). NN помогает основной формуле лучше понять текстовую релевантность и взаимодействие терминов.

Как это влияет на использование точных вхождений ключевых фраз?

Это повышает важность использования точных вхождений. Если ключевые слова в документе идут подряд (как в запросе), расстояние между ними минимально (минимальный positional offset). Это сильный сигнал Group Occurrence, который будет положительно интерпретирован нейронной сетью. Необходимо находить баланс между естественностью текста и наличием точных вхождений.

Может ли этот алгоритм учитывать синонимы или похожие термины?

Да. В патенте упоминается, что система может определять «похожий термин» (similar term) и извлекать из инвертированного индекса данные не только для исходных терминов запроса, но и для этих похожих терминов. Это означает, что групповое вхождение может рассчитываться между исходным термином и синонимом, что подчеркивает важность использования QBST фраз и синонимов в контенте.

Что такое «textual context», упоминаемый в патенте?

Помимо позиций термина, система может также извлекать из индекса «текстовый контекст» — это, вероятно, слова, окружающие данный термин в документе. Это может использоваться для дополнительной валидации релевантности вхождения, позволяя Нейронной Сети лучше понять локальный смысл термина, даже если это делается на основе Query-Independent Data.

Как лучше всего оптимизировать Title с учетом этого патента?

Лучшая практика — включать наиболее важные термины, точно описывающие интент пользователя, максимально близко друг к другу в начале заголовка. Избегайте разделения ключевых фраз знаками препинания или стоп-словами без необходимости. Если система динамически рассчитывает Group Occurrence в Title, то компактное и точное размещение ключевых слов даст максимальный положительный эффект.