Как Яндекс в реальном времени оценивает совместное вхождение и близость слов запроса в документе с помощью нейросети

Яндекс патентует метод повышения скорости и качества ранжирования за счет динамического анализа взаимодействия слов запроса. Система в реальном времени извлекает из инвертированного индекса данные о позициях отдельных слов (query-independent data) и на их основе мгновенно вычисляет признаки совместного вхождения и близости (query-dependent features) в Title, URL и тексте. Эти признаки, объединенные с векторными представлениями слов, обрабатываются нейросетью для генерации комплексного фактора ранжирования.

Описание

Какую задачу решает

Патент решает фундаментальную проблему баланса между качеством ранжирования и скоростью ответа поисковой системы. Для точной оценки релевантности необходимо учитывать сложные признаки, зависящие от взаимодействия нескольких слов запроса (query-dependent features), например, близость слов друг к другу (proximity) или их совместное вхождение в заголовок. Расчет таких признаков «с нуля» в реальном времени слишком медленный, а предварительный расчет всех возможных комбинаций невозможен. Патент предлагает инфраструктурное решение для мгновенного вычисления этих сложных признаков на лету, используя данные, уже хранящиеся в инвертированном индексе (query-independent data).

Что запатентовано

Запатентован метод и система динамической генерации признаков ранжирования. Суть изобретения заключается в использовании Dynamic Feature Generator для обработки query-independent data (позиций отдельных слов), извлеченных из Inverted Index, и преобразования их в query-dependent features (показатели совместного вхождения и близости слов) в реальном времени. Эти динамические признаки затем обрабатываются Ranking Feature Generator, реализованным как нейронная сеть (Neural Network), для расчета комплексного фактора ранжирования.

Как это работает

На этапе индексации система сохраняет в индексе позиции каждого слова в разных зонах документа (Title, URL, Body). Когда поступает запрос, система извлекает эти позиционные данные (query-independent). Затем Dynamic Feature Generator анализирует их совместно, вычисляя показатели Group Occurrence: например, насколько близко слова расположены в тексте или встречаются ли они вместе в URL (query-dependent). Параллельно генерируются Term Embeddings слов запроса. Система конкатенирует (объединяет) эмбеддинги с соответствующими динамическими признаками. Эти объединенные данные поступают на вход нейросети (Ranking Feature Generator), которая генерирует итоговый Ranking Feature. Этот признак затем используется основной моделью ранжирования (например, CatBoost).

Актуальность для SEO

Высокая. Динамическое вычисление сложных признаков и использование гибридных архитектур (нейросети для генерации признаков + градиентный бустинг для финального ранжирования) является основой современных поисковых систем. Описанная архитектура, интегрирующая быстрый доступ к индексу с глубоким анализом взаимодействия терминов, крайне актуальна.

Важность для SEO

Влияние на SEO критическое (9/10). Патент детально описывает механизм, с помощью которого Яндекс оценивает классические онпейдж факторы: вхождение и близость ключевых слов в Title, URL и тексте. Он подтверждает критическую важность этих зон и показывает, что эти сигналы обрабатываются не просто статистически (как в BM25), а с помощью нейронной сети в комбинации с семантическими векторами. Это требует от SEO-специалистов тщательной проработки структуры и формулировок в ключевых зонах документа.

Детальный разбор

Термины и определения

Dynamic Feature Generator (Генератор динамических признаков): Компонент системы (155), который в реальном времени обрабатывает Query-Independent Data для нескольких Document-Term пар и генерирует на их основе Query-Dependent Features (например, признаки близости).
Group Occurrence (Групповое вхождение / Совместное вхождение): Показатель того, как несколько терминов из запроса взаимодействуют друг с другом в контенте документа. Примеры включают совместное вхождение в одной зоне (Title, URL, Body) или близость расположения терминов друг к другу (Proximity).
Inverted Index (Инвертированный индекс): Структура данных (170). В контексте патента, он хранит Query-Independent Data для каждой пары документ-термин.
Query-Dependent Feature (Признак, зависящий от запроса): Признак ранжирования, который зависит от взаимодействия двух или более терминов запроса в документе (например, расстояние между словами). Генерируется динамически в реальном времени.
Query-Independent Data (Данные, не зависящие от запроса): Данные, хранящиеся в инвертированном индексе для конкретной пары документ-термин. Не зависят от других слов в запросе. В патенте это синоним Term-Specific Occurrence.
Ranking Feature Generator (Генератор признака ранжирования): Компонент системы (140). В патенте явно указано, что он реализован как нейронная сеть (Neural Network — NN), которая принимает на вход Term Embeddings и Query-Dependent Features и генерирует комплексный Ranking Feature.
Ranking Model (Модель ранжирования): Основной алгоритм ранжирования (130). В патенте упоминается как Decision-tree-based Machine Learning Algorithm (MLA) (например, CatBoost). Использует Ranking Feature, сгенерированный NN, для определения финального порядка документов.
Term-Specific Occurrence (Вхождение конкретного термина): Информация о наличии и расположении отдельного термина в документе. Примеры, указанные в патенте: позиции термина в Title, позиции в URL, позиции в теле документа (Body).

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методе эффективного расчета сложных признаков взаимодействия терминов и их обработке с помощью специализированной нейронной сети, включая специфический метод ее обучения.

Claim 1 (Независимый пункт): Описывает основной метод ранжирования и процесс обучения NN.

Фаза Применения (In-use Phase):

Система обращается к Inverted Index и извлекает Query-Independent Data для пар (Документ, Термин 1) и (Документ, Термин 2). Эти данные отражают Term-Specific Occurrence (например, позиции каждого слова).
Система генерирует Query-Dependent Feature, используя данные из шага 1. Этот новый признак отражает Group Occurrence (например, расстояние между Термином 1 и Термином 2).
Система генерирует Ranking Feature на основе терминов и Query-Dependent Feature. Ключевое уточнение: этот шаг выполняется Нейронной Сетью (Neural Network).
Система ранжирует документ, используя Ranking Feature.

Фаза Обучения (Training Phase) (также часть Claim 1):

Описывается специфический метод обучения NN (Ranking Feature Generator):

Подготовка обучающей выборки (Запрос, Документ, Метка релевантности — Label).
Генерация Term Embeddings для слов запроса.
Извлечение Query-Independent Data и генерация векторов признаков (Feature Vectors), включающих Query-Dependent Features.
Критически важный шаг: Конкатенация (объединение) Term Embeddings и соответствующих им Feature Vectors для создания Concatenated Input.
Подача Concatenated Input на вход NN для генерации предсказанного Ranking Feature.
Корректировка весов NN на основе сравнения предсказания с меткой.

Где и как применяется

Изобретение применяется на нескольких этапах поиска, обеспечивая генерацию сложных признаков релевантности.

INDEXING – Индексирование и извлечение признаков
На этом этапе система рассчитывает и сохраняет в Inverted Index данные, необходимые для работы алгоритма. Для каждой пары Документ-Термин сохраняются Query-Independent Data (позиции термина в Title, URL и Body).

RANKING – Ранжирование (Вероятно, уровни L2/L3)
Алгоритм работает в реальном времени при обработке запроса.

Извлечение данных: Система быстро извлекает Query-Independent Data из Inverted Index.
Динамическая генерация признаков: Dynamic Feature Generator (155) обрабатывает эти данные для расчета Query-Dependent Features (признаков близости и совместного вхождения).
Генерация комплексного признака (NN): Ranking Feature Generator (140, Нейросеть) принимает эти динамические признаки и Term Embeddings (сгенерированные на этапе Query Processing), обрабатывает их (используя архитектуру с конкатенацией) и выдает Ranking Feature.
Финальное ранжирование: Ranking Model (130, MLA/CatBoost) использует этот Ranking Feature наряду с другими факторами.

На что влияет

Контентные и структурные факторы: Алгоритм напрямую влияет на оценку релевантности, анализируя расположение слов запроса в ключевых зонах документа: Title, URL и Body.
Специфические запросы: Наибольшее влияние оказывается на многословные запросы (коммерческие, информационные), где порядок слов, их близость и совместное вхождение критичны для определения релевантности.
Синонимы и похожие термины: Патент (Claims 5, 13) упоминает возможность определения «похожего термина» (similar term) и использования его данных из индекса, что влияет на обработку синонимов и QBST фраз.

Когда применяется

Алгоритм применяется в реальном времени (real-time) во время процедуры ранжирования документов (document ranking procedure). Query-Independent Data рассчитываются заранее (на этапе индексации), а Query-Dependent Features и Ranking Feature рассчитываются динамически после получения запроса.

Пошаговый алгоритм

Процесс А: Офлайн (Индексация)

Сбор и анализ контента: Обнаружение и парсинг документов.
Расчет Query-Independent Data: Для каждого термина в документе определяются его Term-Specific Occurrences (позиции в Title, URL, Body).
Сохранение в индекс: Запись Query-Independent Data в Inverted Index для каждой пары Документ-Термин.

Процесс Б: Онлайн (Ранжирование в реальном времени)

Получение запроса и кандидатов: Система получает запрос (T1, T2…) и определяет набор документов (D).
Извлечение Query-Independent Data: Для документа D извлекаются данные о вхождениях T1, T2… из Inverted Index.
Генерация Эмбеддингов: Генерируются Term Embeddings для T1, T2…
Динамическая генерация признаков: Dynamic Feature Generator рассчитывает Query-Dependent Features (например, расстояние между T1 и T2; количество пар слов запроса в Title). Формируются векторы признаков (Feature Vectors).
Конкатенация: Эмбеддинг T1 объединяется с Вектором признаков T1, Эмбеддинг T2 с Вектором признаков T2 и т.д.
Обработка Нейросетью: Конкатенированные данные подаются на вход Ranking Feature Generator (NN).
Генерация Ranking Feature: NN выдает комплексный признак ранжирования.
Финальное ранжирование: Ranking Model (MLA) использует этот признак для ранжирования документа D.

Какие данные и как использует

Данные на входе

Контентные факторы: Тексты запросов используются для генерации Term Embeddings.
Структурные и Позиционные факторы (Query-Independent Data): Данные о позициях (Term-Specific Occurrence) отдельных терминов в различных зонах документа, хранящиеся в Inverted Index. В патенте явно указаны:
- Позиции термина в Title (заголовке).
- Позиции термина в URL.
- Позиции термина в Body (теле документа).
Контекстные данные (Опционально): Патент (Claims 6, 14) упоминает возможность извлечения query-independent content-based data, указывающих на текстовый контекст (textual context) термина в документе (например, соседние слова).

Какие метрики используются и как они считаются

Ключевыми метриками, вычисляемыми динамически (Query-Dependent Features), являются показатели Group Occurrence. В патенте приводятся следующие примеры:

Количество раз, когда Термин 1 и Термин 2 встречаются вместе в Title.
Количество раз, когда Термин 1 и Термин 2 встречаются вместе в URL.
Количество раз, когда Термин 1 и Термин 2 встречаются вместе в Body.
В описании также упоминается позиционное смещение (positional offset) между терминами в теле документа (т.е. расстояние/близость между словами).

Алгоритмы машинного обучения:

Neural Network (NN): Используется в качестве Ranking Feature Generator. Особенность архитектуры – обработка конкатенированных входов (Эмбеддинг + Вектор признаков) для комплексной оценки семантики и структурных совпадений.
Decision-tree-based MLA: Используется в качестве финальной Ranking Model (упоминается CatBoost).

Выводы

Динамический расчет признаков взаимодействия: Яндекс активно использует механизм для расчета сложных признаков (близость слов, совместное вхождение) в реальном времени. Это позволяет учитывать тонкие нюансы релевантности без замедления поиска, используя данные из инвертированного индекса.
Подтвержденная важность Title, URL и Body: Патент явно указывает, что позиции слов и их совместное вхождение в Title, URL и основном тексте являются ключевыми данными для алгоритма ранжирования.
Гибридная оценка релевантности (NN + Embeddings + Features): Релевантность оценивается сложной архитектурой. Ranking Feature Generator (NN) специально обучен обрабатывать конкатенацию Term Embeddings (семантика) и динамически рассчитанных Feature Vectors (структура и совпадения).
Фокус на Group Occurrence: Ключевым аспектом является не просто наличие слов в документе (как в BM25), а то, как именно они расположены относительно друг друга в разных зонах (близость и совместное вхождение).
Многоуровневое ранжирование: Патент описывает четкое разделение ролей: NN генерирует специализированный комплексный признак релевантности, который затем используется основной моделью ранжирования (MLA/CatBoost).

Практика

Best practices (это мы делаем)

Оптимизация Title и H1 для совместного вхождения: Убедитесь, что ключевые термины из целевого кластера запросов естественно и близко расположены друг к другу в заголовках. Патент подтверждает, что совместное вхождение (Group Occurrence) в Title является важным признаком, обрабатываемым NN.
Проработка ЧПУ (Человекопонятных УРЛ): Используйте лаконичные URL, включающие основные термины запроса. Совместное вхождение терминов в URL явно используется как Query-Dependent Feature. Избегайте неинформативных идентификаторов.
Оптимизация близости терминов в тексте (Body/Proximity): При написании контента следите за тем, чтобы семантически связанные сущности и термины из запроса находились в тесной близости (в одном предложении или абзаце). Это увеличивает показатели Group Occurrence и уменьшает позиционное смещение (positional offset).
Комплексный подход к релевантности: Помните, что система оценивает комбинацию семантики (Embeddings) и точных вхождений/близости (Features). Контент должен быть семантически релевантен интенту и содержать точные формулировки в нужных местах.

Worst practices (это делать не надо)

Раздельная оптимизация терминов: Оптимизация под отдельные слова без учета их взаимодействия неэффективна. Система ищет Group Occurrence, а не разрозненные вхождения.
Переспам и неестественные конструкции в Title/Body: Хотя близость важна, использование спамных конструкций может быть контрпродуктивно. Нейросеть (Ranking Feature Generator) обучается на оценках релевантности и способна отличать естественное совместное вхождение от манипулятивного.
Игнорирование URL структуры: Использование динамических, неинформативных URL (например, site.ru/product?id=123) лишает документ важных сигналов Group Occurrence в зоне URL.
«Вода» и разнесение терминов в контенте: Большие блоки текста, разделяющие ключевые термины, снижают показатели близости, что может негативно сказаться на оценке Ranking Feature Generator.

Стратегическое значение

Патент подтверждает, что несмотря на развитие семантического поиска (Embeddings), классические онпейдж факторы, такие как точное вхождение, близость слов и оптимизация зон документа (Title, URL), остаются фундаментально важными. Однако их обработка усложнилась. Яндекс использует специализированные нейронные сети для интерпретации этих сигналов в контексте семантики запроса. Это подчеркивает необходимость высокоточной и качественной текстовой оптимизации как части долгосрочной SEO-стратегии.

Практические примеры

Сценарий: Оптимизация карточки товара

Запрос: «купить iphone 15 pro max синий титан»

Плохая реализация:

URL: site.ru/catalog/apple/iphones/item-12345
Title: iPhone 15 Pro Max. Цвет: Синий Титан. Купить в магазине.
Текст: Описание iPhone 15 Pro Max… (далее много текста)… Цвет корпуса выполнен в оттенке «Синий Титан».

Результат: Низкие показатели Group Occurrence. В URL слова отсутствуют или разделены. В Title слова разделены знаками препинания и находятся далеко. В тексте ключевые характеристики разнесены.

Хорошая реализация (согласно патенту):

URL: site.ru/apple/iphone-15-pro-max-blue-titanium
Title: Купить iPhone 15 Pro Max Синий Титан (Blue Titanium) — Цены
Текст (первый абзац): Предлагаем купить новый iPhone 15 Pro Max в цвете Синий Титан…

Результат: Высокие показатели Group Occurrence. Термины находятся рядом в URL, Title и Body. Dynamic Feature Generator рассчитает высокие значения признаков совместного вхождения и близости, что приведет к генерации более высокого Ranking Feature нейросетью.

Вопросы и ответы

В чем основное преимущество динамической генерации Query-Dependent Features?

Основное преимущество — это скорость и эффективность. Признаки, зависящие от взаимодействия слов (например, близость), нельзя рассчитать заранее, так как они зависят от конкретного запроса. Рассчитывать их с нуля для миллионов документов в реальном времени слишком долго. Патент предлагает способ мгновенно вычислять эти сложные признаки, используя уже готовые данные о позициях отдельных слов (Query-Independent Data) из инвертированного индекса.

Подтверждает ли этот патент использование фактора близости слов (Term Proximity) в Яндексе?

Да, абсолютно. Весь патент посвящен инфраструктуре для эффективного расчета «Group Occurrence», что напрямую включает в себя близость терминов друг к другу (Proximity). Система специально разработана для того, чтобы в реальном времени вычислять расстояния (positional offset) между словами запроса внутри документа, используя сохраненные в индексе позиции этих слов.

Что такое Group Occurrence и почему это важно для SEO?

Group Occurrence (Совместное вхождение) — это набор метрик, описывающих, как слова из запроса расположены относительно друг друга в документе. Это включает близость (proximity) и совместное присутствие в ключевых зонах (Title, URL). Для SEO это критически важно, так как подтверждает, что для высоких позиций недостаточно просто иметь все слова запроса на странице — их расположение и контекст напрямую влияют на релевантность, оцениваемую нейронной сетью.

Какую роль играет Нейронная Сеть (NN) в этом патенте и чем она отличается от основной модели ранжирования (MLA/CatBoost)?

Нейронная сеть (Ranking Feature Generator) играет роль специализированного обработчика. Она принимает семантические данные (Term Embeddings) и структурные данные (Query-Dependent Features) и генерирует один комплексный признак релевантности (Ranking Feature). Основная модель ранжирования (MLA, например, CatBoost) — это алгоритм более высокого уровня, который использует этот комплексный признак наряду с сотнями других факторов (поведенческих, ссылочных и т.д.) для финального ранжирования.

Что означает «конкатенация» Term Embeddings и Feature Vectors?

Конкатенация — это процесс объединения векторного представления слова (отражающего семантику) и вектора признаков этого слова (отражающего его вхождения и близость к другим словам в документе). Это позволяет нейросети одновременно учитывать и смысл слова, и его точное использование в контексте документа. Такая архитектура обеспечивает более глубокое понимание релевантности.

Означает ли этот патент, что оптимизация URL стала важнее?

Патент подтверждает, что URL остается важной зоной для оптимизации. Он явно указывает, что совместное вхождение (Group Occurrence) слов запроса в URL является одним из признаков (Query-Dependent Feature), который обрабатывается нейросетью. Это подчеркивает важность использования чистых, лаконичных и информативных ЧПУ, содержащих основные ключевые слова.

Как этот механизм соотносится с BM25?

BM25 — это статистическая функция, которая в основном учитывает частоту слов (TF-IDF), но слабо учитывает близость слов или их взаимодействие. Описанный механизм значительно сложнее. Он динамически рассчитывает признаки близости и совместного вхождения и обрабатывает их с помощью нейронной сети. Этот механизм дополняет BM25 для более точной оценки текстовой релевантности на поздних стадиях ранжирования.

Влияет ли этот алгоритм на обработку синонимов?

Да, патент упоминает (Claim 5, Claim 13), что система может определять похожие термины (similar term), например, синонимы. При извлечении данных из индекса система также может извлекать данные для этих похожих терминов и использовать их при расчете Group Occurrence. Это усиливает важность использования релевантных синонимов и QBST фраз в контенте.

Какие данные хранятся в инвертированном индексе согласно этому патенту?

В инвертированном индексе хранятся Query-Independent Data для каждой пары документ-термин. Это не просто факт наличия слова, а его Term-Specific Occurrence — конкретные позиции (locations/offsets) этого слова в Title, URL и теле документа. Именно наличие этих позиционных данных позволяет быстро рассчитывать признаки близости в реальном времени.

Может ли этот механизм извлекать контекст вокруг ключевого слова?

Да, в патенте упоминается возможность извлечения Query-Independent Content-Based Data (Claim 6, Claim 14). Эти данные описывают текстовый контекст (textual context) термина в документе, например, соседние слова. Это может использоваться нейросетью для дополнительного уточнения релевантности.