Как Яндекс в реальном времени вычисляет факторы близости и совместного вхождения слов запроса для ранжирования

Яндекс патентует эффективный метод расчета сложных текстовых факторов (близость слов запроса друг к другу, их совместное наличие в URL/заголовке) в момент выполнения поиска. Система использует предварительно сохраненные в индексе данные о позициях отдельных слов, чтобы динамически вычислить их взаимодействие. Эти данные обрабатываются нейронной сетью для создания мощного сигнала релевантности, который затем используется в основной формуле ранжирования (например, CatBoost).

Описание

Какую задачу решает

Патент решает фундаментальную проблему баланса между скоростью поиска и качеством ранжирования. Сложные текстовые факторы, зависящие от взаимодействия нескольких слов запроса (например, их близость друг к другу – proximity, или совместное вхождение в заголовок), являются сильными сигналами релевантности. Однако их расчет в реальном времени ресурсоемок, а предварительный расчет для всех возможных запросов невозможен. Патент предлагает эффективный способ генерировать эти сложные запросо-зависимые признаки на лету, используя только запросо-независимые данные, уже хранящиеся в инвертированном индексе.

Что запатентовано

Запатентована система и способ динамического генерирования признаков ранжирования на основе совместного вхождения (групповое вхождение) термов запроса. Суть изобретения — использование Генератора динамических признаков для обработки позиционных данных из инвертированного индекса в реальном времени. Эти динамические признаки затем агрегируются Нейронной сетью (Генератор ранжирующих признаков) в итоговый Ранжирующий признак.

Как это работает

На этапе индексации Яндекс сохраняет в инвертированном индексе позиции каждого слова в разных зонах документа (URL, Заголовок, Тело) — это запросо-независимые данные. При получении запроса система извлекает эти данные для всех слов запроса. Затем Генератор динамических признаков на лету сравнивает эти позиции, вычисляя запросо-зависимые признаки (например, расстояние между словами, совместное присутствие в URL). Эти признаки вместе с векторными представлениями слов (embeddings) поступают в Нейронную сеть, которая генерирует комплексный Ранжирующий признак. Этот признак используется финальной моделью ранжирования (например, CatBoost, явно упомянутым в патенте) для сортировки выдачи.

Актуальность для SEO

Высокая. Описанная архитектура (использование специализированных нейронных сетей для генерации признаков, которые затем подаются в модель градиентного бустинга CatBoost) является стандартом современного поиска и активно применяется Яндексом (например, связка YATI + CatBoost). Эффективный расчет сложных признаков в реальном времени остается критически важной задачей.

Важность для SEO

Влияние на SEO значительно (8.5/10). Хотя патент решает инфраструктурную задачу (скорость), он детально описывает механизм учета фундаментальных факторов текстовой релевантности. Он подтверждает критическую важность близости слов (Proximity), их совместного вхождения (Co-occurrence) и расположения в ключевых зонах (URL, Заголовок, Тело). Система позволяет Яндексу точно и эффективно учитывать эти параметры при ранжировании.

Детальный разбор

Термины и определения

Генератор динамических признаков (Dynamic Feature Generator): Компонент, который в реальном времени рассчитывает Запросо-зависимые признаки, используя Запросо-независимые данные из инвертированного индекса.
Генератор ранжирующих признаков (Ranking Feature Generator): Компонент, обычно Нейронная сеть (NN), который обрабатывает эмбеддинги термов и выход Генератора динамических признаков для создания итогового Ранжирующего признака.
Групповое вхождение (Group Occurrence): Запросо-зависимый признак, указывающий на совместное присутствие двух или более термов запроса в документе (например, совместная встречаемость в одной зоне, близость).
Зависимое от терма вхождение (Term-Dependent Occurrence): Запросо-независимые данные о вхождении отдельного терма в документ. Включает позиции терма в Заголовке, URL и Теле документа.
Запросо-зависимый признак (Query-Dependent Feature): Признак, генерируемый в реальном времени после получения запроса. Зависит от взаимодействия нескольких слов из запроса внутри документа.
Запросо-независимые данные (Query-Independent Data): Данные, хранящиеся в инвертированном индексе до получения запроса. Зависят только от одного слова и документа (пара Документ-Терм), например, позиция слова в URL.
Инвертированный индекс (Inverted Index): Структура данных, хранящая списки документов для каждого терма и Запросо-независимые данные для пар Документ-Терм (DT).
Модель ранжирования (Ranking Model): Основной алгоритм ранжирования. В патенте упоминается как MLA на основе дерева решений, например, CatBoost, который использует Ранжирующий признак для финальной сортировки результатов.
Ранжирующий признак (Ranking Feature): Выход Генератора ранжирующих признаков (NN). Сложный сигнал, указывающий на релевантность документа запросу.
Эмбеддинг терма (Term Embedding): Векторное представление слова, отражающее его семантическое значение. Используется как вход в Нейронную сеть.

Ключевые утверждения (Анализ Claims)

Патент защищает метод эффективного вычисления признаков совместного вхождения термов в реальном времени.

Claim 1 (Независимый пункт): Описывает основной способ ранжирования документа в ответ на запрос с Первым и Вторым термами.

Доступ к инвертированному индексу для извлечения запросо-независимых данных для пар (Документ, Терм 1) и (Документ, Терм 2). Эти данные указывают на зависимое от терма вхождение каждого терма (например, позиции).
Генерирование запросо-зависимого признака с использованием извлеченных данных. Этот признак указывает на групповое вхождение (совместное присутствие/близость) Терма 1 и Терма 2.
Генерирование Ранжирующего признака на основе Термов 1, 2 и запросо-зависимого признака.
Ранжирование документа на основе этого Ранжирующего признака.

Claim 2 и 3 (Зависимые пункты): Уточняют, что Ранжирующий признак генерируется Нейронной сетью (NN) (Claim 2), и описывают процесс ее обучения (Claim 3).

Процесс обучения NN:

Используются обучающие пары (Документ, Запрос) с метками релевантности.
Для каждой пары генерируются (i) эмбеддинги термов и (ii) векторы признаков (включая динамически рассчитанные запросо-зависимые признаки).
Эти данные (часто конкатенированные) вводятся в NN для получения предсказания.
NN настраивается на основе сравнения предсказания с меткой релевантности.

Claim 6 (Зависимый пункт): Уточняет, что финальное ранжирование выполняется с помощью Алгоритма машинного обучения (MLA) на основе дерева решений (например, CatBoost).

Claim 9 и 10 (Зависимые пункты): Определяют состав данных. Зависимое от терма вхождение (Claim 9) включает позиции в Заголовке, URL, Теле. Групповое вхождение (Claim 10) включает количество совместных вхождений в Заголовке, URL, Теле.

Где и как применяется

Изобретение интегрировано в процесс индексирования и ранжирования, обеспечивая эффективное вычисление сложных текстовых факторов.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительный расчет и сохранение в Инвертированном индексе запросо-независимых данных. Для каждой пары Документ-Терм сохраняется информация о зависимом от терма вхождении — точные позиции терма в Заголовке, URL и Теле документа.

RANKING – Ранжирование (Вероятно, уровни L2/L3)
Основное применение патента происходит в реальном времени.

Извлечение данных: Система обращается к Инвертированному индексу для извлечения запросо-независимых данных (позиций слов) для документа-кандидата.
Генерация динамических признаков: Генератор динамических признаков обрабатывает эти данные для вычисления запросо-зависимых признаков (групповое вхождение, близость).
Нейросетевая оценка: Генератор ранжирующих признаков (NN) принимает эмбеддинги термов и динамические признаки, генерируя Ранжирующий признак.
Финальное ранжирование: Основная Модель ранжирования (MLA на основе дерева решений, например CatBoost) использует этот Ранжирующий признак наряду с другими факторами для определения порядка выдачи.

На что влияет

Контентные факторы (Текстовая релевантность): Патент напрямую влияет на оценку текстовой релевантности, позволяя точно учитывать близость слов (proximity) и их расположение в важных зонах (Title, URL, Body).
Специфические запросы: Наибольшее влияние оказывается на многословные запросы, где взаимодействие между словами критично для понимания смысла.
Подобные термы: Патент упоминает возможность использования «подобных термов» (синонимов, нормализованных версий), что расширяет анализ релевантности за пределы точных вхождений.

Когда применяется

Алгоритм применяется в реальном времени (in real-time) во время процедуры ранжирования документов поисковой машины. Он активируется после получения запроса и выбора документов-кандидатов, но до финального расчета ранга.

Пошаговый алгоритм

Фаза 1: Офлайн-индексация

Сканирование и парсинг: Документы анализируются, выделяются зоны (URL, Заголовок, Тело).
Расчет Запросо-независимых данных: Для каждого терма определяются его точные позиции в каждой зоне.
Сохранение в Индексе: Эти данные сохраняются в Инвертированном индексе в привязке к паре Документ-Терм.

Фаза 2: Офлайн-обучение NN

Сбор данных: Формирование обучающей выборки пар (Документ, Запрос) с метками релевантности (например, от асессоров).
Генерация признаков для обучения: Расчет эмбеддингов и динамических признаков для обучающей выборки.
Обучение: Настройка Нейронной сети для предсказания меток релевантности на основе входных признаков.

Фаза 3: Онлайн-обработка запроса (Реальное время)

Получение запроса и кандидатов: Определение множества потенциально релевантных документов.
Извлечение данных: Для документа-кандидата из Инвертированного индекса извлекаются Запросо-независимые данные (позиции слов).
Генерация динамических признаков: Генератор вычисляет Запросо-зависимые признаки (групповое вхождение, близость), сравнивая позиции слов.
Генерация Эмбеддингов: Расчет векторных представлений термов запроса.
Расчет Ранжирующего признака: Эмбеддинги и динамические признаки вводятся (часто конкатенируются) в обученную NN. NN выводит Ранжирующий признак.
Финальное ранжирование: Ранжирующий признак используется основной Моделью ранжирования (CatBoost) для сортировки результатов.

Какие данные и как использует

Данные на входе

Контентные и Структурные факторы: Ключевые данные — это позиции термов в структурированных зонах документа, хранящиеся в индексе:
- Позиции в Заголовке (Title).
- Позиции в URL.
- Позиции в Теле документа (Body).
Текстовый контекст (Опционально): Система может извлекать данные о соседних термах (текстовый контекст).
Лингвистические данные: Векторные представления (Embeddings) термов запроса.
Поведенческие факторы (Косвенно): Метки релевантности (от асессоров или на основе кликов), используемые для обучения Нейронной сети.

Какие метрики используются и как они считаются

Групповое вхождение (Group Occurrence): Метрики, вычисляемые динамически Генератором. Включают:
- Количество совместных вхождений термов в Заголовке.
- Количество совместных вхождений термов в URL.
- Количество совместных вхождений термов в Теле.
- Позиционное смещение (Proximity / Близость) между термами в Теле.
- Процент термов из запроса, присутствующих в определенной зоне (например, URL).
Алгоритмы машинного обучения:
- Нейронная сеть (NN): Используется для интеграции эмбеддингов и динамических признаков в единый Ранжирующий признак. Обучается с использованием метода обратного распространения ошибки.
- MLA на основе дерева решений: Используется для финального ранжирования. Упоминается CatBoost.

Выводы

Яндекс динамически вычисляет сложные текстовые факторы: Система эффективно рассчитывает факторы взаимодействия слов (близость, совместное вхождение в зонах) в реальном времени, используя позиционные данные из индекса. Это обеспечивает высокую скорость при сохранении качества ранжирования.
Многоуровневая оценка релевантности (NN + CatBoost): Патент подтверждает использование гибридной архитектуры. Нейронная сеть агрегирует сырые сигналы (эмбеддинги и динамические признаки) в комплексную оценку релевантности, которая затем используется основной формулой ранжирования (CatBoost).
Критическая важность зон документа: Заголовок (Title), URL и Тело документа явно выделены как отдельные зоны, для которых рассчитываются групповые вхождения. Это фундаментально для On-Page SEO.
Значение Proximity (Близости слов): Механизм патента идеально подходит для точного расчета позиционного смещения (близости) между термами запроса. Близость слов является важным сигналом для нейросетевой оценки релевантности.
Интеграция семантики и структуры: Система объединяет семантическое понимание (через Эмбеддинги) со структурным анализом (через динамические признаки, основанные на позициях), что позволяет оценивать документ комплексно.

Практика

Best practices (это мы делаем)

Тщательная оптимизация Заголовков (Title) и URL: Обеспечивайте совместное наличие ключевых термов из целевого запроса в Заголовке и URL. Патент явно указывает, что групповое вхождение в этих зонах вычисляется как отдельный признак.
Фокус на близости ключевых слов (Proximity) в тексте: Размещайте ключевые слова близко друг к другу в основном контенте (Body), особенно в начале документа и в подзаголовках. Система динамически вычисляет позиционные смещения для оценки релевантности.
Использование точных фраз и пассажей: Обеспечивайте наличие в контенте точных или близких к точным формулировок целевых запросов в рамках одного пассажа. Это максимизирует сигналы группового вхождения и близости.
Включение синонимов и QBST фраз: Система может анализировать вхождения «подобных термов» (синонимов, нормализованных форм). Контент должен быть насыщен релевантной лексикой для покрытия этих вариаций.

Worst practices (это делать не надо)

Разделение ключевых фраз (Keyword Splitting): Размещение слов из одной ключевой фразы далеко друг от друга в тексте (в разных абзацах или через большое количество стоп-слов). Это приведет к низким значениям признаков близости.
Игнорирование URL-оптимизации: Использование неинформативных URL (например, page_id=123) вместо ЧПУ с ключевыми словами. Это лишает страницу важных сигналов группового вхождения в зоне URL.
Слабые Заголовки (Title): Использование общих или нерелевантных заголовков, не содержащих основных термов запроса совместно.
Переспам и неестественное употребление ключей: Попытки манипулировать близостью в ущерб читаемости. Поскольку финальная интерпретация сигналов происходит через сложные ML-модели (NN и CatBoost), неестественные паттерны могут быть распознаны как спам.

Стратегическое значение

Патент подтверждает стратегию Яндекса на глубокий анализ текстовой релевантности с использованием гибридных ML-моделей (Нейронные сети + CatBoost) и одновременную оптимизацию скорости. Для SEO это означает, что классические принципы on-page оптимизации (Title, URL, Proximity) не только не устарели, но и обрабатываются с высокой точностью сложными алгоритмами. Долгосрочная стратегия должна включать тщательную проработку структуры и текста документа, обеспечивая максимальное количество сигналов релевантности для нейросетевого анализатора.

Практические примеры

Сценарий: Оптимизация страницы услуги

Запрос: «установка пластиковых окон москва»

Плохая реализация:
Title: Качественные окна | Наш Сервис
URL: site.ru/services/1
Текст: Мы предлагаем окна из пластика. Установка осуществляется быстро. Работаем в Москве.

Анализ системы (согласно патенту):

Извлечение данных: Позиции для «установка», «пластиковых», «окон», «москва» извлекаются из индекса.
Генерация динамических признаков (155):
- Групповое вхождение в Title: Низкое (только «окон»).
- Групповое вхождение в URL: Нулевое.
- Близость в Тексте: Высокое расстояние между «пластиковых окон», «установка» и «москва».
Результат (140): NN сгенерирует низкий Ранжирующий признак.

Хорошая реализация:
Title: Установка пластиковых окон в Москве недорого
URL: site.ru/services/ustanovka-plastikovyh-okon-moskva
Текст: Профессиональная установка пластиковых окон в Москве и области. Мы гарантируем качество монтажа…

Анализ системы (согласно патенту):

Извлечение данных: Позиции для всех термов извлекаются из индекса.
Генерация динамических признаков (155):
- Групповое вхождение в Title: Высокое (все основные термы присутствуют).
- Групповое вхождение в URL: Высокое (все основные термы присутствуют).
- Близость в Тексте: Минимальное расстояние (термы идут подряд или очень близко).
Результат (140): NN сгенерирует высокий Ранжирующий признак, что приведет к повышению позиций в финальном ранжировании (CatBoost).

Вопросы и ответы

Что такое «Запросо-независимые данные» и «Запросо-зависимые признаки»?

Запросо-независимые данные рассчитываются заранее (офлайн) и хранятся в индексе. Это информация об отдельном слове в документе, например, его точные позиции в URL, заголовке и тексте. Запросо-зависимые признаки рассчитываются в реальном времени (онлайн) и зависят от взаимодействия нескольких слов из текущего запроса, например, расстояние между ними или их совместное присутствие в заголовке. Патент описывает, как быстро вычислить второе из первого.

Что такое «Групповое вхождение» и почему оно важно для SEO?

Групповое вхождение (Group Occurrence) — это показатель того, как слова из запроса встречаются вместе в документе. Это включает близость (proximity) и совместное присутствие в ключевых зонах (URL, Title). Для SEO это критически важно, так как подтверждает, что Яндекс активно использует эти сигналы. Необходимо следить, чтобы ключевые слова находились рядом и вместе присутствовали в важных зонах документа.

Патент описывает Нейронную сеть (NN) и Модель на основе деревьев решений (CatBoost). Какова их роль?

Это двухуровневая система. Нейронная сеть (Генератор ранжирующих признаков) специализируется на обработке текстовых сигналов: она принимает эмбеддинги слов и динамические признаки группового вхождения и генерирует один комплексный Ранжирующий признак. CatBoost (основная Модель ранжирования) использует этот признак вместе с сотнями других факторов (ссылочных, поведенческих и т.д.) для определения финального порядка выдачи.

Означает ли этот патент, что близость слов (Proximity) стала важнее?

Патент не меняет важность этого фактора, но подтверждает, что он активно используется, и описывает эффективный механизм его расчета. Поскольку для интерпретации этого фактора используется сложная Нейронная сеть, можно сделать вывод, что Яндекс уделяет значительное внимание нюансам расположения слов. Игнорировать Proximity в SEO нельзя.

Какие зоны документа анализируются этим алгоритмом?

В патенте явно и многократно указаны три ключевые зоны, для которых рассчитывается как индивидуальное, так и групповое вхождение термов: Заголовок (Title), URL и Тело документа (Body). Это подтверждает необходимость комплексной оптимизации всех этих элементов страницы.

Как этот патент связан с алгоритмами Яндекса на базе трансформеров (YATI)?

Описанная архитектура очень похожа на принцип работы YATI. Нейронная сеть (Генератор ранжирующих признаков), которая обрабатывает эмбеддинги и структурные признаки документа для создания признака для CatBoost, функционально соответствует роли YATI в ранжировании Яндекса. Этот патент, вероятно, описывает один из аспектов работы этой системы.

Учитывает ли эта система синонимы?

Да. Патент (Claim 7 и описание) упоминает возможность использования «подобных термов» (синонимов, нормализованных форм). Система может извлекать данные из индекса и рассчитывать групповое вхождение не только для точных слов запроса, но и для их синонимов, присутствующих в документе.

Как на практике оптимизировать URL, исходя из этого патента?

Необходимо включать основные термы запроса в ЧПУ. Патент явно указывает на расчет признака: «количество раз, когда второй терм… включен в дополнение к первому терму в URL». Если запрос «ремонт АКПП ауди», то URL /remont-akpp-audi даст сильный сигнал группового вхождения всех трех термов в зоне URL.

Если я использую ключевые слова в тексте далеко друг от друга, это плохо?

Да, если эти слова связаны одним интентом. Система измеряет позиционное смещение (расстояние) между термами. Если связанные концепции находятся далеко друг от друга, оценка близости будет низкой, что может негативно сказаться на текстовой релевантности, рассчитанной нейронной сетью.

Является ли этот механизм заменой BM25?

Нет, это дополнение. BM25 хорошо оценивает релевантность на основе частоты термов, но слабо учитывает их взаимодействие и близость. Описанный механизм генерирует дополнительные, более сложные сигналы текстовой релевантности, которые используются в ранжировании наряду с BM25 и другими факторами, вероятно, на более поздних этапах ранжирования (L2/L3).