Как Яндекс эффективно рассчитывает близость и совместное вхождение слов запроса в документе для ранжирования

Яндекс патентует метод для быстрого расчета признаков релевантности, основанных на совместном вхождении и близости (proximity) слов запроса в документе. Система заранее сохраняет в индексе данные о позициях отдельных слов (запросо-независимые данные), а во время поиска использует их для расчета совместного вхождения (запросо-зависимый признак) в реальном времени. Это позволяет моделям ранжирования (Нейронным сетям и MLA) учитывать близость слов в Title, URL и Body без замедления поиска.

Описание

Какую задачу решает

Патент решает фундаментальную проблему баланса между скоростью поиска и качеством ранжирования. Расчет сложных признаков релевантности, таких как близость слов запроса в документе (Term Proximity) или их совместное вхождение (Co-occurrence) в определенные зоны (Title, URL), является вычислительно затратным, если выполнять его полностью в реальном времени. Изобретение предлагает эффективный метод вычисления этих критически важных признаков, разделяя процесс на офлайн и онлайн стадии. Это повышает качество ранжирования, позволяя учитывать сложные текстовые взаимосвязи без ущерба для скорости ответа поисковой системы.

Что запатентовано

Запатентован способ эффективного расчета признаков ранжирования, основанных на совместном вхождении терминов запроса в документ. Суть изобретения заключается в предварительном сохранении в инвертированном индексе запросо-независимых данных (например, позиций отдельных слов в документе) и последующем использовании этих данных для быстрого генерирования запросо-зависимого признака (например, близости этих слов друг к другу) в момент получения запроса.

Как это работает

Механизм работает в два этапа:

Офлайн (Индексация): В инвертированный индекс для каждой пары Документ-Терм (DT) сохраняются запросо-независимые данные. Это включает позиции слова в тексте, заголовке или URL документа (п. 9).
Онлайн (Ранжирование): При получении запроса (состоящего, например, из Терма 1 и Терма 2) система извлекает из индекса сохраненные данные для (Документ, Терм 1) и (Документ, Терм 2). На основе этих данных в реальном времени генерируется запросо-зависимый признак, указывающий на групповое вхождение (близость или совместное присутствие) Терма 1 и Терма 2 (п. 10). Этот признак затем используется моделью ранжирования (Нейронной сетью (NN) (п. 2) или Алгоритмом Машинного Обучения (MLA) (п. 6)) для определения релевантности документа.

Актуальность для SEO

Высокая. Эффективное вычисление признаков релевантности является краеугольным камнем современных поисковых систем. Близость слов (Term Proximity) — один из сильнейших сигналов текстовой релевантности. Описанный метод позволяет интегрировать эти сигналы как в классические MLA модели (например, CatBoost), так и в современные нейросетевые архитектуры (например, YATI) без критического замедления поиска.

Важность для SEO

Влияние на SEO значительно (7.5/10). Хотя патент описывает инфраструктурный механизм оптимизации вычислений, он четко подчеркивает, какие именно сигналы Яндекс считает важными и активно измеряет. Он подтверждает критическую важность совместного вхождения и близости ключевых слов запроса в основных зонах документа (Title, URL, Body) как сильных признаков ранжирования. SEO-специалисты должны уделять пристальное внимание оптимизации этих зон.

Детальный разбор

Термины и определения

Алгоритм машинного обучения (MLA — Machine Learning Algorithm): В контексте патента (п. 6) упоминается MLA на основе дерева решений (например, CatBoost). Используется для ранжирования документов на основе набора признаков.
Вложения термов (Term Embeddings): Векторные представления слов, несущие семантическую информацию. Упоминаются в п. 3 как входные данные для нейронной сети вместе с векторами признаков.
Групповое вхождение (Group Occurrence): Показатель, характеризующий совместное присутствие двух или более терминов запроса в содержимом документа или его частях (Title, URL, Body). Может включать количество таких совместных вхождений (п. 10) или расстояние между терминами (близость/proximity). Является запросо-зависимым признаком.
Зависимое от терма вхождение (Term-dependent occurrence): Показатель вхождения отдельного терма в содержимое документа (например, позиции терма в заголовке, URL, теле — п. 9). Является запросо-независимыми данными.
Запросо-зависимый признак (Query-Dependent Feature): Признак ранжирования, который рассчитывается в реальном времени после получения запроса. В данном патенте он указывает на групповое вхождение.
Запросо-независимые данные (Query-Independent Data): Данные, которые рассчитываются и сохраняются в инвертированном индексе заранее (офлайн), до получения запроса. Они характеризуют зависимое от терма вхождение.
Инвертированный индекс (Inverted Index): Структура данных, хранящая отображение терминов на документы. В рамках патента он также хранит запросо-независимые данные для пар Документ-Терм.
Нейронная сеть (NN — Neural Network): Модель машинного обучения (п. 2), которая может использоваться для генерации ранжирующего признака на основе входных данных (включая вложения термов и запросо-зависимые признаки).
Пара Документ-Терм (DT — Document-Term Pair): Единица данных в инвертированном индексе, связывающая конкретный документ и конкретный терм.
Ранжирующий признак (Ranking Feature): Итоговое значение (скор), сгенерированное моделью ранжирования (NN или MLA) для документа, которое определяет его позицию в выдаче.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методологии эффективного расчета признаков, связанных с совместным вхождением слов.

Claim 1 (Независимый пункт): Описывает базовый механизм ранжирования документа в ответ на запрос, состоящий из первого и второго термов.

Для документа из инвертированного индекса извлекаются запросо-независимые данные для двух пар DT: (Документ, Терм 1) и (Документ, Терм 2). Эти данные указывают на индивидуальные (зависимые от терма) вхождения каждого терма (например, их позиции).
На основе извлеченных данных генерируется запросо-зависимый признак. Этот признак указывает на групповое вхождение Терма 1 и Терма 2 (например, насколько близко они расположены друг к другу или сколько раз встречаются вместе).
Генерируется ранжирующий признак для документа на основе самих термов и сгенерированного запросо-зависимого признака.
Документ ранжируется на основе этого ранжирующего признака.

Ключевая инновация здесь — разделение вычислений: использование предварительно сохраненных (независимых от запроса) данных для быстрого расчета сложного (зависимого от запроса) признака в реальном времени (п. 4, 5).

Claim 2 и Claim 6: Уточняют, какие модели могут использоваться для ранжирования.

Пункт 2 указывает, что генерация ранжирующего признака может выполняться Нейронной сетью (NN).
Пункт 6 указывает, что ранжирование может выполняться с помощью Алгоритма машинного обучения (MLA) на основе дерева решений (например, CatBoost).

Это означает, что описанный механизм генерации признаков универсален и применим как для нейросетевого ранжирования, так и для классического градиентного бустинга.

Claim 3: Детализирует процесс обучения Нейронной сети (NN) с использованием этого механизма.

Для обучающей пары Документ-Запрос (DQ) с известной меткой релевантности генерируется обучающий набор.
Генерируются вложения термов (embeddings) обучающего запроса.
Из индекса извлекаются запросо-независимые данные для соответствующих пар DT.
Генерируются векторы обучающих признаков (используя запросо-независимые данные).
Вложения термов И векторы признаков вводятся в NN для генерации предсказанного ранжирующего признака.
NN настраивается (обучается) путем сравнения предсказанного признака с известной меткой релевантности.

Это критически важный пункт, показывающий, как именно данные о точных вхождениях и близости интегрируются в процесс обучения современных нейросетевых моделей ранжирования вместе с семантическими векторами (эмбеддингами).

Claim 7: Расширяет механизм на похожие термины.

Система может определить подобный терм (синоним или семантически связанное слово) для терма из запроса и также извлечь для него запросо-независимые данные из индекса. Групповое вхождение рассчитывается не только для точных слов запроса, но и для их семантических вариантов.

Claims 9 и 10: Уточняют, где именно анализируются вхождения.

Вхождения (как индивидуальные (п. 9), так и групповые (п. 10)) анализируются в ключевых зонах документа: Заголовок (Title), URL и Тело документа (Body). Упоминается извлечение позиций термов и подсчет количества совместных вхождений в этих зонах.

Где и как применяется

Изобретение затрагивает два ключевых слоя поисковой архитектуры.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит офлайн-обработка. Во время парсинга и анализа документа система вычисляет и сохраняет в Инвертированном индексе запросо-независимые данные. Сюда входят позиции каждого терма в различных зонах документа (Title, URL, Body).

RANKING – Ранжирование (Уровни L1/L2/L3)
На этом этапе происходит онлайн-обработка запроса.

Извлечение данных: Система быстро извлекает предварительно сохраненные запросо-независимые данные для всех термов (и подобных термов) из запроса.
Генерация признаков: В реальном времени (п. 5) система рассчитывает запросо-зависимые признаки (групповое вхождение/близость). Например, рассчитывается минимальное расстояние между словами запроса в тексте или количество совместных вхождений в заголовок.
Применение модели: Сгенерированные признаки передаются в модель ранжирования. Это может быть MLA (CatBoost) на уровнях L2/L3 или Нейронная сеть (NN, возможно YATI) на уровне L3 для финального ранжирования.

На что влияет

Конкретные типы контента: Влияет на все типы контента, где важна текстовая релевантность (статьи, карточки товаров, листинги).
Специфические запросы: Наибольшее влияние оказывается на многословные запросы, где порядок и близость слов определяют смысл (например, «билеты москва берлин» vs «билеты берлин москва»).
Ключевые зоны документа: Подчеркивается критическое влияние оптимизации Title, URL и основного текста (Body) на расчет релевантности.

Когда применяется

Офлайн-компонент: Применяется постоянно в процессе индексации и обновления документов в базе поисковой системы.
Онлайн-компонент: Активируется при обработке каждого поискового запроса (содержащего как минимум два терма, согласно п. 1) на этапе ранжирования для расчета текстовой релевантности кандидатов.

Пошаговый алгоритм

Фаза 1: Офлайн (Индексация)

Сбор и парсинг документа: Получение контента документа, его URL и Заголовка.
Анализ вхождений: Для каждого уникального терма в документе определяются его позиции в Теле, Заголовке и URL.
Сохранение в индексе: В инвертированный индекс для каждой пары Документ-Терм (DT) сохраняются вычисленные запросо-независимые данные (позиции и зоны вхождения).

Фаза 2: Онлайн (Ранжирование)

Получение и обработка запроса: Получение запроса, его разбиение на термы (Терм 1, Терм 2…). Определение подобных термов (п. 7).
Извлечение данных из индекса: Для данного документа-кандидата система извлекает запросо-независимые данные для всех термов запроса.
Генерация запросо-зависимых признаков: В реальном времени система обрабатывает извлеченные данные для расчета группового вхождения. Например, сравнивая позиции Терма 1 и Терма 2, вычисляется расстояние между ними (proximity) или подсчитывается, сколько раз они встречаются вместе в Заголовке (п. 10).
Генерация вложений (если используется NN): Генерация эмбеддингов для термов запроса (п. 3).
Применение модели ранжирования: Запросо-зависимые признаки (и вложения, если применимо) подаются на вход модели (NN или MLA).
Генерация ранжирующего признака: Модель вычисляет итоговый скор релевантности для документа.
Ранжирование: Документы сортируются на основе ранжирующего признака.

Какие данные и как использует

Данные на входе

Контентные факторы: Основные данные, используемые в патенте.
- Текст Заголовка (Title).
- Тело документа (Body).
- Текстовый контекст терма (п. 8).
Технические факторы:
- URL документа.
Структурные факторы: Система использует структурное разделение документа на зоны (Title, URL, Body) для извлечения признаков (п. 9, 10).

Какие метрики используются и как они считаются

Патент не приводит конкретных формул, но описывает типы вычисляемых метрик:

Запросо-независимые данные (Метрики отдельных вхождений):
- Одна или более позиций терма в Заголовке (п. 9).
- Одна или более позиций терма в URL (п. 9).
- Одна или более позиций терма в Теле документа (п. 9).
Запросо-зависимые признаки (Метрики групповых вхождений): Рассчитываются путем сравнения запросо-независимых данных.
- Количество раз, когда Терм 1 и Терм 2 совместно встречаются в Заголовке (п. 10).
- Количество раз, когда Терм 1 и Терм 2 совместно встречаются в URL (п. 10).
- Количество раз, когда Терм 1 и Терм 2 совместно встречаются в Теле документа (п. 10).
- (Подразумевается) Расстояние между термами (Proximity), вычисляемое на основе их позиций.
Вложения термов (Term Embeddings): Используются при применении Нейронной сети (п. 3). Генерируются на основе текста запроса с использованием языковых моделей (например, YATI).
Алгоритмы машинного обучения: Упоминаются Нейронные сети (NN) и MLA на основе деревьев решений (например, CatBoost). Они используются для агрегации всех признаков в итоговый ранжирующий признак.

Выводы

Текстовая релевантность, Proximity и Co-occurrence критически важны: Патент подтверждает, что совместное вхождение и близость слов запроса (групповое вхождение) являются важнейшими признаками ранжирования, которым Яндекс уделяет значительные ресурсы для эффективного вычисления.
Оптимизация вычислений: Основная цель патента — инфраструктурная. Яндекс оптимизирует скорость расчета сложных признаков путем предварительного сохранения базовых данных (позиций слов) в индексе и быстрого расчета производных признаков (близости) в реальном времени.
Гибридный подход к ранжированию (Классика + Нейросети): Описанный механизм генерации признаков используется как в традиционных моделях (CatBoost), так и в нейросетях (YATI). Пункт 3 явно показывает интеграцию точных данных о вхождениях с семантическими эмбеддингами в нейросетевых моделях.
Ключевые зоны оптимизации: Патент явно выделяет Заголовок (Title), URL и Тело документа (Body) как зоны, в которых анализируется групповое вхождение.
Учет синонимов и похожих слов: Система рассчитывает близость не только для точных слов запроса, но и для «подобных термов» (п. 7), что подчеркивает необходимость широкого семантического охвата.

Практика

Best practices (это мы делаем)

Оптимизация Заголовков (Title и H1): Убедитесь, что Title содержит основные ключевые слова запроса, расположенные максимально близко друг к другу и в естественной форме. Совместное вхождение в Title является сильным сигналом (п. 10).
Оптимизация URL: Используйте человеко-понятные URL (ЧПУ), включающие ключевые термины. Совместное вхождение слов запроса в URL также учитывается как признак ранжирования (п. 10).
Близость слов в тексте (Proximity): При написании контента (особенно в первых абзацах) стремитесь к тому, чтобы ключевые слова из целевого запроса встречались близко друг к другу. Это увеличивает метрики группового вхождения в теле документа.
Использование QBST фраз (Подобные термы): Включайте в контент синонимы и семантически связанные фразы. Система учитывает групповое вхождение не только точных слов запроса, но и подобных термов (п. 7), что повышает общую релевантность.

Worst practices (это делать не надо)

Разнесение ключевых слов: Размещение ключевых слов из одного запроса далеко друг от друга в тексте или заголовке. Это снижает показатели группового вхождения и близости.
Неинформативные URL: Использование технических идентификаторов в URL вместо ключевых слов (например, /product?id=123). Это лишает страницу возможности получить вес за счет вхождений в URL.
Переоптимизация и неестественный текст (Keyword Stuffing): Попытки искусственно сократить расстояние между словами в ущерб читаемости. Хотя близость важна, современные алгоритмы (NN и MLA), использующие эти признаки в сочетании с эмбеддингами (п. 3), также оценивают естественность и качество текста.
Игнорирование Title: Создание заголовков, которые не содержат основных ключевых слов или содержат их в разрозненном виде.

Стратегическое значение

Этот патент демонстрирует, что несмотря на развитие сложных нейросетевых моделей (YATI), фундаментальные принципы текстовой релевантности, такие как близость слов (Proximity) и точные вхождения, остаются критически важными. Яндекс не отказывается от них, а наоборот, интегрирует их напрямую в нейросетевые модели (п. 3) и инвестирует в инфраструктуру для их максимально эффективного расчета. Стратегически это означает, что качественная текстовая оптимизация ключевых зон документа (Title, URL, текст) остается фундаментом успешного SEO.

Практические примеры

Сценарий: Оптимизация Title для интернет-магазина

Запрос: «купить красный холодильник Bosch»

Анализ системы (на основе патента):

Система извлечет из индекса позиции слов «купить», «красный», «холодильник», «Bosch» в Title разных документов (Запросо-независимые данные).
Система рассчитает запросо-зависимый признак (групповое вхождение) — насколько близко эти слова расположены и сколько раз они встречаются вместе.

Примеры Title:

Плохой Title: «Холодильники Bosch в наличии. Купить технику красного цвета недорого.»
Результат: Слова разнесены, групповое вхождение слабое, расстояние большое.
Хороший Title: «Купить красный холодильник Bosch: цены и отзывы в Москве.»
Результат: Все слова рядом, групповое вхождение сильное, расстояние минимальное. Этот вариант получит преимущество по данному признаку.

Вопросы и ответы

В чем разница между запросо-независимыми данными и запросо-зависимым признаком?

Запросо-независимые данные — это информация, сохраненная в индексе заранее (офлайн). Например, это знание о том, что слово «холодильник» находится на 5-й и 25-й позиции в документе. Запросо-зависимый признак рассчитывается в момент поиска (онлайн). Например, если запрос «красный холодильник», система использует сохраненные позиции слов «красный» и «холодильник», чтобы вычислить расстояние между ними. Это расстояние и будет запросо-зависимым признаком (групповым вхождением).

Означает ли этот патент, что Яндекс использует только классические методы ранжирования, а не нейросети?

Нет, не означает. Патент явно указывает (п. 2 и п. 6), что описанный метод генерации признаков используется как Алгоритмами Машинного Обучения на основе деревьев решений (например, CatBoost), так и Нейронными сетями (например, YATI). Патент описывает, как эффективно подавать сигналы текстовой релевантности (например, близость слов) на вход этим современным моделям.

Как именно нейросеть использует эти данные о вхождениях?

Согласно п. 3, нейронная сеть использует гибридный подход. На вход ей подаются два типа данных: 1) Вложения термов (Term Embeddings), которые несут семантический смысл слов, и 2) Векторы признаков, основанные на точных данных о вхождении и позициях слов (запросо-независимые данные). Нейросеть учится комбинировать семантику и точное соответствие для определения релевантности.

Какие части страницы анализируются для определения «группового вхождения»?

Патент (п. 9 и 10) четко определяет три основные зоны, которые анализируются для расчета как индивидуальных, так и групповых вхождений: Заголовок (Title), URL документа и Тело документа (Body). Оптимизация всех трех зон критически важна для достижения высокой текстовой релевантности.

Как этот механизм влияет на ранжирование по длинным (long-tail) запросам?

Для длинных запросов этот механизм особенно важен. Чем больше слов в запросе, тем важнее становится их взаимное расположение и близость в документе для подтверждения релевантности. Документы, которые содержат все слова длинного запроса близко друг к другу (сильное групповое вхождение), получат значительное преимущество.

Связан ли этот патент с алгоритмом BM25?

Да, косвенно связан. BM25 и его вариации могут использовать данные о близости (proximity) для расчета релевантности. Патент описывает эффективный инфраструктурный механизм для извлечения и расчета этих базовых компонентов (позиций слов и расстояний между ними), которые затем могут использоваться в формулах типа BM25 или, что более вероятно, как отдельные признаки в моделях машинного обучения (MLA/NN).

Что подразумевается под «подобным термом» (п. 7) и как это использовать?

«Подобный терм» — это синоним, семантически связанное слово или QBST фраза. Это означает, что Яндекс рассчитывает близость не только для точных слов запроса, но и для их вариантов. Для SEO это подчеркивает важность использования разнообразной лексики и синонимов в тексте, чтобы покрыть различные комбинации групповых вхождений.

Описывает ли этот патент новый фактор ранжирования?

Нет, он не вводит принципиально новый фактор. Близость слов (Term Proximity) и совместное вхождение в ключевые зоны (Title, URL) давно известны как сильные сигналы релевантности. Ценность патента в описании эффективного инженерного метода, который позволяет Яндексу быстро рассчитывать эти известные факторы в реальном времени для миллиардов документов.

Какова роль инвертированного индекса в этом патенте?

Инвертированный индекс играет ключевую роль хранилища запросо-независимых данных. Вместо того чтобы хранить только информацию о том, в каких документах встречается слово, Яндекс хранит в нем более детальную информацию, такую как точные позиции слова в разных зонах документа. Это позволяет значительно ускорить расчет признаков на этапе ранжирования.

Как практически применить знание о групповом вхождении при оптимизации текста?

Основное применение — это обеспечение того, чтобы ключевые фразы присутствовали в тексте в естественном виде и слова, входящие в них, находились рядом. Особое внимание следует уделить первому абзацу, заголовкам H1-H3, а также Title и URL. Если вы оптимизируете страницу под запрос «курсы SEO для начинающих», убедитесь, что эта фраза встречается в тексте именно в такой или очень близкой форме, а не разбросана по разным предложениям.