Как Яндекс автоматически строит тезаурус, анализируя контекст и совместную встречаемость слов для расширения запросов

Яндекс автоматически создает тезаурус, анализируя контекст использования слов и фраз в большом корпусе текстов. Система определяет семантические связи (синонимы, антонимы, гиперонимы, ассоциации), сравнивая, насколько похожи контексты разных слов и как часто они встречаются вместе в одном предложении. Этот тезаурус используется для расширения поисковых запросов и улучшения релевантности выдачи.

Описание

Какую задачу решает

Патент решает проблему высокой стоимости, временных затрат и языковых ограничений, связанных с ручным созданием тезаурусов. Автоматизация этого процесса позволяет поисковой системе лучше понимать семантические связи между словами и фразами. Это критически важно для решения проблемы «словарного несоответствия» (vocabulary mismatch) — ситуации, когда пользователи используют термины, отличные от тех, которые содержатся в релевантных документах (например, поиск по запросу «японский гастропаб» может найти документы с термином «изакая»).

Что запатентовано

Запатентован способ и система для автоматического создания цифрового тезауруса (Digital Thesaurus). Суть изобретения заключается в применении принципов дистрибутивной семантики: система определяет семантические отношения между лексическими элементами (словами или фразами) на основе статистического анализа их контекстов (Contextual Similarity) и частоты их совместной встречаемости (Co-occurrence) в большом корпусе текстов.

Как это работает

Система анализирует цифровой текст и для каждого лексического элемента создает Контекстный параметр — профиль, отражающий, какие соседние элементы встречаются рядом с ним и с какой частотой. Затем система сравнивает Контекстные параметры двух разных элементов, вычисляя метрики Сходства (Similarity) и Включения (Inclusion). Также учитывается Параметр совместного вхождения — как часто эти два элемента встречаются в одном предложении. На основе комбинации этих метрик и эвристических правил определяется тип связи: синонимия, антонимия, гиперонимия (общее-частное) или ассоциация.

Актуальность для SEO

Высокая. Автоматическое построение баз знаний и тезаурусов является фундаментом современного семантического поиска. Принципы дистрибутивной семантики (слова с похожим значением встречаются в похожем окружении), заложенные в патенте, остаются актуальными. Хотя конкретные методы анализа контекста могли эволюционировать (например, в сторону нейросетевых эмбеддингов YATI), базовая логика автоматического выявления семантических отношений и их использования для расширения запросов крайне релевантна.

Важность для SEO

Влияние на SEO значительно (8/10). Хотя патент описывает инфраструктурный процесс (построение тезауруса), а не алгоритм ранжирования, его результат напрямую используется для расширения и модификации поисковых запросов. Понимание того, как именно Яндекс определяет синонимы, антонимы и иерархические связи, критически важно для построения семантической структуры сайта, стратегии контента и оптимизации под семантические кластеры и QBST фразы.

Детальный разбор

Термины и определения

Лексический элемент (Lexical Element)

Единица анализа. Может представлять собой отдельное слово или фразу (группу из двух или более слов), обладающую логическим значением (т.е. не являющуюся стоп-словом или служебной частью речи).

Контекстный параметр (Context Parameter)

Структура данных (например, разреженный вектор или таблица), создаваемая для лексического элемента. Содержит указание на все соседние элементы (N последовательных элементов) и частоту их совместного вхождения с данным лексическим элементом. По сути, это профиль контекста слова.

Параметр связи лексических элементов (Lexical Elements Relationship Parameter)

Выходной параметр системы, указывающий на тип семантической связи между двумя лексическими элементами.

Параметр совместного вхождения (Co-occurrence Parameter)

Метрика, указывающая на частоту, с которой два лексических элемента встречаются вместе в рамках одного предложения.

Параметр сходства (Similarity Parameter)

Метрика, указывающая на степень схожести между Контекстными параметрами двух лексических элементов. Может рассчитываться с использованием коэффициента Серенсена, корреляции Спирмана-Кендалла и др.

Параметр включения (Inclusion Parameter)

Метрика, указывающая на степень, в которой Контекстный параметр одного элемента является подмножеством Контекстного параметра другого элемента. Используется для определения иерархических связей.

Семантические отношения (Semantic Relationships)

Связи, которые система стремится определить:

Синонимия: Близкие по значению.
Антонимия: Противоположные по значению.
Гипероним-Гипоним: Отношения рода и вида (например, Рыба — Акула).
Холоним-Мероним: Отношения целого и части (например, Птица — Крыло).
Ассоциативная связь: Элементы пересекаются по значению, но не являются синонимами или иерархическими отношениями.

Ключевые утверждения (Анализ Claims)

Патент защищает метод автоматического построения тезауруса, основанный на анализе контекстов и совместной встречаемости.

Claim 1 (Независимый пункт): Описывает базовый процесс.

Получение цифрового текста.
Парсинг и определение лексических элементов (LE1 и LE2).
Создание Контекстных параметров (CP1 и CP2) путем анализа N соседних элементов и их частот для LE1 и LE2 соответственно.
Определение семантической связи между LE1 и LE2. Ключевой момент: связь определяется путем анализа (i) взаимосвязи между CP1 и CP2, И (ii) совместного вхождения записей LE1 и LE2 в тексте.
Сохранение связи в базу данных (тезаурус).

Claims 7, 8 (Зависимые пункты): Уточняют «анализ взаимосвязи» (шаг 4i).

Анализ взаимосвязи включает вычисление Параметра сходства (насколько контексты похожи) и Параметров включения (насколько контекст одного элемента включен в контекст другого, причем проверяются оба направления: CP1 в CP2 и CP2 в CP1).

Claims 9, 10 (Зависимые пункты): Описывают эвристическую логику определения типа связи на основе вычисленных метрик. Это ядро изобретения.

Логика определения неиерархических связей (Claim 9):

Условие: Оба Параметра включения низкие (ниже Порога 1). Это означает, что элементы не находятся в иерархических отношениях.

Если Параметр сходства высокий (выше порогов 2 и 4):
- И при этом Параметр совместного вхождения низкий (ниже Порога 3) → Синонимы. (Интерпретация: Они используются в одинаковых контекстах, но редко встречаются вместе в одном предложении).
- И при этом Параметр совместного вхождения высокий (выше Порога 5) → Антонимы. (Интерпретация: Они используются в одинаковых контекстах И часто встречаются вместе в одном предложении, вероятно, для противопоставления).
Если Параметр сходства низкий (ниже Порога 6) → Ассоциативная связь.

Логика определения иерархических связей (Claim 10):

Условие: Хотя бы один из Параметров включения высокий (выше порога).

Связь определяется как Гипероним-Гипоним. (Интерпретация: Контекст более узкого понятия (гипонима) является частью контекста более широкого понятия (гиперонима)).

Где и как применяется

Изобретение затрагивает офлайн-процессы построения баз знаний и онлайн-процессы обработки запросов.

INDEXING – Индексирование и извлечение признаков (Offline)
Основное применение патента — это офлайн-процесс. Система анализирует большой корпус текстов (например, проиндексированные веб-ресурсы) для построения Тезауруса (Базы данных семантических отношений). Этот процесс требует значительных вычислительных ресурсов и включает в себя глубокую лингвистическую обработку: парсинг, разметку частей речи (PoS tagging), лемматизацию и статистический анализ.

Входные данные: Цифровой текст (веб-корпус).
Выходные данные: Цифровой тезаурус.

QUERY PROCESSING – Понимание Запросов (Online)
Результат работы алгоритма — созданный Тезаурус — используется на этапе обработки запроса. Когда система получает запрос, она обращается к Тезаурусу для модификации или расширения запроса (Query Expansion/Modification). Это может включать добавление синонимов, замену термина на его гипероним для расширения поиска или использование ассоциативно связанных терминов.

На что влияет

Интерпретация запросов: Фундаментально влияет на то, как Яндекс понимает значение и объем запросов, идентифицируя связанные концепции, даже если они не упомянуты явно.
Решение проблемы словарного несоответствия: Помогает находить релевантные документы, даже если они не содержат точных слов запроса, путем мэппинга терминов пользователя на синонимы или гиперонимы, присутствующие в индексе.
Все типы контента и запросов: Механизм является общим и применим ко всем тематикам и типам запросов, так как он строит базовое понимание языка.

Когда применяется

Построение Тезауруса: Это офлайн-процесс, который выполняется непрерывно или периодически по мере обновления текстового корпуса.
Использование Тезауруса: Это онлайн-процесс, который активируется во время обработки поискового запроса, когда система определяет необходимость в его расширении или уточнении.

Пошаговый алгоритм

Процесс автоматического создания тезауруса.

Получение данных: Система получает указание на корпус цифрового текста.
Предварительная обработка текста: Текст разделяется на предложения (парсинг). Выполняется лингвистический анализ: присваивание грамматических типов (PoS tagging) и лемматизация.
Идентификация Лексических элементов (LE): Выделение значимых слов и фраз (обладающих «логическим значением»).
Идентификация контекста: Для каждого вхождения LE определяются N последовательных соседних элементов (окно контекста). Окно может быть ограничено границами предложения и отфильтровано (например, исключая стоп-слова).
Создание Контекстного параметра (CP): Агрегация контекстов для каждого LE. Создается CP — список всех соседних элементов и частот их совместного вхождения.
Анализ отношений (Вычисления): Для пар Лексических элементов (LE1 и LE2) вычисляются:
- Параметр совместного вхождения (C): Частота появления LE1 и LE2 в одном предложении.
- Параметр сходства (S): Сходство между CP1 и CP2.
- Параметры включения (I1, I2): Включение CP1 в CP2 и CP2 в CP1.
Классификация отношений (Применение правил): Применение эвристических правил и пороговых значений к метрикам S, I1, I2, C:
- Проверка иерархии: Если I1 или I2 > Порога → Гипероним/Гипоним.
- Проверка неиерархических связей: Если I1 и I2 < Порога:
  - Если S высокое И C низкое → Синоним.
  - Если S высокое И C высокое → Антоним.
  - Если S среднее/низкое → Ассоциативная связь или Не связаны.
Сохранение: Запись идентифицированных отношений в Тезаурус (Базу данных семантических отношений).

Какие данные и как использует

Данные на входе

Контентные факторы: Основной источник данных — это сырой текст из корпуса документов. Система полностью полагается на статистическое распределение слов и фраз внутри этого текста.
Структурные факторы: Границы предложений критически важны для парсинга и определения области действия совместного вхождения и окон контекста.
Лингвистические данные (производные): Грамматические типы (Части речи/PoS tags) используются для идентификации лексических элементов и фильтрации контекста. Леммы используются для нормализации словоформ.

Какие метрики используются и как они считаются

Частотные характеристики: Являются основой для расчета Контекстных параметров и Параметра совместного вхождения.
Метрики сходства: Используются для расчета Параметра сходства. В патенте упоминаются примеры: коэффициент Серенсена (для оценки пересечения элементов) и коэффициент корреляции Спирмана-Кендалла (для корреляции частот).
Метрики включения: Используются для расчета Параметра включения (пересечение элементов контекста относительно общего объема контекста).
Эвристические пороги: Система критически зависит от множества предопределенных или эмпирически установленных пороговых значений (Thresholds), которые используются в правилах классификации отношений на основе рассчитанных метрик.

Выводы

Основа на дистрибутивной семантике: Яндекс использует статистический анализ контекстов для автоматического построения базы знаний о семантических связях. Принцип заключается в том, что элементы, встречающиеся в похожих контекстах, имеют схожее значение.
Комплексная классификация отношений: Система не просто ищет синонимы, а классифицирует широкий спектр отношений (синонимия, антонимия, иерархия, ассоциация), используя комбинацию метрик Сходства, Включения и Совместного вхождения.
Ключевое различие между синонимами и антонимами: Критически важный инсайт: синонимы и антонимы имеют схожие контексты (высокое Сходство), но синонимы редко встречаются вместе в одном предложении (низкое Совместное вхождение), тогда как антонимы — часто (высокое Совместное вхождение).
Иерархия определяется через включение контекстов: Если контекст слова А почти полностью включен в контекст слова Б, система определяет иерархическую связь (гипероним-гипоним). Более узкое понятие наследует контекст более широкого.
Цель — расширение запросов: Конечной целью создания этого тезауруса является его использование для модификации и расширения поисковых запросов с целью повышения релевантности результатов поиска.

Практика

Best practices (это мы делаем)

Обеспечение четкого и последовательного контекста: Используйте термины последовательно в рамках специфических контекстов. Это помогает системе сформировать точный Контекстный параметр для термина и правильно определить его семантические связи. Избегайте двусмысленности. Использование правильных QBST фраз и тематического окружения формирует точный контекст.
Развитие семантических кластеров и Topical Authority: Создавайте контент, который всесторонне раскрывает тему. Естественное включение связанных терминов (гипонимов, синонимов, ассоциативных концепций) в текст помогает укрепить эти связи в тезаурусе Яндекса и гарантирует релевантность контента при расширении запросов.
Структурирование контента для демонстрации иерархии: При создании контента четко выстраивайте иерархию понятий. Если вы пишете о конкретном виде (гипониме, например, «Кроссовки для марафона»), убедитесь, что контекст включает элементы, характерные для более общего понятия (гиперонима, например, «Беговые кроссовки»). Это помогает системе установить правильную иерархическую связь через Параметр включения.
Использование естественных языковых структур: Система полагается на лингвистический анализ (парсинг предложений, лемматизацию). Хорошо структурированные, грамматически правильные предложения облегчают точную обработку текста.

Worst practices (это делать не надо)

Keyword Stuffing и неестественные контексты: Размещение ключевых слов случайным образом или в неестественных лингвистических окружениях создает шумные Контекстные параметры. Это затрудняет системе определение истинного значения терминов и их взаимосвязей.
Использование терминов в неоднозначных контекстах: Если термин используется в разных значениях без достаточного дифференцирующего контекста, это может запутать систему при извлечении отношений и снизить релевантность контента.
Форсированное совместное употребление синонимов: Попытки частого использования близких синонимов в одном предложении может привести к повышению Параметра совместного вхождения, что может быть интерпретировано как антонимия или ассоциация, а не синонимия.

Стратегическое значение

Патент подтверждает стратегический приоритет Яндекса на семантический поиск. Способность автоматически определять синонимы, гиперонимы и ассоциации означает, что оптимизация должна фокусироваться на концепциях и сущностях, а не только на точном вхождении ключевых слов. Это подчеркивает важность построения авторитетности в рамках широкой темы, так как качественный контент служит источником для обучения этой системы.

Практические примеры

Сценарий 1: Идентификация синонимов для Query Expansion

Задача: Оптимизировать сайт ресторана под запрос «Японский гастропаб», зная, что пользователи также ищут «Изакая».
Действие SEO-специалиста: Создать контент, где термины «Изакая» и «Японский гастропаб» используются в схожих контекстах. Контекстное окружение должно включать слова: «меню», «сакэ», «пиво», «закуски», «атмосфера».
Работа системы: Яндекс анализирует корпус. Он видит, что Контекстные параметры для обоих терминов очень похожи (Высокий Параметр сходства). При этом он видит, что эти два термина редко встречаются в одном предложении (Низкий Параметр совместного вхождения). Система классифицирует их как синонимы.
Результат: При запросе «Японский гастропаб» Яндекс расширяет запрос, включая «Изакая», и повышает релевантность оптимизированных страниц.

Сценарий 2: Установление иерархии (Гипероним-Гипоним)

Задача: Улучшить ранжирование страницы о Смартфонах Samsung в общей категории Смартфонов.
Действие SEO-специалиста: На странице «Смартфоны Samsung» использовать контекст, который включает как общие термины («батарея», «экран», «ОС», «купить»), так и специфичные («Android», «AMOLED», «Exynos», «Galaxy»).
Работа системы: Яндекс сравнивает Контекстный параметр (CP1) для «Смартфон Samsung» и Контекстный параметр (CP2) для «Смартфон». Он видит, что CP1 в значительной степени включен в CP2 (Высокий Параметр включения), так как все, что говорят о Samsung, говорят и о смартфонах в целом, но не наоборот.
Результат: Система устанавливает связь Гипероним-Гипоним. Это помогает Яндексу лучше классифицировать страницу и понимать структуру каталога, улучшая ранжирование по общим и специфическим запросам.

Вопросы и ответы

В чем заключается основной принцип работы этого патента?

Основной принцип — это дистрибутивная семантика. Он гласит, что лексические элементы (слова или фразы), встречающиеся в похожих контекстах (окружении), имеют схожее значение. Система автоматически анализирует огромные объемы текста, сравнивает контексты употребления разных элементов и на основе этого статистического анализа строит тезаурус семантических отношений.

Как именно система отличает синонимы от антонимов, если их контексты похожи?

Это ключевой момент патента. И синонимы, и антонимы имеют высокий Параметр сходства контекстов. Ключевое различие заключается в Параметре совместного вхождения в одном предложении. Если элементы редко встречаются вместе (низкая совместная встречаемость), они классифицируются как синонимы. Если они часто встречаются вместе, например, для противопоставления (высокая совместная встречаемость), они классифицируются как антонимы.

Что такое «Контекстный параметр» и почему он важен для SEO?

Контекстный параметр — это профиль слова, представляющий собой список всех слов, которые встречаются рядом с ним в текстах, и частоту их употребления. Для SEO это важно, потому что именно этот параметр определяет, как Яндекс понимает значение слова на вашей странице. Использование правильных QBST фраз и тематического окружения формирует точный Контекстный параметр.

Как определяются иерархические отношения (например, Автомобиль > Форд)?

Иерархия определяется с помощью Параметра включения. Если система видит, что контекст слова «Форд» в значительной степени включен (является подмножеством) контекста слова «Автомобиль», она устанавливает связь гипероним-гипоним. Это означает, что «Форд» часто встречается там же, где и «Автомобиль», но «Автомобиль» имеет более широкий контекст.

Использует ли этот патент нейросети, такие как BERT или YATI?

Нет, в патенте описаны более классические статистические методы, основанные на анализе совместной встречаемости и применении правил (например, коэффициенты Серенсена, Спирмана-Кендалла). Это отличается от современных нейросетевых методов, использующих плотные векторные представления (эмбеддинги), но базовые принципы дистрибутивной семантики схожи.

Как этот тезаурус используется в поиске на практике?

Тезаурус используется на этапе обработки запроса (Query Processing) для его модификации и расширения. Яндекс может автоматически расширять запрос синонимами для увеличения полноты выдачи, использовать гиперонимы для поиска по более широкой теме или использовать ассоциативные связи для нахождения косвенно релевантного контента.

Насколько важна грамматика и качество текста для работы этого алгоритма?

Критически важна. Алгоритм начинается с парсинга текста, определения грамматических типов (частей речи) и лемматизации. Эти лингвистические данные используются для идентификации значимых лексических элементов и фильтрации контекстного окружения. Грамотный текст с четкой структурой предложений позволяет системе более точно определить контекст и семантические связи.

Что такое «Лексический элемент»? Это всегда одно слово?

Нет, лексический элемент может быть как словом, так и фразой (группой из двух или более слов). Патент описывает механизмы идентификации значимых фраз (например, «деревянный стул») как отдельных единиц анализа, что важно для точного понимания смысла текста.

Стоит ли мне часто использовать синонимы в одном предложении?

Согласно логике патента, этого делать не стоит, если вы хотите подчеркнуть именно синонимичность. Низкая совместная встречаемость в предложении при высоком сходстве общих контекстов является сигналом синонимии. Частое употребление вместе может быть интерпретировано как ассоциативная связь или даже антонимия. Используйте синонимы естественно в разных частях текста.

Каков риск для SEO, если контент на сайте плохо структурирован или переоптимизирован?

Плохая структура затрудняет парсинг и лингвистический анализ. Переоптимизация (keyword stuffing) создает неестественные, шумные Контекстные параметры. В результате система может некорректно определить семантические связи или вообще не установить их, что приведет к потере релевантности для расширенных запросов (синонимов, связанных поисков).