Как Яндекс автоматически строит тезаурус, анализируя контекст и совместную встречаемость слов и фраз

Яндекс патентует метод автоматического создания тезауруса (базы синонимов, антонимов, гиперонимов и ассоциаций) путем анализа больших массивов текста. Система определяет семантическую связь между словами или фразами, сравнивая контекст, в котором они используются (Similarity и Inclusion), и частоту их появления в одном предложении (Co-occurrence). Это позволяет поисковой системе лучше понимать язык и расширять запросы пользователей.

Описание

Какую задачу решает

Патент решает фундаментальную проблему информационного поиска — «словарный разрыв» между терминами, которые использует пользователь в запросе, и терминами в релевантных документах. Например, пользователь ищет «Японский гастропаб», тогда как релевантные страницы используют термин «идзакая». Создание тезаурусов вручную дорого и медленно. Изобретение автоматизирует процесс построения семантических связей для улучшения понимания и расширения поисковых запросов.

Что запатентовано

Запатентован метод и система для автоматического генерирования цифрового тезауруса на основе анализа большого корпуса текстов. Суть изобретения заключается в использовании дистрибутивной семантики (анализа контекста использования слов) в сочетании с анализом совместной встречаемости слов в предложении для определения типа семантической связи между лексическими единицами (словами или фразами). Система классифицирует связи как синонимические, антонимические, иерархические (гипероним-гипоним, холоним-мероним) или ассоциативные.

Как это работает

Система анализирует цифровой текст и идентифицирует лексические единицы. Для каждой единицы генерируется параметр контекста (Context Parameter) — профиль, содержащий окружающие слова и частоту их совместного использования. Затем система сравнивает параметры контекста двух единиц, вычисляя их схожесть (Similarity Parameter) и включенность (Inclusion Parameter). Также вычисляется параметр совместной встречаемости (Co-occurrence Parameter) — как часто обе единицы появляются в одном предложении. Тип семантической связи определяется на основе пороговых значений этих трех метрик. Например, высокая схожесть контекста при низкой совместной встречаемости указывает на синонимию.

Актуальность для SEO

Высокая. Автоматическое построение баз знаний и тезаурусов является критически важным компонентом современных поисковых систем. Принципы дистрибутивной семантики, описанные в патенте, лежат в основе многих NLP-технологий, используемых для понимания естественного языка и улучшения релевантности поиска, даже если конкретные реализации смещаются в сторону нейросетевых моделей.

Важность для SEO

Влияние на SEO значительно (7.5/10). Хотя патент описывает офлайн-процесс создания ресурса (тезауруса), а не алгоритм ранжирования, этот ресурс напрямую используется для понимания и расширения запросов (Query Processing). Патент раскрывает, как именно Яндекс определяет значение слова и его связь с другими терминами. Это подчеркивает критическую важность контекста, в котором используются ключевые слова на странице, и необходимость построения четкой семантической структуры контента.

Детальный разбор

Термины и определения

Context Parameter (Параметр контекста): Профиль лексической единицы. Включает список смежных последовательных единиц (n-number of sequential units) и частоту их совместной встречаемости с анализируемой лексической единицей в корпусе текстов.
Co-occurrence Parameter (Параметр совместной встречаемости): Метрика, указывающая на частоту, с которой две лексические единицы появляются вместе в пределах одного предложения.
Inclusion Parameter (Параметр включенности): Метрика, указывающая, в какой степени контекст одной лексической единицы включает в себя контекст другой. Используется для определения иерархических связей (например, гипероним-гипоним).
Interrelation Analysis (Анализ взаимосвязи): Процесс сравнения параметров контекста двух лексических единиц. Включает расчет параметров схожести и включенности.
Lexical Unit (Лексическая единица): Слово или фраза (устойчивое словосочетание), являющаяся элементом анализа.
Logical Meaning (Логическое значение): Семантика, передаваемая значимыми частями речи (глаголы, существительные, прилагательные), в отличие от служебных слов (предлоги, артикли). Используется для фильтрации шума при идентификации фраз и анализе контекста.
N-number of sequential units (N-число последовательных единиц): Слова или фразы, непосредственно предшествующие и/или следующие за лексической единицей в тексте. Формируют локальный контекст.
Semantic Link (Семантическая связь): Отношение между лексическими единицами. Включает неиерархические (Синонимия, Антонимия, Ассоциативная связь) и иерархические (Гипероним-Гипоним, Холоним-Мероним) связи.
Similarity Parameter (Параметр схожести): Метрика, указывающая, насколько похожи контексты (Context Parameters) двух лексических единиц.

Ключевые утверждения (Анализ Claims)

Патент защищает метод автоматического построения тезауруса, основанный на комбинации дистрибутивного анализа и анализа совместной встречаемости.

Claim 1 (Независимый пункт): Описывает основной процесс.

Система получает цифровой текст.
Текст парсится, определяются первая и вторая лексические единицы.
Для каждой единицы генерируется Параметр Контекста (список смежных единиц и их частоты).
Определяется Параметр Отношения Лексических Единиц (семантическая связь).
Критически важно: Определение связи основано на комбинации (i) Анализа Взаимосвязи (Interrelation Analysis) Параметров Контекста И (ii) Анализа Совместной Встречаемости (Analysis of Entry Co-occurrence) самих лексических единиц в тексте.
Результат сохраняется в базе данных семантических отношений (Тезаурусе).

Claim 7, 8 (Зависимые пункты): Детализируют Анализ Взаимосвязи. Он включает определение Параметра Схожести (Similarity Parameter) между контекстами (Claim 7) и Параметров Включенности (Inclusion Parameter) — включенность первого контекста во второй и наоборот (Claim 8).

Claim 6 (Зависимый пункт): Детализирует Анализ Совместной Встречаемости. Он включает определение частоты, с которой обе единицы встречаются в одном и том же предложении (Co-occurrence Parameter).

Claim 9, 10 (Зависимые пункты): Описывают логику классификации связей на основе вычисленных параметров и пороговых значений (Thresholds).

Логика для Иерархических связей (Claim 10): Связь является Гипероним-Гипоним, если один из Параметров Включенности выше порога.

Логика для Неиерархических связей (Claim 9): Если оба Параметра Включенности ниже первого порога (т.е. иерархии нет):

Связь является Синонимической, если Параметр Схожести высок (выше второго порога), А Параметр Совместной Встречаемости низок (ниже третьего порога).
Связь является Антонимической (Примечание: в тексте Claim 9 допущена опечатка, но логика патента и описание FIG 9A указывают на Antonymous), если Параметр Схожести высок (выше четвертого порога), И Параметр Совместной Встречаемости высок (выше пятого порога).
Связь является Ассоциативной, если Параметр Схожести средний (ниже шестого порога).

Где и как применяется

Изобретение описывает преимущественно офлайн-процесс построения базы знаний (тезауруса), которая затем используется онлайн-компонентами поиска.

CRAWLING & INDEXING (Офлайн)
Основная работа алгоритма происходит на этапе обработки проиндексированных данных.

Сбор данных: Система использует большой корпус цифровых текстов (например, проиндексированные веб-ресурсы) в качестве входных данных.
Извлечение признаков и Построение Базы Знаний: Модуль обработки текста анализирует этот корпус, вычисляет параметры контекста, схожести, включенности и совместной встречаемости для миллионов лексических единиц.
Выход: Semantic Relationship Database — цифровой тезаурус, хранящий информацию о семантических связях.

QUERY PROCESSING – Понимание Запросов (Онлайн)
Сгенерированный тезаурус используется на этапе обработки запроса пользователя.

Расширение запроса (Query Expansion/Modification): Система обращается к тезаурусу для идентификации синонимов, связанных терминов или гиперонимов/гипонимов для слов в запросе. Это позволяет найти документы, которые используют альтернативные термины (например, найти «идзакая» по запросу «японский гастропаб»).

RANKING – Ранжирование (Онлайн)
Расширенный или модифицированный запрос используется на этапах ранжирования для оценки релевантности документов, которые могут не содержать точных терминов исходного запроса.

На что влияет

Все типы контента и запросов: Алгоритм влияет на фундаментальное понимание языка поисковой системой, поэтому его влияние универсально для всех тематик и типов контента.
Обработка синонимии и вариативности: Особенно сильно влияет на запросы, где существует несколько способов выразить один и тот же интент.
Понимание структуры тем: Механизм идентификации иерархий (гипероним/гипоним) влияет на то, как Яндекс понимает структуру тем и определяет авторитетность ресурсов в широких или узких нишах (Topical Authority).

Когда применяется

Офлайн-процесс: Алгоритм построения тезауруса применяется периодически или непрерывно по мере обновления корпуса текстов (индекса).
Онлайн-процесс: Созданный тезаурус используется при обработке большинства поисковых запросов, требующих семантической интерпретации или расширения.

Пошаговый алгоритм

Процесс автоматического генерирования тезауруса.

Сбор и Подготовка Данных: Получение большого корпуса цифровых текстов. Парсинг текста на предложения.
Идентификация Лексических Единиц (LU):
- Токенизация, лемматизация и назначение грамматических типов (частей речи) словам.
- Идентификация значимых слов и фраз. Фразы определяются на основе частоты повторения и наличия слов с «логическим значением» (например, существительных, глаголов), исключая служебные слова.
Генерация Параметров Контекста (CP): Для каждой лексической единицы (например, LU А):
- Для каждого ее вхождения в текст определяются N смежных единиц (контекст). Контекст может быть ограничен пределами предложения и фильтроваться по грамматическому типу.
- Создается Параметр Контекста А: агрегированный список всех смежных единиц и частота их совместного использования с LU А.
Анализ Взаимосвязи (Interrelation Analysis): Для пары лексических единиц (А и Б):
- Расчет Параметра Схожести (SP): Сравнение Параметров Контекста А и Б (например, с использованием коэффициента Дайса или корреляции Спирмена).
- Расчет Параметров Включенности (IP): Определение степени включенности Контекста А в Б и Контекста Б в А.
Анализ Совместной Встречаемости (Co-occurrence Analysis):
- Расчет Параметра Совместной Встречаемости (CoP): Как часто Единица А и Единица Б встречаются в одном предложении.
Классификация Семантической Связи: Применение пороговых значений (Thresholds) к вычисленным параметрам.
- Шаг 1: Иерархия vs Нет. Если IP (А в Б или Б в А) высок —> Иерархическая связь (Гипероним/Гипоним или Холоним/Мероним). Если низок —> Шаг 2.
- Шаг 2: Неиерархическая связь.
  - Если SP низкий —> Нет связи.
  - Если SP средний —> Ассоциативная связь.
  - Если SP высокий:
    - И CoP низкий —> Синонимы.
    - И CoP высокий —> Антонимы.
Сохранение: Запись лексических единиц и типа их связи в Семантическую Базу Данных (Тезаурус).

Какие данные и как использует

Данные на входе

Контентные факторы: Основные данные. Используется чистый текст из большого корпуса документов (Digital Text). Анализируется порядок слов, частота слов и фраз.
Структурные факторы: Границы предложений критически важны для определения контекста и расчета Параметра Совместной Встречаемости. Также используются грамматические типы (части речи) для идентификации значимых лексических единиц и фильтрации контекстных слов (исключение предлогов, союзов и т.д.).

Какие метрики используются и как они считаются

Система использует несколько ключевых статистических метрик:

Частота совместной встречаемости (в Контексте): Подсчет количества раз, когда Единица X появляется в непосредственной близости (N слов) от Единицы А. Является основой Параметра Контекста.
Параметр Схожести (Similarity Parameter): Рассчитывается путем сравнения векторов Параметров Контекста. В патенте упоминаются методы, которые могут быть использованы:
- Sorensen-Dice coefficient (Коэффициент Серенсена-Дайса): Для сравнения схожести наборов смежных единиц.
- Spearman-Kendall rank correlation coefficient (Коэффициент ранговой корреляции Спирмена-Кендалла): Для сравнения схожести частотных распределений в контекстах.
Параметр Включенности (Inclusion Parameter): Рассчитывается путем определения того, какая часть набора смежных единиц одного контекста включена в набор другого.
Параметр Совместной Встречаемости (Co-occurrence Parameter): Частота появления двух анализируемых единиц в пределах одного предложения.
Пороги (Thresholds): Эмпирически определяемые значения, которые используются на этапе классификации для принятия решения о типе семантической связи на основе вычисленных метрик.

Выводы

Контекст определяет значение: Патент подтверждает использование Яндексом принципов дистрибутивной семантики: значение слова определяется его окружением (N смежных единиц). Контекст является основным источником данных для построения тезауруса.
Комплексный подход к определению связей: Ключевая особенность — использование не только схожести контекстов (Similarity), но и двух дополнительных измерений: Включенности контекстов (Inclusion) для иерархий и Совместной встречаемости в предложении (Co-occurrence) для различения типов неиерархических связей.
Четкая логика различения синонимов и антонимов: Система использует конкретную эвристику: и синонимы, и антонимы имеют высокую схожесть контекстов. Однако синонимы редко встречаются в одном предложении (низкий Co-occurrence), тогда как антонимы часто используются вместе для контраста (высокий Co-occurrence).
Идентификация иерархий (Топиков/Подтопиков): Иерархические отношения (Гипероним-Гипоним) определяются через включенность контекстов. Если контекст слова Б (гипоним) является подмножеством контекста слова А (гипероним), это указывает на иерархию.
Инфраструктура для Query Understanding: Этот тезаурус является фундаментальным компонентом, позволяющим Яндексу расширять запросы и лучше понимать интент пользователя, выходя за рамки точного совпадения ключевых слов.

Практика

Best practices (это мы делаем)

Обеспечивайте богатый и консистентный контекст: То, как Яндекс интерпретирует ваши ключевые термины, напрямую зависит от слов, которые вы используете вокруг них. Используйте термины в четких, недвусмысленных и тематически релевантных лингвистических окружениях. Консистентность контекста помогает системе сформировать точный Context Parameter.
Структурируйте контент иерархически (Топики и Подтопики): Поскольку система идентифицирует гиперонимы и гипонимы через Inclusion Parameter, важно создавать контент, который отражает эту иерархию. Страницы подтопиков должны иметь специфичный контекст, который естественно вписывается в более широкий контекст страниц топиков. Это укрепляет Topical Authority.
Используйте естественные синонимы и QBST фразы: Включайте в текст синонимы и ассоциативно связанные слова. Это обогащает контекст и помогает системе установить правильные семантические связи. Используйте их взаимозаменяемо в разных предложениях, а не списком в одном.
Используйте контрасты для определения понятий: Механизм определения антонимов предполагает, что частое использование контрастных понятий в одном предложении (например, «В отличие от X, Y обладает свойством Z») помогает системе понять границы и противоположности терминов.

Worst practices (это делать не надо)

Перечисление синонимов в одном предложении: Избегайте конструкций вида «Мы предлагаем SEO-продвижение (поисковую оптимизацию) сайтов». Это увеличивает Co-occurrence Parameter, что противоречит логике определения синонимов (которые должны иметь низкую совместную встречаемость) и может привести к неверной классификации.
Keyword Stuffing и неестественное окружение: Искусственное насыщение текста ключами создает шумный, размытый Параметр Контекста. Это ухудшает способность системы правильно интерпретировать значение термина.
Тонкий контент (Thin Content): Страницы с малым количеством текста не предоставляют достаточного контекста для надежного анализа дистрибутивной схожести.
Игнорирование структуры предложений: Поскольку границы предложений используются для расчета Co-occurrence Parameter и могут ограничивать контекст, небрежная пунктуация или слишком сложные предложения могут негативно повлиять на анализ.

Стратегическое значение

Этот патент подчеркивает стратегическую важность качества и структуры контента для базовых NLP-процессов Яндекса. Он демонстрирует, что семантическое понимание строится на статистическом анализе реального использования языка. Для SEO это означает, что долгосрочная стратегия должна фокусироваться на создании экспертного контента с четкой семантической структурой и естественным использованием терминологии. Контекст — это измеримый параметр (Context Parameter), который Яндекс использует для понимания вашего сайта.

Практические примеры

Сценарий 1: Определение синонимов (Высокая Схожесть, Низкая Совместная Встречаемость)

Термины: «Гастропаб» и «Идзакая».
Анализ Контекста: Система анализирует корпус текстов и видит, что оба термина окружены схожими словами: «японский», «пиво», «закуски», «бронировать столик». Параметр Схожести высокий.
Анализ Совместной Встречаемости: Система замечает, что редко можно встретить предложение типа «Мы пошли в идзакая гастропаб». Параметр Совместной Встречаемости низкий.
Результат: Система классифицирует их как синонимы.
SEO-действие: При оптимизации страницы ресторана убедитесь, что вы используете целевой термин (например, «Идзакая») в окружении ожидаемых контекстных слов («закуски», «пиво», «бронировать»), чтобы Яндекс мог связать его с запросами, использующими синонимы.

Сценарий 2: Определение иерархии (Высокая Включенность)

Термины: «Смартфон» (А) и «iPhone» (Б).
Анализ Контекста: Контекст «Смартфона» включает «Android», «iOS», «камера». Контекст «iPhone» включает «iOS», «камера», «Apple».
Анализ Включенности: Система видит, что большинство контекстных слов «iPhone» также встречаются в контексте «Смартфона», но не наоборот (например, «Android» не входит в контекст «iPhone»). Параметр Включенности (Б в А) высокий.
Результат: Система классифицирует «Смартфон» как гипероним, а «iPhone» как гипоним.
SEO-действие: При создании обзорной страницы про iPhone убедитесь, что она содержит специфичный контекст (Apple, iOS), но также вписывается в более широкую категорию Смартфонов на сайте, подтверждая иерархию.

Вопросы и ответы

Что такое «Параметр Контекста» (Context Parameter) простыми словами?

Это статистический профиль того, как слово или фраза используется в языке. Он представляет собой список слов, которые чаще всего находятся рядом с анализируемым словом в большом корпусе текстов, и частоту их совместного использования. По сути, это вектор, отражающий ближайшее семантическое окружение слова.

Как система отличает синонимы от антонимов, если их контексты похожи?

Это ключевой момент патента. И синонимы, и антонимы имеют высокую схожесть контекстов (Similarity Parameter). Различие делается с помощью Параметра Совместной Встречаемости (Co-occurrence Parameter) — частоты появления в одном предложении. Синонимы взаимозаменяемы, поэтому редко используются вместе (низкий Co-occurrence). Антонимы часто используются вместе для контраста (высокий Co-occurrence), например: «Это не горячее, а холодное».

Стоит ли перечислять все синонимы через запятую в тексте, чтобы улучшить релевантность?

Нет, согласно логике этого патента, это плохая практика. Перечисление синонимов в одном предложении увеличивает параметр совместной встречаемости (Co-occurrence Parameter). Если он станет слишком высоким, система может не распознать эти слова как синонимы. Лучше использовать синонимы естественно, в разных предложениях или абзацах.

Что такое «Параметр Включенности» (Inclusion Parameter) и зачем он нужен?

Параметр Включенности определяет, является ли контекст одного слова подмножеством контекста другого слова. Он используется для выявления иерархических связей (гипероним-гипоним). Например, контекст слова «пудель» будет в значительной степени включен в контекст слова «собака», но не наоборот, так как «собака» имеет более широкое применение.

Патент описывает построение тезауруса. Как это влияет на ранжирование моего сайта?

Напрямую этот алгоритм не ранжирует сайты. Он создает ресурс (тезаурус), который затем используется системой на этапе Понимания Запроса (Query Understanding) для расширения и модификации запроса пользователя. Если благодаря этому тезаурусу Яндекс поймет, что ваш контент релевантен расширенному запросу (даже если вы не использовали точное слово из исходного запроса), ваши шансы на высокое ранжирование возрастут.

Использует ли этот алгоритм нейронные сети или эмбеддинги типа BERT/YATI?

Патент (подан в 2017) не упоминает конкретные нейросетевые архитектуры. Описанный метод основан на классической дистрибутивной семантике и статистическом анализе частот и совместной встречаемости (count-based methods). Хотя современные системы Яндекса используют более продвинутые векторные представления (YATI), базовые принципы, заложенные в этом патенте (анализ схожести, включенности и совместной встречаемости), остаются актуальными.

Влияет ли структура предложений на работу алгоритма?

Да, очень сильно. Границы предложений используются для расчета Параметра Совместной Встречаемости (Co-occurrence Parameter). Кроме того, в некоторых реализациях патента локальный контекст (N смежных слов) может быть ограничен пределами одного предложения. Четкая и правильная структура предложений облегчает системе анализ.

Как этот патент связан с построением Topical Authority?

Он напрямую связан через механизм определения иерархических связей (гипероним-гипоним) с помощью Параметра Включенности. Чтобы построить Topical Authority, ваш контент должен отражать естественную иерархию темы: от общих понятий к частным. Это позволяет системе увидеть, что ваш ресурс покрывает тему структурно, правильно идентифицируя связи между топиками и подтопиками.

Что такое слова с «логическим значением» (Logical Meaning) и почему они важны?

Это слова, несущие основную смысловую нагрузку (существительные, глаголы, прилагательные, наречия), в отличие от служебных слов (предлоги, союзы). Система фокусируется на них при идентификации фраз и анализе контекста, чтобы отфильтровать шум и сосредоточиться на семантически значимых элементах текста.

Что такое «Лексическая единица» (Lexical Unit) и важна ли она для SEO?

Лексическая единица — это базовый элемент анализа, который может быть как отдельным словом, так и фразой (словосочетанием). Это важно для SEO, поскольку система анализирует семантические связи не только между словами, но и между устоявшимися фразами (например, «поисковая оптимизация» рассматривается как единое целое). Это требует оптимизации контента под конкретные фразы.