Как Яндекс автоматически строит тезаурус для понимания семантических связей между словами (синонимы, антонимы, гиперонимы)

Яндекс автоматически создает тезаурус, анализируя большие объемы текста на основе дистрибутивной семантики. Система изучает контекст (соседние слова), в котором употребляются слова и фразы, и частоту их совместного появления в одном предложении. На основе анализа схожести и включения контекстов система определяет семантические связи: синонимы, антонимы, отношения род-вид (гиперонимы/гипонимы) и часть-целое (холонимы/меронимы). Этот тезаурус помогает поиску лучше понимать запросы и релевантность контента.

Описание

Какую задачу решает

Патент решает фундаментальную задачу обработки естественного языка (NLP) — автоматическое построение и обновление тезауруса (базы данных семантических отношений) в масштабах веба. Ручное создание такого ресурса невозможно. Автоматизированный тезаурус необходим поисковой системе для понимания взаимосвязей между концепциями (синонимия, иерархия, ассоциации), что критически важно для обеспечения релевантности поиска, понимания и расширения запросов пользователей.

Что запатентовано

Запатентована система автоматического создания цифрового тезауруса, основанная на принципах дистрибутивной семантики (Distributional Semantics). Суть изобретения заключается в анализе контекстов употребления лексических элементов (слов или фраз) в большом корпусе текстов. Система вычисляет параметры схожести и включения этих контекстов, а также анализирует частоту совместного вхождения элементов в одном предложении, чтобы классифицировать тип семантической связи между ними (например, синоним, гипероним, антоним).

Как это работает

Система анализирует корпус текстов и для каждого лексического элемента создает контекстный параметр — вектор, описывающий его типичное окружение (соседние слова и частоту их появления рядом). Затем система сравнивает эти параметры для пар элементов. Ключевым механизмом является комбинация анализа контекста и совместного вхождения. Например, синонимы имеют очень похожие контексты, но редко встречаются в одном предложении. Гиперонимы (например, «животное») имеют более широкий контекст, который включает в себя контекст гипонимов (например, «собака»). На основе этих метрик система классифицирует отношения и сохраняет их в тезаурус.

Актуальность для SEO

Высокая. Автоматическое построение семантических сетей, графов знаний и тезаурусов является фундаментом современных поисковых систем. Принципы дистрибутивной семантики, описанные в патенте, лежат в основе многих современных NLP-технологий, используемых для понимания естественного языка (NLU).

Важность для SEO

Влияние на SEO критическое (9/10). Хотя патент описывает не алгоритм ранжирования, а инфраструктуру для понимания языка, эта инфраструктура определяет, как Яндекс интерпретирует контент и запросы. Понимание того, как Яндекс строит свой тезаурус, подчеркивает важность семантического покрытия, использования естественного языка, QBST фраз и выстраивания четкой тематической иерархии контента. Система позволяет Яндексу оценивать релевантность за пределами точных ключевых слов.

Детальный разбор

Термины и определения

Лексический элемент (Lexical Element)

Единица анализа. Может представлять собой слово или фразу (группу из двух или более слов), определенные на основе грамматического типа.

Контекстный параметр (Contextual Parameter)

Векторное представление контекста лексического элемента. Включает указание на n-ное количество соседних (предшествующих и/или следующих) элементов и частоту их совместного вхождения с данным лексическим элементом в тексте.

Параметр связи лексических элементов (Lexical Elements Relationship Parameter)

Итоговая характеристика семантической связи между двумя или более лексическими элементами (например, указание на синонимию, гиперонимию и т.д.).

Параметр совместного вхождения (Co-occurrence Parameter)

Метрика, указывающая на частоту, с которой два лексических элемента содержатся в одном и том же предложении цифрового текста.

Параметр сходства (Similarity Parameter)

Метрика, указывающая на степень схожести между контекстными параметрами двух лексических элементов. Отражает, насколько похожи окружения, в которых используются эти элементы.

Параметр включения (Inclusion Parameter)

Метрика, указывающая на степень включения одного контекстного параметра в другой. Используется для определения иерархических отношений (гипероним-гипоним, холоним-мероним).

База данных семантических отношений (Semantic Relations Database)

Тезаурус. Хранилище, в котором сохраняются идентифицированные семантические связи между лексическими элементами.

Семантические отношения (определенные в патенте):

Синонимия: Элементы взаимозаменяемы (высокое сходство контекста, низкое совместное вхождение).
Антонимия: Элементы противоположны, но используются в схожих контекстах (высокое сходство контекста, высокое совместное вхождение).
Гипероним-Гипоним: Отношение род-вид (например, Животное-Собака). Один контекст включается в другой.
Холоним-Мероним: Отношение целое-часть (например, Автомобиль-Колесо). Определяется через анализ включения контекста одного элемента в контексты нескольких других, не схожих между собой элементов.
Ассоциативная связь: Общая связь при низком сходстве контекстов.

Ключевые утверждения (Анализ Claims)

Патент описывает метод автоматического построения тезауруса путем анализа статистических характеристик использования слов в тексте (дистрибутивная семантика).

Claim 1 (Независимый пункт): Описывает базовый процесс анализа.

Сервер получает цифровой текст.
Текст парсится, определяются первый (LE1) и второй (LE2) лексические элементы.
Для LE1 выбираются n соседних элементов. Создается первый контекстный параметр (CP1), включающий эти элементы и частоту их совместного вхождения с LE1.
Аналогично для LE2 создается второй контекстный параметр (CP2).
Определяется Параметр связи между LE1 и LE2. Это делается путем:
- Анализа взаимосвязи CP1 и CP2 (сходство, включение).
- Анализа совместного вхождения LE1 и LE2 в тексте.
Параметр связи сохраняется в базу данных (тезаурус).

Claim 4 (Зависимый пункт): Уточняет предобработку.

Перед определением частоты совместного вхождения производится лемматизация (приведение к начальной форме) лексических элементов и слов текста. Это позволяет учитывать разные формы одного и того же слова как единую сущность.

Claim 6 (Зависимый пункт): Уточняет анализ совместного вхождения.

Анализ совместного вхождения включает определение параметра совместного вхождения, который указывает на частоту появления LE1 и LE2 в одном и том же предложении.

Claim 8 (Зависимый пункт): Уточняет анализ контекстов.

Анализ взаимосвязи включает определение параметров включения: насколько CP1 включен в CP2, и насколько CP2 включен в CP1. Это ключевой момент для выявления иерархических связей.

Claim 20 (Зависимый пункт, в составе описания Сервера): Описывает логику принятия решений (классификации связей). Это самая важная часть патента для понимания алгоритма.

Условие 1: Параметры включения (CP1 в CP2 и CP2 в CP1) низкие (ниже первого порога). Это означает, что элементы не находятся в иерархических отношениях.

Синонимическое отношение: Если параметр сходства высокий (выше второго порога), А параметр совместного вхождения низкий (ниже третьего порога). (Логика: контексты похожи, но слова не используются вместе, так как они взаимозаменяемы).
Антонимическое отношение: Если параметр сходства высокий (выше четвертого порога), А параметр совместного вхождения высокий (выше пятого порога). (Логика: контексты похожи, но слова часто используются вместе для противопоставления, например, «горячий и холодный»).
Ассоциативная связь: Если параметр сходства низкий (ниже пятого порога).

Условие 2: Первый параметр включения (CP1 в CP2) высокий (выше первого порога).

Отношение гипероним-гипоним: Если параметр включения выше пятого порога. (Логика: контекст LE1 является подмножеством контекста LE2. Например, контекст «собака» включен в контекст «животное»).

Условие 3: Первый параметр включения (CP1 в CP2) и третий параметр включения (CP1 в CP3) высокие (выше шестого порога). (Здесь вводится третий лексический элемент LE3 и его контекст CP3).

Отношение холоним-мероним: Если второй параметр сходства (между CP2 и CP3) низкий (ниже седьмого порога). (Логика: LE1 является частью LE2 и LE3, но LE2 и LE3 не похожи друг на друга. Например, «колесо» (LE1) является частью «автомобиля» (LE2) и «велосипеда» (LE3), при этом контексты «автомобиля» и «велосипеда» различны).

Где и как применяется

Изобретение относится к этапам предварительной обработки данных и формированию семантической инфраструктуры поиска.

CRAWLING & INDEXING (Офлайн-процессы)
Основное применение патента происходит на этапе индексации и анализа собранного корпуса текстов. Это ресурсоемкий офлайн-процесс.

Лингвистический анализ: В рамках индексации текст проходит через NLP-конвейер, включающий парсинг, лемматизацию и определение грамматических типов (как описано в патенте).
Построение Тезауруса: Описанный в патенте сервер анализирует обработанные тексты для вычисления контекстных параметров, параметров сходства, включения и совместного вхождения.
Хранение: Результаты сохраняются в Базу данных семантических отношений (Тезаурус или Граф Знаний).

Влияние на Онлайн-процессы (QUERY PROCESSING & RANKING)
Сам алгоритм построения тезауруса не работает в момент запроса, но его результаты (тезаурус) активно используются:

QUERY PROCESSING: При понимании запроса система использует тезаурус для расширения запроса синонимами (Synonymy), уточнения интента, определения более общих (Hypernymy) или узких (Hyponymy) сущностей.
RANKING: При ранжировании тезаурус используется для оценки семантической релевантности. Документ может быть признан релевантным, если он содержит не только слова запроса, но и синонимы, гипонимы или ассоциативно связанные термины из тезауруса. Это основа для семантического поиска.

На что влияет

Все типы контента и запросов: Алгоритм является языконезависимым (хотя требует соответствующих NLP-инструментов для лемматизации и парсинга) и применяется ко всему корпусу текстов. Он влияет на понимание любых запросов и ранжирование любых документов.
Семантический поиск: Это фундамент для перехода от поиска по ключевым словам к поиску по смыслу.

Когда применяется

Временные рамки: Алгоритм применяется периодически в офлайн-режиме для обновления тезауруса по мере обновления текстового корпуса поисковой системы.
Условия работы: Для работы алгоритма необходим достаточно большой и репрезентативный корпус текстов, чтобы статистические данные о контекстах и совместном вхождении были достоверными.

Пошаговый алгоритм

Процесс автоматического создания тезауруса:

Предобработка корпуса:
- Получение цифрового текста.
- Парсинг текста (например, разделение на предложения и слова).
- Присваивание грамматического типа каждому слову (POS-tagging).
- Лемматизация слов и фраз.
Идентификация Лексических Элементов: Определение ключевых слов и фраз (LE) для анализа на основе грамматических типов.
Вычисление Контекстных Параметров (CP): Для каждого вхождения LE в тексте:
- Выбор n-ного числа соседних элементов (контекстное окно). Патент уточняет (Claim 16), что контекстное окно может ограничиваться границами предложения.
- Создание или обновление CP для данного LE, включая список соседей и частоту их появления рядом с LE.
Анализ Пар Лексических Элементов (LE1, LE2): Для значимых пар элементов выполняется:
- Вычисление Параметра Совместного Вхождения: Определение частоты появления LE1 и LE2 в одном предложении.
- Вычисление Параметра Сходства: Сравнение CP1 и CP2 для определения степени их похожести.
- Вычисление Параметров Включения: Определение степени включения CP1 в CP2 и CP2 в CP1.
Классификация Семантической Связи: Применение набора правил и пороговых значений (как описано в Claim 20) для определения типа связи:
- Если Включение низкое: Классификация как Синоним, Антоним или Ассоциация на основе Сходства и Совместного вхождения.
- Если Включение высокое: Классификация как Гипероним-Гипоним.
Анализ Троек Лексических Элементов (LE1, LE2, LE3) (Опционально): Для выявления отношений Холоним-Мероним анализируются тройки элементов, где LE1 включен в LE2 и LE3, а LE2 и LE3 не схожи.
Сохранение: Запись идентифицированной связи (Параметр связи лексических элементов) в Тезаурус.

Какие данные и как использует

Данные на входе

Контентные факторы: Основной источник данных — это неструктурированный цифровой текст (корпус документов).
Лингвистические/Структурные данные: Система активно использует результаты работы NLP-модулей:
- Леммы: Используются нормализованные формы слов (Claim 4).
- Грамматические типы (Части речи): Используются для идентификации лексических элементов и могут использоваться для фильтрации контекста (Claim 2, Claim 17).
- Границы предложений: Используются для расчета параметра совместного вхождения (Claim 6) и могут ограничивать контекстное окно (Claim 16).

Какие метрики используются и как они считаются

Система оперирует несколькими ключевыми статистическими метриками:

Частота совместного вхождения (в контексте): Количество раз, когда соседний элемент появляется в контекстном окне (n элементов) лексического элемента. Используется для построения Контекстного параметра.
Параметр совместного вхождения (в предложении): Частота появления двух лексических элементов в одном предложении.
Параметр сходства: Мера близости между двумя Контекстными параметрами (векторами). В патенте не указана конкретная формула, но обычно используются меры типа косинусной близости.
Параметр включения: Мера того, насколько один Контекстный параметр является подмножеством другого.
Пороговые значения: В патенте упоминается множество порогов (Claim 20 упоминает семь различных порогов), которые используются в правилах классификации для определения типа семантической связи. Значения этих порогов в патенте не указаны и, вероятно, подбираются эмпирически.

Выводы

Фундамент семантического поиска Яндекса: Патент описывает автоматизированный, основанный на данных (data-driven) подход к пониманию языка. Яндекс использует дистрибутивную семантику для построения тезауруса, который является основой для семантического поиска, расширения запросов и оценки релевантности.
Контекст определяет смысл: Ключевая идея заключается в том, что значение слова и его отношения с другими словами определяются его окружением (соседними словами). Система анализирует, насколько схожи или различны эти окружения.
Иерархия и Сходство: Система четко разделяет анализ сходства контекстов (для синонимов/антонимов) и анализ включения контекстов (для гиперонимов/гипонимов и холонимов/меронимов). Это позволяет Яндексу понимать не только связанные слова, но и структуру знаний (иерархию).
Важность совместного вхождения в предложении: Ключевым механизмом для различения синонимов и антонимов является анализ того, как часто слова появляются вместе в одном предложении. Синонимы взаимозаменяемы (низкое совместное вхождение), антонимы часто используются для контраста (высокое совместное вхождение).
Лингвистическая предобработка критична: Эффективность метода зависит от качества лемматизации и грамматического разбора (POS-tagging), что подчеркивает важность глубокого лингвистического стека Яндекса.

Практика

Best practices (это мы делаем)

Использование естественного и четкого языка: Пишите тексты с четкой структурой и логичными контекстами. Система лучше понимает слова, которые используются в их стандартных, ожидаемых окружениях. Четкие границы предложений и абзацев помогают системе корректно анализировать контекст и совместное вхождение.
Семантическое обогащение и QBST фразы: Используйте разнообразную лексику, включая синонимы, связанные термины и ассоциации, релевантные теме. Это помогает системе установить правильные связи между вашим контентом и широким спектром запросов, используя данные из тезауруса.
Построение тематической иерархии (Topical Authority): Структурируйте контент так, чтобы он покрывал как общие концепции (гиперонимы), так и специфические подтемы (гипонимы). Это соответствует тому, как система анализирует Параметры включения для понимания иерархии знаний. Например, сайт про собак должен содержать как общую информацию, так и детализированную по породам.
Контекстная оптимизация: Обращайте внимание не только на ключевые слова, но и на их окружение. Убедитесь, что слова, которые вы используете рядом с вашими целевыми терминами, создают правильный семантический контекст, который поможет системе корректно интерпретировать значение.

Worst practices (это делать не надо)

Keyword Stuffing и неестественный текст: Переоптимизация, использование ключевых слов в неестественных сочетаниях или бессвязный текст создают шумный, некорректный Контекстный параметр. Это затрудняет для системы определение истинных семантических связей.
Перечисление синонимов в одном предложении: Это искусственно повышает Параметр совместного вхождения. Поскольку система ожидает низкого совместного вхождения для синонимов, такое перечисление может помешать правильной классификации связи и выглядит как спам.
Неоднозначность и использование терминов в неверном контексте: Если вы используете термин нестандартным образом, система, основываясь на анализе всего корпуса, может интерпретировать его иначе, чем вы предполагали.
Тонкий контент (Thin Content): Страницы с малым количеством текста не предоставляют достаточного контекста для анализа, что затрудняет понимание их смысла и связи с другими концепциями.

Стратегическое значение

Этот патент подтверждает стратегический приоритет Яндекса на глубокое понимание естественного языка как основы поиска. Он демонстрирует механизм, лежащий в основе семантического поиска. Для SEO это означает, что долгосрочная стратегия должна фокусироваться на создании контента, который вносит вклад в базу знаний Яндекса, используя четкую структуру, правильную терминологию и покрывая тематику во всей ее полноте и иерархии. Оптимизация под отдельные ключевые слова уступает место оптимизации под семантические кластеры и концепции.

Практические примеры

Сценарий 1: Идентификация Синонимов

Анализ корпуса: Система анализирует тексты и замечает, что слова «смартфон» и «телефон» часто встречаются в похожих контекстах (рядом со словами «купить», «цена», «обзор», «модель»).
Вычисления: Параметр сходства контекстов высокий. Параметр совместного вхождения низкий (редко в одном предложении пишут «купить смартфон телефон»).
Результат: Система классифицирует связь как Синонимия.
Применение в SEO: При оптимизации страницы интернет-магазина необходимо понимать, что Яндекс считает эти слова взаимозаменяемыми. Страница должна быть релевантна обоим запросам, используя разнообразную лексику для описания товара, чтобы соответствовать широкому семантическому кластеру.

Сценарий 2: Идентификация Гиперонима и Гипонима

Анализ корпуса: Система анализирует слова «Лабрадор» (LE1) и «Собака» (LE2).
Вычисления: Контекст слова «Лабрадор» (например, «корм для», «дрессировка», «щенок») часто является подмножеством более широкого контекста слова «Собака». Параметр включения (CP1 в CP2) высокий.
Результат: Система классифицирует связь как Гипероним («Собака») — Гипоним («Лабрадор»).
Применение в SEO: Создавая контент о Лабрадорах, важно использовать терминологию, связанную с собаками в целом. Это подтверждает иерархию и помогает Яндексу понять структуру вашего сайта и его авторитетность в тематике. При поиске «Собака» система может решить показать результаты о Лабрадорах, если посчитает это релевантным для пользователя.

Вопросы и ответы

Что является основным принципом, описанным в этом патенте?

Основной принцип — это дистрибутивная семантика (Distributional Semantics). Ее суть заключается в том, что лингвистические единицы (слова, фразы), встречающиеся в схожих контекстах (окружениях), имеют близкие значения. Анализируя эти контексты в большом корпусе текстов, система автоматически выявляет семантические связи между словами.

Описывает ли этот патент алгоритм ранжирования?

Нет, напрямую он не описывает алгоритм ранжирования. Он описывает способ создания инфраструктурного компонента — Тезауруса (базы данных семантических отношений). Однако этот тезаурус затем используется системами понимания запросов (Query Understanding) и ранжирования (Ranking) для улучшения релевантности, например, через расширение запросов синонимами или оценку семантической близости.

Как система отличает синонимы от антонимов, если они используются в похожих контекстах?

Это ключевой момент патента. И синонимы, и антонимы действительно имеют высокий Параметр сходства контекстов. Различие проводится с помощью Параметра совместного вхождения в одном предложении. Синонимы взаимозаменяемы и редко используются вместе (низкое совместное вхождение). Антонимы часто используются вместе для противопоставления (например, «светлый и темный», «плюсы и минусы») и поэтому имеют высокое совместное вхождение.

Что такое «Параметр включения» и для чего он нужен?

Параметр включения измеряет, насколько контекст одного слова является подмножеством контекста другого слова. Это критически важно для выявления иерархических отношений. Например, контекст слова «Яблоко» включается в более широкий контекст слова «Фрукт». Высокий параметр включения позволяет системе идентифицировать отношения Гипероним-Гипоним (род-вид) и Холоним-Мероним (целое-часть).

Как этот патент влияет на стратегию сбора семантического ядра?

Он подтверждает необходимость анализа не только синонимов, но и всего семантического поля, включая иерархию (гиперонимы и гипонимы) и ассоциации. При сборе ядра нужно фокусироваться на построении структуры знаний вокруг темы, а не просто на списке ключевых фраз. Это требует более глубокого погружения в тематику и понимания взаимосвязей между концепциями.

Насколько важна лемматизация для работы этого алгоритма?

Лемматизация (приведение слов к начальной форме) критически важна. Патент явно указывает (Claim 4), что она выполняется до расчета частот. Это позволяет системе учитывать разные словоформы (например, «кошка», «кошки», «кошку») как один лексический элемент. Без качественной лемматизации статистика по контекстам была бы размыта и недостоверна.

Что такое «контекстное окно» (n-ное число последовательных элементов) и как оно ограничено?

Контекстное окно — это набор слов, непосредственно предшествующих и/или следующих за анализируемым лексическим элементом. Это его ближайшее окружение, которое формирует Контекстный параметр. Патент упоминает (Claim 16), что это окно может быть ограничено границами предложения, чтобы избежать смешивания контекстов из разных мыслей.

Как система определяет отношения «часть-целое» (Холоним-Мероним)?

Это более сложный анализ, включающий три элемента (LE1, LE2, LE3). Система ищет ситуацию, когда контекст LE1 включен в контекст LE2 И в контекст LE3, но при этом контексты LE2 и LE3 не похожи друг на друга. Классический пример: «Колесо» (LE1) является частью «Автомобиля» (LE2) и «Велосипеда» (LE3), но «Автомобиль» и «Велосипед» имеют разные контексты.

Как SEO-специалист может повлиять на данные в тезаурусе Яндекса?

Напрямую повлиять на конкретную запись в тезаурусе нельзя, так как он строится автоматически на основе анализа огромного корпуса текстов. Однако, создавая качественный, структурированный контент с правильным и последовательным использованием терминологии, вы вносите вклад в этот корпус. Если ваш авторитетный ресурс последовательно использует определенные слова в четких контекстах, это может повлиять на статистические данные, используемые системой.

Использует ли этот метод нейронные сети или эмбеддинги (например, YATI)?

Патент описывает классический подход к дистрибутивной семантике, основанный на подсчете частот и сравнении векторов (Контекстных параметров). Он не упоминает нейросетевые методы или современные модели эмбеддингов типа BERT/YATI. Однако принципы остаются схожими: и там, и там анализируется контекст. Можно рассматривать этот патент как описание базовой логики построения тезауруса, которая может быть реализована разными математическими методами, в том числе и с помощью современных векторных представлений.