Как Яндекс автоматически определяет ключевые сущности в тексте, разрешает их неоднозначность и оценивает их значимость

Яндекс патентует технологию для автоматического обогащения документов контекстной информацией. Система анализирует текст, идентифицирует объекты (сущности), определяет их точное значение в контексте (Дисамбигуация) и выделяет наиболее значимые из них (Salience). Для значимых сущностей система автоматически формирует справочную карточку на основе результатов поиска.

Описание

Какую задачу решает

Патент решает задачу улучшения пользовательского опыта при потреблении контента. Он устраняет необходимость для пользователя вручную искать дополнительную информацию о темах, упомянутых в документе (веб-странице, письме), что требует времени, формулирования запросов и просмотра результатов. Система автоматизирует этот процесс, предоставляя контекстную информацию «на лету», что также экономит ресурсы устройства (трафик, энергию).

Что запатентовано

Запатентована система автоматического предоставления контекстуальной информации. Суть изобретения заключается в многоступенчатом анализе текста, включающем три ключевых этапа: идентификация Объектов (сущностей), определение их Наиболее вероятного значения (Дисамбигуация) и оценка их Значимости (Salience) для документа. Для значимых объектов система автоматически генерирует контекстуальную информацию (например, Справочную карточку) и интегрирует ее в интерфейс.

Как это работает

Система анализирует текст документа. Сначала идентифицируются все потенциальные Объекты. Затем происходит Дисамбигуация: с помощью Алгоритма контекстуального анализа (ML-модель) для каждого объекта определяется Наиболее вероятное значение на основе контекста. Далее происходит оценка Значимости: с помощью Алгоритма контекстуальной релевантности (другая ML-модель) рассчитывается Показатель контекстуальной релевантности. Объекты с высоким показателем признаются Значимыми. Для них выполняется поиск, а результаты связываются с текстом. Значимые объекты выделяются в интерфейсе, позволяя пользователю просмотреть информацию по клику или наведению.

Актуальность для SEO

Высокая. Хотя патент описывает UX-функцию (например, для браузера или Дзена), лежащие в его основе NLP-технологии — Распознавание именованных сущностей (NER), Дисамбигуация (Entity Linking/Disambiguation) и Определение значимости (Entity Salience) — являются фундаментальными для современных поисковых систем и критически важны для понимания контента.

Важность для SEO

Влияние на SEO среднее (6/10). Патент не описывает алгоритмы ранжирования веб-поиска. Однако он имеет высокое стратегическое значение, так как детально раскрывает механизмы, которые Яндекс использует для интерпретации контента на уровне сущностей. Понимание того, как Яндекс проводит дисамбигуацию и определяет значимость сущностей, критически важно для оптимизации контента под семантический поиск и Topical Authority.

Детальный разбор

Термины и определения

Алгоритм контекстуального анализа (Contextual analysis algorithm): Алгоритм машинного обучения, используемый для дисамбигуации. Он рассчитывает Показатель вероятности для каждого возможного значения объекта на основе контекста документа..
Алгоритм контекстуальной релевантности (Contextual relevance algorithm): Алгоритм машинного обучения, используемый для определения значимости (Salience). Он рассчитывает Показатель контекстуальной релевантности объекта для документа..
База данных объектов (Database of objects): Хранилище (аналог Графа Знаний), содержащее набор известных объектов (сущностей), их характеристики (описание, тип, синонимы) и возможные значения..
Значение (Value/Meaning): Возможная интерпретация или смысл объекта. Например, для объекта «King» значениями могут быть «правитель» или «Стивен Кинг»..
Значимый объект (Significant object): Объект, который система определила как важный для документа и интересный для пользователя..
Наиболее вероятное значение (Most probable value): Значение объекта, которое система определила как наиболее подходящее в контексте данного документа (результат дисамбигуации)..
Объект (Object): Слово или фраза в тексте, идентифицированная как сущность..
Показатель вероятности (Probability score): Оценка, рассчитываемая Алгоритмом контекстуального анализа. Используется для выбора Наиболее вероятного значения..
Показатель контекстуальной релевантности (Contextual relevance score): Метрика, оценивающая значимость (Salience) объекта для документа. Рассчитывается Алгоритмом контекстуальной релевантности..
Справочная карточка объекта (Information card): Скомпилированный и отформатированный блок контекстуальной информации (аналог сниппета Графа Знаний), отображаемый пользователю..

Ключевые утверждения (Анализ Claims)

Патент защищает систему автоматического обогащения контента, основанную на двухступенчатом семантическом анализе: дисамбигуации и определении значимости.

Claim 1 (Независимый пункт): Описывает основной процесс работы системы.

Система получает текстовый контент документа.
Идентификация множества Объектов в тексте (NER).
Для каждого объекта:
1. Идентификация возможных Значений.
2. Определение Наиболее вероятного значения на основе контекстуального анализа (Дисамбигуация).
Определение того, является ли объект Значимым для документа (Salience).
Если объект значим:
1. Получение результата контекстуального поиска, используя Наиболее вероятное значение (а не исходный текст объекта).
2. Модификация объекта в интерфейсе (делает его выбираемым).
3. Связывание результата поиска с объектом.
При выборе пользователем объекта: Отображение результата поиска.

Claims 2, 3, 6, 7 (Детализация определения Значимости): Описывают методы выбора значимых объектов на основе расчета Контекстуальной релевантности.

Метод 1 (Порог): Объект значим, если его показатель релевантности выше предопределенного порога (Claims 2, 6).
Метод 2 (Ранжирование): Объекты ранжируются по показателю релевантности, и значимыми определяются Топ-N объектов (Claims 3, 7).

Claim 4 (Факторы Значимости): Указывает, что определение значимости может основываться на: частоте появления объекта в документе, популярности объекта, положении объекта в документе и типе объекта.

Где и как применяется

Изобретение описывает технологию улучшения пользовательского интерфейса (UX), которая может быть реализована в клиентских приложениях (например, Яндекс Браузер) или на серверной стороне (например, Дзен, Турбо-страницы).

Однако описанные базовые NLP-механизмы критически важны для поисковой архитектуры:

INDEXING – Индексирование и извлечение признаков
Механизмы, описанные в патенте, используются на этапе индексирования для глубокого понимания контента:

NER: Идентификация Объектов в тексте (Этап 320).
Дисамбигуация (Entity Linking): Определение Наиболее вероятного значения (Этап 340). Связывание упоминания в тексте с конкретной сущностью в Базе данных объектов (Графе Знаний).
Определение значимости (Entity Salience): Определение Значимых объектов (Этап 350). Позволяет поисковой системе понять, какие сущности являются основными темами документа.

RANKING / BLENDER
Система взаимодействует с поисковым кластером для выполнения Контекстуального поиска и может использовать механизмы генерации сниппетов/Колдунщиков для формирования Справочной карточки объекта.

На что влияет

Типы контента: Любые текстовые документы: веб-страницы, электронные письма, документы в редакторах..
Тематики и Исключения: Влияет на все тематики, но патент явно упоминает исключение объектов, относящихся к «тривиальным, общим или повседневным» темам (например, простуда, витамины, машина, Россия, Twitter). Также исключаются объекты, если сам текст является определением этого объекта..

Когда применяется

Триггер активации: Документ открывается или отображается на устройстве пользователя..
Условия срабатывания: Обогащение происходит только если объект успешно дисамбигуирован и признан Значимым (прошел порог или вошел в Топ-N по Показателю контекстуальной релевантности)..
Временные аспекты: Контекстуальный поиск может выполняться проактивно при анализе страницы или реактивно (по требованию), когда пользователь взаимодействует с объектом.

Пошаговый алгоритм

Получение контента: Получение текстового контента документа (например, из HTML/DOM)..
Идентификация Объектов (NER): Парсинг текста и выделение потенциальных объектов путем сравнения с Базой данных объектов. Исключение стоп-слов..
Определение возможных значений: Для каждого объекта извлечение набора его возможных значений из базы данных..
Дисамбигуация (Определение Наиболее Вероятного Значения):
- Использование Алгоритма контекстуального анализа (ML).
- Расчет Показателя вероятности для каждого значения.
- Факторы: Присутствие связанных слов в тексте, расстояние до них, тип объекта, популярность значения (например, статистика поисков).
- Выбор значения с наивысшим показателем..
Определение Значимости (Salience):
- Предварительная фильтрация: Исключение тривиальных или самоочевидных объектов..
- Использование Алгоритма контекстуальной релевантности (ML).
- Расчет Показателя контекстуальной релевантности для оставшихся объектов.
- Факторы: Частота объекта в документе (взвешенная, аналог TF-IDF), частота других связанных объектов (Co-occurrence), популярность значения, положение объекта в тексте.
- Выбор Значимых объектов (по порогу или Топ-N)..
Получение контекстной информации: Выполнение контекстуального поиска по Наиболее вероятному значению значимого объекта.. Формирование Справочной карточки..
Модификация и Отображение: Изменение отображения значимого объекта в тексте (выделение, кликабельность). Показ Справочной карточки при взаимодействии пользователя..

Какие данные и как использует

Данные на входе

Контентные факторы: Текст документа (слова, фразы). Исходный код или DOM-дерево..
Структурные факторы: Положение объекта в текстовом контенте (используется для оценки Значимости).. Расстояние между объектом и связанными словами (используется для Дисамбигуации)..
Внешние данные (База данных объектов/Граф Знаний): Набор известных сущностей, их характеристики (тип, синонимы), возможные значения и списки связанных слов для каждого значения..
Данные о популярности (Внешние): Статистика популярности конкретных значений (например, число веб-поисков или связанных веб-страниц). Используется на обоих этапах анализа..

Какие метрики используются и как они считаются

Система использует два ключевых показателя, рассчитываемых с помощью отдельных алгоритмов машинного обучения:

Показатель вероятности (Probability Score):
- Цель: Дисамбигуация (Этап 340).
- Алгоритм: Алгоритм контекстуального анализа (ML).
- Факторы: Присутствие и расстояние до связанных слов, тип объекта, популярность значения.
Показатель контекстуальной релевантности (Contextual Relevance Score):
- Цель: Определение Значимости (Этап 350).
- Алгоритм: Алгоритм контекстуальной релевантности (ML).
- Факторы: Частота объекта в документе (взвешенная), частота других связанных объектов (Co-occurrence), популярность значения, положение объекта в тексте, тип объекта.

Пороги и условия: Значимость определяется путем превышения заданного порога или попадания в Топ-N объектов по показателю релевантности.

Выводы

Двухуровневый семантический анализ: Яндекс применяет сложную двухэтапную оценку сущностей с использованием раздельных ML-моделей: Этап 1 — Дисамбигуация (Что это значит?), Этап 2 — Определение Значимости/Salience (Насколько это важно для документа?).
Дисамбигуация зависит от контекста и популярности: Точное значение слова определяется комбинацией локального контекста (связанные слова и их близость) и глобальной популярности сущности в вебе.
Комплексная оценка Значимости (Salience): Значимость сущности определяется не только ее упоминанием, но и взвешенной частотой, позицией в документе, популярностью и, что критически важно, наличием связанных сущностей (Co-occurrence) на странице.
Приоритет нетривиального контента: Система намеренно игнорирует тривиальные, общеизвестные темы и контент, который просто дает определение объекту, фокусируясь на более глубоком анализе.
Зависимость от Графа Знаний: Весь процесс опирается на качество и полноту Базы данных объектов (Графа Знаний Яндекса).

Практика

ВАЖНО: Хотя этот патент описывает UX-функцию, а не алгоритм ранжирования, понимание описанных в нем NLP-механизмов (Дисамбигуация и Salience) критически важно для SEO, так как эти же механизмы используются Яндексом для оценки релевантности и глубины контента.

Best practices (это мы делаем)

Обеспечение четкой дисамбигуации: Создавайте однозначный контекст для всех ключевых сущностей. Используйте достаточное количество QBST-фраз и связанных терминов в непосредственной близости от сущности.. Если вы пишете о «Наполеоне» (торте), используйте слова «рецепт», «крем», «коржи», чтобы помочь Алгоритму контекстуального анализа.
Усиление значимости (Salience) через Co-occurrence: Насыщайте текст другими релевантными сущностями. Патент явно указывает, что наличие связанных объектов повышает Показатель контекстуальной релевантности основной темы..
Оптимизация структуры и позиционирования: Размещайте ключевые сущности на значимых позициях. Положение объекта в тексте является фактором значимости.. Убедитесь, что основные сущности упоминаются с соответствующей частотой (без переспама).
Создание глубокого, нетривиального контента: Фокусируйтесь на экспертном контенте. Система фильтрует тривиальные и общеизвестные темы, что подчеркивает важность глубины проработки материала для установления авторитета.

Worst practices (это делать не надо)

Создание неоднозначного контента (Ambiguity): Текст, в котором используются многозначные слова без достаточного контекста, затруднит работу системы по определению «Наиболее вероятного значения».
Изолированные упоминания сущностей (Thin Content): Создание контента без включения связанных сущностей снижает контекст для Дисамбигуации и уменьшает воспринимаемую Значимость (Salience) основной темы.
Фокус только на определениях: Полагаться исключительно на контент в стиле «что такое X» может быть неэффективно, поскольку патент предлагает исключать объекты, если цель документа — дать им определение..

Стратегическое значение

Патент подтверждает стратегический фокус Яндекса на переходе от ключевых слов к сущностям (Entity-Oriented Search). Он демонстрирует техническую инфраструктуру для глубокого семантического анализа. Для SEO это означает, что долгосрочная стратегия должна строиться на создании семантически богатого, взаимосвязанного контента, который четко определяет основные сущности и их отношения, отражая принципы работы Графа Знаний.

Практические примеры

Сценарий: Оптимизация статьи для корректного распознавания и повышения значимости сущности.

Задача: Написать и оптимизировать статью про породу кошек «Сфинкс», чтобы Яндекс (1) не спутал ее с Египетским Сфинксом (Дисамбигуация) и (2) признал ее главной темой статьи (Значимость).

Действия для Дисамбигуации:
- Насытить текст терминами, связанными с кошками: «порода», «без шерсти», «уход за кожей», «питомник», «Канадский сфинкс». Разместить их близко к упоминанию «Сфинкс»..
- Избегать терминов, усиливающих неверный контекст: «Египет», «Пирамиды».
Ожидаемый результат (Дисамбигуация): Алгоритм контекстуального анализа присвоит высокий «Показатель вероятности» значению «Порода кошек».
Действия для Значимости:
- Упомянуть «Сфинкс» в начале документа и с достаточной частотой.
- Включить связанные сущности (Co-occurrence): другие породы кошек, имена известных заводчиков.
Ожидаемый результат (Значимость): Алгоритм контекстуальной релевантности присвоит высокий показатель сущности «Сфинкс (порода кошек)», идентифицировав ее как основную тему.

Вопросы и ответы

В чем ключевое различие между Дисамбигуацией (Disambiguation) и Определением Значимости (Salience) в этом патенте?

Дисамбигуация (определение «Наиболее вероятного значения») отвечает на вопрос: «Что означает это слово в данном контексте?» (например, «Кинг» — это Стивен Кинг, а не шахматная фигура). Определение Значимости отвечает на вопрос: «Насколько важна эта сущность для данного документа?». Яндекс использует два разных ML-алгоритма для этих задач: Алгоритм контекстуального анализа для дисамбигуации и Алгоритм контекстуальной релевантности для значимости.

Как Яндекс определяет, какое значение слова является правильным (Дисамбигуация)?

Используется Алгоритм контекстуального анализа, который рассчитывает «Показатель вероятности». Он учитывает наличие и близость связанных слов в тексте (контекст), тип объекта (например, личность или место), а также общую популярность значения (например, как часто его ищут в интернете). Значение с наивысшим показателем считается правильным.

Какие факторы делают сущность «значимой» (Salient) для документа?

Значимость определяется «Показателем контекстуальной релевантности». Основные факторы включают: частоту упоминания сущности в документе (взвешенную относительно общей частоты, аналог TF-IDF), наличие других связанных сущностей в тексте (Co-occurrence), глобальную популярность сущности и ее положение в тексте (например, ближе к началу).

Влияет ли этот патент напрямую на ранжирование в поиске?

Нет, патент описывает функцию улучшения пользовательского опыта при чтении контента (например, в браузере). Однако технологии, лежащие в его основе (NER, Дисамбигуация, Salience), критически важны для понимания контента поисковой системой. Способность точно идентифицировать главные и значимые сущности документа, безусловно, используется Яндексом как набор признаков при индексировании и ранжировании.

Как я могу использовать инсайты о Дисамбигуации в своей SEO-стратегии?

Критически важно предоставлять четкий контекст для всех сущностей. Если вы пишете о компании, включите ее отрасль, продукты, имена руководителей. Используйте QBST-фразы и связанные термины рядом с основной сущностью. Это помогает Яндексу точно определить «Наиболее вероятное значение» и правильно классифицировать ваш контент, что жизненно важно для релевантности.

Что патент подразумевает под исключением «тривиальных» объектов?

Патент указывает, что объекты, относящиеся к «тривиальным, общим или повседневным» темам (примеры: простуда, витамины, Россия, Twitter), могут быть предопределены как незначимые. Это подчеркивает, что для привлечения внимания алгоритмов Яндекса контент должен быть достаточно глубоким и специализированным, а не поверхностным и общим.

Имеет ли значение положение сущности на странице?

Да, в патенте явно указано, что положение объекта в текстовом контенте является одним из факторов при оценке «Показателя контекстуальной релевантности» (значимости). Это подтверждает стандартные SEO-практики по размещению ключевой информации в начале контента.

Как этот патент связан с Графом Знаний (Knowledge Graph) Яндекса?

Система напрямую использует Граф Знаний (называемый в патенте «База данных объектов»). Она опирается на него для идентификации сущностей, получения их характеристик, возможных значений и связей. Весь процесс направлен на то, чтобы связать слова в тексте с конкретными узлами в Графе Знаний и предоставить информацию из него пользователю (Справочная карточка).

Как этот патент меняет подход к использованию ключевых слов?

Он требует перехода от механического использования ключевых слов к созданию семантически насыщенного контекста вокруг сущностей. Важно не просто упомянуть ключевое слово, а окружить его связанными терминами и другими сущностями (Co-occurrence), чтобы помочь системе правильно его интерпретировать (Дисамбигуация) и высоко оценить его важность (Salience).

Стоит ли использовать микроразметку Schema.org в свете этого патента?

Хотя патент не упоминает Schema.org, использование микроразметки является лучшей практикой. Поскольку система направлена на распознавание сущностей и их типов, предоставление явных сигналов через Schema.org может помочь в процессе разрешения неоднозначности и корректной идентификации «Наиболее вероятного значения», что положительно скажется на SEO.