Как Яндекс определяет ключевые сущности на странице и оценивает их значимость (Entity Salience и Disambiguation)

Яндекс патентует метод анализа контента для автоматического предоставления контекстной информации. Система идентифицирует объекты (сущности) в тексте, определяет их наиболее вероятное значение (устраняет неоднозначность) и рассчитывает оценку значимости (Context Relevancy Score). Для наиболее значимых сущностей система генерирует контекстные карточки (Object Reference Card).

Описание

Какую задачу решает

Патент решает задачу улучшения пользовательского опыта при чтении контента. Он устраняет неудобство, связанное с необходимостью вручную открывать новые вкладки и формулировать поисковые запросы для получения дополнительной информации об упомянутых в тексте объектах. Система автоматизирует этот процесс, проактивно идентифицируя важные объекты и предоставляя контекстную информацию напрямую в интерфейсе просмотра документа. Технически патент решает две фундаментальные задачи NLP: разрешение неоднозначности сущностей (Entity Disambiguation) и определение их значимости или салиентности (Entity Salience) в данном тексте.

Что запатентовано

Запатентована система автоматического обогащения контента контекстной информацией. Суть изобретения заключается в двухуровневом анализе текста: сначала определяется наиболее вероятное значение объекта (Most Probable Meaning) с помощью контекстного анализа (Disambiguation), а затем вычисляется его оценка значимости (Context Relevancy Score или Salience). Оба процесса используют отдельные алгоритмы машинного обучения. Для объектов, признанных значимыми, система генерирует релевантную контекстную информацию.

Как это работает

Система анализирует текстовый контент документа и идентифицирует объекты (слова или фразы). Используя первый ML-алгоритм (Context Analysis Algorithm), система устраняет неоднозначность и выбирает Most Probable Meaning (например, понимает, что «King» в статье о литературе — это Стивен Кинг). Затем второй ML-алгоритм (Context Relevancy Algorithm) вычисляет Context Relevancy Score для определения значимости объекта, учитывая частоту упоминаний, позицию в тексте и глобальную популярность. Объекты с высокой значимостью выделяются в документе. При взаимодействии пользователя отображается Object Reference Card (контекстная карточка) с информацией, полученной путем поиска по Most Probable Meaning.

Актуальность для SEO

Высокая. Хотя патент описывает конкретную реализацию пользовательского интерфейса (контекстные подсказки), лежащие в его основе технологии — распознавание именованных сущностей (NER), устранение неоднозначности (Disambiguation) и определение значимости сущностей (Entity Salience) — являются фундаментальными компонентами современных NLP-технологий Яндекса. Эти механизмы критически важны для понимания контента при индексировании и формировании Графа Знаний.

Важность для SEO

Влияние на SEO значительно (7/10). Патент напрямую не описывает алгоритмы ранжирования в основном поиске. Однако он детально раскрывает механизмы, которые Яндекс использует для понимания контента: как именно система устраняет неоднозначность с помощью контекста и, что самое важное, как она определяет, какие сущности являются наиболее значимыми (Significant Objects/Salient) для данного документа. Понимание этих механизмов критически важно для стратегии entity-based SEO.

Детальный разбор

Термины и определения

Context Analysis Algorithm (Алгоритм контекстного анализа): Первый алгоритм машинного обучения, используемый для устранения неоднозначности (Disambiguation). Анализирует контекст документа (связанные слова, их близость) для расчета Probability Score и определения Most Probable Meaning.
Context Relevancy Algorithm (Алгоритм контекстной релевантности): Второй алгоритм машинного обучения, используемый для определения значимости (Salience). Рассчитывает Context Relevancy Score, учитывая частоту упоминания, популярность, позицию в тексте и тип объекта.
Context Relevancy Score (Оценка контекстной релевантности): Метрика, определяющая степень значимости (Salience) объекта для документа. Объекты с более высоким баллом считаются более значимыми.
Most Probable Meaning (Наиболее вероятное значение): Конкретное значение (сущность), которое объект представляет в контексте данного документа. Например, что объект «King» означает «Стивен Кинг».
Object (Объект): Слово или фраза в тексте, идентифицированная системой как потенциальная сущность.
Object Database (База данных объектов): Хранилище (аналог Графа Знаний), содержащее известные объекты, их возможные значения и связанные признаки (описание, тип, синонимы).
Object Reference Card (Карточка объекта): Элемент интерфейса, отображающий скомпилированную контекстную информацию о значимом объекте.
Probability Score (Оценка вероятности): Метрика, рассчитываемая Context Analysis Algorithm для каждого возможного значения объекта. Значение с наивысшей оценкой становится Most Probable Meaning.
Significant Object (Значимый объект): Объект, который система определила как важный для документа на основе Context Relevancy Score.

Ключевые утверждения (Анализ Claims)

Ядром изобретения является двухуровневый анализ: сначала определение того, *что* означает объект в данном контексте (Disambiguation), а затем определение того, *насколько* он важен для этого документа (Significance/Salience).

Claim 1 (Независимый пункт): Описывает основной метод предоставления контекстной информации.

Получение текстового контента документа.
Анализ контента для идентификации множества объектов.
Для каждого объекта:
- Идентификация возможных значений.
- Определение Most Probable Meaning на основе контекстного анализа документа. (Этап 1: Disambiguation).
Определение, является ли объект значимым (Significant) для документа. (Этап 2: Salience Detection).
Если объект признан значимым:
- Получение контекстного результата поиска (Contextual Search Result), связанного с Most Probable Meaning.
- Модификация части документа, соответствующей этому объекту (например, подсветка).
- Ассоциирование контекстного результата поиска с объектом.

Claim 2 и 3 (Зависимые пункты): Уточняют, как определяется значимость.

Значимость определяется путем сравнения контекстной релевантности (Contextual Relevance, т.е. Context Relevancy Score) объекта либо с предопределенным порогом (Claim 2), либо с контекстной релевантностью других объектов в документе (Claim 3, т.е. выбор Топ-N самых значимых).

Claim 4 (Зависимый пункт): Перечисляет факторы, используемые для определения значимости.

Определение значимости основывается как минимум на одном из следующих факторов: частота встречаемости слова в документе, популярность слова, позиция объекта и тип объекта.

Claim 8 (Зависимый пункт): Уточняет, как получается контекстная информация.

Контекстный результат поиска получается путем выполнения поиска, используя Most Probable Meaning объекта в качестве поискового запроса.

Где и как применяется

Патент описывает систему, которая может быть реализована как на стороне сервера, так и на стороне клиента (например, как функция Яндекс.Браузера). Хотя описанное применение является функцией пользовательского интерфейса, используемые технологии глубоко интегрированы в основные поисковые процессы Яндекса.

INDEXING – Индексирование и извлечение признаков
Технологии, описанные в патенте, критически важны на этом этапе. Процессы устранения неоднозначности (Most Probable Meaning) и определения значимости (Significance/Salience) используются поисковой системой для понимания того, о чем страница и какие сущности являются на ней ключевыми. Это напрямую связано с лингвистическим анализом и построением индекса.

Взаимодействие с компонентами: Система взаимодействует с Object Database (Граф Знаний) и Search Cluster (Поисковый кластер) для получения контекстной информации.
Данные на входе: Текстовый контент документа (например, HTML-код веб-страницы или DOM-дерево).
Данные на выходе: Идентифицированные Significant Objects, их Most Probable Meanings и сгенерированные Object Reference Cards.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на информационный контент (статьи, новости, блоги), где часто упоминаются различные сущности (люди, места, организации, концепции).
Понимание контента: Патент раскрывает механизмы, которые Яндекс использует для определения того, о чем именно идет речь в тексте (Disambiguation) и какие темы являются основными (Salience Detection).

Когда применяется

Условия работы: Алгоритм активируется, когда документ открывается или отображается на экране клиентского устройства.
Триггеры активации:
1. Идентификация объекта в тексте.
2. Расчет Context Relevancy Score выше установленного порога или занятие объектом топовой позиции по этой метрике.
3. Взаимодействие пользователя (например, наведение курсора или клик) с модифицированным значимым объектом для отображения контекстной информации. (Патент упоминает вариант, когда поиск выполняется только после взаимодействия пользователя — Claim 9).
Исключения: Патент упоминает, что некоторые объекты могут быть предопределены как незначимые, если они слишком общие/тривиальные (например, «автомобиль», «Россия») или если документ является определением этого объекта.

Пошаговый алгоритм

Процесс разделен на две основные фазы: Разрешение неоднозначности и Определение значимости.

Получение контента: Система получает текстовый контент документа.
Идентификация объектов (Entity Recognition): Текст парсится, слова и фразы сравниваются с Object Database. Общие слова могут игнорироваться.
Определение возможных значений: Для каждого объекта извлекается набор возможных значений (например, для «King»: Стивен Кинг, Мартин Лютер Кинг, шахматная фигура).
Фаза 1: Устранение неоднозначности (Disambiguation):
1. Для каждого возможного значения рассчитывается Probability Score.
2. Расчет выполняет Context Analysis Algorithm (ML-модель).
3. Учитываются факторы: наличие связанных слов в тексте, расстояние до них, тип объекта, популярность значения (статистика веб-поиска).
4. Значение с наивысшим скором выбирается как Most Probable Meaning.
Фаза 2: Определение значимости (Entity Salience):
1. Объекты, предопределенные как незначимые, отфильтровываются.
2. Для остальных объектов рассчитывается Context Relevancy Score.
3. Расчет выполняет Context Relevancy Algorithm (отдельная ML-модель).
4. Учитываются факторы: частота объекта в документе (взвешенная относительно глобальной частоты), популярность Most Probable Meaning, позиция объекта в тексте, частота встречаемости других связанных объектов.
Фильтрация значимых объектов: Выбор объектов, чей Context Relevancy Score превышает порог, или выбор Топ-N объектов.
Получение контекстной информации: Выполняется поиск по Most Probable Meaning значимого объекта.
Генерация и Модификация: Результаты компилируются в Object Reference Card. Документ модифицируется (объект подсвечивается) для отображения карточки при взаимодействии.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст документа используется для идентификации объектов, анализа контекста (связанные слова и фразы), расчета частоты упоминаний.
Структурные факторы: Позиция объекта в текстовом контенте используется при расчете Context Relevancy Score.
Внешние данные (Object Database/Граф Знаний): База данных, содержащая известные объекты, их возможные значения, признаки (тип объекта, синонимы) и списки связанных слов для контекстного анализа.
Данные о популярности (Внешние): Статистика о количестве веб-поисков и количестве веб-страниц, связанных со значением объекта. Используется для оценки популярности при расчете как Probability Score, так и Context Relevancy Score.

Какие метрики используются и как они считаются

Система использует два ключевых алгоритма машинного обучения:

Context Analysis Algorithm: Используется для расчета Probability Score (Фаза 1: Disambiguation). Алгоритм обучен на большом наборе документов. Метрика учитывает контекстные сигналы (наличие и близость связанных слов) и популярность значения.
Context Relevancy Algorithm: Используется для расчета Context Relevancy Score (Фаза 2: Salience). Метрика учитывает:
- Частота встречаемости: Частота объекта в документе, взвешенная относительно глобальной частоты (аналог TF-IDF).
- Популярность: Популярность Most Probable Meaning.
- Позиция: Расположение объекта в тексте.
- Связанность: Частота встречаемости других объектов, связанных с Most Probable Meaning данного объекта.
Пороговые значения: В патенте упоминается использование Context Relevance Threshold для определения значимости или ранжирование объектов по Context Relevancy Score и выбор Топ-N.

Выводы

Двухуровневый анализ сущностей: Яндекс использует сложный механизм для понимания сущностей, состоящий из двух отдельных этапов, каждый из которых основан на собственной ML-модели: (1) Disambiguation (определение значения) и (2) Salience (определение значимости).
Контекст определяет значение (Disambiguation): Для корректной идентификации сущности (Most Probable Meaning) критически важно наличие в тексте связанных слов и фраз, а также глобальная популярность сущности.
Факторы значимости сущности (Entity Salience): Патент явно указывает факторы для расчета Context Relevancy Score: частота упоминания (с поправкой на глобальную частоту), позиция в документе, популярность сущности в вебе и наличие других связанных сущностей на странице.
Фундаментальные технологии индексирования: Хотя патент описывает UI-функцию, описанные технологии являются фундаментальными для процесса индексирования и понимания контента поисковой системой. Это дает прямое понимание того, как Яндекс анализирует и интерпретирует содержимое страниц.
Подтверждение Entity-First подхода: Система фокусируется на конкретном значении сущности (Most Probable Meaning), а не просто на текстовой строке, что подтверждает важность entity-based SEO.

Практика

Best practices (это мы делаем)

Обеспечение четкого контекста для устранения неоднозначности (Disambiguation): При упоминании многозначных сущностей (например, «Ягуар», «Python»), убедитесь, что окружающий текст содержит достаточно связанных слов и фраз (QBST фраз), чтобы помочь Context Analysis Algorithm правильно определить Most Probable Meaning. Если пишете о Python (язык), упоминайте «Django», «код», «разработчик».
Оптимизация значимости ключевых сущностей (Entity Salience): Чтобы повысить Context Relevancy Score целевых сущностей, используйте факторы из патента:
- Частота: Упоминайте ключевые сущности естественно, но достаточно часто.
- Позиция: Размещайте важные упоминания на значимых позициях (например, ближе к началу текста). Патент явно указывает позицию как фактор.
- Связанность: Насыщайте текст другими сущностями, которые тематически связаны с основной. Это усиливает контекст и повышает значимость основной сущности.
Использование точных и полных наименований: Используйте общепринятые названия сущностей, которые присутствуют в Object Database Яндекса. Это упрощает этап идентификации объектов.
Работа над популярностью бренда/сущности: Патент упоминает, что глобальная популярность сущности (количество поисков и страниц о ней) влияет на оценку ее значимости. PR и повышение узнаваемости бренда способствуют лучшему распознаванию и более высокой оценке Salience.

Worst practices (это делать не надо)

Неоднозначное изложение: Написание текстов, где контекст недостаточен для точного определения значения упоминаемых объектов. Это приводит к ошибкам на этапе Disambiguation.
Изолированное упоминание сущностей: Упоминание важных терминов без сопутствующего контекста и связанных сущностей снижает вероятность того, что они будут правильно идентифицированы и признаны значимыми (низкий Salience).
Манипуляция частотой (Keyword Stuffing): Чрезмерное увеличение частоты упоминаний неэффективно, так как система учитывает частоту относительно глобальной частоты (аналог TF-IDF) и использует сложные ML-модели для оценки контекста, а не простые счетчики.

Стратегическое значение

Патент подтверждает стратегический фокус Яндекса на глубоком понимании контента через призму сущностей (Entity-Oriented Search). Для SEO это означает, что оптимизация должна быть направлена на создание четкой семантической структуры документа. Понимание того, как Яндекс рассчитывает значимость (Salience) сущностей, позволяет более эффективно управлять релевантностью контента и влиять на то, как поисковая система интерпретирует основную тему страницы.

Практические примеры

Сценарий 1: Оптимизация статьи для правильного устранения неоднозначности (Disambiguation)

Задача: Написать статью о языке программирования Python.
Проблема: Слово «Python» может означать змею.
Применение патента: Чтобы повысить Probability Score для значения «Язык программирования», необходимо насытить текст связанными терминами, которые использует Context Analysis Algorithm.
Действия: Упомянуть в тексте «Django», «Flask», «machine learning», «script», «developer», «код».
Результат: Система корректно определяет Most Probable Meaning объекта «Python».

Сценарий 2: Повышение значимости целевой сущности в обзоре (Salience Optimization)

Задача: Написать обзорную статью о творчестве Стивена Кинга, где он должен быть главной сущностью (Highest Salience).
Проблема: В статье упоминается много других имен (режиссеры) и названий (книги), которые могут «перетянуть» на себя значимость.
Применение патента: Необходимо максимизировать Context Relevancy Score для объекта «King» (Стивен Кинг).
Действия:
1. Упомянуть «Стивен Кинг» в начале статьи и в заключении (Позиция).
2. Обеспечить, чтобы его имя встречалось чаще, чем имена других персоналий (Частота).
3. Убедиться, что большинство упоминаемых книг («Кэрри», «Сияние») и фильмов напрямую связаны с ним в тексте (Связанность). Это усилит контекст и повысит оценку значимости.
Результат: Context Relevancy Algorithm определяет «Стивен Кинг» как Significant Object для данного документа.

Вопросы и ответы

В чем ключевое различие между «Most Probable Meaning» и «Context Relevancy Score»?

Это два разных этапа анализа, выполняемые разными ML-моделями. Most Probable Meaning отвечает на вопрос «Что это такое?» (Disambiguation). Например, система определяет, что «King» — это Стивен Кинг. Context Relevancy Score отвечает на вопрос «Насколько это важно здесь?» (Salience). Например, система определяет, что Стивен Кинг является ключевой фигурой в этой статье.

Описывает ли этот патент алгоритмы ранжирования Яндекса?

Нет, напрямую патент не описывает ранжирование в основной поисковой выдаче. Он описывает систему предоставления контекстной информации пользователю (например, в браузере). Однако технологии, лежащие в основе этой системы — распознавание сущностей (NER), устранение неоднозначности (Disambiguation) и оценка их значимости (Salience) — являются фундаментальными компонентами, которые Яндекс использует во время индексирования для понимания контента страниц.

Какие факторы влияют на то, будет ли сущность признана значимой (Salient)?

Патент выделяет несколько ключевых факторов для Context Relevancy Score: частота упоминания объекта в документе (с поправкой на глобальную частоту, как TF-IDF), популярность объекта в вебе (статистика поисков и количество страниц о нем), позиция объекта в тексте и тип объекта. Также критически важно наличие других связанных сущностей на странице.

Как SEO-специалист может повлиять на устранение неоднозначности (Disambiguation)?

Ключевым фактором является контекст. Чтобы помочь системе правильно определить Most Probable Meaning, необходимо окружать упоминание сущности связанными словами, фразами (QBST) и другими сущностями, которые однозначно указывают на нужное значение. Если вы пишете о Ягуаре (машине), упоминайте модели, скорость, двигатель; если о животном — джунгли, хищник.

Что такое Object Database и можем ли мы на нее влиять?

Object Database — это внутреннее хранилище Яндекса (Граф Знаний), содержащее известные сущности, их значения и признаки. Напрямую влиять на нее нельзя, но можно способствовать попаданию туда новых сущностей путем создания авторитетного контента о них, использования микроразметки Schema.org и обеспечения их упоминания в авторитетных источниках (например, Википедии).

Влияет ли позиция слова в тексте на его значимость?

Да, патент явно указывает «position of the given object» как один из факторов, используемых при определении значимости (расчете Context Relevancy Score). Традиционно, сущности, упомянутые ближе к началу документа или в заголовках, имеют больший вес.

Что означает «популярность» объекта в контексте этого патента?

Популярность определяется на основе статистики, такой как количество веб-поисков, связанных с этим значением объекта, и количество веб-страниц, посвященных ему. Более популярные сущности с большей вероятностью будут признаны значимыми при прочих равных условиях.

Как система определяет, сколько именно объектов считать значимыми на странице?

Патент предлагает два варианта. Первый — использование предопределенного порога (Context Relevance Threshold): все объекты, чей Context Relevancy Score выше порога, считаются значимыми. Второй — ранжирование всех объектов по Context Relevancy Score и выбор фиксированного количества Топ-N объектов (например, только 1 или 3 самых значимых).

Какое практическое значение этот патент имеет для Entity-Based SEO?

Этот патент предоставляет ценную информацию о том, как Яндекс технически реализует Entity-Based подход. Он детализирует, как система переходит от текстовых строк к конкретным сущностям (Disambiguation) и как оценивает их важность (Salience). Это подтверждает необходимость фокусироваться на создании четких семантических связей в контенте и структурировании текста для подчеркивания значимости ключевых сущностей.

Использует ли Яндекс машинное обучение в этом процессе?

Да, абсолютно. В патенте явно указано использование двух отдельных алгоритмов машинного обучения. Context Analysis Algorithm используется для устранения неоднозначности (Этап 1), а Context Relevancy Algorithm используется для определения значимости (Этап 2). Оба алгоритма обучаются на больших наборах данных.