Как Яндекс алгоритмически генерирует сниппеты и определяет тематику текста без использования внешних словарей

Яндекс патентует метод создания краткого изложения текста (например, для сниппетов в SERP) путем анализа самого текста без внешних онтологических словарей. Система выделяет «концептуальные фразы» и оценивает их важность на основе контекстно-независимых (лексическое сходство) и контекстно-зависимых (частота совместного упоминания в предложениях) связей. Предложения, содержащие наиболее важные фразы, выбираются для формирования краткого изложения или для категоризации документа.

Описание

Какую задачу решает

Патент решает задачу автоматического создания краткого изложения (реферирования) цифрового текста. Основная проблема, которую устраняет изобретение, — это зависимость существующих методов от онтологических словарей для определения важности фраз и предложений. Такие словари требуют ресурсов для создания и поддержки, а также ограничивают эффективность системы конкретными темами. Изобретение предлагает метод оценки важности предложений, основанный исключительно на анализе самого текста, что делает его универсальным и не зависящим от внешних баз знаний.

Что запатентовано

Запатентован способ экстрактивного обобщения (extractive summarization) и категоризации текста. Суть изобретения заключается в методе вычисления смысловой величины предложения (Sentence Semantic Value) без использования онтологических словарей. Эта величина рассчитывается на основе важности содержащихся в нем концептуальных фраз (Conceptual Phrases), которая определяется через два типа внутренних метрик: величину контекстно-независимой связи (CIR) и величину контекстно-зависимой связи (CDR).

Как это работает

Система анализирует текст и разбивает предложения на концептуальные фразы (например, словосочетания на основе существительных). Затем для каждой пары фраз вычисляются две метрики:

CIR (Контекстно-независимая связь): Оценивает лексическое сходство фраз на основе пересечения слов в них.
CDR (Контекстно-зависимая связь): Оценивает, насколько часто фразы появляются вместе в одних и тех же предложениях документа.

Эти метрики агрегируются для определения общей смысловой величины концепта (Concept Semantic Value) для каждой фразы. Затем вычисляется смысловая величина предложения как среднее значение величин концептов, которые оно содержит. Наконец, система ранжирует предложения по этой величине и выбирает Топ-N для формирования краткого изложения (сниппета) или использует Топ-концепты для категоризации.

Актуальность для SEO

Высокая. Автоматическая генерация сниппетов и кратких изложений является критически важной функцией поисковых систем. Методы NLP, которые не требуют поддержки сложных онтологий (например, статистические или unsupervised подходы), остаются актуальными для обеспечения скорости и масштабируемости. Описанный подход к анализу важности концептов внутри документа релевантен для задач реферирования.

Важность для SEO

Влияние на SEO значительно (7/10). Патент напрямую описывает механизм, который может использоваться Яндексом для генерации сниппетов в поисковой выдаче. Понимание того, как алгоритм оценивает важность предложений (через CIR и CDR), позволяет оптимизировать контент таким образом, чтобы нужные предложения с большей вероятностью попадали в сниппет, что критически влияет на CTR. Также он дает понимание механизма автоматической категоризации контента.

Детальный разбор

Термины и определения

CIR (Context-Independent Relation / Величина контекстно-независимой связи): Метрика, оценивающая семантическую связь (лексическое сходство) между двумя концептуальными фразами на основе пересечения слов, которые они содержат. Не зависит от расположения фраз в тексте. Рассчитывается как отношение числа общих слов к общему числу слов в целевой фразе.
CDR (Context-Dependent Relation / Величина контекстно-зависимой связи): Метрика, оценивающая связь между двумя концептуальными фразами на основе их совместного вхождения в предложениях документа. Зависит от контекста использования фраз.
Концептуальная фраза (Conceptual Phrase): Смысловой логический элемент текста, состоящий из одного или нескольких слов (например, словосочетание). Идентифицируется на основе грамматических правил или эвристик (например, главное слово — существительное) без использования словарей.
Смысловая величина концепта (Concept Semantic Value): Интегральная оценка важности концептуальной фразы в рамках всего документа. Вычисляется путем агрегации (например, перемножения) общего весового коэффициента CIR и общего весового коэффициента CDR этой фразы.
Смысловая величина предложения (Sentence Semantic Value): Оценка важности предложения. Вычисляется на основе смысловых величин концептов, содержащихся в этом предложении (например, как среднее арифметическое).
Не-онтологический анализ (Non-ontological analysis): Метод анализа текста, который не использует внешние онтологические словари или базы знаний. Анализ основан исключительно на самом тексте.

Ключевые утверждения (Анализ Claims)

Ядром изобретения является метод оценки важности предложений для целей резюмирования или категоризации, основанный на двухкомпонентном анализе концептуальных фраз.

Claim 1 (Формула изобретения, пункт 1): Описывает полный процесс создания краткого изложения.

Получение текста и его парсинг на концептуальные фразы с использованием параметров парсинга (грамматических правил/эвристик).
Выполнение первого анализа для создания CIR. Метрика CIR для фразы А по отношению к фразе B четко определяется как отношение: (Количество слов, совместно входящих в А и B) / (Количество слов в B).
Выполнение второго анализа для создания CDR. Метрика CDR для фразы А по отношению к фразе B четко определяется как отношение: (Число предложений, содержащих и А, и B) / (Общее число предложений, содержащих B).
Определение Общего весового коэффициента CIR и Общего весового коэффициента CDR для каждой фразы путем агрегации (суммирования) ее индивидуальных величин CIR и CDR по отношению ко всем остальным фразам.
Определение Смысловой величины концепта для каждой фразы путем агрегации ее Общего CIR и Общего CDR.
Определение Смысловой величины предложения путем агрегации Смысловых величин концептов, которые оно содержит.
Ранжирование предложений по их Смысловой величине и создание краткого изложения путем выбора предложений с наивысшим рангом.

Claim 10: Подчеркивает, что первый анализ (CIR) является не-онтологическим, т.е. анализируются только слова без использования внешних словарей.

Claim 16 и 17: Уточняют методы агрегации. Смысловая величина концепта может вычисляться путем перемножения Общих весовых коэффициентов CIR и CDR (Claim 16). Смысловая величина предложения может вычисляться как сумма величин концептов, деленная на число концептов в предложении (среднее арифметическое) (Claim 17).

Claim 23: Описывает альтернативное применение метода не для резюмирования, а для категоризации темы цифрового текста на основе наиболее высоко ранжированных концептуальных фраз.

Где и как применяется

Изобретение применяется на этапах индексирования и генерации поисковой выдачи.

INDEXING – Индексирование и извлечение признаков
На этом этапе система выполняет глубокий лингвистический анализ документа. Происходит парсинг текста, выделение концептуальных фраз, расчет метрик CIR, CDR и вычисление смысловых величин концептов и предложений. Эти данные могут сохраняться в индексе (Прямой индекс) для последующего использования. Также, как указано в Claim 23, механизм используется для определения тематической категории документа.

Генерация SERP (Слой рендеринга/пост-обработки)
Основное применение для SEO происходит на этапе формирования поисковой выдачи. Когда система готовит SERP, модуль генерации сниппетов (Snippets module) использует результаты работы этого алгоритма для создания краткого изложения документа. Алгоритм позволяет выбрать наиболее информативные предложения для включения в сниппет.

На что влияет

Генерация Сниппетов (SERP): Напрямую влияет на то, какие предложения будут выбраны для отображения в результатах поиска. Это критически важно для всех типов контента (статьи, товары) и запросов.
CTR и Поведенческие факторы: Качественный сниппет повышает кликабельность результата, что косвенно влияет на поведенческие факторы ранжирования.
Понимание структуры и тематики документа: Дает системе представление о том, какие концепты являются центральными и как они связаны между собой внутри текста, что используется для категоризации.

Когда применяется

Алгоритм применяется при обработке цифрового текста:

Во время индексации/переиндексации: Для предварительного расчета важности предложений, определения тематики и сохранения данных для быстрого формирования сниппета.
В реальном времени (на лету): В патенте упоминается возможность создания кратких изложений «налету», что может происходить при генерации SERP в ответ на запрос пользователя.

Пошаговый алгоритм

Процесс создания краткого изложения текста.

Получение и Парсинг текста: Система получает цифровой текст и разбивает его на предложения.
Выделение Концептуальных Фраз: Каждое предложение анализируется с применением параметров парсинга (например, грамматических правил для выделения noun phrases) для идентификации концептуальных фраз.
Нормализация: Концептуальные фразы нормализуются (лемматизация, стемминг, реорганизация слов) для обеспечения возможности сравнения.
Расчет CIR (Контекстно-независимая связь): Для каждой пары фраз (A, B) вычисляется CIR. Система определяет степень семантического сходства на основе пересечения слов.
$${CIR(A\to B) = \frac{\text{Число общих слов в A и B}}{\text{Число слов в B}}}$$
Расчет CDR (Контекстно-зависимая связь): Для каждой пары фраз (A, B) вычисляется CDR. Система определяет частоту их совместного появления в предложениях.
$${CDR(A, B) = \frac{\text{Число предложений, содержащих A и B}}{\text{Общее число предложений, содержащих B}}}$$
Агрегация Весовых Коэффициентов: Для каждой фразы вычисляются Общий весовой коэффициент CIR (сумма всех ее CIR) и Общий весовой коэффициент CDR (сумма всех ее CDR).
Расчет Смысловой Величины Концепта: Для каждой фразы вычисляется ее итоговая важность путем агрегации Общих коэффициентов CIR и CDR. Согласно патенту (Claim 16), используется перемножение:
$${Value_{Concept} = \text{Общий CIR} \times \text{Общий CDR}}$$
Расчет Смысловой Величины Предложения: Для каждого предложения вычисляется его важность путем агрегации Смысловых величин концептов, которые оно содержит. Согласно патенту (Claim 17), используется среднее арифметическое:
$${Value_{Sentence} = \frac{\sum Value_{Concept}}{\text{Число концептов в предложении}}}$$
Ранжирование и Выбор: Предложения ранжируются в порядке убывания их Смысловой величины. Выбирается Топ-N предложений.
Формирование Краткого Изложения: Выбранные предложения объединяются для создания резюме (сниппета), часто с сохранением их исходного порядка в тексте.

Какие данные и как использует

Данные на входе

Система использует исключительно данные, содержащиеся в самом анализируемом тексте. Внешние данные (онтологические словари, базы знаний) не используются.

Контентные факторы: Текст документа (слова).
Структурные факторы: Разбиение текста на предложения.
Грамматические факторы: Грамматическая структура слов (части речи), используемая на этапе парсинга для выделения концептуальных фраз.

Какие метрики используются и как они считаются

Ключевые метрики основаны на статистике совместного вхождения слов и фраз.

CIR (Величина контекстно-независимой связи): Рассчитывается для пары фраз (A, B) как отношение числа общих слов к числу слов в целевой фразе (B).
$${CIR(A\to B) = \frac{|A \cap B|}{|B|}}$$
Эта метрика также используется для определения типа семантической связи (род-вид, ассоциация, эквивалентность).
CDR (Величина контекстно-зависимой связи): Рассчитывается для пары фраз (A, B) как отношение числа предложений, где они встречаются вместе, к общему числу предложений, содержащих фразу B.
$${CDR(A, B) = \frac{\text{Sentences}(A \cap B)}{\text{Sentences}(B)}}$$
Общие весовые коэффициенты (Total Weights): Сумма индивидуальных CIR и CDR для каждой фразы.
$${TotalCIR(A) = \sum_{X \neq A} CIR(A\to X)}$$
$${TotalCDR(A) = \sum_{X \neq A} CDR(A, X)}$$
Смысловая величина концепта (Concept Semantic Value): Агрегация общих весовых коэффициентов. В патенте предлагается перемножение.
$${Value(A) = TotalCIR(A) \times TotalCDR(A)}$$
Смысловая величина предложения (Sentence Semantic Value): Агрегация величин концептов в предложении. В патенте предлагается среднее арифметическое.
$${Value(S) = \frac{\sum_{A \in S} Value(A)}{\text{Число концептов в S}}}$$

Выводы

Алгоритмическая генерация сниппетов: Патент описывает конкретный алгоритм экстрактивного резюмирования, который с высокой вероятностью используется Яндексом для генерации сниппетов в SERP и определения тематики.
Независимость от внешних знаний: Ключевая особенность метода — он оценивает важность предложений, основываясь только на внутренней статистике текста (совместное вхождение слов и фраз), без использования онтологических словарей.
Два аспекта важности концепта: Чтобы концепт считался важным, он должен быть (1) семантически связанным со многими другими концептами в тексте (высокий CIR) и (2) часто появляться с ними в одном контексте/предложении (высокий CDR).
Важность предложения = Средняя важность его концептов: Предложение получает высокий ранг, если оно состоит из высокозначимых концептуальных фраз. Использование среднего арифметического означает, что короткие, но насыщенные важными концептами предложения могут быть предпочтительнее длинных предложений с «шумовыми» фразами.
Внутренняя связность текста критична (Когерентность): Алгоритм поощряет тексты, где ключевые концепты четко определены, повторяются и контекстуально связаны друг с другом.

Практика

Best practices (это мы делаем)

Рекомендации направлены на повышение вероятности попадания ключевых предложений в сниппет и корректную категоризацию текста.

Четкое определение и связывание ключевых концептов: Убедитесь, что основные сущности и темы (концептуальные фразы) вашего текста четко сформулированы и семантически связаны (для высокого CIR). Используйте консистентную терминологию.
Усиление контекстуального совместного использования (Co-occurrence): Важно не просто упомянуть ключевые концепты, но и использовать их вместе в одних и тех же предложениях (для высокого CDR). Текст должен демонстрировать взаимосвязь между основными темами.
Создание «Сниппето-ориентированных» предложений: Формулируйте предложения средней длины, которые содержат несколько ключевых концептов и ясно выражают законченную мысль. Так как важность предложения рассчитывается как среднее значение его концептов, такие насыщенные предложения получат высокий балл.
Оптимизация вводных и итоговых абзацев: Эти разделы часто содержат высокую концентрацию ключевых концептов. Убедитесь, что введение и заключение четко резюмируют содержание статьи, используя важные концептуальные фразы.
Использование Ясных Грамматических Конструкций: Поскольку выделение концептуальных фраз основано на грамматических правилах (параметрах парсинга), используйте стандартные и ясные языковые конструкции, чтобы парсер корректно идентифицировал смысловые элементы.

Worst practices (это делать не надо)

Фрагментированный контент: Написание текста, где ключевые концепты разбросаны и редко встречаются вместе в одном предложении. Это приведет к низкому CDR и низкой общей оценке важности.
Чрезмерно длинные и сложные предложения: Использование очень сложных предложений с большим количеством второстепенных фраз может «размыть» важность ключевых концептов при расчете средней величины предложения.
Изолированное использование терминов: Упоминание важного термина только один раз или в изоляции от других связанных тем не позволит ему набрать достаточный вес по CIR и CDR.
Непоследовательная терминология: Постоянная смена формулировок для одного и того же понятия может привести к тому, что система воспримет их как разные концептуальные фразы с низким CIR, если не сработает механизм нормализации.

Стратегическое значение

Патент демонстрирует, как Яндекс может оценивать информативность и тематику текста без понимания его смысла в человеческом понимании (без онтологий), опираясь на статистику и лингвистический анализ. Для SEO это подчеркивает стратегическую важность создания структурированного, внутренне связного (когерентного) и консистентного контента. Оптимизация должна быть направлена не только на наличие ключевых слов, но и на демонстрацию их взаимосвязей внутри документа для управления представлением сайта в SERP (CTR) и корректной тематической классификации.

Практические примеры

Сценарий: Оптимизация сниппета для статьи о SEO

Допустим, у нас есть два предложения, конкурирующих за попадание в сниппет.

Предложение А (Длинное, размытое): «Поисковая оптимизация (SEO) является важной дисциплиной, которая в последние годы претерпела много изменений, и вам стоит обратить на нее внимание, если вы хотите добиться успеха в интернете.»

Предложение Б (Короткое, насыщенное): «Современная поисковая оптимизация (SEO) фокусируется на качестве контента и поведенческих факторах.»

Анализ по патенту:

Выделение концептов:
- А: «Поисковая оптимизация (SEO)», «важная дисциплина», «последние годы», «много изменений», «успех в интернете».
- Б: «Современная поисковая оптимизация (SEO)», «качество контента», «поведенческие факторы».
Оценка важности концептов (Предположение): Допустим, анализ всего текста показал, что «SEO», «качество контента» и «поведенческие факторы» имеют высокие значения Concept Semantic Value (высокие CIR и CDR, т.к. часто обсуждаются вместе), а фразы вроде «важная дисциплина» — низкие.
Расчет величины предложения (Среднее значение):
- Предложение А содержит 1 важный концепт и 4 низкозначимых. Средний балл будет невысоким.
- Предложение Б содержит 3 важных концепта. Средний балл будет высоким.
Результат: Предложение Б с большей вероятностью будет выбрано для сниппета, так как оно содержит более высокую концентрацию концептов, признанных важными в рамках всего документа.

Вопросы и ответы

Что такое CIR и CDR и чем они отличаются?

CIR (Context-Independent Relation) оценивает лексическое сходство двух фраз на основе того, сколько общих слов они содержат. Это не зависит от того, где фразы расположены в тексте. CDR (Context-Dependent Relation) оценивает, насколько часто две фразы появляются вместе в одних и тех же предложениях. CIR — это про схожесть слов, CDR — про контекст и совместное использование в документе.

Как этот патент влияет на генерацию сниппетов в Яндексе?

Патент описывает конкретный алгоритм для выбора наиболее важных предложений из текста. С высокой вероятностью этот механизм используется для формирования сниппетов в поисковой выдаче. Он предпочитает предложения, которые содержат концепты, часто встречающиеся и тесно связанные с другими важными концептами по всему документу (высокий CDR и CIR).

Что значит «без использования онтологических словарей»?

Это означает, что система не использует заранее подготовленные внешние базы знаний или словари для понимания смысла слов или связей между ними. Алгоритм оценивает важность фраз, основываясь исключительно на статистике их использования внутри самого анализируемого документа. Это делает метод универсальным и не зависящим от тематики.

Как алгоритм определяет, какие фразы являются «концептуальными»?

Патент указывает, что для этого используются «параметры парсинга», основанные на эвристиках или грамматических правилах. Например, система может идентифицировать словосочетания, где главным словом является существительное (noun phrases). Конкретные правила зависят от языка, но они основаны на грамматике, а не на словарях.

Влияет ли длина предложения на его шансы попасть в сниппет по этому алгоритму?

Да, влияет косвенно. Важность предложения рассчитывается как среднее арифметическое важности его концептов. Если длинное предложение содержит много маловажных («шумовых») фраз, его средний балл будет ниже, чем у короткого предложения, состоящего только из ключевых концептов. Предпочтение отдается информационно насыщенным предложениям.

Как оптимизировать текст, учитывая этот алгоритм?

Необходимо обеспечить высокую внутреннюю связность текста (когерентность). Ключевые концепты должны быть четко сформулированы (для CIR) и часто использоваться вместе в одних и тех же предложениях (для CDR). Создавайте предложения, которые резюмируют важные мысли и содержат несколько ключевых концептов — они имеют наивысший шанс попасть в сниппет.

Может ли этот алгоритм использоваться для определения тематики документа?

Да, это прямо указано в патенте (Claim 23). Система может назначать категорию темы документу, основываясь на концептуальных фразах, которые получили наивысшую смысловую величину (Concept Semantic Value) после анализа всего текста.

Если я использую синонимы, как это повлияет на расчет CIR и CDR?

Патент упоминает этап нормализации, который может включать приведение слов к главному синониму с помощью тезауруса или лемматизацию. Если нормализация выполнена корректно, синонимы могут быть распознаны как один и тот же концепт. Однако для надежности лучше придерживаться консистентной терминологии, чтобы максимизировать показатели CIR и CDR.

Является ли этот метод чисто статистическим или он использует нейросети (YATI/BERT)?

Описанный в патенте метод является преимущественно статистическим и основанным на грамматических правилах. Он отличается от нейросетевых подходов, таких как YATI или BERT, которые используют эмбеддинги для понимания смысла. Этот алгоритм фокусируется на явном расчете метрик совместного вхождения и лексического пересечения.

Влияет ли позиция предложения в тексте (начало, середина, конец) на его выбор?

Базовый алгоритм ранжирует предложения только на основе их смысловой величины, независимо от позиции. Однако патент упоминает вариант реализации (Claim 21), при котором выборка может производиться из разных частей текста (например, часть предложений из первой половины текста, часть из второй), чтобы обеспечить более полное покрытие темы в резюме.