Как Яндекс алгоритмически определяет важность предложений для генерации сниппетов и категоризации контента

Яндекс патентует метод оценки важности предложений в тексте для создания резюме (сниппетов) и определения тематики документа без использования внешних словарей. Система разбивает текст на «концептуальные фразы» и оценивает их значимость на основе двух метрик: семантической связи (CIR – насколько фразы пересекаются по словам) и контекстной связи (CDR – как часто фразы встречаются вместе в предложениях). Предложения, содержащие наиболее важные комбинации фраз, используются для генерации сниппета.

Описание

Какую задачу решает

Патент решает задачу автоматической генерации качественного резюме текста (экстрактивная суммаризация) и определения его тематической категории. Ключевая техническая проблема, которую решает изобретение, — это необходимость оценки «важности» или «значимости» отдельных предложений в документе без использования внешних онтологических словарей (ontology dictionaries). Это позволяет системе быть масштабируемой, независимой от тематики и не требовать постоянного обновления и хранения внешних ресурсов, повышая скорость обработки.

Что запатентовано

Запатентован метод и система для обработки текста, которая оценивает значимость предложений путем анализа Concept Phrases (концептуальных фраз) внутри самого документа. Суть изобретения заключается в расчете двух ключевых метрик для каждой фразы: Context-Independent Relation (CIR), оценивающей лексическое пересечение фраз, и Context-Dependent Relation (CDR), оценивающей частоту их совместного появления в предложениях. Комбинация этих метрик определяет общую важность фразы, а затем и важность содержащего ее предложения.

Как это работает

Система сначала разбивает текст на предложения, а затем идентифицирует в них Concept Phrases, используя эвристические/грамматические правила (например, identifying noun phrases). Затем для каждой пары фраз рассчитываются CIR и CDR. CIR выявляет лексическую близость (например, «компьютерные технологии» и «современные компьютерные технологии»). CDR выявляет контекстную связь (фразы часто встречаются в одном предложении). Для каждой фразы суммируются все ее CIR и CDR связи, формируя общие веса. Concept Meaning Value (значимость концепта) рассчитывается путем комбинации (например, перемножения) этих весов. Значимость предложения (Sentence Meaning Value) определяется путем агрегации (например, усреднения) значимости содержащихся в нем концептов. Наконец, предложения ранжируются, и топ предложений используется для генерации резюме (сниппета) или для категоризации документа.

Актуальность для SEO

Высокая. Алгоритмическая генерация сниппетов и автоматическая классификация документов являются критически важными задачами для поисковых систем. Методы, основанные на статистическом анализе текста и идентификации ключевых фраз без жесткой привязки к внешним базам знаний, остаются актуальными для обеспечения масштабируемости и скорости работы поиска.

Важность для SEO

Влияние на SEO значительно (8/10). Этот патент напрямую описывает механизм, который Яндекс может использовать для выбора текста сниппета в выдаче (SERP). Понимание того, как система идентифицирует и взвешивает «концептуальные фразы» и определяет важность предложений, позволяет SEO-специалистам оптимизировать структуру контента и ключевые абзацы для повышения вероятности попадания нужного текста в сниппет (влияя на CTR). Кроме того, механизм используется для тематической категоризации документа, что влияет на его общую релевантность.

Детальный разбор

Термины и определения

CDR (Context-Dependent Relation) Value: Значение контекстно-зависимого отношения. Метрика, оценивающая контекстную связь между двумя фразами (A и B). Представляет собой отношение (i) количества предложений, где фразы A и B встречаются совместно, к (ii) общему количеству предложений, содержащих фразу B в тексте.
CIR (Context-Independent Relation) Value: Значение контекстно-независимого отношения. Метрика, оценивающая лексическую связь между двумя фразами вне контекста их употребления. Представляет собой отношение совместного включения слов одной фразы в другую (пересечение слов). Используется для определения типа связи (род-вид, эквивалентность, ассоциация).
Concept Meaning Value: Значение значимости концепта. Итоговая оценка важности концептуальной фразы. Рассчитывается на основе комбинации ее общего веса CIR и общего веса CDR (в патенте предлагается перемножение).
Concept Phrase (Концептуальная фраза): Значимая логическая сущность в тексте, состоящая из одного или нескольких слов (например, «современные компьютерные системы»). Идентифицируется с помощью Parsing Parameters, часто это именные группы (noun phrases).
Parsing Parameter (Параметр парсинга): Набор эвристических или грамматических правил, используемых для идентификации Concept Phrases в тексте без использования онтологических словарей. Правила могут быть специфичны для языка.
Sentence Meaning Value: Значение значимости предложения. Итоговая оценка важности предложения. Рассчитывается путем агрегации (в патенте предлагается усреднение) значений Concept Meaning Value всех фраз, содержащихся в данном предложении.
Total CDR/CIR Weight (Общий вес CDR/CIR): Суммарный вес контекстных (CDR) или семантических (CIR) связей для данной фразы, полученный путем агрегации всех ее значений по отношению к другим фразам в тексте.

Ключевые утверждения (Анализ Claims)

Патент описывает систему суммаризации и категоризации текста, основанную на вычислении статистической и семантической значимости фраз внутри самого документа, без внешних онтологий.

Claim 1 (Независимый пункт): Описывает основной процесс генерации резюме (summary).

Получение цифрового текста.
Парсинг предложений для выделения Concept Phrases с использованием Parsing Parameters.
Выполнение первого анализа для генерации CIR Value (степень лексического пересечения слов между фразами).
Выполнение второго анализа для генерации CDR Value (частота совместной встречаемости фраз в предложениях).
Определение Total CIR Weight и Total CDR Weight для каждой фразы.
Определение Concept Meaning Value для каждой фразы на основе ее общих весов CIR и CDR.
Определение Sentence Meaning Value для каждого предложения на основе значимости содержащихся в нем фраз.
Ранжирование предложений на основе их Sentence Meaning Value.
Генерация резюме путем извлечения одного или нескольких предложений на основе их ранга.

Claim 16 и 17 (Зависимые пункты): Уточняют расчет Concept Meaning Value (Шаг 6 из Claim 1).

Значение определяется путем агрегации Total CIR Weight и Total CDR Weight. В частности, Claim 17 указывает, что эта агрегация может выполняться путем их перемножения (multiplication).

Claim 18 (Зависимый пункт): Уточняет расчет CIR Value (Шаг 3 из Claim 1).

Для расчета CIR значения данной фразы относительно целевой фразы необходимо: (i) определить количество слов данной фразы, которые также присутствуют в целевой фразе, и (ii) разделить это количество на общее количество слов в целевой фразе.

Claim 19 (Независимый пункт в списке Claims патента, но описанный как зависимый в тексте патента): Уточняет расчет Sentence Meaning Value (Шаг 7 из Claim 1).

Значение определяется путем агрегации Concept Meaning Values фраз в предложении. В частности, это может включать (i) сложение значений и (ii) деление суммы на количество фраз в предложении (т.е. усреднение).

Claim 19/25 (Альтернативное применение): В патенте есть также независимый пункт (обозначенный как Claim 19 в PDF, но Claim 25 в тексте патента), описывающий категоризацию текста.

Процесс повторяет шаги 1-8 из Claim 1. Однако вместо генерации резюме система выполняет присвоение Topic Category (тематической категории) тексту. Категория основывается на одной или нескольких высокоранжированных концептуальных фразах (higher ranked concept phrase).

Где и как применяется

Изобретение применяется на нескольких этапах обработки контента поисковой системой.

INDEXING – Индексирование и извлечение признаков

На этапе индексации или пост-обработки документа система может применять этот алгоритм для анализа текста.

Извлечение признаков: Система идентифицирует Concept Phrases, рассчитывает их Concept Meaning Value и Sentence Meaning Value. Эти данные могут сохраняться в индексе (Forward Index) как атрибуты документа.
Тематическая категоризация: На основе наиболее важных концептов документу может быть присвоена тематическая категория, что используется для классификации контента.

BLENDER – Метапоиск и Смешивание (Генерация SERP)

Основное применение — это генерация резюме, что в контексте поиска означает генерацию сниппетов.

Генерация сниппетов (Модуль Snippets): При формировании SERP модуль генерации сниппетов может использовать предварительно рассчитанные ранги предложений (Sentence Meaning Value) для выбора наиболее информативных фрагментов текста. Патент описывает выбор заранее определенного количества предложений с наивысшим рангом.

На что влияет

Все типы контента: Алгоритм не зависит от тематики и может применяться к любым текстовым документам (статьи, новости, описания товаров).
Формирование сниппетов (SERP): Напрямую влияет на то, какой текст будет показан пользователю в результатах поиска, что влияет на CTR.
Понимание тематики документа: Влияет на то, как система классифицирует документ и какие концепты считает основными (Topic Categorization).
Языковые ограничения: Метод требует наличия Parsing Parameters (грамматических правил) для конкретного языка для корректного выделения фраз.

Когда применяется

Алгоритм применяется, когда необходимо создать краткое резюме документа или определить его основную тему.

Триггеры активации: Процесс активируется при индексации/переиндексации документа или в момент генерации сниппета для SERP (в патенте упоминается генерация «on the fly»).
Условия работы: Система требует наличия текстового контента, состоящего из предложений, и набора эвристик (Parsing Parameters) для выделения фраз. Не требует внешних онтологий.

Пошаговый алгоритм

Получение текста: Система получает цифровой текст для обработки.
Парсинг и извлечение фраз:
1. Текст разбивается на предложения.
2. В каждом предложении выделяются Concept Phrases с помощью эвристических/грамматических правил (Parsing Parameters). Например, выделяются именные группы, определяется главное слово (main word).
(Опционально) Нормализация:
1. Слова во фразах приводятся к нормальной форме (лемматизация). Могут использоваться синонимы (тезаурус).
2. Фразы могут быть переупорядочены (например, главное слово в начало) для упрощения сравнения.
Расчет CIR (Context-Independent Relation):
1. Для каждой пары фраз (Фраза А, Фраза Б) рассчитывается CIR(A->B): количество общих слов делится на общее количество слов в Фразе Б.
2. (Опционально) Анализ CIR значений для определения типа связи: Род-вид, Эквивалентность, Ассоциация.
Расчет CDR (Context-Dependent Relation):
1. Для каждой пары фраз (Фраза А, Фраза Б) рассчитывается CDR(A, B): количество предложений, где А и Б встречаются вместе, делится на общее количество предложений, содержащих Фразу Б.
Расчет общих весов:
1. Для каждой фразы рассчитывается Total CIR Weight путем суммирования всех ее CIR значений.
2. Для каждой фразы рассчитывается Total CDR Weight путем суммирования всех ее CDR значений.
Расчет значимости концептов:
1. Для каждой фразы рассчитывается Concept Meaning Value. В патенте предлагается перемножение Total CIR Weight и Total CDR Weight.
Расчет значимости предложений:
1. Для каждого предложения рассчитывается Sentence Meaning Value. В патенте предлагается сложить Concept Meaning Value всех фраз в предложении и разделить на количество фраз в предложении (усреднение).
Ранжирование и применение:
1. Предложения ранжируются по убыванию Sentence Meaning Value. Фразы ранжируются по Concept Meaning Value.
2. Для генерации резюме: выбирается Топ-N предложений. Порядок предложений в резюме может сохраняться как в исходном тексте. Упоминается возможность выбора предложений из разных частей текста (например, первая и вторая половина).
3. Для категоризации: выбираются высокоранжированные Concept Phrases для определения тематической категории документа.

Какие данные и как использует

Данные на входе

Система разработана так, чтобы полагаться исключительно на внутренние данные документа и предопределенные правила, без использования внешних онтологий.

Контентные факторы:
- Текст документа (сырой текст).
Структурные факторы:
- Структура текста (разбиение на предложения и слова).
- Грамматическая структура (используется для парсинга).
Системные данные (Правила):
- Parsing Parameters: Эвристические и грамматические правила для идентификации Concept Phrases. Эти правила специфичны для каждого языка.
- (Опционально) Правила нормализации/лемматизации и тезаурус для определения синонимов.

Какие метрики используются и как они считаются

Ключевые метрики основаны на статистическом анализе частотности и пересечений.

CIR Value (Context-Independent Relation):
Рассчитывается для пары фраз (Given Phrase G, Target Phrase T):
$$ CIR(G \to T) = \frac{\text{Количество слов из G, присутствующих в T}}{\text{Общее количество слов в T}} $$
CDR Value (Context-Dependent Relation):
Рассчитывается для пары фраз (Phrase A, Phrase B):
$$ CDR(A, B) = \frac{\text{Количество предложений, содержащих А и B}}{\text{Общее количество предложений, содержащих B}} $$
Total CIR/CDR Weight:
Суммирование соответствующих значений CIR или CDR для данной фразы по отношению ко всем остальным фразам в тексте.
Concept Meaning Value:
Комбинация общих весов. В патенте предложено умножение:
$$ \text{ConceptValue}(P) = \text{TotalCIRWeight}(P) \times \text{TotalCDRWeight}(P) $$
Sentence Meaning Value:
Агрегация значимости концептов в предложении. В патенте предложено усреднение:
$$ \text{SentenceValue}(S) = \frac{\sum_{P \in S} \text{ConceptValue}(P)}{\text{Количество фраз в S}} $$

Выводы

Сниппеты формируются алгоритмически на основе важности предложений: Патент детально описывает конкретный алгоритм для ранжирования предложений в тексте по их значимости. Это ключевой механизм для экстрактивной суммаризации, используемой при генерации сниппетов в SERP.
Важность определяется двумя типами связей: семантической (CIR) и контекстной (CDR). Чтобы концепт считался важным (Concept Meaning Value), он должен иметь как сильные лексические связи с другими концептами (высокий CIR), так и часто встречаться с ними в одном контексте/предложении (высокий CDR). Важна интеграция концепта в структуру текста.
Система самодостаточна (без внешних онтологий). Алгоритм оценивает текст, используя только его собственное содержание и базовые грамматические правила (эвристики). Это делает его быстрым и масштабируемым.
Идентификация «Concept Phrases» основана на грамматике. Система использует эвристики (Parsing Parameters) для выделения значимых фраз, которые обычно являются именными группами. Четкая грамматическая структура текста критична для работы алгоритма.
Усреднение важности в предложении. Поскольку Sentence Meaning Value часто рассчитывается как среднее значение, длинные предложения с «водой» могут проиграть коротким, но насыщенным важными концептами предложениям.
Алгоритм используется для категоризации. Высокоранжированные концепты используются для определения тематической категории (Topic Category) документа, что может влиять на его общую релевантность и классификацию в поиске.

Практика

Best practices (это мы делаем)

Оптимизация лид-абзаца и ключевых определений: Критически важно включать четкие, информативные предложения в начало текста. Эти предложения должны содержать ключевые Concept Phrases и описывать суть документа. Это повышает их Sentence Meaning Value и вероятность выбора для сниппета.
Обеспечение сильных контекстных связей (Высокий CDR): Ключевые концепты страницы должны часто встречаться вместе в одних и тех же предложениях. Это увеличивает Total CDR Weight. Например, в статье про SEO, фразы «поисковая оптимизация» и «факторы ранжирования» должны появляться совместно в одном предложении.
Использование разнообразной, но связанной лексики (Высокий CIR): Используйте вариации ключевых фраз и QBST фразы (например, «SEO», «поисковая оптимизация», «оптимизация для поисковых систем»). Алгоритм CIR идентифицирует семантическую связь между ними (эквивалентность или род-вид), что усиливает общий вес этих концептов в тексте.
Четкая грамматическая структура и использование именных групп: Поскольку Concept Phrases идентифицируются с помощью грамматических эвристик (обычно как именные группы), текст должен быть грамматически правильным, а ключевые идеи должны быть выражены через четкие Noun Phrases.
Фокус на плотности важных концептов в предложении: Так как Sentence Meaning Value часто усредняется, предпочтение следует отдавать предложениям, которые содержат несколько высокозначимых концептов, а не размывать один концепт по длинному предложению с «водой».

Worst practices (это делать не надо)

Размывание контекста (Низкий CDR): Если ключевые концепты распределены по тексту так, что они редко пересекаются в рамках одного предложения, их контекстная связь будет низкой, что снизит их общую значимость.
Использование изолированных ключевых слов (Keyword Stuffing без связей): Простое повторение ключевого слова не гарантирует высокого веса. Алгоритм требует наличия связей (CIR и CDR) с другими фразами в тексте. Изолированные повторы будут иметь низкую значимость.
Сложные или грамматически некорректные предложения: Использование запутанных конструкций может помешать системе корректно идентифицировать Concept Phrases, что сделает этот контент «невидимым» для алгоритма.
Использование расплывчатых терминов и местоимений: Чрезмерное использование местоимений вместо четких концептуальных фраз затрудняет установление связей CIR и CDR.

Стратегическое значение

Патент подтверждает важность качества контента и его структурной организации на микроуровне (предложений и фраз). Он демонстрирует механизм, позволяющий Яндексу автоматически определять глубину проработки темы и выделять главное без опоры на внешние сигналы. Для SEO это означает, что стратегический фокус должен быть на создании текстов, которые не только содержат нужные ключевые слова, но и демонстрируют богатые семантические и контекстные связи между ними. Это критично для контроля сниппетов и повышения CTR в выдаче.

Практические примеры

Сценарий 1: Оптимизация сниппета для статьи «Как выбрать электросамокат»

Цель: Попасть в сниппет с ключевыми критериями выбора.

Плохая реализация (Низкие CIR/CDR связи):
«Выбор самоката – это важно. Электрические модели популярны. Обратите внимание на батарею. Также важен вес устройства. Многие бренды предлагают хорошие варианты.»
*Анализ:* Концепты («выбор самоката», «электрические модели», «батарея», «вес устройства») изолированы по предложениям. Контекстные связи (CDR) слабые.

Хорошая реализация (Сильные CIR/CDR связи):
«При выборе электросамоката для города ключевыми факторами являются емкость батареи и вес устройства. Современные городские электросамокаты должны обеспечивать достаточный запас хода.»
*Анализ:* В первом предложении ключевые концепты («выбор электросамоката», «город», «емкость батареи», «вес устройства») тесно связаны (высокий CDR). Фразы «выбор электросамоката» и «городские электросамокаты» имеют семантическую связь (высокий CIR). Вероятность выбора первого предложения для сниппета максимальна из-за высокого Sentence Meaning Value.

Сценарий 2: Усиление тематической категоризации

Цель: Убедиться, что страница о «Лечении артрита коленного сустава» правильно категоризирована для повышения релевантности.

Действия: Необходимо максимизировать Concept Meaning Value для целевых фраз.

Использовать вариации (Усиление CIR): «лечение артрита колена», «терапия артрита коленного сустава», «методы лечения гонартроза».
Связать их с другими важными концептами в предложениях (Усиление CDR): «Современные методы лечения артрита коленного сустава включают НПВС, инъекции гиалуроновой кислоты и физиотерапию.»

Результат: Фразы, связанные с лечением артрита, получат максимальный вес за счет перемножения CIR и CDR. Система идентифицирует их как основные концепты и использует для точной тематической категоризации документа.

Вопросы и ответы

Что такое «Concept Phrase» в этом патенте и как система их находит?

Concept Phrase — это значимая логическая единица текста, обычно именная группа (например, «факторы ранжирования поисковых систем»). Система находит их без использования словарей, применяя эвристические и грамматические правила (Parsing Parameters), специфичные для языка. Например, ищутся последовательности прилагательных и существительных и определяется главное слово. Для SEO это подчеркивает важность использования четких и грамматически правильных конструкций для выражения ключевых идей.

В чем разница между CIR и CDR, и что важнее?

CIR (Context-Independent) измеряет лексическое пересечение фраз (насколько они похожи по словам), выявляя семантические связи (например, синонимы или род-вид). CDR (Context-Dependent) измеряет, как часто фразы встречаются вместе в одном предложении (контекстная связь). Важны обе метрики, так как итоговая значимость концепта (Concept Meaning Value) рассчитывается путем их перемножения. Если одна из метрик низкая, общая значимость будет также низкой.

Как этот патент влияет на генерацию сниппетов в Яндексе?

Патент напрямую описывает механизм генерации экстрактивных сниппетов. Система рассчитывает значимость каждого предложения в тексте (Sentence Meaning Value) и ранжирует их. Сниппет формируется из предложений с наивысшим рейтингом. Зная это, SEO-специалисты должны стремиться концентрировать важные концепты с сильными CIR и CDR связями в тех предложениях, которые они хотят видеть в сниппете (например, в лид-абзаце).

Как использовать знание об этом алгоритме для улучшения позиций сайта?

Хотя патент в первую очередь описывает суммаризацию, он также указывает, что этот же механизм используется для тематической категоризации документа на основе наиболее важных концептов. Улучшая качество текста путем усиления семантических (CIR) и контекстных (CDR) связей между ключевыми фразами темы, можно добиться более точной категоризации документа системой. Это положительно влияет на его общую релевантность и ранжирование.

Влияет ли длина предложения на его шансы попасть в сниппет?

Да, косвенно влияет. Значимость предложения часто рассчитывается как среднее значение значимости его концептов (сумма значений делится на количество фраз). Очень длинные предложения, содержащие много незначимых фраз или «воды», могут иметь более низкую среднюю значимость, чем короткие и емкие предложения, состоящие только из важных концептов.

Поможет ли простое повторение ключевой фразы (Keyword Stuffing) согласно этому патенту?

Нет. Чтобы фраза получила высокий вес, она должна иметь сильные связи (CIR и CDR) с другими фразами в тексте. Повторение одной и той же фразы без ее интеграции в контекст с другими концептами не приведет к значительному увеличению ее Concept Meaning Value. Важна не частота сама по себе, а богатство связей.

Как система обрабатывает синонимы?

В патенте упоминается возможность использования тезауруса для приведения слов к их основному синониму на этапе нормализации. Даже без тезауруса, механизм CIR позволяет идентифицировать близкие по смыслу фразы (например, «SEO продвижение» и «поисковая оптимизация») как эквивалентные или ассоциативно связанные, если у них высокое лексическое пересечение. Это усиливает вес обоих концептов.

Применяется ли этот алгоритм ко всему тексту документа?

Да, в описании алгоритм анализирует весь цифровой текст для расчета матриц CIR и CDR и ранжирования всех предложений. Однако в патенте также упоминается возможность выбора предложений для резюме из разных частей текста (например, первая половина и вторая половина), чтобы обеспечить более полное покрытие темы.

Как обеспечить сильную контекстную связь (CDR) на практике?

Для обеспечения высокого CDR необходимо структурировать контент так, чтобы основные сущности и связанные с ними характеристики часто упоминались в рамках одного предложения. Например, вместо того чтобы писать «Мы предлагаем услугу X. Она имеет свойство Y», лучше написать «Наша услуга X обладает свойством Y». Это напрямую связывает концепты «Услуга X» и «Свойство Y» и увеличивает их CDR.

Насколько важна грамматическая правильность текста для этого алгоритма?

Критически важна. Идентификация Concept Phrases основана на эвристических и грамматических правилах (Parsing Parameters). Если текст написан с ошибками, содержит неясные формулировки или слишком сложные синтаксические конструкции, система может неверно выделить концептуальные фразы или пропустить их, что приведет к некорректной оценке значимости предложений.