Яндекс патентует метод автоматического реферирования контента (текст, аудио, видео). Система сегментирует контент, оценивает «полезность» (Utility) каждого фрагмента и определяет смысловые зависимости (Linkage) между ними. В резюме (например, сниппет) включаются не только самые важные фрагменты, но и те, которые необходимы для их понимания, даже если их собственная полезность низка.
Описание
Какую задачу решает
Патент решает задачу создания автоматических резюме (summaries) цифрового контента, которые были бы одновременно краткими и понятными (когерентными). Основная проблема традиционных методов реферирования — потеря контекста при выборе только самых информативных фрагментов, что приводит к созданию бессвязного резюме. Изобретение направлено на обеспечение понятности (comprehensibility) за счет включения необходимого контекста.
Что запатентовано
Запатентована система генерации резюме, основанная на балансе двух ключевых параметров: Utility Parameter (Параметр полезности/важности) и Linkage (Связность/Смысловая зависимость). Суть изобретения в том, что система гарантирует включение в резюме не только фрагментов с высокой полезностью, но и тех фрагментов, которые необходимы для их понимания (связаны с ними), даже если их собственная полезность низка.
Как это работает
Система анализирует контент (используя текстовую версию, например, транскрипт видео). Сначала проводится синтаксический и семантический анализ. Контент сегментируется на упорядоченные фрагменты. Для каждого фрагмента с помощью машинного обучения вычисляется Utility Parameter (уровень интереса). Параллельно вычисляется Linkage между парами фрагментов (понятен ли один без другого). При генерации резюме выбираются фрагменты с полезностью выше порога. Затем проверяются связи: если высокополезный фрагмент (Б) требует для понимания низкополезный фрагмент (А), то фрагмент А также добавляется в резюме.
Актуальность для SEO
Высокая. Автоматическое реферирование, генерация сниппетов, быстрых ответов (Featured Snippets) и выделение ключевых моментов видео являются критически важными функциями современных поисковых систем. Методы, обеспечивающие когерентность и понятность извлекаемой информации с использованием NLP и ML, крайне актуальны.
Важность для SEO
Влияние на SEO значительно (7/10). Хотя патент не описывает алгоритмы ранжирования, он раскрывает механизмы, которые Яндекс использует для глубокого понимания структуры контента и генерации сниппетов (SERP presentation). Понимание того, как система оценивает «полезность» (Utility) и идентифицирует «связи» (Linkage), критически важно для структурирования контента таким образом, чтобы ключевая информация была правильно извлечена и представлена пользователю, что напрямую влияет на CTR.
Детальный разбор
Термины и определения
- Digital Content (Цифровой контент)
- Информация, подлежащая реферированию. Включает текст, аудиофайлы (например, аудиокниги) и видеофайлы (например, лекции, фильмы).
- Utility Parameter (Параметр полезности)
- «Выражение уровня интереса, важности и информативности фрагмента цифрового контента для пользователя». Метрика, определяющая важность фрагмента. В патенте (Claim 1) определяется как предсказанный уровень интереса (predicted level of interest).
- Linkage / Interrelationship (Связность / Взаимосвязь)
- Определяется как «понятность пользователю одного фрагмента при исключении другого фрагмента». Если Фрагмент Б непонятен без Фрагмента А, то между ними существует Linkage. В патенте (Claim 1) определяется как показатель понятности (indicative of a comprehensibility).
- First Machine-Learning Algorithm (Первый MLA)
- Алгоритм машинного обучения, используемый для сегментации (разбиения) контента на фрагменты. Обучается на основе синтаксического анализа и аудио/визуальных признаков.
- Second Machine-Learning Algorithm (Второй MLA)
- Алгоритм машинного обучения, используемый для определения Utility Parameter каждого фрагмента. Обучается на основе семантического анализа и аудио/визуальных признаков.
- Third Machine-Learning Algorithm (Третий MLA)
- Алгоритм машинного обучения, используемый для определения Linkage между парами фрагментов. Обучается на основе семантического и синтаксического анализа.
- Textual Representation (Текстовое представление)
- Текстовая версия контента. Для аудио или видео используется транскрипт (стенограмма), который может быть сгенерирован автоматически.
- Degree of Proficiency (Степень владения материалом)
- Опциональный параметр, указывающий на уровень знаний пользователя в теме контента (например, «новичок» или «продвинутый»). Используется для корректировки определения Linkage.
Ключевые утверждения (Анализ Claims)
Патент защищает метод генерации резюме, который фокусируется на сохранении связности текста за счет включения необходимого контекста.
Claim 1 (Независимый пункт): Описывает основной метод генерации резюме.
- Система получает цифровой контент и выполняет синтаксический анализ его текстового представления.
- Контент сегментируется на упорядоченный набор фрагментов (включая Первый и Второй фрагменты).
- Выполняется семантический анализ каждого фрагмента.
- Определяется Utility Parameter (предсказанный уровень интереса) для каждого фрагмента.
- Определяется Linkage (понятность одного фрагмента без другого) для каждой пары фрагментов.
- Критерий включения 1: Если Utility Parameter Второго фрагмента превышает заданный порог (pre-determined threshold value), он включается в подмножество для резюме.
- Критерий включения 2 (Ядро изобретения): Если Второй фрагмент включен И определена связь (Linkage) между Вторым и Первым фрагментами (т.е. Второй непонятен без Первого), то Первый фрагмент ТАКЖЕ включается в подмножество.
- Генерируется резюме на основе этого подмножества.
Claim 11 (Зависимый от Claim 1):
Уточняется, что Utility Parameter Первого фрагмента (контекста, добавленного по связи) может НЕ превышать заданный порог. Это подчеркивает, что контекст включается ради связности, даже если он сам по себе не очень полезен.
Claims 2, 4, 7:
Сегментация (Claim 2), определение полезности (Claim 4) и определение связности (Claim 7) выполняются с использованием предварительно обученных алгоритмов машинного обучения (First, Second, Third MLA соответственно).
Claims 16, 17:
Система может учитывать Degree of Proficiency (степень владения материалом) пользователя (Claim 16). Эта информация используется при определении Linkage (Claim 17), так как продвинутому пользователю может потребоваться меньше контекста.
Claims 18, 19:
При работе с аудио (Claim 18) и видео (Claim 19) сегментация и определение связности дополнительно используют анализ аудио-характеристик (интонация, тембр, темп, паузы) и видео-характеристик (фон, сцена, цвет).
Где и как применяется
Изобретение применяется на этапах анализа контента и генерации его представления для пользователя.
INDEXING – Индексирование и извлечение признаков
На этапе индексации система применяет этот метод для глубокого понимания структуры документа. Процессы синтаксического и семантического анализа, сегментации (First MLA), а также вычисление Utility Parameter (Second MLA) и Linkage (Third MLA) могут выполняться на этом этапе. Результаты (идентификация ключевых фрагментов и их взаимосвязей) могут сохраняться в индексе (например, в Прямом Индексе). Для Rich Media (аудио/видео) на этом этапе происходит анализ мультимодальных сигналов.
BLENDER – Метапоиск и Смешивание (Генерация SERP)
Основное применение — это генерация представлений контента на странице выдачи (SERP).
- Генерация сниппетов: Модуль генерации сниппетов (snippets) использует этот метод для создания текстовых описаний, которые не только релевантны (высокая полезность), но и когерентны (включают необходимый контекст благодаря анализу Linkage).
- Расширенные ответы (Featured Snippets/Wizards): Для генерации прямых ответов критически важно извлечь точную информацию (Utility) и обеспечить ее понятность (Linkage).
- Видео-хайлайты (Key Moments): Метод используется для автоматической генерации ключевых моментов видео или его краткого содержания, используя анализ транскрипта и аудиовизуальных сигналов.
На что влияет
- Типы контента: Влияет на все типы цифрового контента. Особенно применимо к длинным формам, где важен контекст: статьи, лонгриды, аудиокниги, видеолекции, фильмы.
- Структура контента: Система анализирует внутреннюю логику и взаимосвязи. Контент с четкой структурой (Вопрос-Ответ, Термин-Определение), где Linkage легко идентифицируется, будет обрабатываться более эффективно.
- Представление в выдаче: Напрямую влияет на то, какие части контента будут показаны пользователю в качестве сниппета, и, следовательно, на CTR.
Когда применяется
Алгоритм применяется, когда системе необходимо создать сокращенную версию контента.
- Триггеры активации:
- Процесс генерации сниппета для документа на SERP.
- Запрос на генерацию резюме контента (например, внутренним сервисом или пользователем).
- Условия работы: Требует наличия текстового представления контента (для аудио/видео требуется распознавание речи).
- Пороговые значения: Система использует пороговое значение для Utility Parameter для контроля объема резюме. Патент описывает (Claim 12) возможность использования нескольких порогов для генерации резюме разной длины.
Пошаговый алгоритм
Процесс работы системы по генерации резюме.
- Получение и Подготовка:
- Система получает цифровой контент.
- Если контент не текстовый (аудио/видео), генерируется или извлекается его текстовое представление (транскрипт).
- (Опционально) Принимается порог полезности и/или степень владения материалом пользователя (Degree of Proficiency).
- Анализ и Сегментация:
- Выполняется синтаксический анализ текста.
- (Опционально, для A/V): Анализируются аудиовизуальные характеристики (интонация, паузы, темп, смена сцен).
- Контент сегментируется на упорядоченный набор фрагментов (используя First MLA, обученный на данных синтаксического анализа и A/V характеристиках).
- Оценка Полезности (Utility):
- Выполняется семантический анализ каждого фрагмента.
- Для каждого фрагмента определяется Utility Parameter (используя Second MLA, обученный на данных семантического анализа и A/V характеристиках).
- Оценка Связности (Linkage):
- Для каждой пары фрагментов определяется Linkage — степень понятности одного без другого (используя Third MLA, обученный на данных синтаксического и семантического анализа).
- Если указана Degree of Proficiency пользователя, она используется для корректировки оценки Linkage.
- Формирование Резюме (Отбор фрагментов):
- Инициализация пустого подмножества фрагментов.
- Шаг 1 (Отбор по Полезности): Все фрагменты, чей Utility Parameter выше заданного порога, добавляются в подмножество.
- Шаг 2 (Отбор по Связности): Для каждого фрагмента, уже включенного в подмножество, проверяются его связи. Если он связан с другим фрагментом (т.е. требует его для понимания), этот связанный фрагмент также добавляется в подмножество, даже если его полезность ниже порога.
- Генерация: Резюме генерируется на основе отобранного подмножества фрагментов.
Какие данные и как использует
Данные на входе
Система использует мультимодальный подход к анализу данных.
- Контентные факторы (Текстовые): Текст документа или транскрипт аудио/видео. Основа для синтаксического и семантического анализа.
- Мультимедиа факторы (Аудиовизуальные): Для аудио и видео контента используются (Claims 18, 19):
- Аудио: интонация, музыкальное сопровождение, тембр голоса, темп голоса, тон голоса, паузы.
- Видео: фон, сцена (scene), цвет, изображения.
Эти факторы используются при сегментации, определении полезности и связности. (Например, замедление темпа речи или интонационное выделение может указывать на высокую Utility).
- Пользовательские факторы:
- Опционально: заданный порог полезности (определяет длину резюме).
- Опционально: Degree of Proficiency (степень владения материалом пользователя).
- Данные обучения (Офлайн):
- Тренировочные наборы данных (training sample set) для MLA.
- Оценки асессоров по полезности фрагментов (Claim 14) и связности пар фрагментов (Claim 9).
Какие метрики используются и как они считаются
- Utility Parameter (Параметр полезности): Метрика важности/интереса фрагмента. Вычисляется с помощью Second MLA. В патенте приводится пример шкалы от 0 до 1.
- Linkage (Связность): Метрика, указывающая на необходимость одного фрагмента для понимания другого. Может быть бинарной или выражать степень связи (Claim 6). Вычисляется с помощью Third MLA.
- Threshold Value (Пороговое значение): Заранее определенное или заданное значение Utility Parameter. Используется как фильтр для первичного отбора фрагментов.
- Методы анализа текста (NLP): Упоминаются Syntax Analysis (синтаксический анализ) и Semantic Analysis (семантический анализ).
Выводы
- Когерентность (Связность) так же важна, как и Полезность: Ключевой вывод — Яндекс стремится не просто извлекать важную информацию, но и обеспечивать ее понятность. Система готова пожертвовать максимальной краткостью ради сохранения контекста в резюме (сниппете).
- Двухэтапный отбор контента: Система использует строгий механизм отбора: сначала по полезности (Utility), затем по необходимости контекста (Linkage). Фрагмент с низкой полезностью может попасть в резюме, если он необходим для понимания высокополезного фрагмента.
- Глубокий анализ структуры контента с помощью ML: Для реализации метода используются три отдельных алгоритма машинного обучения (MLA) для сегментации, оценки полезности и связности. Это указывает на сложный подход к пониманию внутренней логики документов, основанный на данных и оценках асессоров.
- Мультимодальный анализ (Текст + Аудио + Видео): Патент подчеркивает, что для аудио и видео используются не только транскрипты, но и аудиовизуальные сигналы (интонация, паузы, смена сцен) для определения важности и связности моментов.
- Персонализация резюме: Система может адаптировать генерируемые резюме под уровень знаний пользователя (Degree of Proficiency), изменяя требования к необходимому контексту.
Практика
Best practices (это мы делаем)
Эти практики помогут оптимизировать контент для эффективного реферирования системой Яндекса (например, для сниппетов и расширенных ответов).
- Четкая логическая структура контента: Структурируйте контент так, чтобы взаимосвязи (Linkage) между фрагментами были очевидны. Используйте явные связки и последовательное изложение. Это поможет Third MLA корректно определить зависимости.
- Близость контекста и ключевой информации: Размещайте важную информацию (высокая Utility) и необходимый для ее понимания контекст (низкая Utility, но сильная Linkage) близко друг к другу. Например, термин и его определение, вопрос и ответ должны формировать единый или соседние фрагменты.
- Выделение ключевых мыслей: Используйте форматирование (списки, заголовки, выводы) для акцентирования внимания на важных фрагментах. Это может положительно повлиять на оценку Utility Parameter с помощью Second MLA.
- Оптимизация видео и аудио (VSEO/ASEO):
- Предоставляйте качественные транскрипты (субтитры), так как они являются основой для анализа.
- Используйте аудиовизуальные приемы для выделения важных моментов: паузы перед ключевой фразой, изменение интонации, замедление темпа речи, вывод тезисов на экран. Патент прямо указывает, что эти сигналы анализируются для определения Utility и сегментации.
- Использование формата FAQ: Структура «Вопрос-Ответ» идеально соответствует модели Utility (Ответ) и Linkage (Вопрос). Система с высокой вероятностью включит и вопрос, и ответ в резюме (сниппет).
Worst practices (это делать не надо)
- Разделение контекста и сути: Не разносите далеко друг от друга связанные по смыслу части контента (например, упоминание проблемы в начале статьи, а решение — в конце без явных связок). Система может не установить Linkage, и в резюме попадет только решение без контекста, что сделает его непонятным.
- Сложная и запутанная структура: Избегайте неоднозначных логических связей, которые могут затруднить синтаксический и семантический анализ, а также работу Third MLA.
- Монотонность в аудио/видео: Монотонная речь без интонационных акцентов и пауз усложняет для системы задачу определения Utility Parameter на основе аудиосигналов, что ухудшает генерацию ключевых моментов.
Стратегическое значение
Патент подтверждает стратегический фокус Яндекса на качестве представления информации и развитии мультимодального поиска. Для SEO это означает, что структура, логика и качество продакшена контента имеют первостепенное значение. Недостаточно просто иметь релевантную информацию; она должна быть структурирована так, чтобы автоматические системы могли легко определить ее важность (Utility) и необходимые зависимости (Linkage). Это критично для успеха в получении расширенных сниппетов и трафика из сервисов, полагающихся на автоматическое реферирование.
Практические примеры
Сценарий 1: Оптимизация статьи для Featured Snippet (Определение)
- Задача: Получить расширенный сниппет по запросу «что такое когерентность текста».
- Плохая реализация: В первом абзаце используется термин «когерентность». Через три абзаца дается объяснение этого понятия без явной привязки к термину.
- Анализ системы: Система может определить объяснение как высокополезный фрагмент (Utility > Порог). Но Third MLA может не установить сильную связь (Linkage) с первым абзацем из-за расстояния. Результат: Сниппет может содержать объяснение без термина, что бессмысленно.
- Хорошая реализация: Создается четкий блок: «Когерентность текста — это».
- Анализ системы: Определение имеет высокую Utility. Термин имеет низкую Utility, но сильную Linkage (определение непонятно без термина). Система включает обе части в сниппет.
Сценарий 2: Оптимизация видеолекции (Мультимодальный анализ)
- Задача: Увеличить вероятность попадания ключевых моментов лекции в автоматические хайлайты (Key Moments) Яндекса.
- Действия:
- Перед изложением ключевого тезиса спикер делает паузу и меняет интонацию (увеличивает Utility за счет аудиосигналов).
- Спикер четко проговаривает: «Итак, основной вывод следующий:». Перед этим он кратко напоминает: «Мы рассматривали».
- Анализ системы: Система анализирует транскрипт и аудиосигналы. Фрагмент с выводом получает высокую оценку Utility. Фрагмент с напоминанием проблемы получает низкую Utility, но идентифицируется как необходимый контекст (Linkage). В хайлайт включаются оба фрагмента.
Вопросы и ответы
Что такое «Utility Parameter» в этом патенте и как его повысить?
Utility Parameter (Параметр полезности) — это оценка того, насколько фрагмент контента важен, интересен или информативен для пользователя. Он определяется с помощью алгоритма машинного обучения (Second MLA) на основе семантического анализа текста. Для аудио/видео также учитываются интонация, паузы, темп речи. Чтобы повысить его, нужно четко формулировать ключевые мысли, давать конкретные ответы, определения, выводы и использовать структурирование (списки, заголовки) для акцентирования внимания.
Что такое «Linkage» и почему это важно для SEO?
Linkage (Связность) определяет, насколько один фрагмент понятен без другого (например, ответ без вопроса). Это критически важно для SEO, потому что Яндекс стремится создавать когерентные (понятные) сниппеты. Если система выберет ваш ответ (высокая Utility), но не сможет найти или распознать связанный с ним вопрос (Linkage), она может показать непонятный сниппет или вообще отказаться от использования вашего контента в качестве источника для резюме.
Может ли фрагмент с низкой полезностью попасть в сниппет согласно этому патенту?
Да, это ключевая особенность изобретения. Если фрагмент А имеет низкую полезность, но он необходим для понимания фрагмента B (который имеет высокую полезность и был выбран для резюме), то фрагмент А будет также включен в сниппет. Типичный пример — включение вопроса перед ответом в FAQ-сниппете.
Как этот патент влияет на структуру контента на сайте?
Он подчеркивает важность четкой и логичной структуры. SEO-специалистам следует убедиться, что контекст и ключевая информация расположены близко друг к другу или имеют явные логические связки. Структуры типа «Термин-Определение», «Вопрос-Ответ», «Проблема-Решение» являются оптимальными, так как облегчают системе задачу идентификации как полезности, так и связности.
Применяется ли этот метод к видеоконтенту и как именно?
Да, патент явно описывает применение к видео и аудио. Система анализирует текстовый транскрипт (распознанную речь), а также аудиовизуальные сигналы: интонацию, темп речи, паузы, тембр голоса, смену сцен, фон. Это означает, что манера подачи материала в видео (например, выделение голосом важных моментов) напрямую влияет на то, как Яндекс будет его реферировать (например, создавать автоматические Key Moments).
Что такое First, Second и Third MLA, упомянутые в патенте?
Это три разных алгоритма машинного обучения, используемые в системе. First MLA отвечает за разделение контента на фрагменты (сегментацию). Second MLA оценивает полезность (Utility) каждого фрагмента. Third MLA оценивает связность (Linkage) между парами фрагментов. Все они используют данные синтаксического и семантического анализа.
Влияет ли длина контента на работу этого алгоритма?
Патент указывает, что длина генерируемого резюме зависит от установленного порога полезности и не имеет жестких ограничений. Сам метод предназначен для обработки контента любой длины. В длинном контенте (лонгридах, лекциях) риск разделения сути и контекста выше, что делает применение этого алгоритма особенно важным для сохранения связности.
Что означает «Degree of Proficiency» и как это используется?
Это степень владения материалом пользователя (например, новичок или эксперт). Система может учитывать этот параметр при определении связности (Linkage). Логика такова: эксперту может потребоваться меньше контекста для понимания ключевого фрагмента, чем новичку. Это позволяет генерировать более персонализированные и краткие резюме для продвинутых пользователей.
Используются ли асессоры в этом процессе?
Да, патент упоминает использование асессоров (Claims 9 и 14). Они могут оценивать как полезность отдельных фрагментов, так и степень связности между парами фрагментов. Эти оценки используются для обучения и верификации алгоритмов машинного обучения (MLA), а также могут служить дополнительными входными параметрами при работе системы.
Является ли этот патент описанием системы генерации сниппетов Яндекса?
Патент описывает общий метод генерации резюме (summarization) для любого цифрового контента. Генерация сниппетов на странице поисковой выдачи (SERP) является одним из наиболее вероятных и важных применений этого метода в контексте поиска. Принципы, заложенные в патенте (баланс полезности и когерентности), напрямую применимы к созданию качественных сниппетов и быстрых ответов.