Как Яндекс использует маскирование внимания для суммаризации нескольких сниппетов при генерации голосовых ответов

Яндекс патентует метод обучения нейросети (ANN) для создания единого краткого ответа (например, для Алисы) путем суммаризации нескольких сниппетов из поисковой выдачи. Ключевая технология — «маска ограничения внимания» (attention-limiting mask). Она заставляет модель оценивать контекст каждого сниппета изолированно, предотвращая смешивание фактов из разных источников при генерации финального ответа.

Описание

Какую задачу решает

Патент решает задачу генерации кратких, связных и точных ответов на основе нескольких источников информации, что критически важно для систем Intelligent Personal Assistant (IPA) (например, Алисы) и голосового поиска. Основная техническая проблема заключается в том, что при объединении (конкатенации) нескольких сниппетов из SERP в единую входную последовательность для суммаризирующей нейросети, стандартный механизм внимания может ошибочно смешивать контексты разных сниппетов. Это приводит к генерации некорректных или бессвязных ответов («галлюцинациям»). Патент предлагает механизм для сохранения контекстуальной целостности каждого отдельного сниппета в процессе кодирования.

Что запатентовано

Запатентован метод обучения Attention-based Neural Network (ANN) (Нейронной сети с механизмом внимания) для генерации суммаризированного ответа на основе нескольких сниппетов. Суть изобретения заключается в применении специальной «маски ограничения внимания» (attention-limiting mask) в кодировщике (Encoder) нейросети. Эта маска гарантирует, что при обработке слова из определенного сниппета (Input Group), механизм внимания учитывает только слова внутри этого же сниппета, игнорируя контекст других сниппетов во входной последовательности.

Как это работает

Система получает запрос и Топ-N релевантных сниппетов. Они объединяются в одну входную текстовую последовательность (textual input sequence), размеченную на входные группы (input groups), соответствующие исходным сниппетам. При обработке этой последовательности в ANN (архитектура Encoder-Decoder), кодировщик использует attention-limiting mask. Это заставляет модель извлекать контекст для каждого слова строго в пределах его исходного сниппета (и, опционально, текста запроса). Декодировщик затем генерирует финальный суммаризированный ответ. Также в процессе обучения используется аугментация данных путем перемешивания порядка сниппетов, чтобы результат не зависел от ранжирования в SERP.

Актуальность для SEO

Высокая. Генерация ответов с помощью больших языковых моделей и Трансформеров (к которым относится описанная ANN) является основой современных поисковых технологий и голосовых ассистентов. Решение проблемы контекстной изоляции при обработке нескольких документов (multi-document summarization) критически важно для повышения точности и качества генерируемых ответов.

Важность для SEO

Влияние на SEO умеренно высокое (6/10). Патент не описывает алгоритмы ранжирования. Он описывает, как Яндекс обрабатывает уже отобранные результаты для генерации Быстрых ответов или ответов голосового ассистента. Для SEO (особенно VSO — Voice Search Optimization) это имеет критическое значение. Патент подчеркивает, что для включения в суммаризированный ответ сниппет должен быть самодостаточным и понятным в изоляции, так как система намеренно игнорирует контекст соседних сниппетов в SERP во время кодирования.

Детальный разбор

Термины и определения

ANN (Attention-based Neural Network): Нейронная сеть с механизмом внимания. В контексте патента — модель архитектуры Encoder-Decoder (например, Трансформер), обученная для задачи суммаризации текста (sequence-to-sequence).
Attention-limiting mask (Маска ограничения внимания): Ключевой механизм изобретения. Маска, применяемая в механизме внимания кодировщика, которая ограничивает, на какие слова модель может «обращать внимание» при обработке текущего слова. В данном патенте она ограничивает внимание пределами текущей входной группы (сниппета).
Content Snippet (Сниппет контента): Краткий фрагмент текста из контент-ресурса, релевантный запросу.
Encoder/Decoder sub-network (Кодировщик/Декодировщик): Компоненты ANN. Кодировщик обрабатывает входную последовательность и преобразует ее в закодированное векторное представление (именно здесь применяется маска). Декодировщик генерирует выходную текстовую последовательность (ответ).
Input Group (Входная группа): Сегмент входной текстовой последовательности, соответствующий одному исходному сниппету. Входная последовательность состоит из последовательности таких групп.
IPA (Intelligent Personal Assistant): Интеллектуальный персональный ассистент (например, Алиса). Система, для которой предназначена технология генерации кратких голосовых ответов.
MLA (Machine Learning Algorithm) / Snippet Engine: Отдельный алгоритм машинного обучения (упомянутый в патенте как MLA 400), который используется для генерации кратких (concise) сниппетов из полных текстов документов. Эти сниппеты затем подаются на вход ANN.
Textual Input Sequence (Входная текстовая последовательность): Данные, подаваемые на вход ANN. Формируется путем конкатенации нескольких Content Snippets.
Textual Output Sequence (Выходная текстовая последовательность): Результат работы ANN. Суммаризированный контент (content summary), используемый как ответ на запрос.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методе обучения нейросети, а не на самой архитектуре.

Claim 1 (Независимый пункт): Описывает основной метод обучения ANN для генерации суммаризированного ответа.

На вход кодировщика подается обучающий запрос и обучающая входная последовательность. Эта последовательность состоит из нескольких сниппетов и размечена на входные группы (каждый сниппет = группа).
Кодировщик генерирует закодированное представление. Ключевой момент: генерация происходит с применением attention-limiting mask.
Функция маски: при генерации выхода внимания (attention-type output) для данного слова из данной входной группы, маска настроена так, чтобы учитывать (attend only to) ТОЛЬКО слова из этой же входной группы.
Таким образом, выход генерируется на основе локального контекста данной группы, а не контекстов других групп (других сниппетов).
Декодировщик генерирует предсказанную выходную последовательность.
Рассчитывается оценка штрафа (penalty score) путем сравнения предсказанной последовательности с эталонной (pre-determined).
Параметры ANN корректируются на основе этой оценки.

Claim 2 (Зависимый от 1): Уточнение к механизму внимания.

Генерация выхода внимания для слова основывается не только на контексте входной группы (как в Claim 1), но также и на контексте из обучающего запроса.

Claim 3 (Зависимый от 1): Описывает метод аугментации обучающих данных.

Помимо обучения на исходном наборе данных, ANN также обучается на аугментированном наборе. В аугментированном наборе входные группы (сниппеты) перемешаны (в другом порядке по сравнению с исходным набором). Это делается для того, чтобы модель не обучалась зависимости от порядка сниппетов (т.е. от ранжирования в SERP).

Claim 4 (Зависимый от 1): Описывает источник входных сниппетов.

Обучающие сниппеты могут быть сгенерированы с помощью отдельного алгоритма машинного обучения (MLA / Snippet Engine). Этот MLA предварительно обучен генерировать краткие сниппеты из полных документов.

Claim 5 (Зависимый от 1): Описывает двухфазный процесс обучения.

Фаза 1: Основное обучение ANN (как описано в Claim 1).
Фаза 2: Дополнительное обучение (упоминается в описании как «anti-hallucination» training phase). На этом этапе ANN дообучается на специально отобранном (pre-selected) наборе высококачественных данных (например, выбранных асессорами), чтобы улучшить качество генерации и избежать «странных» предсказаний (галлюцинаций).

Где и как применяется

Изобретение применяется на финальных этапах обработки запроса, после того как основное ранжирование уже выполнено.

BLENDER – Метапоиск и Смешивание (MetaSearch & Blending) и Генерация SERP

Система применяется для генерации обогащенных ответов (Wizards/Колдунщики), Быстрых ответов (Quick Answers), а также, в первую очередь, для формирования ответов голосового ассистента (IPA).

Взаимодействие с компонентами:

Search Engine (Поисковая система): Предоставляет Топ-N релевантных документов.
Snippet Engine (MLA 400): Генерирует краткие сниппеты для этих документов.
ANN (ANN 140): Принимает запрос и сниппеты, выполняет суммаризацию с использованием маски внимания.
IPA (Голосовой ассистент): Принимает результат суммаризации и преобразует его в аудио ответ (Text-to-Speech).

Входные и выходные данные:

На входе (в ANN): Текстовое представление запроса и Textual Input Sequence (конкатенация сниппетов, в описании упоминается пример с 15 сниппетами), размеченная на Input Groups.
На выходе (из ANN): Textual Output Sequence — единый суммаризированный текстовый ответ.

На что влияет

Специфические запросы: В первую очередь влияет на информационные запросы, на которые можно дать прямой ответ, и которые часто задаются голосом.
Форматы контента: Влияет на генерацию Быстрых ответов и ответов голосовых помощников. Не влияет на стандартное ранжирование «синих ссылок».
Типы контента: Предпочтение отдается контенту, из которого можно сгенерировать четкие, информативные и самодостаточные сниппеты.

Когда применяется

Алгоритм применяется, когда система определяет намерение пользователя получить быстрый ответ и считает возможным сгенерировать его путем суммаризации Топ-N результатов. Особенно актуально при взаимодействии пользователя через смарт-колонку или мобильный голосовой ассистент (IPA), где предоставление списка ссылок нецелесообразно.

Пошаговый алгоритм

Описан процесс использования обученной ANN (In-use phase).

Получение запроса: Пользователь произносит запрос (user utterance), который фиксируется устройством.
Преобразование в текст (STT): Аудио представление запроса преобразуется в текстовое представление.
Выполнение поиска: Текстовый запрос отправляется в поисковую систему для получения релевантных контент-ресурсов (SERP).
Генерация сниппетов: Для Топ-N результатов генерируются краткие сниппеты (например, с помощью Snippet Engine/MLA 400).
Формирование входной последовательности: Сниппеты объединяются (конкатенируются) в единую входную текстовую последовательность. Система размечает границы каждого сниппета как Input Group.
Обработка ANN (Суммаризация):
- Запрос и входная последовательность подаются в кодировщик (Encoder) ANN.
- Кодировщик обрабатывает последовательность, применяя attention-limiting mask. При обработке каждого слова внимание ограничено только словами из того же сниппета (Input Group) и, возможно, словами запроса (Claim 2).
- Кодировщик генерирует закодированное представление (encoded representation).
- Декодировщик (Decoder) генерирует выходную текстовую последовательность (суммаризированный ответ).
Преобразование в речь (TTS): Суммаризированный ответ преобразуется в аудио представление (machine-generated utterance).
Выдача ответа: Аудио ответ воспроизводится пользователю.

Какие данные и как использует

Данные на входе

Контентные факторы: Основные используемые данные — это тексты сниппетов, извлеченные из Топ-N результатов поиска, и текст самого запроса.
Структурные факторы: Используется структурная разметка входной последовательности — границы Input Groups (границы исходных сниппетов). Эта разметка критически важна для работы маски внимания.
Данные асессоров (для обучения): Эталонные (pre-determined) выходные последовательности, созданные асессорами, используются как целевые значения при обучении. Также используются специально отобранные наборы данных для второй фазы обучения (Claim 5).

Какие метрики используются и как они считаются

Патент описывает использование стандартных для нейросетевых моделей механизмов, но с ключевой модификацией:

Механизм Внимания (Attention mechanism): Используется для определения контекста слов.
Masked Attention (Маскированное внимание): Ключевая модификация. Применение attention-limiting mask изменяет стандартный расчет внимания. Веса внимания для слов, находящихся за пределами текущей Input Group, принудительно блокируются. Это гарантирует изоляцию контекста.
Penalty Score (Оценка штрафа): Метрика, используемая во время обучения для оценки разницы между сгенерированным ответом и эталонным ответом. Используется как функция потерь (Loss Function).
Алгоритмы машинного обучения: Используется архитектура ANN (Encoder-Decoder). В описании упоминаются Трансформеры как пример реализации. Для обучения используется метод обратного распространения ошибки (Backpropagation).

Выводы

Изоляция контекста сниппетов: Ключевой вывод — Яндекс при генерации суммаризированных ответов из нескольких источников намеренно изолирует контекст каждого сниппета на этапе кодирования. Система (ANN) не пытается понять сниппет, опираясь на информацию из соседних сниппетов в выдаче. Это достигается за счет attention-limiting mask.
Самодостаточность сниппета критически важна: Чтобы информация из вашего сниппета была корректно понята и использована в суммаризированном ответе, сниппет должен быть понятным и контекстуально полным сам по себе.
Ранжирование не гарантирует приоритет в ответе: Система специально обучается игнорировать порядок следования сниппетов (путем их перемешивания во время обучения — Claim 3). Это означает, что позиция в Топе (например, Топ-1 vs Топ-3) не является решающим фактором для приоритета информации в итоговом ответе; важнее качество и релевантность самого сниппета.
Двухэтапная обработка контента: Патент описывает сложную систему: сначала Snippet Engine (MLA) генерирует краткие сниппеты из документов, а затем ANN суммаризирует эти сниппеты. Это подчеркивает важность наличия на странице контента, который легко поддается краткому извлечению.
Фокус на качестве и борьбе с галлюцинациями: Упоминание двухфазного обучения (Claim 5) и фазы «анти-галлюцинаций» указывает на то, что Яндекс активно борется за фактическую точность и связность генерируемых ответов, используя курированные наборы данных для дообучения.

Практика

Best practices (это мы делаем)

Оптимизация контента под извлечение (Snippability): Структурируйте контент так, чтобы Snippet Engine мог легко извлечь краткий и точный ответ на конкретный вопрос (используя форматирование списков, таблиц, выделение определений).
Обеспечение контекстуальной полноты и самодостаточности ответов: Каждый фрагмент текста, который потенциально может стать сниппетом, должен быть автономен. Убедитесь, что ответ понятен без дополнительного контекста страницы. Это напрямую следует из механизма attention-limiting mask, который изолирует контекст.
Пример хорошего фрагмента: «Джон Гэвин Малкович — американский актер, номинированный на премию Оскар, родился 9 декабря 1953 года.» (Контекст полный).
Фокус на VSO (Voice Search Optimization): Создавайте контент, отвечающий на вопросы естественным языком, так как технология в первую очередь нацелена на IPA и генерацию голосовых ответов.

Worst practices (это делать не надо)

Создание фрагментов с неполным контекстом: Написание текста, где суть ответа зависит от предыдущего или последующего контекста на странице, снижает вероятность корректного использования в суммаризации.
Пример плохого фрагмента: «Он родился 9 декабря 1953 года и был номинирован на эту премию.» (Неясно, кто «он» и какая «эта премия», если Snippet Engine извлечет только это предложение).
Использование сложных конструкций для ответов: Использование слишком сложных предложений может затруднить работу как Snippet Engine, так и суммаризирующей ANN.
Надежда только на позицию в ранжировании: Полагаться на то, что позиция Топ-1 гарантирует использование вашего сниппета в качестве основного источника. Так как система перемешивает сниппеты при обучении (Claim 3), она стремится быть независимой от порядка ранжирования.

Стратегическое значение

Патент подтверждает стратегический сдвиг в поиске от предоставления ссылок к генерации прямых ответов, особенно в экосистеме голосовых помощников. Для SEO это означает, что оптимизация под нулевую позицию и голосовые ответы требует глубокого понимания того, как именно контент извлекается и обрабатывается системами суммаризации. Ключевым фактором успеха становится способность предоставить самый четкий, точный и контекстуально независимый фрагмент информации среди конкурентов в Топе.

Практические примеры

Сценарий: Генерация ответа на запрос «Основные симптомы простуды»

Исходные данные (SERP Топ-3):
- Сайт А: Сниппет: «При простуде часто болит горло и наблюдается насморк.»
- Сайт Б: Сниппет: «Пациенты также жалуются на головную боль и усталость.»
- Сайт В: Сниппет: «Иногда может повышаться температура до 37.5 градусов.»
Действие системы: Система объединяет их во входную последовательность:.
Обработка с Attention-Limiting Mask:
- При обработке слова «насморк» (Сайт А), система смотрит только на слова внутри Сниппета А.
- При обработке слова «усталость» (Сайт Б), система смотрит только на слова внутри Сниппета Б. Она НЕ связывает «усталость» с «насморком» из Сниппета А напрямую на этапе кодирования.
Проблема для SEO (Сайт Б): Сниппет Сайта Б контекстуально неполный («Пациенты также жалуются…»). Из-за маски система обрабатывает его изолированно. Это может привести к тому, что информация из этого сниппета будет проигнорирована или неверно интерпретирована, так как неясно, к чему относится «также».
Рекомендация для Сайта Б: Переписать контент так, чтобы сниппет был полным: «Симптомы простуды включают головную боль и усталость.». Это повышает шансы на корректную обработку ANN.

Вопросы и ответы

Что такое «маска ограничения внимания» (attention-limiting mask) и почему она важна?

Это ключевой механизм патента. Когда система суммаризации объединяет несколько сниппетов из SERP в один входной поток для нейросети, эта маска не позволяет механизму внимания «смотреть» за пределы текущего обрабатываемого сниппета. Это гарантирует, что контекст одного сниппета не смешивается с контекстом другого, предотвращая фактические ошибки и бессвязность в финальном сгенерированном ответе.

Как этот патент влияет на оптимизацию сниппетов (Featured Snippets/Быстрые ответы)?

Он критически повышает требование к самодостаточности и контекстуальной полноте сниппета. Поскольку система намеренно изолирует ваш сниппет при анализе (используя маску внимания), он должен быть понятен сам по себе. Если в сниппете есть местоимения («он», «это») без ясного референта внутри этого же сниппета, система может его неверно понять или проигнорировать.

Влияет ли этот патент на ранжирование сайтов?

Нет, напрямую не влияет. Патент описывает процесс, происходящий ПОСЛЕ того, как сайты были ранжированы. Он описывает, как Яндекс читает и суммаризирует Топ-N результатов для создания Быстрого ответа или ответа голосового помощника. Однако он влияет на видимость сайта в этих обогащенных форматах выдачи и в голосовом поиске.

Если мой сайт в Топ-1, будет ли мой сниппет основой для суммаризированного ответа?

Не обязательно. В патенте (Claim 3) описано, что во время обучения система специально перемешивает порядок сниппетов во входных данных (Data Augmentation). Это делается для того, чтобы нейросеть не обучалась зависимости от ранжирования. Система стремится извлечь лучшие факты из всех доступных сниппетов (до 15, согласно описанию), независимо от их порядка в SERP.

Что такое Snippet Engine (MLA), упомянутый в патенте?

Это отдельный алгоритм (MLA 400), который Яндекс использует для генерации кратких сниппетов из полного текста документа (Claim 4). Это первый этап обработки. Только после того, как этот движок создал сниппеты, они передаются в основную нейросеть (ANN) для финальной суммаризации. Это подчеркивает важность наличия на странице контента, который легко поддается извлечению (snippability).

Использует ли механизм внимания текст самого запроса?

Да. Согласно Claim 2, при обработке слова в сниппете механизм внимания учитывает две вещи: контекст внутри этого же сниппета (ограниченный маской) и контекст исходного запроса. Это помогает системе поддерживать релевантность генерируемого ответа запросу пользователя.

Что такое двухфазное обучение и фаза «анти-галлюцинаций»?

Патент описывает (Claim 5), что после основного обучения (Фаза 1) модель проходит дополнительное обучение (Фаза 2) на высококачественных, отобранных вручную данных (pre-selected training data sets). Эта фаза («anti-hallucination») направлена на устранение некорректных или бессвязных ответов (галлюцинаций), которые модель могла научиться генерировать на первой фазе. Это показывает фокус Яндекса на качестве и точности ответов.

Для каких типов устройств эта технология наиболее актуальна?

Она наиболее актуальна для устройств без традиционного экрана или с ограниченными возможностями ввода-вывода, таких как смарт-колонки (Яндекс Станция), а также для мобильных устройств при использовании голосовых ассистентов (Алиса). В этих сценариях краткий аудио ответ предпочтительнее списка ссылок.

Какая архитектура нейросети используется в этом патенте?

Используется Attention-based Neural Network (ANN) с архитектурой Encoder-Decoder. Хотя конкретная реализация не зафиксирована, в описании упоминаются Трансформеры (Transformers) как подходящий пример такой архитектуры, способный к параллельной обработке последовательностей и используемый в моделях типа BERT.

Как мне оптимизировать контент, учитывая этот патент?

Ключевая стратегия — это «атомарность» и ясность контента. Разбивайте информацию на логические блоки, каждый из которых дает четкий и контекстуально полный ответ на конкретный подзапрос. Убедитесь, что определения и ключевые факты сформулированы ясно и не требуют внешнего контекста для понимания. Это облегчит работу Snippet Engine и обеспечит корректную обработку суммаризирующей ANN.