Яндекс патентует метод глубокого анализа голосовых запросов для ассистентов (например, Алиса). Система учитывает не только распознанный текст (ЧТО сказано), но и акустические характеристики речи, такие как тон, темп и громкость (КАК сказано). Объединяя текстовые и акустические векторы для каждого слова и паузы, нейросеть (RNN) классифицирует тип интента (например, отличая вопрос от утверждения) и может определять контекстуальный акцент (Target Word).
Описание
Какую задачу решает
Патент решает проблему неоднозначности интента в голосовых запросах, обрабатываемых интеллектуальными персональными ассистентами (IPA), такими как Алиса. Традиционные системы, фокусирующиеся только на тексте, не могут различить интент в текстуально идентичных фразах (например, утверждение против вопроса), что приводит к нерелевантным ответам. Изобретение улучшает понимание запроса (NLU) путем интеграции анализа акустических свойств речи (просодии) для точной классификации намерения пользователя и генерации ответа, специфичного для этого интента (intent-specific information).
Что запатентовано
Запатентована система определения интента голосового высказывания, основанная на мультимодальном анализе. Суть изобретения заключается в генерации Enhanced Feature Vectors (Обогащенных векторов признаков) для каждой Speech Unit (единицы речи: слова или паузы). Эти векторы объединяют текстовые признаки (Word Embeddings) и сложные акустические признаки (тон, темп, энергия). Последовательность этих векторов обрабатывается нейронной сетью (например, RNN) для классификации интента.
Как это работает
Система получает аудиосигнал и выполняет распознавание речи (Speech-to-Text), разделяя его на Speech Units (слова и паузы). Для слов генерируется текстовый вектор. Параллельно система детально анализирует аудиосигнал: с помощью скользящего окна извлекаются низкоуровневые акустические признаки, которые затем статистически агрегируются для каждого Speech Unit (включая паузы). Текстовый и акустический векторы объединяются в Enhanced Feature Vector. Эта последовательность подается на вход нейронной сети (RNN), обученной предсказывать тип интента (например, открытый вопрос, закрытый вопрос, утверждение).
Актуальность для SEO
Высокая. Глубокое понимание пользовательского интента критически важно для развития голосового поиска и диалоговых систем (Алиса). Интеграция мультимодальных сигналов (текст + акустика) для понимания намерений и контекста является актуальным стандартом в области Conversational AI и NLU.
Важность для SEO
Влияние на SEO значительно (7/10), но специфично для Voice Search Optimization (VSEO). Патент не описывает механизмы ранжирования веб-документов. Однако он детально раскрывает, как Яндекс классифицирует голосовые запросы по типам интента и определяет контекстуальный акцент (Target Word). Это критически важно для SEO-специалистов, оптимизирующих контент под голосовой поиск, так как позволяет понять, какой тип ответа система будет искать для удовлетворения конкретного интента.
Детальный разбор
Термины и определения
- Acoustic Feature Vector (Вектор акустических признаков)
- Вектор, представляющий акустические свойства сегмента аудиосигнала, соответствующего одной единице речи. Генерируется путем статистической агрегации Intermediary Acoustic Feature Vectors.
- Auxiliary MLA (Вспомогательный алгоритм машинного обучения)
- Алгоритм, используемый для определения контекстуального анкоря (Target Word). Он принимает на вход вспомогательные данные (например, выходы Input Gate RNN) из основной нейронной сети (Claim 14).
- Enhanced Feature Vector (Обогащенный вектор признаков)
- Комбинированный вектор для единицы речи, созданный путем объединения (конкатенации) Textual Feature Vector и Acoustic Feature Vector. Служит входом для основной нейронной сети.
- Intent (Намерение, Интент)
- Цель пользователя. Патент фокусируется на классификации типа интента (Claim 13): open-ended question (открытый вопрос), closed-ended question (закрытый вопрос), statement (утверждение), exclamation (восклицание).
- Intermediary Acoustic Feature Vector (Промежуточный вектор акустических признаков)
- Низкоуровневый вектор акустических признаков, рассчитанный для короткого подсегмента аудиосигнала, полученного с помощью скользящего окна (Claim 7).
- IPA (Intelligent Personal Assistant)
- Интеллектуальный персональный ассистент (например, Алиса).
- NN/RNN (Neural Network/Recurrent Neural Network)
- Нейронная сеть (NN), в частности, рекуррентная (RNN) (Claim 2), используемая для классификации интента на основе последовательности Enhanced Feature Vectors.
- Speech Unit (Единица речи)
- Элементарный компонент высказывания, определенный в ходе Speech-to-Text анализа. Может представлять собой слово или паузу (Claim 1).
- Target Word (Целевое слово, Контекстуальный анкорь)
- Слово в высказывании, на которое делается акцент, определяющее контекст запроса (Claim 14).
- Textual Feature Vector (Вектор текстовых признаков)
- Векторное представление текстового содержания единицы речи, обычно генерируемое с помощью методов Word Embedding (Claim 4). Для пауз используется нулевой вектор (Claim 5).
Ключевые утверждения (Анализ Claims)
Патент защищает метод и систему, использующие комбинацию акустических и текстовых данных для определения интента голосового запроса.
Claim 1 (Независимый пункт): Описывает основной метод определения интента.
- Выполнение анализа Speech-to-Text аудиосигнала для определения Speech Units (слов или пауз). Каждая единица имеет текстовые данные и соответствующий аудиосегмент.
- Для каждой Speech Unit генерируются:
- Textual Feature Vector (на основе текста).
- Acoustic Feature Vector (на основе аудиосегмента).
- Enhanced Feature Vector (путем комбинации предыдущих двух). Claim 12 уточняет, что это конкатенация.
- Использование нейронной сети (NN), которая принимает на вход Enhanced Feature Vectors и обучена оценивать вероятность того, что интент относится к заданному типу. Claim 2 уточняет, что это может быть RNN.
Claim 7 (Зависимый от 1): Детализирует процесс генерации Acoustic Feature Vector.
Определение акустических признаков включает применение скользящего окна (sliding window) для разделения аудиосегмента на подсегменты. Для каждого подсегмента генерируются Intermediary Acoustic Feature Vectors. Финальный акустический вектор генерируется на основе этих промежуточных векторов.
Claim 11 (Зависимый от 7): Уточняет метод агрегации.
Генерация финального Acoustic Feature Vector из промежуточных векторов осуществляется путем их статистически обусловленной комбинации (statistically-driven combination).
Claim 14 (Зависимый от 1): Описывает дополнительный механизм определения контекста (фокуса) высказывания.
- Система получает вспомогательные данные (auxiliary data), сгенерированные основной NN для каждого входного вектора, связанного со словом (в описании патента указано, что это могут быть выходы «input gate» RNN).
- Если интент классифицирован (принадлежит к заданному типу), система запускает Auxiliary MLA.
- Auxiliary MLA использует эти данные для определения Target Word (целевого слова), которое указывает на контекст высказывания.
Где и как применяется
Изобретение применяется в инфраструктуре интеллектуальных персональных ассистентов (IPA), таких как Яндекс.Алиса, для обработки голосовых команд.
QUERY PROCESSING – Понимание Запросов
Это основной этап применения патента. Система функционирует как мультимодальный классификатор интента и экстрактор контекста для голосовых запросов.
- Входные данные: Цифровой аудиосигнал голосового запроса.
- Процесс: Включает Speech-to-Text анализ, параллельное извлечение текстовых и акустических признаков, их объединение и обработку с помощью RNN и Auxiliary MLA.
- Выходные данные: Классифицированный тип интента и идентифицированное ключевое слово, на котором был сделан акцент (Target Word).
RANKING и BLENDER
Патент напрямую не описывает ранжирование, но его результаты критически важны для последующих этапов. Определенный тип интента и контекст используются системой IPA для выбора правильного источника ответа (веб-поиск, база знаний, колдунщик/Wizard, приложение) и формирования релевантного ответа (intent-specific response). Например, для закрытого вопроса предпочтителен короткий ответ (Да/Нет), для открытого — развернутая информация.
На что влияет
- Специфические запросы: Влияет исключительно на голосовые запросы. Наибольшее влияние оказывается на фразы, где интонация меняет смысл при неизменном тексте (вопросы vs утверждения).
- Форматы контента: Влияет на предпочтение форматов ответа. Если система классифицировала запрос как closed-ended question, она будет искать короткие ответы. Если как open-ended question, она будет искать развернутые ответы.
- Контекстуальная точность: Механизм определения Target Word позволяет системе различать контекст. Например, в запросе «Могу ли я пойти на мероприятие в центре» акцент может быть на «мероприятие» (поиск списка событий) или на «в центре» (поиск маршрута).
Когда применяется
- Условия работы: Алгоритм применяется при обработке голосовых запросов, поступающих к интеллектуальному ассистенту (IPA) или в систему голосового поиска.
- Триггеры активации: Получение голосового ввода (spoken user utterance). Механизм определения Target Word активируется условно, после того, как основной интент был успешно классифицирован (Claim 14).
Пошаговый алгоритм
Процесс определения интента голосового запроса.
- Получение данных и ASR (Claim 1): Система получает аудиосигнал и выполняет Speech-to-Text анализ. Результат — последовательность Speech Units (слов и пауз) с временными метками (Claim 3).
- Генерация текстовых признаков (Claim 1, 4): Для каждой единицы генерируется Textual Feature Vector. Для слов используется Word Embedding, для пауз — нулевой вектор (Claim 5).
- Генерация акустических признаков (Двухэтапный процесс, Claim 7):
- Применение скользящего окна (например, 25 мс) с шагом (например, 10 мс) ко всему аудиосигналу для создания перекрывающихся подсегментов (Claim 8, 9, 10).
- Для каждого подсегмента вычисляются акустические характеристики (громкость, тон и т.д., Claim 6) и генерируется Intermediary Acoustic Feature Vector.
- Группировка промежуточных векторов, которые попадают во временной интервал конкретной Speech Unit.
- Статистическая агрегация (Claim 11) сгруппированных векторов для генерации финального Acoustic Feature Vector для этой единицы.
- Генерация обогащенных признаков (Claim 1): Для каждой единицы Textual Feature Vector и Acoustic Feature Vector комбинируются (конкатенируются, Claim 12) в единый Enhanced Feature Vector.
- Определение интента (NN/RNN) (Claim 1, 2): Последовательность обогащенных векторов подается на вход обученной нейронной сети (RNN). Сеть генерирует вероятность принадлежности запроса к определенному типу интента (Claim 13).
- Определение контекста (Опционально, Claim 14): Вспомогательные данные из RNN (например, состояния input gate) подаются на вход Auxiliary MLA. Этот MLA определяет, какое слово является Target Word (контекстуальным анкорем).
Какие данные и как использует
Данные на входе
- Мультимедиа факторы (Акустические данные): Цифровой аудиосигнал высказывания. Из него извлекаются низкоуровневые акустические признаки.
- Контентные факторы (Текстовые данные): Текст высказывания, полученный в результате Speech-to-Text анализа. Используется для генерации текстовых векторов (эмбеддингов).
- Временные факторы: Временные метки начала и конца каждой Speech Unit, критичные для сопоставления текста и звука.
Какие метрики используются и как они считаются
- Акустические признаки: В патенте (Claim 6) упоминаются:
- Volume level (Уровень громкости)
- Energy level (Уровень энергии)
- Pitch level (Уровень тона)
- Harmonicity (Гармоничность)
- Tempo (Темп)
- Также в описании патента упоминаются Spectral features (Спектральные признаки).
- Методы агрегации (Статистики): Для преобразования множества промежуточных акустических векторов в один финальный вектор используются статистические методы (Claim 11). В описании патента упоминаются: экстремумы (мин/макс), диапазоны, центроиды, стандартные отклонения, дисперсии, асимметрия (skewness), куртозис (kurtosis), перцентили, пиковые и средние статистики, полиномиальные регрессии.
- Алгоритмы машинного обучения:
- Neural Network (NN), в частности Recurrent Neural Network (RNN) (Claim 2), для классификации интента. В описании упоминается возможность использования механизма внимания (attention mechanism) и различных типов RNN (LSTM, GRU, BRNN).
- Auxiliary MLA для определения контекстуального анкоря.
Выводы
- Мультимодальный анализ голосовых запросов: Яндекс активно использует не только семантику (текст), но и акустические характеристики (просодию) для понимания голосовых запросов. Интонация является ключевым сигналом для различения интента в текстуально одинаковых фразах.
- Детализированное извлечение акустических признаков: Система проводит сложный статистический анализ акустики на уровне отдельных слов и пауз. Это достигается через двухуровневый процесс: анализ короткими скользящими окнами и последующая статистическая агрегация.
- Комбинированные векторы как основа анализа: Ключевым элементом является создание Enhanced Feature Vectors, объединяющих текстовую и акустическую информацию, которые затем обрабатываются нейронной сетью (RNN).
- Паузы как значимые единицы: Паузы обрабатываются наравне со словами (с нулевыми текстовыми векторами, но значимыми акустическими), что позволяет учитывать ритм и структуру речи при определении интента.
- Определение контекстуального фокуса (Target Word): Патент описывает механизм определения слова, на которое пользователь делает акцент (контекстуальный анкорь), используя внутренние состояния RNN (Input Gates). Это позволяет уточнить контекст запроса даже внутри одного типа интента.
Практика
Best practices (это мы делаем)
Хотя вебмастера не могут влиять на то, КАК пользователь произносит запрос, они могут оптимизировать контент (VSEO), чтобы он соответствовал интентам, которые Яндекс учится распознавать с помощью этого патента.
- Оптимизация под VSEO и естественный язык: Создавайте контент в разговорном стиле. Поскольку система анализирует интонацию и структуру речи, контент, написанный естественным языком, с большей вероятностью будет соответствовать запросу и может быть выбран для голосового ответа.
- Разделение контента под открытые и закрытые вопросы: Структурируйте информацию так, чтобы она отвечала как на закрытые (требующие Да/Нет или короткого факта), так и на открытые вопросы (требующие развернутого объяснения). Патент показывает, что Яндекс различает эти типы интентов на входе (closed-ended vs open-ended) и будет искать соответствующий тип ответа.
- Проработка FAQ и Вопрос-Ответных форматов: Четко формулируйте вопросы и ответы. Это увеличивает шансы попадания в блоки быстрых ответов или использования контента в качестве источника для голосового ассистента.
- Учет контекстуального анкоря (Target Word): При оптимизации страницы под кластер запросов убедитесь, что она покрывает разные контексты. Если система определит акцент на конкретном слове (например, «маршрут» вместо «событие»), она будет искать соответствующую информацию. Оптимизируйте под разные сценарии использования информации.
Worst practices (это делать не надо)
- Фокус только на текстовом соответствии ключевым словам: Игнорирование структуры естественной речи и разговорного стиля снижает шансы на успех в голосовом поиске. Система ищет ответ, соответствующий типу интента, а не просто набор ключевых слов.
- Создание монолитного контента без четкой структуры: Тексты, из которых сложно извлечь как краткий, так и развернутый ответ, будут менее эффективны, так как система не сможет адаптировать их под разные типы идентифицированных интентов.
- Игнорирование голосового поиска (VSEO): Рассматривать все запросы как текстовые — ошибка. Голосовые запросы имеют специфические интенты и контексты, которые Яндекс анализирует иначе, используя описанные в патенте механизмы.
Стратегическое значение
Патент подтверждает стратегическую важность голосовых технологий для Яндекса и его стремление к максимально точному пониманию пользователя (NLU) в диалоговых интерфейсах. Для SEO это означает, что оптимизация под голосовой поиск — это не просто оптимизация под длинные запросы, а оптимизация под естественное взаимодействие. Долгосрочная стратегия должна включать создание гибкого контента, который может быть легко адаптирован системой для ответа на разнообразные по типу и контексту голосовые запросы.
Практические примеры
Сценарий 1: Различение интента при одинаковом тексте
- Запрос А (Текст): «Погода хорошая». Произнесен с ровной интонацией (утверждение).
- Запрос Б (Текст): «Погода хорошая?». Произнесен с восходящей интонацией (вопрос).
- Действие системы: Текст идентичен. Но Acoustic Feature Vectors различаются (особенно по pitch level на последнем слове). RNN классифицирует А как Statement, Б как Question.
- SEO Применение (VSEO): Для Запроса Б система будет искать фактический ответ о погоде. Сайт с четким блоком текущей погоды (факт для ответа на вопрос) будет предпочтительнее.
Сценарий 2: Определение контекстуального анкоря (Target Word)
- Запрос: «Как добраться до КИНОТЕАТРА в центре» (акцент на «кинотеатра»).
- Действие системы: Интент определен как Open-ended question. Вспомогательный MLA анализирует auxiliary data из RNN и определяет, что акцент был на слове «кинотеатра» (Target Word).
- Результат: Система понимает контекст: нужен маршрут до конкретного типа заведения. Ответ будет включать карту и маршруты до кинотеатров в центре.
- SEO Применение (VSEO): Локальным сайтам (кинотеатрам) критически важно иметь хорошо оптимизированные страницы контактов и присутствие в Яндекс Бизнесе с указанием типа деятельности и адреса, чтобы соответствовать такому точному контекстуальному запросу.
Вопросы и ответы
В чем основное отличие этого патента от стандартного распознавания речи (Speech-to-Text)?
Стандартное распознавание речи фокусируется на преобразовании аудио в текст (ЧТО сказано). Этот патент идет дальше: он использует распознанный текст И исходный аудиосигнал для определения намерения (интента) пользователя. Ключевое отличие — это глубокий анализ акустических характеристик (КАК сказано: интонация, темп, громкость) и их объединение с текстовыми данными для понимания смысла, а не только слов.
Как система объединяет акустику и текст?
Для каждого слова или паузы создаются два вектора: текстовый (на основе Word Embedding) и акустический (на основе анализа тона, энергии, темпа и т.д. в этом аудиосегменте). Затем эти два вектора комбинируются (конкатенируются) в единый Обогащенный вектор признаков (Enhanced Feature Vector). Именно эта последовательность обогащенных векторов анализируется нейронной сетью для определения интента.
Что такое статистическая агрегация акустических признаков?
Слова имеют разную длительность. Чтобы получить один акустический вектор фиксированной длины для слова, система сначала анализирует множество коротких фрагментов аудио (с помощью скользящего окна), создавая промежуточные векторы. Затем признаки из этих векторов агрегируются с использованием статистик: среднее значение, максимум, минимум, стандартное отклонение, куртозис и т.д. Это позволяет уловить динамику изменения звука внутри одного слова.
Влияет ли этот патент на ранжирование моего сайта в обычном текстовом поиске?
Прямого влияния на алгоритмы ранжирования веб-документов нет. Патент описывает инфраструктуру обработки голосового ввода в системах IPA (Алиса). Однако он важен для VSEO (Voice Search Optimization), так как понимание интента и контекста голосового запроса определяет, какой тип контента система будет искать для формирования голосового ответа.
Как SEO-специалисту использовать знание о классификации открытых и закрытых вопросов?
Это критически важно для оптимизации контента под голосовые ответы. Если пользователь задает закрытый вопрос (например, «Нужна ли виза в Египет?»), система ищет краткий факт (Да/Нет). Если открытый («Что посмотреть в Египте?»), система ищет развернутый ответ или список. SEO-специалист должен убедиться, что на сайте присутствуют оба типа ответов в удобном для извлечения формате (FAQ, списки, четкие определения).
Что такое «Target Word» или контекстуальный анкорь, и почему это важно?
Это слово, на которое пользователь делает интонационный акцент, и которое определяет фокус запроса. В патенте описан механизм (Auxiliary MLA), который определяет этот анкорь. Это важно, потому что позволяет системе уточнить потребность пользователя. Например, в запросе «Билеты в кино на завтра» акцент на «кино» может означать поиск афиши, а акцент на «завтра» — поиск расписания на конкретный день.
Какую роль играют паузы в этом анализе?
Паузы обрабатываются как полноценные единицы речи (Speech Units). Для них не генерируется текстовый вектор (используется нулевой), но генерируется акустический вектор (длительность, уровень энергии в паузе). Это позволяет нейронной сети учитывать ритм и структуру речи, что важно для правильного определения границ фраз и общего интента.
Какая нейронная сеть используется для анализа?
В патенте упоминается Нейронная сеть (NN), и в частности Рекуррентная нейронная сеть (RNN) (Claim 2). RNN хорошо подходят для анализа последовательных данных, таких как речь. Также упоминается возможность использования механизма внимания (attention mechanism), что является стандартом для современных архитектур обработки естественного языка.
Как система определяет Target Word, используя данные из RNN?
В описании патента указывается, что для этого используются вспомогательные данные из RNN, например, выходы «входного шлюза» (Input Gate). Эмпирически было установлено, что эти данные коррелируют с тем, какие слова являются контекстуально важными. Вспомогательный алгоритм (Auxiliary MLA) обучается предсказывать Target Word на основе этих данных.
Что этот патент говорит о будущем голосового поиска?
Он указывает на то, что голосовой поиск движется от простого распознавания команд к полноценному диалогу и пониманию нюансов человеческой речи. Системы становятся мультимодальными, анализируя не только ЧТО сказано, но и КАК это сказано. Для SEO это означает необходимость перехода к созданию естественного, разговорного и хорошо структурированного контента.