Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс использует акустические характеристики голоса (интонацию, темп, паузы) для определения намерения пользователя в голосовых помощниках

    METHODS AND ELECTRONIC DEVICES FOR DETERMINATION OF INTENT ASSOCIATED WITH UTTERED UTTERANCE OF USER (Способы и электронные устройства для определения намерения, связанного с произнесенным высказыванием пользователя)
    • RU2711153C2
    • Yandex LLC
    • 2020-01-15
    • 2018-05-23
    2020 Алиса Голосовой поиск Интент пользователя Патенты Яндекс

    Яндекс патентует метод для умных помощников (типа Алисы), позволяющий точнее определять намерение пользователя (вопрос, утверждение) не только по тексту, но и по акустическим характеристикам речи (интонация, громкость, темп). Система комбинирует текстовые и акустические векторы и использует нейронную сеть (RNN) для классификации интента.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неоднозначности при интерпретации голосовых команд в системах умных персональных помощников (Intelligent Personal Assistant, IPA), таких как Яндекс Алиса. Традиционные системы часто фокусируются только на тексте, полученном после распознавания речи. Однако одно и то же текстовое содержание может соответствовать разным намерениям (интентам) в зависимости от интонации. Например, фраза «Сегодня отличный день» может быть утверждением или вопросом. Патент предлагает механизм учета акустических характеристик (просодии) речи для точного определения намерения пользователя и предоставления корректного ответа.

    Что запатентовано

    Запатентован метод определения намерения пользователя на основе мультимодального анализа произнесенного высказывания. Суть изобретения заключается в интеграции текстовых характеристик (семантика слов) и акустических характеристик (интонация, громкость, темп) в единый расширенный вектор характеристик. Этот комбинированный вектор обрабатывается Нейронной Сетью (NN), в частности Рекуррентной Нейронной Сетью (RNN), для классификации типа намерения.

    Как это работает

    Система получает аудиосигнал и выполняет анализ речи-в-текст (ASR), разделяя высказывание на речевые элементы (слова и паузы). Для каждого элемента генерируются два вектора: вектор текстовых характеристик (через встраивание слов; для пауз может быть нулевым) и вектор акустических характеристик. Акустический вектор создается путем детального анализа аудиосегмента с использованием скользящего окна и статистической агрегации,. Затем эти векторы объединяются в расширенный вектор. Последовательность этих векторов подается на вход RNN, которая оценивает вероятность принадлежности высказывания к определенному типу намерения (например, открытый вопрос, утверждение). Опционально система может определить целевое слово (контекстный анкорь), на которое пользователь сделал акцент.

    Актуальность для SEO

    Высокая (для сферы голосовых ассистентов). Понимание истинного намерения и просодии речи является критически важной задачей для развития голосовых помощников (таких как Алиса). Использование глубокого обучения (RNN) и мультимодального подхода (текст + аудио) соответствует современным тенденциям в области NLP и обработки речи.

    Важность для SEO

    Влияние на традиционное SEO для веб-поиска минимально (1/10). Патент описывает исключительно внутренние механизмы обработки голосового ввода в инфраструктуре персональных помощников (IPA). Он не затрагивает алгоритмы краулинга, индексации или ранжирования веб-документов в стандартном поиске Яндекса. Он актуален только для стратегий VSO (Voice Search Optimization) и понимания того, как интерпретируются голосовые запросы до формирования ответа.

    Детальный разбор

    Термины и определения

    Acoustic Feature Vector (Вектор акустических характеристик)
    Численное представление акустических свойств речевого элемента (слова или паузы). Создается путем статистической агрегации промежуточных векторов, относящихся к данному элементу. Включает данные о громкости, высоте тона, энергии, темпе и т.д..
    Extended Feature Vector (Расширенный вектор характеристик)
    Комбинированный вектор, созданный путем объединения (например, конкатенации) вектора текстовых характеристик и вектора акустических характеристик для одного речевого элемента. Является входными данными для нейронной сети.
    Intelligent Personal Assistant (IPA) (Умный персональный помощник)
    Программный агент (чат-бот, например, Яндекс Алиса), способный выполнять задачи или вести диалог на основе голосовых команд,.
    Intermediate Acoustic Feature Vector (Промежуточный вектор акустических характеристик)
    Численное представление акустических свойств короткого подсегмента аудиосигнала (например, 25 мс), полученного с помощью скользящего окна.
    Recurrent Neural Network (RNN) (Рекуррентная нейронная сеть)
    Тип нейронной сети (NN), адаптированный для обработки последовательностей данных за счет использования внутренних состояний (памяти). Используется в патенте для определения намерения. Упоминаются типы LSTM, GRU, BRNN.
    Sliding Window (Скользящее окно)
    Метод сегментации аудиосигнала на короткие, часто перекрывающиеся подсегменты для детального акустического анализа.
    Speech Element (Речевой элемент)
    Базовая единица анализа высказывания. Включает в себя как слова, так и паузы между ними. Каждый элемент имеет текстовые данные и соответствующий аудиосегмент.
    Target Word (Целевое слово / Контекстный анкорь)
    Слово в высказывании, на которое пользователь сделал акцент и которое определяет контекст запроса. Определяется опционально с помощью дополнительного MLA.
    Text Feature Vector (Вектор текстовых характеристик)
    Численное представление текстовых данных речевого элемента. Обычно создается с помощью процесса встраивания слов (Word Embedding). Для пауз может быть нулевым вектором.

    Ключевые утверждения (Анализ Claims)

    Патент защищает метод определения намерения в голосовом вводе, который учитывает не только текст, но и манеру речи (акустику).

    Claim 1 (Независимый пункт): Описывает основной метод.

    1. Выполнение анализа речи-в-текст (STT) цифрового аудиосигнала.
    2. Идентификация речевых элементов (слов ИЛИ пауз). Каждый элемент имеет текстовые данные и соответствующий аудиосегмент.
    3. Для каждого элемента выполняется генерация признаков:
      • Создание вектора текстовых характеристик.
      • Создание вектора акустических характеристик.
      • Создание расширенного вектора характеристик путем объединения текстового и акустического векторов.
    4. Использование Нейронной сети (NN), обученной оценивать вероятность определенного типа намерения, путем ввода в нее расширенных векторов характеристик.

    Claim 2 (Зависимый от 1): Уточняет, что Нейронная сеть является Рекуррентной нейронной сетью (RNN).

    Claim 5 (Зависимый от 1): Уточняет, что вектор текстовых характеристик для речевого элемента, являющегося паузой, является вектором с нулевыми значениями.

    Claim 7 (Зависимый от 1): Детализирует процесс создания вектора акустических характеристик. Это ключевой технический элемент.

    1. Определение акустических характеристик для каждого подсегмента соответствующего аудиосегмента путем применения скользящего окна.
    2. Создание промежуточных векторов акустических характеристик для каждого подсегмента.
    3. Создание финального вектора акустических характеристик для всего аудиосегмента на основе этих промежуточных векторов.

    Claim 11 (Зависимый от 7): Уточняет, что создание финального вектора из промежуточных происходит с использованием основанной на статистике комбинации (статистической агрегации).

    Claim 14 (Зависимый от 1): Описывает опциональный механизм определения контекста (акцента).

    1. Получение дополнительных данных, созданных NN (например, векторов входного гейта) для каждого введенного расширенного вектора, связанного со словом.
    2. При условии, что намерение относится к определенному типу, выполнение дополнительного MLA.
    3. Этот MLA использует дополнительные данные для определения целевого слова (контекстного анкоря), которое указывает на контекст высказывания.

    Где и как применяется

    Этот патент не применяется к стандартным слоям архитектуры веб-поиска Яндекс (CRAWLING, INDEXING, RANKING, BLENDER) для ранжирования веб-документов.

    Изобретение применяется исключительно в инфраструктуре сервиса Intelligent Personal Assistant (IPA), такого как Яндекс Алиса.

    QUERY PROCESSING (Обработка голосового запроса)
    Весь описанный механизм является частью слоя понимания запроса для голосовых интерфейсов. Система принимает на вход цифровой аудиосигнал и возвращает на выходе классифицированное намерение (интент) и, опционально, контекстный анкорь.

    Взаимодействие компонентов:

    • Система взаимодействует с модулем ASR для получения текста и сегментации аудио, с алгоритмами цифровой обработки сигналов для извлечения акустических признаков, и с модулем генерации ответа IPA, чтобы предоставить ответ, соответствующий намерению.

    На что влияет

    • Специфические запросы: Влияет на все типы голосовых запросов, обрабатываемых помощником. Наиболее критичен для неоднозначных запросов, где интонация определяет смысл (вопрос vs утверждение).
    • Форматы ответов: Влияет на то, как голосовой ассистент формулирует свой ответ. Система определяет, должен ли ответ быть развернутым (для открытого вопроса) или бинарным (да/нет для закрытого вопроса),.
    • Конкретные ниши или тематики: Не указано. Применимо ко всем голосовым взаимодействиям.

    Когда применяется

    • Условия работы и Триггеры: Алгоритм активируется каждый раз, когда система IPA обрабатывает голосовое высказывание пользователя. Он используется для определения намерения до того, как система сформулирует ответ или выполнит действие.
    • Пороговые значения: Система сравнивает выходную вероятность RNN с заранее определенным порогом, чтобы принять решение о типе намерения.

    Пошаговый алгоритм

    Процесс определения намерения из аудиосигнала.

    1. Получение данных: Сервер получает цифровой аудиосигнал высказывания пользователя.
    2. Анализ речи-в-текст (ASR): Выполняется анализ для определения последовательности речевых элементов (слов и пауз). Для каждого элемента определяются текстовые данные и временной интервал соответствующего аудиосегмента.
    3. Создание Векторов текстовых характеристик: Для каждого речевого элемента создается вектор с помощью процесса встраивания слов (Word Embedding). Для пауз этот вектор может быть нулевым.
    4. Создание Векторов акустических характеристик (Детальный процесс):
      1. Применение скользящего окна: К аудиосигналу применяется скользящее окно (например, 25 мс) с шагом (например, 10 мс) для создания множества перекрывающихся подсегментов.
      2. Создание промежуточных векторов: Для каждого подсегмента вычисляются акустические характеристики (громкость, высота тона и т.д.) и создается промежуточный вектор акустических характеристик.
      3. Статистическая агрегация: Промежуточные векторы, попадающие во временной интервал одного речевого элемента (слова или паузы), группируются. Затем они агрегируются с использованием статистических функций (минимум, максимум, среднее, стандартное отклонение и т.д.) для создания единого Вектора акустических характеристик для этого элемента.
    5. Создание Расширенных векторов: Для каждого речевого элемента вектор текстовых характеристик и вектор акустических характеристик объединяются (конкатенируются) в Расширенный вектор характеристик.
    6. Классификация намерения (RNN): Последовательность расширенных векторов подается на вход Рекуррентной нейронной сети (RNN).
    7. Вывод результата: RNN выводит вероятность того, что высказывание относится к определенному типу намерения.
    8. (Опционально) Определение Контекста: Система может использовать дополнительный MLA для анализа внутренних данных RNN (например, векторов входного гейта) и определения целевого слова (контекстного анкоря), на которое был сделан акцент.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы (Текстовые): Текстовое представление слов, идентифицированных системой STT (ASR). Используется для генерации векторов текстовых характеристик (эмбеддингов).
    • Мультимедиа факторы (Акустические): Исходный цифровой аудиосигнал. Является источником для извлечения акустических характеристик.
    • Временные факторы: Точное время начала и окончания слов и пауз (данные сегментации), определяемые системой STT. Критически важны для сопоставления акустических и текстовых признаков.

    Какие метрики используются и как они считаются

    • Акустические характеристики: Метрики, извлекаемые из аудиосигнала. Включают: уровень громкости, уровень энергии, уровень высоты тона (pitch), гармоничность, темп (например, число фонем за единицу времени), спектральные характеристики,.
    • Текстовые характеристики (Word Embedding): Векторные представления слов, полученные с помощью методов моделирования языка и NLP.
    • Статистические метрики агрегации: Для создания акустического вектора из промежуточных векторов используются статистические функции: статистики экстремума (минимум/максимум), диапазон значений, центроиды, стандартные отклонения, дисперсии, асимметрия, эксцесс, процентили и т.д.,.
    • Алгоритмы машинного обучения:
      • Рекуррентные нейронные сети (RNN): Используются для финальной классификации интента. Патент упоминает типы RNN, такие как LSTM, GRU, BRNN. Также упоминается возможность использования архитектуры Transformer.
      • Дополнительный MLA: Используется для определения целевого слова (контекстного анкоря).
    • Векторы входного гейта (Input Gate Vectors): Внутренние данные, генерируемые RNN во время обработки. Используются как входные данные для дополнительного MLA при определении контекстного анкоря.

    Выводы

    Патент описывает внутренние процессы Яндекс, предназначенные для улучшения понимания голосовых команд в системах персональных помощников (IPA), а не для ранжирования в веб-поиске. Практических выводов для традиционного SEO нет.

    Основные выводы о работе голосовых систем Яндекса:

    1. Мультимодальный подход к пониманию речи: Яндекс не полагается только на распознанный текст. Система интегрирует текстовые данные (что сказано) и акустические данные/просодию (как сказано) для определения намерения.
    2. Детальный акустический анализ: Акустические характеристики извлекаются с высокой степенью детализации. Использование скользящих окон и статистической агрегации позволяет улавливать сложные интонационные паттерны, которые отличают, например, вопрос от утверждения.
    3. Роль пауз: Паузы явно моделируются как речевые элементы наравне со словами. Они имеют свои акустические векторы (хотя текстовые векторы нулевые) и участвуют в анализе намерения.
    4. Использование RNN для анализа последовательностей: Рекуррентные нейронные сети используются как основной механизм для обработки последовательности речевых элементов и классификации общего намерения высказывания.
    5. Определение контекстного акцента: Система включает механизм для определения целевого слова (слова, на которое сделан акцент), что позволяет уточнить контекст запроса и предоставить более релевантный ответ.

    Практика

    ВАЖНО: Этот патент является инфраструктурным и описывает технологии обработки голосовых запросов в системах IPA (например, Яндекс Алиса). Он не дает практических выводов для традиционного SEO (продвижения веб-сайтов в органическом поиске).

    Best practices (это мы делаем)

    Для специалистов, занимающихся разработкой голосовых навыков или оптимизацией под голосовые интерфейсы (Voice Search Optimization — VSO):

    • Понимание важности интонации: При проектировании диалоговых систем следует учитывать, что Яндекс анализирует не только слова, но и интонацию. Необходимо предусматривать различные варианты ответов в зависимости от типа намерения (вопрос vs утверждение), даже если текстовая формулировка одинакова.
    • Учет контекстного акцента: Система Яндекса пытается определить, на какое слово пользователь сделал акцент (целевое слово). Это важно для понимания контекста запроса. Например, в запросе о мероприятиях в центре города акцент может быть на слове «мероприятия» (нужен список) или на слове «центр» (нужен маршрут).
    • Структурирование контента под разные типы вопросов: Поскольку система стремится различать открытые и закрытые вопросы,, полезно предоставлять в контенте как краткие ответы (подходящие для закрытых намерений), так и подробные объяснения (для открытых намерений).

    Worst practices (это делать не надо)

    • Приравнивание голосового и текстового поиска: Ошибочно полагать, что голосовой и текстовый поиск используют одинаковые механизмы понимания запроса. Этот патент доказывает, что Яндекс использует специализированные системы для голосового ввода, учитывающие акустику, которая отсутствует в текстовом поиске.

    Стратегическое значение

    Патент подтверждает стратегические инвестиции Яндекса в развитие экосистемы голосовых помощников и глубокое понимание речи (Speech Understanding), выходящее за рамки простого распознавания (Speech Recognition). Он демонстрирует применение сложных мультимодальных технологий (текст + аудио) и глубокого обучения (RNN) для повышения качества взаимодействия человека и машины в голосовых интерфейсах.

    Практические примеры

    Практических примеров для традиционного SEO (оптимизация краулинга, индексации, ранжирования веб-документов) на основе этого патента нет. Примеры ниже иллюстрируют работу запатентованного механизма в голосовом помощнике.

    Сценарий 1: Разрешение неоднозначности (Вопрос vs Утверждение)

    1. Высказывание: «Сегодня отличный день».
    2. Анализ (Текст): Текст идентичен в обоих случаях.
    3. Анализ (Акустика — Вариант А): Система детектирует восходящую интонацию в конце фразы (повышение высоты тона). Акустические векторы отражают это изменение.
    4. Классификация (RNN): На основе комбинации текстовых и акустических векторов RNN классифицирует намерение как «Вопрос».
    5. Ответ А: Информация о погоде.
    6. Анализ (Акустика — Вариант Б): Система детектирует нисходящую интонацию.
    7. Классификация (RNN): Намерение классифицируется как «Утверждение».
    8. Ответ Б: Разговорный ответ («Действительно»).

    Сценарий 2: Определение контекстного анкоря (Акцента)

    1. Высказывание: «Я могу пойти на мероприятие в центр города».
    2. Классификация намерения: Система определяет, что это вопрос.
    3. Анализ контекста (Дополнительный MLA): Система анализирует внутренние данные RNN (векторы входного гейта).
    4. Определение Целевого Слова (Вариант А): Акустические данные показывают акцент на слове «мероприятие». MLA определяет его как целевое слово.
    5. Ответ А: Список мероприятий в центре города.
    6. Определение Целевого Слова (Вариант Б): Акцент на слове «центр города» («downtown»). MLA определяет его как целевое слово.
    7. Ответ Б: Информация о маршруте или транспорте до центра города.

    Вопросы и ответы

    Влияет ли этот патент на ранжирование моего сайта в органическом поиске Яндекса?

    Нет. Этот патент описывает исключительно методы обработки голосовых высказываний для систем умных персональных помощников (IPA), таких как Яндекс Алиса. Он не содержит информации о факторах ранжирования веб-документов в традиционном поиске.

    В чем основная инновация этого патента?

    Основная инновация заключается в мультимодальном подходе к определению намерения пользователя. Система не просто анализирует распознанный текст, а создает комбинированный (расширенный) вектор, включающий как текстовые, так и акустические характеристики (интонацию, громкость, темп) для каждого слова и паузы. Это позволяет различать намерения, которые звучат по-разному, но имеют одинаковый текст.

    Что такое «акустические характеристики», которые анализирует система?

    Патент упоминает такие характеристики, как уровень громкости, уровень энергии, уровень высоты тона (pitch), гармоничность и темп (например, скорость произнесения фонем). Эти параметры позволяют системе понять интонацию и эмоциональную окраску речи.

    Зачем система анализирует паузы между словами?

    Паузы рассматриваются как полноценные речевые элементы наравне со словами. Они несут важную информацию о структуре высказывания и его акустических характеристиках (например, продолжительность паузы). Хотя текстовый вектор паузы нулевой, ее акустический вектор используется нейронной сетью для более точного определения намерения.

    Что такое Вектор акустических характеристик и чем он отличается от Промежуточного вектора?

    Промежуточный вектор акустических характеристик создается для очень короткого подсегмента аудио (например, 25 мс), полученного с помощью скользящего окна. Вектор акустических характеристик — это результат статистической агрегации (усреднения, поиска минимумов/максимумов и т.д.) всех промежуточных векторов, относящихся к одному целому речевому элементу (слову или паузе).

    Какой тип нейронной сети используется для определения намерения?

    Патент явно указывает на использование Рекуррентной нейронной сети (RNN). RNN хорошо подходят для анализа последовательностей данных, таких как последовательность расширенных векторов характеристик, соответствующих словам и паузам в высказывании. Также упоминается возможность использования архитектуры Transformer.

    Что такое «Целевое слово» или «Контекстный анкорь»?

    Это слово в высказывании, на которое пользователь сделал интонационный акцент. Определение этого слова помогает системе понять точный контекст запроса. Например, акцент может сместить фокус запроса с объекта действия на его местоположение или наоборот.

    Как система определяет «Целевое слово»?

    Это опциональный шаг. После того как основная RNN обработала высказывание, система анализирует внутренние данные, сгенерированные RNN (упоминаются «векторы входного гейта»). Эти данные подаются на вход дополнительному алгоритму машинного обучения (MLA), который обучен предсказывать, какое слово является акцентированным (целевым).

    Могу ли я как SEO-специалист повлиять на то, как этот алгоритм интерпретирует запросы?

    Напрямую повлиять на работу этого алгоритма нельзя, так как он анализирует характеристики голоса конкретного пользователя в момент произнесения запроса. Однако понимание этого механизма полезно при оптимизации под голосовой поиск (VSO) и создании контента, который может служить ответом на различные типы намерений (например, открытые и закрытые вопросы).

    Означает ли этот патент, что Яндекс понимает интонацию?

    Да, именно это и является основной целью патента. Анализ акустических характеристик, таких как высота тона (pitch) и уровень энергии, напрямую связан с интонацией говорящего. Это позволяет системе отличать, например, вопрос от утверждения, даже если текст одинаков, что значительно улучшает качество работы голосовых помощников.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.