Как Google использует окружающие звуки и изображения (контекст) для ответов на голосовые запросы

Google использует данные окружающей среды (фоновый звук, изображения), полученные с мобильного устройства одновременно с голосовым запросом, чтобы понять контекст. Если пользователь спрашивает «Кто режиссер этого шоу?», система идентифицирует шоу по звуковой дорожке или изображению и дает точный ответ.

Описание

Какую задачу решает

Патент решает проблему неоднозначности в голосовых запросах, относящихся к непосредственному окружению пользователя. Когда пользователь задает вопрос о медиаконтенте, воспроизводимом поблизости (например, «Что это за песня?» или «Кто режиссер этого фильма?»), поисковая система не знает, к чему относится «это». Изобретение позволяет системе понять контекст запроса, не требуя от пользователя явного указания названия контента.

Что запатентовано

Запатентована система, которая объединяет обработку голосовых запросов на естественном языке (spoken natural language query) с данными окружающей среды (environmental data), захваченными одновременно с запросом. Система использует распознавание контента (например, аудио-фингерпринтинг или распознавание изображений) для анализа данных окружающей среды и анализ ключевых слов в голосовом запросе. Это позволяет идентифицировать релевантную сущность (entity) и предоставить точный ответ на вопрос пользователя.

Как это работает

Система работает в несколько этапов:

Сбор данных: Мобильное устройство одновременно записывает речь пользователя и данные окружающей среды (аудио, изображение, видео).
Обработка речи: Речь пользователя отделяется от фона и транскрибируется в текст.
Анализ интента: Текст запроса анализируется для определения типа контента (content type), интересующего пользователя (например, фильм, музыка, ТВ-шоу), на основе ключевых слов.
Распознавание контекста: Данные окружающей среды анализируются для идентификации конкретной сущности (например, название песни по ее аудио-отпечатку).
Уточнение и Аугментация: Система использует тип контента для уточнения идентификации сущности и дополняет исходный запрос идентифицированной сущностью (например, запрос «Кто поет это?» превращается в «Кто поет [Название Песни]»).
Обработка запроса: Дополненный запрос отправляется в движок обработки естественного языка для получения ответа.

Актуальность для SEO

Высокая. Описанная технология активно используется в таких функциях, как Google Assistant («Now Playing»), Google Lens и контекстуализация голосового поиска. Мультимодальный поиск и использование контекста окружающей среды являются ключевыми направлениями развития поисковых систем (например, Google MUM).

Важность для SEO

Влияние на традиционное веб-SEO (ранжирование сайтов) минимальное (3/10). Патент описывает механизмы понимания мультимодальных, контекстно-зависимых запросов, в первую очередь актуальные для Google Assistant и мобильного поиска. Однако он подчеркивает стратегическую важность SEO для сущностей (Entity SEO) и оптимизации под Граф Знаний (Knowledge Graph), поскольку система должна быть способна точно идентифицировать сущности и отвечать на вопросы о них.

Детальный разбор

Термины и определения

Audio Fingerprinting (Аудио-фингерпринтинг / Цифровой аудио-отпечаток): Технология идентификации аудиоконтента (например, музыки, ТВ-шоу) путем создания уникального цифрового отпечатка из аудиосигнала и сравнения его с базой данных. В патенте упоминается использование вейвлетов (wavelets) для этой цели.
Content Recognition Engine (Движок распознавания контента): Компонент системы, который анализирует environmental data (аудио, изображения) для идентификации конкретных медиа-сущностей.
Content Type (Тип контента): Категория медиаконтента, такая как ‘фильм’, ‘музыка’, ‘ТВ-шоу’, ‘подкаст’, ‘видеоигра’. Определяется на основе ключевых слов в запросе пользователя.
Coordination Engine / Disambiguation Engine (Движок координации / Движок разрешения неоднозначности): Центральный компонент, который управляет процессом: разделяет речь и фон, координирует работу других движков и формирует итоговый запрос или ответ.
Entity (Сущность): Конкретный объект или медиа-продукт (например, название фильма, песни или ТВ-шоу), идентифицированный на основе данных окружающей среды.
Environmental Data (Данные окружающей среды): Информация, захваченная устройством пользователя из его окружения. Включает environmental audio data (фоновый шум, музыка) и environmental image data (изображения, видео).
Keyword Mapping Engine (Движок маппинга ключевых слов): Компонент, который анализирует транскрипцию запроса и сопоставляет ключевые слова с определенными Content Types (например, слово «режиссер» связано с типом «фильм»).
Natural Language Query Processing Engine (Движок обработки запросов на естественном языке): Поисковая система или система вопросов и ответов, которая принимает уточненный запрос (включающий транскрипцию и идентифицированную сущность) и возвращает результат.
Spoken Natural Language Query (Голосовой запрос на естественном языке): Вопрос, заданный пользователем устно.
Transcription (Транскрипция): Текстовое представление голосового запроса, полученное с помощью Speech Recognition Engine.

Ключевые утверждения (Анализ Claims)

Патент содержит несколько ключевых независимых пунктов, описывающих разные аспекты системы (методы и компьютерно-читаемые носители).

Claim 1 (Метод с фокусом на киноконтенте): Описывает метод идентификации киноконтента.

Система получает (i) голосовой запрос и (ii) аудиоданные, кодирующие музыку.
Система получает данные окружающего изображения (environmental image data), связанные с этой музыкой.
Система определяет, что ключевые слова в транскрипции голосового запроса связаны с типом контента «фильм» (movie content type).
На основании этого определения система идентифицирует элемент киноконтента, распознанный на основе музыки И связанных с ней данных окружающего изображения.

Ядро изобретения здесь — использование типа контента, извлеченного из речи, для управления процессом идентификации сущности, который использует мультимодальные данные окружающей среды (звук + изображение).

Claim 6 (Метод с фокусом на музыкальном контенте): Описывает метод идентификации музыкального контента.

Система получает (i) изображение или видео и (ii) аудиоданные, кодирующие голосовой запрос.
Система получает данные окружающего изображения, связанные с музыкой.
Система определяет, что ключевые слова в транскрипции голосового запроса связаны с типом контента «музыка» (music content type).
На основании этого определения система идентифицирует элемент музыкального контента, распознанный на основе изображения или видео И данных окружающего изображения, связанных с музыкой.

Этот пункт фокусируется на использовании визуальных данных (изображение/видео) в сочетании с анализом речи для идентификации музыки.

Где и как применяется

Изобретение в основном применяется на этапе понимания запроса, используя мультимодальные входные данные для уточнения намерения пользователя.

QUNDERSTANDING – Понимание Запросов
Это ключевой этап применения патента. Система интерпретирует намерение пользователя, объединяя голосовой ввод с сигналами окружающей среды (мультимодальный ввод). Происходит распознавание речи, анализ ключевых слов (Keyword Mapping) для определения Content Type и распознавание контента (Content Recognition) для идентификации Entity. Результатом является аугментация (дополнение) исходного неоднозначного запроса конкретным контекстом.

RANKING / METASEARCH – Ранжирование / Метапоиск
Аугментированный и уточненный запрос затем обрабатывается Natural Language Query Processing Engine. Результаты (ответы) часто извлекаются из Графа Знаний (Knowledge Graph) или специализированных вертикалей (например, Музыка, Фильмы), а не из стандартного веб-индекса.

Входные данные:

Аудиоданные (Waveform data), включающие речь пользователя и фоновые звуки.
Данные окружающей среды (изображения или видео), захваченные устройством.
Базы данных для маппинга ключевых слов и типов контента.
Базы данных аудио/визуальных отпечатков для распознавания контента.

Выходные данные:

Идентифицированная сущность (Entity).
Определенный тип контента (Content Type).
Аугментированный запрос (Транскрипция + Сущность).
Финальный ответ пользователю (полученный от NLQ Engine).

На что влияет

Конкретные типы контента: В первую очередь влияет на медиаконтент: музыку, фильмы, ТВ-шоу, подкасты, видеоигры, произведения искусства, книги.
Специфические запросы: Информационные запросы, связанные с непосредственным окружением пользователя (например, «Кто это поет?», «Из какого фильма эта музыка?», «Что это за картина?»).
Конкретные ниши или тематики: Развлечения, медиа, искусство.

Когда применяется

Условия работы: Алгоритм применяется при обработке голосовых запросов (чаще всего с мобильных устройств или умных колонок) в условиях, когда присутствуют детектируемые данные окружающей среды (фоновая музыка, изображения).
Триггеры активации: Активируется пользователем при запуске голосового помощника (Google Assistant) или функций распознавания (Google Lens, «Now Playing»). Может активироваться автоматически, если запрос содержит неоднозначные указатели (например, «этот фильм») и одновременно обнаруживается релевантный фоновый контент.

Пошаговый алгоритм

Патент описывает два основных сценария использования: (А) Разрешение неоднозначности типа контента и (Б) Аугментация запроса контекстом.

Общий процесс обработки:

Сбор данных: Устройство пользователя захватывает входные данные (аудио, изображение, видео), содержащие речь пользователя и данные окружающей среды.
Сепарация: Coordination/Disambiguation Engine получает данные и отделяет речь пользователя от фоновых данных (например, с помощью детектора голосовой активности).
Распознавание речи: Изолированная речь отправляется в Speech Recognition Engine, который возвращает текстовую транскрипцию.
Анализ ключевых слов (Определение интента): Транскрипция отправляется в Keyword Mapping Engine. Этот движок идентифицирует ключевые слова и сопоставляет их с предопределенными Content Types (например, «режиссер» -> Фильм/ТВ).
Распознавание контента (Определение контекста): Данные окружающей среды (фон) отправляются в Content Recognition Engine. Этот движок использует фингерпринтинг (аудио или визуальный) для идентификации потенциальных сущностей.
Разрешение неоднозначности и Идентификация Сущности: Disambiguation Engine использует Content Type (из шага 4) для уточнения результатов распознавания (из шага 5). Например, если аудио-отпечаток соответствует и песне, и ТВ-шоу (тема), а ключевое слово в запросе было «шоу», система выберет сущность ТВ-шоу.
Аугментация запроса: Coordination Engine объединяет исходную транскрипцию с идентифицированной сущностью. Это может быть реализовано путем замены слов (например, «это шоу» заменяется на «[Название Шоу]») или путем тегирования транскрипции данными о сущности.
Обработка запроса: Аугментированный запрос отправляется в Natural Language Query Processing Engine.
Предоставление результата: Полученный ответ возвращается пользователю.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании мультимодальных данных, полученных от пользователя и его окружения.

Мультимедиа факторы: Критически важные данные.
- Environmental audio data: фоновый шум, музыкальные саундтреки, диалоги из ТВ-шоу или фильмов. Используются для аудио-фингерпринтинга.
- Environmental image/video data: изображения, обложки альбомов, постеры, видеоряд. Используются для визуального распознавания.
Пользовательские факторы:
- Spoken natural language query: Голос пользователя, который транскрибируется и анализируется на наличие ключевых слов.

Какие метрики используются и как они считаются

Методы анализа текста (NLP): Используется маппинг ключевых слов (Keyword Mapping). Система использует базы данных, которые связывают определенные слова (и их словоформы, например, «режиссер», «режиссировал») с конкретными Content Types.
Аудио-фингерпринтинг: В описании патента упоминаются конкретные технические методы для распознавания аудио:
- Преобразование аудио в спектрограмму (spectrogram).
- Извлечение спектральных образов (spectral images).
- Использование вейвлет-анализа (wavelet analysis) для представления образов.
- Вычисление сигнатуры вейвлета (wavelet signature) для эффективного сравнения.
Ранжирование кандидатов (Ranking Scores): В одном из вариантов реализации (описанном в контексте разрешения неоднозначности) упоминается, что кандидаты распознавания контента могут иметь Ranking Scores. Система может корректировать эти оценки на основе Content Type, полученного из запроса (повышая оценку кандидатов, соответствующих типу, и понижая у не соответствующих).

Выводы

Мультимодальность и контекст как основа понимания запросов: Патент демонстрирует, как Google активно использует данные окружающей среды (звук, изображение) в качестве контекста для интерпретации голосовых запросов. Это ключевой элемент мультимодального поиска.
Двусторонний анализ для разрешения неоднозначности: Система не просто распознает фон. Она проводит двусторонний анализ: анализирует речь, чтобы понять, о каком *типе* контента спрашивает пользователь, и анализирует фон, чтобы понять, какой *конкретный* контент присутствует. Тип используется для уточнения идентификации контента.
Фокус на «Answer Engine» и Сущностях: Этот механизм направлен на предоставление прямых ответов, а не списка веб-ссылок. Он в значительной степени полагается на способность системы точно идентифицировать сущности (фильмы, музыку) и иметь структурированные данные о них (Граф Знаний).
Инфраструктура для Assistant и Lens: Описанные технологии являются инфраструктурными для работы Google Assistant (включая функцию «Now Playing») и Google Lens.
Минимальное влияние на традиционное SEO: Патент не описывает механизмы ранжирования веб-сайтов. Практические выводы касаются в основном оптимизации видимости сущностей в экосистеме Google.

Практика

Этот патент в большей степени описывает внутренние процессы Google Assistant и Google Lens и не дает прямых рекомендаций для традиционного SEO веб-сайтов. Однако он имеет важное значение для SEO сущностей (Entity SEO) и оптимизации медиаконтента.

Best practices (это мы делаем)

Оптимизация Сущностей и Графа Знаний (Entity SEO): Для компаний в сфере медиа и развлечений (музыкальные лейблы, киностудии, артисты) критически важно обеспечить точное и полное представление их сущностей в Knowledge Graph. Система полагается на эти данные для ответов на вопросы после идентификации контента.
Использование структурированных данных для медиа: Внедряйте подробную микроразметку Schema.org (MusicRecording, Movie, TVSeries) на официальных сайтах. Это помогает Google лучше понимать и каталогизировать медиаконтент, что облегчает его идентификацию и связывание с сущностями.
Оптимизация цифровых активов для распознавания: Убедитесь, что официальные изображения (постеры, обложки альбомов) и аудио/видео сниппеты легко доступны для сканирования и индексации. Это может помочь системам распознавания (таким как описанный Content Recognition Engine) быстрее и точнее идентифицировать контент.

Worst practices (это делать не надо)

Игнорирование присутствия в Графе Знаний: Для медиа-сущностей недостаточно просто иметь веб-сайт. Если информация об артисте, фильме или альбоме отсутствует или неверна в Knowledge Graph, система не сможет предоставить ответ пользователю, даже если контент будет успешно распознан по звуку или изображению.
Фокус только на текстовом поиске для медиа: Полагаться исключительно на то, что пользователи будут искать контент по названию. Патент показывает, что значительная часть поиска медиаконтента происходит контекстуально («Что играет сейчас?»), и к этому нужно быть готовым.

Стратегическое значение

Патент подтверждает стратегический сдвиг Google в сторону контекстного, мультимодального поиска (как MUM). Будущее поиска связано с пониманием мира пользователя за пределами текстового поля ввода. Для SEO это означает, что оптимизация сущностей и обеспечение их доступности через различные модальности (звук, изображение) становится критически важной для видимости в новых парадигмах поиска, таких как Assistant и Lens.

Практические примеры

Сценарий: Оптимизация новой песни для распознавания и ответов

Задача: Музыкальный лейбл выпускает новый трек и хочет, чтобы пользователи могли легко его идентифицировать через Google Assistant и получать информацию об исполнителе.
Действия:
- Лейбл обеспечивает передачу аудиофайла и полных метаданных (Исполнитель, Альбом, Дата выпуска) в базы данных Google (например, через YouTube Content ID или партнеров по дистрибуции). Это гарантирует, что Content Recognition Engine сможет создать точный аудио-отпечаток.
- SEO-команда проверяет, что сущность Исполнителя корректно представлена в Knowledge Graph и связана с новым треком.
- На официальном сайте трек размечен с помощью MusicRecording Schema.
Результат: Когда песня играет в кафе, пользователь спрашивает Google Assistant: «Что это за песня?». Система использует описанный в патенте механизм: распознает трек по аудио-отпечатку и отвечает названием песни, а также предоставляет ссылку на Knowledge Panel исполнителя или трека.

Вопросы и ответы

Влияет ли этот патент на ранжирование моего сайта в поиске?

Напрямую нет. Этот патент не описывает алгоритмы ранжирования веб-страниц. Он описывает, как Google интерпретирует голосовые запросы, используя контекст окружающей среды (звуки, изображения), что в основном используется в Google Assistant и Google Lens. Влияние на SEO косвенное и касается видимости сущностей.

Что такое «Данные окружающей среды» (Environmental Data) в контексте этого патента?

Это любая информация, которую устройство может захватить из окружения пользователя одновременно с голосовым запросом. В патенте конкретно упоминаются аудиоданные (фоновая музыка, саундтреки, шум) и визуальные данные (изображения, видео, например, обложка альбома или постер фильма).

Как система определяет «Тип контента» (Content Type)?

Система анализирует слова, которые произносит пользователь. Если пользователь говорит «Кто режиссер этого шоу?», слова «режиссер» и «шоу» заранее связаны в базе данных с типами контента «Фильм» или «ТВ-шоу». Это помогает системе понять, какой именно объект интересует пользователя.

Как используется определение типа контента?

Оно используется для разрешения неоднозначности. Например, если фоновый звук соответствует и песне, и ТВ-шоу (например, это заглавная тема), а пользователь спросил про «шоу», система поймет, что нужно идентифицировать именно ТВ-шоу, а не просто песню. Это позволяет выбрать правильную сущность.

Что такое аудио-фингерпринтинг и как он работает согласно патенту?

Это технология создания уникального цифрового отпечатка аудиосигнала. В патенте упоминается технический процесс, включающий преобразование звука в спектрограмму и использование вейвлет-анализа (wavelet analysis) для создания компактной сигнатуры. Эта сигнатура затем сравнивается с базой данных для идентификации контента.

Какое значение этот патент имеет для Entity SEO (SEO для сущностей)?

Значение высокое. Патент описывает механизм, который идентифицирует сущность (например, фильм) и затем ищет ответ на вопрос об этой сущности (например, кто режиссер). Если ваша сущность (бренд, продукт, медиаконтент) не будет точно идентифицирована или если данные о ней в Графе Знаний будут неполными, система не сможет предоставить пользователю качественный ответ.

Как я могу оптимизировать свой контент под этот механизм?

Если вы работаете с медиаконтентом, убедитесь, что он доступен для систем распознавания (например, через YouTube Content ID для аудио). Используйте подробную микроразметку Schema.org (Movie, MusicRecording) и работайте над полнотой и точностью представления ваших сущностей в Google Knowledge Graph.

Является ли это частью мультимодального поиска Google (например, MUM)?

Да, этот патент является ранним примером мультимодального поиска. Он описывает систему, которая принимает ввод в нескольких модальностях (речь + аудио окружения или речь + изображение окружения) и объединяет их для лучшего понимания намерения пользователя. Это направление активно развивается Google.

Работает ли этот механизм только для музыки и фильмов?

Хотя музыка, фильмы и ТВ-шоу являются основными примерами в патенте, упоминаются и другие типы контента: подкасты, книги, произведения искусства, трейлеры, интернет-видео и видеоигры. Технология потенциально применима к любому контенту, который можно идентифицировать по звуку или изображению.

Что происходит, если система не может распознать фоновый контент?

Если Content Recognition Engine не может идентифицировать сущность из данных окружающей среды (например, музыка слишком тихая или изображение размыто), механизм аугментации запроса не сработает. Система, вероятно, обработает исходный голосовой запрос как есть, что приведет к неточному или общему ответу, так как контекст останется неизвестным.