Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует фоновое аудио (музыку, звук ТВ) для понимания контекста и уточнения неоднозначных голосовых запросов

    BACKGROUND AUDIO IDENTIFICATION FOR QUERY DISAMBIGUATION (Идентификация фонового аудио для устранения неоднозначности запроса)
    • US12164562B1
    • Google LLC
    • 2024-12-10
    • 2019-01-10
    2019 Мультимедиа Патенты Google Семантика и интент

    Google может анализировать фоновый звук, записанный устройством до или после голосового запроса. Система идентифицирует аудио (например, песню или телепередачу), извлекает связанные сущности и термины из Графа Знаний и использует этот контекст для уточнения неоднозначных запросов, фильтруя или повышая релевантные результаты в выдаче.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неоднозначности поисковых запросов (ambiguous queries), особенно голосовых. Когда запрос имеет несколько значений (например, «Ягуар» — животное или автомобиль), стандартным алгоритмам не хватает контекста для определения истинного намерения пользователя. Изобретение улучшает точность поиска, используя окружающую среду пользователя, а именно фоновый звук, как источник контекстуальных сигналов для уточнения интента.

    Что запатентовано

    Запатентована система, которая захватывает и анализирует фоновый аудиоконтент (background audio), присутствующий в окружающей среде пользователя в момент подачи запроса. Система идентифицирует этот аудиоконтент (например, песню, телепередачу), извлекает связанные с ним концепции и термины с помощью entity-relationship model (Графа Знаний) и использует эти термины для устранения неоднозначности исходного запроса, фильтруя или изменяя ранжирование результатов.

    Как это работает

    Система работает следующим образом:

    • Захват аудио: Устройство захватывает как голосовой запрос пользователя, так и фоновый звук. Критически важно, что фоновый звук захватывается в периоды тишины (когда уровень голоса ниже threshold volume level), непосредственно до или после произнесения запроса.
    • Идентификация фона: Фоновый звук анализируется с помощью Acoustic Fingerprint Database, чтобы идентифицировать известный аудиосегмент.
    • Концептуальное расширение: Идентифицированный сегмент используется для запроса к Conceptual Expander Database или entity-relationship model для получения связанных терминов и сущностей.
    • Модификация поиска: Эти связанные термины используются для влияния на результаты поиска путем фильтрации, повышения оценок (score) релевантных результатов или прямого дополнения исходного запроса.

    Актуальность для SEO

    Средняя. Понимание контекста окружающей среды (ambient computing) является важным направлением для развития голосовых ассистентов. Однако широкое применение этого конкретного механизма сталкивается с серьезными проблемами конфиденциальности (патент явно требует согласия пользователя) и практическими ограничениями (шумная среда, ограниченность идентифицируемого аудио), что снижает его глобальное влияние.

    Важность для SEO

    Влияние на традиционные SEO-стратегии низкое (3.5/10). Это патент, ориентированный на понимание запросов и контекстуализацию в реальном времени, преимущественно в голосовом поиске. Он не меняет базовые алгоритмы ранжирования, но подтверждает стратегическую важность сущностей (entities) и Графа Знаний (Knowledge Graph) для разрешения неоднозначности.

    Детальный разбор

    Термины и определения

    Acoustic Fingerprint (Акустический отпечаток)
    Цифровое представление аудиосигнала, используемое для идентификации аудиосэмпла путем сравнения с базой данных известных отпечатков (Acoustic Fingerprint Database).
    Background Audio (Фоновое аудио)
    Аудиоданные из окружающей среды пользователя (музыка, звук ТВ), которые не являются голосовым запросом пользователя.
    Conceptual Expander (Модуль концептуального расширения)
    Компонент, который принимает идентификацию фонового аудио и генерирует набор связанных терминов (related terms).
    Conceptual Expander Database (База данных концептуального расширения)
    Хранилище данных (например, Граф Знаний или Wikipedia), используемое для поиска сущностей и терминов, связанных с идентифицированным аудио.
    Entity-Relationship Model (Модель сущность-связь)
    Структура данных, описывающая реальные объекты (сущности) и их взаимосвязи. Упоминается в Claims как основа для генерации связанных терминов. Эквивалент Графа Знаний.
    Known Audio Segment (Известный аудиосегмент)
    Часть фонового аудио, которая была успешно идентифицирована системой.
    Scoring Engine (Механизм оценки)
    Компонент поисковой системы, который присваивает оценку (score) результатам. Может изменять эти оценки на основе терминов из фонового аудио.
    Threshold Volume Level (Пороговый уровень громкости)
    Уровень звука, используемый для различения речи пользователя (выше порога) и фонового аудио/тишины (ниже порога).
    Voice Detection Signal (Сигнал обнаружения голоса)
    Индикатор присутствия или отсутствия голоса пользователя, основанный на уровне громкости.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод обработки голосового запроса с учетом фонового аудио, с акцентом на временные рамки захвата.

    1. Система получает (i) голосовой запрос, произнесенный пользователем (user speaking the search query) в первый период времени (T1), когда Voice Detection Signal выше порогового уровня, И (ii) фоновое аудио из окружающей среды, записанное вне T1.
    2. Фоновое аудио детектируется во второй период времени (T2) — фиксированный интервал, когда сигнал ниже порога (отсутствие голоса пользователя). Запись активируется в ответ на определение тишины.
    3. Ключевое условие Claim 1: Второй период (T2, запись фона) происходит ДО первого периода (T1, запись запроса).
    4. Система идентифицирует known audio segment на основе фонового аудио.
    5. Генерируется набор связанных терминов, описывающих сущности, ассоциированные с этим аудиосегментом в entity-relationship model.
    6. Получаются результаты поиска по исходному запросу.
    7. Результаты поиска фильтруются (filtering) с использованием одного или нескольких сгенерированных связанных терминов.
    8. Предоставляются отфильтрованные результаты.

    Ядро изобретения — это использование фонового звука, захваченного строго в периоды тишины до произнесения голосового запроса, для извлечения сущностей из графа знаний и последующей фильтрации результатов.

    Claim 2 (Зависимый от 1): Уточняет фильтрацию как строгую.

    Предоставление отфильтрованных результатов включает предоставление только тех результатов, которые включают один или несколько связанных терминов.

    Claim 3 (Зависимый от 1): Описывает альтернативный механизм влияния на выдачу — изменение оценки (Boosting).

    Получение результатов включает получение оцененных результатов (scored results). Фильтрация (упомянутая в Claim 1) в данном случае реализуется путем изменения оценки (altering a score) для результата, содержащего хотя бы один из связанных терминов.

    Claim 5 (Зависимый от 1): Уточняет метод идентификации аудио.

    Идентификация включает распознавание части фонового аудио путем сопоставления его с acoustic fingerprint.

    Claim 8 (Зависимый от 1): Расширяет временные рамки записи фонового аудио.

    Фоновое аудио может также включать аудио, записанное в течение третьего периода времени (T3), который также является фиксированным интервалом тишины. Этот третий период происходит ПОСЛЕ первого периода (T1). Это расширяет Claim 1, позволяя записывать фон как до (T2), так и после (T3) запроса.

    Где и как применяется

    Изобретение применяется на этапах понимания запроса и ранжирования/переранжирования, используя предварительно проиндексированные данные.

    QUNDERSTANDING – Понимание Запросов (Основное применение)
    Система использует данные окружающей среды (фоновое аудио) для устранения неоднозначности (disambiguation) и обогащения семантического представления запроса. Процесс идентификации аудио и концептуального расширения происходит на этом этапе. В некоторых вариантах система может генерировать Modified Search Query (упоминается в описании патента).

    RANKING – Ранжирование / RERANKING – Переранжирование
    Сгенерированные контекстуальные термины используются для влияния на выдачу. Патент описывает несколько механизмов:

    • Модификация запроса: Если используется Modified Search Query, это влияет на весь этап RANKING.
    • Жесткая Фильтрация (Claim 2): Предоставление только тех результатов, которые содержат связанные термины (RERANKING).
    • Изменение оценки (Boosting, Claim 3): Scoring Engine повышает оценки тех результатов, которые содержат контекстуальные термины (RERANKING).

    INDEXING – Индексирование и извлечение признаков (Косвенно)
    Система зависит от инфраструктуры, созданной на этом этапе: Acoustic Fingerprint Database и Conceptual Expander Database (Граф Знаний).

    Входные данные:

    • Аудиопоток с устройства пользователя (запрос + фон).
    • Данные об уровне голоса (Voice Detection Signal).
    • Согласие пользователя на запись аудио.

    Выходные данные:

    • Отфильтрованный или переранжированный набор результатов поиска.

    На что влияет

    • Специфические запросы: Наибольшее влияние оказывается на неоднозначные запросы (Ambiguous Queries), где одно и то же слово может относиться к разным сущностям.
    • Конкретные ниши: Влияет на ниши, тесно связанные с медиа — музыка, кино, телевидение, спорт. Контекст потребления медиа напрямую влияет на интерпретацию запроса.
    • Пользовательские факторы: Влияет на поиск с устройств, оснащенных микрофонами (смартфоны, умные колонки), преимущественно голосовой поиск.

    Когда применяется

    • Условия работы и Триггеры:
      • Пользователь дал явное согласие (affirmatively consent) на запись фонового аудио (критичное условие, упомянутое в описании патента из-за конфиденциальности).
      • Подача голосового запроса (согласно Claim 1).
      • Система обнаруживает периоды тишины (громкость ниже threshold volume level) до и/или после запроса.
      • Фоновое аудио успешно идентифицировано как known audio segment.
    • Временные рамки: Захват фонового аудио происходит непосредственно до (T2) и/или после (T3) произнесения запроса (T1). Интервалы захвата могут быть от 0.1 до 10 секунд (указано в описании).

    Пошаговый алгоритм

    Предварительный этап: Согласие пользователя

    1. Система запрашивает разрешение на запись и анализ фонового аудио, уведомляя о вопросах конфиденциальности. Процесс продолжается только после получения явного согласия.

    Основной процесс обработки запроса:

    1. Мониторинг аудиосигнала: Система отслеживает Voice Detection Signal.
    2. Запись фонового аудио (T2 — ДО): Когда сигнал падает ниже порога (пользователь молчит) перед вводом запроса, система записывает фиксированный интервал фонового аудио.
    3. Запись запроса (T1): Когда сигнал поднимается выше порога, система записывает голосовой запрос пользователя.
    4. Запись фонового аудио (T3 — ПОСЛЕ): После завершения запроса, когда сигнал снова падает ниже порога, система может записать дополнительный интервал фонового аудио.
    5. Распознавание запроса: Голосовой запрос преобразуется в текст.
    6. Идентификация фонового аудио: Записанное фоновое аудио (T2 и T3) анализируется Background Audio Recognizer. Система генерирует Acoustic Fingerprint и ищет совпадения в базе данных.
    7. Концептуальное расширение: Если аудио идентифицировано, идентификатор используется для запроса к Conceptual Expander Database (entity-relationship model).
    8. Генерация связанных терминов: Система извлекает связанные термины (например, имена актеров, название альбома).
    9. Выполнение поиска и корректировка результатов: Система использует связанные термины одним из следующих способов:
      • Вариант A (Модификация запроса): Создается Modified Search Query и отправляется в поисковую систему.
      • Вариант B (Жесткая фильтрация, Claim 2): Поиск выполняется по исходному запросу. Полученные результаты фильтруются так, чтобы остались только те, которые содержат связанные термины.
      • Вариант C (Изменение оценки/Бустинг, Claim 3): Поиск выполняется по исходному запросу. Scoring Engine увеличивает оценки результатов, содержащих связанные термины.
    10. Предоставление результатов: Скорректированный набор результатов предоставляется пользователю.

    Какие данные и как использует

    Данные на входе

    Патент фокусируется на обработке аудиоданных и использовании структурированных знаний.

    • Аудиоданные (Audio Data): Необработанный аудиопоток с микрофона устройства (речь и фон).
    • Пользовательские факторы: Явное согласие пользователя на использование функции (Opt-in).
    • Системные данные (Базы знаний):
      • Acoustic Fingerprints: Предварительно рассчитанные отпечатки известных аудиозаписей.
      • Entity-Relationship Model (Граф Знаний): Структурированная база, связывающая аудиоконтент с сущностями и их атрибутами.

    Какие метрики используются и как они считаются

    • Threshold Volume Level (Пороговый уровень громкости): Ключевая метрика для сегментации аудиопотока. Определяет разницу между речью пользователя и фоном/тишиной.
    • Ranking Score (Оценка ранжирования): Стандартная оценка релевантности, которая модифицируется на основе контекста.
    • Score Adjustment Amount (Величина корректировки оценки): Величина, на которую увеличивается оценка результата, содержащего контекстуальные термины (при использовании Варианта C). Патент описывает методы машинного обучения (learning techniques) для определения этой величины:
      • Метод 1: Анализ большого набора пар неоднозначных/однозначных запросов (training queries). Вычисление средней разницы в оценках между лучшим результатом для однозначного запроса и тем же результатом для двусмысленного запроса.
      • Метод 2: Определение оптимальной величины корректировки (X), которая максимизирует улучшение релевантности для неоднозначных запросов на основе фонового аудио.

    Выводы

    1. Контекст окружающей среды как сигнал ранжирования: Google активно исследует использование окружающей среды пользователя (ambient computing) для устранения неоднозначности запросов. Фоновое аудио может служить мощным контекстуальным сигналом.
    2. Специфический механизм захвата аудио: Система технически разделяет речь и фон, используя пороговые значения громкости. Захват фона происходит целенаправленно в моменты тишины до и/или после запроса (T2/T3), а не во время речи (T1).
    3. Критическая зависимость от Графа Знаний: Эффективность метода зависит от точной идентификации аудио (Acoustic Fingerprinting) и наличия обширной базы знаний (entity-relationship model или Knowledge Graph) для извлечения связанных терминов.
    4. Контекст может переопределять релевантность: Механизм позволяет контексту значительно влиять на выдачу путем жесткой фильтрации (Claim 2) или агрессивного повышения оценок (Claim 3), что может изменить стандартное ранжирование.
    5. Ограничения конфиденциальности: Патент явно признает проблемы конфиденциальности и подчеркивает необходимость явного согласия пользователя (Opt-in), что может ограничивать широкое применение технологии.

    Практика

    Стратегическое значение

    Это преимущественно инфраструктурный патент, описывающий механизм контекстуализации поиска на стороне Google в мире ассистентов (ambient computing). Прямых действий для оптимизации под этот конкретный механизм у SEO-специалистов нет, так как невозможно контролировать окружающую среду пользователя. Однако патент подтверждает фундаментальную важность Knowledge Graph как основы для понимания контекста. Для SEO это означает необратимый переход от оптимизации под «ключевые слова» к оптимизации под «сущности и темы».

    Best practices (это мы делаем)

    • Усиление Entity SEO и оптимизация под Knowledge Graph: Это ключевая рекомендация. Необходимо обеспечить, чтобы ваши ключевые сущности (бренды, продукты, авторы, медиаконтент) были четко определены и имели сильные ассоциации в Entity-Relationship Model. Это увеличивает вероятность того, что Google правильно интерпретирует неоднозначный запрос в пользу вашей сущности, независимо от источника контекста.
    • Для создателей медиаконтента (Музыка, Подкасты, Видео): Убедитесь, что ваш контент присутствует в базах данных акустических отпечатков (например, через дистрибуцию на крупные платформы) и имеет полные, точные метаданные. Используйте структурированные данные (Schema.org) для медиаконтента. Это позволит системе корректно идентифицировать ваш контент, если он звучит в фоне у пользователя.

    Worst practices (это делать не надо)

    • Использование неоднозначных названий брендов без сильной привязки к тематике: Если ваш бренд имеет название, совпадающее с другой известной сущностью, и слабо представлен в Графе Знаний, системы контекстуализации (включая эту) с большей вероятностью интерпретируют запрос не в вашу пользу.
    • Игнорирование оптимизации под сущности (Entity SEO): Стратегии, основанные исключительно на ключевых словах без учета сущностей, становятся менее эффективными, так как контекст может переопределить базовую текстовую релевантность.

    Практические примеры

    Практических примеров для применения в SEO работе нет. Однако можно рассмотреть сценарий работы системы.

    Сценарий: Уточнение запроса во время просмотра ТВ

    1. Ситуация: Пользователь смотрит сериал «Star Trek: The Next Generation». Звучит музыкальная тема.
    2. Запись фона (Периоды T2/T3): Устройство пользователя записывает музыкальную тему в моменты тишины до или после запроса.
    3. Исходный запрос (Период T1): Пользователь спрашивает: «Data Android». (Неоднозначный запрос: может означать данные на ОС Android или персонажа сериала).
    4. Идентификация: Система идентифицирует аудио как тему из «Star Trek: TNG».
    5. Концептуальное расширение: Из Entity-Relationship Model извлекаются термины: «Star Trek», «Brent Spiner», «Lieutenant Commander».
    6. Корректировка (Бустинг): Система повышает в выдаче результаты по запросу «Data Android», которые также содержат термины «Brent Spiner» или «Star Trek».
    7. Результат: Пользователь получает выдачу о персонаже из сериала, а не об операционной системе.

    Вопросы и ответы

    Могу ли я оптимизировать свой сайт под этот патент?

    Напрямую оптимизировать под фоновое аудио в комнате пользователя невозможно. Однако вы можете проводить косвенную оптимизацию через Entity SEO. Патент полагается на Entity-Relationship Model (Граф Знаний) для извлечения контекста. Убедитесь, что ваш бренд и контент четко определены в Графе Знаний, чтобы система могла легко их идентифицировать и связать с запросами.

    Означает ли это, что Google постоянно слушает пользователей?

    Патент уделяет большое внимание конфиденциальности и техническим ограничениям. Во-первых, подчеркивается необходимость явного согласия пользователя на использование этой функции. Во-вторых, технически система настроена на запись фонового аудио только в короткие фиксированные интервалы (0.1-10 сек) до или после запроса, и только когда пользователь молчит (Voice Detection Signal ниже порога).

    Как система отличает мой голос от фонового шума?

    Система использует Threshold Volume Level (пороговый уровень громкости). Звук выше этого порога интерпретируется как голос пользователя (запрос). Звук ниже порога (в паузах до и после запроса) интерпретируется как фоновое аудио. Это позволяет системе сегментировать аудиопоток на речь и фон.

    Применяется ли этот механизм только к голосовому поиску?

    В основном да. Независимый пункт (Claim 1) специфицирует, что запрос вводится пользователем голосом (user speaking the search query), так как это позволяет точно определить тайминги речи и тишины для захвата фона. Хотя в общем описании патента упоминается возможность ввода с клавиатуры, защищенное ядро изобретения сфокусировано на голосовом вводе.

    Что такое Conceptual Expander Database или Entity-Relationship Model?

    Это технические термины для обозначения базы знаний, структурированной вокруг сущностей и связей между ними. В контексте Google это практически наверняка относится к Knowledge Graph. Эта модель позволяет системе перейти от идентифицированного аудио к связанным терминам (например, от песни к исполнителю и альбому), которые используются для уточнения поиска.

    Как система решает, насколько сильно повысить релевантный результат?

    Если используется механизм повышения оценок (boosting), патент предлагает использовать машинное обучение (learning techniques) для определения оптимальной величины повышения. Это делается путем анализа исторических данных о том, как пользователи переформулируют неоднозначные запросы в однозначные (training queries), и вычисления необходимого буста.

    Какой тип аудио распознает система?

    Система использует Acoustic Fingerprinting, что лучше всего подходит для идентификации предварительно записанного и широко распространенного медиаконтента. Примеры включают музыку, саундтреки к фильмам, телевизионные программы. Распознавание случайных фоновых разговоров не является основной целью этого механизма, хотя технически возможно.

    В каких нишах этот патент наиболее применим?

    Наиболее применим в нишах, связанных с медиа: музыка, кино, телевидение, спорт, знаменитости. Именно этот тип контента чаще всего воспроизводится в фоновом режиме, легко идентифицируется с помощью акустических отпечатков и имеет богатые связи в Графе Знаний.

    Как этот патент влияет на стратегию подбора ключевых слов?

    Он снижает зависимость от точного совпадения ключевых слов при неоднозначных запросах. Если аудио-контекст предполагает определенную интерпретацию запроса, система предпочтет результаты, соответствующие этому контексту. Это усиливает важность работы с сущностями и тематическим охватом, а не только с отдельными ключевыми словами.

    Что делать, если мой бренд имеет неоднозначное название?

    Это подчеркивает необходимость построения сильного бренда и четкой ассоциации с вашей тематикой в Графе Знаний. Если пользователь ищет ваш бренд, а в фоне играет музыка группы с таким же названием, система может отдать предпочтение группе. Ваша задача — максимально усилить сигналы (включая E-E-A-T), связывающие название бренда именно с вашей деятельностью.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.