
Google разрабатывает технологию для голосового поиска, которая не требует транскрибации речи в текст (ASR). Система создает компактный аудио-отпечаток (фонетический сигнал) из голоса пользователя и напрямую сопоставляет его с токенами документов в общем векторном пространстве. Это позволяет находить релевантные результаты быстрее, эффективнее и с сохранением конфиденциальности пользователя.
Патент решает проблемы, связанные с традиционным подходом к голосовому поиску, который полагается на автоматическое распознавание речи (Automatic Speech Recognition, ASR). Существующие системы сначала транскрибируют голос в текст, а затем используют этот текст для поиска. Это создает несколько ограничений:
Изобретение предлагает метод поиска, который полностью обходит необходимость транскрибации речи.
Запатентована система поиска, которая обрабатывает голосовые запросы без использования ASR. Вместо транскрибации речи система использует Audio Signature (аудио-отпечаток или фонетический сигнал) — компактное, фиксированной длины векторное представление голосового запроса. Этот отпечаток напрямую сопоставляется с Document Tokens (токенами документов) в общем пространстве эмбеддингов с помощью специально обученной нейронной сети (Joint Embedding Model).
Система работает следующим образом:
Audio Signature из аудиоданных. Этот отпечаток не позволяет реконструировать исходную речь.Audio Signature, а не сами аудиоданные.Joint Embedding Model) обрабатывает отпечаток, чтобы найти Document Tokens, которые находятся близко к нему в общем векторном пространстве (Shared Embedding Space).Document Tokens.Высокая. Это очень недавняя заявка на патент (подана в августе 2023 г., опубликована в феврале 2025 г.). Она отражает современные тенденции в машинном обучении, такие как использование совместных эмбеддингов для мультимодальных данных (аудио и текст) и стремление к повышению конфиденциальности (обработка данных на устройстве, невозможность реконструкции исходных данных). Обход ограничений ASR является актуальной задачей в развитии голосовых интерфейсов.
Влияние на SEO минимальное (Инфраструктурное). Патент описывает внутренний механизм Google для обработки голосовых запросов, а не изменения в факторах ранжирования. Он меняет способ, которым система понимает голосовой ввод (переход от ASR к прямому фонетическому сопоставлению), но не меняет то, какой контент система считает ценным. Для SEO-специалистов это важно для понимания инфраструктуры поиска, но не дает прямых практических рекомендаций по оптимизации контента.
Audio Signature из необработанных аудиоданных. Этот генератор обучается в процессе тренировки всей системы.Audio Signatures и Document Tokens) в общем векторном пространстве.Audio Signatures и релевантные им Document Tokens расположены близко друг к другу.Document Tokens.Claim 1 (Независимый пункт): Описывает основной метод работы системы.
Audio Signature с устройства пользователя (отпечаток извлечен из аудио голосового запроса).Audio Signature с помощью нейронной сети (Joint Embedding Model).Document Tokens, которые соответствуют Audio Signature в общем пространстве эмбеддингов (Shared Embedding Space). Нейронная сеть обучена совместно размещать эти два типа данных в этом пространстве.Document Tokens.Claim 4 (Зависимый): Уточняет критически важное свойство конфиденциальности.
Аудиоданные, соответствующие запросу пользователя, не могут быть реконструированы из Audio Signature.
Claim 5 (Зависимый): Уточняет механизм передачи данных.
Система получает Audio Signature с устройства пользователя, не получая при этом сами аудиоданные.
Claim 6 (Зависимый): Подчеркивает ключевое отличие от существующих систем.
Набор результатов поиска извлекается без выполнения распознавания речи (ASR) на аудиоданных.
Claim 7 (Зависимый): Описывает процесс обучения нейронной сети для совместного эмбеддинга.
Audio Signature с помощью Audio Signature Generator.Document Tokens.Audio Signature и Document Tokens нейронной сетью для ее обучения совместному размещению этих данных в Shared Embedding Space.Claim 8 (Зависимый от 7): Определяет источники Document Tokens.
Токены, извлеченные из обучающих документов, представляют термины, включающие как минимум одно из следующего: заголовок, описание, автор, дата публикации, категория или ключевое слово, связанное с документом.
Изобретение радикально меняет этап понимания запроса для голосового поиска и влияет на этап извлечения кандидатов.
INDEXING – Индексирование и извлечение признаков
На этом этапе система индексирует документы и извлекает Document Tokens (ключевые слова, заголовки, метаданные). Эти токены затем преобразуются в эмбеддинги для использования в Shared Embedding Space.
QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Вместо традиционного пути (Аудио -> ASR -> Текст -> Интерпретация), система использует новый путь: Аудио -> Audio Signature Generator -> Audio Signature. Процесс интерпретации происходит путем сопоставления этого отпечатка с токенами документов.
RANKING – Ранжирование (L1 Retrieval / Отбор кандидатов)
Joint Embedding Model использует Audio Signature для идентификации релевантных Document Tokens. Эти токены затем используются для быстрого отбора кандидатов (документов), которые содержат эти токены.
RANKING – Ранжирование (L2/L3)
После отбора кандидатов компонент Page Ranker выполняет ранжирование этих документов (вероятно, используя стандартные сигналы ранжирования, хотя патент это не детализирует) и определяет финальный набор результатов.
Входные данные:
Audio Signature (передается на сервер).Выходные данные:
Document Tokens, идентифицированных как релевантные аудио-отпечатку.ASR часто ошибаются.ASR моделей.Document Tokens (статьи, товары, медиа и т.д.).Процесс А: Обработка запроса в реальном времени (Inference)
Audio Signature Generator (обычно на устройстве) обрабатывает аудиоданные и извлекает Audio Signature (вектор фиксированной длины).Audio Signature поисковой системе (на сервер). Необработанное аудио может не передаваться.Joint Embedding Model для обработки полученного Audio Signature.Document Tokens, которые находятся близко к Audio Signature в Shared Embedding Space.Document Tokens.Page Ranker ранжирует извлеченные документы.Процесс Б: Обучение системы (Training)
Indexer) обрабатывает документы для извлечения Training Document Tokens (заголовки, ключевые слова и т.д.).Audio Signature Generator обрабатывает голосовые запросы для извлечения Training Audio Signatures.Joint Embedding Model обрабатывает пары (Отпечаток + Токены). Модель обучается таким образом, чтобы минимизировать расстояние между релевантными отпечатками и токенами в Shared Embedding Space. Одновременно с этим обучается и сам Audio Signature Generator, чтобы научиться извлекать наиболее полезные отпечатки.Патент фокусируется на интерпретации запроса и механизме извлечения, а не на ранжировании. Он использует следующие типы данных:
Audio Signature Generator.Document Tokens. Патент явно упоминает (Claim 8): Document Tokens: Патент не упоминает использование ссылочных, поведенческих, технических или других традиционных SEO-факторов в контексте описанного механизма понимания запросов.
Конкретные метрики и формулы расчета в патенте не указаны, но описанный механизм подразумевает использование следующих концепций:
Shared Embedding Space заключается в измерении близости между вектором Audio Signature и векторами Document Tokens. Хотя это не указано явно, обычно используются метрики расстояния, такие как косинусное сходство (cosine similarity) или евклидово расстояние (Euclidean distance).Joint Embedding Model и Audio Signature Generator. Обучение происходит путем оптимизации функции потерь, которая штрафует за большое расстояние между релевантными парами аудио и текста.ASR). Это может привести к более быстрому и точному голосовому поиску, особенно в сложных акустических условиях или для редких запросов.Joint Embedding Model создает общее пространство, где звук и текст могут быть напрямую сопоставлены, что является мощным механизмом семантического понимания.Audio Signature может генерироваться локально, не позволяет восстановить речь и имеет малый размер, что снижает нагрузку на сеть и ускоряет обработку.Audio Signature Generator не является фиксированным алгоритмом, он обучается вместе с основной моделью, чтобы извлекать наиболее релевантные фонетические признаки для задачи поиска.Document Tokens (заголовки, описания, ключевые слова) для представления документов. Это означает, что базовая текстовая оптимизация остается критически важной.ВАЖНО: Этот патент является инфраструктурным и описывает внутренние процессы обработки голосовых запросов Google. Он не дает прямых практических выводов для изменения стратегий SEO-оптимизации контента.
Document Tokens, извлеченными из текста (заголовки, описания, ключевые слова), фундаментальные принципы SEO остаются неизменными. Контент должен быть четко структурирован, а ключевые элементы должны точно описывать содержание страницы.Document Tokens для сопоставления.Патент не направлен против каких-либо конкретных SEO-тактик или манипуляций. Он не вводит новых ограничений для оптимизаторов. Бесполезно пытаться заниматься "фонетической оптимизацией" текста, так как система работает с абстрактными векторными представлениями звука.
Стратегическое значение этого патента для SEO заключается в понимании эволюции голосового поиска. Если этот метод будет широко внедрен, он может повысить надежность и скорость голосового поиска, что потенциально приведет к увеличению объема голосового трафика. Это подтверждает долгосрочную необходимость адаптации контента под естественные запросы. Также это подчеркивает, что Google все больше полагается на сложные нейросетевые модели и эмбеддинги на всех этапах поиска, от понимания запроса до ранжирования.
Практических примеров применения для SEO нет, так как патент описывает технологию обработки ввода, а не факторы ранжирования контента.
Меняет ли этот патент подход к оптимизации контента для SEO?
Нет, не меняет. Хотя система использует новый способ понимания голосового запроса (Audio Signature), она по-прежнему сопоставляет его с Document Tokens, извлеченными из вашего контента (заголовки, описания, ключевые слова). Это означает, что качественная текстовая оптимизация остается такой же важной, как и всегда.
Что такое Audio Signature (Аудио-отпечаток) и почему он важен?
Audio Signature — это компактное векторное представление голосового запроса фиксированной длины. Он важен по двум причинам: во-первых, он позволяет системе понять запрос без транскрибации в текст (без ASR). Во-вторых, он обеспечивает конфиденциальность, так как исходную речь невозможно восстановить из этого отпечатка, и само аудио может не покидать устройство пользователя.
Означает ли это, что Google отказывается от ASR (распознавания речи)?
Не обязательно. ASR по-прежнему необходим для многих задач, таких как диктовка, транскрибация видео или работа голосовых ассистентов. Описанный метод, вероятно, будет использоваться как альтернативный или дополнительный механизм специально для ускорения и повышения точности поисковых запросов.
Что такое Document Tokens в контексте этого патента?
Document Tokens — это термины, извлеченные из ваших веб-страниц во время индексации. Патент явно указывает, что они могут включать элементы из заголовка (Title), описания (Description), ключевых слов (Keywords), а также метаданные, такие как автор, дата публикации или категория.
Как работает Joint Embedding Model (Модель совместного эмбеддинга)?
Это нейронная сеть, которая обучается размещать разнородные данные в общем векторном пространстве. В данном случае она учится размещать Audio Signatures (звук) и Document Tokens (текст) так, чтобы релевантные пары находились близко друг к другу. Это позволяет системе найти текстовые токены, соответствующие звуковому отпечатку, просто измерив расстояние между ними.
Повлияет ли это на локальный поиск или поиск на разных языках?
Потенциально, да. Традиционные системы ASR могут испытывать трудности с локальными названиями, акцентами или языками с ограниченными обучающими данными. Метод прямого фонетического сопоставления может оказаться более надежным в таких сценариях, улучшая качество голосового поиска в этих областях.
Этот патент описывает новый фактор ранжирования?
Нет. Патент описывает механизм понимания запроса (Query Understanding) и первичного извлечения кандидатов (Retrieval). После того как кандидаты найдены с помощью Document Tokens, они ранжируются компонентом Page Ranker, который, вероятно, использует стандартные факторы ранжирования.
Каковы основные преимущества этого метода для Google?
Преимущества включают повышенную конфиденциальность пользователей (аудио может не отправляться на сервер), эффективность (малый размер отпечатка снижает трафик и задержки) и потенциально более высокую точность за счет устранения ошибок, вносимых системами ASR.
Если система не транскрибирует запрос, как она понимает, что я сказал?
Она не "понимает" в традиционном смысле транскрибации. Вместо этого она сопоставляет звуковой паттерн (фонетический сигнал) вашего голоса напрямую с документами, которые ранее были ассоциированы с похожими звуковыми паттернами во время обучения. Система учится связывать звук с результатом, минуя промежуточный текстовый слой.
Внедрена ли эта технология в поиске Google сейчас?
Это недавняя заявка на патент (публикация в 2025 году). Это указывает на активные исследования и разработки в этой области, но не гарантирует, что технология уже используется в продакшене или будет внедрена именно в таком виде.

Мультимедиа
Семантика и интент
Индексация

Семантика и интент
Мультимедиа
Персонализация

Семантика и интент
Индексация
SERP

Семантика и интент
Поведенческие сигналы

Мультимедиа
Семантика и интент

Семантика и интент
Поведенческие сигналы
Персонализация

Knowledge Graph
EEAT и качество
Семантика и интент

Семантика и интент
Поведенческие сигналы

Семантика и интент
Ссылки

Персонализация
Семантика и интент
Мультимедиа

Поведенческие сигналы
Семантика и интент

Поведенческие сигналы
Персонализация
Семантика и интент

Поведенческие сигналы
Семантика и интент
SERP

Ссылки
Индексация
Мультимедиа

Персонализация
Поведенческие сигналы
Антиспам
