Анализ патента Google, описывающего инструмент для рекламодателей (PPC). Система позволяет рекламодателю произнести ключевое слово (например, название бренда), генерирует список частых ошибок распознавания речи (фонетически похожих фраз) и предлагает сделать ставки именно на эти ошибочные варианты для таргетинга на голосовой поиск.
Описание
Какую задачу решает
Патент решает проблему неэффективного таргетинга рекламы в голосовом поиске, возникающую из-за ошибок автоматического распознавания речи (ASR). Названия брендов или продуктов могут быть фонетически неоднозначными или отсутствовать в словаре системы распознавания. Например, ресторан “Chicken³” (произносится как “chicken cubed”) может быть ошибочно распознан как “chicken soup”. Это приводит к тому, что реклама не показывается целевой аудитории, которая произносит запрос голосом, так как ставка рекламодателя не соответствует фактической транскрипции ASR.
Что запатентовано
Запатентована система (упоминается как Keyword Classifier в рамках Keyword Bidding System), которая помогает рекламодателям идентифицировать фонетические ошибки распознавания их ключевых слов и делать ставки на эти ошибочные варианты. Рекламодатель произносит ключевое слово (adword), система генерирует список потенциальных фраз (misrecognitions), которые ASR может выдать вместо исходного слова, и позволяет таргетировать рекламу на эти фразы специально для голосового трафика.
Как это работает
Система работает в несколько этапов в интерфейсе рекламной платформы:
- Ввод ключевого слова: Рекламодатель предоставляет голосовой ввод ключевого слова.
- Генерация ошибок: Система использует ASR (включая Acoustic Model и Language Model) для транскрибации этого ввода в несколько потенциальных фраз, которые отличаются от исходного слова, но фонетически похожи (являются ошибками распознавания).
- Представление списка: Рекламодателю показывается список этих ошибок, часто с дополнительной статистикой (например, частотой в логах запросов).
- Выбор и ставка: Рекламодатель выбирает одну или несколько ошибочных фраз и делает на них ставку специально для показа рекламы по голосовым запросам (spoken queries), исключая текстовые (typed queries).
- Доставка рекламы: Если пользователь произносит голосовой запрос, который система распознает как одну из выбранных ошибочных фраз, реклама может быть показана.
Актуальность для SEO
Высокая (для PPC). Голосовой поиск остается важным каналом взаимодействия. Хотя технологии ASR постоянно совершенствуются, фонетическая неоднозначность, различные акценты и новые названия брендов остаются проблемой. Инструменты, позволяющие рекламодателям адаптироваться к ошибкам ASR, имеют высокую ценность в рекламной экосистеме.
Важность для SEO
Влияние на органическое SEO минимальное (2/10). Патент описывает исключительно внутренний инструмент рекламной системы (например, Google Ads) для оптимизации платного трафика (PPC). Он не описывает алгоритмы ранжирования органических результатов. Для SEO-специалистов патент представляет косвенный интерес, поскольку демонстрирует инфраструктуру ASR (Acoustic Model, Language Model) и то, как Google анализирует фонетическую схожесть терминов.
Детальный разбор
Термины и определения
- Acoustic Model (Акустическая модель)
- Компонент системы распознавания речи, который оценивает соответствие аудиосигнала фонемам определенного языка. Используется для идентификации вероятных слов на основе звука.
- Adword (Рекламное ключевое слово)
- Ключевое слово или фраза, на которую рекламодатель делает ставку в системе контекстной рекламы.
- Automated Speech Recognizer (ASR) (Автоматический распознаватель речи)
- Система, предназначенная для преобразования аудиоданных (речи) в текстовую транскрипцию.
- Expected Pronunciation (Ожидаемое произношение)
- Предполагаемый способ произношения ключевого слова пользователем, особенно если оно содержит цифры или символы (например, “se7en” произносится как “seven”).
- Keyword Bidding System (Система управления ставками на ключевые слова)
- Платформа (например, Google Ads), позволяющая рекламодателям делать ставки на adwords.
- Keyword Classifier (Классификатор ключевых слов)
- Компонент системы (упомянутый в описании), анализирующий ключевые слова и генерирующий альтернативы для ставок.
- Language Model (Языковая модель)
- Компонент ASR, предоставляющий данные о вероятностях конкретных последовательностей слов в языке. Помогает выбирать более вероятные фразы (например, “chicken soup” вероятнее, чем “chicken lube”).
- Misrecognitions / Potential Phrases (Ошибки распознавания / Потенциальные фразы)
- Фразы, которые система ASR может ошибочно выдать вместо произнесенного слова из-за фонетической схожести.
- Text-to-Speech System (TTS) (Система синтеза речи)
- Система, преобразующая текст в аудиоданные (речь).
Ключевые утверждения (Анализ Claims)
Патент US12026753B2 фокусируется на генерации и использовании ошибок распознавания для ставок.
Claim 1 (Независимый пункт): Описывает метод помощи рекламодателю в таргетинге на голосовые запросы.
- Система получает от рекламодателя голосовой ввод (voice input) ключевого слова (adword).
- С помощью ASR система транскрибирует этот ввод во множество потенциальных фраз (plurality of potential phrases), которые отличаются от исходного слова.
- Эти фразы являются ошибками распознавания (misrecognition) и фонетически похожи на исходное слово.
- Система представляет список этих потенциальных фраз рекламодателю.
- Система получает от рекламодателя выбор одной или нескольких фраз для ставок специально для голосовых запросов (spoken queries), но не для текстовых (typed queries).
- Впоследствии, при получении голосового запроса от пользователя, система доставляет рекламный контент на основе сделанной ставки, если запрос совпадает с выбранными потенциальными фразами.
Claim 5 (Зависимый от 1): Детализирует процесс транскрибации (Шаг 2 в Claim 1).
- Аудио голосового ввода подается на вход Acoustic Model, которая идентифицирует кандидатов в фонемы.
- Данные о вероятных фонемах подаются на вход Language Model, которая идентифицирует кандидатов в транскрипции.
- Из этих кандидатов выбираются потенциальные фразы, отличающиеся от исходного слова.
Claim 2 и 3 (Зависимые от 1): Дополняют процесс представлением статистики из логов.
- Система определяет и показывает частоту (frequency) встречаемости каждой потенциальной фразы в логе запросов (query log) (Claim 2).
- Система определяет и показывает наиболее частое местоположение (most frequent location) пользователей, которые произносили эти фразы (Claim 3).
Claim 4 (Зависимый от 1): Дополняет процесс представлением статистики показов.
Система показывает данные о том, была ли показана реклама в ответ на получение каждой из потенциальных фраз в качестве голосового запроса ранее.
Claim 7 (Зависимый от 1): Описывает итеративный процесс поиска дополнительных фраз.
- Каждая из потенциальных фраз подается на вход модуля TTS (в патенте указано «speech to text module», что вероятно является опечаткой и имеется в виду Text-to-Speech).
- Вывод TTS подается обратно на вход ASR.
- ASR генерирует дополнительные фразы (additional phrases).
- Эти дополнительные фразы также представляются рекламодателю.
Где и как применяется
Этот патент не описывает часть основного конвейера органического поиска (Crawling-Ranking). Он описывает вспомогательную систему — инструмент в рамках Keyword Bidding System (например, Google Ads), который используется рекламодателями для оптимизации кампаний.
Однако этот инструмент использует компоненты, которые также являются частью поисковой инфраструктуры Google:
INDEXING (Инфраструктура)
Система использует предварительно обученные Acoustic Model и Language Model. Также используются логи предыдущих запросов (query logs) для сбора статистики (частота, локация).
QUNDERSTANDING (Технологии)
Основная технология, используемая в патенте, — это Automated Speech Recognizer (ASR). Система использует ASR для анализа произношения рекламодателя и генерации фонетически похожих, но ошибочных транскрипций. Это применение технологий понимания речи, но в контексте анализа ключевых слов рекламодателя.
Входные данные:
- Голосовой ввод (аудио) ключевого слова от рекламодателя.
- Обученные Acoustic Model и Language Model.
- Логи предыдущих голосовых запросов (Query Logs).
Выходные данные:
- Список потенциальных фраз (ошибок распознавания).
- Статистика по этим фразам (частота, локация, вероятность показа рекламы).
- Ставка рекламодателя на выбранные фразы для голосового поиска.
На что влияет
- Конкретные типы контента: Влияет исключительно на показ платной рекламы (content item) в ответ на голосовые запросы. Не влияет на органические результаты.
- Специфические запросы: Влияет на запросы, которые фонетически неоднозначны, часто произносятся с ошибками или включают сложные названия брендов, которые могут быть неправильно распознаны ASR.
- Конкретные ниши или тематики: Наиболее актуально для ниш с уникальными или сложными для произношения названиями продуктов или компаний.
Когда применяется
- Условия работы алгоритма: Применяется, когда рекламодатель использует инструмент Keyword Bidding System для анализа и выбора ключевых слов для голосового поиска.
- Триггеры активации: Активируется по запросу рекламодателя, когда он предоставляет голосовой ввод ключевого слова для анализа.
Пошаговый алгоритм
Процесс анализа ключевого слова и размещения ставки:
- Получение ввода: Система получает голосовой ввод ключевого слова (adword) от рекламодателя.
- Инициализация ASR: Аудиоданные ввода передаются в систему автоматического распознавания речи (ASR).
- Акустический анализ: Acoustic Model анализирует аудио и идентифицирует вероятные последовательности фонем.
- Языковой анализ: Language Model анализирует последовательности фонем и генерирует список кандидатов в транскрипции (вероятные фразы).
- Фильтрация и выбор ошибок: Система выбирает из списка кандидатов те фразы, которые отличаются от исходного ключевого слова, но фонетически похожи (potential phrases).
- Сбор статистики: Для каждой потенциальной фразы система обращается к логам голосовых запросов, чтобы определить ее частоту, географию пользователей и статистику предыдущих показов рекламы.
- Итеративное расширение (Опционально, Claim 7): Потенциальные фразы могут быть пропущены через систему TTS, а затем снова через ASR для генерации дополнительных вариантов ошибок распознавания.
- Представление результатов: Система отображает рекламодателю список потенциальных фраз и собранную статистику.
- Выбор и ставка: Рекламодатель выбирает одну или несколько фраз и размещает ставку специально для таргетинга на голосовые запросы.
- Доставка рекламы (В реальном времени): Когда пользователь произносит запрос и ASR транскрибирует его как одну из фраз, на которую сделана ставка, система может показать соответствующую рекламу.
Какие данные и как использует
Данные на входе
Патент фокусируется на обработке рекламных ключевых слов и не касается факторов ранжирования SEO. Он использует следующие данные:
- Пользовательские факторы (Рекламодателя): Голосовой ввод (аудио) ключевого слова, предоставленный рекламодателем.
- Поведенческие факторы (Пользователей Поиска): Логи предыдущих голосовых запросов (Query Logs). Используются для сбора статистики по частоте встречаемости ошибок распознавания.
- Географические факторы: Данные о местоположении пользователей из логов запросов (Claim 3). Используются для показа статистики рекламодателю.
- Системные данные: Acoustic Model, Language Model, данные о предыдущих показах рекламы.
Какие метрики используются и как они считаются
- Фонетическая схожесть: Определяется в процессе работы ASR. Acoustic Model оценивает вероятность совпадения аудио с фонемами, а Language Model оценивает вероятность последовательности слов. Ошибки распознавания — это результат этого процесса, имеющий высокую акустическую и/или языковую вероятность.
- Frequency (Частота в запросах): Метрика, показывающая, как часто конкретная ошибка распознавания встречалась в логах голосовых запросов (Claim 2).
- Ad Presentation Data (Данные о показе рекламы): Статистика, показывающая факт показа рекламы по данной фразе ранее (Claim 4).
- Location data (Данные о местоположении): Статистика наиболее частых местоположений пользователей, произносивших данную фразу (Claim 3).
Выводы
- Патент ориентирован на PPC, а не SEO: Основной вывод заключается в том, что этот патент описывает инструмент для улучшения таргетинга платной рекламы в голосовом поиске. Он не содержит информации об алгоритмах органического ранжирования.
- Фокус на ошибках распознавания (Misrecognitions): Google признает, что системы ASR не идеальны и предлагает рекламодателям механизм для охвата трафика, который был неправильно распознан из-за фонетической схожести.
- Разделение голосового и текстового таргетинга: Патент явно указывает на возможность делать ставки на ошибки распознавания специально для голосовых запросов (spoken queries), но не для текстовых (typed queries) (Claim 1).
- Важность Acoustic и Language Models: Идентификация релевантных ошибок зависит от качества акустической и языковой моделей. Language Model помогает выбрать более вероятные фразы среди фонетически похожих вариантов.
- Использование логов запросов для статистики: Google активно использует агрегированные данные из логов голосовых запросов (частота, локация) для предоставления инсайтов рекламодателям.
- Итеративный анализ (ASR-TTS-ASR): Описан механизм использования цикла ASR-TTS-ASR (Claim 7) для симуляции различных вариантов произношения и распознавания, что позволяет находить больше потенциальных ошибок.
Практика
Best practices (это мы делаем)
Хотя патент напрямую относится к PPC, SEO-специалисты могут извлечь косвенные уроки для оптимизации под голосовой поиск (Voice Search Optimization — VSO):
- Анализ фонетической ясности брендинга: Оцените, насколько легко произносится и однозначно распознается название вашего бренда или ключевых продуктов. Если название фонетически сложное или похоже на общеупотребительные слова, учитывайте, как ASR может его интерпретировать.
- Исследование вариантов произношения и ошибок: Используйте инструменты голосового ввода (например, Google Assistant, Gboard) для проверки того, как система распознает ваши ключевые запросы при разном произношении. Это поможет выявить частые ошибки распознавания (misrecognitions), релевантные вашему контенту.
- Оптимизация под естественный язык (Language Model): Патент подчеркивает роль Language Model в выборе наиболее вероятных фраз. Создавайте контент, который использует естественные языковые конструкции и вероятные словосочетания, что повышает шансы на правильное распознавание и релевантность в голосовом поиске.
Worst practices (это делать не надо)
- Использование неестественных или сложных названий без поддержки: Выбор брендинга, который фонетически неоднозначен (например, использование цифр вместо букв как “Se7en”), может затруднить его нахождение через голосовой поиск (как органический, так и платный).
- Игнорирование голосового поиска как отдельного канала: Патент демонстрирует, что Google рассматривает голосовой и текстовый поиск по-разному (в контексте рекламы). Нельзя предполагать, что оптимизация под текстовый поиск автоматически покроет все аспекты голосового.
- Попытки манипулировать ошибками распознавания в SEO: Не стоит пытаться специально оптимизировать органический контент под очевидные ошибки распознавания. Фокусируйтесь на основном интенте и правильной терминологии.
Стратегическое значение
Для SEO стратегия патента подтверждает важность понимания работы систем автоматического распознавания речи (ASR). Понимание того, как работают Acoustic Model и Language Model, критично для VSO. Поскольку Language Model отдает предпочтение вероятным и естественным фразам, это усиливает стратегию создания контента, ориентированного на естественный язык (Natural Language Content).
Практические примеры
Сценарий (PPC): Использование инструмента для таргетинга бренда с неоднозначным названием
- Задача: Рекламодатель хочет продвигать новый бренд “FizziPop”, но голосовой поиск часто его не находит.
- Действие: Рекламодатель использует описанный инструмент и произносит “FizziPop”.
- Результат системы: Система генерирует список ошибок распознавания (potential phrases): “fizzy pop” (раздельно), “easy pop”, “busy cop”. Система также показывает, что “fizzy pop” часто встречается в логах запросов.
- Применение: Рекламодатель делает ставку на “fizzy pop” и “easy pop” специально для голосового поиска.
- Ожидаемый результат: Увеличение охвата платной рекламы среди пользователей голосового поиска, чья речь была неправильно распознана.
Сценарий (SEO/VSO): Анализ распознавания ключевого запроса
- Задача: SEO-специалист оптимизирует сайт по запросу, содержащему аббревиатуры, например “KVM vs QEMU”.
- Действие: Специалист использует голосовой ввод на разных устройствах, чтобы проверить распознавание.
- Наблюдение: Система ASR часто распознает “KVM” как “KBM” или “K V M” (раздельно), а “QEMU” как “Q E M U” или “queue mu”.
- Применение (на основе инсайтов патента): Специалист понимает, что ASR может ошибаться. Он решает включить в контент полные расшифровки и естественные формулировки, которые с большей вероятностью будут правильно обработаны Language Model (например, “Kernel-based Virtual Machine” и упоминание QEMU в контексте эмуляции).
Вопросы и ответы
Описывает ли этот патент алгоритмы ранжирования в органическом поиске?
Нет. Этот патент полностью сосредоточен на системе управления ставками контекстной рекламы (PPC), например, Google Ads. Он описывает инструмент, помогающий рекламодателям оптимизировать свои кампании для голосового поиска путем таргетинга на ошибки распознавания речи. Алгоритмы органического SEO здесь не затрагиваются.
Что такое “Misrecognitions” или “Potential Phrases” в контексте патента?
Это ошибки распознавания речи. Фразы, которые система автоматического распознавания речи (ASR) может ошибочно выдать вместо того, что было сказано на самом деле, из-за фонетической схожести слов. Например, если рекламодатель говорит “Chicken Cubed”, система может предложить “Chicken Soup” как частую ошибку распознавания.
Как система генерирует список этих ошибок распознавания?
Рекламодатель произносит ключевое слово. Аудиосигнал обрабатывается Acoustic Model для определения фонем, а затем Language Model для генерации вероятных текстовых транскрипций. Система выбирает те транскрипции, которые отличаются от исходного слова, но имеют высокую вероятность распознавания на основе акустических и языковых данных.
Может ли рекламодатель сделать ставку на ошибку распознавания только для голосового поиска?
Да, патент явно это подчеркивает (Claim 1). Рекламодатель может выбрать таргетинг на эти фразы специально для spoken queries (голосовых запросов), но не для typed queries (текстовых запросов). Это позволяет более точно настроить кампанию, не тратя бюджет на нерелевантные текстовые запросы.
Какую статистику Google показывает рекламодателю по этим ошибкам?
Патент упоминает несколько видов статистики, извлекаемой из логов запросов: частоту встречаемости фразы в предыдущих голосовых запросах (Claim 2), наиболее частые местоположения пользователей, произносивших эту фразу (Claim 3), и данные о том, показывалась ли реклама по этой фразе ранее (Claim 4).
Что такое цикл ASR-TTS-ASR, упомянутый в патенте (Claim 7)?
Это итеративный метод для поиска дополнительных вариантов ошибок. Сначала ASR генерирует список ошибок. Затем эти ошибки преобразуются в речь системой синтеза речи (TTS). Полученное аудио снова подается на вход ASR. Этот процесс симулирует вариативность произношения и позволяет найти еще больше фонетически связанных ошибок распознавания.
Какое значение этот патент имеет для SEO-специалистов, если он про PPC?
Значение косвенное. Патент дает понимание того, как Google анализирует фонетическую неоднозначность и как работают компоненты ASR. Это важно для оптимизации под голосовой поиск (VSO). Он подчеркивает важность использования естественного языка, которому Language Model отдает предпочтение.
Стоит ли нам менять название бренда, если оно плохо распознается голосом?
Это стратегическое бизнес-решение. Однако, основываясь на патенте, можно сделать вывод, что фонетически сложные или неестественные названия (например, с цифрами и символами) создают трудности для систем ASR. Если голосовой поиск является критически важным каналом, стоит рассмотреть более простое для произношения название или активно использовать его естественную языковую форму в контенте.
В чем разница между Acoustic Model и Language Model?
Acoustic Model отвечает за преобразование звуковых волн в фонемы (звуки языка). Language Model отвечает за сборку этих фонем в осмысленные слова и фразы, оценивая вероятность того, что определенная последовательность слов встретится в языке. Language Model помогает выбрать между похожими по звучанию, но разными по вероятности фразами.
Актуален ли этот механизм, учитывая, что распознавание речи улучшается?
Хотя точность ASR растет, всегда будут существовать фонетически неоднозначные слова, новые термины, названия брендов и различные акценты. Поэтому механизм для идентификации и таргетинга на потенциальные ошибки распознавания сохраняет свою актуальность в рекламной экосистеме для обеспечения максимального охвата.