Как Google сегментирует URL-адреса для обучения моделей голосового поиска и восстанавливает их из речи

Google анализирует текстовые URL-адреса из журналов поиска, чтобы определить наиболее вероятный способ их произношения (например, facebook.com -> «face book dot com»). Этот процесс использует большие языковые модели для сегментации URL. Полученные данные используются для обучения систем распознавания речи. Когда пользователь произносит URL, система распознает слова и реконструирует текстовый URL для поисковой системы.

Описание

Какую задачу решает

Патент решает проблему обработки навигационных запросов (URL-адресов) в системах голосового поиска (Automatic Speech Recognition, ASR). Проблема заключается в несоответствии данных: журналы текстовых поисковых запросов содержат URL в текстовой форме (например, facebook.com), в то время как пользователи голосового поиска вводят их в устной форме (например, «face book dot com»). Обучение моделей распознавания речи (Language Models, LM) напрямую на текстовых URL неэффективно, увеличивает размер словаря и не позволяет точно распознавать устную форму.

Что запатентовано

Запатентована система для автоматической сегментации (декомпозиции) составного текста, такого как URL-адреса, извлеченные из текстовых поисковых запросов. Система использует большие языковые модели (LM), обученные на данных запросов, для определения наиболее вероятной сегментации URL на составляющие его слова (устную форму). Эта сегментированная информация затем используется для обучения голосовых LM. Также описан обратный процесс (композиция) для реконструкции текстового URL из распознанной речи во время выполнения запроса.

Как это работает

Система работает в двух основных режимах: обучение и выполнение.

Обучение (Декомпозиция):

Система извлекает URL из логов текстовых запросов.
Для каждого URL Decompounder генерирует все возможные варианты сегментации на слова, используя большой словарь (V_Base).
Эти варианты представляются в виде решетки (Lattice или Automaton).
Большая языковая модель (L_Base), обученная на запросах, оценивает вероятность каждого варианта сегментации.
Выбирается наиболее вероятная сегментация (Best Probable Path), которая и считается устной формой URL.
Голосовая LM обучается на этих устных формах.

Выполнение (Композиция):

Пользователь произносит запрос, содержащий URL.
Голосовая LM распознает последовательность слов.
Эти слова поступают в Compounder (инвертированный Decompounder).
Compounder восстанавливает исходный текстовый URL.
Текстовый URL отправляется в поисковую систему.

Актуальность для SEO

Высокая. Голосовой поиск, особенно на мобильных устройствах, является критически важным интерфейсом. Описанные методы (использование больших LM и конечных преобразователей (FST) для сегментации и нормализации текста) являются стандартной практикой в современных системах автоматического распознавания речи (ASR).

Важность для SEO

Влияние на SEO низкое (2/10). Это инфраструктурный патент, описывающий внутренние процессы системы автоматического распознавания речи (ASR) Google, а не алгоритмы ранжирования. Он объясняет, как Google нормализует голосовые навигационные запросы. Основная ценность для SEO заключается в понимании важности четкой структуры URL и брендинга, которые должны быть легко сегментируемыми и произносимыми для облегчения голосовой навигации к сайту.

Детальный разбор

Термины и определения

Automaton / Finite-State Transducer (FST) (Автомат / Конечный преобразователь): Математическая модель, используемая для представления и обработки последовательностей символов или слов. В патенте используется для представления всех возможных сегментаций URL (Lattice), а также для хранения обученных моделей декомпозиции и композиции.
Compounder (Компоновщик): Конечный преобразователь (FST), созданный путем инвертирования обученного Decompounder. Он принимает на вход последовательность распознанных слов (устную форму URL) и выводит соответствующий текстовый URL.
Decompounder / URL Decompounding Transducer (Декомпоновщик): Конечный преобразователь (FST), обученный сегментировать текстовый URL на составляющие его слова (устную форму). Он хранит наиболее вероятную сегментацию для известных URL.
L_Base: Базовая большая языковая модель (LM), обученная на текстовых поисковых запросах. Используется для оценки вероятности различных вариантов сегментации URL во время обучения Decompounder.
Language Model (LM) (Языковая модель): Статистическая модель, которая предсказывает вероятность появления определенной последовательности слов. Используется для распознавания речи и оценки сегментаций.
Lattice (Решетка): Структура данных (часто в виде Automaton), которая компактно представляет все возможные варианты сегментации составного текста (URL).
Navigational Queries (Навигационные запросы): Запросы, в которых пользователь вводит URL (полностью или частично) в поисковую строку для перехода на конкретный сайт.
N-gram Probabilities (Вероятности N-грамм): Статистические данные из языковой модели, указывающие на частоту встречаемости последовательностей слов (N-грамм). Используются для оценки правдоподобности сегментации.
Spoken Form (Устная форма): Способ произношения URL. Формально определяется как базовая истинная сегментация URL на составляющие его слова (например, «cancer centers of america dot com» для cancercentersofamerica.com).
V_Base: Словарь базовой языковой модели L_Base. Используется для определения того, какие слова могут быть выделены из текстового URL.

Ключевые утверждения (Анализ Claims)

Многие пункты патента (1-9, 11-25) были отменены (canceled). Анализ фокусируется на основном действующем независимом пункте Claim 10.

Claim 10 (Независимый пункт): Описывает полный цикл процесса, включающий как обучение системы сегментации, так и ее применение во время голосового поиска.

Часть 1: Обучение (Декомпозиция)

Система получает текстовый URL, извлеченный из текстовых поисковых запросов.
Система обращается к электронному словарю.
Генерируется структура данных (Lattice), представляющая возможные сегментации текстового URL на основе слов из словаря.
Определяется наиболее вероятная сегментация текстового URL на основе частоты встречаемости (frequency of occurrence) каждой из возможных сегментаций (используя L_Base).

Часть 2: Выполнение (Композиция и Поиск)

Система получает аудиоданные, содержащие произнесенный пользователем запрос.
С помощью языковой модели (Voice LM) идентифицируется текстовая форма слов в произнесенном запросе.
Система определяет, что текстовая форма части слов в запросе соответствует ранее определенной наиболее вероятной сегментации URL (этот шаг выполняется с помощью Compounder).
В ответ на это соответствие система передает поисковой системе текстовый запрос, включающий исходный текстовый URL (а не распознанные слова).

Ядро изобретения — это использование вероятностной сегментации текстовых данных (обучение) для последующего точного восстановления исходного текстового формата из голосового ввода (выполнение).

Где и как применяется

Изобретение применяется на этапах подготовки данных для обучения языковых моделей и на этапе понимания голосовых запросов.

INDEXING (Подготовка данных и извлечение признаков)
Хотя это не стандартное индексирование веб-страниц, патент описывает процесс обработки и индексации логов поисковых запросов для обучения языковых моделей (LM Training Phase).

Data Preparation Phase: Текстовые логи нормализуются, URL-адреса аннотируются (идентифицируются).
Decompounding: Аннотированные URL сегментируются в их устную форму с помощью Decompounder.
LM Training: Полученные данные используются для обучения голосовой LM.

QUNDERSTANDING – Понимание Запросов (Голосовых)
Основное применение патента в реальном времени.

ASR Processing: Голосовой ввод обрабатывается с помощью обученной голосовой LM для распознавания слов.
Normalization/Compounding: Распознанные слова пропускаются через Compounder для восстановления текстовой формы URL, если она присутствует.
Query Submission: Нормализованный запрос (с текстовым URL) отправляется в основную поисковую систему.

Входные данные (Обучение):

Логи текстовых запросов (Query Data) с информацией о частоте.
Базовая языковая модель (L_Base) и ее словарь (V_Base).

Выходные данные (Обучение):

Обученный Decompounder (Trained Automaton).
Данные для обучения голосовой LM (запросы с URL в устной форме).
Compounder (инверсия Decompounder).

Входные данные (Выполнение):

Аудиопоток голосового запроса.

Выходные данные (Выполнение):

Нормализованный текстовый запрос с восстановленным URL, отправляемый в поисковую систему.

На что влияет

Специфические запросы: Влияет исключительно на навигационные запросы (содержащие URL или названия доменов), вводимые голосом.
Типы устройств: Наибольшее влияние на мобильные устройства и умные колонки, где голосовой ввод является основным или часто используемым методом.

Когда применяется

Во время обучения: Применяется офлайн при обработке больших объемов логов текстовых запросов для создания или обновления голосовых языковых моделей и Decompounder/Compounder.
Во время выполнения: Применяется в реальном времени каждый раз, когда система ASR обрабатывает голосовой запрос. Compounder пытается сопоставить распознанные последовательности слов с известными URL.

Пошаговый алгоритм

Процесс А: Обучение Decompounder и Языковой Модели

Сбор и подготовка данных: Получение логов текстовых запросов с частотной информацией.
Нормализация и Аннотирование: Стандартная нормализация текста (например, нижний регистр). Идентификация и маркировка подстрок, являющихся URL (U).
Создание Базовой LM: Обучение базовой языковой модели L_Base на нормализованных данных (возможно, исключая сами URL). Определение словаря V_Base.
Генерация Кандидатов Сегментации: Для каждого URL (u) из набора U создается решетка (Lattice), представляющая все возможные способы сегментации u на слова из словаря V_Base.
Оценка Вероятностей: Решетка совмещается с языковой моделью L_Base. L_Base присваивает вероятностную оценку каждому пути (сегментации) в решетке на основе N-gram Probabilities.
Выбор Лучшего Пути: Выбирается путь сегментации с наивысшей вероятностью (Best Probable Path). Это считается устной формой URL.
Построение Decompounder: Наилучшие пути для всех URL объединяются в обученный автомат (Trained Automaton) – Decompounder (N(U)).
Генерация Compounder: Decompounder инвертируется для создания Compounder.
Обучение Голосовой LM: Исходные логи запросов модифицируются: текстовые URL заменяются их устными формами (полученными на шаге 6). На этих модифицированных данных обучается финальная голосовая языковая модель.

Процесс Б: Обработка голосового запроса в реальном времени

Получение аудио: Система получает аудиопоток голосового запроса от пользователя (например, «Face Book Dot Com»).
Распознавание речи: Голосовая LM (обученная в Процессе А) используется для преобразования аудиопотока в последовательность текстовых слов.
Композиция (Compounding): Распознанная последовательность слов подается на вход Compounder.
Восстановление URL: Если Compounder распознает последовательность слов как устную форму известного URL, он выводит соответствующий текстовый URL (например, «Facebook.com»).
Формирование запроса: Восстановленный текстовый URL вставляется в запрос.
Выполнение поиска: Нормализованный текстовый запрос отправляется в поисковую систему.
Возврат результатов: Результаты поиска и нормализованный текстовый запрос возвращаются пользователю для отображения.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке запросов и данных, связанных с языковыми моделями.

Поведенческие факторы (Текстовые): Журналы текстовых поисковых запросов (Query Data) и связанная с ними частотная информация (Frequency Information). Это основной источник данных для обучения L_Base и идентификации URL для декомпозиции.
Пользовательские факторы (Голосовые): Аудиоданные голосовых запросов, получаемые в реальном времени от устройств пользователей.
Системные данные: Электронный словарь (V_Base), часто основанный на том же потоке запросов.

Какие метрики используются и как они считаются

N-gram Probabilities: Вероятности последовательностей слов, хранящиеся в L_Base. Они используются для оценки правдоподобности той или иной сегментации URL.
Best Probable Path (Наиболее вероятный путь): Сегментация URL, которой присвоена наивысшая совокупная вероятность на основе N-gram Probabilities.
Формула расчета сегментации: В патенте приводится формальное описание выбора наилучшего пути N(u) как: $N(u) = bestpath(I(u) \circ T^*(V_{BASE}) \circ L_{BASE})$ . Где $I(u) \circ T^*(V_{BASE})$ представляет собой решетку всех возможных сегментаций, а композиция с L_Base используется для их оценки.
Word Error Rate (WER) (Частота словесных ошибок): Метрика, используемая в патенте для оценки качества работы Decompounder путем сравнения автоматической сегментации с эталонной (ручной) сегментацией.

Выводы

Инфраструктура ASR, а не ранжирование: Патент описывает исключительно инфраструктуру для автоматического распознавания речи (ASR) и обучения языковых моделей. Он не содержит информации о факторах ранжирования или алгоритмах оценки качества контента.
Зависимость от текстовых запросов для понимания речи: Google в значительной степени полагается на анализ огромных объемов текстовых поисковых запросов (L_Base), чтобы определить, как люди, скорее всего, произносят URL-адреса. То, как пользователи ищут бренд в тексте, влияет на то, как Google сегментирует его доменное имя для голосового поиска.
Нормализация ввода как ключевая цель: Основная цель системы — нормализация ввода. Независимо от того, вводит ли пользователь запрос текстом или голосом, внутренняя поисковая система должна получить каноническую текстовую форму URL (например, получить facebook.com, даже если пользователь сказал «face book dot com»).
Сложная обработка неоднозначностей: Механизм декомпозиции (Decompounder) предназначен для решения проблемы неоднозначности сегментации (например, «gothisland» -> «goth island» или «go this land») путем выбора наиболее вероятного варианта на основе статистики использования языка.
Эффективность языковых моделей: Использование сегментированных URL для обучения голосовых LM значительно уменьшает размер словаря и повышает точность распознавания (снижает перплексию) по сравнению с моделями, обученными на текстовых URL.

Практика

Best practices (это мы делаем)

Поскольку патент является инфраструктурным и описывает работу ASR, прямых рекомендаций по SEO-оптимизации контента или ссылок он не дает. Однако он дает важные выводы для брендинга и технической структуры URL.

Выбор однозначных доменных имен: Выбирайте доменные имена и названия брендов, которые легко сегментируются и произносятся. Если система может легко разбить домен на составляющие слова, вероятность правильного распознавания при голосовом вводе выше.
Тестирование URL на сегментацию: При создании новых разделов или выборе URL-slugs проверяйте их на предмет потенциальной неоднозначности при произношении и сегментации. Предпочитайте четкие и ясные конструкции.
Построение сильного бренда (Косвенно): Чем чаще пользователи ищут ваш бренд в виде отдельных слов (если он составной), тем выше вероятность того, что L_Base присвоит этой сегментации высокий балл. Это обеспечивает корректную работу голосовой навигации к вашему сайту.

Worst practices (это делать не надо)

Использование неоднозначных составных имен: Избегайте использования доменных имен, которые могут быть неправильно сегментированы с негативными коннотациями или привести к другому значению. Классические примеры: expertsexchange.com (Expert Sex Change или Experts Exchange) или penisland.net (Pen Island или Penis Land). Этот патент описывает механизм, который пытается решить эту проблему, но полагаться на него рискованно.
Использование сложных или непроизносимых URL: Создание URL, которые трудно произнести или которые не состоят из известных словарю слов, затруднит голосовую навигацию к этим страницам, так как система не сможет корректно их сегментировать или распознать.

Стратегическое значение

Патент подтверждает сложность и важность этапа нормализации ввода в поисковых системах, особенно при переходе от текста к речи и обратно. Для SEO это подчеркивает, что доступность сайта (accessibility) включает в себя не только технические аспекты, но и лингвистические — насколько легко пользователям найти сайт с помощью голоса. Стратегически важно учитывать голосовую навигацию при выборе бренда и структуры URL.

Практические примеры

Сценарий: Выбор доменного имени для сервиса поиска психотерапевтов

Вариант 1 (Плохой): therapistfinder.com
Анализ неоднозначности: Система Decompounder, анализируя этот URL, может сгенерировать два варианта: «therapist finder» и «the rapist finder».
Оценка вероятности: Система обратится к L_Base для оценки обоих вариантов. Если по какой-то причине второй вариант окажется статистически более вероятным в общем корпусе языка или если первый вариант недостаточно силен, система может ошибиться.
Вариант 2 (Хороший): findatherapist.com или therapy-finder.com (если используются дефисы).
Результат: Выбор однозначного варианта гарантирует, что при голосовом запросе пользователи будут корректно направлены на нужный сайт, и снижает репутационные риски.

Вопросы и ответы

Влияет ли этот патент на ранжирование сайтов?

Нет, этот патент не описывает алгоритмы ранжирования или оценки качества контента. Он описывает исключительно инфраструктуру автоматического распознавания речи (ASR) и то, как Google обрабатывает и нормализует голосовые запросы, содержащие URL-адреса, перед отправкой их в поисковую систему.

Как Google определяет, как правильно разбить мой домен на слова?

Google использует большую языковую модель (L_Base), обученную на огромном количестве текстовых поисковых запросов. Система генерирует все возможные варианты разбивки домена на слова из своего словаря и выбирает тот вариант, который имеет наибольшую статистическую вероятность появления в реальных запросах.

Что произойдет, если мой домен можно разбить на слова по-разному?

Это представляет проблему неоднозначности. Система попытается выбрать наиболее вероятный вариант на основе статистики L_Base. Если ваш бренд новый или менее популярный, чем альтернативная интерпретация, система может выбрать неправильную сегментацию, что затруднит голосовую навигацию к вашему сайту.

Как я могу помочь Google правильно сегментировать мой домен?

Лучший способ — выбирать четкие и однозначные доменные имена. Также помогает построение сильного бренда: чем чаще пользователи ищут ваш бренд в правильной сегментации в текстовом поиске, тем больше данных получит L_Base для корректной оценки вероятности.

Использует ли Google этот механизм для сегментации URL-slugs (частей URL после домена)?

Да, патент описывает сегментацию составного текста в целом, и примеры включают части URL, такие как myspacelayouts. Механизм может применяться к любой части URL, которая представляет собой конкатенацию слов без пробелов.

Что такое Decompounder и Compounder?

Decompounder — это компонент, который разбивает текстовый URL на слова (например, facebook.com -> face book) во время обучения системы. Compounder — это обратный компонент, который во время голосового запроса собирает распознанные слова обратно в текстовый URL (например, face book dot com -> facebook.com).

Почему Google не обучает голосовую модель прямо на текстовых URL?

Это неэффективно. Во-первых, это сильно увеличивает размер словаря, так как каждый URL становится отдельным термином. Во-вторых, это не позволяет автоматически генерировать произношение для URL; пришлось бы создавать произношение для каждого URL вручную. Сегментация позволяет использовать произношения для отдельных слов.

Влияет ли использование дефисов в URL на этот процесс?

Патент фокусируется на сегментации текста, соединенного *без* промежуточных пробелов. Использование дефисов обычно упрощает сегментацию, так как они служат явными разделителями. Это может быть хорошей стратегией для избежания неоднозначности, описанной в патенте.

Применяется ли этот патент только к английскому языку?

Хотя примеры приведены на английском языке, технология сегментации составного текста применима к любому языку. В патенте также упоминается, что она может использоваться для языков, которые не сегментируют каждое слово в письменной форме (например, некоторые азиатские языки).

Какое основное действие я должен предпринять как SEO-специалист на основе этого патента?

Основное действие — это аудит текущих и будущих доменных имен и важных URL-slugs на предмет их произносимости и однозначности сегментации. Убедитесь, что ваш бренд легко найти через голосовую навигацию, избегая лингвистических ловушек.