
Google анализирует текстовые URL-адреса из журналов поиска, чтобы определить наиболее вероятный способ их произношения (например, facebook.com -> «face book dot com»). Этот процесс использует большие языковые модели для сегментации URL. Полученные данные используются для обучения систем распознавания речи. Когда пользователь произносит URL, система распознает слова и реконструирует текстовый URL для поисковой системы.
Патент решает проблему обработки навигационных запросов (URL-адресов) в системах голосового поиска (Automatic Speech Recognition, ASR). Проблема заключается в несоответствии данных: журналы текстовых поисковых запросов содержат URL в текстовой форме (например, facebook.com), в то время как пользователи голосового поиска вводят их в устной форме (например, «face book dot com»). Обучение моделей распознавания речи (Language Models, LM) напрямую на текстовых URL неэффективно, увеличивает размер словаря и не позволяет точно распознавать устную форму.
Запатентована система для автоматической сегментации (декомпозиции) составного текста, такого как URL-адреса, извлеченные из текстовых поисковых запросов. Система использует большие языковые модели (LM), обученные на данных запросов, для определения наиболее вероятной сегментации URL на составляющие его слова (устную форму). Эта сегментированная информация затем используется для обучения голосовых LM. Также описан обратный процесс (композиция) для реконструкции текстового URL из распознанной речи во время выполнения запроса.
Система работает в двух основных режимах: обучение и выполнение.
Обучение (Декомпозиция):
Decompounder генерирует все возможные варианты сегментации на слова, используя большой словарь (V_Base).Lattice или Automaton).L_Base), обученная на запросах, оценивает вероятность каждого варианта сегментации.Best Probable Path), которая и считается устной формой URL.Выполнение (Композиция):
Compounder (инвертированный Decompounder).Compounder восстанавливает исходный текстовый URL.Высокая. Голосовой поиск, особенно на мобильных устройствах, является критически важным интерфейсом. Описанные методы (использование больших LM и конечных преобразователей (FST) для сегментации и нормализации текста) являются стандартной практикой в современных системах автоматического распознавания речи (ASR).
Влияние на SEO низкое (2/10). Это инфраструктурный патент, описывающий внутренние процессы системы автоматического распознавания речи (ASR) Google, а не алгоритмы ранжирования. Он объясняет, как Google нормализует голосовые навигационные запросы. Основная ценность для SEO заключается в понимании важности четкой структуры URL и брендинга, которые должны быть легко сегментируемыми и произносимыми для облегчения голосовой навигации к сайту.
Lattice), а также для хранения обученных моделей декомпозиции и композиции.Decompounder. Он принимает на вход последовательность распознанных слов (устную форму URL) и выводит соответствующий текстовый URL.Decompounder.Automaton), которая компактно представляет все возможные варианты сегментации составного текста (URL).L_Base. Используется для определения того, какие слова могут быть выделены из текстового URL.Многие пункты патента (1-9, 11-25) были отменены (canceled). Анализ фокусируется на основном действующем независимом пункте Claim 10.
Claim 10 (Независимый пункт): Описывает полный цикл процесса, включающий как обучение системы сегментации, так и ее применение во время голосового поиска.
Часть 1: Обучение (Декомпозиция)
Lattice), представляющая возможные сегментации текстового URL на основе слов из словаря.frequency of occurrence) каждой из возможных сегментаций (используя L_Base).Часть 2: Выполнение (Композиция и Поиск)
Compounder).Ядро изобретения — это использование вероятностной сегментации текстовых данных (обучение) для последующего точного восстановления исходного текстового формата из голосового ввода (выполнение).
Изобретение применяется на этапах подготовки данных для обучения языковых моделей и на этапе понимания голосовых запросов.
INDEXING (Подготовка данных и извлечение признаков)
Хотя это не стандартное индексирование веб-страниц, патент описывает процесс обработки и индексации логов поисковых запросов для обучения языковых моделей (LM Training Phase).
Decompounder.QUNDERSTANDING – Понимание Запросов (Голосовых)
Основное применение патента в реальном времени.
Compounder для восстановления текстовой формы URL, если она присутствует.Входные данные (Обучение):
Query Data) с информацией о частоте.L_Base) и ее словарь (V_Base).Выходные данные (Обучение):
Decompounder (Trained Automaton).Compounder (инверсия Decompounder).Входные данные (Выполнение):
Выходные данные (Выполнение):
Decompounder/Compounder.Compounder пытается сопоставить распознанные последовательности слов с известными URL.Процесс А: Обучение Decompounder и Языковой Модели
U).L_Base на нормализованных данных (возможно, исключая сами URL). Определение словаря V_Base.u) из набора U создается решетка (Lattice), представляющая все возможные способы сегментации u на слова из словаря V_Base.L_Base. L_Base присваивает вероятностную оценку каждому пути (сегментации) в решетке на основе N-gram Probabilities.Best Probable Path). Это считается устной формой URL.Trained Automaton) – Decompounder (N(U)).Decompounder инвертируется для создания Compounder.Процесс Б: Обработка голосового запроса в реальном времени
Compounder.Compounder распознает последовательность слов как устную форму известного URL, он выводит соответствующий текстовый URL (например, «Facebook.com»).Патент фокусируется на обработке запросов и данных, связанных с языковыми моделями.
Query Data) и связанная с ними частотная информация (Frequency Information). Это основной источник данных для обучения L_Base и идентификации URL для декомпозиции.V_Base), часто основанный на том же потоке запросов.L_Base. Они используются для оценки правдоподобности той или иной сегментации URL.N-gram Probabilities.L_Base используется для их оценки.Decompounder путем сравнения автоматической сегментации с эталонной (ручной) сегментацией.L_Base), чтобы определить, как люди, скорее всего, произносят URL-адреса. То, как пользователи ищут бренд в тексте, влияет на то, как Google сегментирует его доменное имя для голосового поиска.facebook.com, даже если пользователь сказал «face book dot com»).Decompounder) предназначен для решения проблемы неоднозначности сегментации (например, «gothisland» -> «goth island» или «go this land») путем выбора наиболее вероятного варианта на основе статистики использования языка.Поскольку патент является инфраструктурным и описывает работу ASR, прямых рекомендаций по SEO-оптимизации контента или ссылок он не дает. Однако он дает важные выводы для брендинга и технической структуры URL.
L_Base присвоит этой сегментации высокий балл. Это обеспечивает корректную работу голосовой навигации к вашему сайту.expertsexchange.com (Expert Sex Change или Experts Exchange) или penisland.net (Pen Island или Penis Land). Этот патент описывает механизм, который пытается решить эту проблему, но полагаться на него рискованно.Патент подтверждает сложность и важность этапа нормализации ввода в поисковых системах, особенно при переходе от текста к речи и обратно. Для SEO это подчеркивает, что доступность сайта (accessibility) включает в себя не только технические аспекты, но и лингвистические — насколько легко пользователям найти сайт с помощью голоса. Стратегически важно учитывать голосовую навигацию при выборе бренда и структуры URL.
Сценарий: Выбор доменного имени для сервиса поиска психотерапевтов
therapistfinder.comDecompounder, анализируя этот URL, может сгенерировать два варианта: «therapist finder» и «the rapist finder».L_Base для оценки обоих вариантов. Если по какой-то причине второй вариант окажется статистически более вероятным в общем корпусе языка или если первый вариант недостаточно силен, система может ошибиться.findatherapist.com или therapy-finder.com (если используются дефисы).Влияет ли этот патент на ранжирование сайтов?
Нет, этот патент не описывает алгоритмы ранжирования или оценки качества контента. Он описывает исключительно инфраструктуру автоматического распознавания речи (ASR) и то, как Google обрабатывает и нормализует голосовые запросы, содержащие URL-адреса, перед отправкой их в поисковую систему.
Как Google определяет, как правильно разбить мой домен на слова?
Google использует большую языковую модель (L_Base), обученную на огромном количестве текстовых поисковых запросов. Система генерирует все возможные варианты разбивки домена на слова из своего словаря и выбирает тот вариант, который имеет наибольшую статистическую вероятность появления в реальных запросах.
Что произойдет, если мой домен можно разбить на слова по-разному?
Это представляет проблему неоднозначности. Система попытается выбрать наиболее вероятный вариант на основе статистики L_Base. Если ваш бренд новый или менее популярный, чем альтернативная интерпретация, система может выбрать неправильную сегментацию, что затруднит голосовую навигацию к вашему сайту.
Как я могу помочь Google правильно сегментировать мой домен?
Лучший способ — выбирать четкие и однозначные доменные имена. Также помогает построение сильного бренда: чем чаще пользователи ищут ваш бренд в правильной сегментации в текстовом поиске, тем больше данных получит L_Base для корректной оценки вероятности.
Использует ли Google этот механизм для сегментации URL-slugs (частей URL после домена)?
Да, патент описывает сегментацию составного текста в целом, и примеры включают части URL, такие как myspacelayouts. Механизм может применяться к любой части URL, которая представляет собой конкатенацию слов без пробелов.
Что такое Decompounder и Compounder?
Decompounder — это компонент, который разбивает текстовый URL на слова (например, facebook.com -> face book) во время обучения системы. Compounder — это обратный компонент, который во время голосового запроса собирает распознанные слова обратно в текстовый URL (например, face book dot com -> facebook.com).
Почему Google не обучает голосовую модель прямо на текстовых URL?
Это неэффективно. Во-первых, это сильно увеличивает размер словаря, так как каждый URL становится отдельным термином. Во-вторых, это не позволяет автоматически генерировать произношение для URL; пришлось бы создавать произношение для каждого URL вручную. Сегментация позволяет использовать произношения для отдельных слов.
Влияет ли использование дефисов в URL на этот процесс?
Патент фокусируется на сегментации текста, соединенного *без* промежуточных пробелов. Использование дефисов обычно упрощает сегментацию, так как они служат явными разделителями. Это может быть хорошей стратегией для избежания неоднозначности, описанной в патенте.
Применяется ли этот патент только к английскому языку?
Хотя примеры приведены на английском языке, технология сегментации составного текста применима к любому языку. В патенте также упоминается, что она может использоваться для языков, которые не сегментируют каждое слово в письменной форме (например, некоторые азиатские языки).
Какое основное действие я должен предпринять как SEO-специалист на основе этого патента?
Основное действие — это аудит текущих и будущих доменных имен и важных URL-slugs на предмет их произносимости и однозначности сегментации. Убедитесь, что ваш бренд легко найти через голосовую навигацию, избегая лингвистических ловушек.

Семантика и интент
Knowledge Graph
Мультиязычность

Структура сайта
Персонализация
Техническое SEO

Мультимедиа
Семантика и интент

Семантика и интент

Семантика и интент
Мультимедиа

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
EEAT и качество
Индексация

Knowledge Graph
SERP
Семантика и интент

Антиспам
Ссылки
Семантика и интент

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы

Персонализация
Семантика и интент
Поведенческие сигналы

Персонализация
Поведенческие сигналы
Семантика и интент

Семантика и интент
Поведенческие сигналы
SERP

Персонализация
Семантика и интент
Мультимедиа
