Как Google использует частотность фраз в веб-индексе и логах запросов для разделения слитного текста на слова

Google использует статистический анализ для интерпретации строк без пробелов (например, URL, доменных имен или слипшихся слов в запросах). Система генерирует различные варианты разделения строки на слова и проверяет, какой из вариантов чаще встречается в индексе веб-документов или в истории поисковых запросов. Наиболее частотный вариант признается правильной интерпретацией.

Описание

Какую задачу решает

Патент решает проблему неоднозначности при интерпретации строк символов, в которых отсутствуют разделители (пробелы) между словами или токенами. Это критично при обработке доменных имен, URL-адресов или поисковых запросов с пропущенными пробелами. Например, система должна определить, как интерпретировать строку «usedrugs»: как «used rugs» (подержанные ковры) или «use drugs» (употреблять наркотики). Цель — выбрать наиболее корректную интерпретацию для последующих задач, таких как фильтрация контента или подбор рекламы.

Что запатентовано

Запатентован метод улучшения сегментации текста, основанный на использовании внешней статистики. Система генерирует несколько потенциальных сегментированных результатов (segmented results) для входной строки. Затем она определяет частоту встречаемости (frequency of occurrence или level of occurrence) каждого варианта в большом корпусе данных (corpora), таком как веб-индекс или логи поисковых запросов. Вариант с наибольшей частотностью выбирается как итоговый (operable segmented result).

Как это работает

Система (Segmentation Engine) работает следующим образом:

Получение строки: Принимается строка символов без пробелов (например, доменное имя).
Генерация кандидатов: Генерируются возможные варианты разделения на токены (слова).
Предварительный отбор (Опционально): Могут быть выбраны топовые кандидаты на основе внутренних вероятностных моделей (probability value).
Частотный анализ: Для кандидатов определяется, как часто они встречаются в корпусе (веб-индекс и/или логи запросов).
Выбор: Кандидат с максимальной частотой встречаемости выбирается в качестве правильной интерпретации.

Актуальность для SEO

Высокая. Сегментация текста является фундаментальной задачей NLP (Natural Language Processing). Способность корректно интерпретировать слитные слова в запросах, а также понимать структуру URL и доменных имен, критически важна для качества поиска. Принцип использования глобальной статистики (частотности в корпусе) для разрешения лингвистических неоднозначностей остается стандартом в Information Retrieval.

Важность для SEO

Влияние на SEO значительное (70/100). Хотя это не алгоритм ранжирования, он описывает механизм, который напрямую влияет на то, как Google интерпретирует ключевые технические элементы сайта: доменное имя и URL-адреса. Также он критичен для Query Understanding (понимания запросов). Неправильная интерпретация может привести к проблемам с релевантностью или активации фильтров контента (например, SafeSearch), что делает понимание этого механизма важным для технического SEO и брендинга.

Детальный разбор

Термины и определения

String of Characters (Строка символов): Входные данные; текст без разделителей (пробелов), требующий интерпретации. В патенте в качестве примера часто используются доменные имена и URL.
Token (Токен): Лексическая единица, на которую делится строка: слово, аббревиатура, имя собственное, географическое название, биржевой тикер и т.д.
Segmented Result (Сегментированный результат): Один из возможных вариантов разделения исходной строки на последовательность токенов.
Frequency of Occurrence (Частота встречаемости): Метрика, определяющая, как часто конкретный segmented result встречается в заданном корпусе данных. В Claims также используется термин level (уровень) или level of occurrence.
Corpora (Корпусы данных): Массивы данных для определения частотности. Патент выделяет два типа: электронные документы (веб-индекс) и логи поисковых запросов (search queries).
Operable Segmented Result (Рабочий/Итоговый сегментированный результат): Вариант сегментации, выбранный системой как наилучший на основе максимальной Frequency of Occurrence.
Probability Value (Значение вероятности): Упоминается в описании как предварительная оценка для отбора топовых кандидатов до выполнения частотного поиска. Может рассчитываться на основе частотности отдельных токенов.
Segmentation Engine (Механизм сегментации): Система, реализующая процесс. Включает Segmentation Processor (генерация вариантов) и Frequency Processor (анализ частотности).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод сегментации на основе статистики корпуса.

Система получает строку символов.
Идентифицируются segmented results путем разделения строки на две или более подстрок (токенов/слов).
Определяются уровни (levels / частота), на которых эти результаты встречаются в одном или нескольких корпусах (corpora).
Один или несколько результатов выбираются на основе этих уровней.
Выбранные результаты предоставляются в ассоциации с исходной строкой.

Claim 2 (Зависимый от 1): Уточняет критерий выбора. Выбираются результаты с наивысшим уровнем встречаемости (highest level of occurrence).

Claims 3 и 4 (Зависимые от 1): Определяют первый тип корпуса: электронные документы. Уровень встречаемости определяется как количество документов, содержащих результат хотя бы один раз.

Claims 5 и 6 (Зависимые от 1): Определяют второй тип корпуса: логи поисковых запросов, ранее отправленные пользователями. Уровень встречаемости определяется как количество раз, когда результат (или его часть) встречается в этих запросах.

Claim 7 (Зависимый от 1): Описывает применение. Если строка является доменным именем, метод используется для определения, нужно ли его фильтровать (например, SafeSearch).

Claims 8 и 9 (Зависимые от 1): Описывают другое применение. Результат используется для подбора контента, например, рекламы (advertisements), связанного с исходной строкой.

Где и как применяется

Изобретение применяется на этапах, где требуется интерпретация неоднозначного или слитного текста.

INDEXING – Индексирование и извлечение признаков
Применяется для анализа URL-адресов и доменных имен (URL understanding). Корректная сегментация URL важна для понимания структуры сайта, тематики страницы и извлечения признаков релевантности. Также может использоваться для анализа анкорного текста или контента без пробелов (например, хэштегов).

QUNDERSTANDING – Понимание Запросов
Критически важное применение. Когда пользователь вводит запрос с пропущенными пробелами (например, «cheapflights»), система использует этот механизм для определения истинного намерения («cheap flights»), проверяя частотность вариантов в логах запросов и веб-индексе.

Входные данные:

Исходная строка символов (String of Characters).
База данных токенов (Token DB) для генерации вариантов (упоминается в описании).
Корпуса данных: Индекс документов (Index) и/или Логи поисковых запросов.

Выходные данные:

Итоговый сегментированный результат (Operable Segmented Result).

На что влияет

Технические элементы: Наибольшее влияние на интерпретацию URL-адресов и доменных имен.
Специфические запросы: Влияет на обработку запросов с опечатками (пропущенные пробелы) и составных слов.
Фильтрация контента (SafeSearch): Патент явно указывает на использование механизма для принятия решений о фильтрации. Корректная сегментация предотвращает ложные срабатывания фильтров (например, интерпретация «mikesexpress» как «mikes express», а не как содержащее слово «sex»).
Подбор рекламы: Используется для подбора релевантной рекламы, например, на припаркованных доменах.

Когда применяется

Алгоритм применяется, когда система сталкивается со строкой символов, которая может быть разделена на токены несколькими способами, и требуется выбрать наиболее вероятную интерпретацию.

Триггеры активации: Наличие строки без пробелов, которая не распознается как единый известный токен, или необходимость анализа доменного имени/URL.

Пошаговый алгоритм

Процесс работы Segmentation Engine:

Доступ к строке символов: Система получает входную строку.
Генерация сегментированных результатов: Segmentation Processor генерирует список возможных комбинаций токенов (segmented results).
Определение Топ результатов (Опционально): Система может рассчитать предварительную вероятность (Probability Value) для каждого варианта (например, на основе частотности отдельных токенов) и выбрать наиболее вероятные кандидаты.
Подготовка к частотному поиску: Для отобранных кандидатов инициируется частотный поиск. В описании патента упоминается, что может применяться проверка орфографии (spell-checking functionality); исправленные варианты также включаются в поиск.
Выполнение частотного поиска (Frequency Search): Frequency Processor определяет Frequency of Occurrence для каждого кандидата в корпусе. Это может включать:
- Подсчет количества документов в индексе, содержащих фразу (например, путем выполнения точного поиска).
- Анализ логов поисковых запросов.
Взвешивание (Опционально): В описании патента (не в Claims) упоминается возможность взвешивания частотности с учетом объективного ранжирования (например, упоминается PageRank™ ranking algorithm) документов, в которых найдена фраза.
Идентификация итогового результата: Система сравнивает частоты встречаемости. Вариант с максимальной частотностью идентифицируется как Operable Segmented Result.
Применение результата: Итоговый результат используется для понимания запроса, индексации URL, фильтрации или выбора рекламы.

Какие данные и как использует

Данные на входе

Технические факторы: Доменные имена и URL-структуры являются основными входными данными для сегментации.
Поведенческие факторы (Корпус): Логи поисковых запросов (search queries). Используются как один из основных корпусов для определения частоты встречаемости.
Контентные факторы (Корпус): Индекс электронных документов (веб-индекс). Используется как второй основной корпус.

Какие метрики используются и как они считаются

Frequency of Occurrence (Частота встречаемости): Ключевая метрика. Рассчитывается двумя основными способами:
1. Количество документов в индексе, содержащих сегментированный результат (часто как точную фразу).
2. Количество вхождений сегментированного результата в логах поисковых запросов.
Probability Value (Значение вероятности): Упоминается в описании для предварительного ранжирования кандидатов. Может рассчитываться на основе частотных значений отдельных токенов внутри результата.
Objective Ranking (Объективный рейтинг): Упоминается в описании как возможный весовой коэффициент для Frequency of Occurrence. Система может учитывать авторитетность (например, PageRank) документов при подсчете частоты.

Выводы

Разрешение неоднозначности через статистику («Мудрость толпы»): Google использует агрегированные данные (веб-контент и поведение пользователей) для решения базовых задач NLP. Предпочтение отдается той интерпретации текста, которая наиболее распространена в интернете.
Критичность логов запросов и веб-индекса: И веб-индекс, и логи поисковых запросов являются критически важными корпусами для обучения и работы алгоритмов понимания языка. То, как люди пишут и ищут, определяет интерпретацию языка системой.
Контекстная интерпретация URL и доменов: Google активно сегментирует URL и домены на осмысленные токены. Это влияет на понимание тематики страницы и ее релевантности.
Прямое влияние на фильтрацию контента: Механизм используется для принятия решений о фильтрации (SafeSearch). Качество сегментации влияет на видимость сайта в безопасном поиске, предотвращая ложные срабатывания из-за неудачных сочетаний букв в доменных именах.
Интеграция сигналов качества (PageRank): При выборе сегментации система может учитывать авторитетность источников, подтверждающих тот или иной вариант (согласно описанию патента, но не Claims).

Практика

Best practices (это мы делаем)

Использование разделителей в URL (Дефисы): Ключевая рекомендация. Всегда используйте дефисы (-) для разделения слов в URL. Это устраняет неоднозначность и гарантирует правильную интерпретацию ключевых слов, не заставляя Google применять вероятностную сегментацию (например, /best-laptops/ вместо /bestlaptops/).
Анализ сегментации домена и бренда: При выборе нового домена или бренда анализируйте, как система может сегментировать эти строки. Убедитесь, что наиболее вероятная (частотная) сегментация соответствует тематике и не содержит нежелательных или двусмысленных терминов. Используйте поиск в кавычках для проверки частотности вариантов.
Укрепление правильной интерпретации: Активно используйте правильное написание вашего бренда или сложных терминов в контенте, PR-материалах и ссылочном профиле. Повышение частотности правильного варианта в веб-индексе увеличивает вероятность его выбора системой при сегментации слитных написаний (например, в хэштегах или при опечатках).

Worst practices (это делать не надо)

Использование слитных URL (Piecemeal URLs): Создание URL вида /howtosegmenttext/ является плохой практикой. Это заставляет поисковую систему угадывать границы слов, что может привести к неправильной интерпретации и снижению релевантности.
Выбор двусмысленных доменных имен: Выбор доменов, которые могут быть сегментированы нежелательным образом (например, содержащие слова, связанные с adult-тематикой при альтернативной сегментации). Это создает риск попадания под фильтры (SafeSearch), как описано в патенте.
Игнорирование частотности терминологии: Использование редких или нестандартных составных терминов без разделителей может привести к тому, что Google сегментирует их иначе, основываясь на более частотных комбинациях слов в своем корпусе.

Стратегическое значение

Патент подтверждает, что Google использует статистические данные о реальном использовании языка для интерпретации контента и запросов. Стратегически важно обеспечить максимальную однозначность и ясность всех текстовых элементов сайта, особенно URL и доменных имен. Это минимизирует риски неправильной интерпретации алгоритмами сегментации и последующих проблем с релевантностью или фильтрацией.

Практические примеры

Сценарий 1: Выбор доменного имени и предотвращение фильтрации

Этот сценарий основан на примере из описания патента.

Задача: Зарегистрировать домен для компании «Mike’s Express» (Экспресс Майка). Рассматривается вариант mikesexpress.com.
Анализ риска (по патенту): Система Google может сегментировать это имя как «mikes express» или «mike sex press».
Действие SEO-специалиста: Провести частотный анализ в Google. Сравнить количество результатов по запросам (в кавычках) «mikes express» и «mike sex press».
Результат: Если «mikes express» значительно более частотен, риск фильтрации низок. Если частотность сопоставима или альтернативный вариант выше, лучше выбрать домен с дефисом (mikes-express.com) или активно работать над повышением частотности правильного варианта в сети.

Сценарий 2: Оптимизация структуры URL

Задача: Создать URL для статьи о лучших ноутбуках.
Плохой вариант: example.com/bestlaptops. Google должен применить алгоритм сегментации. Хотя «best laptops» является высокочастотной фразой, это требует от системы дополнительных усилий.
Хороший вариант: example.com/best-laptops. Разделитель (дефис) явно указывает границы слов, устраняя необходимость применения алгоритма из патента и гарантируя правильную интерпретацию.

Вопросы и ответы

На что опирается Google при выборе лучшего варианта сегментации текста без пробелов?

Google опирается на частоту встречаемости (Frequency of Occurrence) различных вариантов сегментации. Патент описывает два основных источника данных: индекс веб-документов (как часто фраза встречается на сайтах) и логи поисковых запросов (как часто люди ищут эту фразу). Вариант, который встречается чаще всего, признается правильным.

Как этот патент влияет на выбор доменного имени?

Он имеет прямое влияние. Если доменное имя состоит из нескольких слов без разделителей, Google применит этот алгоритм для его интерпретации. Если существует альтернативная сегментация, которая имеет высокую частотность и связана с нежелательной тематикой (например, adult), сайт может столкнуться с проблемами фильтрации (SafeSearch) или неправильной классификацией.

Применяется ли этот алгоритм для анализа URL страниц?

Да, это одно из основных применений. Если в URL используются слипшиеся слова (например, /bestlaptops/), Google будет использовать этот механизм, чтобы понять, что это означает «best laptops». Это подчеркивает важность использования дефисов в URL (/best-laptops/) для обеспечения однозначной интерпретации.

Как Google обрабатывает запросы, в которых пользователь пропустил пробел?

Этот механизм используется для обработки таких запросов (Query Understanding). Если пользователь вводит «cheapflights», система генерирует варианты и проверяет их частотность в логах запросов и веб-индексе. Система автоматически скорректирует запрос к наиболее популярному варианту (например, «cheap flights»).

Учитывает ли система опечатки при сегментации?

Да. В описании патента упоминается использование функции проверки орфографии (spell-checking functionality). Система может генерировать варианты с исправленными опечатками и также проверять их частотность наряду с исходными вариантами сегментации, чтобы найти наилучшую интерпретацию.

Что такое «Token» в контексте этого патента?

Token – это любая лексическая единица, на которую может быть разделена строка. Это не только слова, но и имена собственные, географические названия, аббревиатуры, акронимы или биржевые тикеры. Система использует базу данных токенов для генерации возможных вариантов сегментации.

Может ли этот механизм привести к неправильной интерпретации моего контента?

Да, если вы используете нестандартные или редкие составные термины без разделителей. Система статистическая и отдает предпочтение наиболее частотным комбинациям слов. Если ваша задуманная сегментация редка, а альтернативная (и неверная для вас) – частотна, система выберет альтернативную. Используйте разделители (пробелы, дефисы), чтобы избежать этого.

Учитывается ли авторитетность сайтов при подсчете частоты встречаемости?

Да, такая возможность предусмотрена в описании патента (хотя и не в Claims). Упоминается возможность использования объективного ранжирования (например, PageRank) для взвешивания документов при определении частоты. Это означает, что встречаемость фразы на авторитетном сайте может иметь больший вес при выборе финальной интерпретации.

Что такое «Probability Value» и как он используется?

Это предварительная оценка вероятности варианта сегментации, которая рассчитывается на основе частоты отдельных слов (токенов) в словаре (согласно описанию патента). Система может использовать этот показатель, чтобы быстро отобрать несколько лучших кандидатов перед тем, как выполнять более ресурсоемкий частотный поиск по всему индексу или логам запросов.

Какова основная цель этого изобретения, описанная в патенте?

Помимо улучшения базовой интерпретации текста, в патенте указаны две конкретные цели. Первая — улучшение подбора релевантной рекламы (например, для припаркованных доменов). Вторая — повышение точности работы контент-фильтров (например, SafeSearch) путем предотвращения ложных срабатываний из-за некорректной сегментации доменных имен.