
Google автоматически пополняет свой внутренний словарь (лексикон), анализируя логи поисковых запросов и контент в интернете (включая чаты и мессенджеры). Это позволяет системе выявлять новые термины, аббревиатуры, имена собственные и распространенные опечатки. Дополненный лексикон используется для лучшей сегментации (разбивки на слова) сложных строк без пробелов, например, URL-адресов или слитных запросов.
Патент решает проблему обработки текстовых строк, в которых отсутствуют явные разделители (пробелы), что затрудняет их сегментацию (segmentation) на отдельные лексические единицы (токены). Это критично для обработки URL-адресов, доменных имен или слитных запросов. Сложность возрастает, когда текст содержит элементы, отсутствующие в стандартных словарях: опечатки, аббревиатуры, сленг, неологизмы или имена собственные.
Запатентована система для автоматического дополнения (augmenting) лексикона токенов. Суть изобретения — использование нередактируемых источников данных, таких как логи поисковых запросов (search logs), веб-страницы, диалоги в мессенджерах (instant messaging dialogs) и чатах (chat sessions), для выявления новых или уникальных токенов. Эти токены добавляются в лексикон, что улучшает способность системы распознавать их при парсинге сложных строк.
Система функционирует следующим образом:
frequency). Если токен появляется достаточно часто (превышает threshold frequency), он считается валидным.lexicon data storage). Лексикон может быть онтологией (ontology), где новый токен (например, опечатка) связывается с его корректным или предпочтительным написанием.Средняя/Высокая. Фундаментальная задача адаптации к эволюции языка, новым терминам и опечаткам остается критически важной (Высокая актуальность). Однако конкретные методы реализации, описанные в патенте (подача 2004 г.), вероятно, устарели (Средняя актуальность). Современные NLP-модели (BERT, MUM) используют более продвинутые методы токенизации и векторные представления, но базовые принципы использования пользовательских данных для обучения сохраняются.
Влияние на SEO умеренное (5.5/10). Это инфраструктурный патент, описывающий базовые процессы NLP (обработки естественного языка) на этапах Indexing и Query Understanding, а не алгоритмы ранжирования. Он важен для понимания того, как Google учится распознавать новые бренды, терминологию и опечатки, а также как система обрабатывает URL-адреса, но не дает прямых рекомендаций для повышения позиций.
Claim 1 (Независимый пункт): Описывает метод пополнения лексикона на основе поисковых запросов.
frequency) его появления в логах.threshold level).lexicon data storage).ontology), которая связывает опечатку (misspelling) или альтернативное написание с правильным или предпочтительным написанием.Claim 6 (Независимый пункт): Описывает метод пополнения лексикона на основе интернет-контента (internet-accessible article).
Claim 11 (Независимый пункт): Описывает процесс пополнения лексикона и его применение для коррекции доменных имен.
domain name).Изобретение является частью инфраструктуры обработки естественного языка (NLP) и применяется на ранних этапах обработки текста.
INDEXING – Индексирование и извлечение признаков
Internet Articles) для выявления новых терминов, сленга, имен собственных.QUNDERSTANDING – Понимание Запросов
Search Logs) для выявления распространенных опечаток, аббревиатур и новых запросов.Входные данные:
Выходные данные:
Threshold Frequency.Процесс А: Дополнение Лексикона (Офлайн/Фоновый режим)
Search Log или Internet Article.Threshold Frequency. Токены ниже порога отбрасываются.Lexicon Data Storage с ассоциацией к его корректной версии.Процесс Б: Применение Лексикона (Онлайн)
Segmentation Engine парсит строку, используя дополненный лексикон. Распознает токены "hoffman" и "amplifilers" (если последний был добавлен ранее).misspelling -> correct spelling). Могут устанавливаться с помощью внешних инструментов, таких как Spell Checker.Search Logs) и что они пишут в интернете (Web Content, включая чаты и IM).Threshold Frequency) как доказательство значимости нового токена или опечатки. Распространенные ошибки будут изучены, а случайные — отфильтрованы.Threshold Frequency) и научится правильно его распознавать, включая типичные опечатки.Segmentation Engine) для разбора URL на токены. Использование ЧПУ с ключевыми словами, разделенными дефисами, облегчает этот процесс и позволяет системе корректно извлекать семантические сигналы из адреса страницы./brandxamplifiler/ вместо /brandx-amplifier/) затрудняет сегментацию. Не стоит полагаться на то, что Google идеально разберет сложную строку.Патент подтверждает стратегическую важность NLP для Google и его способность динамически адаптироваться к эволюции языка. Для SEO это означает, что долгосрочная стратегия должна фокусироваться на семантической релевантности и точном соответствии лексикону и интенту целевой аудитории. Система стремится понимать естественный язык во всех его проявлениях, включая несовершенства.
Сценарий 1: Вывод нового бренда на рынок
Internet Articles) и стимулирование поискового спроса (Search Logs).Сценарий 2: Сегментация URL (ЧПУ)
/products/brandx-amplifier/.Segmentation Engine получает URL. Даже если рассматривать его как строку без явных пробелов, система использует лексикон, чтобы разбить его на токены "brandx" и "amplifier".Как система определяет, является ли неизвестное слово новым термином или случайной опечаткой?
Ключевым фактором является частота (Frequency). Система анализирует, как часто этот токен встречается в логах поисковых запросов и в контенте интернета. Если частота превышает установленный порог (Threshold Frequency), система считает токен валидным и добавляет его в лексикон. Случайные однократные опечатки этот порог не преодолеют.
Откуда Google берет данные для изучения новых слов и опечаток?
Патент выделяет два основных источника. Первый — это логи поисковых запросов (Search Logs), отражающие реальное поведение пользователей. Второй — это интернет-контент (Internet Articles), включающий веб-страницы, а также нетрадиционные источники, такие как чаты и мессенджеры, полезные для изучения сленга и имен собственных.
Что такое Лексикон и Онтология в контексте этого патента?
Лексикон (Lexicon) — это база данных известных системе токенов (слов, аббревиатур). Онтология (Ontology) — это более сложная структура, где токены не просто хранятся, но и связаны между собой. Например, в онтологии опечатка "amplifiler" будет связана с правильным словом "amplifier".
Стоит ли оптимизировать сайт под опечатки (misspellings)?
Целенаправленная оптимизация под редкие опечатки неэффективна, так как они не пройдут фильтр частоты. Если же опечатка очень распространена, Google, скорее всего, изучит её и автоматически свяжет с правильным написанием через онтологию. Лучшая стратегия — фокусироваться на правильном написании и естественном языке.
Подтверждает ли этот патент важность использования ЧПУ (человекопонятных URL)?
Да. Патент сфокусирован на сегментации строк без разделителей, и URL являются основным примером. Наличие Segmentation Engine означает, что Google активно пытается разобрать URL на составляющие токены для понимания его смысла. ЧПУ облегчают этот процесс, позволяя системе корректно извлекать семантические сигналы из адреса страницы.
Как этот механизм помогает в E-commerce?
Он помогает системе быстрее изучать и корректно распознавать названия новых брендов, моделей товаров и покупательский сленг. Благодаря этому улучшается обработка запросов по товарам, даже если они содержат ошибки или сокращения. Также это улучшает сегментацию URL карточек товаров.
Влияет ли этот механизм напрямую на ранжирование?
Напрямую нет. Это патент об инфраструктуре (Indexing и Query Understanding). Однако, улучшая понимание запроса — распознавая новые термины и исправляя опечатки — система может точнее определить интент пользователя и подобрать более релевантные документы, что косвенно влияет на качество поиска.
Что происходит, когда я ввожу доменное имя с ошибкой?
Патент описывает сценарий (Claim 11), когда после неудачной попытки разрешить доменное имя система может применить этот механизм. Она возьмет введенную строку (например, "hoffmanamplifilers"), использует дополненный лексикон для её сегментации ("hoffman" + "amplifilers") и исправит её ("hoffman" + "amplifiers"), чтобы предложить пользователю правильный вариант.
Может ли Google научиться понимать сленг из игровых чатов или форумов?
Да. Патент явно упоминает чаты (chat sessions) и диалоги в мессенджерах (instant messaging dialogs) как источники данных. Если определенный сленг используется достаточно часто в доступном для индексации контенте, он будет добавлен в лексикон Google.
Насколько актуальны эти методы, учитывая развитие нейронных сетей типа BERT и MUM?
Современные модели (BERT, MUM) используют более сложные методы понимания языка (например, subword tokenization) и менее зависимы от явных лексиконов в том виде, как описано в патенте 2004 года. Однако базовые задачи — распознавание новых сущностей, обработка опечаток и сегментация URL — остаются актуальными. Вероятно, описанные методы были заменены или дополнены нейросетевыми аналогами, но принципы остались схожими.

Семантика и интент
Персонализация

Индексация

Семантика и интент

Индексация
Мультиязычность

Семантика и интент
SERP

Поведенческие сигналы
Персонализация
Семантика и интент

Мультиязычность
Ссылки
SERP

Персонализация
Поведенческие сигналы
SERP

EEAT и качество
Техническое SEO
Ссылки

Поведенческие сигналы
Мультиязычность
Персонализация

Антиспам
Ссылки
Техническое SEO

EEAT и качество
Семантика и интент

Поведенческие сигналы
Индексация
Техническое SEO

Поведенческие сигналы
SERP
Антиспам

Ссылки
Поведенческие сигналы
Мультимедиа
