
Google использует статистическую модель, обученную на известных адресах и названиях организаций, для парсинга неоднозначных картографических запросов. Система сегментирует запрос, присваивает локационные типы и рассчитывает вероятность различных вариантов разделения, чтобы точно определить искомую локацию и объект поиска, особенно в языках без пробелов.
Патент решает проблему неоднозначности при обработке запросов в системах поиска по картам (Map Search), вводимых в единое поле. Задача — точно определить, какие части запроса относятся к информации о местоположении (location part, "Где"), а какие — к цели поиска (query part, "Что"). Это особенно актуально для языков без четкого разделения слов пробелами (например, китайский, японский, корейский), где запрос вида "Yantai hotel" может быть введен как слитная последовательность символов.
Запатентована система парсинга запросов, которая использует токенизацию, аннотирование типов и статистическую модель для разделения входной строки. Система обучается на корпусе известных адресов (Addresses) и названий организаций (Titles), чтобы статистически оценивать вероятность того, является ли сегмент запроса локацией или объектом поиска. На основе этих вероятностей выбирается наилучший способ разделения запроса.
Система работает следующим образом:
Dictionary). Каждому токену присваивается тип (например, "City", "Road", "Number" или "None").splitting positions) последовательности токенов.Location Statistical Score (вероятность быть адресом) и Query Statistical Score (вероятность быть названием/запросом).Location Statistical Score для части локации и Query Statistical Score для части запроса).Location part используется для определения географической области (например, через геокодирование), а Query part ищется в пределах этой области.Высокая. Понимание запросов, особенно в контексте локального и мобильного поиска, является фундаментальной задачей. Хотя конкретные статистические модели, описанные в патенте (основанные на N-граммах и частотах), могли быть дополнены или заменены нейросетевыми подходами, базовая задача точного отделения интента локации от интента поиска остается критически важной для Google Maps и Local Pack.
Патент имеет значительное влияние на Local SEO (7/10). Он описывает механизм, который определяет, как именно Google интерпретирует локационный интент пользователя и искомый бизнес или категорию. Если система неверно классифицирует название бизнеса как адрес, или наоборот, сайт или бизнес-профиль не будет показан в релевантных результатах поиска по картам или в Local Pack.
Addresses.Titles.Location Part и Query Part.Location Statistical Score для части локации и Query Statistical Score для части запроса.Titles и Addresses. Хранит частоту встречаемости различных элементов (терминов, типов, их последовательностей) в этих двух корпусах данных.Term и аннотированного Type.Term Unigram/Bigram, так и Type Unigram/Bigram.Claim 1 (Независимый пункт): Описывает основной метод парсинга и поиска по картам.
possible splitting positions).Location Statistic Score и Query Statistic Score. Эти оценки основаны на оценках элементов (items) и типов элементов (item types) в подпоследовательности.Location Statistic Score идентифицируется как возможная часть локации (possible location subsequence), а другая — как возможная часть запроса (possible query subsequence).Splitting Score).Claim 5 и 6 (Зависимые): Уточняют расчет Splitting Score.
Оценка разделения определяется на основе (в частности, как сумма) Location Statistic Score части локации и Query Statistic Score части запроса.
Claim 9, 10 и 12 (Зависимые): Описывают использование и создание статистической модели.
Location Statistic Score и Query Statistic Score определяются с помощью статистической модели, обученной на данных, включающих Titles и Addresses. Модель создается путем подсчета и хранения количества вхождений различных элементов (униграмм терминов и типов, биграмм, последовательностей) в токенизированных Titles и Addresses.
Claim 14 и 19 (Зависимые): Определяют формулы для расчета статистических оценок элементов.
Оценка элемента для Location Statistical Score определяется как:
Titles и Addresses, используемых для обучения Statistical Model. Это подчеркивает важность точности данных в базах Google (например, Google Business Profile).Terms), так и их типы (Types).Titles и Addresses. Несоответствия могут ухудшить способность модели правильно классифицировать название или адрес.Dictionary). Это повышает вероятность правильной токенизации и аннотирования типа (например, "City" вместо "None").location multiplier) может быть повышен, если часть локации содержит адресные компоненты в иерархическом порядке (например, [province+city+district+street]).Dictionary для сегментации слитного текста.Location Part (тип "Road"), а не как часть Query Part (название компании).Titles (повышая q_count), что потенциально ухудшит их распознавание как Addresses для других запросов, или наоборот, ошибочно разделить название компании.Location Statistical Score.Патент подтверждает стратегию Google по использованию машинного обучения для понимания запросов на основе реальных данных. Для Local SEO это означает, что недостаточно просто оптимизировать контент под ключевые слова; необходимо убедиться, что данные о бизнесе (сущности) представлены таким образом, чтобы они соответствовали паттернам, которые Google статистически идентифицирует как корректные адреса и названия. Построение четкого и консистентного цифрового следа компании является фундаментом для правильной интерпретации локальных запросов.
Сценарий: Парсинг неоднозначного запроса в CJK языке
Dictionary.Statistical Model. Термин часто встречается в Addresses (высокий l_count) и реже в Titles (низкий q_count). Получает высокий Location Statistical Score.Addresses (низкий l_count) и часто в Titles или как категория (высокий q_count). Получает высокий Query Statistical Score.Splitting Score высок. Запрос разделяется на Location Part: “上海” и Query Part: “餐厅”. Google ищет рестораны в Шанхае.Как этот патент влияет на использование ключевых слов в названии Google Business Profile?
Патент показывает, что Google статистически учится отличать названия компаний (Titles) от адресов (Addresses). Если вы добавляете в название ключевые слова или локации, которые не являются частью бренда, вы рискуете запутать модель. Система может ошибочно посчитать часть вашего названия адресом (Location Part) или наоборот, что приведет к неправильной интерпретации запросов пользователей, ищущих вашу компанию.
Что такое корпуса данных Titles и Addresses, и откуда Google их берет?
Titles — это база данных названий сущностей (компаний, организаций, достопримечательностей). Addresses — база данных географических адресов. Патент указывает, что эти данные могут быть получены от поставщиков данных, государственных учреждений, из Желтых страниц и других источников. На практике это данные из Google Business Profile, официальных картографических сервисов и веб-документов.
Как рассчитываются Location Statistical Score и Query Statistical Score?
Они рассчитываются на основе частоты встречаемости термина в корпусах адресов (l_count) и названий (q_count). Формула учитывает как логарифм частоты, так и соотношение между l_count и q_count. Например, Location Score = log(l_count)∗l_count/(l_count+q_count). Это означает, что термин, который встречается часто и почти исключительно в адресах, получит высокую оценку.
Почему патент акцентирует внимание на языках без пробелов (CJK)?
В английском языке пробелы служат естественными разделителями слов, что упрощает токенизацию и определение точек разделения. В языках типа китайского запрос представляет собой слитную последовательность символов. Система должна одновременно решить задачу сегментации (где заканчивается одно слово и начинается другое) и задачу интерпретации (является ли этот сегмент адресом или объектом), что значительно сложнее.
Что такое аннотирование типов (Type Annotation) и почему оно важно?
Это процесс присвоения категории каждому сегменту запроса на основе словаря адресов (Dictionary). Например, "Москва" получает тип "City", "Тверская" — "Road", а "ресторан" — "None". Это важно, так как типы используются в статистической модели наравне с самими словами для определения вероятности. Паттерн [City] + [None] статистически более вероятен как [Location] + [Query], чем [None] + [City].
Использует ли Google этот механизм в основном веб-поиске или только в Google Maps?
Патент сфокусирован на поиске по картам (Map Search). Однако, поскольку основной поиск Google интегрирует локальные результаты (Local Pack) и часто интерпретирует локальный интент в запросах, весьма вероятно, что подобные механизмы парсинга применяются и в основном поиске для идентификации и обработки локальных запросов.
Как система обрабатывает иерархию адресов?
Система учитывает иерархию через аннотирование типов (например, Province, City, District) и анализ последовательности этих типов (Type Bigrams, Sequence of all types). В патенте также упоминается, что оценка локации может быть повышена (через location multiplier), если адресные компоненты представлены в правильном иерархическом порядке.
Может ли система ошибиться, если название компании содержит город?
Да, это классическая проблема, которую патент пытается решить. Если компания называется "Авиалинии Москвы", система сравнит вероятность того, что это [Query], с вероятностью разделения на [Query: Авиалинии] + [Location: Москвы]. Решение будет зависеть от того, насколько часто "Авиалинии Москвы" встречается как название (q_count) по сравнению с частотой использования "Москвы" как адреса (l_count).
Как влияют на работу системы правила фиксации (Type fixing rules)?
Эти правила используются для исправления очевидных ошибок токенизации. Например, если слово, которое обычно является суффиксом номера дома (например, "号" в китайском), встречается не после числа, его тип принудительно меняется на "None". Это помогает устранить шум и повысить точность статистической модели.
Заменили ли современные нейросети этот подход?
Хотя патент описывает классический статистический подход (N-граммы, частотные модели), современные системы (например, основанные на BERT или MUM) также решают эту задачу, но используют векторные представления и контекстное понимание. Однако базовые принципы — использование обучающих данных о сущностях и локациях, а также необходимость различать интент "Что" и "Где" — остаются неизменными. Описанный подход мог быть интегрирован как часть признаков в более сложные модели.

Local SEO
Семантика и интент

Семантика и интент
Knowledge Graph
Мультиязычность

Local SEO
Поведенческие сигналы

Семантика и интент
Local SEO

Local SEO
Семантика и интент
Индексация

Семантика и интент
Структура сайта
Ссылки

Семантика и интент
Поведенческие сигналы

Local SEO
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
SERP

Поведенческие сигналы
Мультиязычность
Персонализация

Семантика и интент
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
SERP

EEAT и качество
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
Структура сайта

Поведенческие сигналы
Мультимедиа
SERP
