Как Google использует статистические модели для разделения картографических запросов на "Что" (объект) и "Где" (локация)

QUERY PARSING FOR MAP SEARCH (Парсинг запросов для поиска по картам)

US8745065B2
Google LLC
2009-07-07
2014-06-03

Google использует статистическую модель, обученную на известных адресах и названиях организаций, для парсинга неоднозначных картографических запросов. Система сегментирует запрос, присваивает локационные типы и рассчитывает вероятность различных вариантов разделения, чтобы точно определить искомую локацию и объект поиска, особенно в языках без пробелов.

Какую проблему решает

Патент решает проблему неоднозначности при обработке запросов в системах поиска по картам (Map Search), вводимых в единое поле. Задача — точно определить, какие части запроса относятся к информации о местоположении (location part, "Где"), а какие — к цели поиска (query part, "Что"). Это особенно актуально для языков без четкого разделения слов пробелами (например, китайский, японский, корейский), где запрос вида "Yantai hotel" может быть введен как слитная последовательность символов.

Что запатентовано

Запатентована система парсинга запросов, которая использует токенизацию, аннотирование типов и статистическую модель для разделения входной строки. Система обучается на корпусе известных адресов (Addresses) и названий организаций (Titles), чтобы статистически оценивать вероятность того, является ли сегмент запроса локацией или объектом поиска. На основе этих вероятностей выбирается наилучший способ разделения запроса.

Как это работает

Система работает следующим образом:

Токенизация и Аннотирование: Входной запрос сегментируется на токены с использованием словаря адресов (Dictionary). Каждому токену присваивается тип (например, "City", "Road", "Number" или "None").
Генерация вариантов разделения: Система определяет все возможные точки разделения (splitting positions) последовательности токенов.
Статистическое моделирование: Используется модель, обученная на частоте встречаемости терминов и типов в известных адресах и названиях.
Оценка (Scoring): Для каждого варианта рассчитывается Location Statistical Score (вероятность быть адресом) и Query Statistical Score (вероятность быть названием/запросом).
Выбор: Выбирается вариант разделения с максимальной суммарной оценкой (сумма Location Statistical Score для части локации и Query Statistical Score для части запроса).
Поиск: Location part используется для определения географической области (например, через геокодирование), а Query part ищется в пределах этой области.

Актуальность для SEO

Высокая. Понимание запросов, особенно в контексте локального и мобильного поиска, является фундаментальной задачей. Хотя конкретные статистические модели, описанные в патенте (основанные на N-граммах и частотах), могли быть дополнены или заменены нейросетевыми подходами, базовая задача точного отделения интента локации от интента поиска остается критически важной для Google Maps и Local Pack.

Важность для SEO

Патент имеет значительное влияние на Local SEO (7/10). Он описывает механизм, который определяет, как именно Google интерпретирует локационный интент пользователя и искомый бизнес или категорию. Если система неверно классифицирует название бизнеса как адрес, или наоборот, сайт или бизнес-профиль не будет показан в релевантных результатах поиска по картам или в Local Pack.

Термины и определения

Addresses (Адреса): Набор данных, содержащий известные географические адреса. Используется как часть обучающих данных для статистической модели.
Dictionary (Словарь): База данных, содержащая адресную информацию (термины и их типы), такую как названия административных единиц, дорог, а также суффиксы и префиксы, связанные с адресами. Используется для токенизации входного запроса.
Location Part (Часть локации): Сегмент входного запроса, идентифицированный как информация о местоположении ("Где").
Location Statistical Score (Статистическая оценка локации): Метрика, указывающая на вероятность того, что токен или последовательность токенов относится к локации (адресу). Рассчитывается на основе частоты встречаемости в корпусе Addresses.
Query Part (Часть запроса): Сегмент входного запроса, идентифицированный как цель поиска или название сущности ("Что").
Query Statistical Score (Статистическая оценка запроса): Метрика, указывающая на вероятность того, что токен или последовательность токенов относится к запросу (названию организации). Рассчитывается на основе частоты встречаемости в корпусе Titles.
Splitting Position (Точка разделения): Возможное место в последовательности токенов, которое делит ее на Location Part и Query Part.
Splitting Score (Оценка разделения): Метрика, оценивающая статистическую вероятность корректности определенного варианта разделения запроса. Часто рассчитывается как сумма Location Statistical Score для части локации и Query Statistical Score для части запроса.
Statistical Model (Статистическая модель): Модель, обученная на Titles и Addresses. Хранит частоту встречаемости различных элементов (терминов, типов, их последовательностей) в этих двух корпусах данных.
Term (Термин): Сегмент входного запроса (слово или фраза), являющийся частью токена.
Titles (Названия): Набор данных, содержащий названия сущностей (например, названия компаний, зданий). Используется как часть обучающих данных для статистической модели.
Token (Токен): Структурная единица парсинга, состоящая из Term и аннотированного Type.
Type (Тип): Аннотация к термину, указывающая на тип адресной информации, которую он представляет (например, "City", "Road", "Number", "Quantifier Suffix" или "None").
Unigram/Bigram (Униграмма/Биграмма): Последовательность из одного (Unigram) или двух (Bigram) элементов. В патенте используются как Term Unigram/Bigram, так и Type Unigram/Bigram.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод парсинга и поиска по картам.

Входной запрос парсится в последовательность токенов (каждый токен = термин + тип).
Определяются возможные точки разделения (possible splitting positions).
Для каждой точки разделения генерируются две подпоследовательности токенов.
Для каждой подпоследовательности рассчитываются Location Statistic Score и Query Statistic Score. Эти оценки основаны на оценках элементов (items) и типов элементов (item types) в подпоследовательности.
Подпоследовательность с более высоким Location Statistic Score идентифицируется как возможная часть локации (possible location subsequence), а другая — как возможная часть запроса (possible query subsequence).
Для каждой точки разделения определяется общая оценка разделения (Splitting Score).
Выбирается разделение с наивысшей оценкой.
Выполняется поиск информации, соответствующей части запроса, в локации, указанной частью локации.

Claim 5 и 6 (Зависимые): Уточняют расчет Splitting Score.

Оценка разделения определяется на основе (в частности, как сумма) Location Statistic Score части локации и Query Statistic Score части запроса.

Claim 9, 10 и 12 (Зависимые): Описывают использование и создание статистической модели.

Location Statistic Score и Query Statistic Score определяются с помощью статистической модели, обученной на данных, включающих Titles и Addresses. Модель создается путем подсчета и хранения количества вхождений различных элементов (униграмм терминов и типов, биграмм, последовательностей) в токенизированных Titles и Addresses.

Claim 14 и 19 (Зависимые): Определяют формулы для расчета статистических оценок элементов.

Оценка элемента для Location Statistical Score определяется как: $\log(l\_count) * l\_count / (l\_count + q\_count)$

Как Google использует статистические модели для разделения картографических запросов на "Что" (объект) и "Где" (локация)

Описание

Какую проблему решает

Что запатентовано

Как это работает

Актуальность для SEO

Важность для SEO

Детальный разбор

Термины и определения

Ключевые утверждения (Анализ Claims)

Выводы

Практика

Best practices (это мы делаем)

Worst practices (это делать не надо)

Стратегическое значение

Практические примеры

Вопросы и ответы

Похожие патенты

Популярные патенты