SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует статистические модели для разделения картографических запросов на "Что" (объект) и "Где" (локация)

QUERY PARSING FOR MAP SEARCH (Парсинг запросов для поиска по картам)
  • US8745065B2
  • Google LLC
  • 2009-07-07
  • 2014-06-03
  • Семантика и интент
  • Local SEO
  • Мультиязычность
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует статистическую модель, обученную на известных адресах и названиях организаций, для парсинга неоднозначных картографических запросов. Система сегментирует запрос, присваивает локационные типы и рассчитывает вероятность различных вариантов разделения, чтобы точно определить искомую локацию и объект поиска, особенно в языках без пробелов.

Описание

Какую проблему решает

Патент решает проблему неоднозначности при обработке запросов в системах поиска по картам (Map Search), вводимых в единое поле. Задача — точно определить, какие части запроса относятся к информации о местоположении (location part, "Где"), а какие — к цели поиска (query part, "Что"). Это особенно актуально для языков без четкого разделения слов пробелами (например, китайский, японский, корейский), где запрос вида "Yantai hotel" может быть введен как слитная последовательность символов.

Что запатентовано

Запатентована система парсинга запросов, которая использует токенизацию, аннотирование типов и статистическую модель для разделения входной строки. Система обучается на корпусе известных адресов (Addresses) и названий организаций (Titles), чтобы статистически оценивать вероятность того, является ли сегмент запроса локацией или объектом поиска. На основе этих вероятностей выбирается наилучший способ разделения запроса.

Как это работает

Система работает следующим образом:

  • Токенизация и Аннотирование: Входной запрос сегментируется на токены с использованием словаря адресов (Dictionary). Каждому токену присваивается тип (например, "City", "Road", "Number" или "None").
  • Генерация вариантов разделения: Система определяет все возможные точки разделения (splitting positions) последовательности токенов.
  • Статистическое моделирование: Используется модель, обученная на частоте встречаемости терминов и типов в известных адресах и названиях.
  • Оценка (Scoring): Для каждого варианта рассчитывается Location Statistical Score (вероятность быть адресом) и Query Statistical Score (вероятность быть названием/запросом).
  • Выбор: Выбирается вариант разделения с максимальной суммарной оценкой (сумма Location Statistical Score для части локации и Query Statistical Score для части запроса).
  • Поиск: Location part используется для определения географической области (например, через геокодирование), а Query part ищется в пределах этой области.

Актуальность для SEO

Высокая. Понимание запросов, особенно в контексте локального и мобильного поиска, является фундаментальной задачей. Хотя конкретные статистические модели, описанные в патенте (основанные на N-граммах и частотах), могли быть дополнены или заменены нейросетевыми подходами, базовая задача точного отделения интента локации от интента поиска остается критически важной для Google Maps и Local Pack.

Важность для SEO

Патент имеет значительное влияние на Local SEO (7/10). Он описывает механизм, который определяет, как именно Google интерпретирует локационный интент пользователя и искомый бизнес или категорию. Если система неверно классифицирует название бизнеса как адрес, или наоборот, сайт или бизнес-профиль не будет показан в релевантных результатах поиска по картам или в Local Pack.

Детальный разбор

Термины и определения

Addresses (Адреса)
Набор данных, содержащий известные географические адреса. Используется как часть обучающих данных для статистической модели.
Dictionary (Словарь)
База данных, содержащая адресную информацию (термины и их типы), такую как названия административных единиц, дорог, а также суффиксы и префиксы, связанные с адресами. Используется для токенизации входного запроса.
Location Part (Часть локации)
Сегмент входного запроса, идентифицированный как информация о местоположении ("Где").
Location Statistical Score (Статистическая оценка локации)
Метрика, указывающая на вероятность того, что токен или последовательность токенов относится к локации (адресу). Рассчитывается на основе частоты встречаемости в корпусе Addresses.
Query Part (Часть запроса)
Сегмент входного запроса, идентифицированный как цель поиска или название сущности ("Что").
Query Statistical Score (Статистическая оценка запроса)
Метрика, указывающая на вероятность того, что токен или последовательность токенов относится к запросу (названию организации). Рассчитывается на основе частоты встречаемости в корпусе Titles.
Splitting Position (Точка разделения)
Возможное место в последовательности токенов, которое делит ее на Location Part и Query Part.
Splitting Score (Оценка разделения)
Метрика, оценивающая статистическую вероятность корректности определенного варианта разделения запроса. Часто рассчитывается как сумма Location Statistical Score для части локации и Query Statistical Score для части запроса.
Statistical Model (Статистическая модель)
Модель, обученная на Titles и Addresses. Хранит частоту встречаемости различных элементов (терминов, типов, их последовательностей) в этих двух корпусах данных.
Term (Термин)
Сегмент входного запроса (слово или фраза), являющийся частью токена.
Titles (Названия)
Набор данных, содержащий названия сущностей (например, названия компаний, зданий). Используется как часть обучающих данных для статистической модели.
Token (Токен)
Структурная единица парсинга, состоящая из Term и аннотированного Type.
Type (Тип)
Аннотация к термину, указывающая на тип адресной информации, которую он представляет (например, "City", "Road", "Number", "Quantifier Suffix" или "None").
Unigram/Bigram (Униграмма/Биграмма)
Последовательность из одного (Unigram) или двух (Bigram) элементов. В патенте используются как Term Unigram/Bigram, так и Type Unigram/Bigram.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод парсинга и поиска по картам.

  1. Входной запрос парсится в последовательность токенов (каждый токен = термин + тип).
  2. Определяются возможные точки разделения (possible splitting positions).
  3. Для каждой точки разделения генерируются две подпоследовательности токенов.
  4. Для каждой подпоследовательности рассчитываются Location Statistic Score и Query Statistic Score. Эти оценки основаны на оценках элементов (items) и типов элементов (item types) в подпоследовательности.
  5. Подпоследовательность с более высоким Location Statistic Score идентифицируется как возможная часть локации (possible location subsequence), а другая — как возможная часть запроса (possible query subsequence).
  6. Для каждой точки разделения определяется общая оценка разделения (Splitting Score).
  7. Выбирается разделение с наивысшей оценкой.
  8. Выполняется поиск информации, соответствующей части запроса, в локации, указанной частью локации.

Claim 5 и 6 (Зависимые): Уточняют расчет Splitting Score.

Оценка разделения определяется на основе (в частности, как сумма) Location Statistic Score части локации и Query Statistic Score части запроса.

Claim 9, 10 и 12 (Зависимые): Описывают использование и создание статистической модели.

Location Statistic Score и Query Statistic Score определяются с помощью статистической модели, обученной на данных, включающих Titles и Addresses. Модель создается путем подсчета и хранения количества вхождений различных элементов (униграмм терминов и типов, биграмм, последовательностей) в токенизированных Titles и Addresses.

Claim 14 и 19 (Зависимые): Определяют формулы для расчета статистических оценок элементов.

Оценка элемента для Location Statistical Score определяется как: log⁡(l

Выводы

  1. Статистический подход к пониманию локальных запросов: Патент демонстрирует, что Google использует статистические вероятности, основанные на больших объемах известных данных (адреса и названия), для разрешения неоднозначностей в картографических запросах. Интерпретация запроса не является строго детерминированной, а выбирается как наиболее вероятная.
  2. Важность обучающих данных (Titles и Addresses): Точность системы напрямую зависит от качества и полноты корпусов Titles и Addresses, используемых для обучения Statistical Model. Это подчеркивает важность точности данных в базах Google (например, Google Business Profile).
  3. Различие между адресом и названием усваивается: Система обучается распознавать паттерны, характерные для адресов, и паттерны, характерные для названий организаций, используя как сами слова (Terms), так и их типы (Types).
  4. Аннотирование типов как ключевой признак: Использование словаря для присвоения типов (City, Road, Suffix) является критически важным шагом, который помогает системе понять структуру адреса и ограничивает количество возможных интерпретаций.
  5. Адаптация под специфику языков: Механизм специально разработан для эффективной работы в языках без явных разделителей слов, решая сложную задачу сегментации и интерпретации одновременно.

Практика

Best practices (это мы делаем)

  • Обеспечение консистентности NAP (Name, Address, Phone): Критически важно поддерживать абсолютную точность и консистентность названия и адреса компании во всех источниках (сайт, Google Business Profile, каталоги, социальные сети). Эти данные, вероятно, формируют обучающие корпуса Titles и Addresses. Несоответствия могут ухудшить способность модели правильно классифицировать название или адрес.
  • Использование четких локационных индикаторов: При оптимизации контента и мета-тегов используйте четкие и официальные названия локаций, которые присутствуют в адресных базах (Dictionary). Это повышает вероятность правильной токенизации и аннотирования типа (например, "City" вместо "None").
  • Структурирование адресов на сайте: Представляйте адреса в иерархическом и ожидаемом формате. Патент упоминает, что множитель оценки локации (location multiplier) может быть повышен, если часть локации содержит адресные компоненты в иерархическом порядке (например, [province+city+district+street]).
  • Оптимизация для многоязычных сайтов (особенно CJK): Для сайтов на китайском, японском, корейском языках крайне важно использовать корректные и полные адресные термины, так как система полагается на Dictionary для сегментации слитного текста.

Worst practices (это делать не надо)

  • Неоднозначные названия брендов: Использование названий компаний, которые могут быть легко спутаны с адресами. Например, если компания называется "Тверская Улица Сервис", система может ошибочно классифицировать "Тверская Улица" как Location Part (тип "Road"), а не как часть Query Part (название компании).
  • Спам локациями в названии бизнеса (в GBP): Добавление названий городов или районов в название компании (если это не часть официального бренда) может запутать статистическую модель. Система может начать чаще ассоциировать эти термины с Titles (повышая q_count), что потенциально ухудшит их распознавание как Addresses для других запросов, или наоборот, ошибочно разделить название компании.
  • Игнорирование официальных адресных суффиксов: Пропуск или искажение адресных суффиксов (например, "улица", "проспект", "дом") может привести к тому, что токен получит тип "None" вместо корректного адресного типа, снижая общий Location Statistical Score.

Стратегическое значение

Патент подтверждает стратегию Google по использованию машинного обучения для понимания запросов на основе реальных данных. Для Local SEO это означает, что недостаточно просто оптимизировать контент под ключевые слова; необходимо убедиться, что данные о бизнесе (сущности) представлены таким образом, чтобы они соответствовали паттернам, которые Google статистически идентифицирует как корректные адреса и названия. Построение четкого и консистентного цифрового следа компании является фундаментом для правильной интерпретации локальных запросов.

Практические примеры

Сценарий: Парсинг неоднозначного запроса в CJK языке

  1. Входной запрос (Китайский): “上海餐厅” (Шанхай Ресторан, без пробела).
  2. Токенизация: Система обращается к Dictionary.
    • “上海” (Шанхай) распознается как Термин с Типом "City".
    • “餐厅” (Ресторан) не найден в словаре адресов, распознается как Термин с Типом "None".
  3. Анализ разделений: Рассматривается разделение между “上海” и “餐厅”.
  4. Оценка (Scoring):
    • “上海” (Шанхай): Система проверяет Statistical Model. Термин часто встречается в Addresses (высокий l_count) и реже в Titles (низкий q_count). Получает высокий Location Statistical Score.
    • “餐厅” (Ресторан): Термин редко встречается в Addresses (низкий l_count) и часто в Titles или как категория (высокий q_count). Получает высокий Query Statistical Score.
  5. Результат: Суммарный Splitting Score высок. Запрос разделяется на Location Part: “上海” и Query Part: “餐厅”. Google ищет рестораны в Шанхае.

Вопросы и ответы

Как этот патент влияет на использование ключевых слов в названии Google Business Profile?

Патент показывает, что Google статистически учится отличать названия компаний (Titles) от адресов (Addresses). Если вы добавляете в название ключевые слова или локации, которые не являются частью бренда, вы рискуете запутать модель. Система может ошибочно посчитать часть вашего названия адресом (Location Part) или наоборот, что приведет к неправильной интерпретации запросов пользователей, ищущих вашу компанию.

Что такое корпуса данных Titles и Addresses, и откуда Google их берет?

Titles — это база данных названий сущностей (компаний, организаций, достопримечательностей). Addresses — база данных географических адресов. Патент указывает, что эти данные могут быть получены от поставщиков данных, государственных учреждений, из Желтых страниц и других источников. На практике это данные из Google Business Profile, официальных картографических сервисов и веб-документов.

Как рассчитываются Location Statistical Score и Query Statistical Score?

Они рассчитываются на основе частоты встречаемости термина в корпусах адресов (l_count) и названий (q_count). Формула учитывает как логарифм частоты, так и соотношение между l_count и q_count. Например, Location Score = log⁡(l_count)∗l_count/(l_count+q_count)\log(l\_count) * l\_count / (l\_count + q\_count)log(l_count)∗l_count/(l_count+q_count). Это означает, что термин, который встречается часто и почти исключительно в адресах, получит высокую оценку.

Почему патент акцентирует внимание на языках без пробелов (CJK)?

В английском языке пробелы служат естественными разделителями слов, что упрощает токенизацию и определение точек разделения. В языках типа китайского запрос представляет собой слитную последовательность символов. Система должна одновременно решить задачу сегментации (где заканчивается одно слово и начинается другое) и задачу интерпретации (является ли этот сегмент адресом или объектом), что значительно сложнее.

Что такое аннотирование типов (Type Annotation) и почему оно важно?

Это процесс присвоения категории каждому сегменту запроса на основе словаря адресов (Dictionary). Например, "Москва" получает тип "City", "Тверская" — "Road", а "ресторан" — "None". Это важно, так как типы используются в статистической модели наравне с самими словами для определения вероятности. Паттерн [City] + [None] статистически более вероятен как [Location] + [Query], чем [None] + [City].

Использует ли Google этот механизм в основном веб-поиске или только в Google Maps?

Патент сфокусирован на поиске по картам (Map Search). Однако, поскольку основной поиск Google интегрирует локальные результаты (Local Pack) и часто интерпретирует локальный интент в запросах, весьма вероятно, что подобные механизмы парсинга применяются и в основном поиске для идентификации и обработки локальных запросов.

Как система обрабатывает иерархию адресов?

Система учитывает иерархию через аннотирование типов (например, Province, City, District) и анализ последовательности этих типов (Type Bigrams, Sequence of all types). В патенте также упоминается, что оценка локации может быть повышена (через location multiplier), если адресные компоненты представлены в правильном иерархическом порядке.

Может ли система ошибиться, если название компании содержит город?

Да, это классическая проблема, которую патент пытается решить. Если компания называется "Авиалинии Москвы", система сравнит вероятность того, что это [Query], с вероятностью разделения на [Query: Авиалинии] + [Location: Москвы]. Решение будет зависеть от того, насколько часто "Авиалинии Москвы" встречается как название (q_count) по сравнению с частотой использования "Москвы" как адреса (l_count).

Как влияют на работу системы правила фиксации (Type fixing rules)?

Эти правила используются для исправления очевидных ошибок токенизации. Например, если слово, которое обычно является суффиксом номера дома (например, "号" в китайском), встречается не после числа, его тип принудительно меняется на "None". Это помогает устранить шум и повысить точность статистической модели.

Заменили ли современные нейросети этот подход?

Хотя патент описывает классический статистический подход (N-граммы, частотные модели), современные системы (например, основанные на BERT или MUM) также решают эту задачу, но используют векторные представления и контекстное понимание. Однако базовые принципы — использование обучающих данных о сущностях и локациях, а также необходимость различать интент "Что" и "Где" — остаются неизменными. Описанный подход мог быть интегрирован как часть признаков в более сложные модели.

Похожие патенты

Как Google разбирает локальные запросы на «Что» и «Где» для повышения точности выдачи
Google использует механизм для интерпретации локальных запросов, введенных в одну строку. Система генерирует различные комбинации разделения запроса на тему («Что») и местоположение («Где»), отправляет их в разные базы данных (например, Карты, Локальный поиск) и использует оценки уверенности (Confidence Scores) для выбора наилучшей интерпретации.
  • US7917490B2
  • 2011-03-29
  • Local SEO

  • Семантика и интент

Как Google использует структурированные данные и логи запросов для создания языковых моделей и исправления орфографии в сложных доменах (например, адресах)
Google решает проблему создания языковых моделей для доменов с огромным количеством комбинаций (например, географических адресов). Система анализирует логи запросов для определения популярных форматов ввода (Template Distribution) и популярности конкретных мест (Location Distribution). Эти данные объединяются для создания вероятностной языковой модели, которая позволяет исправлять орфографические ошибки в запросах пользователей, предлагая более вероятные варианты.
  • US8626681B1
  • 2014-01-07
  • Семантика и интент

  • Knowledge Graph

  • Мультиязычность

Как Google использует известность (Prominence) и историю запросов для ранжирования географических объектов в поисковых подсказках Карт
Google использует алгоритм для определения того, какой географический объект (например, бизнес или город) показать в поисковых подсказках (Autocomplete), когда пользователь начинает вводить запрос в Картах. Система рассчитывает рейтинг, анализируя, насколько известен объект (Prominence Score) и как часто пользователи выбирали этот объект в прошлом при вводе похожих запросов (Query Logs). Это позволяет устранить неоднозначность и предложить наиболее релевантный вариант.
  • US8515973B1
  • 2013-08-20
  • Local SEO

  • Поведенческие сигналы

Как Google динамически определяет стоп-слова в локальных запросах, тестируя разные интерпретации запроса
Google использует механизм для точной интерпретации локальных запросов, содержащих неоднозначные слова. Вместо статического удаления стоп-слов система генерирует несколько вариантов разделения запроса на субъект и местоположение. Она тестирует варианты с удалением и сохранением потенциального стоп-слова, выполняет параллельные поиски и выбирает ту интерпретацию, которая дает наилучшие результаты.
  • US9009144B1
  • 2015-04-14
  • Семантика и интент

  • Local SEO

Как Google определяет географическую релевантность документа, анализируя неоднозначные термины и названия мест
Google использует классификатор местоположений для определения географической привязки документа, даже если в нем нет точного адреса. Система анализирует неоднозначные термины (например, названия районов или улиц) и использует профили георелевантности (гистограммы), показывающие, где эти термины чаще всего используются. Перемножая эти профили, Google разрешает неоднозначность и вычисляет наиболее вероятное местоположение контента.
  • US7716162B2
  • 2010-05-11
  • Local SEO

  • Семантика и интент

  • Индексация

Популярные патенты

Как Google использует структуру сайта и анкорные тексты для извлечения Сущностей из шумных заголовков (Title)
Google использует метод для точного определения основного объекта (Сущности) веб-страницы, когда заголовок (Title) содержит лишнюю информацию (брендинг, рубрики). Система анализирует заголовки похожих страниц на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Выявляя повторяющиеся шаблоны (префиксы и суффиксы) в заголовках, Google отделяет название Сущности от шума.
  • US7590628B2
  • 2009-09-15
  • Семантика и интент

  • Структура сайта

  • Ссылки

Как Google вычисляет семантическую близость запросов, анализируя поведение пользователей при переформулировках
Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.
  • US8417692B2
  • 2013-04-09
  • Семантика и интент

  • Поведенческие сигналы

Как Google определяет географическую релевантность веб-страницы, анализируя физическое местоположение её посетителей
Google анализирует физическое местоположение (используя GPS, IP и т.д.) пользователей, которые взаимодействуют с веб-страницей (например, совершают клик и долго её изучают). Агрегируя эти данные, система определяет географическую релевантность страницы («Центр») и область её популярности («Дисперсию»), даже если на самой странице нет адреса. Эта информация используется для повышения позиций страницы в поиске для пользователей, находящихся в этой области.
  • US9552430B1
  • 2017-01-24
  • Local SEO

  • Поведенческие сигналы

Как Google использует цепочки запросов и время взаимодействия для определения и ранжирования результатов, которые действительно нужны пользователям
Google анализирует последовательности запросов пользователей (цепочки запросов) и время между кликами и последующими запросами (время взаимодействия), чтобы определить удовлетворенность пользователя. Если пользователи часто переформулируют Запрос А в Запрос Б, прежде чем найти удовлетворительный результат, Google использует эти данные, чтобы ранжировать этот удовлетворительный результат выше по исходному Запросу А и предлагать Запрос Б в качестве связанного поиска.
  • US9342600B1
  • 2016-05-17
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google фильтрует поведенческие сигналы, используя совместимость языков и стран пользователей
Google уточняет ранжирование, анализируя, откуда (страна) и на каком языке (язык пользователя) поступали исторические клики по документу. Если эти характеристики считаются «несовместимыми» с текущим пользователем, поведенческие сигналы (клики) от этих групп могут быть исключены или понижены в весе. Это предотвращает искажение релевантности данными от кардинально отличающихся аудиторий.
  • US8498974B1
  • 2013-07-30
  • Поведенческие сигналы

  • Мультиязычность

  • Персонализация

Как Google определяет, действительно ли новость посвящена сущности, и строит хронологию событий
Google использует систему для определения релевантности новостей конкретным объектам (сущностям, событиям, темам). Система анализирует кластеры новостных статей (коллекции), оценивая общий интерес к объекту (поисковые запросы, социальные сети) и значимость объекта внутри коллекции (упоминания в заголовках, центральность в тексте). Ключевой механизм — оценка уместности событий: система проверяет, соответствует ли событие типу объекта (например, «новый метод лечения» для болезни), чтобы отфильтровать мимолетные упоминания и создать точную хронологию новостей.
  • US9881077B1
  • 2018-01-30
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует исторические паттерны CTR для предсказания сезонных и циклических изменений интента пользователя
Google анализирует исторические данные о кликах (CTR) для выявления предсказуемых изменений в интересах пользователей по неоднозначным запросам. Если интент меняется в зависимости от сезона, дня недели или времени суток, система корректирует ранжирование, чтобы соответствовать доминирующему в данный момент интенту. Например, по запросу "turkey" в ноябре приоритет получат рецепты, а не информация о стране.
  • US8909655B1
  • 2014-12-09
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google рассчитывает тематическую репутацию для выявления и наделения полномочиями экспертов-кураторов
Google описывает систему для тематических сообществ, где пользователи зарабатывают репутацию (Topical Reputation Score) на основе качества контента, которым они делятся в рамках конкретных тем. Достигнув порогового значения, пользователь «разблокирует» тему, получая права куратора и возможность управлять контентом других. Система использует механизм «Impact Scores» для оценки влияния действий кураторов на репутацию участников.
  • US9436709B1
  • 2016-09-06
  • EEAT и качество

  • Поведенческие сигналы

Как Google использует данные веб-поиска и клики пользователей для классификации бизнесов и построения иерархии категорий
Google анализирует логи веб-поиска (введенные ключевые слова и последующие клики по результатам), чтобы понять, как пользователи интуитивно классифицируют бизнесы. Эти данные используются для автоматического построения динамической иерархической структуры категорий. Эта структура затем применяется для улучшения точности поиска, в частности, для оптимизации моделей распознавания речи в голосовых системах.
  • US7840407B2
  • 2010-11-23
  • Поведенческие сигналы

  • Семантика и интент

  • Структура сайта

Как Google использует данные о наведении курсора (Hover Data) для ранжирования изображений и борьбы с кликбейтными миниатюрами
Google использует данные о взаимодействии пользователя с миниатюрами в поиске по картинкам (наведение курсора) как сигнал интереса. Для редких запросов эти сигналы получают больший вес, дополняя недостаток данных о кликах. Система также вычисляет соотношение кликов к наведениям (Click-to-Hover Ratio), чтобы идентифицировать и понижать в выдаче «магниты кликов» — привлекательные, но нерелевантные изображения, которые собирают много наведений, но мало кликов.
  • US8819004B1
  • 2014-08-26
  • Поведенческие сигналы

  • Мультимедиа

  • SERP

seohardcore