Как Google определяет, когда название города в запросе должно запускать локальный поиск (анализ неоднозначности)

Google использует систему для определения, должен ли запрос активировать локальный поиск или обычный веб-поиск. Система заранее вычисляет, какие названия городов являются «однозначными», анализируя, как часто они упоминаются в вебе вместе со штатом или почтовым индексом. Это позволяет автоматически запускать локальный поиск, даже если пользователь указал только название города.

Описание

Какую задачу решает

Патент решает проблему неоднозначности (Ambiguity) поисковых запросов, содержащих географические названия без уточняющих модификаторов (например, только название города без штата). Система должна определить истинный интент пользователя: локальный поиск (Local Search) или веб-поиск (Web Search). Это критично в случаях, когда название города совпадает с обычным словом (например, запрос «Crib Mobile») или когда существует несколько городов с одинаковым названием (например, Arlington VA или Arlington TX).

Что запатентовано

Запатентована система для автоматического определения того, является ли географическая ссылка в запросе «однозначной» (Unambiguous Geographic Reference). Суть изобретения заключается в предварительном (офлайн) вычислении степени однозначности географических названий путем статистического анализа веб-корпуса. Эти данные используются в реальном времени для классификации интента запроса и выбора между локальным и веб-поиском.

Как это работает

Система работает в двух режимах:

Офлайн-анализ (Предварительный расчет): Система анализирует веб-корпус, чтобы определить, как часто название города упоминается вместе с его идентификаторами (названием штата или почтовым индексом). Если частота совместного упоминания превышает определенный порог (например, 5%), город помечается как «однозначный».
Онлайн-обработка (Runtime): При получении запроса, содержащего только название города, система проверяет его статус однозначности. Если город однозначен и комбинация слов запроса не входит в «черный список» исключений (Blacklist, например, «Orlando Bloom»), автоматически запускается локальный поиск. В противном случае запускается веб-поиск.

Актуальность для SEO

Высокая. Определение локального интента и разрешение географической неоднозначности остаются критически важными задачами на этапе Понимания Запросов (Query Understanding). Хотя конкретные методы, описанные в патенте (простой подсчет совместной встречаемости в документах), вероятно, были дополнены или заменены более сложными NLP и нейросетевыми моделями, основополагающая концепция — классификация географического интента на основе анализа корпуса и использование исключений — остается фундаментальной для локального поиска.

Важность для SEO

Патент имеет высокое значение для локального SEO (8/10). Он описывает фундаментальный механизм, который определяет, будет ли Google вообще рассматривать запрос как локальный, если пользователь явно не указал модификаторы (штат, индекс, «рядом со мной»). Понимание этого механизма подчеркивает важность создания четких и последовательных географических сигналов (NAP) как на сайте, так и во внешних источниках, для корректной интерпретации интента.

Детальный разбор

Термины и определения

Unambiguous City / Geographic Area (Однозначный город / Географическая область): Географическое название, которое с высокой вероятностью относится к конкретной локации, даже если используется в запросе без уточнений (штат, индекс). Определяется на основе офлайн-анализа.
Ambiguous (Неоднозначный): Название, которое не может быть четко идентифицировано как конкретная локация без дополнительных уточнений.
Semi-unambiguous (Полуоднозначный): Промежуточный уровень классификации. Для таких названий выполняется веб-поиск, но пользователю предлагается опция локального поиска.
Blacklist (Черный список): Список исключений, содержащий комбинации однозначных географических названий и других слов, которые вместе имеют нелокальное значение (например, имена людей, названия продуктов). Используется для предотвращения ложных срабатываний локального поиска.
Count_City: Метрика: количество результатов веб-поиска по названию города отдельно.
Count_City/State: Метрика: количество результатов веб-поиска по названию города вместе с названием соответствующего штата.
Count_Postal: Метрика: количество документов в результатах поиска по названию города, которые также содержат почтовые индексы, связанные с этим городом.
Local Search (Локальный поиск): Специализированный поиск, возвращающий результаты (например, бизнес-листинги), связанные с определенной географической областью.
Location Extractor: Компонент системы, который анализирует запрос на наличие географических ссылок.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс обработки запроса в реальном времени с использованием предварительно рассчитанных данных.

Система получает запрос с названием географической области.
Определяется, что название однозначно (unambiguously) соответствует конкретной области. Это основано на том, что определенный термин (например, штат или индекс, согласно Claim 2) встречается в пороговом проценте (threshold percentage) документов, содержащих это название.
Если название однозначно, выполняется локальный поиск (local search).

Claims 3 и 4 (Зависимые от 1): Вводят механизм черного списка.

Если запрос содержит дополнительные термины, система проверяет, встречается ли комбинация названия и этих терминов в blacklist. Если да (Claim 3), выполняется веб-поиск. Если нет (Claim 4), выполняется локальный поиск.

Claim 13 (Независимый пункт): Описывает систему с тремя уровнями однозначности.

Система получает запрос с географическим названием.
Название классифицируется как unambiguous, semi-ambiguous или ambiguous на основе процента документов, содержащих название вместе с географическим идентификатором.
Действия:
- Однозначное: Локальный поиск.
- Полуоднозначное: Веб-поиск + предложение локального поиска.
- Неоднозначное: Веб-поиск.

Claim 15 (Зависимый от 13): Детализирует пороги.

Используются два порога. Меньше первого порога (Y%) — неоднозначное. Между первым и вторым (X%) — полуоднозначное. Больше или равно второму порогу — однозначное.

Claims 19 и 20 (Зависимые): Описывают офлайн-процесс генерации меток однозначности.

Выполняется веб-поиск по названию города. Подсчитывается общее количество результатов. Подсчитывается количество результатов, которые также содержат штат (Claim 19) или почтовый индекс (Claim 20). Если это количество превышает пороговый процент, названию присваивается метка однозначности в базе данных.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, являясь мостом между офлайн-анализом данных и онлайн-интерпретацией запросов.

INDEXING – Индексирование и извлечение признаков (Офлайн-процессы)
На этом этапе происходит основная работа по вычислению однозначности. Система анализирует веб-корпус, подсчитывает метрики ко-оккурентности (Count_City/State, Count_Postal) и сохраняет результаты (метки однозначности) в базе географических данных.

QUNDERSTANDING – Понимание Запросов (Основное применение)
Это ключевой этап применения патента в реальном времени. Location Extractor анализирует запрос:

Идентифицирует географические ссылки (например, с помощью шаблонов).
Проверяет метки однозначности, рассчитанные на этапе индексирования.
Использует Blacklists для фильтрации нелокальных интентов.
Принимает решение (Triggering), какой тип поиска активировать — Local Search или Web Search.

METASEARCH – Метапоиск и Смешивание
На этом этапе могут применяться результаты классификации semi-ambiguous. Система может выполнить веб-поиск, но также подмешать блок с предложением локального поиска или несколько локальных результатов.

Входные данные:

Поисковый запрос пользователя.
База географических данных с метками однозначности.
Черный список (Blacklist).
Веб-корпус (для офлайн-анализа).
IP-адрес пользователя (для разрешения конфликтов между городами с одинаковыми названиями).

Выходные данные:

Классификация интента запроса (Локальный / Веб / Веб+Предложение локального).
Идентифицированная географическая область для локального поиска.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на запросы с неявным локальным интентом, содержащие только название города (например, «Пицца Арлингтон»).
Локальные страницы и бизнес-листинги: Определяет, будут ли эти типы контента показаны в приоритетном порядке (например, в Local Pack).
Реклама: Патент описывает аналогичный механизм для принятия решения о показе локальной рекламы (Local Advertisements) или обычной рекламы.

Когда применяется

Триггеры активации: Основной триггер — наличие в запросе названия города без сопровождающих идентификаторов (штата или индекса).
Особые случаи (Разрешение конфликтов): Если существует несколько городов с одинаковым названием, система может использовать дополнительные данные для выбора: большую численность населения или местоположение пользователя (по IP-адресу), особенно если города находятся в разных странах (например, Manchester, UK vs Manchester, USA).

Пошаговый алгоритм

Процесс А: Офлайн-определение однозначности городов

Инициализация: Итерация по списку известных городов.
Анализ веб-корпуса (Город отдельно): Выполнение поиска по названию города в одиночку. Подсчет результатов (Count_City).
Анализ веб-корпуса (Город + Идентификатор): Выполнение одного из двух действий:
1. Поиск по «Город Штат» и подсчет результатов (Count_City/State).
2. Анализ документов из Шага 2 на наличие почтовых индексов, связанных с городом, и подсчет таких документов (Count_Postal).
Вычисление соотношения: Расчет процента совместной встречаемости (например, Count_City/State деленное на Count_City).
Классификация: Соотношение сравнивается с порогами X% (например, 5%) и Y% (например, 3%).
1. Выше X%: Unambiguous.
2. Между Y% и X%: Semi-unambiguous.
3. Ниже Y%: Ambiguous.
Разрешение конфликтов: Если несколько городов с одним названием классифицированы как однозначные, выбирается доминирующий (например, по населению или по более высокому соотношению).
Хранение: Метка классификации сохраняется в базе данных.

Процесс Б: Обработка запроса в реальном времени

Получение запроса: Система получает запрос.
Обнаружение географической ссылки: Location Extractor парсит запрос.
Проверка типа ссылки: Определяется, является ли географическая ссылка названием города в одиночку.
- Если НЕТ (например, есть штат/индекс): Маршрутизация на локальный поиск.
- Если ДА: Переход к Шагу 4.
Проверка классификации: Извлекается предварительно рассчитанная метка однозначности.
Принятие решения о маршрутизации:
1. Если Ambiguous: Маршрутизация на веб-поиск.
2. Если Semi-unambiguous: Маршрутизация на веб-поиск, установка флага для предложения локального поиска.
3. Если Unambiguous: Переход к Шагу 6.
Проверка Blacklist: Проверяется, не входит ли комбинация названия города и других терминов запроса в черный список.
- Если ДА: Маршрутизация на веб-поиск.
- Если НЕТ: Маршрутизация на локальный поиск. (С возможным использованием IP пользователя для разрешения оставшихся конфликтов).
Выполнение и представление: Выполняется выбранный тип поиска.

Какие данные и как использует

Данные на входе

Контентные факторы (Веб-корпус): Текст документов в индексе используется для офлайн-анализа частоты совместного упоминания названий городов, штатов и почтовых индексов.
Географические факторы (Базы данных): База данных географических названий, почтовых индексов и связей между ними. Данные о населении городов (для разрешения конфликтов).
Пользовательские факторы: IP-адрес пользователя может использоваться для определения его местоположения при разрешении конфликтов между городами в разных регионах/странах или для таргетинга рекламы.
Системные данные: Blacklist исключений.

Какие метрики используются и как они считаются

Count_City, Count_City/State, Count_Postal: Метрики, основанные на подсчете количества документов в веб-корпусе, соответствующих определенным критериям. Count_Postal может взвешиваться по рангу документа.
Пороги X% и Y%: Процентные соотношения, используемые для классификации. Город считается однозначным, если процент совместной встречаемости с идентификатором превышает X% (например, 5%). Если он находится между Y% и X% (например, 3-5%), он считается полуоднозначным.

Выводы

Автоматизация определения локального интента: Google активно пытается определить локальный интент, даже если он не выражен явно (без штата/индекса). Решение о запуске Local Search принимается автоматически на основе предварительно вычисленных данных о географических названиях.
Значимость ко-оккурентности в веб-корпусе: Способ определения «однозначности» зависит от того, как часто город упоминается в вебе вместе со своими идентификаторами (штат, индекс). Это подчеркивает важность согласованного упоминания полных географических данных в контенте.
Многоуровневая классификация: Система использует градации (Unambiguous, Semi-unambiguous, Ambiguous), что позволяет гибко формировать выдачу: автоматический локальный поиск, веб-поиск с локальным предложением или только веб-поиск.
Критичность черных списков (Blacklists): Использование списков исключений является обязательным этапом для фильтрации случаев, когда географическое название используется в нелокальном контексте (имена людей, бренды), предотвращая ложные срабатывания.
Разрешение конфликтов: При наличии нескольких локаций с одинаковым названием система может использовать дополнительные сигналы, такие как численность населения или IP-адрес пользователя, для выбора наиболее вероятной локации.

Практика

Best practices (это мы делаем)

Максимизация согласованности NAP и географических идентификаторов: Критически важно поддерживать согласованность данных Name, Address, Phone (NAP). Патент показывает, что совместное упоминание города с его штатом и почтовым индексом в вебе напрямую анализируется системой. Убедитесь, что на сайте (футер, контакты, микроразметка LocalBusiness) и во внешних цитированиях эти элементы всегда присутствуют вместе.
Усиление географических ассоциаций в контенте: Регулярно упоминайте полный адрес или комбинацию Город+Штат в контенте (статьи, описания услуг). Это помогает поисковой системе укрепить ассоциацию и корректно интерпретировать запросы, связанные с вашим городом.
Стратегия для неоднозначных городов: Если ваш бизнес находится в городе с распространенным или неоднозначным названием (например, Спрингфилд), необходимо прилагать дополнительные усилия для создания четких локальных сигналов. В SEO-стратегии безопаснее таргетировать ключевые слова, включающие уточнение локации (например, «услуга Город Штат»), а не только название города.

Worst practices (это делать не надо)

Игнорирование штата и индекса в адресах: Указание только названия города на сайте (например, «Наши офисы в Спрингфилде»). Это снижает способность системы связать ваш бизнес с конкретной локацией и негативно влияет на метрики ко-оккурентности.
Непоследовательное указание адреса: Использование разных форматов адреса или разных почтовых индексов для одной локации запутывает систему при анализе корпуса и подсчете Count_Postal.
Оптимизация под запросы из Blacklist: Попытка оптимизировать локальный бизнес под запросы, которые Google, вероятно, занесет в черный список (например, локальный бизнес по запросу «Orlando Bloom»). Система активно фильтрует такие случаи.

Стратегическое значение

Патент раскрывает механику «Триггеринга» (Triggering) в локальном поиске на этапе Query Understanding. Он подтверждает, что интерпретация запроса является ключевым этапом для локального SEO. Стратегия должна быть направлена на то, чтобы сделать географическую привязку бизнеса максимально очевидной и последовательной во всей цифровой экосистеме. Это помогает гарантировать, что система корректно определит локальный интент пользователя.

Практические примеры

Сценарий: Оптимизация для бизнеса в городе с распространенным названием (например, Спрингфилд)

Анализ ситуации: Существует множество городов Спрингфилд. Google, вероятно, классифицирует название как ambiguous или semi-ambiguous. Запрос «Пицца Спрингфилд» скорее всего приведет к веб-поиску.
Действия SEO-специалиста: Необходимо максимизировать сигналы ко-оккурентности для конкретного Спрингфилда (например, Спрингфилд, Иллинойс, 62701).
Реализация:
- На сайте: Использовать фразы типа «Лучшая пицца в Спрингфилде, Иллинойс», «Доставка в пределах индекса 62701».
- Микроразметка: Четко указать addressLocality (Springfield), addressRegion (IL), postalCode (62701).
- Внешние сигналы: Обеспечить, чтобы в цитированиях и анкорах обратных ссылок часто встречалась комбинация Город+Штат.
Ожидаемый результат: Укрепление связи в базе данных Google. Это повышает шансы на то, что система корректно идентифицирует нужную локацию (особенно с учетом IP пользователя) и активирует локальный поиск, а также улучшает ранжирование по явно уточненным запросам.

Вопросы и ответы

Как Google определяет, является ли название города «однозначным» (Unambiguous)?

Согласно патенту, это определяется офлайн путем анализа веб-корпуса. Система сравнивает, как часто название города упоминается само по себе (Count_City), и как часто оно упоминается вместе со связанным идентификатором — названием штата (Count_City/State) или почтовым индексом (Count_Postal). Если частота совместного упоминания превышает определенный процент (например, 5%), город помечается как однозначный.

Что такое «Черный список» (Blacklist) и как он используется?

Blacklist — это список исключений для однозначных городов. Он содержит комбинации названия города и других слов, которые вместе имеют нелокальное значение (например, «Orlando Bloom»). Если система обнаруживает совпадение с черным списком, она принудительно запускает веб-поиск вместо локального, чтобы избежать нерелевантных результатов.

Что происходит, если мой город классифицирован как «полуоднозначный» (Semi-unambiguous)?

Патент описывает градацию неоднозначности. Если город является полуоднозначным (например, процент совместных упоминаний составляет 3-5%), система по умолчанию выполнит обычный веб-поиск. Однако она также сгенерирует и отобразит предложение выполнить локальный поиск (например, ссылку «Локальные результаты для [запрос] рядом с [Город, Штат]»).

Как система поступает, если существует несколько городов с одинаковым названием (например, Портленд)?

Патент предлагает несколько методов разрешения таких конфликтов. Если оба города признаны однозначными, система может выбрать город с большим населением или с более высоким коэффициентом совместной встречаемости. Альтернативно, она может использовать местоположение пользователя (по IP-адресу), чтобы выбрать ближайший или более релевантный город (особенно если они в разных странах).

Как я могу повлиять на то, чтобы мой город считался более однозначным для моего бизнеса?

Вы можете повлиять на это косвенно, увеличивая количество качественных упоминаний вашего города вместе с его идентификаторами в вебе. Обеспечьте постоянное совместное использование названия города, штата и почтового индекса на вашем сайте, в контенте, в микроразметке и во внешних цитированиях (NAP). Это укрепляет географические ассоциации в индексе Google.

Использует ли Google до сих пор простой подсчет документов для определения однозначности?

Маловероятно, что используются именно эти примитивные методы подсчета. Современные системы Google используют гораздо более сложные методы NLP и машинного обучения (BERT, MUM) для понимания сущностей и разрешения неоднозначности. Однако базовая логика, описанная в патенте (использование ко-оккурентности идентификаторов как сигнала значимости), остается актуальной концепцией.

Влияет ли этот патент на запросы с модификаторами типа «рядом со мной»?

Нет, этот патент в первую очередь направлен на обработку запросов с неявной локацией, где локальный интент не выражен явно. Если пользователь использует «рядом со мной» или указывает штат/индекс, система имеет достаточно информации для запуска локального поиска, и описанные механизмы не требуются.

Применяется ли эта логика только к городам?

Хотя в патенте основное внимание уделяется городам (cities), в нем упоминается, что описанные процессы могут применяться и к другим географическим областям, таким как поселки (towns) или округа (counties). Ключевым фактором является наличие названия и связанных с ним идентификаторов.

Как этот механизм связан с показом рекламы?

Патент явно указывает, что аналогичная логика используется для принятия решения о показе рекламы. Если географическая ссылка в запросе признана однозначной и не находится в черном списке, система может показать локально таргетированную рекламу (Local Advertisements) вместо обычной веб-рекламы.

Что важнее для определения однозначности: упоминание штата или почтового индекса?

Патент описывает оба метода как альтернативные варианты реализации (Count_City/State и Count_Postal). Также упоминается возможность использования телефонных номеров. Все эти сигналы являются сильными индикаторами географической привязки, и на практике рекомендуется использовать их все.