Как Google использует данные из Local Search и Google Maps для распознавания географических названий в основном поиске

USING A QUERY LOG FROM A TWO-BOX INTERFACE TO IDENTIFY STANDALONE LOCATIONS (Использование журнала запросов из двух-окошечного интерфейса для идентификации автономных местоположений)

US8782030B1
Google LLC
2007-04-20
2014-07-15

Google анализирует поведение пользователей в интерфейсах с отдельными полями ввода "Что?" и "Где?" (например, в Google Maps). На основе этой статистики система определяет, является ли термин однозначным названием местоположения ("Нью-Йорк") или нет ("Пицца"). Это позволяет поиску отличать локальные запросы от общих и формировать "черные списки" для терминов, которые похожи на города, но ими не являются (например, "Орландо Блум").

Какую проблему решает

Патент решает проблему семантической неоднозначности (ambiguity) терминов, которые могут выступать как географическими названиями, так и объектами другого типа. Система должна уметь отличать локальный интент (например, "new york pizza", где "new york" — локация) от общего интента (например, "orange juice", где "orange" — не локация, хотя такой город существует). Также патент решает задачу фильтрации ложных срабатываний локального поиска для терминов, содержащих топонимы, но не относящихся к географии (например, "Orlando Bloom" или "Victoria's Secret").

Что запатентовано

Запатентован метод автоматической идентификации Standalone Locations (автономных местоположений) и генерации Location Blacklist (черного списка локаций). Метод основан на анализе журналов запросов (Query Logs) из специализированного интерфейса (Two-Box Interface), где пользователи явно разделяют ввод на "Что" (Non-Location Box) и "Где" (Location Box).

Как это работает

Система собирает статистику использования терминов в Two-Box Interface. Для каждого термина (t) подсчитывается, как часто он вводился в поле "Где" (формируя Location Score $S_L(t)$ ) и как часто в поле "Что" (формируя Non-Location Score $S_N(t)$ ). Затем вычисляется нормализованный индикатор (Normalized Location Indicator $P_L(t)$ ). Если этот индикатор высок (выше порога TH_STANDALONE), термин считается Standalone Location. Если он очень низок (ниже порога TH_BLACKLIST), но содержит признаки локации, он попадает в Location Blacklist.

Актуальность для SEO

Средняя/Высокая. Хотя патент подан в 2007 году и специфический метод сбора данных через Two-Box Interface может быть менее актуален сегодня, базовая проблема (распознавание географических сущностей и локального интента) критически важна для современного поиска. Принцип использования данных из специализированных локальных сервисов (например, Google Maps) для обучения основного поиска остается фундаментальным. Вероятно, эти данные использовались как обучающая выборка для более сложных NLP-моделей.

Важность для SEO

Влияние на SEO значительно (7/10). Патент описывает механизм, относящийся к этапу Понимания Запросов (Query Understanding). От того, как Google классифицирует термин — как локацию или нет — зависит активация локальных алгоритмов ранжирования, показ Local Pack и общая интерпретация интента. Это имеет прямое влияние на стратегии Local SEO и управление брендами, чьи названия пересекаются с географическими объектами.

Термины и определения

Standalone Location (Автономное местоположение): Местоположение, которое может быть однозначно идентифицировано только по его названию, без дополнительных уточнений (например, "San Francisco" является, "Washington" может не являться).
Two-Box Interface (Двух-окошечный интерфейс): Интерфейс поисковой системы с двумя (или более) полями ввода: одно для того, "что" ищет пользователь, и другое для указания географического местоположения ("где").
Non-Location Box (Поле "Что"): Поле для ввода терминов, описывающих предмет поиска.
Location Box (Поле "Где"): Поле для ввода терминов, указывающих географическое местоположение.
Query Log (Журнал запросов): Запись пользовательских вводов в Two-Box Interface, используемая для анализа частоты появления терминов в разных полях.
Location Score ( $S_L(t)$ ): Метрика, показывающая, как часто термин (t) появляется в Location Box.
Non-Location Score ( $S_N(t)$ ): Метрика, показывающая, как часто термин (t) появляется в Non-Location Box.
Normalized Location Indicator ( $P_L(t)$ ) (Нормализованный индикатор местоположения): Метрика (от 0 до 1), рассчитываемая на основе $S_L(t)$ и $S_N(t)$ для определения вероятности того, что термин является локацией.
Location Blacklist (Черный список локаций): Список терминов, которые содержат компонент, похожий на местоположение, но на самом деле не относятся к нему (например, "Orlando Bloom", "Victoria's Secret").
Location Extraction Server (LES) (Сервер извлечения местоположений): Компонент системы, который определяет, содержит ли термин географическое название. Используется для валидации при формировании Location Blacklist.
TH_STANDALONE и TH_BLACKLIST: Пороговые значения, используемые для классификации термина на основе $P_L(t)$ .

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации Standalone Location.

Система получает термин для оценки.
Извлекается Non-Location Score на основе логов (log data), показывающих частоту ввода термина в Non-Location Input Box ("Что").
Извлекается Location Score на основе логов, показывающих частоту ввода термина в Location Input Box ("Где").
На основе этих двух оценок система определяет, является ли термин Standalone Location.

Claim 6 (Независимый пункт): Описывает метод идентификации термина для Location Blacklist.

Система получает термин для оценки.
Извлекаются Non-Location Score и Location Score (аналогично Claim 1).
На основе этих двух оценок система определяет, принадлежит ли термин к Location Blacklist (критерий: термин содержит название географического места, но не относится к нему).

Claim 16 (Зависимый от 1) и Claim 18 (Зависимый от 6): Детализируют математический подход к принятию решения.

Вычисляется Normalized Location Indicator ( $P_L(t)$ ) как отношение Location Score к сумме Location Score и Non-Location Score.
Для Standalone Location (Claim 16): $P_L(t)$ должен быть выше порога (standalone threshold).
Для Location Blacklist (Claim 18): $P_L(t)$ должен быть ниже порога (blacklist threshold).

Claim 5 и Claim 8 (Зависимые): Описывают использование Location Extraction Server (LES) или location-extraction engine для уточнения Location Blacklist.

Для попадания в Location Blacklist может требоваться не только низкий $P_L(t)$ , но и подтверждение от LES, что термин действительно содержит компонент, похожий на название локации. Это позволяет отфильтровать обычные слова (например, "Пицца"), у которых $P_L(t)$ низкий, но которые не являются географически неоднозначными.

Где и как применяется

Изобретение охватывает сбор данных, их офлайн-обработку и применение результатов для понимания запросов в реальном времени.

CRAWLING – Сканирование и Сбор данных
Система собирает Query Logs из специализированного интерфейса (Two-Box Interface). Это процесс сбора явной обратной связи от пользователей о том, как они классифицируют термины.

INDEXING – Индексирование и извлечение признаков (Офлайн-обработка)
На этом этапе происходит анализ накопленных логов. Система (Standalone Location/Blacklist Generator) вычисляет метрики для терминов и формирует списки Standalone Locations и Location Blacklist. Эти списки сохраняются и становятся доступными для поисковой системы.

QUNDERSTANDING – Понимание Запросов (Онлайн-применение)
Основной этап применения. При получении пользовательского запроса система использует созданные списки для интерпретации терминов. Это определяет, будет ли запрос классифицирован как локальный и следует ли игнорировать потенциальные географические сигналы (если термин в Location Blacklist).

RANKING – Ранжирование
Если запрос идентифицирован как локальный благодаря распознаванию Standalone Location, система использует информацию о местоположении при ранжировании результатов (например, активируя Local Pack или предпочитая локализованные результаты).

Входные данные:

Query Logs из Two-Box Interface (частоты L и N).
Термины для оценки (t).
(Опционально) Ответ от Location Extraction Server (LES).

Выходные данные:

List of Standalone Locations.
Location Blacklist.

На что влияет

Специфические запросы: В первую очередь влияет на локальные запросы и запросы, содержащие географические названия или термины с географической омонимией.
Конкретные ниши или тематики: Критически важно для Local SEO, а также для брендов, организаций и персон, чьи названия совпадают с топонимами.
Языковые и географические ограничения: В патенте явно указано, что метод применим к различным языкам, включая китайский, японский, корейский и английский.

Когда применяется

Временные рамки: Анализ логов и генерация списков происходит периодически в офлайн-режиме. Использование списков происходит в реальном времени при обработке каждого запроса.
Пороговые значения: Классификация зависит от сравнения $P_L(t)$ с порогами TH_STANDALONE и TH_BLACKLIST, которые могут динамически корректироваться.

Пошаговый алгоритм

Процесс офлайн-генерации списков:

Как Google использует данные из Local Search и Google Maps для распознавания географических названий в основном поиске

Описание

Какую проблему решает

Что запатентовано

Как это работает

Актуальность для SEO

Важность для SEO

Детальный разбор

Термины и определения

Ключевые утверждения (Анализ Claims)

Где и как применяется

На что влияет

Когда применяется

Пошаговый алгоритм

Выводы

Практика

Best practices (это мы делаем)

Worst practices (это делать не надо)

Стратегическое значение

Практические примеры

Вопросы и ответы

Похожие патенты

Популярные патенты