Как Google использует данные из интерфейсов локального поиска ("Что/Где") для распознавания географических названий и исключения брендов

Google анализирует, как пользователи вводят запросы в интерфейсах с отдельными полями для объекта поиска («Что?») и местоположения («Где?») (например, в Google Maps). На основе этой статистики система определяет «автономные местоположения» (города, которые однозначно идентифицируются по названию) и создает «черный список» терминов, которые звучат как локации, но ими не являются (например, бренды или имена). Это улучшает понимание географического интента в основном поиске.

Описание

Какую задачу решает

Патент решает проблему неоднозначности географических названий в поисковых запросах. Поисковой системе необходимо отличать запросы с локальным интентом (например, «new york pizza») от нелокальных запросов, содержащих термины, похожие на названия местоположений (например, «orange juice»). Также критически важно фильтровать термины, которые содержат название локации, но не имеют географического интента (например, «Orlando Bloom» или «Boston Market»).

Что запатентовано

Запатентована система автоматической идентификации Standalone Locations (автономных местоположений) — локаций, которые можно однозначно определить только по названию. Система также генерирует Location Blacklist (черный список локаций). Метод основан на анализе журналов запросов (Query Logs) из интерфейса с двумя полями ввода (Two-Box Interface), где пользователи явно разделяют объект поиска («Что?») и его местоположение («Где?»).

Как это работает

Система использует данные из интерфейсов локального поиска (например, Google Maps):

Сбор данных: Собирается статистика о том, как часто термин вводится в поле «Что?» (Non-location box, Count N) и в поле «Где?» (Location box, Count L).
Расчет оценок: Вычисляются Location Score и Non-Location Score с использованием логарифмического сглаживания (например, log(Count+1)).
Нормализация: Рассчитывается Normalized Location Indicator (P_L(t)) — отношение Location Score к сумме обеих оценок.
Классификация: Если P_L(t) высок (выше порога TH_standalone), термин классифицируется как Standalone Location. Если P_L(t) низок (ниже порога TH_blacklist) и термин содержит компонент, похожий на локацию, он добавляется в Location Blacklist.

Актуальность для SEO

Высокая. Понимание географического интента и распознавание сущностей (Entity Recognition) критически важны для современного поиска. Хотя NLP-модели значительно продвинулись, описанный механизм использования явных пользовательских сигналов из специализированных интерфейсов (таких как Google Maps) остается актуальным и ценным подходом для сбора обучающих данных и улучшения Query Understanding.

Важность для SEO

Патент имеет существенное значение (7.5/10), особенно для локального SEO и брендов с неоднозначными названиями. Он демонстрирует механизм, с помощью которого Google учится отличать локальный интент от нелокального. Это напрямую влияет на то, будет ли активировано локальное ранжирование для запроса. Для SEO-специалистов это подчеркивает необходимость четкой и однозначной передачи географической привязки или, наоборот, усиления сигналов бренда для избежания ложной локализации.

Детальный разбор

Термины и определения

Standalone Location (Автономное местоположение): Местоположение, которое может быть однозначно идентифицировано только по его названию, без дополнительных уточнений (например, «San Francisco»).
Two-Box Interface (Двухбоксовый интерфейс): Интерфейс поисковой системы, включающий как минимум два поля ввода: одно для объекта поиска («Что?») и другое для географического местоположения («Где?»).
Non-location box: Поле для ввода терминов, указывающих, что ищет пользователь.
Location box: Поле для ввода терминов, указывающих географическое местоположение.
Location Count (L) и Non-location Count (N): Количество раз, когда термин появлялся в Location box и Non-location box соответственно.
Location Score (S_L(t)): Оценка, указывающая, как часто термин используется как локация. Рассчитывается как log(L+1).
Non-Location Score (S_N(t)): Оценка, указывающая, как часто термин используется не как локация. Рассчитывается как log(N+1).
Normalized Location Indicator (P_L(t)): Нормализованный индикатор (от 0 до 1), показывающий вероятность того, что термин является локацией. Рассчитывается как S_L(t) / (S_L(t) + S_N(t)).
Location Blacklist (Черный список локаций): Список терминов, которые содержат компонент, похожий на локацию, но на самом деле не относятся к ней (например, «Orlando Bloom», «Boston Market»).
Location Extraction Server (LES) / Location Extraction Engine: Компонент системы, который определяет, содержит ли термин потенциальное название локации. Используется для валидации кандидатов в Location Blacklist.
TH_standalone и TH_blacklist: Пороговые значения для P_L(t), используемые для классификации термина как Standalone Location или кандидата в Location Blacklist.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод автоматической идентификации Standalone Location.

Система получает термин для оценки.
Определяется Non-Location Score. Оценка основана на логарифме (logarithm) значения из журнала запросов (query log data), указывающего частоту использования термина как не-локации.
Определяется Location Score. Оценка основана на логарифме значения из журнала запросов, указывающего частоту использования термина как локации.
Определяется, является ли термин Standalone Location, на основе отношения (ratio) Location Score к сумме Location Score и Non-Location Score.

Claim 2 и 3 (Зависимые): Уточняют источник данных.

Оценки определяются на основе количества появлений термина в non-location box и location box соответственно, в интерфейсе поисковой системы.

Claim 8 (Зависимый): Формализует процесс принятия решения.

Отношение оценок определяется как Normalized Location Indicator. Если индикатор выше порога (standalone threshold), термин считается Standalone Location.

Claim 6 и 7 (Зависимые): Детализируют механизм добавления в Location Blacklist.

Если термин не является Standalone Location, система определяет, принадлежит ли он к Location Blacklist. Согласно Claim 7, это происходит, если:

Термин отправляется в Location Extraction Engine (LES).
Получено подтверждение от LES, что термин содержит название локации.
Отношение оценок (P_L(t)) меньше, чем blacklist threshold.

Это гарантирует, что в черный список попадают только термины, которые выглядят как локации, но статистически редко используются в этом качестве.

Где и как применяется

Изобретение в первую очередь относится к этапу понимания запросов, используя данные о поведении пользователей для обучения классификаторов.

QUNDERSTANDING – Понимание Запросов

Офлайн-обработка (Обучение): Основная часть работы алгоритма происходит офлайн. Система анализирует Query Logs из Two-Box Interface, вычисляет метрики (P_L(t)) и генерирует List of Standalone Locations и Location Blacklist.
Классификация интента (Real-time): При получении запроса система использует сгенерированные списки для интерпретации терминов и определения географического интента (Disambiguation).

RANKING / RERANKING – Ранжирование и Переранжирование

Локализация выдачи: Если в запросе обнаружен Standalone Location, система активирует факторы локального ранжирования или локальные блоки (Local Pack).
Фильтрация: Если термин находится в Location Blacklist, система предотвращает ложную активацию локального ранжирования для этого термина.

Входные данные:

Журналы запросов (Query Logs) из Two-Box Interface.
Термин для оценки.

Выходные данные:

List of Standalone Locations.
Location Blacklist.

На что влияет

Специфические запросы: Наибольшее влияние на запросы с географической неоднозначностью (информационные, коммерческие), где название города может быть как локацией, так и частью названия сущности.
Конкретные типы контента: Влияет на ранжирование локальных страниц (Local SEO) и страниц национальных брендов, чьи названия пересекаются с топонимами.
Языковые ограничения: Патент указывает, что техника применима к разным языкам, включая English, Chinese, Japanese, и Korean.

Когда применяется

Генерация списков (Офлайн): Применяется периодически при накоплении достаточного объема данных в Query Logs из Two-Box Interface.
Применение списков (Real-time): Активируется при обработке любого запроса для интерпретации интента.
Пороговые значения: Ключевую роль играют настроенные пороги TH_standalone и TH_blacklist, которые могут динамически настраиваться.

Пошаговый алгоритм

Процесс А: Офлайн-генерация списков

Сбор данных и Агрегация: Сбор пользовательского ввода из Two-Box Interface. Для каждого термина t подсчитывается Location Count (L) (появления в Location Box) и Non-Location Count (N) (появления в Non-Location Box).
Расчет базовых оценок: Вычисление Location Score и Non-Location Score с использованием логарифмического сглаживания:
- S_L(t) = log(L+1)
- S_N(t) = log(N+1)
Нормализация: Вычисление Normalized Location Indicator:
- P_L(t) = S_L(t) / (S_L(t) + S_N(t))
Проверка на Standalone Location: Сравнение P_L(t) с порогом TH_standalone.
- Если P_L(t) > TH_standalone: Термин t добавляется в List of Standalone Locations.
- Если НЕТ: Переход к шагу 5.
Проверка на Blacklist (Базовая): Сравнение P_L(t) с порогом TH_blacklist.
- Если P_L(t) < TH_blacklist: Термин t является кандидатом в Location Blacklist. Переход к шагу 6.
Проверка на Blacklist (Уточненная, опционально): Кандидат отправляется в Location Extraction Server (LES).
- Если LES подтверждает, что термин содержит локацию: Термин t добавляется в Location Blacklist (например, «Orlando Bloom»).
- Если LES не срабатывает: Термин не добавляется в черный список (например, «apple»).

Процесс Б: Онлайн-применение (Обработка запроса)

Получение запроса: Система получает запрос от пользователя.
Интерпретация терминов: Термины запроса проверяются по сгенерированным спискам.
Применение логики ранжирования:
- Если термин идентифицирован как Standalone Location, система активирует локальное ранжирование.
- Если термин присутствует в Location Blacklist, система НЕ использует его как источник географической информации.
Предоставление результатов: Поисковая выдача предоставляется пользователю.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Основной источник): Явные сигналы от пользователей, полученные через Two-Box Interface. Анализируется статистика ввода терминов в поля «Что?» и «Где?». Это ключевой источник размеченных данных для обучения системы.
Географические факторы (Вспомогательные): Location Extraction Server (LES) используется для определения наличия географических компонентов в терминах при валидации черного списка.

Какие метрики используются и как они считаются

Система использует конкретные формулы для расчета метрик:

Location Count (L) и Non-Location Count (N): Прямой подсчет вхождений.
Location Score (S_L(t)) и Non-Location Score (S_N(t)): Рассчитываются как log(Count+1). Использование логарифма сглаживает влияние сверхпопулярных запросов и обрабатывает нулевые значения.
Normalized Location Indicator (P_L(t)): Рассчитывается как S_L(t) / (S_L(t) + S_N(t)). Ключевой классификатор (от 0 до 1).
Пороговые значения: TH_standalone и TH_blacklist. Они должны удовлетворять условию 0 < TH_blacklist < TH_standalone < 1.

Выводы

Использование данных из специализированных интерфейсов для обучения ядра поиска: Google использует явные поведенческие сигналы из вертикальных сервисов (например, Google Maps с полями «Что/Где») для улучшения алгоритмов Понимания Запросов (Query Understanding) в основном поиске.
Статистическое разрешение географической неоднозначности: Патент описывает статистический метод для определения того, является ли термин локацией (Standalone Location) или сущностью (кандидат в Location Blacklist), основываясь на массовом поведении пользователей.
Механизм фильтрации ложных срабатываний (Blacklisting): Система активно выявляет термины, которые выглядят как локации, но используются в другом контексте. Location Blacklist предотвращает нерелевантное локальное ранжирование для таких запросов (бренды, имена).
Важность LES для валидации Blacklist: Для попадания в черный список недостаточно редко использоваться как локация. Термин должен также активировать Location Extraction Server (т.е. быть похожим на локацию). Это предотвращает попадание обычных слов в черный список.
Применение стандартных IR-методов: Использование логарифмических оценок (log(L+1)) и нормализованного индикатора демонстрирует применение стандартных методов Information Retrieval для классификации интента.

Практика

Best practices (это мы делаем)

Обеспечение однозначности для локального бизнеса (Local SEO): Если ваш бизнес находится в городе, который вряд ли является Standalone Location (например, город с распространенным названием или небольшой населенный пункт), критически важно постоянно использовать полные географические спецификаторы (штат, регион) в контенте, микроразметке (LocalBusiness) и Google Business Profile.
Мониторинг интерпретации бренда (Brand Management): Для компаний, чьи названия пересекаются с топонимами (например, «Washington Post»), важно укреплять сигналы, связанные с сущностью бренда (Brand Entity), чтобы минимизировать риск ложной географической интерпретации и способствовать попаданию в Location Blacklist. Работайте над Knowledge Graph и используйте разметку Organization.
Анализ поведения в локальных интерфейсах: Анализируйте, как пользователи ищут ваши услуги через Google Maps. Это даст представление о том, как пользователи формулируют «Что» и «Где», что отражает данные, которые Google использует для обучения согласно этому патенту.

Worst practices (это делать не надо)

Игнорирование географических модификаторов: Полагаться только на название города, если оно неоднозначно. Если система не считает его Standalone Location, вы рискуете потерять локальный приоритет или получать нерелевантный трафик.
Манипуляции локальным ранжированием для нелокальных сущностей: Попытки ранжировать национальный бренд по локальному запросу, связанному с названием города (например, оптимизировать «Boston Market» под локацию «Boston»), будут неэффективны из-за механизма Location Blacklist.

Стратегическое значение

Патент подтверждает стратегию Google на глубокое понимание интента запроса и важность дисамбигуации (разрешения неоднозначности). Он демонстрирует, как данные о поведении пользователей в одном продукте (Google Maps/Local) напрямую влияют на алгоритмы другого (Google Search). Для SEO это означает, что оптимизация должна учитывать не только релевантность контента, но и то, как Google интерпретирует ключевые сущности (бренды и локации) на основе глобальных данных.

Практические примеры

Сценарий 1: Формирование Location Blacklist (Бренд)

Пример основан на данных из FIG. 3 патента.

Термин: «Boston Market».
Сбор данных: В Two-Box Interface пользователи вводят «Boston Market» в поле «Что?» (N=23,798) и редко в поле «Где?» (L=383).
Расчет: P_L(t) будет очень низким.
Валидация: Термин отправляется в LES. LES распознает компонент «Boston».
Результат: Поскольку P_L(t) низкий, а LES сработал, «Boston Market» добавляется в Location Blacklist. В основном поиске запрос будет интерпретирован как бренд, а не как поиск рынков в Бостоне.

Сценарий 2: Идентификация Standalone Location (Город)

Термин: «New York» (из FIG. 3).
Сбор данных: Пользователи часто вводят «New York» в поле «Где?» (L=47,873) и редко в поле «Что?» (N=910).
Расчет: P_L(t) будет очень высоким, выше порога TH_standalone.
Результат: «New York» классифицируется как Standalone Location. В основном поиске запрос «Hotels New York» автоматически запускает сильный локальный интент.

Вопросы и ответы

Что такое «Standalone Location» (Автономное местоположение) и почему это важно для SEO?

Это географическое название, которое однозначно идентифицируется без дополнительных уточнений (например, «San Francisco»). Для SEO это важно, потому что если ваша целевая локация является автономной, Google автоматически применит сильный локальный интент к запросам с этим названием. Если же локация не автономна (например, «Springfield»), вам необходимо постоянно использовать полные географические модификаторы (штат, регион).

Что такое «Two-Box Interface» и откуда Google берет эти данные?

Это интерфейс с двумя отдельными полями ввода: «Что?» (объект поиска) и «Где?» (местоположение). Наиболее вероятным источником таких данных являются Google Maps или сервисы локального поиска. Поведение пользователей в этих интерфейсах предоставляет Google явные, размеченные данные о том, какие термины пользователи считают локациями, а какие нет.

Как рассчитывается вероятность того, что термин является локацией (P_L(t))?

Система подсчитывает, сколько раз термин использовался как локация (L) и как не-локация (N). Затем вычисляются логарифмические оценки: S_L = log(L+1) и S_N = log(N+1). Итоговый индикатор P_L(t) = S_L / (S_L + S_N). Чем ближе значение к 1, тем вероятнее, что это локация.

Что такое «Location Blacklist» и как туда попадают термины?

Это список терминов, которые содержат название локации, но не относятся к ней (например, «Orlando Bloom»). Термин попадает туда, если его Normalized Location Indicator очень низок (ниже порога TH_blacklist), и при этом он активирует Location Extraction Server (LES) (т.е. система видит в нем потенциальную локацию). Это предотвращает ложное срабатывание локального поиска для брендов и имен.

Что делать, если название моего бренда совпадает с названием города?

Необходимо четко определить стратегию. Если вы локальный бизнес в этом городе, усиливайте локальные сигналы (GBP, адрес, локальный контент). Если вы национальный бренд, усиливайте сигналы сущности бренда (Knowledge Graph, Organization markup), чтобы система не привязывала вас ошибочно к этой локации и стремилась добавить вас в Location Blacklist.

Зачем в формулах используется логарифм (log(L+1))?

Использование логарифма помогает сгладить данные и уменьшить влияние экстремальных значений частотности. Это делает систему более стабильной. Добавление «+1» гарантирует, что результат будет определен, даже если количество появлений равно нулю (log(1)=0).

На каком этапе поиска используется эта технология?

Генерация списков Standalone Locations и Location Blacklist происходит офлайн путем анализа логов. Использование этих списков происходит в реальном времени на этапе Понимания Запросов (Query Understanding) для корректной интерпретации интента и определения необходимости активации локального ранжирования.

Что такое Location Extraction Server (LES)?

Это внутренний компонент, который анализирует текст и определяет, содержит ли он потенциальные названия географических объектов. В данном патенте LES используется для валидации черного списка: если термин редко используется как локация, но LES его распознает (например, «Orlando» в «Orlando Bloom»), он добавляется в черный список.

Применяется ли этот механизм к разным языкам?

Да. В патенте явно указано, что этот метод может применяться к различным языкам, включая английский, китайский, японский и корейский. Механизм основан на статистике использования интерфейса и не зависит от семантики конкретного языка.

Является ли этот механизм единственным способом определения локального интента?

Нет. Это один из механизмов, который предоставляет очень чистые и явные обучающие данные для систем Query Understanding. Google также использует множество других сигналов, включая современные NLP-модели (BERT, MUM), местоположение пользователя (IP, GPS) и наличие локальных модификаторов в запросе.

Как Google использует данные из интерфейсов локального поиска («Что/Где») для распознавания географических названий и исключения брендов