Как Google понимает адреса и локальные запросы, игнорируя ошибки, порядок слов и учитывая контекст пользователя (Geocoding)

Google использует систему геокодирования для интерпретации неструктурированных локальных запросов. Система преобразует запрос в стандартный формат, не зависящий от порядка слов, учитывая синонимы, ошибки и аббревиатуры. Ранжирование результатов зависит от важности объекта (Feature Rank) и его близости к текущей области просмотра карты пользователя (Viewport), что критично для разрешения неоднозначностей.

Описание

Какую задачу решает

Патент решает проблему ограничений традиционных систем геокодирования (Geocoding), которые требовали ввода адреса в строгом формате и плохо справлялись с вариативностью ввода (разный порядок слов, опечатки, аббревиатуры, международные форматы). Изобретение позволяет обрабатывать неструктурированные запросы о местоположении (Location Search Queries), повышая точность определения координат и улучшая разрешение неоднозначностей за счет использования контекста.

Что запатентовано

Запатентована система гибкого геокодирования. Она преобразует неструктурированные локальные запросы в каноническую форму (Canonical Form) и булево выражение (Boolean Expression), не зависящее от порядка слов. Поиск ведется в распределенной базе данных Geographic Feature Documents, содержащих расширенные данные об объектах. Ранжирование использует сложную формулу, учитывающую текстовую релевантность, важность объекта (Feature Rank) и близость к области просмотра пользователя (Viewport).

Как это работает

Система работает в несколько этапов:

Нормализация: Запрос очищается от шумовых слов, пунктуации, номеров домов и приводится к Canonical Form.
Генерация булева выражения: Создается Boolean Expression с добавлением синонимов и расшифровкой аббревиатур (например, (NY OR New York)).
Поиск в индексе: Выполняется поиск в распределенном индексе Geographic Feature Documents.
Ранжирование: Результаты оцениваются с использованием комбинации оценки релевантности (IR Score), ранга объекта (Feature Rank) и фактора близости к Viewport пользователя (Score Attenuation Factor или SAF).
Вывод результатов: Предоставляется наилучшее совпадение или список вариантов (если есть неоднозначность) с соответствующими картами.

Актуальность для SEO

Высокая. Гибкое геокодирование является фундаментом Google Maps и Локального поиска. Принципы обработки неструктурированных данных, устойчивости к ошибкам и, особенно, ранжирование с учетом контекста пользователя (Viewport Biasing) критически важны в эпоху мобильного поиска и запросов типа «рядом со мной».

Важность для SEO

Патент имеет высокое значение (8.5/10) для Local SEO. Он раскрывает фундаментальные механизмы того, как Google интерпретирует географические данные и сопоставляет их с запросами. Понимание этого патента критично для оптимизации локального присутствия, так как он объясняет важность сигналов известности (Feature Rank) и близости/контекста (Viewport/SAF), а также необходимость предоставления полного географического контекста.

Детальный разбор

Термины и определения

Boolean Expression (Булево выражение): Представление запроса после нормализации и добавления синонимов/аббревиатур. Используется для поиска в индексе и не зависит от исходного порядка слов.
Canonical Form (Каноническая форма): Нормализованная версия запроса после удаления шумовых слов, знаков препинания и номеров домов.
Element Mass (Масса элемента): Вес, присваиваемый совпадению в документе. Зависит от типа информации (точное название > контекст > близлежащий объект) и размера/типа объекта (страна > город > улица).
Feature Rank (FR) (Ранг объекта): Метрика, указывающая на важность или популярность географического объекта. Может основываться на размере объекта или его популярности в веб-поиске.
Geocoding (Геокодирование): Процесс преобразования текстового описания местоположения в географические координаты.
Geographic Feature Document (GFD) (Документ географического объекта): Структурированный документ (например, XML/HTML), описывающий географический объект. Содержит токены: тип, основное имя (CNA), контекст (CA), синонимы (A) и близлежащие объекты (Cn).
Information Retrieval (IR) Score (Оценка информационного поиска): Оценка текстовой релевантности документа запросу. Рассчитывается как сумма взвешенных оценок совпадений по каждому термину (IRi).
Score Attenuation Factor (SAF) (Фактор ослабления оценки): Множитель, корректирующий оценку ранжирования в зависимости от положения объекта относительно Viewport. Повышает результаты внутри или рядом с областью просмотра.
Token Mass (Масса токена): Вес, присваиваемый ключевому слову в зависимости от его типа (например, обычное слово, синоним, аффикс улицы).
Viewport (Область просмотра): Географический регион, который в данный момент отображается на устройстве пользователя (например, текущий вид карты).
Viewport Skirt Region (Внешняя область просмотра): Область, окружающая Viewport. Результаты в этой области получают умеренное повышение (средний SAF).

Ключевые утверждения (Анализ Claims)

Патент US7912837B2 является продолжением (continuation) и фокусируется на устойчивости к ошибкам.

Claim 1 (Независимый пункт): Описывает метод выполнения локального поиска с обработкой ошибок.

Система получает локальный запрос для желаемого местоположения.
Определяются ключевые слова, причем допускается, что часть из них «некорректно описывает» (incorrectly describe) желаемое местоположение (т.е. содержит ошибки или неточности пользователя).
Выполняется поиск в индексе. Идентифицируются документы, соответствующие ключевым словам.
Ключевое условие: Сами документы содержат термины, которые также могут «некорректно описывать» географический объект.
Система предоставляет карту с метками местоположений.

Система спроектирована для преодоления разрыва между неточным вводом пользователя и точными данными. Это достигается за счет включения потенциальных ошибок (опечаток, названий соседних городов или ориентиров) в качестве токенов непосредственно в Geographic Feature Document правильного объекта. Это позволяет найти соответствие, даже если ввод пользователя технически неверен.

Claim 2 (Зависимый от 1): Уточняет типы некорректных описаний: орфографические ошибки, названия смежных или близких городов, ориентиров или географических местоположений.

Claim 18 (Зависимый от 1): Уточняет, что поиск в индексе выполняется независимо от порядка ключевых слов в запросе.

Claim 23 (Независимый пункт — Структура данных): Определяет структуру Geographic Feature Document. Она включает ключевые слова, регионы, синонимы и ключевые слова, которые «некорректно описывают» объект, а также референсные координаты.

Где и как применяется

Изобретение применяется в системах геокодирования (например, Google Maps) и затрагивает несколько этапов поисковой архитектуры.

INDEXING – Индексирование и извлечение признаков
На этом этапе создаются и индексируются Geographic Feature Documents. Система индексирует основные названия, синонимы, близлежащие объекты (Nearby Feature Terms) и потенциальные опечатки как токены для каждого объекта. Рассчитывается и сохраняется статический Feature Rank (FR) и географические координаты.

QUNDERSTANDING – Понимание Запросов
Основной этап применения патента. Система обрабатывает входящий Location Search Query:

Нормализация: Приведение к Canonical Form.
Генерация: Создание Boolean Expression (добавление синонимов, раскрытие сокращений).
Контекстуализация: Определение текущего Viewport пользователя (если доступен).

RANKING – Ранжирование
На этом этапе происходит отбор и оценка кандидатов:

Отбор: Идентификация документов, соответствующих Boolean Expression.
Оценка: Расчет оценок ранжирования. Включает вычисление IR Score, применение Feature Rank (FR) и применение Score Attenuation Factor (SAF) для корректировки оценки на основе близости к Viewport.

Входные данные:

Локальный поисковый запрос.
Данные о текущем Viewport пользователя (опционально).
База данных Geographic Feature Documents.

Выходные данные:

Ранжированный список географических объектов с оценками и координатами.
Карта с отмеченными локациями.

На что влияет

Типы контента и ниши: Критически влияет на Local SEO, Google Maps и Local Pack. Влияет на любые сущности с физическим адресом, а также на географические объекты (города, улицы, достопримечательности).
Специфические запросы: Влияет на все запросы с локальным интентом, особенно на неоднозначные, неструктурированные и мобильные запросы.

Когда применяется

Триггеры активации: Алгоритм активируется, когда система классифицирует запрос как Location Search Query.
Условия работы SAF: Механизм корректировки оценки SAF (Viewport Biasing) активируется, когда системе известен текущий Viewport пользователя (например, при использовании картографических приложений).

Пошаговый алгоритм

Получение запроса: Система получает Location Search Query (например, «155 Abe Ave. Great Neck NY»).
Нормализация (Определение ключевых слов): Запрос конвертируется в Canonical Form. Удаляются шумовые слова, пунктуация, номера домов (результат: «Abe Ave Great Neck NY»).
Генерация Булева выражения: Расширяются аббревиатуры и добавляются синонимы. Могут добавляться «общие синонимы» (generic synonyms), например, affix_keyword для Ave/Street/Road. (Результат: Abe AND (Ave OR Avenue OR Street OR…) AND (Great Neck) AND (NY OR New York)).
Идентификация документов-кандидатов: Выполняется поиск в индексе Geographic Feature Documents.
Определение Viewport и Skirt (если применимо): Если известен Viewport пользователя, рассчитывается размер Viewport Skirt Region.
Расчет оценок (Scoring): Для каждого кандидата вычисляется оценка.
Формула (один из вариантов): Score = (Normalized IR Score)^M * FR * Q
1. Расчет IR Score: Суммируются взвешенные оценки совпадений терминов (IRi). Веса зависят от Token Mass, Relevance Score и Element Mass.
2. Получение Feature Rank (FR): Извлекается показатель важности объекта.
3. Расчет SAF (в составе Q): Определяется положение объекта относительно Viewport. (1.0, если внутри; экспоненциально убывающее значение в Skirt Region; минимальное значение (MinScore), если снаружи).
4. Применение штрафов (в составе Q): Применяются штрафы, например, за неточное совпадение или отсутствие ключевых элементов.
Ранжирование и Фильтрация: Идентифицируются N документов с наивысшим рейтингом. Результаты с низким SAF и оценкой ниже определенного порога могут быть отфильтрованы.
Предоставление результатов: Система анализирует оценки Топ-N. Если лучший результат значительно превосходит следующий, он предоставляется как единственный ответ. Иначе предоставляется список или карта с несколькими метками.
Интерполяция координат (если применимо): Если в запросе был номер дома, система использует дополнительную информацию (диапазоны номеров) для интерполяции точных координат.

Какие данные и как использует

Данные на входе

Контентные факторы (внутри документов): Система использует структурированные данные из Geographic Feature Documents (описанные в патенте с использованием тегов из FIG. 4):
- Explicit Name (Явное название, ).
- Context/Key Words (Контекст, – город, страна).
- Synonyms (Синонимы, – включая другие языки, опечатки).
- Nearby Locations (Близлежащие локации, ).

Структурные факторы: Тип объекта (например, type_route, ).
Технические факторы (Supplemental Information): Координаты (широта и долгота) и диапазоны номеров домов для сегментов улиц.
Пользовательские и Географические факторы (динамические): Текущий Viewport пользователя. Также упоминается страна пользователя как возможный фактор для штрафов (в Q).

Какие метрики используются и как они считаются

Основная формула скоринга, описанная в патенте:

Score = ( (1/E) * Sum(IRi) )^M * FR * Q

E (Normalization Value): Нормализационное значение (максимально возможная сумма IRi).
IRi (Query Match Score for term ‘i’): Оценка соответствия для отдельного термина. Рассчитывается как произведение: Token Mass * Relevance Score * Element Mass.
- Token Mass: Вес типа термина (обычное слово > синоним > аффикс улицы).
- Relevance Score: Степень текстового совпадения (полное > частичное).
- Element Mass: Важность элемента в документе (Название > Контекст > Близлежащий объект) и тип объекта (Страна > Город > Улица).
M (Exponent): Показатель степени (обычно от 2 до 5) для увеличения влияния IR Score.
FR (Feature Rank): Статическая оценка важности географического объекта (размер, популярность).
Q (Quality Factor): Мультипликативный фактор, включающий SAF и штрафы (Penalties).
- SAF (Score Attenuation Factor): Динамическая корректировка на основе близости к Viewport. SAF=1 внутри Viewport. Экспоненциально уменьшается (функция e^-KX) в Viewport Skirt Region до минимального значения (MinScore) за ее пределами.
- Штрафы (Penalties): Применяются за неточное совпадение, отсутствие ключевого элемента или если объект далеко от страны пользователя и его Viewport.

Выводы

Геокодирование как задача информационного поиска (IR): Google обрабатывает адреса и местоположения как документы (Geographic Feature Documents), применяя техники IR. Поиск не зависит от порядка слов благодаря преобразованию запроса в Boolean Expression.
Устойчивость к ошибкам через индексацию неточностей: Ключевой механизм (Claims 1 и 2) — намеренная индексация синонимов, орфографических ошибок и названий близлежащих объектов (Nearby Feature Terms) вместе с правильным объектом. Это позволяет находить верное местоположение даже при неточном вводе пользователя.
Многофакторная оценка релевантности: Ранжирование — это баланс трех компонентов: текстовой релевантности (IR Score), важности/популярности объекта (Feature Rank) и контекста/близости пользователя (SAF).
Критичность контекста пользователя (Viewport Biasing): Механизм Score Attenuation Factor (SAF) динамически и агрессивно предпочитает местоположения, которые находятся рядом с областью, которую пользователь просматривает (Viewport). Этот фактор может перевесить текстовую релевантность или даже Feature Rank.
Иерархия компонентов адреса: Система учитывает иерархию (Element Mass). Совпадения по точным названиям ценятся выше, чем по контексту; совпадения по более крупным объектам (город) весят больше, чем по мелким (улица).

Практика

Best practices (это мы делаем)

Рекомендации направлены на оптимизацию Local SEO и Google Business Profile (GBP).

Работа над известностью (Prominence / Feature Rank): Так как Feature Rank (FR) является прямым множителем в формуле ранжирования, необходимо повышать известность и авторитетность бизнеса. Это включает получение локальных цитирований (NAP), отзывов, локальных обратных ссылок и упоминаний в авторитетных источниках.
Предоставление полного географического контекста: При оптимизации локальных страниц включайте не только точный адрес, но и упоминания района, близлежащих достопримечательностей, ориентиров и административных единиц. Это соответствует структуре Geographic Feature Documents (теги — контекст, — близлежащие объекты) и помогает при неточных запросах.
Включение альтернативных названий и аббревиатур: Если у местоположения есть исторические названия, общепринятые сокращения или локальные способы обозначения, включите их в контент. Это соответствует использованию синонимов (теги ).

Понимание фактора близости (Proximity / SAF): Score Attenuation Factor подтверждает, что близость к точке поиска (или центру Viewport) является мощнейшим фактором ранжирования. Необходимо четко понимать радиус, в котором бизнес конкурентоспособен.

Вопросы и ответы

Важен ли порядок слов в адресе при поиске местоположения?

Нет, система специально разработана так, чтобы не зависеть от порядка слов (Claim 18). Запрос преобразуется в Boolean Expression, где порядок терминов не имеет значения. Это позволяет Google корректно обрабатывать адреса в различных международных форматах и при произвольном вводе пользователя.

Что такое Feature Rank (FR) и как он влияет на Local SEO?

Feature Rank (FR) – это показатель важности или популярности географического объекта. В терминах Local SEO это соответствует Prominence (Известность). FR является прямым множителем в формуле ранжирования. Для его повышения нужно работать над общей авторитетностью бизнеса: получать локальные ссылки, упоминания в СМИ, отзывы и обеспечивать полноту данных в GBP.

Как Google обрабатывает опечатки или ошибки в адресе?

Система обладает высокой устойчивостью к ошибкам (Claims 1 и 2). Geographic Feature Documents заранее включают распространенные опечатки, синонимы и даже названия близлежащих объектов. Это позволяет системе находить правильный объект, даже если в запросе допущена ошибка или указан соседний район.

Что такое Viewport и SAF, и как они объясняют фактор близости (Proximity)?

Viewport — это область карты, которую пользователь видит в данный момент. Score Attenuation Factor (SAF) — это механизм, который динамически корректирует ранжирование: объекты внутри или рядом с Viewport получают повышение (SAF=1), а удаленные — понижение (вплоть до MinScore, например, 0.2). Это техническая реализация фактора близости в локальном поиске.

Стоит ли упоминать на сайте близлежащие ориентиры или районы?

Да, это полезно. Патент указывает, что система индексирует названия близлежащих объектов (Nearby Feature Terms, тег ). Если пользователь ищет ваш бизнес, упоминая соседний район или известный ориентир, система сможет сопоставить запрос с вашим местоположением, используя эти данные как контекст.

Что такое Geographic Feature Document (GFD)?

Это основная единица данных в системе геокодирования. GFD — это структурированный документ, описывающий местоположение (аналог веб-документа для физических локаций). Он содержит название объекта, его контекст (город, страна), близлежащие ориентиры, синонимы, варианты написания и точные координаты.

В чем разница между Element Mass и Token Mass в скоринге?

Token Mass зависит от типа слова в запросе (например, обычное слово весит больше, чем синоним или суффикс «улица»). Element Mass зависит от того, в каком поле документа найдено совпадение (например, совпадение с основным названием места весит больше, чем совпадение с названием близлежащего ориентира) и от типа объекта (город весит больше улицы).

Как система обрабатывает адреса с номерами домов?

На этапе нормализации номера домов часто удаляются для идентификации основного объекта (улицы). После идентификации объекта система использует дополнительную информацию (Supplemental Information), содержащую диапазоны номеров домов для сегментов улицы. Точные координаты для конкретного номера вычисляются с помощью интерполяции.

Как система решает, показать один результат или список вариантов?

Система анализирует оценки ранжирования (Scores). Если лучший результат значительно превосходит следующий (превышает пороговый множитель), система уверена в ответе и показывает один результат. Если несколько результатов имеют близкие оценки, система считает запрос неоднозначным и предоставляет пользователю список или карту с несколькими метками.

Как патент учитывает разные языки и форматы адресов?

Патент упоминает включение синонимов на иностранных языках в Geographic Feature Documents (например, England, Angleterre). Кроме того, независимость от порядка слов и использование «общих синонимов» (например, affix_keyword для Rue, Street, Улица) позволяют системе адаптироваться к различным структурам адресов в разных странах.