Как Google объединяет данные Желтых Страниц, сторонних карт и веб-документов для локального поиска в регионах со сложной адресацией

Google использует систему для локального поиска, которая интегрирует данные из разных источников: Желтых Страниц, сторонних поставщиков карт и веб-документов. Патент описывает процессы геокодирования неструктурированных адресов (особенно в CJK регионах), кластеризации бизнес-информации, извлечения данных о компаниях из веба и расширения запросов синонимами для улучшения результатов локального поиска.

Описание

Какую задачу решает

Патент решает проблему предоставления точных и полных результатов локального поиска в условиях, когда источники данных разрознены, имеют низкое качество, плохо структурированы или ограничены регуляциями. В частности, он фокусируется на интеграции данных Yellow Page data (Желтые Страницы), Third-party map provider data (данные сторонних поставщиков карт) и Document data (веб-документы) в регионах (таких как Китай и другие CJK страны, упомянутые в описании), где точные координаты (широта/долгота) могут быть недоступны или адреса не имеют четкого формата.

Что запатентовано

Запатентована система и метод для интеграции, геокодирования, индексирования и извлечения локальной информации из множества разнородных источников. Ядром изобретения является процесс обработки неточных адресов с использованием техник парсинга (например, longest matching prefix), присвоения уровней точности (exact position vs approximate position), кластеризации информации о бизнесе из разных источников и агрессивного расширения локальных запросов с помощью синонимов для максимизации полноты выдачи (recall).

Как это работает

Система работает в несколько этапов:

Сбор данных: Получение данных из Желтых Страниц, от поставщиков карт и из веб-документов.
Геокодирование: Обработка адресов для определения географического положения. Используется многоступенчатый парсинг: определение города/района, затем поиск самого длинного совпадающего префикса (longest matching prefix) для улиц или POI (точек интереса).
Индексирование и Кластеризация: Извлечение информации о бизнесе (Business Information Extraction) из веб-документов и объединение (Clustering) ее с данными Желтых Страниц и Карт для создания полных профилей. Адреса индексируются с меткой точности.
Обработка запроса: Локальный запрос пользователя переписывается (Query Rewriting) с добавлением синонимов, соединенных оператором OR.
Поиск и Отображение: Генерация локальных результатов и запрос карты у стороннего поставщика с передачей идентификаторов (POI ID) для отображения точек.

Актуальность для SEO

Средне-высокая. Базовые принципы, описанные в патенте (интеграция данных из разных источников, извлечение информации из веба, кластеризация, обработка неточных адресов, расширение запросов), остаются фундаментальными для Локального Поиска и Google Maps. Однако конкретные технические реализации, такие как использование iframe для сторонних карт или специфические методы обработки CJK языков, вероятно, значительно эволюционировали с момента подачи заявки в 2006 году.

Важность для SEO

Патент имеет значительное влияние на стратегии Локального SEO (Local SEO). Он детально описывает, как Google извлекает, интерпретирует и объединяет данные о бизнесе. Это подчеркивает критическую важность консистентности NAP (Name, Address, Phone) во всех источниках, необходимость использования четко структурированных адресов для точного геокодирования и понимание того, как Google может извлекать информацию о компании непосредственно с веб-сайтов.

Детальный разбор

Термины и определения

Address Fingerprint (FP) (Отпечаток адреса): Идентификатор (например, хеш-значение), сгенерированный на основе адреса. Используется для сопоставления адреса с POI ID для отображения на карте.
Approximate Position (Приблизительное положение): Метка точности для адресов, которые удалось геокодировать только до уровня города или района. В патенте указано, что такие результаты могут пессимизироваться при ранжировании.
Business Information Extractor (Извлекатель бизнес-информации): Компонент индексатора, который извлекает информацию о компании (например, адрес, телефон) из веб-документов, используя статистические модели или другие техники.
Clustering (Кластеризация): Процесс объединения данных из Желтых Страниц и данных Карт. Используется для слияния точных координат (из Карт) с детальной информацией (из Желтых Страниц).
Exact Position (Точное положение): Метка точности для адресов, которые удалось геокодировать до уровня здания или улицы.
Geocoder (Геокодер): Система, которая обрабатывает текстовые адреса и присваивает им географические идентификаторы (координаты или POI ID).
Longest Matching Prefix Locator (Локатор самого длинного совпадающего префикса): Компонент геокодера, который итеративно ищет самую длинную последовательность токенов в строке адреса, совпадающую с известными списками адресов, для идентификации частей адреса (улица, деревня, здание и т.д.).
POI (Point of Interest) (Точка интереса): Конкретное местоположение (бизнес, парк, здание и т.д.), которое пользователи могут искать.
POI ID (Идентификатор POI): Уникальный идентификатор, присвоенный POI поставщиком карт. Используется для запроса отображения точки на карте.
Query Rewriting (Переписывание запроса): Процесс расширения исходного запроса путем добавления синонимов, часто соединенных оператором OR, для увеличения полноты выдачи (recall).
Third-Party Map Provider Data (Данные стороннего поставщика карт): Данные о местоположениях, POI ID и API для отображения карт, полученные от внешней организации.
Yellow Page Data (Данные Желтых Страниц): Структурированные данные о бизнесе (название, адрес, телефон, категория и т.д.), полученные от агрегаторов.

Ключевые утверждения (Анализ Claims)

Многие пункты формулы изобретения были удалены (отмечены как 삭제/삭제) в процессе регистрации патента. Анализ фокусируется на оставшихся ключевых независимых пунктах (11, 44, 45).

Claim 11 (Независимый пункт): Описывает метод геокодирования на основе локального поискового запроса.

Система получает данные сторонних карт и Желтых Страниц.
Генерируется адрес на основе запроса и полученных данных.
Адрес парсится (разбирается).
Выполняется поиск longest matching prefix внутри адреса для идентификации его частей.
Выполняется поиск комбинации частей адреса для его верификации.

Ключевым моментом является то, что этап «Генерации адреса» (Шаг 2) включает в себя целый подпроцесс обработки запроса:

Генерация списка синонимов, связанных с запросом.
Переписывание (Query Rewriting) запроса на основе синонимов для создания расширенного запроса.
Генерация локальных результатов поиска на основе расширенного запроса.
Получение карты от стороннего поставщика на основе результатов.
Генерация рекламы на основе географической информации, связанной с результатами.

Claims 16 и 17 (Зависимые от 11): Вводят концепцию точности индексации. Если адрес содержит часть, относящуюся к зданию или улице, он индексируется как exact position. Если только город или район — как approximate position.

Claim 26 (Зависимый от 11): Уточняет, что переписывание запроса включает объединение поисковых терминов с использованием операнда OR.

Claims 44 и 45 (Независимые пункты): Описывают систему (44) и метод (45) для обработки локального запроса. Они очень похожи и фокусируются на интеграции со сторонними картами и обработке запроса.

Идентификация местоположения, связанного с локальным запросом.
Идентификация локальных результатов поиска. Этот шаг включает: генерацию синонимов, переписывание запроса в расширенный запрос и генерацию результатов из него.
Идентификация идентификатора (POI ID) для каждой группы результатов.
Предоставление идентификаторов стороннему поставщику карт.
Получение карты от поставщика, на которой отмечены местоположения результатов.

Где и как применяется

Изобретение охватывает почти все этапы обработки локального поиска, от индексирования до отображения результатов.

INDEXING – Индексирование и извлечение признаков
Основной этап работы системы.

Обработка данных: Yellow Page Data Preprocessor нормализует данные Желтых Страниц.
Извлечение (Extraction): Business Information Extractor активно извлекает NAP (Name, Address, Phone) из веб-документов.
Геокодирование: Geocoder анализирует адреса (используя Longest Matching Prefix) и присваивает географические идентификаторы и метки точности (Exact/Approximate).
Кластеризация (Data Fusion): Clusterer объединяет данные из всех источников (Карты, Желтые Страницы, Веб) для создания полных профилей POI.
Индексация: Данные сохраняются в Index/Document Repository.

QUNDERSTANDING – Понимание Запросов
На этом этапе происходит интерпретация локального интента.

Переписывание запроса: Query Rewriter генерирует списки синонимов для категорий и расширяет запрос пользователя с помощью оператора OR для максимизации полноты.

RANKING – Ранжирование

Определение радиуса: Distance Flattener устанавливает радиус поиска в зависимости от типа местоположения (точка или область).
Ранжирование: Результаты с меткой Approximate Position могут быть пессимизированы (обрабатываются как находящиеся далеко от центра).

METASEARCH / RERANKING – Метапоиск и Переранжирование

Генерация карты: Map Generator использует Address Fingerprints для поиска POI ID и взаимодействует со сторонним поставщиком карт для отображения результатов (например, через iframe).
Генерация рекламы: Geographic Information Generator предоставляет данные (региональные коды или конкатенацию ключевых слов и местоположения) для рекламного сервера.

На что влияет

Типы контента: В первую очередь влияет на локальные результаты поиска (Local Pack, Google Maps), профили компаний (POI), страницы с адресами и контактной информацией.
Специфические запросы: Локальные запросы (коммерческие и информационные с географической привязкой).
Географические ограничения: Патент специально разработан для работы в регионах со сложными или неструктурированными адресными системами (упоминаются CJK – Китай, Япония, Корея) или там, где данные ограничены регуляциями.

Когда применяется

Триггеры активации: При обнаружении локального поискового запроса или при индексации документов, содержащих географическую информацию или данные о бизнесе.
Условия работы: Система геокодирования активируется всякий раз, когда необходимо преобразовать текстовый адрес в географический идентификатор. Процесс кластеризации запускается при обновлении источников данных. Переписывание запроса происходит в реальном времени при локальном поиске.

Пошаговый алгоритм

Процесс А: Индексирование и Геокодирование (Офлайн)

Сбор и Нормализация: Получение данных Желтых Страниц, Карт и Веб-документов. Нормализация Желтых Страниц в общий формат.
Извлечение Бизнес-информации: Анализ веб-документов для извлечения NAP с использованием статистических моделей. Сохранение в репозитории.
Генерация Списка Адресов (Токенизация): Создание списка известных адресных токенов (улицы, районы, POI) из данных Карт и Желтых Страниц.
Геокодирование адреса (детальный разбор):
1. Парсинг: Попытка определить город и район с начала строки адреса.
2. Поиск Longest Matching Prefix: Итеративный поиск самой длинной совпадающей последовательности в оставшейся части адреса по списку токенов (обработка ключевых слов типа «Улица», «Дом», «Деревня»).
3. Поиск Комбинации: Определение наилучшей комбинации найденных частей, приоритизируя наиболее специфичные элементы (Название POI > Улица/Дом > Район > Город).
Присвоение Точности: Если найден уровень здания/улицы – маркировка Exact Position. Если только город/район – маркировка Approximate Position.
Кластеризация: Объединение записей из разных источников, относящихся к одному и тому же бизнесу, для слияния точных координат и детальной информации.
Индексация: Сохранение обработанных данных, включая Address Fingerprints и POI ID. Использование байтовых смещений для подсветки сниппетов (Snippet Highlighter).

Процесс Б: Обработка Запроса и Поиск (Онлайн)

Получение запроса: Пользователь вводит локальный запрос.
Переписывание запроса (Query Rewriting): Генерация синонимов для терминов запроса (особенно категорий бизнеса). Расширение запроса путем соединения синонимов оператором OR.
Геокодирование запроса: Определение местоположения пользователя или местоположения в запросе.
Установка радиуса поиска (Distance Flattening): Определение радиуса поиска (например, 5 км для точки или радиус области для города/района).
Поиск и Ранжирование: Выполнение расширенного запроса. Применение штрафов к результатам с Approximate Position.
Генерация карты: Поиск POI ID для топовых результатов с использованием Address Fingerprints. Формирование запроса к стороннему поставщику карт (например, через iframe и POST action) с передачей POI ID и меток точности.
Отображение результатов: Предоставление пользователю списка результатов и карты с маркерами (возможно, разного цвета для точных и приблизительных местоположений).

Какие данные и как использует

Данные на входе

Контентные и Структурные факторы (Yellow Page Data): Название компании, адрес (структурированный: город, район, улица, дом), телефон, email, факс, описание бизнеса, категории (например, SIC коды).
Технические и Географические факторы (Map Provider Data): POI ID, адреса POI, индексы сетки (grid index, если точные координаты недоступны), центры улиц, центры почтовых индексов.
Контентные факторы (Web Document Data): Неструктурированный текст веб-страниц, из которого извлекаются адреса и телефоны.
Пользовательские факторы: IP-адрес пользователя может использоваться для определения местоположения при генерации рекламы.

Какие метрики используются и как они считаются

Geocoding Accuracy (Точность геокодирования): Дискретная метрика с уровнями Exact Position (здание/улица) и Approximate Position (город/район). Определяется на основе того, какие компоненты адреса удалось распознать.
Search Radius (Радиус поиска): Вычисляется компонентом Distance Flattener. Для точечных местоположений – фиксированное значение (например, 5 км). Для областей (город/район) – расстояние от центра до угла области.
Confidence Score (Оценка уверенности): Используется при извлечении бизнес-информации из веб-документов. Статистические модели определяют вероятность того, что данный текст является названием или телефоном компании.
Address Fingerprint (FP): Хеш-значение адреса, используемое для быстрого поиска POI ID.
Region Code (Региональный код): Стандартные коды (например, ISO-3166-2), используемые для таргетинга рекламы.

Выводы

Интеграция данных (Data Fusion) критична для локального поиска: Google не полагается на один источник. Система активно объединяет (Clustering) структурированные данные (Желтые Страницы, Карты) и неструктурированные данные (Веб) для создания наиболее полного профиля бизнеса.
Точность адреса влияет на ранжирование: Система явно разделяет Exact Position и Approximate Position. В патенте указано, что приблизительные местоположения обрабатываются так, как если бы они находились далеко от центра поиска, что подразумевает пессимизацию в ранжировании.
Активное извлечение NAP из Веба: Компонент Business Information Extractor показывает, что Google использует сложные методы (статистические модели, классификаторы) для извлечения адресов и телефонов непосредственно из текста веб-страниц, не полагаясь только на микроразметку.
Агрессивное расширение локальных запросов: Для борьбы с разнообразием формулировок и названий категорий Google использует Query Rewriting с добавлением синонимов через оператор OR. Это направлено на максимизацию полноты выдачи (recall).
Адаптивность к неидеальным данным: Весь патент сфокусирован на решении проблем, связанных с неточными, неполными или ограниченными данными (особенно в контексте CJK). Техники вроде Longest Matching Prefix предназначены для извлечения максимума из плохо структурированных адресов.

Практика

Best practices (это мы делаем)

Обеспечение абсолютной консистентности NAP: Поскольку система использует Clustering для слияния данных из разных источников (Желтые Страницы, Карты, Веб-сайт), любая неконсистентность в названии, адресе или телефоне может помешать правильной кластеризации и снизить уверенность системы в данных.
Использование четкой иерархической структуры адреса: Для успешного геокодирования и получения метки Exact Position адрес должен быть максимально полным и структурированным (Страна, Город, Район, Улица, Дом, Здание). Это помогает компонентам Parser и Longest Matching Prefix Locator корректно разобрать адрес.
Оптимизация контента для извлечения (Extraction): Размещайте NAP на веб-сайте в текстовом формате, в явном виде и в ожидаемых местах (футер, страница контактов). Business Information Extractor использует контекст вокруг адреса и телефона для определения достоверности.
Использование синонимов для категорий бизнеса: Так как система использует Query Rewriting и расширяет запросы синонимами категорий, важно использовать разнообразные и релевантные описания деятельности компании на сайте и в профилях Google Business Profile.

Worst practices (это делать не надо)

Использование неточных или приблизительных адресов: Указание только города или района для бизнеса с физической точкой приведет к получению метки Approximate Position и потенциальной пессимизации в локальном поиске.
Различия в данных (Citations) в разных источниках: Наличие разных адресов или телефонов в разных каталогах (Желтых Страницах) и на сайте затруднит работу Clusterer.
Размещение NAP только в изображениях: Это делает невозможным или крайне затруднительным извлечение информации для Business Information Extractor.
Использование нестандартных форматов адресов: Сложные или «креативные» форматы адресов могут привести к ошибкам в работе Geocoder, основанного на поиске совпадений префиксов.

Стратегическое значение

Этот патент подтверждает фундаментальные принципы Локального SEO. Он демонстрирует, что в основе локального поиска лежит сложный процесс сбора, нормализации и слияния данных. Для Google Maps и Local Pack критически важна не столько оптимизация под ключевые слова, сколько точность, полнота и консистентность базовых данных о бизнесе (NAP). Стратегия должна фокусироваться на обеспечении того, чтобы система могла легко найти, точно геокодировать и верифицировать информацию о компании из множества источников.

Практические примеры

Сценарий 1: Пессимизация из-за неточного адреса

Ситуация: Два ресторана конкурируют по запросу «ресторан китайской кухни [Название Района]».
Ресторан А: Указал полный адрес (Улица, Дом). Система геокодирует его и присваивает метку Exact Position.
Ресторан Б: Указал только Город и Район. Система геокодирует его и присваивает метку Approximate Position.
Применение патента: Во время ранжирования (согласно описанию YP Data Preprocessor), Ресторан Б обрабатывается как находящийся далеко от центра поиска (например, 20 км), даже если физически он находится близко.
Результат: Ресторан А получает преимущество в ранжировании из-за более высокой точности геокодирования, в то время как Ресторан Б пессимизируется.

Сценарий 2: Улучшение видимости за счет Query Rewriting

Ситуация: Пользователь ищет «кафе» в определенном районе.
Применение патента: Query Rewriter анализирует термин «кафе» и генерирует синонимы: «кофейня», «бистро», «кондитерская».
Расширенный запрос: Система выполняет поиск по запросу (кафе OR кофейня OR бистро OR кондитерская) в данном районе.
Результат: Бизнес, который идентифицирует себя как «кофейня», но не использует термин «кафе», все равно будет показан в результатах поиска, что увеличивает его видимость.

Вопросы и ответы

Как Google определяет точность местоположения бизнеса?

Патент описывает два уровня точности: Exact Position и Approximate Position. Точность определяется в процессе геокодирования. Если система смогла распознать адрес до уровня здания или улицы, присваивается Exact Position. Если только до уровня города или района — Approximate Position. Это зависит от качества и полноты предоставленного адреса.

Влияет ли точность местоположения (Exact vs Approximate) на ранжирование?

Да, влияет. В описании компонента индексации (YP Data Preprocessor) указано, что записи с Approximate Position могут обрабатываться при ранжировании так, как если бы они находились далеко от центра поиска (упоминается пример 20 км). Это является формой пессимизации для неточных данных.

Что такое «Кластеризация» (Clustering) в контексте локального поиска?

Это процесс объединения данных о бизнесе из разных источников. Патент описывает проблему: данные Карт могут иметь точные координаты, но плохие детали (телефон, описание), а данные Желтых Страниц — хорошие детали, но приблизительные координаты. Clusterer объединяет эти записи, чтобы создать единый полный профиль с точными координатами и детальной информацией.

Насколько важна консистентность NAP (Name, Address, Phone) согласно этому патенту?

Критически важна. Консистентность необходима для успешной работы Geocoder (чтобы правильно распознать адрес) и Clusterer (чтобы понять, что записи из разных источников относятся к одному и тому же бизнесу). Неконсистентные данные могут привести к ошибкам геокодирования или дублированию профилей.

Как Google извлекает информацию о бизнесе с моего сайта?

Патент описывает компонент Business Information Extractor. Он анализирует веб-документы, используя различные техники, включая статистические модели и классификаторы, для идентификации текста, который похож на адрес, телефон или название компании. Система оценивает контекст вокруг этих данных для определения достоверности.

Что такое «Longest Matching Prefix» и почему это важно?

Это техника парсинга адреса, используемая геокодером, особенно для плохо структурированных адресов. Система ищет самую длинную последовательность слов в адресе, которая совпадает с известными ей географическими названиями (улицами, районами). Это помогает разобрать адрес на компоненты, даже если он написан не по стандарту.

Как работает переписывание запросов (Query Rewriting) в локальном поиске?

Система определяет ключевые термины в запросе (особенно категории бизнеса) и генерирует для них синонимы. Затем исходный запрос расширяется путем добавления этих синонимов с оператором OR. Например, запрос «автосервис» может быть расширен до (автосервис OR СТО OR ремонт машин). Это увеличивает полноту выдачи.

Патент упоминает Китай и проблемы с данными. Актуально ли это для других регионов?

Да. Хотя патент использует CJK регионы как примеры с неструктурированными адресами и регуляторными ограничениями, описанные принципы (геокодирование неточных адресов, кластеризация данных, извлечение информации из веба) являются универсальными и применяются Google глобально для обработки локальных данных.

Что такое POI ID и Address Fingerprint?

POI ID — это идентификатор точки на карте, предоставленный поставщиком карт. Address Fingerprint — это внутренний идентификатор (хеш), сгенерированный Google на основе текстового адреса. Система использует Address Fingerprint для быстрого поиска соответствующего POI ID, чтобы отобразить результат на карте.

Как устанавливается радиус поиска для локальных запросов?

Компонент Distance Flattener устанавливает радиус в зависимости от типа искомого местоположения. Если ищется конкретная точка (например, здание), радиус фиксированный (например, 5 км). Если ищется область (например, город или район), радиус рассчитывается как максимальное расстояние от центра этой области до ее углов.