Патент Google, раскрывающий фундаментальные механизмы геокодирования и извлечения адресов. Система преобразует текстовые описания мест в точные координаты, используя «Массу Локации» (количество адресов в регионе) для оценки значимости. При наличии «Гео-подсказки» (например, местоположения пользователя) система отдает приоритет ближайшим результатам. Также описан процесс автоматического извлечения адресов с веб-страниц.
Описание
Какую задачу решает
Патент решает фундаментальную проблему преобразования неоднозначных, человекочитаемых описаний местоположений в точные, машиночитаемые географические идентификаторы (например, координаты широты/долготы). Эта задача включает два основных процесса:
- Геокодирование (Geocoding): Интерпретация локаций в поисковых запросах (например, «пицца в Спрингфилде»).
- Извлечение Адресов (Address Extraction): Идентификация локаций в тексте веб-страниц для привязки контента к географической области.
Система разработана для обработки опечаток, различных международных стандартов адресации и разрешения географической неоднозначности.
Что запатентовано
Запатентована система для геокодирования и извлечения адресов, основанная на централизованном репозитории (Location Repository). Ключевым элементом является механизм скоринга для разрешения неоднозначностей. Он использует метрику Mass of Location (Масса Локации), представляющую значимость локации (количество вложенных адресов), и, опционально, Hint (Подсказку) – контекстную информацию о местоположении пользователя.
Как это работает
Система нормализует и токенизирует входной текст. Токены сопоставляются с записями в Location Repository. Если точное совпадение не найдено, используется стратегия Back-off: токены удаляются для поиска более общих совпадений. При наличии нескольких кандидатов они ранжируются. Без контекста пользователя предпочтение отдается локациям с большей Mass (например, город важнее улицы). Если доступна Hint (например, GPS пользователя), система использует формулу, балансирующую Mass и близость к Hint, отдавая приоритет ближайшим результатам.
Актуальность для SEO
Высокая. Геокодирование и извлечение адресов являются фундаментом для Google Maps, Local Search (Local Pack) и понимания локального интента в основном поиске. Принципы использования значимости локации (Mass) и контекста пользователя (Hint) остаются центральными для предоставления релевантных локальных результатов в 2025 году.
Важность для SEO
Патент имеет критическое значение для локального SEO (Local SEO) (8.5/10). Он описывает, как именно Google интерпретирует адреса на сайтах (Address Extraction) и как он понимает локационный интент в запросах (Geocoding). Понимание этих механизмов критически важно для обеспечения корректного извлечения NAP (Name, Address, Phone) и оптимизации под локальное ранжирование, где близость к пользователю (Hint) часто является решающим фактором.
Детальный разбор
Термины и определения
- Address Extraction / Location Extraction (Извлечение адресов/локаций)
- Процесс анализа документа (например, веб-страницы) для идентификации текстовых строк, которые являются адресами, и последующей привязки к ним географических координат.
- Back-off Strategy (Стратегия отступления)
- Метод обработки неточных запросов. Если совпадение не найдено, система упрощает запрос, рекурсивно удаляя токены и проверяя перестановки (permutations), чтобы найти более общее совпадение.
- Compact Repository (Компактный репозиторий)
- Оптимизированная версия основного репозитория, используемая для быстрой предварительной проверки гипотез при Address Extraction. Может быть реализован как фильтр Блума (Bloom filter) для биграмм токенов.
- Geocoding (Геокодирование)
- Процесс преобразования текстового описания местоположения в географические координаты.
- Hint (Подсказка) / Query-independent geographical indication
- Географическая информация, не зависящая от текста запроса. Используется для разрешения неоднозначности. Примеры: текущее местоположение устройства (GPS), видимая область карты (bounding box) на экране, регион интернет-домена пользователя.
- Location Document (Документ локации)
- Запись в репозитории, описывающая уникальное местоположение. Включает ID, адрес, структурированный адрес (structured_address), Mass of Location и географический идентификатор.
- Mass of Location (Масса Локации)
- Ключевая метрика значимости или размера локации. Определяется как приблизительное количество точечных адресов (point addresses), содержащихся в данной локации. Например, у города Mass больше, чем у улицы.
- Tokenizer (Токенизатор)
- Компонент, который принимает текст, нормализует его и разбивает на отдельные адресные компоненты (токены).
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает базовый метод геокодирования с использованием Mass of Location.
- Система получает запрос и идентифицирует токены.
- Выполняется запрос к Location Repository для поиска соответствующих Location Documents.
- Каждый документ имеет Mass of Location, определенную как приблизительное количество точечных адресов в этой локации.
- Если найдено более одного документа, система использует Mass of Location для их оценки (Scoring) и выбора лучшего.
- Система возвращает локацию выбранного документа.
Ядро изобретения — использование метрики Mass (количества вложенных адресов) как фактора ранжирования результатов геокодирования для разрешения неоднозначностей.
Claim 2, 3 (Зависимые): Добавляют использование контекстной информации (Hint).
- Система получает query-independent geographical indication (Подсказку) вместе с запросом и использует ее для скоринга.
- Источником подсказки может быть местоположение устройства, видимая область карты или регион домена.
Claim 4 (Зависимый от 2): Детализирует формулу скоринга с использованием Hint.
- Скоринг включает определение отношения (ratio) Mass of Location документа к расстоянию между Hint (подсказкой) и локацией документа.
Это подтверждает, что предпочтение отдается комбинации высокой важности (Mass) и близости к пользователю (малое расстояние).
Claim 5 (Зависимый от 1): Описывает механизм рекурсивного запроса (Back-off).
- Запрос к репозиторию включает рекурсивный запрос с использованием меньшего количества токенов до тех пор, пока не будет найдено совпадение.
Claims 6-9 (Зависимые): Детализируют механизм Back-off и взвешивания.
- Система проверяет перестановки (permutations) токенов с одним удаленным токеном (Claim 6), а затем с двумя (Claim 7).
- Каждая перестановка взвешивается (Claim 8). Вес назначается токенам на основе их содержания и позиции в запросе (Claim 9). Это позволяет штрафовать результаты, полученные путем удаления важных токенов.
Где и как применяется
Патент затрагивает несколько ключевых этапов поисковой архитектуры, являясь основой для локального поиска.
INDEXING – Индексирование и извлечение признаков
- Извлечение Адресов (Address Extraction): Механизм используется для анализа контента веб-страниц. Система извлекает адреса из текста, геокодирует их и ассоциирует полученные географические данные (Geodata) с документом.
- Построение Репозитория: Офлайн-процесс создания Location Repository и расчета Mass of Location для всех локаций путем агрегации вложенных адресов.
QUNDERSTANDING – Понимание Запросов
- Парсинг Запроса (QL/LQ): Система определяет, какая часть запроса относится к локации (L), а какая к объекту поиска (Q), путем идентификации самой длинной последовательности токенов, соответствующей записи в Location Repository.
- Геокодирование: Локационная часть (L) обрабатывается для определения точных координат. Механизмы скоринга (Mass и Hint) используются здесь для разрешения неоднозначностей в реальном времени.
RANKING – Ранжирование
- Выходные данные этого процесса (точное понимание локации пользователя/запроса и локаций документов) являются критически важными входными сигналами для алгоритмов локального ранжирования (Local Ranking).
На что влияет
- Конкретные типы контента: Страницы локальных бизнесов, каталоги организаций, недвижимость. Любой контент, содержащий адреса.
- Специфические запросы: Запросы с локальным интентом (Local Intent Queries), как явным («ресторан Тверская»), так и неявным (например, «пицца», где система использует Hint для локализации выдачи).
- Языковые и географические ограничения: Система разработана с учетом международных различий в адресации (упоминаются Япония, Германия, США) и языков.
Когда применяется
- При индексировании: При сканировании документа для извлечения связанной с ним локационной информации (Address Extraction).
- При обработке запроса: При попытке идентифицировать и геокодировать локационную информацию в запросе пользователя.
- Триггеры активации скоринга: Механизмы Mass и Hint активируются, когда геокодирование находит более одного потенциального совпадения (неоднозначность).
- Триггеры активации Back-off: Активируется, когда для исходного набора токенов не найдено ни одного совпадения.
Пошаговый алгоритм
Процесс А: Геокодирование запроса (Geocoding)
- Получение ввода: Система получает запрос и, опционально, Hint (например, местоположение пользователя).
- Нормализация и Редукция: Запрос очищается (удаление пунктуации, обработка аббревиатур).
- Токенизация: Очищенный запрос разбивается на токены. Генерируются варианты токенов (например, «Стрит» -> «Ст»).
- Поиск совпадений: Система ищет Location Documents, содержащие все токены (допуская пропуск некоторого числа токенов репозитория).
- Проверка и Back-off:
- Если совпадений нет, активируется Back-off: создаются перестановки токенов за вычетом одного (затем двух) токенов. Поиск повторяется.
- Скоринг совпадений: Найденные совпадения (если их несколько) оцениваются.
- Если Hint НЕТ: Ранжирование по Mass of Location (большая масса выше).
- Если Hint ЕСТЬ: Ранжирование по комбинации Mass и близости к Hint. Формула, приведенная в патенте: Score = , где C — константа.
- Если использовался Back-off, применяется взвешивание на основе важности удаленных токенов.
- Возврат результата: Возвращается лучший результат (координаты).
Процесс Б: Извлечение адресов из документа (Address Extraction)
- Подготовка: Система использует Compact Repository (например, фильтр Блума для биграмм) для быстрой локальной проверки.
- Токенизация документа: Текст документа токенизируется.
- Поиск Гипотез: Система сканирует последовательности токенов (например, A B C) и проверяет, существуют ли пары (AB и BC) в Compact Repository.
- Генерация и Уточнение последовательности (Grow/Shrink): Если гипотеза подтверждена, система пытается найти максимально длинную последовательность токенов, которая дает совпадение в основном Location Repository, путем добавления (Grow) или удаления (Shrink) токенов с концов последовательности.
- Ассоциация Геоданных: Для наилучшего совпадения извлекаются геоданные, которые ассоциируются с исходным документом.
Какие данные и как использует
Данные на входе
- Контентные факторы: Текст веб-страниц (для извлечения адресов) и текст поисковых запросов (для геокодирования), включая адреса, названия мест, индексы.
- Пользовательские и Географические факторы (Hint):
- Текущее местоположение устройства (GPS, IP-адрес, данные сотовой сети).
- Видимая область карты (bounding box) на экране пользователя.
- Регион, соответствующий интернет-домену пользователя.
Какие метрики используются и как они считаются
- Mass of Location (Масса локации): Предварительно рассчитанная метрика. Рассчитывается офлайн путем агрегации количества точечных адресов, содержащихся внутри границ локации.
- Distance (Расстояние): Рассчитывается в реальном времени между координатами Hint и координатами результата.
- Score (Оценка): Используется для ранжирования результатов геокодирования.
- Без Hint: Score ≈ Mass.
- С Hint: Score = .
- Token Weights (Веса токенов): Используются в механизме Back-off. Веса зависят от типа контента (например, числа весят больше) и позиции в запросе. Используются для штрафования результатов, полученных из перестановок.
Выводы
- Фундамент Локального Поиска: Патент описывает базовую инфраструктуру Google для понимания географии: как интерпретируются запросы (Геокодирование) и как интерпретируется контент (Извлечение адресов).
- Разрешение неоднозначностей (Mass vs. Proximity): Google использует четкую иерархию для разрешения географических неоднозначностей:
- По умолчанию предпочтение отдается более важным/крупным локациям (высокая Mass).
- Если известно местоположение пользователя (Hint), система балансирует важность (Mass) и близость (Distance), часто отдавая приоритет близости.
- Извлечение адресов требует точности: Механизм извлечения основан на поиске максимально длинной последовательности токенов, соответствующей известной локации. Это подчеркивает важность предоставления полных и непротиворечивых адресных данных (NAP) на сайте.
- Обработка ошибок (Back-off): Система устойчива к ошибкам и неполным данным в адресах, но использование Back-off (удаление токенов для поиска совпадения) может привести к менее точной интерпретации и штрафуется при ранжировании.
- Локация как Сущность: Google рассматривает местоположения как структурированные сущности (Location Documents) с предварительно рассчитанными атрибутами (Mass, structured_address).
Практика
Best practices (это мы делаем)
- Обеспечение идеальной консистентности NAP: Убедитесь, что Название, Адрес и Телефон (NAP) компании абсолютно идентичны на сайте и во всех внешних источниках (Google Business Profile, каталоги). Это критически важно для корректного Address Extraction.
- Использование полных и текстовых адресов: Всегда указывайте адрес полностью (включая индекс и страну) в текстовом формате, доступном для сканирования. Механизм извлечения ищет максимально длинное совпадение. Избегайте размещения адресов в изображениях.
- Структурирование адресных данных (Schema.org): Используйте микроразметку (LocalBusiness, PostalAddress). Хотя патент описывает извлечение из неструктурированного текста, предоставление структурированных данных помогает избежать ошибок токенизации и извлечения.
- Локализация контента: При создании контента четко указывайте географическую привязку. Если вы упоминаете неоднозначное название места, добавляйте уточняющие токены (например, название города или региона), чтобы помочь системе выбрать правильную локацию.
- Оптимизация под мобильный контекст (Hint): Помните, что для мобильных пользователей Google почти всегда использует Hint (местоположение). Это означает, что близость становится решающим фактором. Стратегия должна фокусироваться на обеспечении релевантности бизнеса для пользователей поблизости.
Worst practices (это делать не надо)
- Неоднозначные или неполные адреса: Использование названий улиц без указания города или использование только локальных названий районов. Система может неверно извлечь адрес или связать страницу с неправильной локацией (например, с той, у которой больше Mass).
- Противоречивые адресные данные: Указание разных адресов или разных форматов одного адреса на одной странице может запутать экстрактор.
- «Накачка» адресов ключевыми словами: Добавление лишних ключевых слов в строку адреса может нарушить токенизацию и привести к активации Back-off Strategy, что снижает точность геокодирования.
- Спам локациями (Location Stuffing): Перечисление множества городов, где бизнес не имеет присутствия. Патент фокусируется на извлечении конкретных, верифицируемых адресов, а не просто наборе географических ключевых слов.
Стратегическое значение
Этот патент подчеркивает, что точное понимание географии является краеугольным камнем локального поиска. Стратегически, это подтверждает необходимость рассматривать Local SEO как дисциплину, требующую абсолютной точности данных (NAP). Приоритет Mass объясняет, почему иногда сложно ранжироваться по названиям небольших населенных пунктов, если существует более крупный одноименный объект. Приоритет Hint объясняет высокую волатильность локальной выдачи в зависимости от точки, из которой задается запрос.
Практические примеры
Сценарий 1: Разрешение неоднозначности в запросе (Mass vs Hint)
- Запрос: Пользователь ищет «Спрингфилд». В США много городов с таким названием.
- Анализ: Система геокодирования находит несколько кандидатов.
- Применение (Без Hint): Местоположение неизвестно. Система ранжирует кандидатов по Mass. Спрингфилд, Иллинойс (столица штата, высокая Mass) будет выбран.
- Применение (С Hint): Пользователь находится в Массачусетсе. Система использует формулу . Спрингфилд, Массачусетс, окажется ближе (Distance меньше) и будет выбран.
Сценарий 2: Извлечение адреса с сайта (Address Extraction)
- Контент сайта: «Наш офис на ул. Строителей, д. 25. Лучшая пицца в городе!». Город не указан.
- Анализ: Система токенизирует: [ул] [строителей] [д] [25]. Система не может найти достаточно длинную и уникальную последовательность в репозитории.
- Результат: Адрес не извлечен, сайт не ранжируется в локальном поиске.
- SEO Действие: Изменить текст на: «Наш офис в Москве: ул. Строителей, д. 25, 119311». Это обеспечивает длинную последовательность токенов ([Москва] [ул] [строителей] [д] [25] [119311]) для точного извлечения и геокодирования.
Вопросы и ответы
Что такое «Mass of Location» (Масса локации) и почему это важно для SEO?
Mass of Location — это метрика, определяющая значимость или размер географического объекта на основе количества содержащихся в нем точечных адресов. Это важно для SEO, потому что при обработке неоднозначных запросов (например, два города с одинаковым названием) Google по умолчанию предпочтет объект с большей Mass, если нет других сигналов.
Что такое «Hint» (Подсказка) и как он влияет на локальный поиск?
Hint — это контекстная информация о местоположении пользователя (например, GPS-координаты телефона или IP-адрес). При наличии Hint система меняет логику скоринга: она балансирует между Mass и близостью (Distance) к Hint. Это основа мобильного локального поиска, где результаты сильно зависят от того, где именно находится пользователь.
Что важнее для разрешения неоднозначности: Mass или Hint?
Hint (контекст пользователя) обычно важнее. Формула скоринга, описанная в патенте (отношение Mass к Distance), показывает, что малое расстояние до Hint может компенсировать низкую массу. Mass of Location становится решающим фактором, когда Hint отсутствует или слишком широк (например, на уровне страны).
Как работает механизм «Back-off» и что он означает для оптимизации?
Механизм Back-off активируется, если система не находит точного совпадения для адреса. Система начинает удалять токены (например, номер офиса или дома) и повторять поиск. Для SEO это означает, что Google попытается интерпретировать даже неполные данные, но точность и полнота адреса критически важны для обеспечения наилучшего результата без применения штрафов, связанных с Back-off.
Как система извлекает адреса из текста веб-страницы (Address Extraction)?
Система сканирует текст страницы, разбивая его на токены. Она ищет последовательности токенов, которые могут представлять собой адрес, используя быструю проверку по компактному репозиторию (Compact Repository). Затем она пытается найти максимально длинную последовательность токенов, которая соответствует известной локации в основном репозитории (алгоритм Grow/Shrink).
Учитывает ли эта система микроразметку адресов (Schema.org)?
Патент фокусируется на извлечении адресов из неструктурированного текста и не упоминает микроразметку. Однако использование микроразметки является лучшей практикой, так как оно предоставляет системе уже структурированные данные, что снижает вероятность ошибок при токенизации и извлечении, описанных в патенте.
Как система определяет, какая часть запроса является адресом, а какая – услугой?
Патент описывает механизм Query Parsing. Система итеративно перемещает точку разделения в токенезированном запросе и проверяет, является ли одна из частей валидным адресом в Location Repository. Самая длинная строка токенов, распознанная как адрес (L), считается локационной частью запроса, остальное — объектом поиска (Q).
Как система обрабатывает адреса на разных языках или в разных форматах?
Система использует нормализацию и токенизацию, адаптированную под разные языки и форматы адресации (упоминаются Япония, Германия и др.). Также используется концепция «Вариантов» (Variants) – известных альтернативных написаний для компонентов адреса (например, «Street» и «St.»), что позволяет распознавать адреса независимо от их формата.
Как обеспечить максимальную точность Address Extraction для моего сайта?
Необходимо использовать полные, точные и консистентные адреса (NAP) в текстовом формате. Адрес должен быть представлен в стандартном для вашего региона формате, чтобы система могла корректно его токенизировать. Использование индекса, города, области и страны значительно снижает неоднозначность и помогает системе точно верифицировать адрес.
Если у моего бизнеса несколько филиалов, как обеспечить корректное геокодирование каждого?
Необходимо создать отдельную посадочную страницу для каждого филиала. На этой странице должен быть четко указан уникальный NAP этого филиала. Убедитесь, что механизм Location Extraction может однозначно извлечь и верифицировать адрес именно этого филиала и связать его с соответствующей страницей, не путая с адресами других филиалов.