Google использует алгоритм для определения точных границ «семантических мест» (магазинов, ресторанов), анализируя агрегированные данные о перемещениях пользователей. Вместо того чтобы полагаться только на GPS, система кластеризует визиты на основе сигналов Wi-Fi и Bluetooth. Это позволяет точно понять, какой бизнес посетил пользователь, и собрать данные о поведении и демографии посетителей.
Описание
Какую задачу решает
Патент решает проблему точной идентификации «семантического местоположения» пользователя (например, в каком конкретно магазине он находится) в условиях неточности датчиков (дрейф GPS, особенно в помещениях) и неполноты или неточности метаданных о физических границах бизнеса (semantic place metadata). Цель — автоматически определять эти границы и ассоциировать данные о поведении и демографии пользователей с конкретными физическими локациями.
Что запатентовано
Запатентована система, которая определяет границы семантических мест и связанные с ними данные путем кластеризации временных рядов отчетов о местоположении (localized segments). Вместо того чтобы полагаться исключительно на координаты GPS, система использует overlap scores (оценки перекрытия), основанные на показаниях датчиков (например, сигналах Wi-Fi и Bluetooth), для группировки посещений одного и того же физического пространства.
Как это работает
Система функционирует путем агрегации и обработки данных о перемещении:
- Сбор данных и Сегментация: Собираются отчеты о местоположении (GPS, Wi-Fi сканы) и разделяются на Localized Segments — периоды, когда устройство оставалось в одной области (визиты).
- Грубая группировка: Сегменты распределяются по грубым географическим областям (Geographic Region Buckets).
- Анализ перекрытия: Идентифицируются потенциальные перекрытия (Clustering Canopies) на основе общих маяков (например, видимость одной и той же Wi-Fi точки). Для этих пар рассчитывается точный Overlap Score на основе схожести паттернов сигналов.
- Иерархическая кластеризация: Используется иерархическая агломеративная кластеризация (HAC) для построения структуры, группирующей схожие визиты в кластеры.
- Определение места: Определение границ семантического места, его названия и связанных данных (включая демографию посетителей) на основе этих кластеров.
Актуальность для SEO
Высокая. Понимание физического мира, точное определение местоположения пользователя и анализ посещаемости (foot traffic) являются критически важными для Google Maps, Локального Поиска, атрибуции рекламы (Store Visits) и персонализированных сервисов в 2025 году. Эта технология является фундаментальной для точного картографирования реального мира на основе поведения пользователей.
Важность для SEO
Патент имеет критическое значение для Локального SEO (Local SEO). Он объясняет механизм, с помощью которого Google формирует понимание физического присутствия, точных границ, популярности и аудитории локального бизнеса. Это напрямую влияет на ключевые факторы локального ранжирования, такие как Близость (Proximity) и Известность (Prominence), а также лежит в основе атрибуции офлайн-конверсий.
Детальный разбор
Термины и определения
- Beacons (Маяки)
- Источники сигналов, используемые для оценки местоположения. Включают точки доступа Wi-Fi (с идентификаторами BSSID), спутники GPS, вышки сотовой связи и Bluetooth-передатчики.
- Clustering Canopy (Кластеризационный навес)
- Предварительная группа Localized Segments в пределах одного Geographic Region Bucket, которые удовлетворяют характеристике потенциального географического перекрытия. Например, все сегменты, в которых наблюдался определенный Wi-Fi BSSID. Используется для оптимизации вычислений.
- Geographic Region Bucket (Бакет географического региона)
- Приблизительная географическая область (например, квадрат на карте города), используемая для первичного распределения Localized Segments.
- Hierarchical Agglomerative Clustering (HAC) (Иерархическая агломеративная кластеризация)
- Алгоритм кластеризации, используемый для генерации иерархической структуры данных (например, Forest Data Structure), где листья соответствуют отдельным Localized Segments, а узлы представляют сгруппированные сегменты.
- Localized Segment (Локализованный сегмент)
- Временной ряд отчетов о местоположении, соответствующий периоду, в течение которого мобильное устройство оставалось в пределах определенной локализованной области (т.е. визит пользователя).
- Location Data Reports (Отчеты о данных местоположения)
- Сырые данные от мобильных устройств, включающие временные метки, оценки координат и показания датчиков (например, Wi-Fi сканы с BSSID и уровнем сигнала RSSI).
- Overlap Score (Оценка перекрытия)
- Метрика, коррелирующая со степенью перекрытия между фактическими географическими областями, покрытыми движением мобильных устройств во время двух разных Localized Segments. Рассчитывается на основе схожести паттернов сигналов маяков.
- Semantic Place Data (Данные семантического места)
- Информация о местоположении, имеющая значение для пользователя. Включает идентификаторы места (Semantic Place Label), категории, геометрию/границы, а также характеристики поведения, демографии или психографики пользователей, посещающих это место.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод определения Semantic Place Data.
- Система получает временные ряды датчиков местоположения от множества различных мобильных устройств.
- Эти временные ряды разделяются на Localized Segments (время, когда устройство находилось в локализованной области).
- Каждый сегмент характеризуется как принадлежащий к одному или нескольким Geographic Region Buckets.
- Внутри каждого бакета идентифицируются Clustering Canopies (группы с потенциальным перекрытием).
- Для групп сегментов, имеющих общий Clustering Canopy, определяется Overlap Score. Эта оценка коррелирует с фактическим перекрытием географических регионов, охваченных движением устройств.
- На основе Overlap Scores генерируется структура данных (иерархическая кластеризация).
- На основе этой структуры данных определяются Semantic Place Data.
Ядро изобретения — это переход от анализа отдельных точек GPS к анализу временных рядов перемещений (сегментов) и использованию кластеризации на основе фактического географического перекрытия (инферированного через датчики и Overlap Scores) для определения семантических мест.
Claim 2 (Зависимый от 1): Определяет состав Semantic Place Data. Это критически важный пункт, указывающий, что выходные данные включают не только метку места или геометрию, но и «одну или несколько характеристик распределения поведения, демографии или психографики пользователей, которые посещают это место». Это подтверждает использование системы для профилирования аудитории локаций.
Claim 5 (Зависимый от 4): Уточняет механизм определения Clustering Canopy. Характеристика потенциального географического перекрытия может включать данные, указывающие на то, что наблюдался определенный идентификатор маяка (beacon identifier), например, общая точка доступа Wi-Fi.
Claim 7 (Зависимый от 1): Указывает, что для генерации структуры данных используется алгоритм иерархической агломеративной кластеризации (HAC).
Где и как применяется
Этот патент относится к инфраструктуре сбора и индексации данных о физическом мире (Google Maps / Local Knowledge Graph), а не к стандартной архитектуре веб-поиска.
CRAWLING – Сканирование и Сбор данных (Data Acquisition)
Мобильные устройства пользователей выступают в роли «краулеров» физического мира. Они непрерывно собирают сырые данные сенсоров (Wi-Fi, GPS, Bluetooth, сотовые данные) и отправляют их в виде Location Data Reports.
INDEXING – Индексирование и извлечение признаков (Feature Extraction & Modeling)
Это основной этап применения патента. Система обрабатывает сырые данные офлайн:
- Выполняет сегментацию и кластеризацию исторических данных.
- Строит модели семантических мест, определяет их физические границы и профиль аудитории.
- Извлекает признаки: популярность (foot traffic), публичность/приватность места.
Результатом является высокоточный индекс физического мира.
RANKING / RERANKING (Локальный поиск)
Выходные данные этого процесса (точные границы POI, популярность, связанные демографические данные) используются алгоритмами локального ранжирования (Local Pack, Google Maps) для определения релевантности и важности (Prominence) бизнеса.
Входные данные:
- Исторические временные ряды датчиков местоположения (Location Sensor Time Series).
- Необработанные показания датчиков: идентификаторы маяков (Wi-Fi BSSID, Cell ID), метрики расстояния (например, Wi-Fi RSSI).
- Опционально: известные семантические метки для некоторых сегментов (например, чекины).
Выходные данные:
- Структура данных иерархической кластеризации (Forest Data Structure).
- Модели, указывающие границы семантических мест (Semantic Place Boundaries).
- Связанные данные о поведении и демографии пользователей для конкретных мест (согласно Claim 2).
На что влияет
- Конкретные типы контента: Влияет на видимость физических сущностей (Points of Interest — POI), локальных бизнесов (Google Business Profile). Критически важно для Local SEO.
- Специфические запросы: Запросы с локальным интентом (навигационные, коммерческие, связанные с физическими локациями).
- Конкретные ниши или тематики: Максимальное влияние в сферах с физическим присутствием: ритейл, рестораны, услуги. Особенно важно для локаций с высокой плотностью (торговые центры, фуд-корты) или для бизнесов внутри других зданий.
Когда применяется
- Офлайн-обработка (Построение модели): Алгоритм кластеризации применяется к большим массивам исторических данных для построения и обновления моделей семантических мест. Это происходит непрерывно или периодически в пакетном режиме.
- Онлайн-обработка (Использование модели): Сгенерированные модели применяются в реальном времени для анализа текущего местоположения пользователя и предоставления контекстуальных данных или для атрибуции визита.
Пошаговый алгоритм
Процесс А: Офлайн-построение модели кластеризации
- Сбор данных: Получение множества Location Data Reports от мобильных устройств.
- Партиционирование (Сегментация): Разделение непрерывных потоков данных на Localized Segments (визиты). Сегмент определяется как период времени, когда устройство оставалось в локализованной области (например, фильтрация моментов быстрого движения).
- Географическая привязка: Оценка Geographic Region Bucket для каждого сегмента (грубая локализация).
- Идентификация кандидатов на перекрытие (Оптимизация): Внутри каждого бакета определяются Clustering Canopies. Например, создается canopy для каждого уникального Wi-Fi BSSID, включающий все сегменты, которые «видели» этот BSSID. Это быстрый способ найти пары сегментов, которые потенциально могли перекрываться.
- Расчет оценки перекрытия (Overlap Score): Для каждой пары сегментов, имеющих хотя бы один общий Clustering Canopy, рассчитывается Overlap Score.
Детали расчета:
- Определяется набор подходящих маяков (eligible beacon set), наблюдаемых в обоих сегментах.
- Для каждого маяка рассчитывается Beacon Overlap Score. Это оценка схожести распределения мощности сигнала (например, RSSI) этого маяка в обоих сегментах.
- Индивидуальные оценки комбинируются в общий Overlap Score для пары сегментов.
- Иерархическая кластеризация: Применение алгоритма HAC с использованием Overlap Scores. Сегменты с высокими оценками перекрытия объединяются в кластеры, формируя иерархическую структуру данных (Forest Data Structure).
Процесс Б: Определение семантических данных и Моделирование
- Ассоциация меток: Известные Semantic Place Labels (например, из чекинов или баз данных POI) ассоциируются с соответствующими Localized Segments в структуре кластеризации.
- Генерация модели/Классификатора: На основе структуры кластеризации и меток генерируется модель. Эта модель может предсказывать границы семантического места или вероятность того, что новый визит относится к этому месту.
- Анализ характеристик места: Анализ кластеров для определения характеристик места (например, популярность, публичность/приватность, демография посетителей согласно Claim 2).
Какие данные и как использует
Данные на входе
Система использует разнообразные данные, собираемые с мобильных устройств и из внешних источников.
- Сенсорные/Технические факторы (Ключевые данные):
- Показания датчиков (raw location sensor readings).
- Идентификаторы маяков (Beacons): Wi-Fi BSSID (MAC-адрес), Cell ID, Bluetooth ID.
- Метрики расстояния до маяков: Wi-Fi Received Signal Strength Indicator (RSSI).
- Оценки физического местоположения: GPS координаты.
- Данные других сенсоров: акселерометр, гироскоп (для определения движения).
- Временные факторы: Временные метки (time stamps) для всех отчетов.
- Пользовательские факторы:
- Идентификаторы устройств или пользователей (часто анонимизированные или преобразованные в lossy device indicator для сохранения конфиденциальности).
- Демографические и психографические данные пользователей (если доступны).
- Внешние данные (для маркировки кластеров):
- Базы данных сущностей (например, Google Business Profile).
- Пользовательские чекины, данные транзакций.
Какие метрики используются и как они считаются
- Overlap Score: Агрегированная метрика схожести между двумя Localized Segments. Рассчитывается путем комбинирования Beacon Overlap Scores.
- Beacon Overlap Score: Метрика, оценивающая перекрытие двух сегментов на основе данных одного маяка. Рассчитывается путем сравнения распределений метрик сигнала (например, RSSI) этого маяка в обоих сегментах (используя статистические методы, такие как Earthmover distance или Jaccard similarity).
- Алгоритмы машинного обучения: Hierarchical Agglomerative Clustering (HAC) используется для построения структуры данных. Используются эвристики слияния связей (linkage merging heuristic), например, average linkage merging.
- Measure of Diversity (Мера разнообразия): Может рассчитываться для кластера, чтобы оценить количество уникальных пользователей/устройств. Помогает определить, является ли место публичным или частным.
Выводы
- Определение границ бизнеса по поведению пользователей: Google определяет фактические физические границы бизнеса (Semantic Place Boundaries), анализируя агрегированные паттерны перемещения пользователей (Localized Segments), а не полагается только на заявленные адреса или официальные карты.
- Критическая роль Wi-Fi и других маяков: Сигналы маяков (Beacons), особенно Wi-Fi (BSSID и RSSI), являются ключевыми для определения близости и перекрытия визитов (Overlap Score). Это критично для точности внутри помещений и в плотной городской застройке, где GPS ненадежен.
- Измерение реальной посещаемости (Foot Traffic): Кластеризация визитов позволяет Google напрямую измерять популярность физических локаций, агрегируя количество Localized Segments, связанных с определенным местом. Это мощный сигнал Известности (Prominence) для Local SEO.
- Сбор поведенческих и демографических данных о посетителях: Патент (Claim 2) явно указывает, что Semantic Place Data включает характеристики поведения, демографии и психографики пользователей, посещающих место. Google систематически собирает и связывает данные о том, кто посещает конкретные локации.
- Валидация физических сущностей: Этот механизм является ключевым способом валидации данных для Knowledge Graph и Google Maps. Он подтверждает существование бизнеса, его точное расположение и характеристики.
- Гранулярное понимание локаций: Система способна различать смежные бизнесы или даже отдельные зоны внутри одного большого места (например, отделы в магазине или зоны в парке), если паттерны перемещения пользователей между ними формируют отдельные кластеры.
Практика
Best practices (это мы делаем)
Рекомендации сфокусированы на Локальном SEO и обеспечении того, чтобы система корректно определяла границы вашего бизнеса и ассоциировала визиты пользователей с вашим POI.
- (Техническая оптимизация) Стратегическое управление Wi-Fi инфраструктурой: Предоставляйте стабильный гостевой Wi-Fi с уникальным и понятным именем (SSID). Стабильные сигналы маяков помогают системе формировать четкие кластеры визитов. Убедитесь, что физическое расположение точек доступа обеспечивает хорошее покрытие всей площади бизнеса, включая вспомогательные зоны (например, летние веранды).
- Стимулирование реальной посещаемости (Foot Traffic): Поскольку система напрямую измеряет и кластеризует физические визиты для определения популярности, ключевой стратегией Local SEO должно быть привлечение реальных посетителей в локацию. Онлайн-активность должна конвертироваться в офлайн-трафик.
- Стимулирование взаимодействия пользователей на месте: Поощряйте пользователей взаимодействовать с вашим бизнесом через их устройства во время визита (чек-ины, загрузка фотографий, оставление отзывов на месте). Это предоставляет системе «размеченные» данные — Localized Segments с известной семантической меткой, что помогает обучать классификатор для вашего кластера.
- Точность данных в Google Business Profile (GBP): Обеспечение точности базовых данных (адрес, категория, точное расположение пина) дает системе сильный сигнал для корректной маркировки сформированных кластеров и связи их с вашей сущностью в Knowledge Graph.
Worst practices (это делать не надо)
- Использование общих или конфликтующих SSID Wi-Fi: Использование стандартных названий или SSID, совпадающих с соседними бизнесами, затрудняет для системы определение четких границ. Overlap Scores будут неоднозначными, что может привести к некорректной кластеризации.
- Нестабильный Wi-Fi или его отсутствие: Отсутствие Wi-Fi маяков, особенно в зонах с плохим сигналом GPS/Сотовой связи, лишает систему ключевых данных для точного определения местоположения пользователей и формирования кластера визитов. Постоянное изменение BSSID/MAC-адресов также вредит.
- Манипуляции с физическим адресом в GBP: Попытки установить маркер в GBP далеко от фактического местоположения могут быть неэффективны. Система ориентируется на фактические кластеры перемещения пользователей (Localized Segments), а не только на заявленные координаты.
Стратегическое значение
Патент подтверждает стратегическую важность слияния онлайна и офлайна для локального поиска. Google не просто индексирует информацию о бизнесе; он активно измеряет физический мир и поведение пользователей в нем. Для Local SEO это означает, что реальная популярность (подтвержденная данными о трафике) и профиль аудитории являются измеримыми и критически важными факторами ранжирования. Это подчеркивает важность «присутствия» (presence) и «активности» (engagement) в физической точке.
Практические примеры
Сценарий: Разделение границ бизнесов в фуд-корте торгового центра
Задача: Определить, какой из трех соседних киосков (А, Б, В) посетил пользователь. GPS в ТЦ неточен, адрес у всех один.
- Сбор данных: Google собирает Location Data Reports от посетителей фуд-корта, включая сканирование Wi-Fi.
- Анализ сигналов:
- Пользователи у Киоска А видят Wi-Fi_A с высоким уровнем сигнала (RSSI) и Wi-Fi_B со средним.
- Пользователи у Киоска Б видят Wi-Fi_B с высоким RSSI, Wi-Fi_A и Wi-Fi_C со средним.
- Пользователи у Киоска В видят Wi-Fi_C с высоким RSSI и Wi-Fi_B со средним.
- Расчет Overlap Scores: Сегменты у Киоска А и Киоска В будут иметь низкий Overlap Score, так как распределения их сигналов сильно различаются. Два сегмента у одного и того же Киоска А будут иметь высокий Overlap Score.
- Кластеризация (HAC): Алгоритм HAC сформирует три четких кластера, соответствующих трем киоскам, основываясь на паттернах движения и схожести сигналов маяков.
- Результат: Google может точно атрибутировать визит к Киоску А, даже если пользователь находился всего в нескольких метрах от Киоска Б. Посещаемость и профиль аудитории рассчитываются для каждого киоска отдельно, обеспечивая корректное локальное ранжирование.
Вопросы и ответы
Насколько важен Wi-Fi для работы этого алгоритма и Local SEO?
Wi-Fi маяки (Beacons) критически важны, особенно в помещениях, где GPS работает плохо. Патент описывает, как сравнение уровней сигналов (RSSI) от Wi-Fi точек доступа используется для расчета Overlap Score. Наличие стабильного гостевого Wi-Fi помогает Google точнее определить границы вашего бизнеса и надежнее фиксировать визиты пользователей.
Как этот патент связан с отслеживанием посещений магазинов (Store Visits) и популярностью в Google Maps?
Этот патент описывает базовую технологию, которая делает возможным Store Visits и расчет «Популярного времени». Чтобы засчитать визит, Google должен быть уверен, что пользователь находился внутри границ конкретного бизнеса. Описанный механизм кластеризации Localized Segments решает именно эту задачу и позволяет агрегировать данные о посещаемости.
Собирает ли Google данные о том, кто посещает мой магазин (демография, интересы)?
Да. В Claim 2 прямо указано, что Semantic Place Data включает характеристики поведения, демографии или психографики пользователей, посещающих это место. Анализируя пользователей, чьи сегменты попали в кластер вашего бизнеса, Google собирает агрегированные данные о вашей аудитории для аналитики и таргетинга рекламы.
Что такое «Localized Segment» простыми словами?
Это один «визит» пользователя в определенное место. Система анализирует не просто точку на карте, а весь трек перемещения пользователя и данные сенсоров (Wi-Fi, Bluetooth) во время этого визита, пока он находился в локализованной области.
Как система отличает мой бизнес от соседнего, если мы находимся в одном здании?
Система анализирует, насколько отличаются паттерны сигналов сенсоров (особенно Wi-Fi) и траектории движения пользователей между двумя локациями. Если различия существенны (низкий Overlap Score), система проведет границу (Semantic Place Boundary) и сформирует отдельные кластеры для вашего бизнеса и вашего соседа.
Что делать, если мой бизнес находится в здании с множеством других компаний?
Критически важно обеспечить уникальные сигналы. Используйте уникальные имена Wi-Fi (SSID). Также активно стимулируйте отзывы и чек-ины на месте, чтобы помочь системе связать ваш семантический лейбл (название бизнеса) с правильным кластером визитов.
Как рассчитывается «Overlap Score»?
Overlap Score оценивает, насколько сильно пересекаются два визита. Он рассчитывается путем сравнения сигналов от общих маяков. Если распределения уровней сигнала (RSSI) для общих Wi-Fi точек доступа очень похожи в обоих сегментах, Overlap Score будет высоким, что указывает на посещение одного и того же физического пространства.
Может ли система идентифицировать новый бизнес, которого еще нет на картах?
Да. Механизм кластеризации (HAC) может идентифицировать кластер повторяющихся визитов в определенном месте, даже если семантическая метка еще не известна. Система обнаруживает «границы», которые редко пересекаются пользователями, формируя кластер, который затем может быть идентифицирован как новый POI.
Как система определяет, является ли место публичным или частным (например, домом)?
Патент предлагает генерировать меру разнообразия идентификаторов пользователей в кластере. Если в течение длительного времени сегменты в кластере принадлежат одному и тому же небольшому набору пользователей, это указывает на частное место. Постоянно меняющиеся пользователи указывают на публичное заведение.
Может ли эта система идентифицировать отделы внутри одного большого магазина?
Да, если паттерны перемещения пользователей и сигналы сенсоров между отделами достаточно различаются. Система может идентифицировать Semantic Place Boundaries, которые соответствуют не границам юридического лица, а паттернам поведения пользователей (например, разделение между кафе и торговой зоной).