Google использует автоматизированную систему для обновления своих географических данных путем анализа геокодированного веб-контента, в частности, отзывов о местных компаниях. Система ищет фразы (n-граммы), которые демонстрируют плотную географическую кластеризацию. Если фраза часто встречается в документах, привязанных к одной территории, она распознается как название района (включая неофициальные названия), а форма кластера определяет его границы. Это позволяет Google понимать локальный контекст без ручного ввода данных.
Описание
Какую задачу решает
Патент решает проблему высокой стоимости, сложности и низкой скорости ручного обновления Географических Информационных Систем (Geographic Information Systems или GIS). Официальные карты не успевают за динамикой реального мира: появлением новых районов (например, «квартал моды»), изменением границ и возникновением разговорных или неофициальных названий. Масштабное ручное картографирование этих изменений в глобальном масштабе и на разных языках неэффективно. Патент предлагает автоматизированное решение для поддержания актуальности географических знаний Google.
Что запатентовано
Запатентована система автоматического обнаружения названий и границ районов путем анализа геокодированных веб-документов. Система извлекает фразы (n-grams) из локального контента (особенно из отзывов о компаниях) и анализирует их географическое распределение. Если фраза демонстрирует плотную географическую кластеризацию (используя алгоритмы вроде DBSCAN), система идентифицирует ее как название района и определяет его границы на основе формы кластера.
Как это работает
Система (Neighborhood Extractor) работает следующим образом:
- Сбор данных: Собираются веб-документы, привязанные к конкретным координатам (например, отзывы о ресторане с известным адресом).
- Извлечение фраз: Из текста извлекаются все последовательности слов (n-grams).
- Кластеризация: Система ищет географические кластеры для каждой n-gram. Например, фраза «лучший ресторан» будет распределена широко, а название района «Чайна-таун» сформирует плотные кластеры в конкретных городах.
- Фильтрация: Применяются строгие фильтры для удаления шума: отсеиваются слишком редкие фразы, фразы без кластеров, фразы со слишком большим количеством кластеров (например, «центр города») или слишком большим количеством географических выбросов.
- Определение границ: Для подтвержденных кластеров определяются географические границы с использованием алгоритмов типа Convex Hull или Alpha Shape.
- Разрешение конфликтов имен: Если для одной области найдено несколько названий, выбирается наиболее популярное на основе частоты упоминаний и размера территории (Popularity Score).
- Обновление GIS: Новое название и границы добавляются в Geographic Information System.
Актуальность для SEO
Высокая. Понимание локального контекста, включая неофициальные названия районов и их точные границы, критически важно для качества локального поиска (Local Search) и картографических сервисов. Этот патент описывает фундаментальный, не зависящий от языка (language agnostic) механизм, позволяющий Google строить и обновлять свою географическую базу знаний автоматически и в глобальном масштабе, что остается ключевой задачей.
Важность для SEO
Патент имеет высокое значение для Local SEO. Он раскрывает механизм, с помощью которого Google определяет географическую релевантность и границы районов, не полагаясь только на официальные карты. Это напрямую влияет на то, как локальные бизнесы ранжируются по запросам, включающим названия районов. Понимание того, что основным источником этих данных являются отзывы пользователей (UGC), подчеркивает важность работы с отзывами и использования корректной локальной терминологии.
Детальный разбор
Термины и определения
- Alpha Shape (Альфа-форма)
- Алгоритм для определения границ набора точек. Используется как один из методов вычисления географических границ района на основе кластера геокодированных упоминаний.
- Convex Hull (Выпуклая оболочка)
- Наименьший выпуклый многоугольник, содержащий все точки набора. Упоминается в Claim 1 как метод определения границ района путем идентификации вершин полигона.
- DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
- Алгоритм кластеризации, основанный на плотности. Используется для идентификации географических кластеров упоминаний n-gram. Он эффективен для нахождения кластеров произвольной формы и устойчив к шуму (выбросам).
- Epsilon (ε)
- Параметр в алгоритме DBSCAN, определяющий максимальное расстояние (радиус) для поиска соседних точек. Определяет требуемую географическую плотность кластера (например, 200 метров).
- Geocoded Web Documents (Геокодированные веб-документы)
- Веб-страницы или их части, связанные с конкретными географическими координатами (широтой и долготой). В патенте особо выделяются user reviews of local businesses (отзывы пользователей о местных компаниях).
- Geographic Information System (GIS) (Географическая информационная система)
- База данных для хранения и анализа географических данных. В контексте патента — это база знаний Google о местах (районы, города, компании).
- Minimum Points Threshold (Порог минимального количества точек)
- Параметр в алгоритме DBSCAN, определяющий минимальное количество точек, необходимое для формирования кластера (например, 10 точек).
- N-gram (N-грамма)
- Непрерывная последовательность из N слов из текста. Используются как кандидаты в названия районов.
- Popularity Score (Оценка популярности)
- Метрика для выбора канонического названия района при наличии нескольких кандидатов. Рассчитывается на основе частоты упоминаний и размера территории (например, количество упоминаний, деленное на площадь района).
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает полный и детальный процесс автоматизированного определения районов.
- Система получает геокодированные веб-документы. Конкретно указаны user reviews of local businesses, привязанные к координатам (широта/долгота).
- Извлекаются n-grams (с ограничением по длине).
- N-grams ассоциируются с координатами документов, в которых они найдены.
- Идентифицируется район путем нахождения географического кластера локаций. Этот шаг включает обязательную комплексную фильтрацию:
- Удаление стоп-слов (stop-words).
- Удаление фраз, встречающихся реже порогового значения.
- Удаление n-grams, которые не формируют кластер.
- Удаление n-grams, которые формируют больше порогового числа кластеров.
- Удаление n-grams, у которых слишком много географических выбросов (точек вне кластера).
- Определяются границы района на основе распределения точек в кластере. Конкретно указано использование Convex Hull для определения вершин полигона.
- Определяется название района на основе n-gram. Этот шаг включает обязательное разрешение конфликтов:
- Идентификация всех кандидатных названий для перекрывающихся географических областей.
- Ранжирование кандидатов на основе (i) частоты упоминаний в веб-документах И (ii) размера перекрывающихся областей.
- Выбор названия с наивысшим рейтингом.
- Название и границы добавляются в Geographic Information System.
Claim 2 (Зависимый): Уточняет, что для кластеризации используется алгоритм DBSCAN.
Claims 3-8 (Зависимые): Определяют критерии валидности кластера. Кластер должен соответствовать порогам по количеству локаций (Claim 3), максимальной площади (Claim 4), минимальной плотности (Claim 5). Также ограничивается общее количество кластеров для n-gram (Claim 6) и количество выбросов (Claims 7, 8).
Claim 10 (Зависимый): Параметры алгоритма кластеризации (например, требования к плотности Epsilon) могут динамически корректироваться в зависимости от характеристик анализируемого географического региона (например, плотности застройки).
Claim 11 (Зависимый): Хотя основной механизм основан на кластеризации, система может дополнительно использовать лингвистические сигналы: проверять, содержит ли n-gram термины, ассоциированные с географическими локациями в данном языке (например, слова «район», «квартал»).
Claim 12 (Зависимый): Описывает использование полученных данных в поиске. Система принимает поисковый запрос, включающий обнаруженное название, идентифицирует соответствующую географическую область в GIS, ранжирует результаты поиска и выбирает рекламу на основе этой области.
Где и как применяется
Этот патент описывает инфраструктурный процесс построения и обновления базы географических знаний Google, а не алгоритм ранжирования в реальном времени.
CRAWLING – Сканирование и Сбор данных
Система собирает корпус геокодированных веб-документов из интернета. Это включает сканирование сайтов с отзывами (ключевой источник), локальных бизнес-страниц, блогов и новостных сайтов, где контент может быть привязан к конкретной локации.
INDEXING – Индексирование и извлечение признаков
Основная работа алгоритма происходит на этом этапе в офлайн-режиме. Процесс анализирует собранный корпус данных:
- Извлекает n-grams и связывает их с геолокациями.
- Выполняет географическую кластеризацию (DBSCAN) и многоступенчатую фильтрацию.
- Определяет границы (Convex Hull) и разрешает конфликты названий.
- Результат (новые районы и их границы) сохраняется в Geographic Information System (GIS). Эта система является частью инфраструктуры базы знаний (Knowledge Graph) для локальных данных.
Использование данных в поиске:
QUNDERSTANDING – Понимание Запросов
Когда пользователь вводит запрос (например, «рестораны в Чайна-тауне»), системы понимания запросов используют GIS (обновленную данным алгоритмом), чтобы распознать «Чайна-таун» как конкретную географическую сущность с определенными границами.
RANKING / METASEARCH (Локальный поиск)
Поисковая система использует распознанные географические границы из GIS для фильтрации и ранжирования локальных результатов (например, компаний в Local Pack), физически расположенных внутри этих границ, а также для таргетинга рекламы (Claim 12).
Входные данные:
- Корпус геокодированных веб-документов (текст + координаты), в первую очередь отзывы пользователей.
- Параметры для алгоритма кластеризации (DBSCAN), возможно, скорректированные для региона.
Выходные данные:
- Обновленные записи в GIS, содержащие названия районов (включая разговорные) и их географические границы (полигоны).
На что влияет
- Локальный поиск (Local SEO): Напрямую влияет на то, как Google понимает границы районов и какие названия он считает каноническими. Это критично для ранжирования локальных бизнесов по запросам с указанием района.
- Типы контента: Наибольшее влияние оказывает контент, который легко геокодировать. User reviews of local businesses прямо указаны как основной источник. Также влияют локальные блоги и новости.
- Специфические запросы: Влияет на локальные интенты, где пользователи ищут услуги или места в определенных районах, особенно используя неофициальные или разговорные названия.
Когда применяется
- Условия работы: Алгоритм применяется периодически в офлайн-режиме для анализа большого корпуса веб-документов и обновления GIS. Он не работает в реальном времени при обработке запроса пользователя.
- Триггеры активации: Процесс запускается при накоплении достаточного количества новых или обновленных геокодированных веб-документов. Идентификация конкретного района происходит при достижении порогов плотности и количества упоминаний (Minimum Points Threshold).
Пошаговый алгоритм
Этап 1: Сбор и подготовка данных
- Получение документов: Система собирает геокодированные веб-документы (например, отзывы о компаниях) и ассоциирует текст с координатами (широта/долгота).
- Извлечение N-gram: Из каждого документа извлекаются все n-grams заданной длины (например, до 5 слов).
- Ассоциация с локациями: Каждая n-gram связывается со списком всех географических локаций, где она была упомянута.
Этап 2: Кластеризация
- Выполнение кластеризации: Для каждой n-gram применяется алгоритм кластеризации (например, DBSCAN) к связанному с ней набору локаций.
- Настройка параметров: Параметры DBSCAN (Epsilon и Minimum Points Threshold) могут корректироваться в зависимости от плотности географического региона (Claim 10).
- Идентификация кластеров: Алгоритм выявляет один или несколько географических кластеров и точки-выбросы (шум).
Этап 3: Фильтрация N-gram и Кластеров (согласно Claim 1)
- Фильтрация N-gram (Базовая): Удаляются стоп-слова и слишком редкие n-grams.
- Фильтрация по кластеризации: Удаляются n-grams, которые:
- Не сформировали ни одного кластера (например, «мой любимый»).
- Сформировали слишком много кластеров (например, «центр города»).
- Имеют слишком много выбросов по сравнению с точками внутри кластеров (например, «ресторан»).
- Фильтрация по характеристикам кластера (Claims 3-5): Удаляются кластеры, которые не соответствуют порогам по количеству точек, площади (слишком малы или велики) или плотности.
Этап 4: Определение районов и разрешение конфликтов
- Определение границ: Для оставшихся кластеров вычисляются географические границы с использованием алгоритмов Convex Hull (Claim 1) или Alpha Shape. Границы сохраняются как полигоны.
- Идентификация перекрытий: Система проверяет, перекрываются ли вновь обнаруженные районы друг с другом.
- Ранжирование названий: Если области перекрываются, система ранжирует кандидатные названия на основе частоты упоминаний и размера области (Popularity Score).
- Выбор канонического названия: Выбирается название с наивысшим рейтингом.
Этап 5: Обновление GIS
- Сохранение данных: Выбранное название и его границы добавляются в Geographic Information System.
- Сверка с существующими данными: Происходит сверка с существующими записями в GIS для обнаружения дубликатов или обновления существующих данных.
Какие данные и как использует
Данные на входе
Патент фокусируется на использовании геокодированного текста.
- Контентные факторы: Текст геокодированных веб-документов. Основной источник данных — это user reviews of local businesses (Claim 1). Также упоминаются блоги и новости. Система анализирует n-grams, извлеченные из этого текста.
- Географические факторы: Координаты (широта и долгота), связанные с каждым веб-документом. Это может быть точное местоположение компании, о которой идет речь в документе.
- Лингвистические факторы (Опционально): Система может использовать списки стоп-слов. Также, согласно Claim 11, могут использоваться лингвистические индикаторы географических названий (например, слово «район»).
Какие метрики используются и как они считаются
- Частота N-gram: Количество упоминаний n-gram в корпусе документов. Используется для фильтрации редких фраз.
- Количество кластеров: Количество географических кластеров, сформированных n-gram. Используется для фильтрации слишком общих терминов.
- Параметры DBSCAN:
- Epsilon (ε): Требуемая плотность (радиус) для кластера (упоминаются значения от 50 до 500 метров).
- Minimum Points Threshold: Минимальное количество упоминаний для формирования кластера (упоминаются значения от 5 до 20).
- Соотношение Выбросов (Outlier Ratio): Соотношение точек вне кластера к точкам внутри кластера. Используется для фильтрации n-grams с широким географическим распределением.
- Площадь кластера (Cluster Area): Географическая площадь, занимаемая кластером. Используется для фильтрации слишком маленьких или слишком больших областей (упоминается порог в 25 кв. км).
- Popularity Score (Оценка популярности): Метрика для разрешения конфликтов названий. Рассчитывается на основе количества упоминаний и размера географической зоны. В описании патента приводится пример расчета: (Количество упоминаний названия) / (Площадь района).
Выводы
- Google определяет границы районов динамически на основе UGC: Google не полагается исключительно на официальные карты. Границы и названия районов определяются программно на основе того, где и как часто люди упоминают их в геокодированном контенте, в первую очередь в отзывах.
- Отзывы как ключевой источник географических знаний: Отзывы пользователей (user reviews) явно указаны как основной источник данных (Claim 1). Язык, который используют клиенты в отзывах, напрямую формирует базу знаний Google (GIS) о географии местности.
- Важность разговорных и неофициальных названий: Система специально разработана для обнаружения возникающих и неофициальных названий районов. Google стремится понять местность так, как ее понимают местные жители.
- Плотность и кластеризация как основа: Чтобы фраза была признана названием района, она должна демонстрировать плотную географическую кластеризацию (DBSCAN). Недостаточно просто упомянуть название; необходимо консенсусное использование в контексте близко расположенных объектов.
- Устойчивость к манипуляциям и строгая фильтрация: Использование DBSCAN и строгих критериев фильтрации (по плотности, количеству выбросов, размеру области, количеству кластеров) делает систему устойчивой к спаму и отделяет реальные названия от шума.
- Приоритет популярности (Popularity Score): Если у района есть несколько названий, Google выбирает каноническое, основываясь на частоте упоминаний и географической сфокусированности (упоминания/площадь).
Практика
Best practices (это мы делаем)
- Стимулирование отзывов с упоминанием района: Поощряйте клиентов оставлять отзывы, которые естественным образом упоминают название района или местного квартала. Этот UGC напрямую питает алгоритм Google (Claim 1) для определения границ и популярности названия.
- Использование канонических локальных названий: Определите, какое название района является наиболее популярным среди местных жителей (и, следовательно, имеет наивысший Popularity Score). Последовательно используйте это название на сайте компании, в профиле Google Business Profile (GBP) и в локальных каталогах (citations).
- Создание локального контента с гео-привязкой: Разрабатывайте контент (блоги, путеводители), который обсуждает местные достопримечательности с использованием названий районов. Убедитесь, что этот контент может быть легко геокодирован (например, путем упоминания точных адресов или использования гео-разметки).
- Координация для новых районов (Business Improvement Districts): Если продвигается новое название для развивающегося квартала, необходима скоординированная работа. Множество местных компаний должны использовать это название на своих сайтах и в UGC, чтобы достичь необходимой плотности (Minimum Points Threshold и Epsilon) для распознавания системой.
Worst practices (это делать не надо)
- Спам названиями районов (Neighborhood Spam): Попытки манипулировать границами путем генерации фейковых отзывов с ложной геопривязкой. Алгоритм DBSCAN устойчив к выбросам, а фильтры, основанные на плотности и соотношении выбросов (Claim 1, Claims 7-8), предназначены для борьбы с такими тактиками.
- Использование устаревших или непопулярных названий: Использование официального, но редко употребляемого названия района, когда существует более популярное разговорное название. Поскольку Google отдает приоритет Popularity Score, это может снизить локальную релевантность.
- Игнорирование локальной терминологии: Использование слишком общих терминов (например, «центр города») вместо конкретных названий районов. Общие термины отфильтровываются, так как они формируют слишком много кластеров в разных городах (Claim 1, Claim 6).
Стратегическое значение
Патент подтверждает, что для локального поиска Google стремится моделировать реальный мир таким, каким его видят пользователи, а не только полагаться на официальные данные. Это подчеркивает стратегический сдвиг к использованию неструктурированного UGC (отзывов, блогов) в качестве источника истины для построения географической базы знаний (GIS). Для Local SEO это означает, что репутация и упоминания в интернете имеют буквальное географическое значение, определяя границы, в которых бизнес будет считаться релевантным.
Практические примеры
Сценарий: Определение канонического названия района
В городе есть район, который официально называется «Северный промышленный округ», но местные жители называют его «Квартал пивоварен» из-за концентрации крафтовых баров.
- Сбор данных: Google анализирует тысячи отзывов о барах в этой области.
- Анализ N-gram:
- «Северный промышленный округ» упоминается 50 раз.
- «Квартал пивоварен» упоминается 1500 раз.
- Кластеризация и границы: Обе фразы формируют схожие географические кластеры с определенной площадью (Area).
- Разрешение конфликтов (Claim 1): Система ранжирует названия. Предположим, используется Popularity Score = Упоминания / Площадь.
- Score 1 = 50 / Area
- Score 2 = 1500 / Area
- Результат: Google выбирает «Квартал пивоварен» как каноническое название для GIS.
- Действие SEO: Местные компании должны оптимизировать свой контент и стимулировать отзывы с использованием термина «Квартал пивоварен», чтобы максимизировать локальную релевантность по запросам, связанным с этим названием.
Вопросы и ответы
Как Google определяет границы районов? По официальным картам?
Нет, не только. Патент показывает, что Google определяет границы динамически и автоматически, анализируя, где именно люди упоминают название района в геокодированном контенте (например, в отзывах). Если достаточное количество людей упоминает название в плотном географическом кластере, система использует форму этого кластера (например, Convex Hull) для определения границ.
Какой тип контента является основным источником данных для этого алгоритма?
Основным источником являются геокодированные веб-документы. В Claim 1 патента особо выделяются user reviews of local businesses (отзывы пользователей о местных компаниях). Также могут использоваться локальные блоги и новости, если они привязаны к конкретным координатам.
Может ли Google распознавать неофициальные или разговорные названия районов?
Да, система специально разработана для этого. Она анализирует любые фразы (n-grams) в локальном контенте. Если местные жители используют неофициальное название (например, «Модный квартал») достаточно часто и в контексте конкретной географической области, Google распознает его и добавит в свою базу данных (GIS).
Что делать, если у района есть несколько названий?
Система обнаруживает перекрывающиеся районы и ранжирует их названия (Claim 1). Ранжирование основано на частоте упоминаний названия и размере территории (Popularity Score). Google выберет наиболее популярное и географически сфокусированное название в качестве канонического.
Как этот патент влияет на Local SEO?
Он подчеркивает критическую важность использования правильной локальной терминологии и работы с отзывами. Чтобы максимизировать видимость в локальном поиске по запросам, включающим район, необходимо использовать то название, которое Google считает каноническим (наиболее популярным), и стимулировать его упоминание в отзывах клиентов.
Можно ли манипулировать этим алгоритмом, создавая фейковые отзывы с нужным названием района?
Это крайне сложно. Система использует алгоритм кластеризации DBSCAN, который требует высокой плотности упоминаний для формирования кластера и устойчив к выбросам. Кроме того, применяются строгие фильтры для удаления шума и аномалий (Claim 1). Спорадические фейковые отзывы, скорее всего, будут отфильтрованы как шум.
Почему система отфильтровывает такие термины, как «центр города»?
Такие термины отфильтровываются, потому что они формируют слишком много кластеров (по одному в каждом городе), что нарушает условия фильтрации (Claim 1, Claim 6). Система ищет уникальные или относительно уникальные названия, соответствующие конкретным районам, а не общие географические термины.
Влияет ли плотность застройки в городе на работу алгоритма?
Да, влияет. Патент (Claim 10) предусматривает возможность динамической настройки параметров кластеризации (например, требуемой плотности Epsilon) в зависимости от характеристик географического региона. В плотно застроенных районах могут применяться более строгие требования к плотности кластера.
Работает ли этот алгоритм в реальном времени при запросе пользователя?
Нет. Это офлайн-процесс, который периодически анализирует большой объем данных для обновления Географической Информационной Системы (GIS). При обработке запроса пользователя Google уже использует готовые данные о районах и их границах из этой GIS для ранжирования результатов и выбора рекламы (Claim 12).
Может ли система ошибочно принять название компании за название района?
Система имеет механизмы защиты от этого. Фильтрация по размеру площади кластера (Claim 4) удаляет кластеры, которые слишком малы (например, соответствующие одному зданию или бизнесу). Также требуется минимальное количество точек в кластере (Claim 3), что предполагает упоминания в контексте нескольких разных локаций.