Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google определяет географическую привязку контента и запросов по неоднозначным названиям мест

    CLASSIFICATION OF AMBIGUOUS GEOGRAPHIC REFERENCES (Классификация неоднозначных географических ссылок)
    • US9323738B2
    • Google LLC
    • 2016-04-26
    • 2004-12-30
    2004 Knowledge Graph Local SEO Патенты Google Семантика и интент

    Google использует статистический механизм для определения географической релевантности документов или запросов, содержащих неоднозначные названия мест. Система создает «Профили гео-релевантности» (Geo-relevance Profiles) для терминов на основе их близости к известным адресам в обучающей выборке. Затем эти профили комбинируются для устранения неоднозначности и точного определения местоположения контента.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему определения географической релевантности контента (веб-страниц, документов, поисковых запросов), когда в нем отсутствуют однозначные идентификаторы местоположения (например, полный почтовый адрес). Система позволяет интерпретировать неоднозначные или частичные географические ссылки (например, «Bay Area», «Capitol Hill», названия улиц без указания города) и ассоциировать контент с конкретным регионом, что критически важно для локального поиска (Local Search).

    Что запатентовано

    Запатентована система «Классификатор местоположения» (Location Classifier), которая использует статистический подход для разрешения географической неоднозначности. Система создает Geo-relevance Profiles (профили географической релевантности, или гистограммы) для терминов и фраз на основе анализа большого корпуса данных. При анализе нового текста система комбинирует профили найденных в нем терминов, чтобы определить наиболее вероятное местоположение, к которому этот текст относится.

    Как это работает

    Механизм работает в два этапа: Обучение и Классификация.

    • Обучение (Offline): Система анализирует корпус документов, находит однозначные Geographic Signals (например, полные адреса с индексами). Текст, окружающий эти сигналы, ассоциируется с данной локацией. Для слов и фраз (например, биграмм) строятся гистограммы (Geo-relevance Profiles), показывающие распределение их упоминаний по разным индексам.
    • Классификация (Runtime): При обработке нового документа система идентифицирует термины, для которых существуют профили. Эти профили комбинируются (например, путем перемножения гистограмм). Перемножение усиливает общие пики и подавляет шум. Например, комбинация профилей «Castro Street» и «Bay Area» даст четкий пик в районе Mountain View, CA, разрешая неоднозначность.

    Актуальность для SEO

    Высокая. Понимание географического контекста контента и намерений пользователя является фундаментальной задачей для локального поиска, Google Maps и мобильного поиска. Хотя этот патент является продолжением заявки 2004 года, описанные принципы статистического определения местоположения по косвенным признакам остаются крайне актуальными для современных поисковых систем.

    Важность для SEO

    Патент имеет высокое значение (8/10), особенно для локального SEO (Local SEO). Он описывает механизм, с помощью которого Google может ассоциировать веб-сайт или бизнес с конкретным местоположением, даже если на странице нет полного NAP (Name, Address, Phone) или он неоднозначен. Понимание этого механизма критически важно для оптимизации локальных лендингов, так как использование правильной комбинации локальных терминов напрямую влияет на географическую классификацию страницы.

    Детальный разбор

    Термины и определения

    Geo-relevance Profile (Профиль географической релевантности)
    Статистическое распределение (часто описываемое как гистограмма или Histogram), показывающее связь между текстовой строкой (термином или фразой) и различными географическими регионами (Location Identifiers). Показывает вероятность того, что данный термин относится к определенному местоположению.
    Geographic Signal (Географический сигнал)
    Информация в документе, которая однозначно указывает на географическое местоположение. Используется на этапе обучения. Примеры: полный почтовый адрес, почтовый индекс (ZIP code).
    Location Classifier (Классификатор местоположения)
    Система, реализующая изобретение. Принимает на вход текст и генерирует информацию о его потенциальной географической релевантности.
    Location Identifier (Идентификатор местоположения)
    Способ кодирования географического региона. В патенте предпочтение отдается почтовым индексам (ZIP codes), так как близкие по значению индексы часто соответствуют близким географическим локациям.
    Training Text (Обучающий текст)
    Текст, извлеченный из документов обучающего корпуса, который находится в непосредственной близости от идентифицированного Geographic Signal и используется для генерации Geo-relevance Profiles.
    Combined Geo-relevance Profile (Комбинированный профиль)
    Результирующий профиль, созданный путем объединения (например, умножения) индивидуальных профилей нескольких терминов из одного документа. Используется для разрешения неоднозначности.

    Ключевые утверждения (Анализ Claims)

    Патент US9323738B2 фокусируется на методе разрешения неоднозначности путем сопоставления нескольких географически значимых фраз.

    Claim 1 (Независимый пункт): Описывает метод определения географической принадлежности документа.

    1. Идентификация в документе первой фразы, которая является географически значимой (на основе того, что предыдущие упоминания этой фразы были статистически значимы для первой географической информации).
    2. Идентификация в документе второй географически значимой фразы.
    3. Определение того, что первая фраза ассоциирована с первым множеством географических областей.
    4. Определение того, что вторая фраза ассоциирована со вторым множеством географических областей.
    5. Определение того, что географическая область из первого множества СОВПАДАЕТ (matches) с географической областью из второго множества.
    6. Ассоциация документа с конкретной географической областью на основе этого совпадения.
    7. Сохранение информации об этой ассоциации.
    8. (Включает элементы обучения): Генерация гистограммы для фразы на основе найденной географической информации и сохранение этой гистограммы.

    Ядро изобретения заключается в механизме разрешения неоднозначности через консенсус. Каждая фраза может относиться к нескольким местам (например, «Bay Area» к Сан-Франциско или Грин-Бэй), но система ищет пересечение (совпадение) этих множеств, чтобы определить истинное местоположение документа.

    Claim 2 и 3 (Зависимые): Уточняют, что если идентифицированные фразы являются частичными адресами (partial address), система может сгенерировать полный адрес на основе определенной ассоциации.

    Claim 4 (Зависимый от 1): Уточняет, что определение совпадения географических областей использует сгенерированную гистограмму (Geo-relevance Profile).

    Где и как применяется

    Изобретение применяется на нескольких ключевых этапах поисковой архитектуры, выполняя как офлайн-обработку, так и классификацию в реальном времени.

    INDEXING – Индексирование и извлечение признаков

    1. Обучение (Offline): Весь процесс обучения Location Classifier происходит на этом этапе. Система анализирует корпус документов, идентифицирует Geographic Signals, генерирует Geo-relevance Profiles (гистограммы) и сохраняет их.
    2. Классификация документов (Runtime): Во время индексации новой веб-страницы Location Classifier используется для определения ее географической принадлежности, даже если адрес отсутствует или неоднозначен. Эта информация (Location Identifier) сохраняется в индексе.

    QUNDERSTANDING – Понимание Запросов

    1. Классификация запросов (Runtime): Location Classifier применяется к поисковым запросам для определения географического интента пользователя. Например, если пользователь вводит «пицца Bay Area», система может определить, какой именно «Bay Area» имеется в виду.

    RANKING / RERANKING – Ранжирование / Переранжирование

    1. Система ранжирования использует географическую информацию, полученную на этапах INDEXING и QUNDERSTANDING, чтобы фильтровать или повышать результаты в локальном поиске.

    Входные данные (Классификация):

    • Входной документ (веб-страница или поисковый запрос).
    • База данных предварительно рассчитанных Geo-relevance Profiles.

    Выходные данные (Классификация):

    • Информация о потенциальной географической релевантности (например, Location Identifier / ZIP code) и, возможно, оценка уверенности.

    На что влияет

    • Конкретные типы контента: Наибольшее влияние оказывается на локальные страницы (Local Landing Pages), страницы бизнесов, отзывы, статьи о местных событиях или достопримечательностях.
    • Специфические запросы: Влияет на запросы с явным или неявным локальным интентом, особенно те, которые содержат неоднозначные топонимы (названия улиц, районов, неофициальные названия территорий).
    • Конкретные ниши: Критически важно для всех ниш, связанных с локальным бизнесом (рестораны, услуги, ритейл, недвижимость).

    Когда применяется

    • Триггеры активации: Наличие в тексте терминов или фраз, которые были предварительно идентифицированы системой как географически значимые (имеющие Geo-relevance Profile с выраженными пиками).
    • Условия работы: Алгоритм особенно полезен, когда однозначные географические сигналы (полный адрес) отсутствуют, неполны или требуют подтверждения контекстом.

    Пошаговый алгоритм

    Процесс А: Обучение Location Classifier (Offline)

    1. Сбор данных: Получение доступа к большому корпусу документов.
    2. Идентификация Географических Сигналов: В каждом документе выполняется поиск однозначных Geographic Signals (например, полных адресов) с помощью методов сопоставления с образцом (pattern matching).
    3. Извлечение Обучающего Текста: Если сигнал найден, текст в его окрестностях (например, в пределах окна в 100 слов) извлекается и ассоциируется с Location Identifier этого сигнала (например, почтовым индексом).
    4. Аккумуляция Упоминаний: Для выбранных терминов/фраз (например, всех биграмм) в обучающем тексте подсчитывается количество их упоминаний в контексте каждого Location Identifier.
    5. Генерация Гистограмм: На основе подсчетов строятся гистограммы (Geo-relevance Profiles), показывающие распределение термина по локациям.
    6. Нормализация (Опционально): Нормализация профилей на основе глобального распределения локаций в обучающих данных, чтобы избежать перекоса в сторону часто упоминаемых регионов.
    7. Анализ Значимости: Анализируются гистограммы для выявления статистически значимых пиков. Гистограммы без выраженных пиков отбрасываются.
    8. Сохранение Профилей: Термины с географически значимыми профилями и сами профили сохраняются в базе данных.

    Процесс Б: Классификация Документа (Runtime)

    1. Получение Входных Данных: Система получает входной документ (веб-страницу или запрос).
    2. Идентификация Терминов: В документе определяются термины/фразы, которые присутствуют в базе данных Geo-relevance Profiles.
    3. Извлечение Профилей: Для каждого идентифицированного термина извлекается его Geo-relevance Profile (гистограмма).
    4. Комбинирование Профилей: Профили комбинируются для получения результирующего профиля (Combined Geo-relevance Profile). Предпочтительный метод — перемножение гистограмм. Для каждого почтового индекса значения из всех гистограмм перемножаются.
    5. Анализ Результата: В результирующем профиле ищутся пики. Перемножение гарантирует, что пики останутся только там, где все исходные профили указывали на географическую релевантность.
    6. Генерация Вывода: Система генерирует информацию о географической релевантности, основываясь на найденных пиках.

    Какие данные и как использует

    Данные на входе

    Патент фокусируется на использовании статистических данных о распределении контента относительно известных локаций.

    • Контентные факторы: Текстовое содержимое документов. Система анализирует термины и фразы (в патенте особо выделяются биграммы) на предмет их географической значимости.
    • Структурные факторы (во время обучения): Используется близость текста к однозначным Geographic Signals (адресам, индексам). Текст, расположенный ближе к адресу, с большей вероятностью используется для обучения.
    • Географические факторы: Известные географические данные (адреса, почтовые индексы) используются в качестве основы (ground truth) для обучения системы.

    Какие метрики используются и как они считаются

    • Geo-relevance Profile (Histogram): Основная метрика. Представляет собой частотное распределение термина по Location Identifiers (почтовым индексам).
    • Статистическая значимость пиков: Метрика для определения того, является ли термин географически релевантным. Используется для фильтрации шума на этапе обучения.
    • Метод комбинирования (Multiplication): Используется для объединения нескольких Geo-relevance Profiles. Перемножение гистограмм позволяет выявить области пересечения географической релевантности и снять неоднозначность.

    Выводы

    1. Статистическое определение географии: Google использует не только явные адреса (NAP), но и статистический анализ контекста для определения географической принадлежности контента. Система обучается на том, как слова используются вблизи известных локаций.
    2. Разрешение неоднозначности через комбинацию сигналов: Ключевой механизм — это снятие неоднозначности (disambiguation). Отдельные термины могут быть многозначными, но совместное присутствие нескольких географически значимых терминов позволяет точно определить локацию путем комбинирования (перемножения) их Geo-relevance Profiles.
    3. Важность контекста и окружения: Текст, окружающий NAP на веб-странице, может использоваться для формирования понимания того, какие термины связаны с этой локацией, так как на этапе обучения критически важна близость текста к явному адресу.
    4. Применение к индексации и запросам: Описанный механизм универсален и может применяться как для классификации веб-страниц во время индексации, так и для понимания географического интента поисковых запросов в реальном времени.
    5. Гиперлокальные термины как сигналы: Использование гиперлокальной лексики (названия районов, парков, местных заведений) становится критически важным сигналом для локального SEO, так как эти термины, вероятно, имеют сильные Geo-relevance Profiles.

    Практика

    Best practices (это мы делаем)

    • Усиление локального контекста (Local Context): Необходимо насыщать контент локальных страниц (Local Landing Pages) географически релевантными терминами. Используйте названия районов, местных достопримечательностей (landmarks), улиц и неформальные топонимы.
    • Обеспечение совместного упоминания (Co-occurrence) для дисамбигуации: Если название вашего района или улицы распространено, убедитесь, что на странице также упоминаются уникальные для вашей локации ориентиры. Это поможет системе перемножить их Geo-relevance Profiles и правильно определить местоположение.
    • Оптимизация окружения NAP: Текст, непосредственно окружающий блок NAP (адрес и телефон), имеет высокое значение. Размещайте рядом с адресом описание бизнеса, включающее локально релевантные ключевые слова и фразы. Например: «Наш офис расположен в самом сердце [Название Района], рядом с [Известный Ориентир]».
    • Стратегия для многорегиональных сайтов: Для филиалов в разных городах используйте уникальный контент, насыщенный местной терминологией для каждой локальной страницы. Это гарантирует, что Location Classifier четко разделит географическую релевантность разных страниц.

    Worst practices (это делать не надо)

    • Географический спам (Geo-Spam): Бессмысленное перечисление названий городов или районов (keyword stuffing) без создания реального локального контекста неэффективно. Система ищет естественные комбинации терминов.
    • Смешивание географических сигналов: Размещение на одной странице контента, относящегося к разным географическим локациям, без четкого разделения может запутать Location Classifier. Это может «размыть» географическую привязку основного контента страницы.
    • Игнорирование локальной лексики: Использование только названия города без упоминания районов или ориентиров ослабляет локальные сигналы и усложняет классификацию страницы для гиперлокальных запросов.

    Стратегическое значение

    Патент подтверждает, что для успешного локального SEO недостаточно просто указать адрес. Google активно использует статистический анализ для понимания локального контекста. Стратегия должна включать создание сильной семантической связи между контентом сайта и физическим местоположением бизнеса. Это поддерживает стратегию построения авторитетности не только в тематике, но и в конкретном географическом регионе (Geo-Topical Authority).

    Практические примеры

    Сценарий: Оптимизация страницы кафе в неоднозначном районе

    1. Ситуация: Кафе находится в районе «Capitol Hill». Этот топоним используется в Вашингтоне, Сиэтле, Сакраменто. На странице указан только адрес без индекса и упоминается название района.
    2. Проблема: Location Classifier видит термин «Capitol Hill», чей Geo-relevance Profile имеет пики в нескольких городах. Этого недостаточно для точной классификации.
    3. Действие SEO-специалиста: Добавить в текст страницы упоминание уникальных местных достопримечательностей, характерных именно для этого «Capitol Hill» (например, в Сиэтле — упоминание Volunteer Park и Pike/Pine corridor).
    4. Результат: Система идентифицирует новые термины («Volunteer Park», «Pike/Pine»). Их Geo-relevance Profiles имеют четкие пики в Сиэтле. При перемножении профиля «Capitol Hill» и профилей новых терминов, пики в других городах подавляются, а пик в Сиэтле усиливается. Документ уверенно классифицируется как относящийся к Сиэтлу.

    Вопросы и ответы

    Что такое «Geo-relevance Profile» (Профиль географической релевантности) на практике?

    Это статистическая модель, чаще всего гистограмма. Представьте график, где по оси X отложены все почтовые индексы, а по оси Y — как часто данный термин встречался в документах, привязанных к этому индексу. Профиль показывает вероятность того, что термин относится к конкретному месту. Например, профиль для термина «Эйфелева башня» будет иметь огромный пик в районе индексов Парижа.

    Как Google комбинирует эти профили для разрешения неоднозначности?

    В патенте описан метод перемножения гистограмм (multiplication). Если в документе есть два термина, система перемножает значения их профилей для каждого почтового индекса. Этот метод усиливает области, где оба профиля показывают релевантность (пересечение), и подавляет шум, тем самым точно определяя общее местоположение.

    Как система определяет, какие термины являются географически значимыми?

    Система определяет это в процессе офлайн-обучения. Она анализирует огромный корпус текстов, находит в них явные адреса (Geographic Signals) и смотрит, какие термины часто встречаются рядом с ними. Если термин статистически часто встречается в определенных локациях (имеет выраженные пики в гистограмме), он признается географически релевантным.

    Применяется ли этот механизм только к веб-страницам или также к поисковым запросам?

    К обоим. В патенте указано, что входными данными может быть любой текст. Система используется на этапе индексации для определения географии документа и на этапе понимания запроса (Query Understanding) для определения географического интента пользователя, даже если он явно не указал город.

    Как этот патент влияет на страницы, где нет явного адреса (NAP)?

    Это ключевое применение патента. Если на странице нет полного адреса, Location Classifier может определить ее географическую принадлежность по косвенным признакам — наличию географически значимых терминов (названий районов, достопримечательностей, улиц). Это позволяет таким страницам ранжироваться в локальном поиске.

    Как я могу повлиять на то, как система воспринимает географическую релевантность моего контента?

    Необходимо последовательно использовать комбинации локальных идентификаторов в вашем контенте. Совместное упоминание названий улиц, районов, местных ориентиров и неформальных топонимов помогает системе снять неоднозначность и уверенно ассоциировать ваш контент с нужной локацией. Важно, чтобы этот контекст выглядел естественно.

    Какое значение имеет текст, окружающий явный адрес (NAP) на странице?

    Он имеет критическое значение на этапе обучения системы. Google анализирует текст вблизи однозначных адресов, чтобы понять, какие слова ассоциируются с этой локацией. Для SEO это означает, что размещение локально релевантного описания рядом с блоком NAP может усилить понимание системой вашего местоположения и связанных с ним тем.

    Как этот патент влияет на бизнесы с несколькими локациями (Multi-location businesses)?

    Для таких бизнесов крайне важно четко разделять географические сигналы на страницах разных филиалов. Каждая локальная страница должна содержать уникальный контент и уникальные локальные идентификаторы (районы, ориентиры), относящиеся только к этому филиалу, чтобы избежать путаницы и обеспечить правильную классификацию каждой страницы.

    Может ли система дополнить частичный адрес, найденный на сайте?

    Да. В патенте (Claims 2 и 3) явно указано, что если система идентифицирует частичный адрес и сможет разрешить общий географический контекст документа с помощью других терминов, она может сгенерировать полный адрес или точный Location Identifier для этого частичного адреса.

    Является ли этот патент устаревшим, учитывая дату первой подачи (2004 год)?

    Нет. Этот патент (выдан в 2016) является продолжением исходной заявки, что указывает на активное развитие технологии. Хотя современные NLP-модели стали сложнее, фундаментальные принципы использования контекста и совместного упоминания для разрешения географической неоднозначности остаются краеугольным камнем локального поиска.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.