Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google алгоритмически определяет основное географическое местоположение веб-страницы, используя анализ текста, IDF и данные о населении

    DETERMINING A GEOGRAPHIC LOCATION RELEVANT TO A WEB PAGE (Определение географического местоположения, релевантного веб-странице)
    • US8468156B2
    • Google LLC
    • 2013-06-18
    • 2006-04-04
    2006 EEAT и качество Local SEO Патенты Google Семантика и интент

    Анализ патента Google, описывающего метод определения наиболее релевантного географического местоположения для веб-страницы. Система анализирует текст на странице (названия городов, штатов, почтовые индексы) и вычисляет оценку местоположения (Location Score). При расчете учитывается редкость слова в интернете (IDF) и данные о численности населения (Population Score), что позволяет системе отдавать предпочтение более крупным и уникально идентифицируемым локациям.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу автоматического определения наиболее релевантного географического местоположения (страна, штат/регион, город) для конкретной веб-страницы. Это необходимо для улучшения локального поиска, позволяя поисковой системе понять географический контекст контента и разрешить неоднозначности, когда на странице упоминается несколько локаций или когда названия локаций совпадают (например, отличить Paris во Франции от Paris в Техасе).

    Что запатентовано

    Запатентован метод алгоритмического определения географической релевантности веб-страницы. Система вычисляет Geographic Location Score для множества потенциальных местоположений на основе слов, присутствующих на странице. Эта оценка рассчитывается путем взвешивания географических индикаторов (названий локаций, индексов) с использованием таких факторов, как обратная частотность документа (IDF) и оценка, основанная на численности населения (Population Score). Местоположение с наивысшей итоговой оценкой признается наиболее релевантным.

    Как это работает

    Система анализирует текст веб-страницы и идентифицирует географические индикаторы (названия городов, штатов, стран, почтовые индексы). Для каждого индикатора вычисляется оценка релевантности, которая учитывает, насколько редко встречается это слово в вебе (IDF) и насколько велико население в этой локации (Population Score). Затем оценки для всех слов на странице суммируются для каждого потенциального местоположения, формируя итоговый Total Geographic Location Score. Система использует иерархический подход (сначала регион, затем город) и выбирает локацию с наивысшим итоговым баллом, превышающим порог уверенности.

    Актуальность для SEO

    Высокая. Определение географической привязки контента является критически важным компонентом локального поиска (Local SEO) и персонализации выдачи в 2025 году. Методы, описанные в патенте, предоставляют алгоритмическую основу для понимания географического контекста страницы на основе ее контента. Использование IDF и демографических данных для взвешивания сигналов остается актуальным подходом в Information Retrieval.

    Важность для SEO

    Патент имеет высокое значение для Local SEO (85/100). Он раскрывает конкретные механизмы, которые Google может использовать для оценки географической релевантности контента на уровне страницы. Понимание того, что система учитывает не только наличие названия города, но и его численность населения (значимость), а также уникальность названия (через IDF), дает четкие указания по оптимизации локальных страниц и разрешению географических неоднозначностей.

    Детальный разбор

    Термины и определения

    Geographic Location Score (Оценка географического местоположения)
    Метрика, рассчитываемая для конкретного слова на веб-странице и конкретного географического местоположения. Оценивает вероятность того, что данное слово относится именно к этому местоположению.
    Total Geographic Location Score (Итоговая оценка географического местоположения)
    Сумма Geographic Location Scores для всех слов на веб-странице, относящихся к конкретному географическому местоположению. Используется для ранжирования потенциальных локаций.
    Inverse Document Frequency (IDF) (Обратная частотность документа)
    Метрика, которая увеличивает вес редких терминов. В контексте патента, IDF используется для придания большего веса уникальным названиям локаций по сравнению с распространенными словами.
    Population Score (popl) (Оценка населения)
    Метрика, основанная на численности населения географического местоположения. Используется для придания большего веса более крупным городам и разрешения неоднозначностей.
    Location Prediction (Прогнозирование местоположения)
    Процесс определения наиболее вероятного географического местоположения (страны, штата, города), связанного с веб-страницей.
    C_state, C_city, C_zip (Весовые коэффициенты)
    Константы, используемые для взвешивания различных типов сигналов местоположения (название штата, название города, почтовый индекс) при расчете Geographic Location Score.

    Ключевые утверждения (Анализ Claims)

    Патент US8468156B2 сфокусирован исключительно на методе определения географического местоположения веб-страницы.

    Claim 1 (Независимый пункт): Описывает основной метод определения наиболее релевантного географического местоположения для веб-страницы.

    1. Вычисление Geographic Location Score для каждой географической локации и для каждого слова на веб-странице. Эта оценка определяет релевантность слова к местоположению.
    2. Генерация Total Geographic Location Score для каждой географической локации на основе индивидуальных оценок.
    3. Выбор географического местоположения как наиболее релевантного веб-странице на основе итоговых оценок.

    Claim 2 (Зависимый): Уточняет условие выбора: итоговая оценка выбранного местоположения должна удовлетворять определенному порогу (Threshold).

    Claim 3 (Зависимый): Уточняет, что генерация итоговой оценки включает суммирование индивидуальных Geographic Location Scores.

    Claim 4 (Зависимый): Уточняет критерий выбора: выбирается местоположение с наибольшей итоговой оценкой.

    Claims 5, 6, 7 (Зависимые): Детализируют расчет Geographic Location Score для разных типов индикаторов. Это ядро изобретения.

    • Claim 5 (Название штата/региона): Если слово является названием штата, оценка пропорциональна IDF этого слова.
    • Claim 6 (Название города): Если слово является названием города, оценка основывается на IDF слова И численности населения (population) этого города.
    • Claim 7 (Почтовый индекс): Если слово является почтовым индексом, оценка основывается на IDF слова И численности населения города, представленного этим индексом.

    Где и как применяется

    Изобретение применяется на этапе обработки контента для определения его географического контекста.

    INDEXING – Индексирование и извлечение признаков
    Основной этап применения. Во время анализа контента веб-страницы (Feature Extraction) система применяет описанный алгоритм (Location Prediction) для идентификации географических сигналов в тексте. Вычисляются Geographic Location Scores и определяется наиболее релевантное местоположение. Эта информация сохраняется в индексе как признак (feature) документа.

    RANKING / RERANKING – Ранжирование / Переранжирование
    Данные о географической релевантности страницы используются на этапах ранжирования. В частности, они применяются для расчета Location Score (фактор ранжирования, упомянутый в описании патента), который сравнивает близость между местоположением страницы и местоположением, связанным с запросом пользователя. Это критически важно для локального ранжирования.

    Входные данные:

    • Текст веб-страницы.
    • База данных географических названий (города, штаты, страны, аббревиатуры, почтовые индексы).
    • Данные о численности населения для локаций.
    • Данные IDF для слов (на основе большого корпуса веб-документов).

    Выходные данные:

    • Идентификатор наиболее релевантного географического местоположения для веб-страницы (например, Город и Штат/Страна).

    На что влияет

    • Конкретные типы контента: Наибольшее влияние оказывается на контент с явной географической привязкой: локальные бизнес-страницы, страницы филиалов, новостные сайты, сайты недвижимости, каталоги.
    • Специфические запросы: Влияет на ранжирование по локальным запросам (явным, например, «пицца Москва», и неявным, где интент подразумевает локальный результат).
    • Конкретные ниши или тематики: Критически важно для всех ниш, связанных с локальным бизнесом и услугами (Local SEO).

    Когда применяется

    • Временные рамки: Алгоритм применяется во время индексирования или переиндексирования веб-страницы.
    • Условия и пороги: Местоположение присваивается странице только в том случае, если итоговый Total Geographic Location Score превышает заданный порог (в описании упоминается как threshold t_s). Если ни одна оценка не превышает порог, местоположение не определяется. Для городов может применяться дополнительный относительный порог (например, 0.3 от оценки штата/страны).

    Пошаговый алгоритм

    Процесс прогнозирования местоположения веб-страницы (Location Prediction)

    1. Препроцессинг текста: Идентификация многословных географических названий в тексте страницы (например, «New York City»). Они обрабатываются как единые токены.
    2. Инициализация оценок: Установка оценок для всех потенциальных локаций Уровня 1 (например, стран и штатов) в ноль.
    3. Расчет оценок Уровня 1 (Штаты/Страны):

      Для каждого слова (токена) wj на странице система вычисляет его вклад в оценку каждого штата/страны Si. Вклад (L_s(wj, Si)) рассчитывается по правилам:

      • Если слово = название штата/аббревиатура: Вклад = C_state * idf(wj).
      • Если слово = название города в штате: Вклад = C_city * idf(wj) * popl(wj, Si).
      • Если слово = почтовый индекс в штате: Вклад = C_zip * idf(wj) * popl(wj, Si).

      Примечание: Одно слово может способствовать оценкам нескольких локаций, если оно неоднозначно.

    4. Агрегация оценок: Индивидуальные вклады слов суммируются для получения итоговой оценки L(Si) (Total Geographic Location Score) для каждого штата/страны.
    5. Выбор Уровня 1: Выбирается штат/страна с наивысшей итоговой оценкой, при условии, что эта оценка превышает порог t_s.
    6. Расчет и Выбор Уровня 2 (Города): Если штат/страна определены, система рассчитывает оценки для городов внутри этой локации. Выбирается город с наивысшей оценкой, при условии, что его оценка превышает относительный порог (например, 0.3 от оценки штата/страны).
    7. Сохранение результата: Определенная пара (Город, Штат/Страна) сохраняется как наиболее релевантное местоположение страницы.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Весь текст веб-страницы используется для поиска географических индикаторов (топонимов и индексов).
    • Географические и Демографические факторы (Внешние данные):
      • Базы данных названий стран, штатов, городов и их аббревиатур.
      • Базы данных почтовых индексов и их привязки к городам.
      • Данные о численности населения (Population data) для городов.
    • Системные данные:
      • Inverse Document Frequency (IDF) для всех слов, рассчитанная на основе большого корпуса документов (веб-индекса).

    Какие метрики используются и как они считаются

    • Geographic Location Score (L_s): Основная метрика релевантности слова к локации. Расчет зависит от типа индикатора (см. Алгоритм, Шаг 3), используя весовые коэффициенты (C_state, C_city, C_zip), IDF и Population Score.
    • Inverse Document Frequency (IDF):

      Формула из описания: idf(w) = 1.5 * log(5) / (log(5 + count(w))).
      count(w) — количество веб-страниц в коллекции, содержащих слово w. Оценка варьируется от 1.5 (редкое слово) до 0 (частое слово).

    • Population Score (popl):

      Формула из описания для городов: popl(w, s) = 1 + log(max(population(wj, s), 10000) / 10000) / 2.
      Эта формула нормализует влияние населения, используя логарифмическую шкалу и минимальный порог (10000).

    • Total Geographic Location Score (L(Si)): Сумма индивидуальных Geographic Location Scores для локации Si.
    • Пороговые значения: Используется порог t_s для валидации итоговой оценки локации и относительные пороги для выбора города.

    Выводы

    1. Алгоритмическое определение локации по контенту: Патент подтверждает, что Google использует сложные алгоритмы для определения географической релевантности на уровне страницы, анализируя ее неструктурированное текстовое содержимое. Это снижает зависимость от таких сигналов, как TLD домена или IP-адрес сервера.
    2. Важность уникальности (IDF): Использование IDF означает, что уникальные географические названия имеют больший вес, чем распространенные. Упоминание редкого топонима (например, названия района или небольшого уникального поселка) является сильным сигналом привязки.
    3. Влияние демографии (Population Score): Система отдает предпочтение более крупным населенным пунктам. При прочих равных условиях, упоминание крупного города даст больший вклад в Location Score. Это помогает разрешать неоднозначности: если есть два города с одинаковым названием, предпочтение отдается более крупному.
    4. Иерархический подход и валидация: Система использует двухуровневый подход (Штат/Страна, затем Город) и применяет пороговые значения для подтверждения результата. Это означает, что для надежного определения локации необходим достаточный объем и качество географических сигналов на странице.
    5. Цель – выбрать одну главную локацию: Алгоритм разработан для выбора единственного наиболее релевантного местоположения. При наличии нескольких локаций на странице система выберет доминирующий сигнал.

    Практика

    Best practices (это мы делаем)

    • Четкие и полные локальные сигналы (NAP): Убедитесь, что на локальных страницах присутствуют полные и консистентные данные Name, Address, Phone (NAP), включая название города, штата/региона и почтовый индекс. Согласно патенту (Claims 5, 6, 7), все эти элементы используются для расчета Location Score.
    • Использование уникальных идентификаторов (Почтовые индексы): Почтовые индексы являются сильными сигналами (Claim 7), так как они часто уникальны (высокий IDF) и менее неоднозначны, чем названия городов. Включайте их в контактную информацию и основной контент.
    • Локальный контент и Disambiguation (Разрешение неоднозначности): Создавайте контент, который содержит достаточно географических контекстных подсказок. Если название вашего города распространено (низкий IDF), обязательно используйте уточняющие данные (штат, индекс). Например, всегда пишите «Springfield, Illinois», а не просто «Springfield».
    • Оптимизация под крупные города (для региональных сайтов): Если бизнес обслуживает регион, включающий крупный город, акцентируйте упоминание этого города в контенте. Population Score увеличивает вес крупных населенных пунктов, что поможет системе правильно определить основную локацию и повысит релевантность страницы для запросов из этого города.
    • Структурирование мультирегиональных сайтов: Для сайтов, работающих в нескольких регионах, создавайте отдельные посадочные страницы для каждой локации с четкими, непересекающимися географическими сигналами, чтобы избежать выбора системой только одной доминирующей локации для всех страниц.

    Worst practices (это делать не надо)

    • Неоднозначные географические сигналы: Использование только названия города, особенно если оно распространено или город небольшой, без указания штата или индекса. Это может привести к тому, что Location Score не достигнет порога или будет определен неверно.
    • Спам географическими ключевыми словами (Keyword Stuffing): Простое многократное повторение названия города или перечисление списка городов в футере не гарантирует результат, так как система использует IDF и Population Score, а не только частоту упоминания.
    • Игнорирование небольших населенных пунктов: Если вы таргетируетесь на небольшой город, полагаться только на его название рискованно из-за низкого Population Score. Необходимо максимально усилить другие сигналы (индекс, название региона/штата, уникальные местные названия).
    • Противоречивая информация на одной странице: Размещение на одной странице контента, который в равной степени относится к разным удаленным локациям. Это может запутать алгоритм и привести к выбору только одной локации (с наибольшим баллом) или к неопределенному результату (ниже порога уверенности).

    Стратегическое значение

    Этот патент подчеркивает стратегическую важность контента для Local SEO. Он демонстрирует, что географическая релевантность — это вычисляемая метрика, основанная на анализе текста с учетом внешних данных (демография и статистика использования языка). Для SEO-специалистов это означает, что управление локальными сигналами на странице является прямой оптимизацией под алгоритмы определения местоположения Google. Стратегия должна включать создание сильного, однозначного географического контекста для каждой важной страницы.

    Практические примеры

    Сценарий 1: Разрешение неоднозначности для города «Springfield»

    В США много городов с названием Springfield. Сайт бизнеса в Спрингфилде, Иллинойс, должен быть оптимизирован.

    • Действия: Упоминать на странице «Springfield», «Illinois» (или «IL») и почтовый индекс (например, «62701»).
    • Как работает алгоритм:
      • «Springfield» имеет низкий IDF и распределенный Population Score.
      • «Illinois» вносит значительный вклад в Location Score штата Иллинойс (Claim 5).
      • Индекс «62701» вносит вклад, основанный на IDF и населении Спрингфилда, Иллинойс (Claim 7).
    • Результат: Сумма этих сигналов позволяет системе корректно идентифицировать страницу как релевантную Спрингфилду, Иллинойс, а не Спрингфилду в Массачусетсе.

    Сценарий 2: Определение главной локации для страницы контактов с несколькими офисами

    На странице перечислены офисы в Seattle, WA (крупный город) и Tacoma, WA (средний город).

    • Действия: Перечисление полных адресов для обоих городов.
    • Как работает алгоритм:
      • Система рассчитывает оценки для Seattle и Tacoma. Seattle получает значительно больший вес за счет высокого Population Score.
      • Оба города вносят вклад в Total Geographic Location Score для штата Washington.
      • Система определяет Washington как основной регион, а затем сравнивает города внутри него.
    • Результат: Наиболее релевантной локацией для страницы будет определен Seattle, WA, так как его оценка выше. Для корректного ранжирования по Tacoma необходима отдельная страница.

    Вопросы и ответы

    Как этот алгоритм влияет на сайты, работающие в нескольких регионах?

    Алгоритм стремится определить ОДНО наиболее релевантное местоположение для страницы (Claim 4 выбирает локацию с наибольшим баллом). Если на странице смешаны сигналы для разных локаций, система выберет ту, которая набрала наибольший Total Geographic Location Score, вероятно, ту, где население больше или сигналы четче. Для мультирегиональных сайтов критически важно иметь отдельные посадочные страницы для каждой локации с четкими географическими сигналами.

    Что важнее для определения локации: уникальность названия города (IDF) или его население (Population Score)?

    Оба фактора важны и перемножаются при расчете оценки для городов (Claim 6). Высокий IDF (уникальное название) помогает выделить город среди других слов. Высокий Population Score помогает разрешить неоднозначность между городами с одинаковым названием и увеличивает общий вес. Крупный город со средним IDF может получить такую же оценку, как небольшой город с очень высоким IDF.

    Как система обрабатывает ситуацию, когда название города совпадает с обычным словом (например, «Home» или «Reading»)?

    Патент решает эту проблему с помощью IDF. Обычные слова имеют очень низкий IDF, так как встречаются в огромном количестве документов. Даже если существует город с таким названием, его вклад в Location Score будет минимальным из-за низкого IDF, если только контекст страницы (например, наличие штата и индекса) не предоставит очень сильных подтверждающих сигналов.

    Имеет ли значение, где именно на странице расположены географические термины (заголовок, футер, основной контент)?

    В описанном механизме (Claims 1 и 3) все слова на странице анализируются и их оценки суммируются для получения итогового балла. Патент не упоминает дифференциацию веса в зависимости от расположения слова на странице (например, повышенный вес для заголовков) конкретно для этого алгоритма. Однако на практике стандартные факторы ранжирования могут учитывать расположение терминов.

    Как оптимизировать страницу, если бизнес находится в небольшом поселке рядом с крупным городом?

    Небольшой поселок будет иметь низкий Population Score. Чтобы система правильно определила локацию, необходимо использовать максимально точные идентификаторы: почтовый индекс поселка (Claim 7) и название штата/региона (Claim 5). Также рекомендуется упоминать крупный город как зону обслуживания, что добавит сильный сигнал за счет его высокого Population Score, помогая странице ранжироваться по запросам, связанным с этим крупным городом.

    Заменяет ли этот алгоритм необходимость использования локальной микроразметки (Schema.org/LocalBusiness) или Google Business Profile (GBP)?

    Нет, не заменяет. Этот алгоритм описывает способ определения локации путем анализа неструктурированного текста (On-Page сигналы). Микроразметка и GBP предоставляют структурированные и верифицированные данные. Рекомендуется использовать все доступные методы и обеспечивать максимальную консистентность сигналов между ними.

    Как обрабатываются аббревиатуры (например, «NY» вместо «New York»)?

    В описании патента упоминается, что система учитывает аббревиатуры при расчете оценок. Они обрабатываются аналогично полным названиям, используя их собственные значения IDF. Система полагается на базу данных (Gazetteer), которая связывает аббревиатуры с соответствующими географическими объектами.

    Может ли этот алгоритм определить локацию страницы, если на ней нет текста, а только встроенная карта или изображение с адресом?

    Нет. Метод, описанный в патенте, основан исключительно на анализе слов (текста) веб-страницы (Claim 1). Если адрес присутствует только на изображении или внутри интерактивного элемента карты (без текстового дублирования), этот конкретный алгоритм не сможет его обработать. Для индексации необходим читаемый текст.

    Как обрабатываются многословные названия локаций?

    В патенте упоминается этап предобработки текста. На этом этапе система идентифицирует многословные названия локаций (например, «New York City» или «Los Altos Hills») и обрабатывает их как единый токен (слово) для последующего анализа и расчета IDF и Population Score.

    Что произойдет, если страница содержит много географических названий, но не фокусируется на конкретной локации (например, статья о путешествии по Европе)?

    Система просуммирует оценки для всех упомянутых локаций. Если сигналы распределены равномерно и нет явного лидера, или если итоговые оценки не превышают порогового значения (Claim 2), система может не определить конкретное релевантное местоположение для этой страницы. Она будет рассматриваться как географически широкая.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.