Google использует анализ «избыточных запросов» (тем, которые ищут в регионе значительно чаще, чем в среднем по стране) для определения поведенческой схожести географических локаций, независимо от расстояния. Это позволяет Google переносить метки интересов из регионов с богатыми данными в похожие регионы с недостаточной статистикой, улучшая таргетинг контента и рекламы.
Описание
Какую задачу решает
Патент решает проблему недостатка информации для таргетинга (insufficient targeting information) в определенных географических регионах. Это актуально для малонаселенных или удаленных районов, где исторических данных о запросах недостаточно для определения интересов пользователей. Также система решает задачу подбора релевантного контента (включая рекламу) в ситуациях, когда контекстные сигналы отсутствуют (например, при просмотре карт), но известно местоположение пользователя.
Что запатентовано
Запатентована система для атрибуции меток (Labels) географическому региону путем заимствования информации у статистически схожих регионов. Ключевая особенность — схожесть определяется не географической близостью, а анализом общих «избыточных запросов» (shared excess queries) — запросов, которые необычно популярны в обеих локациях по сравнению с базовым уровнем. Это позволяет профилировать локацию, найдя ее поведенческого «двойника».
Как это работает
Система функционирует через комплексный анализ логов запросов:
- Расчет базового уровня: Определяется ожидаемая частота запроса (Expected Query Count) для региона на основе глобальной статистики (например, национальной).
- Идентификация аномалий: Если фактическая частота запроса в регионе (Geo-Query Count) значительно превышает ожидаемую, он классифицируется как Excess Query.
- Поиск схожих регионов: Система ищет другие географические объекты со схожими паттернами Excess Queries в течение времени, используя пороги схожести и различий.
- Распространение меток (Label Propagation): Метки интересов из схожих регионов переносятся в целевой регион с недостатком данных. Это часто происходит через графовую модель, использующую иерархические ячейки (G-cells), где граф может учитывать как схожесть, так и близость.
- Таргетинг: Атрибутированные метки используются для подбора релевантного контента или рекламы в целевом регионе.
Актуальность для SEO
Высокая. Понимание локального контекста и региональных интересов на основе поведения пользователей остается критически важной задачей для Google. Базовая концепция использования статистических аномалий (Excess Queries) и переноса данных между поведенчески схожими объектами остается фундаментально актуальной для персонализации и локального поиска в 2025 году.
Важность для SEO
Патент имеет значительное влияние (7.5/10) на стратегию Local SEO. Хотя он в первую очередь фокусируется на таргетинге контента (вероятно, рекламы), он раскрывает механизм, как Google формирует понимание уникальных локальных интересов. Понимание концепции Excess Queries критически важно для выявления неявного локального спроса и адаптации контент-стратегии под реальные интересы аудитории в конкретном регионе, выходя за рамки стандартной локальной оптимизации.
Детальный разбор
Термины и определения
- Excess Query (Избыточный запрос)
- Запрос, фактическая частота которого в регионе (Geo-Query Count) превышает ожидаемую частоту (Expected Query Count) на пороговое значение. Индикатор уникального локального интереса.
- Expected Query Count (Ожидаемая частота запроса)
- Базовый уровень частоты запроса, ожидаемый в данном регионе. Рассчитывается на основе глобальной доли запроса (Query Share) и общего объема запросов в регионе.
- Geographic Feature (Географический объект/регион)
- Локация (город, регион, G-cell), являющаяся единицей анализа схожести.
- Geo-Query Count (Фактическая частота запроса в регионе)
- Количество раз, когда запрос был получен из определенного региона за указанный период.
- G-cells (Geo-cells, Гео-ячейки)
- Ячейки в иерархическом представлении географических областей. Используются как узлы в графе для распространения меток.
- Label Propagation (Распространение меток)
- Процесс переноса меток (Labels) между связанными узлами графа. Связь может быть основана на близости или статистической схожести (через Excess Queries).
- Labels / Targeting Information (Метки / Информация для таргетинга)
- Ключевые слова или концепции, ассоциированные с регионом, отражающие интересы пользователей. Используются для таргетинга контента.
- Query Share (Доля запроса)
- Доля конкретного запроса относительно общего числа запросов в базовом (референсном) регионе (например, в стране).
- Shared Excess Queries (Общие избыточные запросы)
- Excess queries, которые наблюдаются одновременно в двух или более географических областях. Являются основой для определения поведенческой схожести локаций.
- Similar Geographic Feature (Схожий географический объект)
- Регион, имеющий статистически схожий паттерн Excess Queries с целевым регионом.
Ключевые утверждения (Анализ Claims)
Анализ основан на финальных утверждениях (Claims 1-19) патента US10146883B2.
Claim 1 (Независимый пункт): Описывает основной метод.
- Определение целевого географического объекта, у которого изначально нет ассоциированной информации для таргетинга.
- Определение одного или нескольких схожих географических объектов. Схожесть основана на сравнении количества запросов (comparison of query counts). Схожие объекты географически отличны (distinct) от целевого и имеют информацию для таргетинга.
- Атрибутирование информации для таргетинга от схожих объектов целевому объекту.
- Предоставление таргетированного контента, связанного с целевым объектом, на основе атрибутированной информации.
Claim 2 (Зависимый от 1): Критическое уточнение.
Географическая близость (geographic proximity) НЕ является фактором при определении схожих географических объектов.
Хотя в описании патента упоминается возможность использования близости (связи с соседями) в графовой модели для распространения меток, защищенное ядро изобретения (Claims) определяет схожесть исключительно на основе поведения, независимо от расстояния.
Claim 9 и 10 (Зависимые от 1): Детализируют механизм сравнения запросов (упомянутый в Claim 1).
- (Claim 9) Сравнение основано на excess query count (избыточном количестве запросов), которое определяется как число гео-запросов, превышающее расчетное ожидаемое количество (expected query count).
- (Claim 10) Определение схожести основано на сравнении excess query counts за разные периоды времени (different time periods).
Система ищет устойчивые во времени паттерны аномально популярных запросов для определения поведенческой схожести локаций.
Claim 11 и 12 (Зависимые от 1): Вводят механизм валидации схожести.
- (Claim 11) Определение схожести включает сравнение количества несхожих избыточных запросов (dissimilar excess queries) с порогом несхожести (dissimilarity threshold).
- (Claim 12) Если количество несхожих запросов превышает порог, объекты признаются непохожими.
Система проверяет не только то, что объединяет локации, но и то, что их разделяет, чтобы избежать ложных срабатываний.
Claim 7 и 8 (Зависимые от 1): Описывают механизм распространения меток.
- (Claim 7) Создается граф, где вершины — географические объекты, ребра взвешены и соединяют похожие объекты. Метки распространяются по графу.
- (Claim 8) Процесс распространения (Label Propagation) является итеративным: инициализация весов, отправка меток по связям, агрегация и масштабирование весов в узлах (абсорбция), повторение до стабилизации.
Где и как применяется
Изобретение требует значительных офлайн-вычислений для профилирования локаций и применяется в реальном времени для выбора контента.
Офлайн-процессы (Аналог INDEXING / DATA ANALYSIS)
Большая часть работы происходит здесь. Система анализирует Search Log Data для профилирования регионов:
- Вычисление Expected Query Counts и Geo-Query Counts.
- Идентификация Excess Queries для всех регионов в разные периоды времени.
- Сравнение профилей и построение графа географических объектов (G-cells), где связи отражают схожесть (и, согласно описанию патента, возможно, близость).
- Выполнение Label Propagation по графу.
RANKING / RERANKING / METASEARCH (Применение в реальном времени)
Применяется при получении запроса на контент (например, рекламы или персонализированного поиска), когда явные сигналы (контекст страницы, текст запроса) слабы или отсутствуют.
- Система определяет местоположение пользователя (Target Geographic Feature).
- Если контекстных данных недостаточно или локация имеет мало исторических данных, система обращается к предварительно рассчитанным атрибутированным меткам.
- Эти метки используются как сигналы для выбора и ранжирования релевантного контента.
Входные данные:
- Журналы поисковых запросов (текст, местоположение источника, время).
- Базовая статистика частотности запросов (Query Shares).
- Географические данные (Города, регионы, G-cells).
Выходные данные:
- Оценки схожести между географическими объектами.
- Атрибутированные метки (Labels) для локаций с недостатком данных.
На что влияет
- Конкретные типы контента: В первую очередь влияет на таргетированную рекламу и персонализацию контента (например, новости, рекомендации).
- Специфические сценарии: Наиболее активно применяется в сценариях без явного контекста, например, при просмотре онлайн-карт (упоминается в патенте).
- Географические ограничения: Механизм разработан для улучшения качества выдачи в регионах с разреженными данными (insufficient targeting information).
- Типы устройств: Патент упоминает возможность раздельного анализа для мобильных и десктопных устройств, так как их паттерны использования различаются.
Когда применяется
- Триггер активации: Когда местоположение пользователя известно (через GPS, IP, триангуляцию, центр карты и т.д.), но недостаточно явной информации для таргетинга из текущей сессии (нет поискового запроса или контент страницы общий).
- Условие: Сама целевая локация имеет недостаточно исторических данных для надежного определения интересов.
Пошаговый алгоритм
Фаза А: Идентификация избыточных запросов (Excess Queries) (Офлайн)
- Доступ к логам и расчет базовой линии: Анализ логов запросов в референсном регионе (например, стране) для вычисления Query Share для каждого запроса.
- Выбор локации и периода: Выбор конкретного географического объекта и временного периода для анализа.
- Расчет фактической частоты: Подсчет Geo-Query Count (фактического количества каждого запроса) в этой локации.
- Расчет ожидаемой частоты: Вычисление Expected Query Count (Общее число запросов в локации * Query Share).
- Сравнение и классификация: Если Geo-Query Count превышает Expected Query Count на заданный порог, запрос классифицируется как Excess Query.
Фаза Б: Поиск схожих географических объектов (Офлайн)
- Сравнение профилей: Система сравнивает наборы Excess Queries между разными локациями за несколько временных периодов.
- Оценка сходства: Учитывается количество общих Excess Queries и их качество (Quality) (например, процент превышения, семантическая кластеризация). Проверяется порог сходства (similarity threshold).
- Проверка на несходство: Учитывается количество dissimilar excess queries. Проверяется порог несходства (dissimilarity threshold).
- Идентификация схожести: Локации, удовлетворяющие критериям, помечаются как Similar Geographic Features.
Фаза В: Распространение меток (Label Propagation) (Офлайн)
- Построение графа: Создается граф, где вершины — географические объекты (G-cells). Вершины соединяются ребрами на основе географической близости (согласно описанию) И/ИЛИ на основе схожести (из Фазы Б). Ребрам присваиваются веса.
- Инициализация меток: В вершинах с достаточными данными инициализируются метки (Labels) и их веса.
- Итеративная абсорбция:
- Отправка: Узлы отправляют свои метки по связям (вес метки * вес связи).
- Агрегация: Каждый узел агрегирует полученные метки.
- Масштабирование: Веса меток в узле нормализуются (масштабируются).
- Стабилизация: Шаг 3 повторяется до тех пор, пока веса меток в графе не стабилизируются.
Фаза Г: Обслуживание контента (Реальное время)
- Получение запроса: Поступает запрос на контент с указанием целевой локации.
- Извлечение меток: Если контекстной информации недостаточно, система извлекает атрибутированные метки, полученные в Фазе В.
- Выбор контента: Таргетированный контент выбирается на основе этих меток.
Какие данные и как использует
Данные на входе
- Поведенческие факторы: Журналы поисковых запросов (Search Log Data). Это основной источник данных. Анализируется текст, частота и тренды запросов.
- Географические факторы: Местоположение источника запроса (GPS, IP-адрес, триангуляция сотовой сети, центр отображаемой карты). Используются для привязки запросов к регионам (G-cells, городам).
- Временные факторы: Временные метки запросов. Используются для анализа устойчивости паттернов в течение нескольких периодов.
- Пользовательские факторы: Упоминается тип устройства (мобильный или десктоп). Анализ может проводиться раздельно для разных типов устройств.
Какие метрики используются и как они считаются
- Query Share: Частота запроса в базовом регионе. (Число запросов X / Общее число запросов в базовом регионе).
- Geo-Query Count: Фактический подсчет запроса в регионе.
- Expected Query Count: (Общее число запросов в регионе) * (Query Share).
- Excess Query Count: Разница между Geo-Query Count и Expected Query Count. Может выражаться как абсолютное число или процент превышения.
- Similarity Threshold: Минимальное количество общих Excess Queries для признания схожести.
- Dissimilarity Threshold: Максимально допустимое количество различных Excess Queries.
- Quality of Excess Queries: Метрика качества общих избыточных запросов. Упоминается измерение на основе объема (volume) или семантической кластеризации (semantic clustering).
- Graph Edge Weights / Label Weights: Веса, используемые в процессе Label Propagation.
Выводы
- Поведенческая схожесть важнее географической близости: Ключевой вывод — Google активно идентифицирует локации, которые «ведут себя» одинаково с точки зрения поисковых паттернов, даже если они находятся далеко друг от друга. В защищенных Claims (Claim 2) прямо указано, что географическая близость не является фактором схожести.
- Excess Queries как ДНК региона: Уникальность региона определяется не самыми частотными запросами, а теми, которые значительно популярнее в этом месте по сравнению со средним уровнем. Это формирует уникальный профиль интересов локации.
- Решение проблемы нехватки данных: Патент описывает конкретный механизм (графовая модель и Label Propagation) для «заполнения пробелов» в данных для локаций с низкой активностью путем заимствования меток из схожих локаций.
- Важность временного анализа и трендов: Схожесть анализируется за несколько временных периодов (Claim 10), что позволяет идентифицировать устойчивые тренды, а не временные всплески активности.
- Механизмы валидации сходства: Система использует проверку на несходство (dissimilarity threshold) и качество общих запросов (Quality) для предотвращения ложных срабатываний, гарантируя, что схожесть является всесторонней.
- Таргетинг без контекста: Механизм позволяет предоставлять релевантный контент, даже если в текущем контексте пользователя (например, на картах) нет ключевых слов для таргетинга.
Практика
Best practices (это мы делаем)
- Выявление уникальных локальных интересов (Потенциальных Excess Queries): Необходимо анализировать не только частотность запросов, но и их относительную популярность в целевых регионах. Используйте Google Trends (сравнивая регион со страной), чтобы выявить темы, которые необычно популярны локально (особенно запросы в статусе «Rising» или «Breakout»).
- Создание контента под локальный интент: Разрабатывайте контент, который обслуживает эти уникальные местные интересы, а не только стандартные локализованные ключевые слова («услуга + город»). Это повышает вероятность того, что ваш контент будет ассоциирован с Labels, которые Google использует для профилирования региона.
- Идентификация «Городов-побратимов» для экспансии: Если бизнес-модель успешна в одном рынке, используйте анализ трендов для выявления поведенчески схожих рынков (Similar Geographic Features) для масштабирования. Патент подтверждает, что аудитория в таких городах может быть восприимчива к аналогичным предложениям.
- Разделение мобильной и десктопной стратегии: Учитывая, что патент предполагает раздельный анализ для разных устройств, анализируйте тренды и оптимизируйте контент отдельно для мобильной выдачи, где локальный интент выражен сильнее.
Worst practices (это делать не надо)
- Применение единой SEO-стратегии для всех регионов: Игнорирование локальной специфики и предположение, что пользователи во всех городах имеют одинаковые интересы. Профили интересов сильно варьируются и основаны на поведении.
- Фокус только на высокочастотных запросах: Игнорирование нишевых местных интересов, которые могут иметь низкую национальную частотность, но высокую локальную значимость (быть Excess Queries).
- Предположение, что близость равна схожести: Ошибка считать, что соседние города имеют одинаковые интересы. Таргетинг должен основываться на данных о поведении, а не только на географии.
Стратегическое значение
Патент подтверждает переход Google от простого гео-таргетинга к сложному поведенческому пониманию локаций. Система стремится понять уникальный «характер» региона через анализ того, что ищут его жители. Для Local SEO это означает, что стратегия должна включать глубокий анализ локальной специфики и адаптацию контента под реальные поведенческие паттерны (Excess Queries), выходя за рамки традиционной оптимизации (NAP, упоминание города).
Практические примеры
Сценарий: Оптимизация сайта магазина спортивных товаров в Регионе А
- Анализ (Имитация Google): SEO-специалист анализирует Google Trends и предполагает, что в Регионе А есть аномально высокий интерес к «горным велосипедам» (потенциальный Excess Query).
- Анализ Схожести (Гипотеза): Система Google может определить, что Регион Б (в другой части страны, но с похожим ландшафтом) также имеет схожий профиль интересов.
- Действия SEO: Специалист фокусирует контент локальной посадочной страницы Региона А на горных велосипедах, создавая гайды по местным маршрутам и обзоры снаряжения.
- Результат: Сайт лучше отвечает локальному интенту. Если пользователь в Регионе А ищет общий запрос «спортивный магазин», система может предпочесть этот сайт, так как он лучше соответствует общему профилю интересов региона (Labels), связанных с горными велосипедами.
- Дополнительный результат (Таргетинг): Если пользователь в Регионе А просматривает карту (контекст без ключевых слов), система может показать рекламу этого магазина, используя атрибутированную метку «горные велосипеды».
Вопросы и ответы
Что такое «Excess Query» (Избыточный запрос) простыми словами?
Это запрос, который в определенном городе или регионе задают значительно чаще, чем ожидалось бы, исходя из средней статистики по стране. Например, если в среднем запрос «ремонт снегоходов» составляет 0.1% всех запросов, а в конкретном городе он составляет 10%, это Excess Query. Он указывает на сильный и уникальный локальный интерес.
Как Google определяет, что два города похожи, если они находятся далеко друг от друга?
Схожесть определяется поведением пользователей, а не географией (Claim 2). Система сравнивает наборы Excess Queries за разные периоды времени. Если два города постоянно проявляют аномально высокий интерес к одним и тем же темам (и при этом не имеют слишком много различий в других темах), они считаются поведенчески схожими.
Влияет ли этот патент на органическое ранжирование или только на рекламу?
Патент в первую очередь сфокусирован на улучшении таргетинга контента (Targeting Information), что часто подразумевает рекламу, особенно при отсутствии контекста (например, на картах). Однако вычисленные метки интересов (Labels) формируют общее понимание региона. Это понимание может использоваться для персонализации органической выдачи и оценки релевантности контента для локальной аудитории.
Как система защищается от ложного определения схожести?
Используются несколько механизмов. Во-первых, порог схожести (Similarity Threshold) требует минимального количества общих Excess Queries. Во-вторых, порог несхожести (Dissimilarity Threshold) гарантирует, что если у регионов слишком много различающихся трендов, они не будут признаны схожими. В-третьих, учитывается качество (Quality) общих запросов.
Что такое Label Propagation (Распространение меток)?
Это процесс копирования меток интересов из одной локации в другую. Google строит граф, где узлы — это локации (G-cells). Связи устанавливаются на основе схожести (и, возможно, близости). Метки итеративно «перетекают» (через процесс абсорбции) от узлов с богатыми данными к связанным с ними узлам с недостатком данных до стабилизации системы.
Как SEO-специалист может определить Excess Queries для своего региона?
Прямого инструмента нет, но можно имитировать этот анализ с помощью Google Trends. Сравнивайте интерес к темам в конкретном регионе с интересом в стране в целом. Темы с индексом значительно выше 100, а также запросы в статусе «Rising» или «Breakout» в регионе являются хорошими кандидатами на Excess Queries.
Учитывает ли система временные тренды?
Да, это важная часть механизма. В патенте (Claim 10) указано, что анализ схожести проводится путем сравнения Excess Queries за разные периоды времени. Это позволяет отличать устойчивые характеристики региона от временных всплесков интереса.
Влияет ли тип устройства пользователя (мобильный/десктоп) на эту систему?
Да, в описании патента упоминается возможность разделения анализа для разных типов устройств. Поскольку пользователи мобильных устройств чаще ищут локальную информацию, система может создавать отдельные профили Excess Queries для мобильного и десктопного трафика, чтобы повысить точность таргетинга.
Может ли эта система помочь моему сайту ранжироваться в других похожих городах?
Теоретически, да. Если ваш контент сильно релевантен уникальным интересам (Excess Queries) вашего города А, и Google считает город Б статистически схожим, ваш контент может быть признан более релевантным и для пользователей в городе Б, так как метки интересов будут перенесены.
Как этот патент помогает регионам, где очень мало поисковых запросов?
Это основная задача патента. Для таких регионов система находит поведенчески похожий регион с достаточным объемом данных, перенимает его профиль интересов (метки) и использует его для таргетинга в малоактивном регионе, вместо того чтобы показывать нерелевантный контент.