Патент Google описывает двухэтапную систему для определения географического контекста запросов без явного указания локации. Сначала система анализирует исторические клики по гео-специфичным запросам, чтобы вычислить вероятность связи веб-сайтов с конкретными локациями. Затем, при обработке нового запроса, система агрегирует эти вероятности для сайтов в топе выдачи, взвешивая их по CTR, чтобы определить наиболее вероятное подразумеваемое местоположение запроса.
Описание
Какую задачу решает
Патент решает проблему определения неявного географического интента поискового запроса, когда пользователь не указывает местоположение явно (например, запрос «Эйфелева башня» или «Starbucks»). Система призвана улучшить релевантность выдачи, точно определяя подразумеваемый географический контекст, что особенно важно, когда физическое местоположение пользователя (например, по IP) отличается от локации искомого объекта.
Что запатентовано
Запатентована система для определения географической привязки веб-сайтов и поисковых запросов на основе анализа агрегированных исторических данных о кликах пользователей. Изобретение включает два основных этапа: 1) Офлайн-вычисление географических ассоциаций для веб-сайтов на основе кликов из запросов с явными локациями. 2) Определение локации нового запроса путем агрегации географических оценок сайтов в выдаче, взвешенных по их исторической кликабельности (CTR) по этому запросу.
Как это работает
Механизм функционирует в два этапа:
- Этап 1: Локализация Сайтов (Офлайн). Система анализирует логи запросов. Если пользователи часто ищут «[Сущность] + [Локация]» и кликают на определенный сайт, этот сайт ассоциируется с данной локацией. Вычисляются Location-Specific Scores (вероятность связи с конкретной локацией) и Site Confidence Value (уверенность в наличии гео-привязки).
- Этап 2: Локализация Запроса (Онлайн/Офлайн). Когда поступает гео-неопределенный запрос, система анализирует топовые документы и их веса (Document Weights, основанные на CTR). Она агрегирует Location-Specific Scores сайтов этих документов, используя веса и Site Confidence Value как множители. Если агрегированная вероятность (Query Score) для локации превышает порог, она присваивается запросу.
Актуальность для SEO
Высокая. Определение географического контекста является фундаментальной задачей современного поиска, особенно для Local SEO и мобильной выдачи. Описанный механизм, использующий «мудрость толпы» (агрегированные данные о кликах) для вывода локализации, остается надежным и мощным сигналом в арсенале Google.
Важность для SEO
Патент имеет критическое значение (9/10) для локального и международного SEO. Он детально описывает механизм, с помощью которого поведенческие факторы (клики и CTR) напрямую влияют на понимание Google географической релевантности сайта. Это подчеркивает стратегическую важность привлечения кликов по явно локализованным запросам для улучшения ранжирования по общим запросам с локальным интентом.
Детальный разбор
Термины и определения
- Document Weight (weight(d, Q))
- Вес документа d для запроса Q. Основан на исторических данных о кликах (CTR). Рассчитывается как доля кликов на документ d от общего числа кликов по результатам для запроса Q (Click Fraction).
- Explicit/Implicit Locations (Явные/Неявные локации)
- Явная локация указана в тексте запроса (например, «Париж»). Неявная локация выводится из явной (например, «Франция»).
- Location-Referencing Query (LRQ)
- Исторический запрос, содержащий явное упоминание физического местоположения.
- Location-Specific Score (lss(s, l))
- Оценка, представляющая вероятность того, что сайт s связан с конкретной локацией l. Рассчитывается на основе исторических кликов из LRQ, упоминающих локацию l.
- Query Confidence Value (query_confidence(Q))
- Агрегированная оценка уверенности в том, что запрос Q имеет географический интент.
- Query Score (query_score(Q, l))
- Агрегированная вероятность (Aggregated Likelihood) того, что запрос Q связан с локацией l. Итоговая метрика для присвоения локации запросу.
- Site Click Count (site_clicks(s))
- Общее количество исторических кликов на сайт s из всех запросов.
- Site Confidence Value (site_conf(s))
- Оценка уверенности в том, что сайт s связан с какой-либо физической локацией. Рассчитывается как доля кликов из LRQ от общего числа кликов на сайт.
- Website (Веб-сайт)
- Набор документов с общим начальным путем URL. Может включать доменное имя и, опционально, одну или несколько поддиректорий (например, example.com/boston/).
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод определения географической локации для поискового запроса (Этап 2).
- Система получает поисковый запрос.
- Идентифицируется набор релевантных документов.
- Каждому документу присваивается вес (Document Weight) на основе исторических данных о кликах пользователей (CTR) по аналогичным запросам.
- Идентифицируются веб-сайты, хостящие эти документы.
- Извлекаются предварительно рассчитанные оценки локаций (Location Specific Scores) для этих веб-сайтов. Эти оценки основаны на исторических данных (Site Click Count).
- Для каждого документа рассчитывается оценка запроса (Query Score) на основе его веса и оценок локаций его сайта.
- Определяется географическая локация, связанная с запросом, на основе агрегированных Query Scores.
- Система предоставляет результаты поиска и информацию, связанную с определенной локацией.
Claim 5 (Зависимый): Детализирует расчет Location Specific Scores (Этап 1).
Оценка предопределяется на основе:
- Location-referencing click count (клики по сайту из запросов, ссылающихся на любую локацию).
- Location-specific click count (клики по сайту из запросов, ссылающихся на конкретную локацию).
Claim 6 и 7 (Зависимые): Вводят Site Confidence Value и описывают формулу агрегации.
- Система идентифицирует Site Confidence Value для каждого сайта (вероятность того, что сайт связан с физической локацией).
- Расчет Query Score включает агрегацию Location Specific Scores, взвешенных по весу документа (Document Weight) и масштабированных (scaled) по Site Confidence Value соответствующего сайта.
Где и как применяется
Изобретение использует офлайн-вычисления для анализа исторических данных и применяет результаты для улучшения понимания запросов в реальном времени.
INDEXING – Индексирование и извлечение признаков (Офлайн-процесс)
На этом этапе выполняется Этап 1. Система анализирует исторические логи (Search History Database) для расчета и сохранения географических признаков сайтов (Location-Specific Scores и Site Confidence Values) в Location Database.
QUNDERSTANDING – Понимание Запросов
Здесь происходит Этап 2. Когда поступает новый запрос, система пытается определить его географический контекст. Она использует данные о топовых результатах, их весах (CTR) и предварительно рассчитанные оценки локаций сайтов для вычисления Query Score.
RANKING / RERANKING – Ранжирование / Переранжирование
Если локация успешно определена с высокой уверенностью (Query Score выше порога), она используется как ключевой сигнал для ранжирования или переранжирования результатов, чтобы повысить документы, релевантные этой конкретной локации.
Входные данные:
- Исторические логи запросов и кликов (Этап 1).
- Новый поисковый запрос Q (Этап 2).
- Набор релевантных документов и их Document Weights (CTR) для Q (Этап 2).
- Предварительно рассчитанные Location-Specific Scores и Site Confidence Values (Этап 2).
Выходные данные:
- База данных с оценками географической привязки сайтов (Этап 1).
- Подразумеваемая географическая локация для запроса Q (Этап 2).
На что влияет
- Локальный бизнес (Local SEO): Критически важно для определения видимости по запросам без указания города.
- Мультирегиональные сайты: Влияет на то, как Google определяет релевантность различных региональных версий или разделов сайта.
- Неоднозначные запросы: Помогает разрешать неоднозначность для сущностей с одинаковыми названиями в разных локациях (например, город Albany в разных штатах) на основе популярности кликов.
- Международное SEO: Механизм применим для определения таргетинга на уровне стран.
Когда применяется
- Условия применения: Алгоритм применяется для определения неявного географического интента запроса.
- Пороговые значения: Локация присваивается запросу только при выполнении предопределенных критериев:
- Query Score для конкретной локации должен превышать первый порог (например, 0.5 или 0.35).
- (Опционально) Общая уверенность в локальном интенте запроса (Query Confidence Value) должна превышать второй порог (например, 0.1 или 0.05).
Пошаговый алгоритм
Система состоит из двух основных процессов.
Процесс А: Определение локации веб-сайта (Офлайн)
- Идентификация сайта (s): Определение границ сайта (домен или домен+поддиректория).
- Сбор и фильтрация исторических данных: Идентификация всех прошлых запросов, приведших к кликам на сайт s. Выделение из них Location-Referencing Queries (LRQ) – запросов с явной локацией.
- Подсчет кликов:
- Site Click Count: общее число кликов на сайт s.
- Location-Referencing Click Count: число кликов на сайт s только из LRQ.
- Location-Specific Click Count (s, l): число кликов на сайт s из LRQ, упоминающих конкретную локацию l.
- Расчет Site Confidence Value: Вычисление вероятности того, что сайт имеет гео-привязку. Формула: (Location-Referencing Click Count / Site Click Count).
- Расчет Location-Specific Score (lss(s,l)): Вычисление вероятности связи сайта с локацией l. Формула: (Location-Specific Click Count / Location-Referencing Click Count).
- Сохранение: Сохранение Site Confidence Value и lss(s,l) в базе данных.
Процесс Б: Определение локации запроса (Онлайн/Офлайн)
- Получение запроса (Q): Система получает запрос.
- Отбор документов и взвешивание: Отбираются релевантные документы (d). Каждому присваивается Document Weight (weight(d, Q)) на основе исторических кликов (CTR).
- Извлечение данных о сайтах: Извлекаются предварительно рассчитанные Site Confidence Value и lss(s,l) для сайтов этих документов.
- Расчет Query Confidence Value: Агрегируется уверенность в локальном интенте запроса. Сумма по всем документам: (weight(d, Q) * Site Confidence Value).
- Расчет Query Score (Aggregated Likelihood): Для каждой локации l агрегируется вероятность связи запроса Q с этой локацией. Сумма по всем документам: (weight(d, Q) * Site Confidence Value * lss(s,l)).
- Присвоение локации: Если Query Score и (опционально) Query Confidence Value превышают установленные пороги, наиболее вероятная локация l присваивается запросу Q.
- Применение: Присвоенная локация используется для улучшения результатов поиска.
Какие данные и как использует
Данные на входе
- Поведенческие факторы (Ключевые): Исторические данные о кликах пользователей (Click Info) являются основой механизма. Анализируется, какие запросы приводили к кликам на какие документы и содержали ли эти запросы географические указания. CTR используется для расчета Document Weights.
- Технические факторы (Структура URL): URL-адреса используются для определения границ «веб-сайта» (домен или домен + поддиректория).
- Географические факторы: Используется база данных известных местоположений (Location Table) для распознавания названий локаций в исторических запросах и определения иерархии (город-страна).
Какие метрики используются и как они считаются
Система использует вероятностный подход, основанный на пропорциях кликов. Ключевые расчеты (согласно уравнениям, описанным в патенте):
Метрики Сайта (s):
- Site Confidence Value (Eq. 5): (Клики из локализованных запросов) / (Все клики на сайт).
- Location-Specific Score (lss(s,l)) (Eq. 4): (Клики из запросов с локацией L) / (Клики из всех локализованных запросов).
Метрики Запроса (Q):
- Document Weight (weight(d,Q)): (Клики на документ D по запросу Q) / (Все клики по запросу Q).
- Query Confidence Value (Eq. 7): Агрегированная уверенность в локальности запроса. Взвешенная сумма Site Confidence Values.
- Query Score (Q,l) (Eq. 6): Агрегированная вероятность связи запроса с локацией l. Взвешенная сумма lss(s,l), масштабированная по Site Confidence Value.
Пороговые значения: Используются предопределенные пороги для Query Score и Query Confidence Value для принятия решения о присвоении локации.
Выводы
- Поведение пользователей определяет географическую привязку: Ключевой вывод — географическая релевантность сайта формируется на основе того, как часто пользователи кликают на него по запросам с явным указанием локации. Это data-driven подход, основанный на «мудрости толпы».
- CTR как весовой коэффициент локализации: Document Weight (фактически CTR по запросу) используется как множитель при определении локации запроса. Чем выше CTR результата, тем сильнее его географические оценки влияют на итоговый вывод системы.
- Двухуровневая модель уверенности: Система использует сложные метрики уверенности (Site Confidence и Query Confidence), чтобы избежать ошибочного присвоения локаций. Требуется статистически значимое количество данных для надежного вывода.
- Гранулярность определения «Сайта»: Подтверждается, что Google может анализировать географическую привязку не только на уровне домена, но и на уровне поддиректорий. Это критически важно для структуры мультирегиональных сайтов.
- Доминирующая локация: Для сущностей с несколькими местоположениями система определяет доминирующую локацию на основе того, какая из них генерирует больше Location-Specific Clicks в истории поиска.
Практика
Best practices (это мы делаем)
- Таргетинг на явные географические запросы: Стратегически важно продвигать сайт по запросам, включающим название локации (например, «ремонт iPhone Москва»). Получение кликов по этим запросам напрямую увеличивает Location-Specific Click Count и формирует Location-Specific Score сайта для Москвы (Этап 1).
- Оптимизация CTR (Document Weight): Максимизируйте кликабельность сниппетов по целевым запросам. Высокий CTR увеличивает Document Weight, что дает вашему сайту больший вес при определении географического интента запроса (Этап 2).
- Четкая географическая структура сайта: Для мультирегиональных сайтов используйте структуру с поддиректориями (например, /msk/, /spb/). Патент подтверждает, что система может анализировать такие разделы как отдельные «сайты», что позволяет точно рассчитывать локализацию для каждого региона.
- Усиление локальных сигналов (Local SEO): Используйте стандартные практики Local SEO (GBP, NAP, локальный контент), чтобы повысить релевантность сайта для Location-Referencing Queries и стимулировать клики по ним.
Worst practices (это делать не надо)
- Игнорирование структуры URL для локаций: Размещение информации о всех филиалах на одной странице или в неструктурированном виде «размывает» географические сигналы и затрудняет расчет точных Location-Specific Scores.
- Низкий CTR: Если сайт ранжируется, но имеет низкую кликабельность, его Document Weight будет низким, и он не будет эффективно способствовать локализации запроса, уступая более кликабельным конкурентам.
- Гео-спам без подтверждения кликами: Создание страниц под локации, которые не генерируют реальных кликов от пользователей, ищущих эти локации. Без накопления Location-Specific Click Counts система не сформирует надежную связь.
Стратегическое значение
Патент подтверждает стратегическую важность интеграции поведенческих факторов и Local SEO. Географическая релевантность — это не просто технический параметр, а результат анализа массового поведения пользователей. Долгосрочная SEO-стратегия должна фокусироваться на том, чтобы сайт стал предпочтительным ответом для пользователей в целевых локациях, что достигается через привлечение качественного, гео-релевантного трафика и обеспечение высокого CTR.
Практические примеры
Сценарий: Определение доминирующей локации для бренда
- Бренд: «Universal Studios» (парки в Орландо и Голливуде).
- Этап 1 (Офлайн): Система анализирует логи. Запросы «Universal Studios Orlando» генерируют значительно больше кликов на официальный сайт, чем запросы «Universal Studios Hollywood». Location-Specific Score для Орландо становится выше.
- Этап 2 (Рантайм): Пользователь вводит «Universal Studios».
- Анализ и Агрегация: Официальный сайт в топе и имеет высокий Document Weight (CTR). Система агрегирует данные. Из-за высокого веса и более высокого score для Орландо, агрегированная Query Score для Орландо превышает порог и оказывается выше, чем для Голливуда.
- Результат: Система присваивает запросу локацию «Орландо» и модифицирует выдачу в пользу этой локации.
Вопросы и ответы
Как этот патент отличается от определения местоположения по IP или GPS пользователя?
Определение по IP/GPS фокусируется на текущем местоположении пользователя. Описанный механизм определяет географический интент самого запроса, анализируя агрегированные данные всех пользователей. Это позволяет понять, что пользователь ищет информацию об удаленной локации (например, планирует поездку), даже если он находится в другом месте.
Какова роль CTR в этом механизме?
CTR играет центральную роль. Он используется для расчета Document Weight — метрики, определяющей, насколько сильно конкретный результат влияет на определение локации запроса. Чем выше CTR документа по запросу, тем больший вес имеют географические оценки его сайта при агрегации.
Как Google рассчитывает географическую привязку моего сайта (Location-Specific Score)?
Система анализирует, как часто пользователи кликали на ваш сайт по запросам, которые явно содержали упоминание локации (Location-Referencing Queries). Если большинство таких кликов приходило из запросов, содержащих «Берлин», то Location-Specific Score для Берлина будет высоким.
Как мультирегиональным компаниям следует структурировать свои сайты?
Рекомендуется использовать четкую структуру с подпапками или поддоменами (например, site.com/msk/). Патент явно указывает, что «веб-сайт» может быть определен как домен + поддиректория. Это позволяет Google рассчитывать Location-Specific Scores независимо для каждого регионального раздела.
Что такое ‘Site Confidence Value’ и почему это важно?
Site Confidence Value – это оценка вероятности того, что сайт вообще связан с какой-либо физической локацией. Рассчитывается как доля кликов из локализованных запросов к общему числу кликов. Если этот показатель низок (например, у новостного портала), система будет придавать меньший вес его географическим данным при анализе запросов.
Как я могу улучшить свой ‘Location-Specific Score’ для нужного города?
Необходимо увеличить количество кликов на ваш сайт из запросов, которые явно содержат название этого города. Для этого нужно оптимизировать контент под локализованные запросы («услуга + город») и обеспечить высокие позиции и CTR по ним. Это напрямую обучает алгоритм ассоциировать ваш сайт с этим городом.
Как система обрабатывает сущности с одинаковыми названиями в разных местах (например, город Париж в Техасе и во Франции)?
Система использует агрегацию кликов. Поскольку значительно больше пользователей ищут и кликают на результаты, связанные с Парижем во Франции, Location-Specific Scores для Франции будут выше у релевантных сайтов. В результате агрегации (Query Score) для Франции значительно превысит оценку для Техаса, и система выберет доминирующую локацию.
Учитывает ли патент языковые и страновые различия?
Да. В патенте упоминается возможность разделения данных по локалям (пара язык-страна). Это позволяет системе обрабатывать историю поиска отдельно для разных регионов, чтобы учитывать местные особенности и предпочтения, так как интент одного и того же запроса может различаться в разных странах.
Что происходит, если по запросу нет сайтов с сильной географической привязкой?
В этом случае Query Confidence Value (агрегированная уверенность в локальном интенте запроса) будет низкой и не превысит порог. Система не сможет уверенно определить подразумеваемую локацию, и запрос будет обработан стандартными алгоритмами ранжирования, возможно, с учетом IP-адреса пользователя.
Применяется ли этот механизм к отдельным документам или только к сайтам целиком?
Основной фокус патента на определении локации веб-сайтов (доменов или поддиректорий). Однако в описании указано, что те же методы могут быть применены и к отдельному документу, рассматривая его как «веб-сайт», состоящий из одного документа, и проводя все расчеты для него.