Как Google использует мобильные Sitemaps для определения форматов контента и выбора правильного User-Agent краулера

Google использует механизм, позволяющий вебмастерам указывать формат мобильного контента (например, WML, XHTML, iMode) через Sitemaps. Это позволяет Google выбрать соответствующую «персону» краулера (User-Agent) для доступа к контенту. Это гарантирует корректное сканирование и индексирование версий страниц, предназначенных для мобильных устройств.

Описание

Какую задачу решает

Патент решает проблему точного сканирования контента, созданного специально для мобильных устройств (особенно актуально для форматов, предшествовавших современным смартфонам, таких как WML, iMode, XHTML Mobile). Стандартные краулеры часто идентифицируют себя как полнофункциональные десктопные браузеры. В ответ на это серверы могут скрывать упрощенный мобильный контент и отдавать десктопную версию. Это приводит к тому, что мобильный контент не индексируется или индексируется некорректно для мобильного поиска.

Что запатентовано

Запатентована система, позволяющая вебмастерам предоставлять метаданные о формате документов через Sitemaps. Поисковая система использует эти индикаторы формата (Document Format Indicator) для выбора соответствующей «персоны» краулера (Crawler Persona или User-Agent). Это гарантирует, что краулер имитирует целевое мобильное устройство и получает доступ именно к мобильной версии контента.

Как это работает

Механизм работает следующим образом:

Генерация и Уведомление: Вебмастер создает Sitemap для мобильного контента и уведомляет поисковую систему.
Указание формата: В Sitemap или при его отправке (например, через веб-интерфейс) указывается Document Format Indicator (например, WML).
Выбор краулера: На основе этого индикатора система выбирает краулер с соответствующим User-Agent (например, имитирующий старый мобильный телефон).
Целевое сканирование: Выбранный краулер сканирует URL-адреса. Сервер распознает мобильный User-Agent и отдает правильную версию контента.
Индексация: Полученный контент индексируется и используется для ответа на запросы с мобильных устройств.

Актуальность для SEO

Средняя. Специфические форматы, упомянутые в патенте (WML, iMode), и концепция отдельных «Мобильных Sitemaps» в значительной степени устарели из-за доминирования адаптивного дизайна и внедрения Mobile-First Indexing (MFI), где основной краулер уже мобильный (Googlebot Smartphone). Однако базовая инфраструктурная концепция — использование разных User-Agent (персон) для сканирования разного типа контента — остается фундаментальной и критически важной для сайтов, использующих динамический показ (Dynamic Serving) или раздельные URL (m-dot).

Важность для SEO

Влияние на современные SEO-стратегии умеренное (6/10). Для сайтов с адаптивным дизайном патент имеет в основном инфраструктурное значение. Однако для сайтов, использующих Dynamic Serving или раздельные URL, принципы патента критически важны. Он подчеркивает необходимость того, чтобы сервер корректно распознавал мобильный User-Agent Googlebot и отдавал соответствующий контент, чтобы избежать проблем с индексацией в Mobile-First Index.

Детальный разбор

Термины и определения

Crawler Persona / User-Agent (Персона краулера / Юзер-агент): Набор параметров, который использует краулер для имитации определенного устройства или браузера при запросе контента. Включает строку User-Agent. Позволяет краулеру получить контент, предназначенный для этого устройства.
Document Format Indicator (Индикатор формата документа): Метаданные, предоставляемые вебмастером (в Sitemap или при его отправке), которые указывают на формат контента. Примеры: XHTML, WML, iMode, cHTML, PDAHTML.
Format Selector (Селектор формата): Компонент системы сканирования, который выбирает подходящую Crawler Persona на основе полученного Document Format Indicator.
Metadata Document / Mapping Document (Документ с метаданными / Документ отображения): В контексте патента — это Sitemap или Sitemap Index. Документ, описывающий организацию сетевых ресурсов.
Mobile Content (Мобильный контент): Контент, отформатированный для отображения на устройствах с ограниченными возможностями (сотовые телефоны, КПК).
Per-Site Information (Информация о сайте): Общие метаданные, применяемые ко всему сайту, которые могут содержаться в Sitemap Index. Могут включать формат документов, предпочтительную скорость сканирования (crawl rate), географическое положение и язык.
Sitemap (Карта сайта): Список URL-адресов сайта, доступных для сканирования, с дополнительными метаданными (<lastmod>, <priority>, <changefreq>).

Ключевые утверждения (Анализ Claims)

Анализ основан на финальных утверждениях (Granted Claims) патента US8655864B1.

Claim 1 (Независимый пункт): Описывает основной процесс использования мобильных Sitemaps для целевого сканирования и выдачи результатов.

Система получает доступ к документу отображения (Sitemap), который представляет организацию сетевых документов, часть из которых является мобильным контентом.
Система получает индикацию того, что часть документов является мобильным контентом.
На основе этой индикации система выбирает режим сканирования мобильного контента (mobile content crawling mode).
Система сканирует сайт на основе Sitemap, используя выбранный мобильный режим для мобильного контента.
Информация добавляется в индекс поисковой системы.
Система получает поисковый запрос от мобильного устройства.
Система передает результаты поиска на мобильное устройство, используя информацию из индекса.

Ядро изобретения — это использование явной индикации мобильного формата для выбора специфического режима сканирования (Crawler Persona) и последующее использование этих данных для обслуживания мобильных пользователей.

Claim 9 (Независимый пункт): Расширяет Claim 1, добавляя компонент монетизации.

Процесс повторяет шаги Claim 1, но добавляет: Передачу рекламного элемента (promotional item) на мобильное устройство в сочетании с результатами поиска, причем этот элемент определяется рекламным сервером (ad server).

Это указывает на то, что корректная индексация мобильного контента также необходима для эффективного таргетинга мобильной рекламы.

Где и как применяется

Изобретение применяется в основном на этапе сбора данных и влияет на последующую индексацию и ранжирование для мобильных устройств.

CRAWLING – Сканирование и Сбор данных
Это основной этап применения патента. Система (SiteMap Crawler) получает и обрабатывает Sitemap. На основе Document Format Indicator, полученного из Sitemap или метаданных отправки, Format Selector или Controller выбирает подходящий User-Agent (персону). URL Scheduler планирует задачи, а Robots (краулеры) выполняют сканирование, используя выбранный User-Agent. Это гарантирует, что сервер отдаст контент в нужном формате (например, WML вместо HTML).

INDEXING – Индексирование и извлечение признаков
Полученный контент обрабатывается. Система может хранить его в отдельном индексе для мобильных устройств или помечать его в общем индексе как контент определенного мобильного формата. Извлекается Per-Site Information (если есть), такая как язык или геолокация.

RANKING / METASEARCH – Ранжирование / Метапоиск
Когда пользователь отправляет запрос с мобильного устройства, поисковая система (Search Engine) и рекламный сервер (Ad Server) используют индекс для выбора релевантных органических результатов и рекламы, отформатированных соответствующим образом для этого устройства.

Входные данные:

Уведомление о Sitemap (SiteMap Notification).
Сам файл Sitemap, содержащий список URL и метаданные.
Индикаторы формата документа (Document Format Indicators) — либо внутри Sitemap, либо предоставленные при отправке.

Выходные данные:

Просканированный мобильный контент в ожидаемом формате.
Данные в индексе, помеченные как соответствующие определенному мобильному формату.

На что влияет

Конкретные типы контента и форматы: Патент напрямую влияет на контент, созданный в специфических мобильных форматах: XHTML (WAP 2.0), WML (WAP 1.2), iMode (cHTML), контент для КПК (PDA).
Специфические запросы: Влияет на запросы, выполняемые с мобильных устройств, гарантируя, что они получат результаты, которые могут быть отображены на их устройстве.
Архитектура сайтов: Наибольшее влияние оказывается на сайты, использующие отдельные URL для мобильных версий (m-dot) или динамический показ (Dynamic Serving), который зависит от User-Agent.

Когда применяется

Триггеры активации: Механизм активируется, когда поисковая система обрабатывает Sitemap, который явно идентифицирован как мобильный или содержит индикаторы мобильных форматов.
Условия работы: Применяется при сканировании URL, для которых указан специфический формат, требующий использования нестандартного User-Agent краулера.

Пошаговый алгоритм

Процесс А: Обработка Sitemap и выбор персоны

Получение уведомления: Система получает уведомление о наличии Sitemap от веб-сервера.
Идентификация формата (Предварительная): Если формат (например, WML) указан уже на этапе уведомления (например, через веб-форму), система фиксирует его.
Загрузка Sitemap: SiteMap Crawler загружает Sitemap (или Sitemap Index) по указанному URL.
Парсинг и извлечение данных: SiteMap Processing Module анализирует Sitemap, извлекая список URL и метаданные.
Идентификация формата (Основная): Система ищет индикаторы формата — либо общие для сайта (Per-Site Information), либо для конкретных URL.
Выбор персоны краулера: Format Selector выбирает соответствующую персону (User-Agent) из репозитория агентов на основе идентифицированного формата.

Процесс Б: Сканирование и индексация

Планирование сканирования: URL Scheduler планирует сканирование извлеченных URL, учитывая метаданные (<priority>, <changefreq>, <lastmod>).
Выполнение сканирования: Robots (краулеры) выполняют запросы к URL, используя выбранную персону (User-Agent).
Получение контента: Краулер получает контент в целевом мобильном формате.
Обработка контента: Content Processing Servers обрабатывают полученный контент.
Индексация: Indexer добавляет контент в индекс, помечая его соответствующим форматом или помещая в специализированный мобильный индекс.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании метаданных Sitemap для управления процессом сканирования.

Технические факторы:
- URL документа (<loc>).
Мультимедиа / Форматные факторы (Ключевые):
- Document Format Indicator: Критически важные данные. Указывают формат контента (XHTML, WML, iMode, PDA). Могут быть указаны для URL или в Per-Site Information для всего сайта. Определяют выбор Crawler Persona.
Временные факторы:
- Дата последнего изменения документа (<lastmod>).
- Частота обновления (<changefreq> или update rate).
- Предпочтительное время сканирования (Preferred crawl time из Per-Site Information).
Контентные факторы (Вспомогательные):
- Заголовок документа (<title>) и Автор (<author>). Упоминается, что эти данные могут использоваться для создания Anchor Maps.
Географические и Языковые факторы:
- Географическое положение (<location>) и язык сайта (<language>) из Per-Site Information.

Какие метрики используются и как они считаются

Патент не вводит новые метрики ранжирования, но описывает использование существующих метрик для управления сканированием и классификации контента.

Выбор Персоны: Основан на точном совпадении Document Format Indicator с предопределенным набором поддерживаемых мобильных форматов.
Приоритет сканирования (Crawl Score): Используется комбинация PageRank (или другой оценки важности страницы) и значения <priority> из Sitemap для присвоения оценки (score) каждому URL-кандидату для сканирования.
Частота сканирования: Определяется на основе <changefreq> и <lastmod>. Сканирование может быть отложено, если документ не изменился или если ожидаемая частота обновления еще не наступила.
Ограничения сканирования (Crawl Budget/Constraints): Система может фильтровать список URL на основе бюджета сканирования или ограничений сайта (например, скорость сканирования, указанная вебмастером).

Выводы

Важность User-Agent для сканирования: Патент подтверждает, что Google использует различные «персоны» краулеров (User-Agents) для доступа к контенту. Выбор User-Agent критически важен, так как он определяет, какую версию контента отдаст сервер (особенно при Dynamic Serving).
Sitemaps как инструмент конфигурации сканирования: Sitemaps используются не только для обнаружения URL, но и как способ для вебмастеров явно указать формат контента и повлиять на то, как именно (и каким ботом) этот контент будет сканироваться.
Целевая индексация мобильного контента: Система разработана для того, чтобы гарантировать, что мобильный контент будет проиндексирован именно как мобильный. Это позволяет поисковой системе предоставлять пользователям результаты, соответствующие возможностям их устройств.
Инфраструктурная гибкость: Google имеет инфраструктуру (Format Selector, Репозиторий Агентов), позволяющую легко добавлять и выбирать различные режимы сканирования для разных форматов контента.
Интеграция с мобильной рекламой: Корректное индексирование мобильного контента является необходимым условием для показа релевантной мобильной рекламы (promotional items) вместе с результатами поиска (Claim 9).

Практика

Best practices (это мы делаем)

Хотя конкретные теги «Mobile Sitemap», описанные в патенте, сейчас устарели (deprecated), выводы из патента остаются актуальными для управления сканированием.

Обеспечение доступности для Googlebot Smartphone: Фундаментальный вывод из патента — контент должен быть доступен для соответствующего User-Agent. В современных условиях (Mobile-First Indexing) это означает, что сайт должен корректно отдавать мобильную версию контента для Googlebot Smartphone.
Корректная настройка Динамического показа (Dynamic Serving): Если сайт использует динамический показ (разный HTML на одном URL в зависимости от User-Agent), критически важно правильно определять Googlebot Smartphone и отдавать ему мобильный HTML. Необходимо использовать HTTP-заголовок Vary: User-Agent, чтобы указать, что ответ зависит от агента пользователя.
Корректная настройка раздельных URL (m-dot): Если используются отдельные мобильные URL, необходимо убедиться в наличии правильной переадресации и канонических связей (rel=»alternate» и rel=»canonical»), а также включить эти URL в стандартные Sitemaps.
Точное использование метаданных Sitemap: Активно используйте теги <lastmod> и <changefreq>. Патент подчеркивает, что эти данные используются планировщиком (URL Scheduler) для оптимизации бюджета сканирования.

Worst practices (это делать не надо)

Отдача десктопного контента мобильным краулерам: Ошибка конфигурации сервера, при которой Googlebot Smartphone получает тяжелую десктопную версию. Это противоречит цели патента и вредит MFI.
Клоакинг (Cloaking): Попытка показать Googlebot Smartphone контент, отличный от того, который видит пользователь на смартфоне. Патент предполагает, что краулер должен точно имитировать устройство.
Использование устаревших форматов: Разработка нового контента в форматах WML или iMode нецелесообразна.
Блокировка Googlebot Smartphone: Запрет доступа в robots.txt или через серверные настройки для мобильного User-Agent Google к мобильному контенту или важным ресурсам (CSS/JS).

Стратегическое значение

Этот патент является важной частью истории развития Mobile SEO. Он демонстрирует ранние усилия Google по адаптации инфраструктуры сканирования к разнообразию мобильных устройств и форматов. Стратегически он подчеркивает, что идентификация устройства пользователя (и соответствующего User-Agent краулера) является ключевым фактором для доставки правильного контента. Это понимание легло в основу современного подхода Mobile-First Indexing, где Google преимущественно использует Googlebot Smartphone для сканирования и индексации.

Практические примеры

Сценарий 1: Сканирование сайта с раздельными мобильными URL (исторический контекст патента)

Ситуация: У компании есть десктопный сайт на www.example.com (HTML) и отдельный мобильный сайт на m.example.com, использующий формат XHTML Mobile.
Действие вебмастера: Вебмастер создает специальный Mobile Sitemap для m.example.com.
Отправка в Google: Вебмастер отправляет Sitemap через интерфейс (подобный FIG. 13 в патенте), явно указывая тип контента XHTML (Document Format Indicator).
Действие Google: Google получает Sitemap и индикатор формата. Система выбирает краулер, который использует User-Agent, совместимый с XHTML и соответствующий мобильному телефону.
Результат: Краулер успешно сканирует m.example.com, получая XHTML контент. Этот контент индексируется и показывается пользователям, заходящим с поддерживаемых мобильных телефонов.

Сценарий 2: Обеспечение индексации сайта с динамическим показом (Современное применение принципов)

Ситуация: Сайт использует Dynamic Serving (один URL, разный HTML в зависимости от User-Agent).
Принцип патента: Google использует разные Crawler Personas для проверки разного контента. Сегодня это Googlebot Desktop и Googlebot Smartphone.
Действия SEO: Убедиться, что сервер корректно настроен на распознавание Googlebot Smartphone и использует заголовок Vary: User-Agent.
Результат: Googlebot Smartphone получает мобильную версию HTML. Google индексирует именно мобильный контент, что соответствует принципам MFI.

Вопросы и ответы

Актуален ли этот патент сегодня, в эпоху Mobile-First Indexing (MFI)?

Конкретная реализация (Mobile Sitemaps для WML/iMode) устарела, так как Google прекратил поддержку этих тегов. Однако базовая концепция патента — необходимость использования правильного User-Agent для сканирования контента — критически важна. Сегодня это реализуется через Googlebot Smartphone. Патент важен для понимания основ MFI и корректной работы сайтов с динамическим показом (Dynamic Serving).

Что такое «персона краулера» (Crawler Persona), упомянутая в патенте?

Это конфигурация краулера, предназначенная для имитации определенного типа устройства. Ключевым элементом является строка User-Agent. Например, чтобы получить WML-контент, краулер должен представиться как устройство, поддерживающее WML, иначе сервер может отдать ему стандартный HTML. В современном поиске основными персонами являются Googlebot Desktop и Googlebot Smartphone.

Нужно ли мне создавать отдельный Mobile Sitemap в 2025 году?

Нет. Для подавляющего большинства современных сайтов (адаптивный дизайн, динамический показ, раздельные URL) достаточно использовать стандартные XML Sitemaps, доступные для сканирования Googlebot Smartphone. Специализированные Mobile Sitemaps, описанные в патенте, предназначались для устаревших форматов («feature phones»).

Как патент описывает определение формата контента?

Патент предлагает несколько способов. Формат (Document Format Indicator) может быть указан вебмастером при отправке Sitemap через веб-интерфейс (как показано на FIG. 13 патента). Также он может быть указан внутри самого Sitemap: либо на уровне всего сайта (в Per-Site Information в индексе Sitemap), либо на уровне отдельного URL.

Что произойдет, если указать неправильный формат в Mobile Sitemap?

Если указать, например, WML, а контент на самом деле в HTML, Google отправит краулер, ожидающий WML. Это может привести к ошибкам парсинга (Parsing error, как показано на FIG. 14 патента), некорректной индексации контента или тому, что контент не будет показан целевым устройствам, так как система классифицирует его неправильно.

Как этот патент связан с сайтами, использующими динамический показ (Dynamic Serving)?

Патент напрямую решает проблему Dynamic Serving. При динамическом показе сервер отдает разный контент в зависимости от User-Agent. Механизм патента гарантирует, что Google отправит краулер с правильным мобильным User-Agent, чтобы получить и проиндексировать именно мобильную версию контента, а не десктопную.

Хранит ли Google мобильный и десктопный контент в разных индексах согласно патенту?

Патент упоминает такую возможность. Система может поддерживать отдельные индексы для мобильного контента или даже отдельные индексы для конкретных типов (например, iMode, WML). Альтернативно, контент может храниться в едином индексе с параметром, идентифицирующим формат, что позволяет искать только совместимый контент.

Используются ли данные из Sitemap (priority, changefreq) для ранжирования?

Патент фокусируется на сканировании. Он упоминает, что метаданные <priority> используются вместе с PageRank для определения приоритета сканирования (Crawl Scheduling), а <changefreq> и <lastmod> для определения частоты сканирования. Они не являются прямыми факторами ранжирования, но обеспечивают своевременное попадание контента в индекс.

Что такое WML, XHTML и iMode, упомянутые в патенте?

Это устаревшие стандарты разметки для мобильных устройств (feature phones). WML (Wireless Markup Language) использовался в старых WAP-браузерах. iMode — технология, популярная в Японии, использующая cHTML (Compact HTML). XHTML Mobile Profile был промежуточным стандартом перед доминированием HTML5 на смартфонах.

Может ли система автоматически определить мобильный формат без указания в Sitemap?

Да, патент упоминает, что идентификация формата документа может происходить автоматически. Автоматизированный процесс может анализировать признаки документа и выводить его формат, используя машинное обучение или предопределенные наборы правил, хотя явное указание через Sitemap является более надежным сигналом.