
Патент Google, описывающий механизм использования специализированных карт сайта (Sitemaps) для мобильного контента. Система позволяет вебмастерам указывать формат мобильных страниц (например, XHTML, WML). На основе этой информации Google выбирает соответствующий краулер (User-Agent) для корректного сканирования и индексирования мобильной версии сайта. Патент также детально описывает инфраструктуру обработки Sitemaps, включая использование метаданных (Priority, ChangeFreq, LastMod) для управления приоритетом и частотой сканирования.
Патент решает проблему некорректного сканирования и индексирования контента, предназначенного для мобильных устройств. Традиционные краулеры часто имитируют полнофункциональные десктопные браузеры. При сканировании сайта это может привести к тому, что сервер отдаст краулеру десктопную версию контента вместо мобильной (особенно в конфигурациях с динамическим показом или раздельными URL). В результате в мобильном индексе оказывается нерелевантный или неоптимизированный контент. Изобретение обеспечивает механизм для точного указания формата мобильного контента и выбора соответствующего краулера (персоны/User-Agent) для его обработки.
Запатентована система, которая использует метаданные, связанные с картой сайта (Sitemap), для выбора подходящего механизма сканирования. Вебмастер предоставляет Sitemap и связанный с ним индикатор формата документа (document format indicator), указывающий на тип мобильного контента (например, XHTML, WML, iMode). Поисковая система использует этот индикатор для выбора краулера или настройки его персоны (User-Agent), соответствующей указанному формату, что гарантирует получение правильной версии контента при сканировании.
Ключевой механизм работы системы:
Sitemap для мобильного контента и уведомляет поисковую систему о его доступности.Sitemap (например, через тег <format>) указывается тип мобильного контента.Agent) из репозитория доступных персон.Sitemap, представляясь серверу как соответствующее мобильное устройство (используя нужный User-Agent).Sitemap (Priority, ChangeFreq, LastMod) для приоритизации и планирования сканирования.Средняя/Высокая. Хотя конкретные форматы, упомянутые в патенте (WML, iMode), устарели, базовая инфраструктура использования Sitemaps для обнаружения контента и оптимизации сканирования остается критически важной. Основной сценарий патента — выбор разных мобильных краулеров для разных мобильных форматов — менее актуален в эпоху Mobile-First Indexing, когда Google преимущественно использует единый смартфонный краулер. Тем не менее, описанные механизмы приоритизации сканирования на основе метаданных Sitemap сохраняют высокую актуальность.
Патент имеет высокое значение для технического SEO и понимания процесса краулинга. Он заложил основу для Mobile SEO, позволяя корректно индексировать сайты с отдельными мобильными версиями (m-dot). Более того, патент детально описывает, как Google использует метаданные в Sitemaps (Priority, LastMod) для управления краулинговым бюджетом и приоритизации сканирования. Понимание этих механизмов критично для обеспечения эффективной индексации крупных сайтов.
Sitemap, указывающие краулеру, как часто предположительно меняется контент по URL. Используется как подсказка для планирования сканирования.Sitemap, содержащий только те URL, которые были добавлены или изменены с момента генерации предыдущего Sitemap.Sitemap (переданная при сабмите или указанная внутри файла), которая определяет формат контента (например, XHTML, WML, iMode, PDAHTML).Agent) на основе Document Format Indicator.Sitemap, указывающие дату/время последнего изменения документа. Используется краулером для определения необходимости повторного сканирования.Sitemap Index. Например, предпочтительная скорость сканирования (Crawl Rate) в разное время суток, географическая или языковая принадлежность сайта.Sitemap, указывающие относительную важность URL. Используется краулером для определения очередности сканирования и может влиять на расчет важности страницы (Page Importance Score).Sitemaps путем анализа файловой системы, логов доступа или данных CMS.Sitemap и может содержать Per-Site Information.Sitemaps и внутренние метрики (например, PageRank).Claim 1 (Независимый пункт): Описывает основной метод анализа документов с адаптивным выбором краулера.
Sitemap).document format indicator), связанный с этим Sitemap, который указывает формат хранения контента.Sitemap.Claim 5 и 6 (Зависимые): Уточняют типы форматов.
Индикатор формата указывает на один или несколько мобильных форматов, таких как XHTML, WML, iMode или HTML.
Claim 7 и 8 (Зависимые): Описывают использование просканированных данных.
Информация, полученная в ходе сканирования, добавляется в индекс. Система использует этот индекс для ответа на поисковые запросы, полученные от мобильных устройств.
Claim 9 (Зависимый): Уточняет структуру Sitemap.
Документ метаданных может являться индексом (Sitemap Index), ссылающимся на несколько списков документов (Sitemaps).
Изобретение затрагивает этапы сканирования и индексирования, обеспечивая корректное обнаружение и обработку мобильного контента, а также оптимизацию процесса сканирования в целом.
CRAWLING – Сканирование и Сбор данных
Основной этап применения.
Sitemaps (Sitemap Notifications) и загружает их с помощью SiteMap Crawler.Format Selector анализирует Document Format Indicator и выбирает нужный Agent (персону краулера) для сканирования URL из этого Sitemap.URL Scheduler использует метаданные из Sitemap (Priority, ChangeFreq, LastMod) и внутренние сигналы (PageRank) для определения приоритета и частоты сканирования.Per-Site Information (например, Crawl Rate) для регулирования скорости запросов к серверу.INDEXING – Индексирование и извлечение признаков
На этом этапе обрабатывается контент, полученный специализированным краулером.
Sitemap (например, Priority) могут влиять на расчет важности страницы (Page Importance Score).Входные данные:
Sitemap (URL).Document Format Indicator (тип мобильного контента).Sitemap (URL, LastMod, Priority, ChangeFreq).Выходные данные:
Sorted & Filtered List of Candidate URLs).LastMod позволяет избегать повторного сканирования неизмененного контента. Использование Priority позволяет фокусировать ресурсы краулера на более важных страницах.Sitemap. Также система может периодически проверять Sitemaps на основе хранимой информации о частоте обновлений (update rate information).Sitemap идентифицирован как мобильный (Mobile Sitemap) и указан специфический формат контента, требующий особого краулера (Agent).Процесс А: Обработка и планирование сканирования на основе Sitemap
Sitemap.Sitemap для обработки либо на основе полученного уведомления, либо по расписанию (на основе хранимых данных об обновлении).Sitemap загружается с веб-сервера.Sitemap (включая метаданные и Per-Site Information) сохраняется в SiteMap Database.Sitemap система определяет, является ли он кандидатом на сканирование. Это делается путем проверки LastMod и истории сканирования (URL Status Information) — проверяется, был ли документ обновлен или вероятно ли его обновление.Priority, указанного в Sitemap.Crawl Budget) и ограничений сайта (Site Constraints, например, максимальное количество запросов в период времени).Процесс Б: Выбор краулера для мобильного контента
Sitemap (Процесс А, шаг 4) система идентифицирует Document Format Indicator (например, тег <format>).Format Selector использует этот индикатор для выбора подходящей персоны краулера (Agent) из репозитория.Sitemap выбирается для сканирования (Процесс А, шаг 8), система использует выбранный Agent для выполнения запроса к веб-серверу.Патент фокусируется на использовании метаданных из Sitemaps и конфигурационных данных для управления сканированием.
<format>): Указывает тип мобильного контента (XHTML, WML). Критичен для выбора краулера.<loc>): Адрес документа.<lastmod>): Используется для определения новизны контента.<changefreq>): Подсказка о том, как часто обновляется страница.<priority>): Относительная важность страницы.<title>) и Автор (<author>): Упоминаются как возможные метаданные.Access Logs могут использоваться генератором Sitemap на стороне сервера для определения популярности документов (popularity information), которая может служить дополнительной подсказкой для приоритизации сканирования.Priority для расчета оценки сканирования.Priority из Sitemap.LastMod из Sitemap с датой последнего сканирования из URL Status Information. Если LastMod новее, документ планируется к сканированию.ChangeFreq). Документ планируется, если прошло больше времени, чем указано в ChangeFreq.Sitemaps — это не просто список URL, а канал для передачи инструкций краулеру, включая выбор его персоны (User-Agent) и управление приоритетами сканирования.Document Format Indicator) и заставить поисковую систему использовать соответствующий краулер (Agent). Это было критично для корректного индексирования не-HTML мобильных форматов и сайтов, использующих User-Agent Sniffing.Priority в Sitemap).LastMod для повышения эффективности, избегая повторного сканирования неизмененного контента. Достоверность LastMod критична.Crawl Rate) через Per-Site Information в Sitemap Index.URL Scheduler, SiteMap Processing Module), которая обрабатывает Sitemaps, фильтрует URL на основе метаданных, бюджетов и ограничений, прежде чем отправить их на сканирование.<lastmod> в Sitemaps. Согласно патенту, это основной механизм для определения необходимости повторного сканирования и экономии краулингового бюджета.Sitemap Index для структурирования нескольких Sitemaps. Патент также предполагает, что через Sitemap Index можно передавать общие инструкции по сканированию (Per-Site Information).Sitemaps (например, по типу контента или частоте обновления). Это позволяет более гранулярно управлять метаданными и упрощает мониторинг индексации.Sitemaps. Патент описывает инфраструктуру для приема и логирования этих уведомлений для оперативной обработки.<priority> используется для расчета оценки сканирования вместе с PageRank. Хотя влияние этого параметра часто оспаривается, патент указывает на его техническое использование в планировщике. Можно использовать его для указания относительной важности страниц внутри сайта.<lastmod> (например, установка текущей даты для всех страниц, даже если они не менялись) неэффективно. Хотя это может вызвать сканирование, это тратит краулинговый бюджет впустую и может привести к игнорированию сигнала в будущем.Sitemaps (как показано на схемах патента, статус может быть 'Parsing error'). Ошибки могут препятствовать использованию метаданных и обнаружению URL.<priority> 1.0 для всех URL не дает системе информации об относительной важности. Патент упоминает, что краулер может игнорировать или модифицировать значения Priority, если они не соответствуют предопределенным критериям (например, среднему значению).Этот патент подчеркивает важность Sitemaps как интерфейса технического взаимодействия с поисковой системой. Он подтверждает, что Google готов принимать и использовать данные от вебмастеров (формат контента, приоритет, частота обновления) для оптимизации своих процессов сканирования. Для SEO-стратегии это означает, что управление краулинговым бюджетом и обеспечение корректного технического состояния Sitemaps (особенно точности LastMod) является фундаментальной задачей, позволяющей повысить эффективность индексации и сфокусировать внимание поисковой системы на важном контенте.
Сценарий: Оптимизация краулингового бюджета для крупного E-commerce сайта
Sitemaps (используя Sitemap Generator).Sitemaps: один для категорий (обновляется часто), другой для новых товаров (обновляется постоянно), третий для архивных товаров (обновляется редко).<lastmod>. Для архивных товаров указывать реальную дату последнего изменения контента.Sitemap с новыми товарами настроить автоматическое уведомление (ping) Google после каждого обновления файла.<priority> (например, 0.8) для новых товаров и категорий, и низкий (например, 0.3) для архивных товаров.URL Scheduler использует LastMod и не тратит ресурсы на сканирование архивных товаров. Он использует Priority и PageRank для приоритизации сканирования новых товаров и категорий. Новые товары быстрее попадают в индекс.Подтверждает ли этот патент, что Google использует метатег <priority> в Sitemaps?
Да, патент явно это подтверждает. В описании механизма планирования сканирования указано, что система присваивает оценку каждому URL-кандидату, основываясь на PageRank и значении Priority из Sitemap. Это означает, что Priority используется для определения очередности сканирования, хотя его итоговое влияние зависит от комбинации с другими факторами, такими как PageRank.
Насколько важна точность <lastmod> согласно этому патенту?
Точность <lastmod> критически важна для эффективности сканирования. Патент описывает, что система использует это значение для определения, был ли документ изменен с момента последнего сканирования. Если документ не изменился, система может отложить его повторное сканирование, что экономит краулинговый бюджет и ресурсы сервера.
Актуален ли этот патент в эпоху Mobile-First Indexing (MFI)?
Актуальность смешанная. Основная идея патента — выбор специфического мобильного краулера (например, для WML) на основе декларации в Sitemap — в значительной степени устарела, так как MFI использует единый смартфонный краулер. Однако, инфраструктура обработки Sitemaps, управление приоритетами сканирования (Priority, LastMod) и оптимизация краулинга, детально описанные в патенте, остаются высоко актуальными для технического SEO.
Что такое "Дифференциальная карта сайта" (Differential Sitemap)?
Это Sitemap, который содержит только те URL, которые были добавлены или изменены с момента генерации предыдущего Sitemap. Это позволяет вебмастерам предоставлять только обновления, вместо того чтобы каждый раз генерировать и передавать полный список всех URL сайта, что повышает эффективность обработки.
Могу ли я управлять скоростью сканирования моего сайта через Sitemap?
Да, патент предполагает такую возможность. В описании Sitemap Index упоминается Per-Site Information, которая может включать предпочтительную скорость сканирования (Crawl Rate) в разные промежутки времени (например, быстро ночью, средне днем). Эта информация используется краулером для контроля частоты запросов к сайту.
Что такое "Персона краулера" (Crawler Persona) или Агент?
Это набор параметров, который позволяет краулеру имитировать определенное устройство или браузер. Например, краулер может принять персону мобильного телефона, поддерживающего WML. Это гарантирует, что веб-сервер отдаст контент, предназначенный именно для этого типа устройств, что критично при конфигурациях, зависящих от User-Agent.
Использует ли Google данные о популярности страниц из моих логов доступа?
Патент описывает, что Sitemap Generator (ПО на стороне вебмастера) может анализировать логи доступа для определения популярности страниц (popularity information) и включать эту информацию в Sitemap. Если эта информация включена, она может служить дополнительной подсказкой для приоритизации сканирования на стороне Google.
Что произойдет, если я укажу неверный формат мобильного контента?
Если вы укажете неверный формат (например, WML для HTML страниц), система выберет неподходящий краулер. Это может привести к проблемам при сканировании: краулер может не смочь обработать контент, или сервер может вернуть ошибку, если контент в запрошенном формате недоступен. В результате страницы могут быть некорректно проиндексированы или не проиндексированы вовсе.
Влияет ли информация из Sitemap на ранжирование (PageRank)?
Патент указывает, что информация из Sitemap, в частности Priority, может быть инкорпорирована в расчет оценки важности страницы (Page Importance Score, аналог PageRank). Однако, основное применение метаданных Sitemap — это управление процессом сканирования, а не прямое ранжирование.
Что такое фильтрация кандидатов на сканирование?
Это процесс, при котором система выбирает подмножество URL из списка кандидатов на сканирование. Фильтрация происходит на основе рассчитанных оценок (Score), доступного краулингового бюджета (Crawl Budget) и ограничений сайта (Site Constraints). Это гарантирует, что будут просканированы только самые важные страницы в рамках доступных ресурсов.

Краулинг
Техническое SEO
Свежесть контента

Краулинг
Техническое SEO
Индексация

Краулинг
Техническое SEO
Индексация

SERP
Поведенческие сигналы
Персонализация

Семантика и интент

Индексация
Поведенческие сигналы

Local SEO
Поведенческие сигналы

Поведенческие сигналы
Мультимедиа
SERP

Семантика и интент
SERP
Поведенческие сигналы

Структура сайта
SERP
Ссылки

Персонализация
Семантика и интент
Поведенческие сигналы

SERP
EEAT и качество
Персонализация

Семантика и интент
Ссылки

Local SEO
Семантика и интент
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
EEAT и качество
