SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует мобильные Sitemaps для выбора правильного краулера и оптимизации сканирования

MOBILE SITEMAPS (Мобильные карты сайта)
  • US7653617B2
  • Google LLC
  • 2006-05-01
  • 2010-01-26
  • Краулинг
  • Индексация
  • Техническое SEO
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент Google, описывающий механизм использования специализированных карт сайта (Sitemaps) для мобильного контента. Система позволяет вебмастерам указывать формат мобильных страниц (например, XHTML, WML). На основе этой информации Google выбирает соответствующий краулер (User-Agent) для корректного сканирования и индексирования мобильной версии сайта. Патент также детально описывает инфраструктуру обработки Sitemaps, включая использование метаданных (Priority, ChangeFreq, LastMod) для управления приоритетом и частотой сканирования.

Описание

Какую проблему решает

Патент решает проблему некорректного сканирования и индексирования контента, предназначенного для мобильных устройств. Традиционные краулеры часто имитируют полнофункциональные десктопные браузеры. При сканировании сайта это может привести к тому, что сервер отдаст краулеру десктопную версию контента вместо мобильной (особенно в конфигурациях с динамическим показом или раздельными URL). В результате в мобильном индексе оказывается нерелевантный или неоптимизированный контент. Изобретение обеспечивает механизм для точного указания формата мобильного контента и выбора соответствующего краулера (персоны/User-Agent) для его обработки.

Что запатентовано

Запатентована система, которая использует метаданные, связанные с картой сайта (Sitemap), для выбора подходящего механизма сканирования. Вебмастер предоставляет Sitemap и связанный с ним индикатор формата документа (document format indicator), указывающий на тип мобильного контента (например, XHTML, WML, iMode). Поисковая система использует этот индикатор для выбора краулера или настройки его персоны (User-Agent), соответствующей указанному формату, что гарантирует получение правильной версии контента при сканировании.

Как это работает

Ключевой механизм работы системы:

  • Генерация и Уведомление: Вебмастер создает Sitemap для мобильного контента и уведомляет поисковую систему о его доступности.
  • Индикация Формата: При уведомлении или непосредственно в файле Sitemap (например, через тег <format>) указывается тип мобильного контента.
  • Выбор Краулера (Format Selector): Поисковая система анализирует индикатор формата и выбирает соответствующий краулер (Agent) из репозитория доступных персон.
  • Адаптивное Сканирование: Выбранный краулер сканирует URL из Sitemap, представляясь серверу как соответствующее мобильное устройство (используя нужный User-Agent).
  • Индексирование: Полученный контент индексируется, потенциально в отдельном мобильном индексе или с соответствующей пометкой о формате.
  • Оптимизация Сканирования: Система также использует метаданные из Sitemap (Priority, ChangeFreq, LastMod) для приоритизации и планирования сканирования.

Актуальность для SEO

Средняя/Высокая. Хотя конкретные форматы, упомянутые в патенте (WML, iMode), устарели, базовая инфраструктура использования Sitemaps для обнаружения контента и оптимизации сканирования остается критически важной. Основной сценарий патента — выбор разных мобильных краулеров для разных мобильных форматов — менее актуален в эпоху Mobile-First Indexing, когда Google преимущественно использует единый смартфонный краулер. Тем не менее, описанные механизмы приоритизации сканирования на основе метаданных Sitemap сохраняют высокую актуальность.

Важность для SEO

Патент имеет высокое значение для технического SEO и понимания процесса краулинга. Он заложил основу для Mobile SEO, позволяя корректно индексировать сайты с отдельными мобильными версиями (m-dot). Более того, патент детально описывает, как Google использует метаданные в Sitemaps (Priority, LastMod) для управления краулинговым бюджетом и приоритизации сканирования. Понимание этих механизмов критично для обеспечения эффективной индексации крупных сайтов.

Детальный разбор

Термины и определения

Agent / Crawler Persona (Агент / Персона Краулера)
Конфигурация краулера, позволяющая ему имитировать определенное устройство или браузер (например, через User-Agent). Используется для получения контента, предназначенного для этого устройства.
Change Frequency (ChangeFreq) (Частота изменений)
Метаданные в Sitemap, указывающие краулеру, как часто предположительно меняется контент по URL. Используется как подсказка для планирования сканирования.
Differential Sitemap (Дифференциальная карта сайта)
Sitemap, содержащий только те URL, которые были добавлены или изменены с момента генерации предыдущего Sitemap.
Document Format Indicator (Индикатор формата документа)
Информация, связанная с Sitemap (переданная при сабмите или указанная внутри файла), которая определяет формат контента (например, XHTML, WML, iMode, PDAHTML).
Format Selector (Селектор формата)
Компонент краулера, который выбирает подходящую персону (Agent) на основе Document Format Indicator.
Last Modification Date (LastMod) (Дата последнего изменения)
Метаданные в Sitemap, указывающие дату/время последнего изменения документа. Используется краулером для определения необходимости повторного сканирования.
Metadata Document / Sitemap (Документ метаданных / Карта сайта)
Файл (часто XML), содержащий список URL сайта и метаданные о них (формат, приоритет, частота обновления).
Per-Site Information (Информация о сайте)
Общие инструкции для краулера, которые могут быть включены в Sitemap Index. Например, предпочтительная скорость сканирования (Crawl Rate) в разное время суток, географическая или языковая принадлежность сайта.
Priority (Приоритет)
Метаданные в Sitemap, указывающие относительную важность URL. Используется краулером для определения очередности сканирования и может влиять на расчет важности страницы (Page Importance Score).
Sitemap Generator (Генератор карты сайта)
Программное обеспечение на стороне веб-сервера, которое автоматически создает Sitemaps путем анализа файловой системы, логов доступа или данных CMS.
Sitemap Index (Индекс карты сайта)
Документ, который содержит ссылки на несколько файлов Sitemap и может содержать Per-Site Information.
URL Scheduler (Планировщик URL)
Компонент поисковой системы, который определяет, какие URL и когда будут сканироваться, используя данные из Sitemaps и внутренние метрики (например, PageRank).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод анализа документов с адаптивным выбором краулера.

  1. Система получает уведомление о доступности документа метаданных (Sitemap).
  2. Система получает индикатор формата документа (document format indicator), связанный с этим Sitemap, который указывает формат хранения контента.
  3. Используя этот индикатор, система выбирает краулер, имеющий режим работы (operating mode), способный получить доступ к контенту в указанном формате.
  4. Выбранный краулер используется для сканирования документов, перечисленных в Sitemap.

Claim 5 и 6 (Зависимые): Уточняют типы форматов.

Индикатор формата указывает на один или несколько мобильных форматов, таких как XHTML, WML, iMode или HTML.

Claim 7 и 8 (Зависимые): Описывают использование просканированных данных.

Информация, полученная в ходе сканирования, добавляется в индекс. Система использует этот индекс для ответа на поисковые запросы, полученные от мобильных устройств.

Claim 9 (Зависимый): Уточняет структуру Sitemap.

Документ метаданных может являться индексом (Sitemap Index), ссылающимся на несколько списков документов (Sitemaps).

Где и как применяется

Изобретение затрагивает этапы сканирования и индексирования, обеспечивая корректное обнаружение и обработку мобильного контента, а также оптимизацию процесса сканирования в целом.

CRAWLING – Сканирование и Сбор данных

Основной этап применения.

  1. Обнаружение (Discovery): Система получает уведомления о Sitemaps (Sitemap Notifications) и загружает их с помощью SiteMap Crawler.
  2. Выбор Краулера: Format Selector анализирует Document Format Indicator и выбирает нужный Agent (персону краулера) для сканирования URL из этого Sitemap.
  3. Планирование (Scheduling): URL Scheduler использует метаданные из Sitemap (Priority, ChangeFreq, LastMod) и внутренние сигналы (PageRank) для определения приоритета и частоты сканирования.
  4. Управление нагрузкой: Система может использовать Per-Site Information (например, Crawl Rate) для регулирования скорости запросов к серверу.

INDEXING – Индексирование и извлечение признаков

На этом этапе обрабатывается контент, полученный специализированным краулером.

  1. Система может классифицировать контент как мобильный на основе использованного краулера или индикатора формата.
  2. Контент может быть помещен в специализированный мобильный индекс или помечен соответствующим образом в общем индексе.
  3. Метаданные из Sitemap (например, Priority) могут влиять на расчет важности страницы (Page Importance Score).

Входные данные:

  • Уведомление о Sitemap (URL).
  • Document Format Indicator (тип мобильного контента).
  • Содержимое файла Sitemap (URL, LastMod, Priority, ChangeFreq).
  • Внутренние данные системы (PageRank, история сканирования).

Выходные данные:

  • Список приоритизированных URL для сканирования (Sorted & Filtered List of Candidate URLs).
  • Просканированный мобильный контент, готовый к индексированию.
  • Обновленные данные в индексе с корректной классификацией формата.

На что влияет

  • Конкретные типы контента: В первую очередь влияет на контент, специально отформатированный для мобильных устройств (на момент патента: WML, XHTML Mobile Profile, iMode). Это критично для сайтов, использующих отдельные мобильные URL (m-dot) или динамический показ, зависящий от User-Agent.
  • Эффективность сканирования: Влияет на распределение краулингового бюджета. Использование LastMod позволяет избегать повторного сканирования неизмененного контента. Использование Priority позволяет фокусировать ресурсы краулера на более важных страницах.

Когда применяется

  • Триггеры активации: Получение уведомления (ping) о новом или обновленном Sitemap. Также система может периодически проверять Sitemaps на основе хранимой информации о частоте обновлений (update rate information).
  • Условие выбора краулера: Активируется, когда Sitemap идентифицирован как мобильный (Mobile Sitemap) и указан специфический формат контента, требующий особого краулера (Agent).

Пошаговый алгоритм

Процесс А: Обработка и планирование сканирования на основе Sitemap

  1. Получение уведомлений: Система принимает и логирует уведомления о Sitemap.
  2. Выбор Sitemap для обработки: Система выбирает Sitemap для обработки либо на основе полученного уведомления, либо по расписанию (на основе хранимых данных об обновлении).
  3. Загрузка Sitemap: Выбранный Sitemap загружается с веб-сервера.
  4. Обновление базы данных: Новая информация из Sitemap (включая метаданные и Per-Site Information) сохраняется в SiteMap Database.
  5. Идентификация кандидатов на сканирование: Для каждого URL в Sitemap система определяет, является ли он кандидатом на сканирование. Это делается путем проверки LastMod и истории сканирования (URL Status Information) — проверяется, был ли документ обновлен или вероятно ли его обновление.
  6. Расчет оценки (Scoring): Каждому URL-кандидату присваивается оценка. Эта оценка базируется на комбинации PageRank и значения Priority, указанного в Sitemap.
  7. Фильтрация (Опционально): Список URL-кандидатов фильтруется на основе бюджетов сканирования (Crawl Budget) и ограничений сайта (Site Constraints, например, максимальное количество запросов в период времени).
  8. Планирование загрузки: Отсортированный и отфильтрованный список URL передается в планировщик для последующего сканирования.

Процесс Б: Выбор краулера для мобильного контента

  1. Получение индикатора формата: При обработке Sitemap (Процесс А, шаг 4) система идентифицирует Document Format Indicator (например, тег <format>).
  2. Выбор агента: Format Selector использует этот индикатор для выбора подходящей персоны краулера (Agent) из репозитория.
  3. Сканирование: Когда URL из этого Sitemap выбирается для сканирования (Процесс А, шаг 8), система использует выбранный Agent для выполнения запроса к веб-серверу.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании метаданных из Sitemaps и конфигурационных данных для управления сканированием.

  • Контентные/Структурные факторы (Метаданные Sitemap):
    • Формат (<format>): Указывает тип мобильного контента (XHTML, WML). Критичен для выбора краулера.
    • URL (<loc>): Адрес документа.
    • Дата последнего изменения (<lastmod>): Используется для определения новизны контента.
    • Частота изменений (<changefreq>): Подсказка о том, как часто обновляется страница.
    • Приоритет (<priority>): Относительная важность страницы.
    • Заголовок (<title>) и Автор (<author>): Упоминаются как возможные метаданные.
  • Технические факторы (Per-Site Information):
    • Crawl Rate (Скорость сканирования): Предпочтительная скорость и время сканирования сайта, указанные вебмастером.
  • Поведенческие факторы (Логи доступа): Access Logs могут использоваться генератором Sitemap на стороне сервера для определения популярности документов (popularity information), которая может служить дополнительной подсказкой для приоритизации сканирования.
  • Системные данные:
    • PageRank: Внутренняя метрика важности страницы, используется в комбинации с Priority для расчета оценки сканирования.
    • URL Status Information: История сканирования (когда URL последний раз сканировался).

Какие метрики используются и как они считаются

  • Оценка кандидата на сканирование (Candidate URL Score): Рассчитывается для определения приоритета сканирования. Патент явно указывает, что оценка базируется на PageRank и значении Priority из Sitemap.
  • Критерий новизны: Сравнение LastMod из Sitemap с датой последнего сканирования из URL Status Information. Если LastMod новее, документ планируется к сканированию.
  • Критерий частоты обновления: Сравнение текущего времени с датой последнего сканирования и ожидаемой частотой обновления (ChangeFreq). Документ планируется, если прошло больше времени, чем указано в ChangeFreq.
  • Crawl Budget (Бюджет сканирования): Максимальное количество документов, которое краулер может просканировать за сессию для данного сайта. Используется для фильтрации списка кандидатов.

Выводы

  1. Sitemaps как механизм управления краулером: Патент демонстрирует, что Sitemaps — это не просто список URL, а канал для передачи инструкций краулеру, включая выбор его персоны (User-Agent) и управление приоритетами сканирования.
  2. Адаптивное сканирование мобильного контента: Ключевое изобретение — возможность указать формат мобильного контента (Document Format Indicator) и заставить поисковую систему использовать соответствующий краулер (Agent). Это было критично для корректного индексирования не-HTML мобильных форматов и сайтов, использующих User-Agent Sniffing.
  3. Приоритизация сканирования (Scoring): Патент явно подтверждает, что приоритет сканирования определяется комбинацией внутренних сигналов (PageRank) и метаданных, предоставленных вебмастером (Priority в Sitemap).
  4. Эффективность сканирования и LastMod: Система активно использует LastMod для повышения эффективности, избегая повторного сканирования неизмененного контента. Достоверность LastMod критична.
  5. Управление нагрузкой через Sitemap Index: Вебмастера могут предоставлять предпочтения по скорости и времени сканирования (Crawl Rate) через Per-Site Information в Sitemap Index.
  6. Инфраструктура обработки: Описана сложная система (URL Scheduler, SiteMap Processing Module), которая обрабатывает Sitemaps, фильтрует URL на основе метаданных, бюджетов и ограничений, прежде чем отправить их на сканирование.

Практика

Best practices (это мы делаем)

  • Обеспечение точности LastMod: Критически важно поддерживать актуальность и достоверность даты <lastmod> в Sitemaps. Согласно патенту, это основной механизм для определения необходимости повторного сканирования и экономии краулингового бюджета.
  • Использование Sitemap Index для крупных сайтов: Используйте Sitemap Index для структурирования нескольких Sitemaps. Патент также предполагает, что через Sitemap Index можно передавать общие инструкции по сканированию (Per-Site Information).
  • Сегментация Sitemaps: Разделяйте контент на разные Sitemaps (например, по типу контента или частоте обновления). Это позволяет более гранулярно управлять метаданными и упрощает мониторинг индексации.
  • Сигнализация об обновлениях (Pinging): Используйте механизм уведомлений (ping) при обновлении Sitemaps. Патент описывает инфраструктуру для приема и логирования этих уведомлений для оперативной обработки.
  • Корректная настройка мобильных конфигураций (Актуально для раздельных URL): Если используются отдельные мобильные URL (m-dot), необходимо убедиться, что сервер корректно отдает мобильный контент при запросе соответствующим мобильным краулером (User-Agent), как описано в механизме патента.
  • Рассмотрение использования Priority (Осторожно): Патент подтверждает, что <priority> используется для расчета оценки сканирования вместе с PageRank. Хотя влияние этого параметра часто оспаривается, патент указывает на его техническое использование в планировщике. Можно использовать его для указания относительной важности страниц внутри сайта.

Worst practices (это делать не надо)

  • Манипуляция LastMod: Указание ложной даты <lastmod> (например, установка текущей даты для всех страниц, даже если они не менялись) неэффективно. Хотя это может вызвать сканирование, это тратит краулинговый бюджет впустую и может привести к игнорированию сигнала в будущем.
  • Игнорирование ошибок в Sitemaps: Необходимо отслеживать статус обработки Sitemaps (как показано на схемах патента, статус может быть 'Parsing error'). Ошибки могут препятствовать использованию метаданных и обнаружению URL.
  • Установка максимального Priority для всех страниц: Установка <priority> 1.0 для всех URL не дает системе информации об относительной важности. Патент упоминает, что краулер может игнорировать или модифицировать значения Priority, если они не соответствуют предопределенным критериям (например, среднему значению).

Стратегическое значение

Этот патент подчеркивает важность Sitemaps как интерфейса технического взаимодействия с поисковой системой. Он подтверждает, что Google готов принимать и использовать данные от вебмастеров (формат контента, приоритет, частота обновления) для оптимизации своих процессов сканирования. Для SEO-стратегии это означает, что управление краулинговым бюджетом и обеспечение корректного технического состояния Sitemaps (особенно точности LastMod) является фундаментальной задачей, позволяющей повысить эффективность индексации и сфокусировать внимание поисковой системы на важном контенте.

Практические примеры

Сценарий: Оптимизация краулингового бюджета для крупного E-commerce сайта

  1. Задача: Ускорить индексацию новых товаров и снизить нагрузку от сканирования старых, неизменных страниц.
  2. Действия на основе патента:
    • Реализовать автоматическую генерацию Sitemaps (используя Sitemap Generator).
    • Разделить Sitemaps: один для категорий (обновляется часто), другой для новых товаров (обновляется постоянно), третий для архивных товаров (обновляется редко).
    • Настроить точную передачу <lastmod>. Для архивных товаров указывать реальную дату последнего изменения контента.
    • Для Sitemap с новыми товарами настроить автоматическое уведомление (ping) Google после каждого обновления файла.
    • (Опционально) Установить более высокий <priority> (например, 0.8) для новых товаров и категорий, и низкий (например, 0.3) для архивных товаров.
  3. Ожидаемый результат: URL Scheduler использует LastMod и не тратит ресурсы на сканирование архивных товаров. Он использует Priority и PageRank для приоритизации сканирования новых товаров и категорий. Новые товары быстрее попадают в индекс.

Вопросы и ответы

Подтверждает ли этот патент, что Google использует метатег <priority> в Sitemaps?

Да, патент явно это подтверждает. В описании механизма планирования сканирования указано, что система присваивает оценку каждому URL-кандидату, основываясь на PageRank и значении Priority из Sitemap. Это означает, что Priority используется для определения очередности сканирования, хотя его итоговое влияние зависит от комбинации с другими факторами, такими как PageRank.

Насколько важна точность <lastmod> согласно этому патенту?

Точность <lastmod> критически важна для эффективности сканирования. Патент описывает, что система использует это значение для определения, был ли документ изменен с момента последнего сканирования. Если документ не изменился, система может отложить его повторное сканирование, что экономит краулинговый бюджет и ресурсы сервера.

Актуален ли этот патент в эпоху Mobile-First Indexing (MFI)?

Актуальность смешанная. Основная идея патента — выбор специфического мобильного краулера (например, для WML) на основе декларации в Sitemap — в значительной степени устарела, так как MFI использует единый смартфонный краулер. Однако, инфраструктура обработки Sitemaps, управление приоритетами сканирования (Priority, LastMod) и оптимизация краулинга, детально описанные в патенте, остаются высоко актуальными для технического SEO.

Что такое "Дифференциальная карта сайта" (Differential Sitemap)?

Это Sitemap, который содержит только те URL, которые были добавлены или изменены с момента генерации предыдущего Sitemap. Это позволяет вебмастерам предоставлять только обновления, вместо того чтобы каждый раз генерировать и передавать полный список всех URL сайта, что повышает эффективность обработки.

Могу ли я управлять скоростью сканирования моего сайта через Sitemap?

Да, патент предполагает такую возможность. В описании Sitemap Index упоминается Per-Site Information, которая может включать предпочтительную скорость сканирования (Crawl Rate) в разные промежутки времени (например, быстро ночью, средне днем). Эта информация используется краулером для контроля частоты запросов к сайту.

Что такое "Персона краулера" (Crawler Persona) или Агент?

Это набор параметров, который позволяет краулеру имитировать определенное устройство или браузер. Например, краулер может принять персону мобильного телефона, поддерживающего WML. Это гарантирует, что веб-сервер отдаст контент, предназначенный именно для этого типа устройств, что критично при конфигурациях, зависящих от User-Agent.

Использует ли Google данные о популярности страниц из моих логов доступа?

Патент описывает, что Sitemap Generator (ПО на стороне вебмастера) может анализировать логи доступа для определения популярности страниц (popularity information) и включать эту информацию в Sitemap. Если эта информация включена, она может служить дополнительной подсказкой для приоритизации сканирования на стороне Google.

Что произойдет, если я укажу неверный формат мобильного контента?

Если вы укажете неверный формат (например, WML для HTML страниц), система выберет неподходящий краулер. Это может привести к проблемам при сканировании: краулер может не смочь обработать контент, или сервер может вернуть ошибку, если контент в запрошенном формате недоступен. В результате страницы могут быть некорректно проиндексированы или не проиндексированы вовсе.

Влияет ли информация из Sitemap на ранжирование (PageRank)?

Патент указывает, что информация из Sitemap, в частности Priority, может быть инкорпорирована в расчет оценки важности страницы (Page Importance Score, аналог PageRank). Однако, основное применение метаданных Sitemap — это управление процессом сканирования, а не прямое ранжирование.

Что такое фильтрация кандидатов на сканирование?

Это процесс, при котором система выбирает подмножество URL из списка кандидатов на сканирование. Фильтрация происходит на основе рассчитанных оценок (Score), доступного краулингового бюджета (Crawl Budget) и ограничений сайта (Site Constraints). Это гарантирует, что будут просканированы только самые важные страницы в рамках доступных ресурсов.

Похожие патенты

Как Google использует метаданные XML Sitemap (lastmod, changefreq, priority) для планирования и приоритизации сканирования
Патент Google, описывающий фундаментальные механизмы протокола Sitemaps. Планировщик сканирования использует метаданные, предоставленные веб-сайтами: lastmod для предотвращения сканирования неизмененного контента, changefreq для прогнозирования обновлений и priority в качестве повышающего коэффициента (boost factor) в очереди сканирования, оптимизируя краулинговый бюджет.
  • US7769742B1
  • 2010-08-03
  • Краулинг

  • Техническое SEO

  • Свежесть контента

Как Google заложил основу протокола Sitemaps для автоматической генерации и уведомления о списках URL
Этот фундаментальный патент описывает механизм, позволяющий веб-серверам автоматически генерировать Sitemaps (списки URL с метаданными, такими как дата изменения, частота обновления и приоритет), используя данные из файловой системы, логов доступа или CMS. Система также автоматически уведомляет поисковые системы о наличии обновленного Sitemap, решая проблемы неполного покрытия краулинга и повышая его эффективность.
  • US7801881B1
  • 2010-09-21
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google предлагает использовать номера версий контента для генерации в Sitemap, если реальная дата изменения недоступна
Патент описывает метод для генерации Sitemaps на сайтах, где фактическое время последнего изменения контента недоступно (например, для данных в БД). Система сравнивает текущий номер версии контента с версией на момент прошлой генерации Sitemap. Если версия изменилась, в тег устанавливается текущее время, что гарантирует повторное сканирование обновленного контента краулером.
  • US7865497B1
  • 2011-01-04
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google выбирает между веб-сайтом (десктоп/мобайл) и нативным приложением для показа в результатах поиска
Google анализирует различные форматы доступа к контенту (например, десктопный сайт, мобильный сайт, нативное приложение). Система оценивает качество, скорость, стабильность и совместимость каждого варианта с устройством пользователя. В результатах поиска Google покажет ссылку на тот формат, который имеет наивысшую оценку качества для конкретного пользователя и устройства.
  • US9146972B2
  • 2015-09-29
  • SERP

  • Поведенческие сигналы

  • Персонализация

Как Google находит и показывает наиболее релевантный фрагмент документа на мобильных устройствах
Google использует систему транскодирования для адаптации веб-страниц под мобильные устройства. Система анализирует документ, находит фрагмент, наиболее релевантный исходному поисковому запросу, и форматирует страницу так, чтобы этот фрагмент отображался вверху экрана. Это минимизирует необходимость прокрутки на маленьких дисплеях.
  • US8370342B1
  • 2013-02-05
  • Семантика и интент

Популярные патенты

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс
Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.
  • US8255386B1
  • 2012-08-28
  • Индексация

  • Поведенческие сигналы

Как Google определяет географическую зону релевантности бизнеса на основе реального поведения пользователей (Catchment Areas)
Google определяет уникальную "зону охвата" (Catchment Area) для локального бизнеса, анализируя, из каких географических точек пользователи кликали на его результаты в поиске. Эта динамическая зона заменяет фиксированный радиус и используется для фильтрации кандидатов при локальном поиске, учитывая известность бренда, категорию бизнеса и физические препятствия.
  • US8775434B1
  • 2014-07-08
  • Local SEO

  • Поведенческие сигналы

Как Google использует данные о наведении курсора (Hover Data) для ранжирования изображений и борьбы с кликбейтными миниатюрами
Google использует данные о взаимодействии пользователя с миниатюрами в поиске по картинкам (наведение курсора) как сигнал интереса. Для редких запросов эти сигналы получают больший вес, дополняя недостаток данных о кликах. Система также вычисляет соотношение кликов к наведениям (Click-to-Hover Ratio), чтобы идентифицировать и понижать в выдаче «магниты кликов» — привлекательные, но нерелевантные изображения, которые собирают много наведений, но мало кликов.
  • US8819004B1
  • 2014-08-26
  • Поведенческие сигналы

  • Мультимедиа

  • SERP

Как Google динамически фильтрует и изменяет подсказки Autocomplete в реальном времени при вводе навигационного запроса
Google использует систему для оптимизации функции автозаполнения (Autocomplete). При вводе частичного запроса система определяет широкий набор потенциальных навигационных ссылок (Superset) и фильтрует его до узкого подмножества (Subset) на основе сигналов, таких как история поиска, популярность и тип документа. Интерфейс может динамически изменять отображаемые подсказки, если пользователь делает паузу при вводе.
  • US9454621B2
  • 2016-09-27
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google генерирует интерактивные и иерархические Sitelinks на основе структуры и популярности разделов сайта
Google анализирует навигационную иерархию сайта (DOM), популярность ссылок и глубину разделов для создания интерактивного представления ресурса (расширенных Sitelinks) в SERP. Это позволяет пользователям просматривать ключевые категории и вложенные ссылки через интерфейс вкладок, не покидая страницу результатов поиска.
  • US9348846B2
  • 2016-05-24
  • Структура сайта

  • SERP

  • Ссылки

Как Google использует личные данные пользователя (User Model) для понимания его намерений и персонализации выдачи
Google создает персональную модель пользователя (User Model) на основе его личного контента (письма, контакты, документы). Эта модель используется для определения неявного намерения пользователя (личный поиск или общий) и для аннотирования запроса контекстом из личных данных, чтобы предоставить точные персонализированные результаты.
  • US20150012558A1
  • 2015-01-08
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует контент веб-страниц для генерации, верификации и адаптации AI-ответов в поиске (SGE/AI Overviews)
Google использует Большие Языковые Модели (LLM) для создания генеративных сводок (AI Overviews/SGE). Для обеспечения точности система не полагается только на знания LLM, а обрабатывает контент из актуальных результатов поиска (SRDs). Патент описывает архитектуру этого процесса: как выбираются источники, как генерируется сводка на их основе (Grounding), как проверяется информация для добавления ссылок (Verification), и как ответ адаптируется под контекст и действия пользователя.
  • US20250005303A1
  • 2025-01-02
  • SERP

  • EEAT и качество

  • Персонализация

Как Google автоматически изучает синонимы, анализируя последовательные запросы пользователей и вариации анкорных текстов
Google использует методы для автоматического определения синонимов, акронимов и эквивалентных фраз. Система анализирует логи запросов: если пользователь быстро меняет запрос, сохраняя часть слов (например, с «отели в париже» на «гостиницы в париже»), система учится, что «отели» и «гостиницы» эквивалентны. Также анализируются вариации анкорных текстов, указывающих на одну и ту же страницу.
  • US6941293B1
  • 2005-09-06
  • Семантика и интент

  • Ссылки

Как Google определяет ключевую тематику зданий и адресов, используя клики пользователей для показа релевантной рекламы
Google использует этот механизм для понимания основного назначения физического местоположения (адреса или здания). Система анализирует все бизнесы в этой локации и определяет, какие поисковые запросы чаще всего приводят к кликам по их листингам. Самый популярный запрос используется как доминирующее ключевое слово для выбора релевантной рекламы, когда пользователи ищут этот адрес или взаимодействуют с ним на Картах или в Street View.
  • US20120278171A1
  • 2012-11-01
  • Local SEO

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует историю уточнений запросов для выявления и повышения авторитетных сайтов по широким запросам
Google анализирует последовательности запросов пользователей, чтобы понять, как они уточняют свои поисковые намерения. Если пользователи часто переходят от широкого или неточного запроса к более конкретному, который ведет на авторитетный ресурс, Google связывает этот ресурс с исходным широким запросом. Это позволяет показывать авторитетный сайт выше в выдаче, даже если пользователь сформулировал запрос неточно.
  • US8326826B1
  • 2012-12-04
  • Семантика и интент

  • Поведенческие сигналы

  • EEAT и качество

seohardcore