Как Google заложил основу протокола Sitemaps для автоматической генерации и уведомления о списках URL

SITEMAP GENERATING CLIENT FOR WEB CRAWLER (Клиент для генерации Sitemap для веб-краулера)

US7801881B1
Google LLC
2005-06-30
2010-09-21

Этот фундаментальный патент описывает механизм, позволяющий веб-серверам автоматически генерировать Sitemaps (списки URL с метаданными, такими как дата изменения, частота обновления и приоритет), используя данные из файловой системы, логов доступа или CMS. Система также автоматически уведомляет поисковые системы о наличии обновленного Sitemap, решая проблемы неполного покрытия краулинга и повышая его эффективность.

Какую проблему решает

Патент решает фундаментальные проблемы традиционного краулинга, основанного на обнаружении ссылок (discovery-based crawling). Эти проблемы включают:

Неполное покрытие: Краулеры не могут обнаружить URL, на которые нет прямых ссылок (например, динамический контент, результаты запросов к базам данных, URL, скрытые в JavaScript или формах).
Неэффективность краулинга: Краулеры не знают, изменился ли документ с момента последнего сканирования, что приводит к трате ресурсов на повторное сканирование неизмененного контента.
Отсутствие контроля над нагрузкой: Краулеры могут сканировать сайт в пиковые часы и создавать чрезмерную нагрузку, истощая ресурсы веб-сервера.

Что запатентовано

Запатентована система и метод для автоматической генерации списков документов (Sitemaps) непосредственно на стороне веб-сервера (выступающего в роли «клиента» для краулера). Этот «клиент» собирает информацию о доступных URL и их метаданных из различных источников (файловая система, логи доступа, CMS). Сгенерированный Sitemap предоставляет краулеру полный список URL для сканирования, а также метаданные (дата изменения, приоритет) для оптимизации процесса краулинга.

Как это работает

Ключевой механизм — это Sitemap Generator, работающий на веб-сервере:

Сбор данных: Генератор извлекает информацию о документах путем сканирования файловой системы, анализа логов доступа (для поиска реально используемых URL и оценки их популярности) или взаимодействия с CMS.
Генерация Sitemap: Система компилирует список URL, фильтрует исключенные адреса и обогащает список метаданными: датой последнего изменения (lastmod), предполагаемой частотой обновления (changefreq) и относительным приоритетом (priority).
Структурирование: Генерируются файлы Sitemap (например, в формате XML). При наличии нескольких файлов создается Sitemap Index.
Уведомление: После обновления Sitemap система автоматически отправляет уведомление (notification или «пинг») на удаленный компьютер (поисковую систему), сообщая, что новый список URL доступен для сканирования.

Актуальность для SEO

Критически высокая. Этот патент описывает техническую основу протокола Sitemaps, представленного Google в 2005 году. Технология Sitemaps является абсолютным стандартом и критически важным инструментом в современном SEO (2025 год) для управления сканированием и индексацией сайтов всех размеров.

Важность для SEO

Патент имеет фундаментальное значение для SEO (10/10). Он описывает механизм, который позволяет SEO-специалистам напрямую сообщать поисковым системам, какие URL существуют на сайте, когда они были обновлены и насколько они важны. Это напрямую влияет на полноту индексации (Crawl Coverage) и эффективность использования краулингового бюджета (Crawl Efficiency). Без этого механизма управление индексацией крупных или сложных сайтов было бы значительно затруднено.

Термины и определения

Sitemap (Карта сайта): Документ (часто в формате XML), который перечисляет URL документов на веб-сайте, доступных для сканирования. Включает метаданные для каждого URL.
Sitemap Index (Индекс карты сайта): Документ, который перечисляет один или несколько файлов Sitemap. Используется для группировки нескольких файлов.
Sitemap Generator (Генератор Sitemap): Программный модуль на веб-сервере («клиент»), отвечающий за сбор информации о документах и создание файлов Sitemap и Sitemap Index.
Sitemap Generator Control Parameters (Параметры управления генератором): Настройки, определяемые вебмастером, которые управляют генерацией Sitemap (например, шаблоны исключения URL, маппинг путей к URL, предпочтительное время сканирования).
URL Record (Запись URL): Блок информации в файле Sitemap, содержащий конкретный URL и его метаданные (например, lastmod, changefreq, priority, а также опционально title и author).
lastmod (Дата последнего изменения): Метаданные, указывающие дату и время последнего изменения документа.
changefreq (Частота изменения): Метаданные (Update Rate), указывающие, как часто ожидается изменение контента (например, daily, weekly). Является подсказкой для краулера.
priority (Приоритет): Метаданные, указывающие относительный приоритет сканирования документа по сравнению с другими документами на том же сайте (например, от 0.0 до 1.0).
Sitemap Notification (Уведомление о Sitemap): Сообщение, отправляемое веб-сервером на удаленный компьютер (поисковую систему), информирующее о доступности или обновлении Sitemap («пинг»).
Differential Sitemap (Дифференциальный Sitemap): Sitemap, который содержит только те URL, которые были добавлены или изменены с момента генерации предыдущего Sitemap.
Per-Site Information (Информация по сайту): Опциональные данные в Sitemap Index (или Sitemap), применяемые ко всему сайту (например, предпочтительная скорость сканирования crawl_rate, географическое положение location, язык language).
Access Logs (Логи доступа): Записи о доступе к документам сайта. Используются как источник информации о существующих URL и их популярности (access frequency).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод, выполняемый системой веб-сервера для предоставления списка документов.

Система получает доступ к источникам информации о документах на веб-сервере.
Извлекает информацию о документах, включая метаданные.
Генерирует Sitemap, включающий список документов и соответствующие метаданные для каждого из них.
Метаданные должны включать как минимум один из следующих элементов: дату изменения документа, частоту доступа к документу, приоритет документа (указывающий приоритет сканирования) или частоту обновления документа.
Система сохраняет Sitemap в определенном месте.
Система передает уведомление (notification) с веб-сервера на удаленный компьютер (систему веб-краулера), включающее информацию о местоположении Sitemap и указывающее на его доступность.

Claim 3 (Зависимый от 1): Уточняет источники информации. Источники включают как минимум одно из: файловая система, логи доступа (access logs) или списки местоположения документов (document location lists).

Claim 6 (Зависимый от 1): Уточняет состав метаданных. Метаданные включают информацию об относительном приоритете документа (relative priority information).

Claim 7 (Зависимый от 1): Уточняет процесс генерации. Генерация Sitemap включает создание списка документов, измененных после определенного времени (инкрементальное обновление).

Claim 8 (Зависимый от 1): Описывает использование нескольких файлов. Включает генерацию нескольких Sitemaps и генерацию индекса (Sitemap Index), ссылающегося на них. Уведомление идентифицирует этот индекс.

Claim 9 (Зависимый от 1): Описывает генерацию дифференциального списка. Включает определение разницы между текущим и предыдущим Sitemap и генерацию Differential Sitemap на основе этой разницы.

Где и как применяется

Изобретение напрямую связано с этапом сбора данных поисковой системой.

CRAWLING – Сканирование и Сбор данных

Патент описывает механизм, который функционирует на стороне веб-сервера, но его единственная цель — оптимизация работы компонента CRAWLING поисковой системы.

Взаимодействие с Web Crawler: Система генерирует структурированные данные (Sitemaps), которые используются веб-краулером для обнаружения URL (URL Discovery) и планирования сканирования (Crawl Scheduling).
Управление бюджетом (Crawl Budget Management): Повышая эффективность сканирования (за счет игнорирования неизмененных страниц с помощью lastmod), система позволяет краулеру сосредоточить ресурсы на новом или обновленном контенте.
Механизм Push/Pull: Патент описывает как механизм Pull (краулер загружает Sitemap), так и механизм Push (веб-сервер активно уведомляет краулер об обновлении через Sitemap Notification).

Входные данные (на стороне веб-сервера):

Файловая система сайта (структура директорий, метаданные файлов).
Логи доступа (Access Logs).
Данные из базы данных или CMS.
Sitemap Generator Control Parameters (настройки, заданные вебмастером).

Выходные данные (предоставляемые краулеру):

Файлы Sitemap (список URL с метаданными lastmod, changefreq, priority).
Файл Sitemap Index (список файлов Sitemap и опционально Per-Site Information).

На что влияет

Типы контента: Влияет на все типы сканируемого контента (веб-страницы, PDF, изображения, видео). Особенно полезен для контента, который трудно обнаружить по ссылкам (страницы из баз данных, архивы, страницы-сироты).
Конкретные ниши или тематики: Критически важно для крупных сайтов (e-commerce, порталы), новостных сайтов (требующих быстрого обнаружения обновлений) и сайтов со сложной архитектурой.

Когда применяется

Условия работы алгоритма: Алгоритм генерации работает на стороне веб-сервера. Он может запускаться по расписанию (например, ежедневно), или при изменении контента (триггер от CMS).
Триггеры активации: Активация механизма уведомления (Sitemap Notification) происходит сразу после успешной генерации или обновления файла Sitemap.

Пошаговый алгоритм

Описание обобщенного процесса генерации Sitemap на стороне веб-сервера.

Инициализация и Конфигурация: Загрузка Sitemap Generator Control Parameters. Определение источников данных, шаблонов исключения URL, правил маппинга путей к URL, правил для changefreq и priority, а также URL для уведомления поисковых систем.
Сбор данных (Data Acquisition): Система обращается к указанному источнику:
- Вариант А (Файловая система/БД): Сканирование базы данных или обход дерева директорий. Извлечение URL и даты последнего изменения (lastmod).
- Вариант Б (Логи доступа): Сканирование Access Logs для поиска URL, которые были успешно запрошены (non-error URLs). Опционально: вычисление информации о популярности на основе частоты доступа.
Фильтрация (Filtering): Применение шаблонов исключения (URL exclusion patterns) к собранному списку URL.
Обогащение метаданными (Metadata Enrichment): Добавление метаданных к каждому URL:
- Добавление lastmod (если не было получено ранее, например, при использовании логов).
- Добавление changefreq и priority на основе предопределенных правил.
- (Опционально) Добавление других метаданных, таких как title или author.
Генерация и Структурирование:
- Создание одного или нескольких файлов Sitemap.
- Если сгенерировано несколько файлов, создание файла Sitemap Index. Опционально: добавление Per-Site Information (например, crawl_rate, location, language).
(Опционально) Генерация дифференциального списка: Сравнение текущего Sitemap с предыдущей версией для создания Differential Sitemap, содержащего только изменения.
Уведомление (Notification): Отправка уведомления (пинга) на указанные URL поисковых систем.

Какие данные и как использует

Данные на входе

Система использует данные, доступные на веб-сервере, и конфигурацию, предоставленную вебмастером.

Технические факторы:
- URL-структура и Файловые пути: Используются для генерации списка URL (через маппинг) и применения правил фильтрации.
- Код ответа (из логов): Анализ логов доступа использует коды ответа сервера для идентификации успешных запросов (non-error URLs).
Временные факторы:
- Дата последнего изменения (Last Modification Date): Извлекается из метаданных файловой системы или базы данных. Критически важна для заполнения поля lastmod.
Поведенческие факторы (косвенно):
- Частота доступа (из логов): Анализ логов может использоваться для определения популярности документа, что может влиять на установку priority.
Контентные факторы (Опционально):
- Патент упоминает возможность включения в URL Record заголовка документа (title) и автора (author).
Географические и Языковые факторы (Опционально):
- В рамках Per-Site Information может быть указана геолокация сайта (location) и поддерживаемые языки (language).
Конфигурационные данные (Control Parameters):
- Шаблоны исключения URL, предопределенные значения метаданных, предпочтительное время и скорость сканирования.

Какие метрики используются и как они считаются

Патент фокусируется на генерации и передаче следующих метрик:

lastmod: Извлекается напрямую из временных меток файловой системы или БД.
changefreq (Update Rate): Устанавливается на основе правил, заданных вебмастером в конфигурации.
priority (Relative Priority): Устанавливается на основе правил (диапазон 0.0 до 1.0). Патент явно указывает, что краулер может игнорировать или модифицировать значения приоритета, если они не соответствуют предопределенным критериям (например, требованию, чтобы приоритеты имели предопределенное среднее значение, такое как 0.5).
Популярность (Popularity information): Опциональная метрика, вычисляемая на основе количества успешных доступов к URL в логах.
Crawl Rate (Скорость сканирования): Метрика в Per-Site Information, определяющая желаемую нагрузку (например, medium, fast) в определенные временные интервалы.

Фундаментальный механизм управления краулингом: Патент описывает основу протокола Sitemaps, который переносит часть ответственности за обнаружение URL с поисковой системы на владельца сайта. Это стандарт де-факто для обеспечения полноты индексации.
Автоматизация и источники данных: Ключевая идея патента — автоматическая генерация Sitemaps из первичных источников (файловая система, логи, БД), что обеспечивает актуальность и полноту данных без ручного вмешательства.
Важность метаданных для эффективности: Патент подчеркивает роль метаданных как сигналов для планировщика краулера. lastmod является критически важным для избежания повторного сканирования неизмененного контента.
Автономность краулера: Метаданные changefreq и priority определены как подсказки (hints). Патент явно указывает, что краулер может их игнорировать, основываясь на собственных данных (например, PageRank) или если они выглядят манипулятивно (например, если средний приоритет не равен 0.5).
Механизм уведомления (Push): Защищена идея активного уведомления поисковой системы об обновлении Sitemap («пинг»), что ускоряет реакцию краулера на изменения.
Гибкость и масштабируемость: Поддержка Sitemap Index и Differential Sitemaps обеспечивает масштабируемость для очень крупных сайтов и эффективность передачи данных об обновлениях.
Управление нагрузкой (Crawl Management): Патент предусматривает возможность передачи Per-Site Information, включая предпочтительное время и скорость сканирования (crawl_rate).

Best practices (это мы делаем)

Обеспечить автоматическую генерацию Sitemaps: Внедрить надежные механизмы (плагины CMS или собственные скрипты) для автоматической генерации и обновления Sitemaps. Источником данных должна быть непосредственно база данных или файловая система, чтобы гарантировать точность lastmod.
Гарантировать полноту и чистоту Sitemap: Убедиться, что все канонические, индексируемые URL (с кодом ответа 200 ОК) включены в Sitemap, а мусорные URL исключены с помощью URL exclusion patterns.
Использовать точный lastmod: Критически важно передавать корректную дату последнего изменения контента. Это напрямую влияет на решение краулера о необходимости повторного сканирования страницы и оптимизирует краулинговый бюджет.
Структурировать Sitemaps для масштабируемости: Для крупных сайтов использовать Sitemap Index для разделения URL по типу контента или разделам. Это облегчает диагностику проблем индексации.
Включать "глубинный" контент: Убедиться, что генератор включает URL, которые могут быть пропущены при стандартном сканировании (например, страницы из базы данных без прямых ссылок).
(Если поддерживается) Использовать механизм уведомления: Использование механизма «пинга» (Sitemap Notification) при обновлении контента может ускорить обнаружение изменений.

Worst practices (это делать не надо)

Генерировать Sitemaps вручную или сторонними краулерами: Это противоречит идее патента об использовании первичных источников данных. Сторонние краулеры не имеют доступа к точным датам изменения в базе данных.
Включать мусорные URL в Sitemap: Добавление неканонических страниц, редиректов или страниц с ошибками тратит краулинговый бюджет и ухудшает качество данных.
Устанавливать некорректный lastmod: Установка текущей даты для всех страниц при каждой генерации (вместо реальной даты изменения контента) является манипуляцией. Поисковые системы могут начать игнорировать этот сигнал.
Устанавливать нереалистичный priority: Установка всем страницам приоритета 1.0. Патент указывает, что нереалистичные значения (например, если средний приоритет по сайту значительно отличается от 0.5) могут быть проигнорированы краулером.

Стратегическое значение

Этот патент подтверждает, что Sitemaps являются основным каналом коммуникации между веб-сервером и краулером для обнаружения и приоритизации URL. Стратегическое значение заключается в понимании того, что эффективное управление Sitemaps — это критически важный компонент SEO-стратегии, направленный на максимизацию эффективности краулинга и полноты индексации. Он подчеркивает важность технической инфраструктуры сайта, способной предоставлять точные и своевременные данные о своем контенте.

Практические примеры

Сценарий: Оптимизация краулинга крупного E-commerce сайта

Задача: На сайте миллионы товаров, многие из которых редко меняются, но краулер тратит слишком много ресурсов на их повторное сканирование, игнорируя новые товары.
Применение механизма патента:
- Настраивается автоматический Sitemap Generator, подключенный к базе данных товаров.
- Генератор создает несколько Sitemaps, сгруппированных по категориям, используя Sitemap Index.
- Для каждого товара в поле lastmod передается точная дата последнего изменения (цены, описания или наличия) из базы данных.
- Priority устанавливается на основе маржинальности или популярности товара (используя данные из Access Logs, как предлагает патент), соблюдая принцип относительности.
Результат: Краулер, получая Sitemap с точными lastmod, видит, что большинство старых товаров не изменились, и пропускает их сканирование. Освободившиеся ресурсы направляются на сканирование новых товаров и тех страниц, где lastmod обновился. Эффективность краулинга значительно возрастает.

Является ли Sitemap фактором ранжирования?

Нет, наличие Sitemap само по себе не улучшает позиции сайта. Однако Sitemap является критически важным инструментом для обеспечения того, чтобы контент был обнаружен, просканирован и проиндексирован. Если страница не проиндексирована, она не может ранжироваться. Таким образом, Sitemap косвенно влияет на видимость сайта, обеспечивая полноту и свежесть индекса.

Насколько важны поля changefreq и priority в 2025 году?

Их важность снизилась. Google заявляет, что в значительной степени игнорирует priority, так как вебмастера часто злоупотребляли им (и патент это предусматривал, указывая на возможность игнорирования при несоответствии критериям). changefreq используется как слабая подсказка. Основным сигналом для планирования сканирования остается lastmod.

Что более приоритетно для Google: URL, найденный по ссылке, или URL в Sitemap?

Оба метода обнаружения URL важны и дополняют друг друга. Ссылки остаются основным способом обнаружения и сигналом авторитетности (PageRank). Sitemap гарантирует обнаружение, но не гарантирует индексацию или ранжирование. В идеальной ситуации все важные URL должны быть доступны как через внутренние ссылки, так и перечислены в Sitemap.

Стоит ли использовать механизм уведомления (ping) об обновлении Sitemap?

Патент описывает Sitemap Notification как важную часть системы. Хотя Google сканирует известные Sitemaps достаточно часто, механизм пинга может быть полезен для очень новых сайтов, для ускорения индексации критически важных обновлений или при работе с другими поисковыми системами, которые могут реже проверять Sitemaps автоматически.

Что такое Differential Sitemap и стоит ли его использовать?

Differential Sitemap содержит только URL, измененные с момента последней генерации. Это может повысить эффективность передачи данных для очень крупных сайтов. Однако стандартные реализации обычно генерируют полный список URL с актуальными lastmod. Если система может эффективно генерировать полный Sitemap, использование дифференциальных списков обычно не требуется, так как краулер сам определит изменения по полю lastmod.

Патент предлагает использовать логи доступа (Access Logs) для генерации Sitemap. Это хорошая идея?

Это может быть полезным дополнительным источником данных, особенно для обнаружения реально используемых URL (non-error URLs), которые могли быть пропущены при сканировании файловой системы. Также логи могут помочь определить популярность для установки priority. Однако основным источником должна оставаться база данных или CMS, так как логи могут содержать много мусорных URL.

Что делать, если lastmod в Sitemap не соответствует реальной дате изменения контента?

Это серьезная техническая проблема. Если lastmod старше реального изменения, Google может не узнать о необходимости обновить индекс. Если lastmod новее (обновляется без изменения контента), Google потратит краулинговый бюджет впустую и может начать игнорировать этот сигнал. Необходимо настроить Sitemap Generator так, чтобы он брал точную дату изменения контента из надежного источника (БД).

Патент упоминает Per-Site Information, например, предпочтительную скорость сканирования. Как это использовать?

Патент предусматривал возможность предлагать желаемое время и скорость сканирования (crawl_rate), чтобы снизить нагрузку на сервер. Однако этот механизм не стал частью общепринятого стандарта Sitemaps. Управлять скоростью сканирования Google можно через настройки в Google Search Console, а не через файл Sitemap.

Как лучше структурировать Sitemaps для крупного сайта?

Следует использовать Sitemap Index и разделять URL на несколько файлов Sitemap (до 50 000 URL в каждом). Рекомендуется структурировать их логически: по разделам сайта (например, блог, товары, категории) или по типам контента. Это значительно упрощает мониторинг и диагностику проблем индексации в Google Search Console.

Может ли Sitemap помочь проиндексировать страницы, на которые нет внутренних ссылок?

Да, это одна из ключевых целей изобретения. Патент создан для решения проблемы неполного охвата при традиционном сканировании. Включение URL в Sitemap гарантирует, что краулер узнает о его существовании, независимо от внутренней перелинковки.

Как Google использует метаданные XML Sitemap (lastmod, changefreq, priority) для планирования и приоритизации сканирования

Патент Google, описывающий фундаментальные механизмы протокола Sitemaps. Планировщик сканирования использует метаданные, предоставленные веб-сайтами: lastmod для предотвращения сканирования неизмененного контента, changefreq для прогнозирования обновлений и priority в качестве повышающего коэффициента (boost factor) в очереди сканирования, оптимизируя краулинговый бюджет.

US7769742B1
2010-08-03

Краулинг
Техническое SEO
Свежесть контента

Как Google использует мобильные Sitemaps для выбора правильного краулера и оптимизации сканирования

Патент Google, описывающий механизм использования специализированных карт сайта (Sitemaps) для мобильного контента. Система позволяет вебмастерам указывать формат мобильных страниц (например, XHTML, WML). На основе этой информации Google выбирает соответствующий краулер (User-Agent) для корректного сканирования и индексирования мобильной версии сайта. Патент также детально описывает инфраструктуру обработки Sitemaps, включая использование метаданных (Priority, ChangeFreq, LastMod) для управления приоритетом и частотой сканирования.

US7653617B2
2010-01-26

Краулинг
Индексация
Техническое SEO

Как Google предлагает использовать номера версий контента для генерации в Sitemap, если реальная дата изменения недоступна

Патент описывает метод для генерации Sitemaps на сайтах, где фактическое время последнего изменения контента недоступно (например, для данных в БД). Система сравнивает текущий номер версии контента с версией на момент прошлой генерации Sitemap. Если версия изменилась, в тег устанавливается текущее время, что гарантирует повторное сканирование обновленного контента краулером.

US7865497B1
2011-01-04

Краулинг
Техническое SEO
Индексация

Как Google использует данные о поведении пользователей для генерации и ранжирования Sitelinks (Дополнительных ссылок сайта)

Патент описывает механизм генерации Sitelinks (дополнительных ссылок под основным результатом поиска). Google анализирует логи доступа пользователей (частоту кликов, время на странице) и другие факторы качества, чтобы определить наиболее важные внутренние страницы сайта. Эти страницы затем отображаются в виде ранжированного списка для ускорения навигации пользователя.

US7996391B2
2011-08-09

Ссылки
Поведенческие сигналы
SERP

Как Google приоритизирует сканирование, управляет краулинговым бюджетом и повторно использует контент

Google использует распределенную систему планирования для оптимизации сканирования. Приоритет URL определяется их важностью (Page Importance/PageRank) и специальными коэффициентами (Boost Factor). Система фильтрует постоянно недоступные страницы и решает, загружать ли контент заново или использовать кэшированную версию (Reuse), основываясь на истории изменений и важности страницы.

US8042112B1
2011-10-18

Краулинг
Свежесть контента
Индексация

Как Google использует визуальный анализ кликов по картинкам для понимания интента запроса и переранжирования выдачи

Google анализирует визуальное содержимое изображений, которые пользователи чаще всего выбирают в ответ на определенный запрос. На основе этого анализа (наличие лиц, текста, графиков, доминирующих цветов) система определяет категорию запроса (например, «запрос о конкретном человеке» или «запрос на определенный цвет»). Эти категории затем используются для переранжирования будущих результатов поиска, повышая изображения, которые визуально соответствуют выявленному интенту.

US9836482B2
2017-12-05

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует исторические данные о кликах (CTR) по категориям для определения доминирующего интента неоднозначных запросов

Google анализирует, на какие категории результатов пользователи кликали чаще всего в прошлом (CTR) по неоднозначному запросу (например, "Pool"). Система определяет доминирующие интенты, выявляя резкие перепады в CTR между категориями или используя иерархию категорий, и повышает в ранжировании результаты, соответствующие наиболее популярным интерпретациям.

US8738612B1
2014-05-27

Семантика и интент
Поведенческие сигналы
SERP

Как Google находит, фильтрует и подмешивает посты из блогов, релевантные конкретным результатам поиска

Патент описывает систему Google для дополнения стандартных результатов веб-поиска ссылками на релевантные посты в блогах. Система использует многоступенчатую фильтрацию для отсеивания низкокачественных блогов и спама (splogs). Фильтры анализируют количество исходящих ссылок (out-degree), качество входящих ссылок (Link-based score), возраст поста, его длину и расположение ссылок, чтобы гарантировать качество подмешиваемого контента.

US8117195B1
2012-02-14

EEAT и качество
Антиспам
Ссылки

Как Google определяет географическую релевантность сайта по локали ссылающихся на него ресурсов и их аудитории

Google использует географические сигналы ссылающихся сайтов для определения локальной релевантности целевого домена. Система анализирует контент, технические данные и, что важно, географию аудитории ссылающихся ресурсов, чтобы вычислить «Link Based Locale Score». Эта оценка комбинируется с собственными сигналами сайта и используется для повышения позиций в релевантных географических регионах.

US8788490B1
2014-07-22

Local SEO
Ссылки
SERP

Как Google определяет интент запроса, анализируя классификацию контента, который кликают пользователи

Google использует данные о поведении пользователей для классификации запросов. Система определяет, какой контент пользователи считают наиболее релевантным для запроса (на основе кликов и времени пребывания). Затем она анализирует классификацию этого контента (например, «продукт», «новости», «взрослый контент») и присваивает доминирующую классификацию самому запросу. Это позволяет уточнить интент и скорректировать ранжирование.

US8838587B1
2014-09-16

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует машинное обучение и данные о длительности сессий для выявления битых Deep Links в мобильных приложениях

Google использует систему машинного обучения для анализа того, как долго пользователи взаимодействуют с контентом в приложении после перехода по Deep Link (Presentation Duration). Анализируя распределение этих временных интервалов, система классифицирует ссылку как рабочую или битую без необходимости прямого сканирования контента. Это позволяет Google удалять неработающие ссылки из индекса.

US10628511B2
2020-04-21

Ссылки
Индексация
Поведенческие сигналы

Как Google итеративно распознает сущности на страницах и рассчитывает их важность с помощью PageRank

Google использует итеративный процесс для распознавания и устранения неоднозначности сущностей (людей, мест, понятий) в документах. Система начинает с известных фактов, находит упоминающие сущность документы, анализирует сопутствующие термины для уточнения модели распознавания и автоматически обнаруживает новые признаки. Патент также описывает расчет важности сущности путем суммирования PageRank ссылающихся документов, взвешенного на вероятность ссылки.

US8122026B1
2012-02-21

Семантика и интент
Ссылки
Knowledge Graph

Как Google динамически перестраивает выдачу, если пользователь игнорирует результаты, связанные с определенной сущностью

Google использует механизм уточнения интента пользователя в реальном времени при обработке неоднозначных запросов. Система группирует результаты поиска по связанным сущностям. Если пользователь демонстрирует отсутствие интереса к одной из групп (например, прокручивает или смахивает результаты), система динамически модифицирует выдачу, понижая или удаляя все результаты, связанные с этой отклоненной сущностью.

US9348945B2
2016-05-24

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует длительность кликов, Pogo-Sticking и уточнение запросов для оценки качества поиска (Click Profiles)

Google анализирует поведение пользователей после клика для оценки удовлетворенности. Система создает «Профили взаимодействия» (Click Profiles), учитывая длительность клика (Dwell Time), возврат к выдаче (Pogo-Sticking) и последующее уточнение запроса. Эти данные используются для сравнения эффективности алгоритмов ранжирования и выявления спама или кликбейта.

US9223868B2
2015-12-29

Поведенческие сигналы
SERP
Антиспам

Как Google автоматически добавляет текст существующих объявлений к сайтлинкам (Sitelinks) для повышения CTR

Google использует систему для автоматического улучшения сайтлинков в рекламных объявлениях. Система анализирует существующие текстовые объявления (креативы) рекламодателя и определяет их конечные целевые страницы, игнорируя параметры отслеживания. Затем она сопоставляет их с URL сайтлинков и добавляет наиболее релевантный и эффективный текст креатива к сайтлинку для повышения кликабельности (CTR).

US10650066B2
2020-05-12

Ссылки
SERP