Как Google использует метаданные XML Sitemap (lastmod, changefreq, priority) для планирования и приоритизации сканирования

WEB CRAWLER SCHEDULER THAT UTILIZES SITEMAPS FROM WEBSITES (Планировщик веб-краулера, использующий файлы Sitemap с веб-сайтов)

US7769742B1
Google LLC
2005-06-30
2010-08-03

Патент Google, описывающий фундаментальные механизмы протокола Sitemaps. Планировщик сканирования использует метаданные, предоставленные веб-сайтами: lastmod для предотвращения сканирования неизмененного контента, changefreq для прогнозирования обновлений и priority в качестве повышающего коэффициента (boost factor) в очереди сканирования, оптимизируя краулинговый бюджет.

Какую проблему решает

Патент решает фундаментальные проблемы традиционного сканирования, основанного на обнаружении ссылок (discovery-based crawling):

Неполный охват: Краулеры могут пропускать URL, на которые нет прямых ссылок или ссылки скрыты в скриптах, формах или меню.
Неэффективность сканирования: Краулеры тратят ресурсы на повторную загрузку контента, который не изменился с момента последнего визита, так как не знают статус его актуальности.
Отсутствие приоритизации: Краулеры не имеют информации от владельца сайта о том, какие страницы являются наиболее важными и как часто они обновляются.
Нагрузка на сервер: Неоптимальное время и интенсивность сканирования могут создавать избыточную нагрузку на веб-сервер.

Что запатентовано

Запатентована система и метод планирования сканирования (Web Crawler Scheduler), который активно использует файлы Sitemap, предоставляемые веб-сайтами. Суть изобретения заключается в использовании метаданных из Sitemap — даты последнего изменения (lastmod), частоты обновления (changefreq) и приоритета (priority) — для принятия эффективных решений о том, какие документы сканировать, когда и в каком порядке.

Как это работает

Система функционирует следующим образом:

Генерация и Уведомление: Веб-сайт генерирует Sitemap с метаданными и отправляет уведомление (notification или ping) краулеру.
Получение Sitemap: SiteMap Crawler загружает и обрабатывает Sitemap.
Анализ и Планирование: URL Scheduler анализирует метаданные и сравнивает их с внутренней историей сканирования.
Оптимизация: Сканирование откладывается (deferred), если контент не изменился (на основе lastmod) или если прошло недостаточно времени (на основе changefreq).
Приоритизация: Для кандидатов на сканирование рассчитывается оценка (score), которая учитывает внутреннюю важность (например, PageRank) и корректируется с помощью повышающего коэффициента (boost factor) на основе значения priority из Sitemap.
Сканирование: Документы загружаются в соответствии с приоритетами в расписании.

Актуальность для SEO

Критически высокая. Этот патент описывает фундаментальные механизмы протокола XML Sitemap, который был представлен Google в 2005 году и стал отраслевым стандартом. Описанные принципы оптимизации краулингового бюджета и управления сканированием остаются центральными в техническом SEO по сей день.

Важность для SEO

Патент имеет критическое значение для SEO (10/10). Он детально описывает, как именно Google интерпретирует и использует данные из XML Sitemap для управления процессом сканирования. Это позволяет SEO-специалистам напрямую влиять на обнаружение URL, частоту пересканирования и приоритизацию контента, что является основой для эффективной индексации и управления краулинговым бюджетом.

Термины и определения

Sitemap (Карта сайта): Документ (часто XML), перечисляющий URL-адреса сайта, доступные для сканирования, и включающий метаданные для каждого URL.
Sitemap Index (Индекс Карты сайта): Документ, перечисляющий один или несколько файлов Sitemap. Используется для группировки.
URL Scheduler (Планировщик URL): Компонент системы краулера, который определяет, какие URL сканировать и когда, используя данные из Sitemap и внутренние сигналы.
SiteMap Crawler (Краулер Sitemap): Компонент, отвечающий за загрузку и обработку файлов Sitemap.
lastmod (Document Modification Date Information): Метаданные (тег <lastmod>), указывающие дату последнего изменения документа. Используется для определения факта обновления контента.
changefreq (Document Update Rate Information): Метаданные (тег <changefreq>), указывающие ожидаемую частоту обновления (например, daily, weekly). Используется для прогнозирования необходимости сканирования.
priority (Document Importance Information): Метаданные (тег <priority>), указывающие относительную важность документа. Используется для влияния на очередность сканирования.
Boost Factor (Повышающий коэффициент): Коэффициент, основанный на значении priority, который используется для корректировки оценки приоритета сканирования URL.
PageRank: Внутренняя метрика важности страницы (упомянутая в патенте как пример page importance score), используемая планировщиком в сочетании с priority.
URL Status Information: Внутренние данные краулера об истории сканирования URL, включая дату последней загрузки.
Per-Site Information (Информация по сайту): Опциональные данные в Sitemap Index, применяемые ко всему сайту. Примеры: предпочтительная скорость сканирования (crawl rate), время сканирования, язык, географическое положение.
Differential Sitemap (Дифференциальная Карта сайта): Sitemap, содержащий только те URL, которые были добавлены или изменены с момента генерации предыдущего Sitemap.

Ключевые утверждения (Анализ Claims)

Патент содержит несколько ключевых независимых пунктов, защищающих использование различных метаданных Sitemap для планирования.

Claim 1 (Независимый пункт) – Использование частоты обновления (changefreq):

Система получает уведомление от веб-сайта с URL файла Sitemap.
Система получает доступ к Sitemap и извлекает URL и метаданные, включая document update rate information (частоту обновления).
Система планирует загрузку документов.
Ключевая логика: Документ планируется к загрузке, если время, прошедшее с момента его последней загрузки, превышает продолжительность, соответствующую его частоте обновления.

Claim 6 (Независимый пункт) – Использование приоритета (priority):

Система получает уведомление и доступ к Sitemap.
Извлекаются метаданные, включая document importance information (приоритет).
Планирование выполняется на основе оценки (score), присвоенной каждому документу.
Ключевая логика: Оценка (score) документа корректируется с помощью boost factor (повышающего коэффициента), соответствующего значению приоритета из Sitemap.

Claim 3 и Claim 8 (Зависимые пункты) – Использование даты изменения (lastmod):

Метаданные включают document modification date information (дату изменения).
Ключевая логика: Система откладывает (deferring) планирование загрузки документа, если его дата изменения не позднее даты его последней загрузки краулером (т.е. контент не изменился).

Где и как применяется

Изобретение является центральной частью инфраструктуры сканирования.

CRAWLING – Сканирование и Сбор данных

Это основной этап применения патента. Система определяет ЧТО, КОГДА и В КАКОМ ПОРЯДКЕ сканировать.

SiteMap Crawler и Processing Module: Получают уведомления (pings), загружают Sitemap и извлекают URL и метаданные.
URL Scheduler: Ядро системы. Использует извлеченные метаданные для принятия решений о планировании. Он взаимодействует с:
- URL Status Information (историей сканирования) для сравнения дат (lastmod) и времени (changefreq).
- Page Rankers (метриками важности) для получения базовой оценки, которая затем корректируется с помощью priority.
Robots (Googlebot): Выполняют сканирование в соответствии с расписанием, установленным URL Scheduler, и с учетом Per-Site Information (например, скорости сканирования).

INDEXING – Индексирование и извлечение признаков

Патент упоминает, что метаданные из Sitemap (такие как title, author) могут использоваться для создания Anchor Maps (карт анкоров), помогая индексировать контент без текста (например, изображения). Также Per-Site Information (язык, местоположение) может добавляться в индекс.

Входные данные:

Уведомления от веб-сайтов (Sitemap Notifications).
Файлы Sitemap и Sitemap Index (содержащие URL, lastmod, changefreq, priority, Per-Site Information).
Внутренняя история сканирования (URL Status Information).
Внутренние метрики важности (например, PageRank).

Выходные данные:

Отсортированный и отфильтрованный список URL-кандидатов с оценками (scores), запланированных для загрузки краулерами.

На что влияет

Типы контента: Влияет на все типы контента, перечисленные в Sitemap (веб-страницы, PDF, изображения, видео и т.д.).
Конкретные ниши: Особенно критично для крупных сайтов (e-commerce, СМИ, порталы), где эффективное управление краулинговым бюджетом и своевременное обновление индекса жизненно важны.
Обнаружение URL: Помогает обнаруживать URL, которые трудно найти через стандартный обход ссылок.

Когда применяется

Триггеры активации:
- Реактивный режим (Push): При получении уведомления (ping) от веб-сайта о новом или обновленном Sitemap.
- Проактивный режим (Pull): Периодически, когда система решает перепроверить известный Sitemap на основе сохраненной информации о частоте обновлений (stored update rate information).
Условия включения URL в расписание: URL становится кандидатом, если он новый, ИЛИ если lastmod новее даты последнего сканирования, ИЛИ если время, прошедшее с последнего сканирования, превышает интервал changefreq.

Пошаговый алгоритм

Процесс планирования сканирования на основе Sitemap:

Получение и Логирование Уведомлений: Система принимает уведомления о Sitemap. (Альтернативно: Периодический выбор Sitemap для обработки).
Загрузка Sitemap: SiteMap Crawler загружает выбранный файл Sitemap.
Обновление Базы Данных: Информация из Sitemap сохраняется в SiteMap Database. Per-Site Information также извлекается и сохраняется.
Идентификация Кандидатов: Для каждого URL определяется, является ли он кандидатом на сканирование путем сравнения метаданных с URL Status Information:
- Проверка lastmod: Если дата изменения позже даты последнего сканирования, это кандидат. Если нет, сканирование может быть отложено (deferred).
- Проверка changefreq: Если время с последнего сканирования превышает интервал changefreq, это кандидат.
Присвоение Оценки (Scoring): Каждому кандидату присваивается оценка (score). Оценка базируется на PageRank и корректируется с помощью Boost Factor, основанного на значении priority из Sitemap.
Фильтрация (Опционально): Список кандидатов фильтруется на основе краулинговых бюджетов (budgets) и ограничений сайта (site constraints), включая Per-Site Information о скорости сканирования.
Планирование Загрузки: Отсортированный и отфильтрованный список URL передается роботам для загрузки.

Какие данные и как использует

Данные на входе

Данные из Sitemap:

Технические факторы: URL документа (loc).
Временные факторы:
- Last Modification Date (lastmod).
- Change Frequency (changefreq).
Факторы приоритета:
- Priority (priority).
Контентные факторы (для индексации): title, author (упоминаются как источники для Anchor Maps).
Per-Site Information (из Sitemap Index): Скорость сканирования (crawl rate), предпочтительное время, язык, географическое положение.

Внутренние данные Google:

URL Status Information: Дата и время последнего сканирования документа.
Метрики важности: PageRank или аналогичные метрики авторитетности URL.
Crawl Budgets: Выделенные ресурсы на сканирование сайта.

Какие метрики используются и как они считаются

Патент описывает конкретные логические операции и метрики:

Оценка на основе Last Modification (Claim 3):
Логика: Отложить сканирование (Defer Crawl).
Условие: Если $LastModDate \leq LastCrawlDate$ .
Оценка на основе Change Frequency (Claim 1):
Логика: Запланировать сканирование (Schedule Crawl).
Условие: Если $(CurrentTime - LastCrawlTime) > Duration(ChangeFreq)$ .
Расчет оценки сканирования (Crawl Score Calculation) (Claim 6):
Оценка рассчитывается на основе комбинации внутренних метрик и данных Sitemap.
Формула (концептуально): Оценка = Функция(PageRank, Boost Factor).
Boost Factor определяется на основе значения Priority из Sitemap.

Sitemaps как механизм управления, а не только обнаружения: Патент подтверждает, что Sitemap — это ключевой инструмент для оптимизации процесса сканирования и управления краулинговым бюджетом.
Активное использование всех метаданных: Теги <lastmod>, <changefreq> и <priority> не игнорируются; они напрямую интегрированы в алгоритмы планирования (URL Scheduler).
Критичность <lastmod> для эффективности: Основной механизм экономии ресурсов — это откладывание сканирования неизмененного контента на основе точного lastmod (Claim 3).
<changefreq> для прогнозирования: Этот тег используется для прогнозирования вероятности обновления контента, определяя, когда следует вернуться на страницу (Claim 1).
<priority> как Boost Factor: Значение приоритета используется как повышающий коэффициент (boost factor) при расчете оценки сканирования. Оно комбинируется с внутренними сигналами важности, такими как PageRank (Claim 6).
Поддержка инструкций сайта (Per-Site Information): Система учитывает пожелания владельца сайта относительно скорости и времени сканирования, если они указаны в Sitemap Index.
Реактивный и Проактивный режимы: Система реагирует на уведомления (пинги), но также самостоятельно проверяет Sitemaps по расписанию.

Best practices (это мы делаем)

Обеспечение абсолютной точности <lastmod>: Это критически важно для экономии краулингового бюджета (Claim 3). Убедитесь, что lastmod обновляется только при значительном изменении контента. Точный lastmod позволяет Googlebot сфокусироваться на обновленном контенте и не тратить ресурсы на неизмененные страницы.
Стратегическое использование <priority>: Используйте priority для указания относительной важности страниц. Поскольку патент подтверждает его использование как boost factor (Claim 6), это помогает направить краулер на ключевые страницы (главная, категории) раньше, чем на менее важные (архивы).
Реалистичное использование <changefreq>: Указывайте частоту, соответствующую реальным обновлениям. Это помогает планировщику прогнозировать визиты (Claim 1). Используйте 'daily' для новостей и 'monthly'/'yearly' для статического контента.
Использование Sitemap Index и сегментация: Для крупных сайтов используйте Sitemap Index для разделения URL на логические части. Это упрощает управление и обработку данных.
Активное уведомление (Pinging): Настройте автоматическое уведомление Google при обновлении файлов Sitemap. Патент описывает это как основной триггер для обработки.
Поддержание чистоты Sitemaps: Включайте только канонические URL, отдающие код 200 OK. Исключайте ошибки, редиректы и неканонические страницы.

Worst practices (это делать не надо)

Манипулирование <lastmod>: Установка текущей даты для всех страниц, независимо от изменений. Это заставляет Googlebot тратить бюджет на сканирование неизмененного контента и может подорвать доверие к вашим данным.
Игнорирование относительности <priority>: Установка максимального приоритета (1.0) для всех страниц. Это делает сигнал бесполезным. Патент упоминает, что краулер может игнорировать значения приоритета, если они не соответствуют определенным критериям (например, среднему значению).
Нереалистичный <changefreq>: Указание 'hourly' для контента, который редко меняется. Планировщик адаптируется к реальным наблюдениям и может начать игнорировать этот сигнал.
Включение "мусорных" URL: Добавление в Sitemap дубликатов, неканонических версий или страниц, закрытых от индексации. Это тратит краулинговый бюджет и размывает сигналы приоритета.

Стратегическое значение

Этот патент подтверждает, что оптимизация сканирования (Crawl Optimization) является фундаментальной частью SEO. Google предоставляет инструменты (Sitemaps) для прямого влияния на поведение краулера. Стратегия должна заключаться в обеспечении надежной технической инфраструктуры для генерации точных и актуальных Sitemaps, чтобы максимально эффективно использовать краулинговый бюджет, гарантируя приоритетное сканирование важного и свежего контента.

Практические примеры

Сценарий: Оптимизация сканирования крупного E-commerce сайта

Задача: Ускорить индексацию новых товаров и обеспечить актуальность информации о наличии, минимизировав нагрузку на сервер.
Применение патента:
- Разделение Sitemaps: Создается Sitemap Index, разделяющий URL на: Категории, Новые товары, Остальные товары.
- Настройка метаданных:
  - Категории: Priority 0.9, Changefreq 'daily'.
  - Новые товары: Priority 0.8, Changefreq 'daily'. Точный lastmod.
  - Остальные товары: Priority 0.5, Changefreq 'weekly'. Точный lastmod обновляется только при изменении цены/наличия.
Механизм работы (по патенту):
- URL Scheduler применяет boost factor к Категориям и Новым товарам (Claim 6), ставя их в начало очереди.
- Планировщик откладывает сканирование Остальных товаров, если lastmod не изменился (Claim 3).
- Планировщик использует Changefreq для определения частоты возврата на страницы (Claim 1).
Результат: Googlebot фокусирует ресурсы на сканировании ключевого и нового контента, быстрее обновляет индекс и эффективнее расходует краулинговый бюджет.

Влияет ли поле Priority в Sitemap напрямую на ранжирование сайта в поиске?

Нет, напрямую на ранжирование не влияет. Патент четко описывает использование Priority исключительно для планирования сканирования (URL Scheduler). Он используется как boost factor для расчета оценки сканирования (Crawl Score), определяя очередность сканирования URL на вашем сайте. Хорошая индексация важна для ранжирования, но Priority — это сигнал для краулера, а не для алгоритма ранжирования.

Насколько важно использовать точный Lastmod?

Это критически важно для эффективности. Патент описывает механизм (Claim 3), при котором планировщик откладывает (deferring) сканирование, если Lastmod не новее даты последнего визита краулера. Точный Lastmod позволяет Googlebot сосредоточиться только на обновленном контенте, экономя ваш краулинговый бюджет и ресурсы сервера.

Что произойдет, если я буду указывать неверный Lastmod (например, всегда текущую дату)?

Это приведет к неэффективному использованию краулингового бюджета, так как Googlebot будет повторно сканировать неизмененный контент. Это нейтрализует механизм экономии ресурсов, описанный в патенте. Со временем, если система обнаружит, что данные Lastmod ненадежны, она может начать игнорировать этот сигнал для вашего сайта.

Является ли использование Changefreq обязательным, и гарантирует ли оно частоту сканирования?

Использование Changefreq не является обязательным, это подсказка (hint). Патент (Claim 1) описывает, что планировщик использует эту информацию для прогнозирования обновлений, но не гарантирует сканирование именно с такой частотой. Фактическая частота зависит от важности документа (например, PageRank), реальных наблюдений за изменениями и указанного Changefreq.

Как именно Google комбинирует Priority из Sitemap и PageRank?

Патент указывает (Claim 6), что планировщик присваивает оценку (score) каждому URL-кандидату на основе PageRank (или аналогичной метрики важности) и Priority. Конкретно указано, что Priority используется как boost factor (повышающий коэффициент) для корректировки этой оценки. Это означает, что Priority модифицирует базовую важность страницы при определении очередности сканирования.

Что такое "Per-Site Information", упомянутая в патенте?

Это метаданные на уровне всего сайта, которые могут быть включены в Sitemap Index. Патент упоминает примеры: предпочтительные интервалы и скорость сканирования (crawl rate), язык и географическое положение. Эта информация помогает Google оптимизировать нагрузку на сервер и лучше понимать контекст сайта.

Что такое дифференциальная Карта сайта (Differential Sitemap)?

Это Sitemap, который содержит только те URL, которые были добавлены или изменены (имеют новый lastmod) с момента генерации предыдущего Sitemap. Патент описывает поддержку этого механизма для повышения эффективности передачи данных, уменьшая размер файла и ускоряя обработку обновлений.

Нужно ли мне "пинговать" Google при обновлении Sitemap?

Да, это рекомендуется. Патент описывает механизм уведомлений (notifications или pings) как основной триггер для загрузки и обработки Sitemap. Это самый быстрый способ сообщить планировщику об изменениях, хотя система также предусматривает периодическую проверку Sitemaps без уведомлений.

Может ли Google использовать Title и Author из Sitemap для индексации?

Да. Патент упоминает, что метаданные, такие как title и author (если они включены в Sitemap), могут использоваться для создания Anchor Maps. Это помогает индексировать документы, не содержащие текста (например, изображения или видео), используя эти метаданные как эквивалент анкорного текста.

Что делать, если я установлю Priority 1.0 для всех страниц?

Это неэффективная стратегия. Priority предназначен для указания *относительной* важности страниц внутри сайта. Если все страницы имеют одинаковый приоритет, сигнал теряет свою ценность. Патент также отмечает, что краулер может игнорировать значения приоритета, если они не соответствуют определенным критериям (например, если среднее значение по сайту слишком высокое).

Как Google заложил основу протокола Sitemaps для автоматической генерации и уведомления о списках URL

Этот фундаментальный патент описывает механизм, позволяющий веб-серверам автоматически генерировать Sitemaps (списки URL с метаданными, такими как дата изменения, частота обновления и приоритет), используя данные из файловой системы, логов доступа или CMS. Система также автоматически уведомляет поисковые системы о наличии обновленного Sitemap, решая проблемы неполного покрытия краулинга и повышая его эффективность.

US7801881B1
2010-09-21

Краулинг
Техническое SEO
Индексация

Как Google приоритизирует сканирование, управляет краулинговым бюджетом и повторно использует контент

Google использует распределенную систему планирования для оптимизации сканирования. Приоритет URL определяется их важностью (Page Importance/PageRank) и специальными коэффициентами (Boost Factor). Система фильтрует постоянно недоступные страницы и решает, загружать ли контент заново или использовать кэшированную версию (Reuse), основываясь на истории изменений и важности страницы.

US8042112B1
2011-10-18

Краулинг
Свежесть контента
Индексация

Как Google использует мобильные Sitemaps для выбора правильного краулера и оптимизации сканирования

Патент Google, описывающий механизм использования специализированных карт сайта (Sitemaps) для мобильного контента. Система позволяет вебмастерам указывать формат мобильных страниц (например, XHTML, WML). На основе этой информации Google выбирает соответствующий краулер (User-Agent) для корректного сканирования и индексирования мобильной версии сайта. Патент также детально описывает инфраструктуру обработки Sitemaps, включая использование метаданных (Priority, ChangeFreq, LastMod) для управления приоритетом и частотой сканирования.

US7653617B2
2010-01-26

Краулинг
Индексация
Техническое SEO

Как Google прогнозирует частоту обновления новых страниц для оптимизации краулингового бюджета

Google использует статистический метод для оценки того, как часто будет обновляться новый документ. Система анализирует исторические данные о частоте изменений похожих документов (например, страниц с аналогичной структурой URL или на том же домене), чтобы определить оптимальную частоту сканирования новой страницы. Это позволяет поддерживать свежесть индекса и эффективно расходовать краулинговый бюджет.

US20130212100A1
2013-08-15

Краулинг
Индексация
Свежесть контента

Как Google определяет частоту и приоритет сканирования страниц на основе PageRank, частоты обновления контента и времени с последнего визита

Google использует автоматизированную систему планирования для оптимизации ресурсов сканирования. Для каждого URL рассчитываются оценки приоритета (Scores) на основе его важности (PageRank), исторической частоты изменения контента (Content Change Frequency) и времени, прошедшего с момента последнего сканирования (Age). Это определяет, будет ли страница сохранена в индексе, как часто она будет сканироваться (ежедневно, в реальном времени или редко) и нужно ли загружать ее заново.

US7725452B1
2010-05-25

Краулинг
Индексация
Свежесть контента

Как Google использует структуру сайта и анкорные тексты для извлечения Сущностей из шумных заголовков (Title)

Google использует метод для точного определения основного объекта (Сущности) веб-страницы, когда заголовок (Title) содержит лишнюю информацию (брендинг, рубрики). Система анализирует заголовки похожих страниц на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Выявляя повторяющиеся шаблоны (префиксы и суффиксы) в заголовках, Google отделяет название Сущности от шума.

US7590628B2
2009-09-15

Семантика и интент
Структура сайта
Ссылки

Как Google находит, фильтрует и подмешивает посты из блогов, релевантные конкретным результатам поиска

Патент описывает систему Google для дополнения стандартных результатов веб-поиска ссылками на релевантные посты в блогах. Система использует многоступенчатую фильтрацию для отсеивания низкокачественных блогов и спама (splogs). Фильтры анализируют количество исходящих ссылок (out-degree), качество входящих ссылок (Link-based score), возраст поста, его длину и расположение ссылок, чтобы гарантировать качество подмешиваемого контента.

US8117195B1
2012-02-14

EEAT и качество
Антиспам
Ссылки

Как Google использует исторические данные о кликах (CTR) по категориям для определения доминирующего интента неоднозначных запросов

Google анализирует, на какие категории результатов пользователи кликали чаще всего в прошлом (CTR) по неоднозначному запросу (например, "Pool"). Система определяет доминирующие интенты, выявляя резкие перепады в CTR между категориями или используя иерархию категорий, и повышает в ранжировании результаты, соответствующие наиболее популярным интерпретациям.

US8738612B1
2014-05-27

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует "ложные пропуски" (Fake Skips) для точной оценки качества своих правил синонимов

Google анализирует поведение пользователей для оценки качества синонимов, используемых при переписывании запросов. Патент вводит метрику "Fake Skip" (Ложный пропуск). Она фиксируется, если пользователь пропустил результат с синонимом, но кликнул на результат ниже, который также содержит этот синоним и исходный термин. Это позволяет точнее калибровать систему синонимов и не пессимизировать хорошие правила из-за неоднозначного поведения пользователей.

US8909627B1
2014-12-09

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс

Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.

US8255386B1
2012-08-28

Индексация
Поведенческие сигналы

Как Google использует контекст пользователя для предложения запросов до начала ввода текста (Zero-Input Queries)

Google анализирует историю поисковых запросов, группируя их в «контекстные кластеры» на основе схожести темы и обстоятельств ввода (время, местоположение, интересы). Когда пользователь открывает строку поиска, система оценивает его текущий контекст и мгновенно предлагает релевантные категории запросов (например, «Кино» или «Рестораны»), предсказывая намерение еще до ввода символов.

US10146829B2
2018-12-04

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google определяет скрытый интент сессии, используя универсальные уточняющие слова, и переранжирует выдачу

Google идентифицирует универсальные слова-модификаторы (например, «фото», «отзывы», «pdf»), которые пользователи часто добавляют к разным запросам. Если такое слово появляется в сессии, система определяет скрытый интент пользователя. Затем Google переранжирует выдачу, основываясь на том, какие документы исторически предпочитали пользователи с таким же интентом, адаптируя результаты под контекст сессии.

US8868548B2
2014-10-21

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google использует LLM для генерации поисковых сводок (SGE), основываясь на контенте веб-сайтов, и итеративно уточняет ответы

Google использует Большие Языковые Модели (LLM) для создания сводок (AI-ответов) в результатах поиска. Для повышения точности и актуальности система подает в LLM не только запрос, но и контент из топовых результатов поиска (SRDs). Патент описывает, как система выбирает источники, генерирует сводку, проверяет факты, добавляет ссылки на источники (linkifying) и аннотации уверенности. Кроме того, система может динамически переписывать сводку, если пользователь взаимодействует с одним из источников.

US11769017B1
2023-09-26

EEAT и качество
Ссылки
SERP

Как Google кластеризует похожие страницы, анализируя, куда пользователи переходят дальше (Co-visitation)

Google анализирует навигационные пути пользователей для определения схожести документов. Если после просмотра Страницы А и Страницы Б пользователи часто переходят к одному и тому же набору последующих страниц, Google считает Страницу А и Страницу Б похожими и объединяет их в кластер. Этот механизм позволяет определять тематическую близость на основе поведения пользователей.

US8650196B1
2014-02-11

Поведенческие сигналы
SERP
Семантика и интент

Как Google автоматически определяет и отображает обратные ссылки (цитирования) между независимыми веб-страницами

Патент Google, описывающий фундаментальный механизм автоматического обнаружения ссылок между веб-страницами разных авторов. Когда система обнаруживает, что Страница B ссылается на Страницу A, она может автоматически встроить представление (например, ссылку) Страницы B в Страницу A при её показе пользователю. Это технология для построения и визуализации графа цитирований в Интернете.

US8032820B1
2011-10-04

Ссылки
Индексация
Краулинг