Краулинг в Google: разборы патентов

Детальные разборы патентов Google, связанные с краулингом

Как Google статистически определяет значимые шаблоны URL (префиксы и суффиксы) для улучшения каноникализации и эффективности сканирования

Google использует статистический метод для анализа больших наборов URL и выявления общих префиксов или суффиксов, которые встречаются чаще, чем ожидалось случайно. Это помогает Google понять структуру URL, сгруппировать похожий контент и определить нерелевантные части URL (например, общие префиксы пути или поддомены), чтобы улучшить каноникализацию и избежать сканирования дублирующегося контента.

US8095530B1
2008-07-21

Краулинг
Техническое SEO
Индексация

Как Google прогнозирует частоту обновления новых страниц для оптимизации краулингового бюджета

Google использует статистический метод для оценки того, как часто будет обновляться новый документ. Система анализирует исторические данные о частоте изменений похожих документов (например, страниц с аналогичной структурой URL или на том же домене), чтобы определить оптимальную частоту сканирования новой страницы. Это позволяет поддерживать свежесть индекса и эффективно расходовать краулинговый бюджет.

US20130212100A1
2012-12-26

Краулинг
Индексация
Свежесть контента

Как Google позволяет верифицированным владельцам сайтов управлять скоростью сканирования (Crawl Rate) и выбирать предпочитаемый домен

Анализ патента, лежащего в основе функций Google Search Console. Он описывает механизмы верификации прав собственности, выбора канонического (предпочитаемого) домена для консолидации сигналов и управления скоростью сканирования. Ключевой момент: система увеличивает скорость сканирования только тогда, когда текущий лимит является реальным ограничивающим фактором для краулера.

US7599920B1
2006-10-12

Краулинг
Техническое SEO
Индексация

Как Google использует отпечатки документов (Simhash) для выявления и игнорирования дубликатов на этапе сканирования

Google использует механизм для повышения эффективности сканирования интернета. Для каждого документа создается уникальный отпечаток (fingerprint), например, с помощью Simhash. Если новый документ почти идентичен уже просканированному (их отпечатки отличаются минимально), система помечает его как дубликат, игнорирует его исходящие ссылки и может исключить его из дальнейшей обработки, экономя ресурсы.

US8140505B1
2005-03-31

Краулинг
Индексация

Как Google индексирует динамический JavaScript-контент (AJAX/SPA), используя рендеринг и анализ URL-фрагментов

Патент Google, описывающий фундаментальный механизм индексирования динамического контента, генерируемого на стороне клиента (JavaScript/AJAX). Система идентифицирует «индексируемые фрагменты» в URL (часть после '#'), выполняет клиентский код для генерации финального состояния страницы (DOM) и преобразует его в статический HTML для индексации. Это основа работы современного сервиса рендеринга (WRS).

US8468145B2
2011-11-10

Индексация
Техническое SEO
Краулинг

Как Google обеспечивает стабильность канонических URL при асинхронном сканировании контента (Crawl Skew)

Google использует механизм для стабилизации индекса при обработке дубликатов в условиях неравномерного сканирования (Crawl Skew). Если страница не была пересканирована, система принудительно связывает ее с предыдущим каноническим URL (Previous Representative). Это обеспечивает стабильность выбора каноникалов и предотвращает индексацию устаревших дубликатов.

US7836108B1
2008-03-31

Индексация
Краулинг
Техническое SEO

Как Google заложил основу протокола Sitemaps для автоматической генерации и уведомления о списках URL

Этот фундаментальный патент описывает механизм, позволяющий веб-серверам автоматически генерировать Sitemaps (списки URL с метаданными, такими как дата изменения, частота обновления и приоритет), используя данные из файловой системы, логов доступа или CMS. Система также автоматически уведомляет поисковые системы о наличии обновленного Sitemap, решая проблемы неполного покрытия краулинга и повышая его эффективность.

US7801881B1
2005-06-30

Краулинг
Техническое SEO
Индексация

Как Google индексирует и ранжирует контент дополненной реальности и цифровые дополнения для визуального поиска (Google Lens)

Google создал систему для индексации и ранжирования цифровых дополнений (например, AR-контента, купонов, приложений), связанных с реальными объектами. Система сканирует веб-страницы в поисках метаданных, которые связывают эти дополнения с визуальными анкорями (продуктами, изображениями, местами). При визуальном поиске Google ранжирует эти дополнения, используя сигналы престижа (аналог PageRank) и релевантности, чтобы предоставить пользователю наиболее полезный интерактивный опыт.

US10878037B2
2018-06-21

Индексация
Краулинг
Мультимедиа

Как Google использует HTTP-заголовки для извлечения и индексации метаданных из не-HTML документов (PDF, DOC и т.д.)

Google использует механизм для индексации метаданных файлов, не являющихся HTML (например, PDF, Word, Excel). Во время сканирования метаданные (автор, тема, заголовок) могут передаваться от веб-сервера через специальный HTTP-заголовок. Поисковая система извлекает эти данные, преобразует их в виртуальные META-теги и использует для индексации, улучшая понимание этих форматов.

US9582588B2
2012-12-20

Индексация
Краулинг
Техническое SEO

Как Google управляет доступом к настройкам сайта (GSC), позволяет выбирать канонический домен и регулировать скорость сканирования

Патент описывает инфраструктуру Google Search Console для подтверждения владения сайтом. Верифицированные владельцы получают возможность отзывать доступ у других пользователей, указывать предпочитаемый домен (Preferred Domain Name) для консолидации сигналов ранжирования и регулировать предельную скорость сканирования (Crawl Rate Limit) с учетом фактической нагрузки.

US8533226B1
2006-12-27

Индексация
Краулинг
Техническое SEO

Как Google автоматически обнаруживает и удаляет идентификаторы сессий из URL для оптимизации сканирования и предотвращения дублирования

Google использует механизм для автоматического обнаружения идентификаторов сессий в URL-адресах во время сканирования. Система анализирует подстроки, которые выглядят случайными и повторяются в нескольких URL с одного сайта. Эти идентификаторы удаляются для создания «чистых» версий URL. Это позволяет поисковой системе распознавать дублирующийся контент и избегать повторного сканирования одних и тех же страниц, оптимизируя краулинговый бюджет.

US7886032B1
2003-12-23

Краулинг
Техническое SEO
Индексация

Как Google использует постоянные запросы для агрегации, кастомизации и синдикации новостного контента

Патент описывает архитектуру кастомизации и синдикации новостей (например, Google News). Он объясняет, как новостные разделы определяются с помощью постоянных поисковых запросов (на основе ключевых слов, тем и географии) и как пользователи или внешние сайты могут размещать этот кастомизированный контент, который динамически обновляется основным агрегатором новостей.

US8126865B1
2003-12-31

Персонализация
Семантика и интент
Краулинг

Как Google использует структурированные данные и шаблоны для создания обогащенных сниппетов (Rich Results)

Google использует механизм, позволяющий владельцам сайтов влиять на отображение своих страниц в поиске. Система идентифицирует «Объекты отображения результатов поиска» (структурированные данные) и «Шаблоны» (правила форматирования), предоставленные вебмастером или сгенерированные автоматически. Это позволяет формировать обогащенные сниппеты с дополнительной информацией (цены, рейтинги, изображения).

US20100114874A1
2008-10-20

SERP
Краулинг
Техническое SEO

Как Google автоматически распознает и извлекает структурированные данные с сайтов-классифайдов и шаблонных сайтов

Google использует систему для автоматического распознавания сайтов, организованных по шаблону (например, классифайды, сайты недвижимости, форумы). Система анализирует структуру URL и HTML-код для выявления повторяющихся паттернов и "динамических областей". На основе этого создаются шаблоны для извлечения данных (например, цена, местоположение, атрибуты), которые затем сохраняются в структурированном виде для использования в поиске.

US8682881B1
2011-09-07

Структура сайта
Краулинг

Как Google итеративно рендерит веб-страницы, собирая недостающие ресурсы (JS, CSS, изображения) для индексации

Патент описывает инфраструктуру Google для рендеринга веб-страниц в масштабах всего интернета. Вместо того чтобы запрашивать все внешние ресурсы (JS, CSS, изображения) в реальном времени, система использует итеративный подход. Если ресурс не найден в базе данных, процесс рендеринга останавливается, ресурс ставится в очередь на сканирование, и рендеринг перезапускается только после того, как все необходимое будет собрано. Это обеспечивает точное отображение страницы без перегрузки внешних серверов.

US8346755B1
2010-05-04

Индексация
Краулинг
Техническое SEO

Как Google анализирует веб-формы и фильтры для эффективного сканирования «Глубокого интернета» (Deep Web)

Google использует метод для эффективного сканирования контента, скрытого за веб-формами (Deep Web). Вместо перебора всех возможных комбинаций полей ввода система определяет, какие поля являются «информативными» — то есть, изменение каких полей приводит к генерации страниц с существенно различным контентом. Это позволяет индексировать уникальный контент, избегая дубликатов и экономя ресурсы сканирования.

US8484566B2
2007-10-15

Краулинг
Индексация

Как Google находит, извлекает и объединяет отзывы о товарах из интернета для создания агрегированных рейтингов и выявления частых фраз

Патент описывает систему Google для сбора отзывов о товарах из интернета. Система использует селективное сканирование сайтов, извлекает текст отзывов, рейтинги и авторов. Затем она автоматически определяет, к какому именно продукту относится отзыв (даже при разных названиях), и создает сводную информацию: общий рейтинг, распределение оценок и список часто упоминаемых фраз. Эта система позволяет пользователям искать информацию внутри отзывов о конкретном товаре.

US7962461B2
2004-12-14

Краулинг

Как Google рассчитывает оценку качества и количества видео на домене (Domain Video Score) для приоритизации индексирования и ранжирования

Google использует систему для оценки доменов, размещающих видеоконтент, рассчитывая метрику Domain Video Score. Эта оценка учитывает как количество видео на сайте (известных и прогнозируемых), так и их качество (на основе метрик вовлеченности, таких как Long Clicks). Этот балл используется для определения приоритета индексирования видео и служит сигналом ранжирования, особенно для нового контента.

US8407207B1
2011-05-12

Индексация
Техническое SEO
Краулинг

Как Google предлагает использовать номера версий контента для генерации в Sitemap, если реальная дата изменения недоступна

Патент описывает метод для генерации Sitemaps на сайтах, где фактическое время последнего изменения контента недоступно (например, для данных в БД). Система сравнивает текущий номер версии контента с версией на момент прошлой генерации Sitemap. Если версия изменилась, в тег устанавливается текущее время, что гарантирует повторное сканирование обновленного контента краулером.

US7865497B1
2008-02-21

Краулинг
Техническое SEO
Индексация

Как Google идентифицирует, классифицирует и помечает сайты с вредоносным ПО (Scumware) в поиске и браузерах

Google сканирует веб на наличие «Scumware» (вредоносное и нежелательное ПО). Патент описывает, как система различает сайты, которые содержат вредоносный код, и сайты, которые на него ссылаются. Обнаружение угрозы может привести к исключению сайта из поиска, понижению в ранжировании или добавлению различных визуальных предупреждений в SERP и браузерных тулбарах.

US8126866B1
2005-09-30

Безопасный поиск
Индексация
SERP

Как Google выбирает изображения с сайта компании для показа в ее бизнес-профиле (Local Pack, Knowledge Panel)

Google использует автоматизированную систему для выбора наиболее репрезентативных изображений бизнеса с его официального сайта. Система предпочитает локальные сайты филиалов, а не общие сайты сетей. Она анализирует структуру сайта для поиска разделов с изображениями, а затем оценивает сами изображения, отдавая предпочтение реальным цветным фотографиям высокого разрешения и отфильтровывая графику, баннеры и нежелательный контент.

US9645981B1
2013-01-18

Local SEO
Мультимедиа
Краулинг

Как Google извлекает даты и локации из контента для отображения результатов на карте и временной шкале

Google извлекает даты и географические локации непосредственно из контента веб-страниц. Это позволяет системе визуализировать результаты поиска на интерактивной временной шкале и на карте, даже если запрос не содержал явных указаний на время или место. Пользователи могут использовать эти визуализации для навигации и уточнения запросов, а сниппеты могут фокусироваться вокруг извлеченных фактов.

US10509817B2
2017-02-06 (Продолжение заявки от 2006-09-29)

Индексация
Краулинг
SERP

Как Google использует машинное обучение для обнаружения дубликатов, анализируя контент до и после рендеринга

Google использует комплексную систему для обнаружения дубликатов, которая сравнивает как исходный HTML-код (Fetched Body), так и финальную версию страницы после выполнения JavaScript (Synthetic Body). Система вычисляет множество сигналов сравнения, включая основанные на контексте запроса (сниппеты), и использует модель машинного обучения для определения вероятности того, что страницы являются дубликатами.

US20140188919A1
2007-02-14

Индексация
SERP
Краулинг

Как Google помогает пользователям найти правильную языковую версию страницы, исправляя ошибки маршрутизации

Система определяет языковые предпочтения пользователя и сравнивает их с языком посещаемой веб-страницы. Если страница отображается не на предпочтительном языке из-за ошибки маршрутизации (например, из-за геолокации), и существует альтернативная версия на нужном языке, система предлагает пользователю перейти на нее или автоматически перенаправляет его.

US9251223B2
2013-02-26

Мультиязычность
Персонализация
Индексация

Как Google анализирует страницу-источник перехода для формирования рекомендаций медиаконтента

Google анализирует контекст запроса медиаконтента (например, видео), определяя источник перехода (referral source). Система сканирует исходную страницу, чтобы найти другой контент, размещенный на ней (например, другие встроенные видео), и использует эту информацию для формирования списка рекомендаций, показываемых пользователю после просмотра.

US9563627B1
2012-09-12

Семантика и интент
Персонализация
Краулинг

Как Google позволяет вебмастерам обновлять структурированные данные в индексе по требованию, минуя стандартное сканирование

Google использует механизм, позволяющий авторизованным владельцам сайтов напрямую отправлять структурированные данные (например, цены, наличие товара) в поисковый индекс. Этот процесс происходит по требованию ("unscheduled update sequence"), значительно быстрее стандартного сканирования, и позволяет передавать приватные данные, недоступные публично на сайте.

US20150112961A1
2012-09-18

Индексация
Техническое SEO
Краулинг

Как Google автоматически создает шаблоны для извлечения структурированных данных из форумов и UGC-сайтов

Google использует систему для автоматического понимания структуры сайтов с пользовательским контентом (UGC), таких как форумы. Система разделяет страницы на статичные элементы («boilerplate») и динамический контент («posts»), определяет различные типы постов (например, посты модераторов и обычных пользователей) и создает шаблоны для точного извлечения и аннотации ключевых данных: автора, даты и основного текста.

US8458584B1
2010-11-18

Краулинг
Структура сайта

Как Google индексирует, ранжирует и структурирует события по времени и местоположению, обеспечивая темпоральное разнообразие

Патент Google, описывающий систему поиска событий, которая фильтрует результаты по времени и месту. Система разделяет запрошенный временной интервал (например, неделю) на сегменты (например, дни) и ранжирует лучшие события отдельно для каждого сегмента. Это предотвращает доминирование популярных событий одного дня и гарантирует видимость релевантных результатов на протяжении всего интервала.

US7647353B2
2006-11-14

Индексация
Краулинг
Local SEO

Как Google индексирует и ранжирует AR-контент и действия в результатах визуального поиска (Google Lens)

Патент описывает систему Google для визуального поиска, которая позволяет находить и предоставлять пользователям «цифровые дополнения» (например, AR-контент, действия, информацию) в ответ на изображение реального мира. Система сканирует интернет в поисках метаданных о доступных дополнениях, индексирует их, связывая с визуальными анкорями (объектами, текстом, кодами), и ранжирует их в ответ на визуальный запрос пользователя.

US10579230B2
2018-06-21

Индексация
Мультимедиа
Краулинг

Как Google определяет сайты, использующие Session ID в URL, для оптимизации краулинга и борьбы с дубликатами

Google использует механизм для автоматического обнаружения сайтов, которые встраивают идентификаторы сессий (Session ID) в URL. Система скачивает страницу дважды и сравнивает внутренние ссылки. Если большая часть ссылок меняется (из-за разных ID), система генерирует правила для "очистки" URL. Это позволяет избежать повторного сканирования одного и того же контента и предотвращает заполнение индекса дубликатами.

US7886217B1
2003-09-29

Краулинг
Техническое SEO
Индексация