SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE

Краулинг в Google: разборы патентов

Детальные разборы патентов Google, связанные с краулингом
  • Ссылки
  • Поведенческие сигналы
  • Антиспам
  • Семантика и интент
  • EEAT и качество
  • SERP
  • Персонализация
  • Индексация
  • Мультимедиа
  • Local SEO
  • Техническое SEO
  • Knowledge Graph
  • Свежесть контента
  • Краулинг
  • Структура сайта
  • Мультиязычность
  • Безопасный поиск
  • Google Shopping
Как Google статистически определяет значимые шаблоны URL (префиксы и суффиксы) для улучшения каноникализации и эффективности сканирования
Google использует статистический метод для анализа больших наборов URL и выявления общих префиксов или суффиксов, которые встречаются чаще, чем ожидалось случайно. Это помогает Google понять структуру URL, сгруппировать похожий контент и определить нерелевантные части URL (например, общие префиксы пути или поддомены), чтобы улучшить каноникализацию и избежать сканирования дублирующегося контента.
  • US8095530B1
  • 2008-07-21
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google прогнозирует частоту обновления новых страниц для оптимизации краулингового бюджета
Google использует статистический метод для оценки того, как часто будет обновляться новый документ. Система анализирует исторические данные о частоте изменений похожих документов (например, страниц с аналогичной структурой URL или на том же домене), чтобы определить оптимальную частоту сканирования новой страницы. Это позволяет поддерживать свежесть индекса и эффективно расходовать краулинговый бюджет.
  • US20130212100A1
  • 2012-12-26
  • Краулинг

  • Индексация

  • Свежесть контента

Как Google позволяет верифицированным владельцам сайтов управлять скоростью сканирования (Crawl Rate) и выбирать предпочитаемый домен
Анализ патента, лежащего в основе функций Google Search Console. Он описывает механизмы верификации прав собственности, выбора канонического (предпочитаемого) домена для консолидации сигналов и управления скоростью сканирования. Ключевой момент: система увеличивает скорость сканирования только тогда, когда текущий лимит является реальным ограничивающим фактором для краулера.
  • US7599920B1
  • 2006-10-12
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google использует отпечатки документов (Simhash) для выявления и игнорирования дубликатов на этапе сканирования
Google использует механизм для повышения эффективности сканирования интернета. Для каждого документа создается уникальный отпечаток (fingerprint), например, с помощью Simhash. Если новый документ почти идентичен уже просканированному (их отпечатки отличаются минимально), система помечает его как дубликат, игнорирует его исходящие ссылки и может исключить его из дальнейшей обработки, экономя ресурсы.
  • US8140505B1
  • 2005-03-31
  • Краулинг

  • Индексация

Как Google индексирует динамический JavaScript-контент (AJAX/SPA), используя рендеринг и анализ URL-фрагментов
Патент Google, описывающий фундаментальный механизм индексирования динамического контента, генерируемого на стороне клиента (JavaScript/AJAX). Система идентифицирует «индексируемые фрагменты» в URL (часть после '#'), выполняет клиентский код для генерации финального состояния страницы (DOM) и преобразует его в статический HTML для индексации. Это основа работы современного сервиса рендеринга (WRS).
  • US8468145B2
  • 2011-11-10
  • Индексация

  • Техническое SEO

  • Краулинг

Как Google обеспечивает стабильность канонических URL при асинхронном сканировании контента (Crawl Skew)
Google использует механизм для стабилизации индекса при обработке дубликатов в условиях неравномерного сканирования (Crawl Skew). Если страница не была пересканирована, система принудительно связывает ее с предыдущим каноническим URL (Previous Representative). Это обеспечивает стабильность выбора каноникалов и предотвращает индексацию устаревших дубликатов.
  • US7836108B1
  • 2008-03-31
  • Индексация

  • Краулинг

  • Техническое SEO

Как Google заложил основу протокола Sitemaps для автоматической генерации и уведомления о списках URL
Этот фундаментальный патент описывает механизм, позволяющий веб-серверам автоматически генерировать Sitemaps (списки URL с метаданными, такими как дата изменения, частота обновления и приоритет), используя данные из файловой системы, логов доступа или CMS. Система также автоматически уведомляет поисковые системы о наличии обновленного Sitemap, решая проблемы неполного покрытия краулинга и повышая его эффективность.
  • US7801881B1
  • 2005-06-30
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google индексирует и ранжирует контент дополненной реальности и цифровые дополнения для визуального поиска (Google Lens)
Google создал систему для индексации и ранжирования цифровых дополнений (например, AR-контента, купонов, приложений), связанных с реальными объектами. Система сканирует веб-страницы в поисках метаданных, которые связывают эти дополнения с визуальными анкорями (продуктами, изображениями, местами). При визуальном поиске Google ранжирует эти дополнения, используя сигналы престижа (аналог PageRank) и релевантности, чтобы предоставить пользователю наиболее полезный интерактивный опыт.
  • US10878037B2
  • 2018-06-21
  • Индексация

  • Краулинг

  • Мультимедиа

Как Google использует HTTP-заголовки для извлечения и индексации метаданных из не-HTML документов (PDF, DOC и т.д.)
Google использует механизм для индексации метаданных файлов, не являющихся HTML (например, PDF, Word, Excel). Во время сканирования метаданные (автор, тема, заголовок) могут передаваться от веб-сервера через специальный HTTP-заголовок. Поисковая система извлекает эти данные, преобразует их в виртуальные META-теги и использует для индексации, улучшая понимание этих форматов.
  • US9582588B2
  • 2012-12-20
  • Индексация

  • Краулинг

  • Техническое SEO

Как Google управляет доступом к настройкам сайта (GSC), позволяет выбирать канонический домен и регулировать скорость сканирования
Патент описывает инфраструктуру Google Search Console для подтверждения владения сайтом. Верифицированные владельцы получают возможность отзывать доступ у других пользователей, указывать предпочитаемый домен (Preferred Domain Name) для консолидации сигналов ранжирования и регулировать предельную скорость сканирования (Crawl Rate Limit) с учетом фактической нагрузки.
  • US8533226B1
  • 2006-12-27
  • Индексация

  • Краулинг

  • Техническое SEO

Как Google автоматически обнаруживает и удаляет идентификаторы сессий из URL для оптимизации сканирования и предотвращения дублирования
Google использует механизм для автоматического обнаружения идентификаторов сессий в URL-адресах во время сканирования. Система анализирует подстроки, которые выглядят случайными и повторяются в нескольких URL с одного сайта. Эти идентификаторы удаляются для создания «чистых» версий URL. Это позволяет поисковой системе распознавать дублирующийся контент и избегать повторного сканирования одних и тех же страниц, оптимизируя краулинговый бюджет.
  • US7886032B1
  • 2003-12-23
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google использует постоянные запросы для агрегации, кастомизации и синдикации новостного контента
Патент описывает архитектуру кастомизации и синдикации новостей (например, Google News). Он объясняет, как новостные разделы определяются с помощью постоянных поисковых запросов (на основе ключевых слов, тем и географии) и как пользователи или внешние сайты могут размещать этот кастомизированный контент, который динамически обновляется основным агрегатором новостей.
  • US8126865B1
  • 2003-12-31
  • Персонализация

  • Семантика и интент

  • Краулинг

Как Google использует структурированные данные и шаблоны для создания обогащенных сниппетов (Rich Results)
Google использует механизм, позволяющий владельцам сайтов влиять на отображение своих страниц в поиске. Система идентифицирует «Объекты отображения результатов поиска» (структурированные данные) и «Шаблоны» (правила форматирования), предоставленные вебмастером или сгенерированные автоматически. Это позволяет формировать обогащенные сниппеты с дополнительной информацией (цены, рейтинги, изображения).
  • US20100114874A1
  • 2008-10-20
  • SERP

  • Краулинг

  • Техническое SEO

Как Google автоматически распознает и извлекает структурированные данные с сайтов-классифайдов и шаблонных сайтов
Google использует систему для автоматического распознавания сайтов, организованных по шаблону (например, классифайды, сайты недвижимости, форумы). Система анализирует структуру URL и HTML-код для выявления повторяющихся паттернов и "динамических областей". На основе этого создаются шаблоны для извлечения данных (например, цена, местоположение, атрибуты), которые затем сохраняются в структурированном виде для использования в поиске.
  • US8682881B1
  • 2011-09-07
  • Структура сайта

  • Краулинг

Как Google итеративно рендерит веб-страницы, собирая недостающие ресурсы (JS, CSS, изображения) для индексации
Патент описывает инфраструктуру Google для рендеринга веб-страниц в масштабах всего интернета. Вместо того чтобы запрашивать все внешние ресурсы (JS, CSS, изображения) в реальном времени, система использует итеративный подход. Если ресурс не найден в базе данных, процесс рендеринга останавливается, ресурс ставится в очередь на сканирование, и рендеринг перезапускается только после того, как все необходимое будет собрано. Это обеспечивает точное отображение страницы без перегрузки внешних серверов.
  • US8346755B1
  • 2010-05-04
  • Индексация

  • Краулинг

  • Техническое SEO

Как Google анализирует веб-формы и фильтры для эффективного сканирования «Глубокого интернета» (Deep Web)
Google использует метод для эффективного сканирования контента, скрытого за веб-формами (Deep Web). Вместо перебора всех возможных комбинаций полей ввода система определяет, какие поля являются «информативными» — то есть, изменение каких полей приводит к генерации страниц с существенно различным контентом. Это позволяет индексировать уникальный контент, избегая дубликатов и экономя ресурсы сканирования.
  • US8484566B2
  • 2007-10-15
  • Краулинг

  • Индексация

Как Google находит, извлекает и объединяет отзывы о товарах из интернета для создания агрегированных рейтингов и выявления частых фраз
Патент описывает систему Google для сбора отзывов о товарах из интернета. Система использует селективное сканирование сайтов, извлекает текст отзывов, рейтинги и авторов. Затем она автоматически определяет, к какому именно продукту относится отзыв (даже при разных названиях), и создает сводную информацию: общий рейтинг, распределение оценок и список часто упоминаемых фраз. Эта система позволяет пользователям искать информацию внутри отзывов о конкретном товаре.
  • US7962461B2
  • 2004-12-14
  • Краулинг

Как Google рассчитывает оценку качества и количества видео на домене (Domain Video Score) для приоритизации индексирования и ранжирования
Google использует систему для оценки доменов, размещающих видеоконтент, рассчитывая метрику Domain Video Score. Эта оценка учитывает как количество видео на сайте (известных и прогнозируемых), так и их качество (на основе метрик вовлеченности, таких как Long Clicks). Этот балл используется для определения приоритета индексирования видео и служит сигналом ранжирования, особенно для нового контента.
  • US8407207B1
  • 2011-05-12
  • Индексация

  • Техническое SEO

  • Краулинг

Как Google предлагает использовать номера версий контента для генерации в Sitemap, если реальная дата изменения недоступна
Патент описывает метод для генерации Sitemaps на сайтах, где фактическое время последнего изменения контента недоступно (например, для данных в БД). Система сравнивает текущий номер версии контента с версией на момент прошлой генерации Sitemap. Если версия изменилась, в тег устанавливается текущее время, что гарантирует повторное сканирование обновленного контента краулером.
  • US7865497B1
  • 2008-02-21
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google идентифицирует, классифицирует и помечает сайты с вредоносным ПО (Scumware) в поиске и браузерах
Google сканирует веб на наличие «Scumware» (вредоносное и нежелательное ПО). Патент описывает, как система различает сайты, которые содержат вредоносный код, и сайты, которые на него ссылаются. Обнаружение угрозы может привести к исключению сайта из поиска, понижению в ранжировании или добавлению различных визуальных предупреждений в SERP и браузерных тулбарах.
  • US8126866B1
  • 2005-09-30
  • Безопасный поиск

  • Индексация

  • SERP

Как Google выбирает изображения с сайта компании для показа в ее бизнес-профиле (Local Pack, Knowledge Panel)
Google использует автоматизированную систему для выбора наиболее репрезентативных изображений бизнеса с его официального сайта. Система предпочитает локальные сайты филиалов, а не общие сайты сетей. Она анализирует структуру сайта для поиска разделов с изображениями, а затем оценивает сами изображения, отдавая предпочтение реальным цветным фотографиям высокого разрешения и отфильтровывая графику, баннеры и нежелательный контент.
  • US9645981B1
  • 2013-01-18
  • Local SEO

  • Мультимедиа

  • Краулинг

Как Google извлекает даты и локации из контента для отображения результатов на карте и временной шкале
Google извлекает даты и географические локации непосредственно из контента веб-страниц. Это позволяет системе визуализировать результаты поиска на интерактивной временной шкале и на карте, даже если запрос не содержал явных указаний на время или место. Пользователи могут использовать эти визуализации для навигации и уточнения запросов, а сниппеты могут фокусироваться вокруг извлеченных фактов.
  • US10509817B2
  • 2017-02-06 (Продолжение заявки от 2006-09-29)
  • Индексация

  • Краулинг

  • SERP

Как Google использует машинное обучение для обнаружения дубликатов, анализируя контент до и после рендеринга
Google использует комплексную систему для обнаружения дубликатов, которая сравнивает как исходный HTML-код (Fetched Body), так и финальную версию страницы после выполнения JavaScript (Synthetic Body). Система вычисляет множество сигналов сравнения, включая основанные на контексте запроса (сниппеты), и использует модель машинного обучения для определения вероятности того, что страницы являются дубликатами.
  • US20140188919A1
  • 2007-02-14
  • Индексация

  • SERP

  • Краулинг

Как Google помогает пользователям найти правильную языковую версию страницы, исправляя ошибки маршрутизации
Система определяет языковые предпочтения пользователя и сравнивает их с языком посещаемой веб-страницы. Если страница отображается не на предпочтительном языке из-за ошибки маршрутизации (например, из-за геолокации), и существует альтернативная версия на нужном языке, система предлагает пользователю перейти на нее или автоматически перенаправляет его.
  • US9251223B2
  • 2013-02-26
  • Мультиязычность

  • Персонализация

  • Индексация

Как Google анализирует страницу-источник перехода для формирования рекомендаций медиаконтента
Google анализирует контекст запроса медиаконтента (например, видео), определяя источник перехода (referral source). Система сканирует исходную страницу, чтобы найти другой контент, размещенный на ней (например, другие встроенные видео), и использует эту информацию для формирования списка рекомендаций, показываемых пользователю после просмотра.
  • US9563627B1
  • 2012-09-12
  • Семантика и интент

  • Персонализация

  • Краулинг

Как Google позволяет вебмастерам обновлять структурированные данные в индексе по требованию, минуя стандартное сканирование
Google использует механизм, позволяющий авторизованным владельцам сайтов напрямую отправлять структурированные данные (например, цены, наличие товара) в поисковый индекс. Этот процесс происходит по требованию ("unscheduled update sequence"), значительно быстрее стандартного сканирования, и позволяет передавать приватные данные, недоступные публично на сайте.
  • US20150112961A1
  • 2012-09-18
  • Индексация

  • Техническое SEO

  • Краулинг

Как Google автоматически создает шаблоны для извлечения структурированных данных из форумов и UGC-сайтов
Google использует систему для автоматического понимания структуры сайтов с пользовательским контентом (UGC), таких как форумы. Система разделяет страницы на статичные элементы («boilerplate») и динамический контент («posts»), определяет различные типы постов (например, посты модераторов и обычных пользователей) и создает шаблоны для точного извлечения и аннотации ключевых данных: автора, даты и основного текста.
  • US8458584B1
  • 2010-11-18
  • Краулинг

  • Структура сайта

Как Google индексирует, ранжирует и структурирует события по времени и местоположению, обеспечивая темпоральное разнообразие
Патент Google, описывающий систему поиска событий, которая фильтрует результаты по времени и месту. Система разделяет запрошенный временной интервал (например, неделю) на сегменты (например, дни) и ранжирует лучшие события отдельно для каждого сегмента. Это предотвращает доминирование популярных событий одного дня и гарантирует видимость релевантных результатов на протяжении всего интервала.
  • US7647353B2
  • 2006-11-14
  • Индексация

  • Краулинг

  • Local SEO

Как Google индексирует и ранжирует AR-контент и действия в результатах визуального поиска (Google Lens)
Патент описывает систему Google для визуального поиска, которая позволяет находить и предоставлять пользователям «цифровые дополнения» (например, AR-контент, действия, информацию) в ответ на изображение реального мира. Система сканирует интернет в поисках метаданных о доступных дополнениях, индексирует их, связывая с визуальными анкорями (объектами, текстом, кодами), и ранжирует их в ответ на визуальный запрос пользователя.
  • US10579230B2
  • 2018-06-21
  • Индексация

  • Мультимедиа

  • Краулинг

Как Google определяет сайты, использующие Session ID в URL, для оптимизации краулинга и борьбы с дубликатами
Google использует механизм для автоматического обнаружения сайтов, которые встраивают идентификаторы сессий (Session ID) в URL. Система скачивает страницу дважды и сравнивает внутренние ссылки. Если большая часть ссылок меняется (из-за разных ID), система генерирует правила для "очистки" URL. Это позволяет избежать повторного сканирования одного и того же контента и предотвращает заполнение индекса дубликатами.
  • US7886217B1
  • 2003-09-29
  • Краулинг

  • Техническое SEO

  • Индексация

  • 1
  • 2
  • 3
seohardcore