Краулинг

Как Google использует возраст контента для стабильного обнаружения дубликатов и борьбы с «перекосом сканирования» (Crawl Skew)

2009 • Индексация • Краулинг • Свежесть контента

US8423885B1 2013-04-16 2009-01-30

Google стабилизирует обнаружение дубликатов, игнорируя новый или часто меняющийся контент (например, рекламу, комментарии). Система сравнивает текущую версию документа с предыдущей, определяет возраст различных частей и вычисляет контрольную сумму (checksum) только …

Как Google индексирует NFT напрямую из блокчейнов и маркетплейсов для создания специализированного поиска по Web3 активам

2022 • Индексация • Краулинг

US20240303733A1 2024-09-12 2022-06-30

Google разрабатывает систему для индексации невзаимозаменяемых токенов (NFT) путем прямого анализа данных из блокчейнов и с веб-страниц (маркетплейсов). Система использует ML-модели для анализа содержания самих цифровых активов, создавая специализированный индекс …

Как Google использует HTTP-заголовки для извлечения метаданных из не-HTML документов (PDF, DOCX, XLS) во время сканирования

2012 • Индексация • Краулинг

US10430490B1 2019-10-01 2012-12-20

Google использует механизм для получения метаданных о файлах, не являющихся веб-страницами (например, PDF, документы Office). Во время сканирования эти метаданные передаются поисковой системе через специальные HTTP-заголовки. Затем Google преобразует их …

Как Google идентифицирует сайты, поддерживающие удаление контента, и ускоряет обновление индекса после запроса на удаление

2011 • Краулинг • Свежесть контента

US8510286B1 2013-08-13 2011-11-21

Google разработал систему для идентификации контент-провайдеров, которые поддерживают стандартизированный процесс удаления контента (например, по DMCA или законам о приватности). Поисковая система обнаруживает эту возможность через Sitemap или проверку URL, помечает …

Как Google анализирует веб-формы и фильтры для эффективного сканирования «Глубокого интернета» (Deep Web)

2007 • Индексация • Краулинг

US8484566B2 2013-07-09 2007-10-15

Google использует метод для эффективного сканирования контента, скрытого за веб-формами (Deep Web). Вместо перебора всех возможных комбинаций полей ввода система определяет, какие поля являются «информативными» — то есть, изменение каких …

Как Google управляет лимитом скорости сканирования (Crawl Rate Limit) и распределяет нагрузку между своими краулерами, чтобы не перегрузить сервер

2003 • Индексация • Краулинг

US7774782B1 2010-08-10 2003-12-18

Google использует централизованную систему (Host Load Server) для управления скоростью сканирования. Система динамически распределяет максимальную пропускную способность веб-хоста между конкурирующими краулерами (например, Новости, Картинки, Основной поиск) на основе их приоритетов. …

Как Google использует итеративный офлайн-рендеринг для сбора всех ресурсов страницы перед индексацией

2010 • Индексация • Краулинг • Техническое SEO

US8892543B1 2014-11-18 2010-05-04

Патент описывает инфраструктуру Google для эффективного рендеринга веб-страниц в масштабах интернета. Система использует итеративный подход: если во время рендеринга обнаруживается отсутствующий ресурс (например, CSS или JS), процесс останавливается, ресурс ставится …

Как Google обеспечивает стабильность канонических URL при асинхронном сканировании контента (Crawl Skew)

2008 • Индексация • Краулинг

US7836108B1 2010-11-16 2008-03-31

Google использует механизм для стабилизации индекса при обработке дубликатов в условиях неравномерного сканирования (Crawl Skew). Если страница не была пересканирована, система принудительно связывает ее с предыдущим каноническим URL (Previous Representative). …

Как Google адаптивно регулирует скорость сканирования сайтов, чтобы не перегружать серверы (Crawl Budget Management)

Краулинг

US8812478B1 2014-08-19 2000-08-14

Патент Google, описывающий инфраструктуру управления распределенным сканированием. Система группирует URL по хостам и использует механизм «Stall Time» (время простоя), чтобы определить, когда можно снова обратиться к серверу. Это время адаптивно …

Как Google предлагает стандарт шифрования для безопасной индексации платного контента (Paywall) без клоакинга

2019 • Индексация • Краулинг

US20250219818A1 2025-07-03 2019-03-21

Патент Google описывает метод шифрования платного (premium) контента, позволяющий безопасно передавать весь контент пользователю, скрывая платную часть до авторизации. Ключевое значение для SEO: этот метод позволяет поисковым системам (явно указанным …

Как Google генерирует синонимы во время индексации, извлекая числа из токенов и нормализуя слова с префиксами-стоп-словами

2010 • Индексация • Краулинг • Мультиязычность

US8375042B1 2013-02-12 2010-11-09

Google может генерировать синонимы для слов непосредственно во время индексации документа, чтобы ускорить обработку запросов. Это включает извлечение числовых значений из буквенно-числовых токенов (например, «42» из «e42PC») и нормализацию слов …

Как Google оптимизирует скорость генерации поисковой выдачи с помощью адаптивного планирования внутренних задач

2011 • Антиспам • Краулинг • Свежесть контента

US8555281B1 2013-10-08 2011-02-16

Google использует систему адаптивного планирования для ускорения ответа на поисковый запрос. Система разбивает запрос на множество внутренних задач (например, поиск, парсинг, фильтрация) и прогнозирует время их выполнения на основе исторических …

Как Google статистически определяет значимые шаблоны URL (префиксы и суффиксы) для улучшения каноникализации и эффективности сканирования

2008 • Индексация • Краулинг

US8095530B1 2012-01-10 2008-07-21

Google использует статистический метод для анализа больших наборов URL и выявления общих префиксов или суффиксов, которые встречаются чаще, чем ожидалось случайно. Это помогает Google понять структуру URL, сгруппировать похожий контент …

Как Google предлагает использовать номера версий контента для управления <lastmod> в Sitemap и обеспечивать свежесть индекса

2008 • Краулинг • Свежесть контента • Техническое SEO

US8290928B1 2012-10-16 2008-02-21

Патент описывает метод обеспечения актуальности индекса для контента, у которого нет надежной даты последнего изменения (например, данные в БД). Система отслеживает внутренние номера версий контента. Если версия изменилась с момента …

Как Google использует итеративное зондирование для сканирования и индексации контента, скрытого за веб-формами (Deep Web)

2008 • Индексация • Краулинг

US20130031083A1 2013-01-31 2008-04-03

Google применяет систему для индексации «Глубокого веба» (Deep Web), автоматически определяя, какие ключевые слова вводить в веб-формы. Система использует итеративное зондирование: извлекает начальные слова, отправляет их, анализирует уникальность результатов и …

Как Google использует историю изменения IP-адресов для определения границ хостинга и управления краулинговым бюджетом

2010 • Индексация • Краулинг • Техническое SEO

US8688681B1 2014-04-01 2010-06-17

Google отслеживает историю изменений IP-адресов для хостнеймов, чтобы определить, какие сайты размещены на одном физическом сервере или хостинг-сущности. Анализируя эти временные ряды, система группирует сайты со схожими паттернами IP. Это …

Как Google идентифицирует перемещенный контент при сравнении версий веб-страниц во время индексации

2008 • Индексация • Краулинг • Свежесть контента

US8121989B1 2012-02-21 2008-03-07

Google использует итеративный алгоритм сравнения (например, LCS) для анализа изменений между старой и новой версиями веб-страницы. Система не просто определяет добавленный или удаленный контент, но и точно идентифицирует блоки, которые …

Как Google использует мобильные Sitemaps для определения форматов контента и выбора правильного User-Agent краулера

2006 • Краулинг

US8655864B1 2014-02-18 2006-05-01

Google использует механизм, позволяющий вебмастерам указывать формат мобильного контента (например, WML, XHTML, iMode) через Sitemaps. Это позволяет Google выбрать соответствующую «персону» краулера (User-Agent) для доступа к контенту. Это гарантирует корректное …

Как Google оптимизирует выполнение фразовых запросов в распределенном индексе с помощью Уровней (Tiers) и Шардов (Shards)

2007 • Индексация • Краулинг

US7925655B1 2011-04-12 2007-03-30

Патент описывает архитектуру Google для эффективного поиска на основе фраз. Он детализирует, как индекс организован в Уровни (Tiers, на основе стоимости обработки фраз) и Шарды (Shards, разделы документов) для минимизации …

Как Google индексирует NFT с блокчейнов и маркетплейсов, выявляя дубликаты и определяя подлинность

2022 • Индексация • Краулинг

US20240303734A1 2024-09-12 2022-06-30

Google разрабатывает систему для индексации невзаимозаменяемых токенов (NFT) путем сканирования как непосредственно блокчейнов, так и веб-платформ (маркетплейсов). Патент описывает механизм дедупликации, который определяет, ссылаются ли разные записи индекса на один …