Краулинг

Google стабилизирует обнаружение дубликатов, игнорируя новый или часто меняющийся контент (например, рекламу, комментарии). Система сравнивает текущую версию документа с предыдущей, определяет возраст различных частей и вычисляет контрольную сумму (checksum) только …
Google разрабатывает систему для индексации невзаимозаменяемых токенов (NFT) путем прямого анализа данных из блокчейнов и с веб-страниц (маркетплейсов). Система использует ML-модели для анализа содержания самих цифровых активов, создавая специализированный индекс …
Google использует механизм для получения метаданных о файлах, не являющихся веб-страницами (например, PDF, документы Office). Во время сканирования эти метаданные передаются поисковой системе через специальные HTTP-заголовки. Затем Google преобразует их …
Google разработал систему для идентификации контент-провайдеров, которые поддерживают стандартизированный процесс удаления контента (например, по DMCA или законам о приватности). Поисковая система обнаруживает эту возможность через Sitemap или проверку URL, помечает …
Google использует метод для эффективного сканирования контента, скрытого за веб-формами (Deep Web). Вместо перебора всех возможных комбинаций полей ввода система определяет, какие поля являются «информативными» — то есть, изменение каких …
Google использует централизованную систему (Host Load Server) для управления скоростью сканирования. Система динамически распределяет максимальную пропускную способность веб-хоста между конкурирующими краулерами (например, Новости, Картинки, Основной поиск) на основе их приоритетов. …
Патент описывает инфраструктуру Google для эффективного рендеринга веб-страниц в масштабах интернета. Система использует итеративный подход: если во время рендеринга обнаруживается отсутствующий ресурс (например, CSS или JS), процесс останавливается, ресурс ставится …
Google использует механизм для стабилизации индекса при обработке дубликатов в условиях неравномерного сканирования (Crawl Skew). Если страница не была пересканирована, система принудительно связывает ее с предыдущим каноническим URL (Previous Representative). …
Патент Google, описывающий инфраструктуру управления распределенным сканированием. Система группирует URL по хостам и использует механизм «Stall Time» (время простоя), чтобы определить, когда можно снова обратиться к серверу. Это время адаптивно …
Патент Google описывает метод шифрования платного (premium) контента, позволяющий безопасно передавать весь контент пользователю, скрывая платную часть до авторизации. Ключевое значение для SEO: этот метод позволяет поисковым системам (явно указанным …
Google может генерировать синонимы для слов непосредственно во время индексации документа, чтобы ускорить обработку запросов. Это включает извлечение числовых значений из буквенно-числовых токенов (например, «42» из «e42PC») и нормализацию слов …
Google использует систему адаптивного планирования для ускорения ответа на поисковый запрос. Система разбивает запрос на множество внутренних задач (например, поиск, парсинг, фильтрация) и прогнозирует время их выполнения на основе исторических …
Google использует статистический метод для анализа больших наборов URL и выявления общих префиксов или суффиксов, которые встречаются чаще, чем ожидалось случайно. Это помогает Google понять структуру URL, сгруппировать похожий контент …
Патент описывает метод обеспечения актуальности индекса для контента, у которого нет надежной даты последнего изменения (например, данные в БД). Система отслеживает внутренние номера версий контента. Если версия изменилась с момента …
Google применяет систему для индексации «Глубокого веба» (Deep Web), автоматически определяя, какие ключевые слова вводить в веб-формы. Система использует итеративное зондирование: извлекает начальные слова, отправляет их, анализирует уникальность результатов и …
Google отслеживает историю изменений IP-адресов для хостнеймов, чтобы определить, какие сайты размещены на одном физическом сервере или хостинг-сущности. Анализируя эти временные ряды, система группирует сайты со схожими паттернами IP. Это …
Google использует итеративный алгоритм сравнения (например, LCS) для анализа изменений между старой и новой версиями веб-страницы. Система не просто определяет добавленный или удаленный контент, но и точно идентифицирует блоки, которые …
Google использует механизм, позволяющий вебмастерам указывать формат мобильного контента (например, WML, XHTML, iMode) через Sitemaps. Это позволяет Google выбрать соответствующую «персону» краулера (User-Agent) для доступа к контенту. Это гарантирует корректное …
Патент описывает архитектуру Google для эффективного поиска на основе фраз. Он детализирует, как индекс организован в Уровни (Tiers, на основе стоимости обработки фраз) и Шарды (Shards, разделы документов) для минимизации …
Google разрабатывает систему для индексации невзаимозаменяемых токенов (NFT) путем сканирования как непосредственно блокчейнов, так и веб-платформ (маркетплейсов). Патент описывает механизм дедупликации, который определяет, ссылаются ли разные записи индекса на один …