Краулинг

Google использует систему для автоматического определения канонической формы URL. Система активно тестирует различные комбинации параметров в URL, чтобы определить, какие из них влияют на контент, а какие нет (например, tracking-коды …
Google рассчитывает метрику "Domain Video Score", которая оценивает общее качество (на основе Long Clicks) и количество (известных и прогнозируемых) видео на домене. Эта оценка используется для определения приоритета при сканировании …
Google использует автоматизированную систему верификации для индексирования контента мобильных приложений. Перед добавлением в индекс система эмулирует запуск приложения по Deep Link, проверяя корректность загрузки, отсутствие ошибок и соответствие контента связанной …
Google использует механизм для эффективного обнаружения дубликатов и почти дубликатов путем генерации цифровых отпечатков (фингерпринтов) и группировки похожих документов в кластеры. При формировании поисковой выдачи система фильтрует результаты из одного …
Анализ патента (IBM), описывающего инфраструктурный механизм для поддержания целостности индекса и графа ссылок. Система использует коды ответа сервера (404 и 301) для хирургического обновления базы данных ссылок и метаданных (включая …
Google использует методы для отделения основного содержания страницы от повторяющихся элементов (навигация, футеры, копирайты). Анализируя частоту повторений на сайте, пространственное расположение блоков, окружающий код и цели ссылок, система классифицирует контент …
Google использует итеративный процесс для определения оптимального интервала сканирования (Web Crawl Interval) для каждого документа. Система анализирует историю изменений контента, важность документа (PageRank) и частоту его просмотра пользователями (User View …
Google использует механизм для автоматического обнаружения сайтов, которые встраивают идентификаторы сессий (Session ID) в URL. Система скачивает страницу дважды и сравнивает внутренние ссылки. Если большая часть ссылок меняется (из-за разных …
Google использует методы анализа визуального представления страницы для выявления скрытого контента. Система строит структурное представление документа (DOM) и анализирует свойства элементов (цвет, размер, позиция, Z-index), чтобы определить, виден ли контент …
Google использует комплексную систему для обнаружения дубликатов, которая сравнивает как исходный HTML-код (Fetched Body), так и финальную версию страницы после выполнения JavaScript (Synthetic Body). Система вычисляет множество сигналов сравнения, включая …
Патент описывает механизм индексации нативных приложений (App Indexing). Система идентифицирует конкретные разделы на веб-странице и связывает их с "частичными глубокими ссылками" (Partial Deep Links), ведущими на аналогичный контент внутри приложения. …
Google применяет техники Shingling и Min-Hashing для эффективного сравнения миллионов документов (например, книг или веб-страниц). Система кластеризует похожие документы, а затем детально анализирует сходство на уровне фрагментов, чтобы классифицировать их …
Google использует метрику «Proxy Pad Score» для оценки вероятности того, что сайт систематически копирует контент у разных источников. Система анализирует кластеры дубликатов: если документы сайта часто проигрывают по качеству оригиналам …
Система Google фрагментирует контент на части ("content pieces") и хронологически отслеживает их первое появление для идентификации первоисточника. На основе оригинальности и частоты копирования контента рассчитывается репутация автора (Author Rank). Этот …
Google использует метод для эффективного обнаружения почти дубликатов документов. Система генерирует компактный цифровой отпечаток (fingerprint) для каждого документа путем выборки перекрывающихся блоков текста (shingling), вычисления контрольных сумм и их сжатия. …
Google использует механизм для автоматического обнаружения идентификаторов сессий в URL-адресах во время сканирования. Система анализирует подстроки, которые выглядят случайными и повторяются в нескольких URL с одного сайта. Эти идентификаторы удаляются …
Google использует систему для сокращения задержек при загрузке страниц из поиска, особенно на мобильных устройствах. Если система знает, что URL в выдаче (А) перенаправит пользователя на другой URL (Б) в …
Google использует систему для идентификации официального веб-сайта, соответствующего физической точке интереса (POI). Система сканирует, кэширует и анализирует контент этого сайта, чтобы предоставлять пользователям актуальную информацию (например, меню ресторана или статус …
Google использует многофакторную систему для идентификации хостов (Hostnames) или разделов сайтов (Subtrees), которые являются зеркалами друг друга. Система анализирует взвешенные сигналы, включая IP-адреса, редиректы, структуру ссылок, данные WHOIS и степень …
Google анализирует поведение сайтов на предмет массовых редиректов на сторонние организации. Сайты, состоящие преимущественно из таких редиректов («Bounce Pads» или Дорвеи), пессимизируются в процессе каноникализации. Это гарантирует, что при наличии …