Краулинг

Google анализирует разницу между полным кодом страницы (DOM) и тем, что фактически видит пользователь (Render Tree). Текст, присутствующий в коде, но невидимый при загрузке (например, скрытый в выпадающих меню, через …
Google использует гибридную систему для извлечения структурированных данных (например, списков эпизодов, треков альбома) с сайтов, даже если они не используют микроразметку. Система сначала применяет эвристики для поиска данных, проверяет их …
Google использует архитектуру, которая объединяет этапы поиска (Retrieval) и ранжирования (Ranking). Сложные модели машинного обучения преобразуются непосредственно в структуру поискового индекса. Это позволяет мгновенно находить и ранжировать контент, используя всю …
Анализ патента Google, описывающего систему генерации ответов на предиктивные запросы. Если стандартный поиск неэффективен, Google может обучить модель машинного обучения «на лету» на основе исторических структурированных данных или использовать предобученную …
Google использует автоматизированную систему для обновления своих внутренних таксономий (иерархий категорий). Система сканирует заранее определенные авторитетные веб-сайты и извлекает категории из их структурированного контента (меню, списки, таблицы). При обнаружении новых …
Google использует механизм для повышения эффективности сканирования интернета. Для каждого документа создается уникальный отпечаток (fingerprint), например, с помощью Simhash. Если новый документ почти идентичен уже просканированному (их отпечатки отличаются минимально), …
Google сканирует веб на наличие «Scumware» (вредоносное и нежелательное ПО). Патент описывает, как система различает сайты, которые содержат вредоносный код, и сайты, которые на него ссылаются. Обнаружение угрозы может привести …
Google использует систему для извлечения фактов (дат, имен, концепций) и связанных с ними фрагментов предложений из веб-документов. Эти пары индексируются отдельно. В ответ на запрос система находит релевантные факты, ранжирует …
Патент Google, описывающий метод дедупликации статей на платформах агрегации контента (таких как Google News). Система нормализует заголовки и сравнивает их, используя расстояние Левенштейна. Одновременно сравниваются URL-адреса связанных ресурсов (например, изображений). …
Google применяет систему для эффективной дедупликации вакансий из разных источников. Используя алгоритмы MinHash и Jaccard Similarity, система создает цифровые отпечатки объявлений и группирует похожие версии в кластеры. Внутри кластера выбирается …
Google использует систему планирования сканирования, которая рассчитывает приоритет для каждого URL. Этот приоритет зависит от авторитетности страницы (PageRank) и частоты изменения ее контента (Content Change Frequency). Система определяет, какие страницы …
Google применяет статистический анализ на основе теории информации для определения, какие параметры URL влияют на уникальность контента. Система вычисляет условную энтропию между значениями параметров и отпечатками контента (fingerprints). Это позволяет …
Google использует сложный алгоритм для анализа DOM-структуры, чтобы отличить основной контент (статьи, посты) от шаблонных элементов (меню, виджеты). Система генерирует стабильный идентификатор (например, CSS-селектор) для контейнеров основного контента. Это позволяет …
Google использует механизм автоматического таргетинга рекламы (например, Dynamic Search Ads), который не требует ручного ввода ключевых слов. Система сканирует и индексирует веб-сайт рекламодателя, создавая отдельный индекс. При получении запроса Google …
Патент описывает инфраструктуру Google Search Console для подтверждения владения сайтом. Верифицированные владельцы получают возможность отзывать доступ у других пользователей, указывать предпочитаемый домен (Preferred Domain Name) для консолидации сигналов ранжирования и …
Патент описывает инфраструктуру Google для оцифровки, индексирования и интеграции печатных изданий (книги, журналы) в результаты поиска наравне с веб-страницами. Он включает механизмы для получения разрешений от издателей (Permission Protocol), совместного …
Google оптимизирует поиск, обрабатывая морфологические варианты слов на этапе индексирования. Система определяет основу слова (стемму) и находит ее наиболее частотную форму в интернете («Репрезентативный Токен»). Этот токен добавляется в индекс …
Google использует этот механизм для автоматического обогащения рекламных сайтлинков (Ad Sitelinks) текстами из существующих объявлений (Creatives). Система применяет агрессивную каноникализацию URL, включающую активное сканирование и сравнение страниц для удаления незначащих …
Патент описывает инфраструктуру Google для оценки различных стратегий отбора документов в индекс. Система поддерживает актуальный набор данных (Query-to-Resource Mapping), периодически добавляя свежий контент и новые запросы. Это позволяет Google сравнивать …
Патент описывает систему, функционирующую подобно рекламной сети (типа AdSense), но для Q&A. Google анализирует содержание веб-сайтов (издателей) и пользовательские вопросы для определения тематической релевантности. Затем система размещает релевантные вопросы на …