Google использует систему, позволяющую «зарегистрированным издателям» предоставлять структурированные данные (например, цены, расписания, статус рейсов) отдельно от основного контента. Эта информация обновляется значительно чаще, чем стандартный веб-индекс, и используется для создания …
Краулинг
Google использует систему для преобразования неструктурированного контента веб-страниц в структурированные данные. Система обучается на примерах, размеченных вручную, для создания обобщенных структурных шаблонов (Template Trees), учитывающих повторяющиеся или опциональные элементы. Затем …
Патент Google описывает систему, позволяющую авторам напрямую отправлять контент поисковой системе до или сразу после публикации. Система проверяет новизну контента и может проиндексировать его немедленно, без сканирования URL. Также она …
Google использует систему для автоматического извлечения и проверки «Структурных параметров» (бренды, атрибуты, категории, линейки продуктов) из неструктурированного веб-контента и логов запросов. Система валидирует классификацию с помощью анализа контекстуального сходства, целевого …
Этот основополагающий патент описывает технологию XML Sitemap. Он определяет, как веб-серверы могут автоматически генерировать списки URL с метаданными (дата изменения, приоритет, частота обновления) путем анализа файловой системы или логов доступа, …
Google использует инфраструктурный метод обновления инвертированного индекса "на месте" (in-place updates). Система заранее резервирует пустые позиции в отсортированных списках документов (posting lists). Это позволяет почти мгновенно добавлять или удалять документы, …
Google оптимизирует ресурсы сканирования для динамического контента (например, цен товаров). Система использует алгоритм обучения с подкреплением (K-armed adversarial bandits) для адаптивного выбора наилучшей стратегии переобхода. Частота сканирования определяется прогнозируемой вероятностью …
Google использует систему для автоматического понимания структуры сайтов с пользовательским контентом (UGC), таких как форумы. Система разделяет страницы на статичные элементы («boilerplate») и динамический контент («posts»), определяет различные типы постов …
Патент описывает систему Google для автоматического сбора данных о физических локациях сетевых магазинов. Система находит страницу «Поиск магазина» на сайте, имитирует ввод географических данных (например, почтовых индексов) и извлекает адреса, …
Google анализирует исторические данные о поведении пользователей (например, долгие клики) и атрибуты документов, агрегируя их по схожим шаблонам URL. Если страница новая и не имеет собственных данных, система прогнозирует ее …
Патент раскрывает инфраструктуру Google для кэширования результатов поиска и сниппетов. Описан механизм, использующий «метки времени» (datestamps) для проверки актуальности кэшированной информации на основе даты последнего индексирования документа. Если кэшированный сниппет …
Google использует автоматизированный процесс для категоризации веб-сайтов в иерархическую таксономию. Система анализирует контент для выявления семантических кластеров (групп совместно встречающихся терминов), сопоставляет их с концепциями и определяет наиболее подходящую категорию. …
Google разрабатывает инфраструктуру для индексации данных напрямую из блокчейнов, фокусируясь на NFT. Система извлекает описания, историю транзакций и сами цифровые активы, следуя по ссылкам в блокчейне. Она оценивает качество и …
Google использует модель машинного обучения (например, Support Vector Machine) для анализа изменений между двумя версиями веб-страницы. Система оценивает контентные, структурные (ссылки) и поведенческие (трафик) признаки, чтобы классифицировать обновление как «значимое» …
Google использует файлы Sitemap как ключевой источник данных для управления сканированием. Патент описывает, как система обрабатывает метаданные (lastmod, changefreq, priority) и интегрирует их с внутренними сигналами (PageRank) в планировщик краулера. …
Google использует систему планирования сканирования для оптимизации ресурсов. Система динамически рассчитывает интервал сканирования для каждого ресурса, учитывая его популярность (например, количество подписчиков), частоту «значимых» изменений контента (особенно в визуально важных …
Google использует механизм, позволяющий авторизованным владельцам сайтов напрямую отправлять структурированные данные (например, цены, наличие товара) в поисковый индекс. Этот процесс происходит по требованию ("unscheduled update sequence"), значительно быстрее стандартного сканирования, …
Этот патент описывает, как Google автоматически идентифицирует страницы электронной коммерции и извлекает структурированные данные о товарах (такие как цена и изображение) из неструктурированного HTML. Система использует анализ близости элементов, структуру …
Google разрабатывает систему для обнаружения и индексации NFT непосредственно из данных блокчейна. Система анализирует байт-код, чтобы идентифицировать потенциальные NFT, проверяя события-триггеры смарт-контрактов, соответствие стандартам (например, EIP-721) и намерения создателей. Перед …
Google использует технологию анализа структуры документа (DOM-дерева) для отделения основного содержания страницы от шаблонных элементов (boilerplate) — таких как навигационные меню, футеры, списки ссылок и рекламные блоки. Система анализирует геометрические, …