Патент описывает систему Google для автоматического обнаружения сайтов объявлений (например, Craigslist). Система использует эвристики (например, географические названия в URL) и ML-классификаторы для анализа структуры сайта (страницы списков и детальные страницы). …
Краулинг
Патент описывает систему постобработки OCR, которая повышает точность индексации отсканированных документов и изображений. Google группирует похожие по форме символы в кластеры и сравнивает их, чтобы автоматически выявить и исправить ошибки …
Google использует эффективный метод (O(n)) для группировки структурно похожих документов на веб-сайте. Система определяет страницы, у которых совпадают наиболее весомые термины (Топ-N), используя метрику Modified TF-IDF, смещенную в сторону шаблонного …
Google использует систему для эффективного обнаружения контента в облачных сервисах (например, Google Drive, социальные сети), который стал публичным. Вместо ожидания краулера система отслеживает изменения в настройках доступа (ACL). Когда контент …
Патент описывает инфраструктуру Google для эффективной загрузки встроенных ресурсов (CSS, JavaScript, изображения) при рендеринге миллиардов веб-страниц. Система использует многоуровневое кэширование и интеллектуальную маршрутизацию запросов к хостам, чтобы ускорить процесс индексации …
Этот патент описывает инфраструктуру Google для приема оцифрованных книг и журналов. Он определяет «Спецификацию контента» (XML-файл), предоставляемую издателями, которая содержит метаданные, структуру тома и явные инструкции по индексированию (например, гранулярность …
Google автоматизирует создание инвентаря локальной рекламы, извлекая физические адреса компаний из внешних источников (веб-сайты, бизнес-справочники). Это позволяет отображать рекламу в виде интерактивных "Спонсируемых слоев" на картах, где пользователи могут включать …
Google использует инфраструктуру для распределенного сканирования контента, требующего Cookies. Система поддерживает централизованную базу данных, где хранятся Cookies, полученные любым краулером. Это позволяет всем краулерам совместно использовать эти Cookies для доступа …
Google использует механизм для точного определения момента, когда нативное мобильное приложение полностью загрузило и отобразило контент. Система последовательно отслеживает завершение всех внешних сетевых запросов и состояние бездействия (idle) внутренних потоков …
Google использует систему для определения «фактической свежести» (de facto fresh) кэшированного документа, анализируя историю его обновлений, а не полагаясь только на заголовки истечения срока действия. Если статистический анализ показывает, что …
Этот патент описывает инфраструктурную оптимизацию поискового индекса Google. В нем представлена «гибридная структура данных», которая ускоряет извлечение информации (например, местоположение фраз в документах) путем объединения бинарных деревьев с таблицами поиска …
Патент описывает инфраструктурные оптимизации для поисковых систем, в частности, для поиска по исходному коду. Он включает два основных механизма: 1) Кэширование результатов для дорогих повторяющихся запросов с обновлением кэша в …
Google использует гибридную архитектуру индекса, комбинируя документное шардирование (Document-Sharding) и терминологическое шардирование (Term-Sharding). Эта система позволяет балансировать нагрузку на сеть и операции ввода-вывода, а также обеспечивает механизмы обновления индекса без …
Google использует систему для сканирования контента нативных мобильных приложений (App Indexing). Патент описывает, как система определяет момент полной загрузки приложения, отслеживая технические сигналы: стабилизацию использования памяти, сетевые запросы и события …
Патент описывает инфраструктурную систему для эффективного сканирования социальных сетей. Контент разделяется на «Посты» (основной контент) и «Вовлеченность» (комментарии, ответы). Система адаптивно планирует сканирование: проверяет комментарии реже, если API социальной сети …
Анализ патента Google, описывающего систему автоматизации платной рекламы (PPC), лежащую в основе Dynamic Search Ads (DSA). Система анализирует контент веб-сайтов рекламодателей для динамической генерации текста объявления (креатива), выбора целевой страницы …
Патент описывает инфраструктурный механизм для определения оптимального количества машин в облачном кластере, необходимого для выполнения масштабных задач (например, тестирования кода на миллионах архивных веб-страниц) в заданное время. Система учитывает ограничения …
Патент Google, описывающий инфраструктурный механизм для эффективной обработки запросов в корпоративном поиске (Enterprise Search). Система индексирует как публичные, так и закрытые (access controlled) документы. Для ускорения работы она сначала ранжирует …
Google использует систему "Адаптеров" для доступа к закрытым источникам данных (базы данных, системы документооборота), которые недоступны стандартному веб-краулеру. Адаптер создает уникальные URL для каждого элемента данных, передает их поисковой системе, …
Патент Google, описывающий метод создания синтетического набора взаимосвязанных документов, имитирующих структуру интернета (сайты, страницы, ссылки). Эта система используется для внутреннего тестирования технологий, таких как веб-краулеры. Она обеспечивает детерминированность (воспроизводимость тестов) …