Индексация

Анализ патента Google, описывающего управление проспективными поисковыми запросами. В отличие от стандартного веб-поиска, проспективный поиск фильтрует входящие потоки данных по заранее заданным правилам (например, системы обновлений устройств). Патент предлагает метод …
Google использует статистический метод для анализа больших наборов URL и выявления общих префиксов или суффиксов, которые встречаются чаще, чем ожидалось случайно. Это помогает Google понять структуру URL, сгруппировать похожий контент …
Патент Google, описывающий механизм индексирования чисел и обработки запросов с числовыми диапазонами. Система раскладывает каждое число на компоненты (логарифмическую характеристику и отдельные цифры) и сохраняет их как специальные числовые термины …
Google применяет систему для индексации «Глубокого веба» (Deep Web), автоматически определяя, какие ключевые слова вводить в веб-формы. Система использует итеративное зондирование: извлекает начальные слова, отправляет их, анализирует уникальность результатов и …
Google отслеживает историю изменений IP-адресов для хостнеймов, чтобы определить, какие сайты размещены на одном физическом сервере или хостинг-сущности. Анализируя эти временные ряды, система группирует сайты со схожими паттернами IP. Это …
Google улучшает визуальный поиск, анализируя, как различные части изображения соотносятся друг с другом (используя Deformable Parts Model). Это позволяет системе кластеризовать изображения по конкретным подклассам и ракурсам (например, «седан, вид …
Google использует статистические методы и структуру данных «суффиксное дерево» для автоматического создания правил изменения окончаний слов (стемминга и генерации вариантов). Система анализирует наблюдаемые пары слов, обобщает их до правил и …
Google использует технологию трехмерных цифровых отпечатков для управления большими видеобиблиотеками (например, YouTube). Система анализирует пространственные (внутри кадра) и временные (между кадрами) характеристики видео, создавая уникальный идентификатор. Это позволяет эффективно обнаруживать …
Google использует итеративный алгоритм сравнения (например, LCS) для анализа изменений между старой и новой версиями веб-страницы. Система не просто определяет добавленный или удаленный контент, но и точно идентифицирует блоки, которые …
Google использует механизм хранения синонимов (substitute terms) непосредственно в поисковом индексе. Система определяет подходящий синоним на основе контекста документа во время индексации и сохраняет точную информацию о порядке слов (order) …
Патент Google описывает архитектуру поиска с двумя уровнями индексации. Standard Index (основной, быстрый) содержит авторитетные документы (высокий PageRank) и обрабатывает большинство запросов. Extended Index (дополнительный, медленный) содержит менее важные или …
Патент описывает архитектуру Google для эффективного поиска на основе фраз. Он детализирует, как индекс организован в Уровни (Tiers, на основе стоимости обработки фраз) и Шарды (Shards, разделы документов) для минимизации …
Google использует систему для информирования пользователей о размере и предполагаемой стоимости загрузки веб-страницы до того, как пользователь нажмет на ссылку. Это предназначено для пользователей с лимитированными или дорогими тарифными планами …
Google использует сложный метод анализа тепловых карт (Heat Maps) для обнаружения совпадений между двумя наборами данных, например, для поиска дубликатов или фрагментов одного видео в другом. Система разбивает потенциальные совпадения …
Google разрабатывает систему для индексации невзаимозаменяемых токенов (NFT) путем сканирования как непосредственно блокчейнов, так и веб-платформ (маркетплейсов). Патент описывает механизм дедупликации, который определяет, ссылаются ли разные записи индекса на один …
Google оптимизирует поисковую инфраструктуру, разделяя индекс на две части. Основной индекс («Replicated Content») содержит глобально важные документы и копируется во все дата-центры. Дополнительно каждый дата-центр получает уникальный «Regional Content» — …
Google использует механизм для точного определения языка коротких фрагментов текста, таких как посты в социальных сетях. Если сам текст слишком короткий или неоднозначный для анализа, система анализирует социальный граф автора: …
Google использует систему для интеграции личных данных пользователя (например, бронирований авиабилетов или заказов), извлеченных из его электронных документов (Gmail, Календарь), непосредственно в поисковую выдачу. Система анализирует запрос и стандартные результаты …
Патент описывает механизм локального поиска на устройстве (например, смартфоне). Приложения передают ("донатят") данные о действиях пользователя (поисковые запросы, просмотренный контент, выполненные задачи) в центральный локальный индекс. Это позволяет пользователю через …
Google использует специализированную архитектуру графовой базы данных (graphd) для хранения сущностей и фактов, применяя подход "Schema Last". Патент описывает низкоуровневые методы оптимизации сложных запросов к этому графу, включая динамическую cost-based …