Google использует механизм для автоматического и безопасного наполнения ограниченных индексов (например, YouTube Kids). Система анализирует, что ищут пользователи в ограниченном индексе, находит соответствующие темы в основном индексе, а затем рассчитывает …
Индексация
Система Google для анализа и маркировки новостных статей такими типами, как «In-Depth» (Подробный материал), «Opinion» (Мнение), «Most Cited» (Наиболее цитируемый) или «Local Perspective» (Местный источник). Это помогает пользователям выбирать нужный …
Google использует аддитивную модель для разрешения неоднозначности сущностей (например, «Ягуар» — машина или животное). Вместо перемножения вероятностей контекстных признаков, система усредняет их «голоса» (support scores). Это предотвращает ошибки из-за коррелирующих …
Анализ фундаментального патента Xerox PARC, описывающего методы Information Retrieval. Патент раскрывает, как различные типы данных (текст, изображения, ссылки, поведение пользователей) преобразуются в векторы для мультимодальной кластеризации. Описаны концепции анализа пользователей …
Инфраструктура для взаимодействия с отображаемыми (печатными или экранными) документами. Система использует захват текста (сканирование или голос) для идентификации электронного аналога, позволяя выполнять действия и добавлять аннотации. Патент также детально описывает …
Анализ фундаментального патента (изначально Xerox), описывающего, как системы Information Retrieval преобразуют различные характеристики документов (текст, URL, ссылки, изображения) и поведение пользователей в векторные представления. Это позволяет численно определять сходство, комбинируя …
Google анализирует визуальную структуру отрендеренной страницы для идентификации основного контента («Колонки интереса»). Система определяет расположение колонок, исключает выбросы (невидимый или удаленный контент) и вычисляет центральную область. Контент, найденный в этой …
Google использует систему для определения точного местоположения изображения путем анализа и сверки трех источников: визуального распознавания объектов (Landmark), текстовых подписей/тегов (Caption) и GPS-данных из файла (Metadata). Система разрешает конфликты, используя …
Google применяет систему для эффективной дедупликации вакансий из разных источников. Используя алгоритмы MinHash и Jaccard Similarity, система создает цифровые отпечатки объявлений и группирует похожие версии в кластеры. Внутри кластера выбирается …
Патент Google описывает систему глубокого анализа изображений для распознавания лиц, одежды и текста на объектах. Система генерирует уникальные "сигнатуры распознавания" и создает индекс на их основе, что позволяет искать изображения …
Google использует структурированные данные (например, географические базы) и логи запросов для создания вероятностных языковых моделей в областях с огромным количеством комбинаций (например, адреса). Система вычисляет вероятность различных структур запроса (Template …
Google расширяет понимание запросов, используя транзитивные синонимы (если A=B и B=C, то A=C) и декомпозицию составных слов (например, разбивая «vlcmediaplayer» на «vlc media player»). Это позволяет системе находить релевантные документы, …
Google использует технологию для идентификации и маркировки «пространственно-временных объемов» (spatio-temporal volumes) внутри видео, которые соответствуют конкретным объектам или действиям (например, «бегущая кошка»). Это позволяет системе индексировать контент на гранулярном уровне, …
Анализ технологии Information Retrieval (на примере патента Citrix), которая конвертирует слова и предложения в числовые векторы (эмбеддинги) с помощью глубокого обучения (например, Word2Vec). Система оценивает семантическую близость между вектором запроса …
Патент Google, раскрывающий фундаментальные механизмы геокодирования и извлечения адресов. Система преобразует текстовые описания мест в точные координаты, используя "Массу Локации" (количество адресов в регионе) для оценки значимости. При наличии "Гео-подсказки" …
Google анализирует неструктурированные запросы для выявления скрытых потребностей в данных (Service Requirements), таких как поиск товаров или бронирование авиабилетов. Система оценивает доступные структурированные базы данных (каталоги товаров, системы бронирования) и …
Google использует алгоритм расширения набора сущностей (Set Expansion). Система анализирует списки, в которых исходные сущности (seeds) появляются вместе с другими. Чтобы найти действительно связанные сущности, а не просто популярные, система …
Google использует нейронные сети (включая LSTM и архитектуру Encoder-Decoder) для создания векторов авторов (Author Vectors) — числовых представлений, характеризующих стиль письма, личность и способ коммуникации автора. Патент описывает, как эти …
Google использует вероятностную систему для обработки лингвистических вариаций (акценты, диакритические знаки, транслитерация). Система определяет вероятный язык запроса и использует заранее созданную таблицу синонимов, которая хранит варианты написания и их частотность …
Google улучшает поиск по картинкам, находя дубликаты или похожие изображения на разных сайтах. Система собирает все текстовые метки (из alt-текста, заголовков, окружающего текста), связанные с каждой копией изображения, объединяет их …