Патенты Google

Google использует масштабируемую систему для борьбы с дублированным и частично дублированным медиаконтентом (видео, аудио). Вместо сравнения всех файлов между собой, система создает компактные «репрезентативные наборы» для каждого элемента, используя фингерпринтинг …
Google использует механизм для изменения стандартного ранжирования, чтобы сгруппировать несколько результатов с одного домена вместе (Domain Clustering). Это достигается за счет повышения (promoting) страниц этого домена, которые изначально ранжировались ниже. …
Google использует механизм для сопоставления разных URL, ведущих на одну и ту же страницу, но хранящихся в разных индексах (например, основной веб-индекс и индекс товаров). Система извлекает уникальные идентификаторы (например, …
Google использует систему автоматического распознавания контента (ACR) для идентификации медиа (ТВ-шоу, реклама, стриминг), которое потребляет пользователь. Система не просто определяет название, но извлекает контекст в реальном времени (субтитры, EPG, анализ …
Google использует метод кросс-модального переноса для автоматического создания текстовых описаний (captioning) для видео и аудио. Система находит видеокадры, визуально похожие на уже размеченные изображения из существующих датасетов, и переносит качественные …
Google использует механизм для агрегации отзывов о товарах в свой продуктовый каталог (например, Google Shopping). Если в отзыве отсутствует уникальный идентификатор товара (GTIN, UPC), система извлекает ключевую информацию (например, название …
Патент Google описывает систему создания многоязычной карты синонимов (Synonyms Map), которая учитывает частоту использования вариантов слова (например, с ударениями, лигатурами или транслитерацией) в разных языках. При обработке запроса система определяет …
Google может измерять объем данных, необходимый для полной загрузки веб-страницы (включая HTML, изображения, скрипты). Этот показатель используется как условный сигнал ранжирования: более "легкие" страницы могут получать преимущество, особенно если система …
Google использует историю сканирования для расчета вероятности удаления страниц, отдельно для разных категорий контента. На основе этой вероятности система оптимизирует расписание повторного сканирования (re-crawling schedule). Цель — найти баланс между …
Google использует структуру документа (например, иерархию сайта или главы книги) для определения наилучшей точки входа для пользователя. Система анализирует, где именно в структуре сконцентрированы (кластеризованы) ключевые слова из запроса. Вместо …
Google использует механизм для обработки запросов, содержащих акценты, диграфы («ue» вместо «ü») и транслитерацию. Система определяет язык запроса, нормализует термины в упрощенную форму и ищет варианты в предварительно созданной «Карте …
Патент Google, описывающий итеративный алгоритм для определения того, какие последовательности слов являются значимыми фразами (коллокациями), а какие — случайным совпадением. Система анализирует текст, начиная с длинных фраз и двигаясь к …
Google предоставляет владельцам сайтов механизм для контроля максимальной частоты запросов краулера (Crawl Rate Limit). Система анализирует статистику сканирования и сравнивает ее с текущим лимитом. Если фактическая частота сканирования не достигает …
Патент описывает раннюю систему персонализации поиска, которая собирает и анализирует закладки (content pointers) пользователей и групп, организованные в иерархические категории. Эта информация используется для создания профилей интересов (content vectors), которые …
Google использует механизм для идентификации трендовых запросов ("active keywords"), связанных с текущими событиями. Если пользователь ищет по такому запросу, система отбирает релевантные посты из социальных сетей, созданные во время события, …
Google улучшает поиск изображений по редким (long-tail) запросам, когда данных о кликах недостаточно. Система анализирует визуальные характеристики топовых и нижних результатов исходной выдачи, чтобы создать «визуальную подпись» запроса. Затем все …
Google использует систему для определения даты первой публикации отдельных фрагментов контента (например, предложений или абзацев). Система сегментирует контент и отслеживает его историю в «Карте дат» (Date Map). Используя нечеткое сравнение …
Google использует автоматизированную систему для определения «истинной геометрии» (точных физических границ) точек интереса (POI). Если бизнес связан с несколькими конфликтующими контурами (например, контур магазина и контур всего ТЦ), система ранжирует …
Google применяет систему двухэтапной кластеризации документов для организации индекса. Система группирует похожий контент, но применяет строгое ограничение на втором этапе: в итоговый кластер может входить не более одного представителя от …
Патент описывает архитектуру Custom Search Engine (CSE). Система позволяет разработчикам определять спецификации для модификации входящих запросов, выбора базовых поисковых систем (например, Web, Scholar), условного комбинирования их результатов и последующего изменения …