Shumeet Baluja

Патент Google описывает, как системы распознавания речи (ASR) автоматически адаптируются к новым словам и трендам. Система анализирует частотность слов в текстовых поисковых запросах и изучает произношение из медиа с субтитрами. …
Патент раскрывает методы генерации словарей для предиктивного ввода и автодополнения (Google Suggest). Google анализирует популярность терминов и частоту их совместного использования (ко-оккурентность) в глобальных логах поисковых запросов и веб-документах. На …
Google использует механизм для кластеризации контента (например, рекламы или рекомендаций), основанный на профилях интересов пользователей, которые с ним взаимодействуют. Система создает векторы интересов аудитории для каждого элемента контента, затем формирует …
Google использует механизм для улучшения результатов поиска по картинкам. Система анализирует набор изображений, найденных по запросу, и сравнивает их визуальные характеристики (цвет, текстуру, формы). Изображения, которые визуально похожи на большинство …
Google использует усовершенствованный алгоритм Min-Hash для создания цифровых сигнатур контента (веб-страниц, изображений, медиа). Условно используя вторичные перестановки, когда первичный хеш дает мало информации, Google генерирует более надежные и информативные сигнатуры. …
Google анализирует контент веб-сайтов, которые встраивают карты определенных географических локаций (например, через Maps API). Ключевые слова извлекаются с этих сайтов и ассоциируются с соответствующими географическими областями («ячейками карты»). Эти данные …
Google использует комбинацию алгоритмов машинного обучения (AdaBoost и Hillclimbing) для точного отделения изображений от текста на сканированных страницах. Система анализирует локальные визуальные признаки (например, SIFT), чтобы классифицировать контент и находить …
Google использует метод машинного обучения для создания «прощающих» (forgiving) хеш-функций. Этот механизм позволяет эффективно находить похожий или почти идентичный контент (аудио, изображения, видео) в огромных базах данных. Система группирует похожие …
Google использует механизм предиктивного извлечения для ускорения поиска, особенно на медленных соединениях. Когда пользователь выполняет поиск (например, в Web), система прогнозирует его следующий шаг (например, переход на вкладку Картинки) и …
Google использует масштабируемую систему для обнаружения полных или частичных совпадений в видео и аудио контенте. Система генерирует компактные цифровые отпечатки (фингерпринты) и применяет трехэтапный процесс: быстрый поиск кандидатов с помощью …
Патент Google, описывающий систему ранжирования рекламы, которая учитывает конфигурацию устройства пользователя (наличие функции звонка, размер экрана, скорость соединения). Система рассчитывает отдельные оценки для стандартных ссылок и функций (например, «звонок по …
Патент Google, описывающий инфраструктурную оптимизацию баз данных для сопоставления медиа (видео/аудио). Система использует машинное обучение на тренировочных данных для выбора оптимальных ключей поиска. Цель — предотвратить "clumping" (когда один ключ …