Мультиязычность

Google использует статистические методы и структуру данных «суффиксное дерево» для автоматического создания правил изменения окончаний слов (стемминга и генерации вариантов). Система анализирует наблюдаемые пары слов, обобщает их до правил и …
Система Google позволяет пользователю спросить «Что он только что сказал?» во время просмотра видео на другом устройстве. Система захватывает образец аудио, идентифицирует точный медиафайл и временную метку с помощью фингерпринтинга, …
Патент Google, описывающий систему улучшения качества машинного перевода с помощью правок пользователей (краудсорсинг). Система предоставляет машинный перевод, принимает исправления, автоматически проверяет их приемлемость и обновляет версию для следующих пользователей. Улучшенные …
Google патентует механизм поиска видеоконтента по его аудиосодержанию. Система принимает текстовый запрос, находит точные сегменты в разных видео, где произносятся эти термины (используя транскрипты и таймкоды), и автоматически объединяет эти …
Google оптимизирует поисковую инфраструктуру, разделяя индекс на две части. Основной индекс («Replicated Content») содержит глобально важные документы и копируется во все дата-центры. Дополнительно каждый дата-центр получает уникальный «Regional Content» — …
Google использует систему фильтрации для управления межъязыковым поиском (CLIR). Система анализирует язык запроса, язык интерфейса пользователя и его местоположение. Если пользователь вводит запрос на языке, отличном от языка интерфейса, Google …
Google использует механизм для точного определения языка коротких фрагментов текста, таких как посты в социальных сетях. Если сам текст слишком короткий или неоднозначный для анализа, система анализирует социальный граф автора: …
Google использует механизм для автоматического определения и исправления запросов, введенных с ошибочной раскладкой клавиатуры. Если исходный запрос возвращает неудовлетворительные результаты, система анализирует контекст пользователя (язык интерфейса, местоположение, историю поиска), чтобы …
Google решает проблему неоднозначности ввода в языках без стандартной романизации (например, кантонский диалект). Система строит статистические языковые модели на основе предпочтений пользователей, чтобы распознавать разные фонетические варианты ввода латиницей (например, …
Патент описывает систему, позволяющую владельцам сайтов согласиться (opt-in) на краудсорсинг высококачественных человеческих переводов своих страниц. Google создает и хранит переведенные копии, встраивает в них дополнительный контент (например, рекламу) и показывает …
Google использует статистический метод для интерпретации текста без пробелов (например, доменных имен). Система определяет потенциальные языки, разбивает строку на слова для каждого языка, а затем проверяет, какая комбинация слов (включая …
Google использует географическое положение пользователя для выбора наиболее подходящей языковой модели при распознавании текста (OCR) на изображениях (визуальных запросах). Это позволяет системе учитывать региональные различия в языке (например, орфографию или …
Патент Google описывает механизм работы Автодополнения (Autocomplete/Suggest), который объединяет исторические запросы на разных языках (например, корейском и английском) в единую базу. Система конвертирует запросы в романизированное представление на основе физических …
Google использует этот механизм для помощи пользователям, вводящим фонетический текст (например, Pinyin) в адресную строку браузера. Система преобразует ввод в иероглифы (например, Hanzi) и использует исторические данные из логов запросов …
Google патентует механизм, позволяющий пользователям мгновенно изменять настройки устройства (язык, яркость, размер шрифта) или параметры поискового запроса (например, переводить запрос и получать результаты на другом языке), просто изменив ориентацию смартфона. …
Google использует систему оптимизации выбора контента (например, рекламы или рекомендаций), которая анализирует исторические данные показов с помощью логистической регрессии. Цель — выявить комбинации признаков (например, категория контента + категория веб-страницы …
Патент Google, описывающий инфраструктурный механизм для повышения эффективности обработки текста. Вместо анализа всех возможных фраз (n-грамм) система фокусируется на «ключевых словах» (core unigrams), удаляя стоп-слова и применяя стемминг. Это позволяет …
Google использует механизм для генерации поисковых подсказок (Autocomplete), когда пользователь вводит запрос, смешивая разные языки или системы письма. Система создает альтернативные, "неоднозначные" представления ввода, запрашивает подсказки и фильтрует их. Это …
Патент описывает метод, позволяющий пользователям вводить весь поисковый запрос на одном языке (например, английском), но указывать, что отдельные термины должны быть найдены на других языках. Система автоматически транслитерирует эти термины …
Google использует систему кросс-языкового поиска (CLIR), которая переводит запрос пользователя на целевой язык, выполняет поиск и переводит результаты обратно. Ключевая особенность — интерактивный интерфейс, позволяющий пользователю отредактировать машинный перевод запроса …