Google использует систему кросс-языкового поиска (CLIR), которая переводит запрос пользователя на целевой язык, выполняет поиск и переводит результаты обратно. Ключевая особенность — интерактивный интерфейс, позволяющий пользователю отредактировать машинный перевод запроса или выбрать альтернативные варианты для повышения точности выдачи.
Автор: Виктор Репин
Google использует систему для информирования пользователей непосредственно в поисковой выдаче о том, будет ли показана реклама (например, преролл) при воспроизведении медиаконтента. Система определяет рекламную конфигурацию контента и модифицирует отображение SERP, используя индикаторы или группировку («С рекламой» / «Без рекламы»), чтобы предупредить пользователя до клика.
Google использует масштабируемую систему для обнаружения полных или частичных совпадений в видео и аудио контенте. Система генерирует компактные цифровые отпечатки (фингерпринты) и применяет трехэтапный процесс: быстрый поиск кандидатов с помощью Locality-Sensitive Hashing (LSH), точная классификация с использованием машинного обучения и объединение результатов. Это позволяет идентифицировать контент даже при изменении качества или скорости воспроизведения.
Google использует систему для унификации различных национальных систем возрастных рейтингов (например, PG-13 в США, 12А в Великобритании, 16+ в России) в единый глобальный стандарт. Это позволяет применять пользовательские настройки фильтрации (например, родительский контроль или SafeSearch) единообразно к контенту из любой страны, блокируя или модифицируя результаты поиска, если они не соответствуют установленному уровню ограничений.
Патент Google описывает технологию предоставления встраиваемого виджета для сторонних сайтов (например, интернет-магазинов). Виджет автоматически анализирует контент страницы, на которой он размещен, ищет релевантный медиаконтент (например, видеообзоры товаров) в базе данных Google и отображает его в виде плейлиста прямо на странице, улучшая пользовательский опыт.
Патент Google описывает механизм для On-Device поиска и Ассистента. Система анализирует исторические данные, чтобы понять, в каком приложении находится конкретная сущность (например, песня или контакт). Если пользователь ищет сущность, не указывая приложение, система автоматически предлагает открыть нужную программу и выполнить действие (например, через deeplink).
Google использует систему для автоматического преобразования текстовых рекламных объявлений в визуально привлекательные графические блоки. Система анализирует целевую страницу (landing page) текстового объявления, извлекает или генерирует из нее изображение и объединяет его с текстом объявления. Эти новые графические блоки затем отображаются в виде матрицы (сетки) на сайтах паблишеров.
Патент Google описывает интерфейс, который организует поисковые сессии в виде диалоговых тредов (Search Threads). Система интерпретирует последовательные сообщения пользователя как единое, эволюционирующее намерение, позволяя итеративно уточнять критерии. Интерфейс предназначен для управления сложной историей поиска, совместной работы и отслеживания обновлений.
Патент описывает систему, преимущественно для голосовых ассистентов, которая определяет, что пользователь сформулировал запрос грамматически некорректно («плохо сформированная фраза») на неродном для него языке. Вместо выполнения команды система предлагает корректный вариант («хорошо сформированную фразу»), используя для этого предварительно рассчитанные векторные представления (embeddings) и анализ языковой компетентности пользователя.
Патент описывает инфраструктуру Google для эффективной загрузки встроенных ресурсов (CSS, JavaScript, изображения) при рендеринге миллиардов веб-страниц. Система использует многоуровневое кэширование и интеллектуальную маршрутизацию запросов к хостам, чтобы ускорить процесс индексации и избежать перегрузки внешних серверов.
Патент Google, описывающий инфраструктурный механизм для повышения эффективности поиска. Система использует итеративный битовый поиск по атрибутам документов (Sort Keys), таким как качество или дата, чтобы быстро найти заданное количество результатов (Топ-N). Это позволяет избежать полного сканирования и сортировки всех релевантных документов, оптимизируя скорость извлечения данных.
Анализ патента Google, описывающего систему сбора и отображения изображений (например, фавиконов) рядом с результатами поиска для идентификации источника. Патент также детализирует интерактивный механизм, при котором клик по этому изображению инициирует локальный поиск (аналог оператора site:) по данному домену. Важно, что формула изобретения ограничивает применение этой функции сайтами, принадлежащими самой поисковой системе.
Патент Google, описывающий систему генерации оповещений (Alerts) на основе результатов из пользовательских поисковых систем (Custom Search Engines). Система позволяет пользователям получать уведомления об изменениях в результатах поиска по заданному запросу в рамках определенного набора сайтов (Индивидуальные оповещения), а также отслеживать популярные результаты среди других пользователей CSE (Групповые оповещения).
Google использует механизм условного выбора контента для оптимизации заполнения нескольких рекламных слотов на странице. Система проводит аукционы для приоритетных слотов и, в зависимости от результатов (например, типа или релевантности выбранной рекламы), решает, проводить ли аукционы для остальных слотов или какие ограничения применить. Это снижает задержки при загрузке страницы и экономит ресурсы сервера.
Яндекс использует систему для ускорения идентификации почти дубликатов (near-duplicates) видео во время индексации. Вместо медленного сравнения содержания каждого видеофайла система сначала проверяет схожесть их продолжительности. Допустимая разница (variance parameter) динамически адаптируется в зависимости от общей длины видео. Только те видео, чья продолжительность попадает в этот диапазон, переходят на этап детального сравнения.
Анализ патента Google, описывающего методы повышения точности систем распознавания речи (ASR). Вместо выбора наиболее вероятной фразы (MAP), система использует метод минимального байесовского риска (MBR) для выбора транскрипции с наименьшим ожидаемым количеством словесных ошибок (WER). Патент фокусируется на оптимизации этих вычислений.
Google решает проблему отсутствия статистики при запуске специализированного поиска (Товары, Новости и т.д.) в новой стране. Система переводит локальные запросы на язык зрелого рынка (например, английский), оценивает их с помощью существующих моделей и использует эти оценки для обучения новых локальных моделей. Это позволяет быстро определять интент пользователя без исторических данных.
Яндекс патентует метод повышения качества данных для обучения ML-алгоритмов (например, ранжирования или Proxima). Система анализирует историческую эффективность асессоров и динамически формирует оптимальные группы для задач. Цель — максимизировать «метрику согласованности» — вероятность того, что коллективный ответ группы является верным. Также описан механизм фильтрации ненадежных данных.
Google разрабатывает технологию для голосового поиска, которая не требует транскрибации речи в текст (ASR). Система создает компактный аудио-отпечаток (фонетический сигнал) из голоса пользователя и напрямую сопоставляет его с токенами документов в общем векторном пространстве. Это позволяет находить релевантные результаты быстрее, эффективнее и с сохранением конфиденциальности пользователя.
Патент описывает работу адресной строки браузера (например, Chrome Omnibox). Система анализирует историю посещений, чтобы предлагать автозаполнение URL и отличать навигационные намерения от поисковых запросов. Она также позволяет пользователям искать внутри конкретного сайта (например, Amazon) прямо из адресной строки, используя «Поисковые ярлыки», минуя переход на главную страницу этого сайта.