Автор: Виктор Репин

Google может получать от пользователя одновременно текстовый запрос и изображение (например, фото с камеры). Система сначала находит каноническое изображение, соответствующее текстовому запросу, а затем ищет этот объект на фотографии пользователя. Если объект найден, система выделяет его, помогая пользователю идентифицировать объекты в сложной визуальной среде.

Google использует систему компьютерного зрения для определения основного предмета на изображении, содержащем несколько объектов. Система ранжирует распознанные объекты, отдавая предпочтение тем, которые крупнее по размеру, расположены ближе к центру кадра и меньше перекрываются другими элементами. Это напрямую влияет на индексацию и ранжирование в Google Images и Google Lens.

Патент описывает технологию Google для «второго экрана», которая идентифицирует просматриваемую телепередачу и в реальном времени находит соответствующие ей онлайн-новости. Система агрегирует новостные статьи, кластеризует их по темам, извлекает ключевые слова (используя TF-IDF) и сопоставляет их с потоком субтитров телеканала. Это демонстрирует механизмы Google по обработке, кластеризации и ранжированию новостного контента по свежести и популярности.

Google использует систему для визуального поиска похожих товаров. Система обнаруживает лицо на изображении, удаляет фон и участки кожи, чтобы изолировать предмет одежды. Затем, используя размер лица для нормализации масштаба, извлекаются небольшие фрагменты текстуры. Они обрабатываются нейронной сетью для классификации узора (игнорируя цвет) и создается цветовая гистограмма. Это позволяет находить визуально похожие товары.

Google идентифицирует известные сущности (например, знаменитостей) из поисковых логов и веб-документов. Система извлекает изображения, уже связанные с ними (например, через метаданные), и использует распознавание лиц для поиска наиболее репрезентативного лица. На основе этих подтвержденных лиц строится модель, которая затем используется для поиска и маркировки других неразмеченных изображений того же человека в интернете.

Google использует историю действий пользователя (запросы, клики, время между действиями) и их последовательность для определения его «коммерциализованности» (склонности кликать по рекламе). Используя Модели Маркова, система рассчитывает персональный балл коммерциализованности, который затем корректирует прогнозируемый CTR рекламных объявлений. Это влияет на финальное количество, ранжирование и позицию рекламы, показываемой конкретному пользователю.

Google применяет двухуровневую систему машинного обучения для решения задачи Entity Resolution — определения того, соответствует ли товарное предложение от продавца существующему объекту в каталоге. Система использует ансамбль специализированных предикторов (Logistic Regression) для оценки кандидатов и машину опорных векторов (SVM) для принятия финального высокоточного решения о совпадении, что критически важно для Google Shopping.

Google использует механизм для улучшения навигации по товарам, особенно на мобильных устройствах. Система создает многомерное пространство товаров на основе их атрибутов и выбирает репрезентативные «Опорные Точки» (Pivot Points). Пользователи могут «приближать» точку для просмотра похожих товаров или «отдалять», чтобы увидеть новый набор опорных точек, динамически адаптированный под их интересы и историю взаимодействий.

Google использует механизм для уточнения поисковых подсказок, заменяя общие термины (Классы) на конкретные примеры (Сущности). Система автоматически извлекает связи «Класс-Сущность» из веб-документов и оценивает их надежность. Например, подсказка «свойства муравьиной кислоты» может быть специализирована до «плотность муравьиной кислоты», помогая пользователю сфокусировать интент.

Google использует систему машинного обучения для автоматического определения ключевых моментов (Highlights) в видео. Система анализирует низкоуровневые признаки (цвет, движение, звук) для выявления повторяющихся паттернов (событий). На основе частоты и последовательности этих событий (Event Vector) классификатор определяет, является ли сегмент интересным. Это позволяет автоматически тегировать видео и выделять ключевые моменты в поиске.

Google идентифицирует, когда результат поиска является частью дискуссионного треда (форума, блога). Система реконструирует весь тред, находя другие его страницы, даже если они не попали в выдачу. Затем извлекается агрегированная статистика (количество постов, авторов, дата последней активности), которая отображается в сниппете, предоставляя пользователю интегрированное представление дискуссии.

Патент описывает метод автоматической классификации веб-страниц по заранее определенным категориям (например, «Покупки» или «Информация»). Эта классификация сохраняется в отдельном Индексе Категорий и используется для фильтрации, сортировки или маркировки результатов поиска, позволяя пользователям, ищущим товары, видеть только коммерческие предложения, исключая обзоры или статьи.

Google использует гибридную систему, сочетающую правила и модели машинного обучения, для автоматизации обработки запросов на удаление контента (например, PII). Система оценивает легитимность запроса, анализируя тип сайта, данные аккаунта пользователя и сам контент. При одобрении запроса Google не только удаляет результат для исходного запроса, но и автоматически расширяет блокировку на семантически близкие запросы и идентифицирует похожие или дублирующиеся веб-документы для их превентивного удаления из выдачи.

Google патентует систему для сбора и анализа окружающих звуков (музыка, шум) через микрофоны пользовательских устройств. Эта информация используется для определения акустической атмосферы (например, «тихо», «шумно», жанр музыки) конкретных заведений. Эти данные обогащают Локальный Поиск и Карты, позволяя пользователям искать места на основе их предпочтений к атмосфере.

Google использует масштабируемую систему для борьбы с дублированным и частично дублированным медиаконтентом (видео, аудио). Вместо сравнения всех файлов между собой, система создает компактные «репрезентативные наборы» для каждого элемента, используя фингерпринтинг и хеширование (Min-Hash). При получении запроса система сравнивает эти наборы для быстрого выявления дубликатов и выбора одной канонической версии для показа в выдаче.

Google использует механизм для изменения стандартного ранжирования, чтобы сгруппировать несколько результатов с одного домена вместе (Domain Clustering). Это достигается за счет повышения (promoting) страниц этого домена, которые изначально ранжировались ниже. Также патент описывает процесс сканирования, хранения и отображения фавиконов рядом с URL в поисковой выдаче для лучшей идентификации источника.

Google использует механизм для сопоставления разных URL, ведущих на одну и ту же страницу, но хранящихся в разных индексах (например, основной веб-индекс и индекс товаров). Система извлекает уникальные идентификаторы (например, SKU) из параметров URL. Если идентификаторы совпадают и контент верифицирован, URL связываются, позволяя Google обогащать результаты в одном индексе данными из другого (например, показ цены в веб-выдаче).

Яндекс патентует метод встраивания текста в метаданные медиафайлов (изображений, видео, аудио) непосредственно в момент создания или редактирования контента. Если система «знает» текст (например, пользователь ввел аннотацию или система извлекла текст из интерфейса при создании скриншота), этот текст сохраняется в метаданных файла. Это позволяет точно индексировать содержание медиа без использования дорогостоящих и подверженных ошибкам технологий распознавания (OCR или ASR).

Google использует систему автоматического распознавания контента (ACR) для идентификации медиа (ТВ-шоу, реклама, стриминг), которое потребляет пользователь. Система не просто определяет название, но извлекает контекст в реальном времени (субтитры, EPG, анализ видеокадров) и автоматически генерирует релевантные поисковые запросы, минуя ручной ввод ключевых слов.

Google использует метод кросс-модального переноса для автоматического создания текстовых описаний (captioning) для видео и аудио. Система находит видеокадры, визуально похожие на уже размеченные изображения из существующих датасетов, и переносит качественные текстовые подписи с изображений на соответствующие видеоклипы. Это позволяет масштабно генерировать данные для обучения моделей поиска по видео и аудио.