Автор: Виктор Репин

Патент Google, описывающий инфраструктурную оптимизацию баз данных для сопоставления медиа (видео/аудио). Система использует машинное обучение на тренировочных данных для выбора оптимальных ключей поиска. Цель — предотвратить «clumping» (когда один ключ связан со слишком многими файлами), обеспечивая быстрый и эффективный поиск по отпечаткам контента.

Google использует систему «Адаптеров» для доступа к закрытым источникам данных (базы данных, системы документооборота), которые недоступны стандартному веб-краулеру. Адаптер создает уникальные URL для каждого элемента данных, передает их поисковой системе, а при запросе этого URL извлекает контент из источника и возвращает его в стандартном HTTP-формате.

Патент Google, описывающий инфраструктуру для совместного использования онлайн-поиска. Он позволяет основному пользователю проводить поиск, в то время как вторичные пользователи наблюдают, общаются (через видео/чат) и взаимодействуют с результатами в режиме реального времени. Это создает виртуальную среду для совместного шоппинга или планирования.

Патент Google, описывающий систему управления конфиденциальностью в социальных сетях или фотохостингах. Пользователи могут создавать списки («social circles»), определяя, чьи метки на фотографиях будут автоматически приняты, автоматически отклонены или потребуют ручного подтверждения. Система также поддерживает ретроактивное применение ранее отклоненных меток при изменении настроек.

Яндекс патентует систему для персонализации Digital Out-of-Home (DOOH) рекламы. Система идентифицирует людей перед экраном, используя GPS-данные, WiFi/Bluetooth сенсоры или камеры, и сопоставляет их с агрегированными онлайн-профилями. Затем проводится RTB-аукцион для показа наиболее релевантной рекламы для текущей группы зрителей с последующей верификацией контакта.

Патент описывает механизм Google Ads для оптимизации показа рекламы с дополнительными форматными элементами (расширениями). Система проводит двухэтапный аукцион, чтобы определить, какая комбинация объявления и расширений обеспечит наилучшую производительность (Performance Rate) при соблюдении ставки рекламодателя, учитывая стоимость добавленных элементов.

Система Google оптимизирует обработку списков контроля доступа (ACL) для приватного контента. Для повышения производительности система балансирует между размером индекса и сложностью запроса, динамически решая, хранить ли разрешения для целой группы (Group Restrict) или развернуть их в индивидуальные разрешения (Searcher Restrict), основываясь на размере группы и активности пользователя.

Google патентует систему, которая централизованно управляет чатами пользователя с разными службами поддержки. Система анализирует переписку, извлекает ключевые слова и обогащает их метаданными из внешних источников (почта, календарь). Все чаты индексируются, позволяя пользователю искать по всей истории своих обращений в разные компании через единый интерфейс.

Анализ инфраструктурного патента Google, описывающего метод сжатия поискового индекса. Система кодирует списки идентификаторов документов (Posting Lists), динамически выбирая оптимальную фиксированную ширину (например, 1 байт) и обрабатывая переполнения. Это позволяет Google значительно ускорить чтение индекса во время поиска, оптимизируя баланс между использованием памяти и скоростью CPU.

Патент Яндекс Музыки описывает архитектуру рекомендательной системы. Вместо единой модели, система обучает отдельную подмодель (ISDT) для каждого элемента (трека, видео). Эта подмодель предсказывает вероятность взаимодействия пользователя с элементом, используя историю его взаимодействий с другими элементами как признаки. Патент не относится к ранжированию веб-поиска.

Патент Google, описывающий метод создания синтетического набора взаимосвязанных документов, имитирующих структуру интернета (сайты, страницы, ссылки). Эта система используется для внутреннего тестирования технологий, таких как веб-краулеры. Она обеспечивает детерминированность (воспроизводимость тестов) и контролируемую вариативность.

Патент Google, описывающий инфраструктурный механизм для эффективного индексирования коррелированных групп данных, таких как списки ТВ-каналов от разных провайдеров. Вместо хранения каждой конфигурации отдельно, система идентифицирует часто встречающиеся наборы каналов (кластеры) и индексирует их. Это устраняет дублирование данных и ускоряет поиск в специализированных вертикалях.

Патент Google описывает систему конфиденциальности для поиска людей в медиаконтенте (например, в Google Photos). Система позволяет пользователям разрешать другим искать себя на фото/видео с помощью отзываемых цифровых ключей. При этом сами биометрические данные (эмбеддинги лиц) хранятся в защищенном виде и не раскрываются ищущему пользователю.

Google использует механизм улучшения пользовательского опыта в голосовом поиске. Если система неверно распознала голосовой запрос и пользователь кликает в строку поиска для исправления, Google автоматически показывает другие вероятные варианты распознавания (n-best list) в области подсказок, облегчая коррекцию ошибки.

Патент описывает механизм, позволяющий пользователю вводить голосовой запрос на портативном устройстве (смартфоне). Аудиозапись отправляется на удаленный сервер для преобразования в текст (Speech-to-Text), после чего текст автоматически передается на телевизионную систему. Телевизор использует этот текст для поиска медиаконтента (фильмов, музыки, шоу) и отображает результаты.

Яндекс патентует метод для рекомендательных систем (например, Яндекс Музыка), который снижает задержки при реакции на действия пользователя (лайк/дизлайк). Система заранее просчитывает не только основной список рекомендаций («основные элементы»), но и «вспомогательные элементы» для каждой возможной реакции. При действии пользователя система мгновенно выдает готовый вспомогательный элемент, скрывая время, необходимое для пересчета основного списка.

Анализ инфраструктурного патента Google, описывающего систему для распределенной обработки больших коллекций документов. Система позволяет рабочим процессам динамически разбивать слишком крупные задачи на подзадачи, возвращать их в общую очередь, отслеживать выполнение и агрегировать результаты, обеспечивая масштабируемость и отказоустойчивость.

Патент описывает инфраструктуру индексирования для систем обмена сообщениями (например, Gmail), где коммуникации сгруппированы в беседы. Система идентифицирует цитируемый текст (повторяющийся из предыдущих сообщений) и индексирует его отдельно от нового, оригинального текста. Это позволяет эффективно выполнять поиск внутри переписок, контролируя влияние цитат на результаты и отображение.

Патент описывает систему, позволяющую пользователям создавать метки (labels) для организации результатов поиска, документов и рекламы. Пользователи могут делиться этими метками для совместной работы. Google анализирует контент, связанный с метками, для извлечения концепций (concepts) и улучшения таргетинга рекламы на этих пользователей.

Патент описывает двухэтапную систему классификации сущностей, например, рекламодателей. Система использует вероятностную модель, взвешенную по финансовым данным (расходам на рекламу), и дерево решений (CART), чтобы точно определить основную бизнес-вертикаль сущности. Модель обучается с приоритетом на крупных рекламодателей и используется для внутренней аналитики и CRM.