Автор: Виктор Репин

Патент описывает систему (Social Search Engine), которая находит не документы, а людей, способных ответить на вопрос пользователя. Система анализирует экспертность и социальные связи (Intimacy Score) потенциальных ответчиков в сети пользователя. Кроме того, патент описывает механизм монетизации ответов через партнерские ссылки и интеграцию этих социально проверенных ответов (UGC) непосредственно в стандартные результаты поиска.

Яндекс патентует статистический метод для повышения чувствительности A/B тестирования изменений в поиске. Вместо сравнения средних значений поведенческих метрик (например, Dwell Time), система анализирует полное распределение этих метрик. Это позволяет обнаруживать статистически значимые изменения в удовлетворенности пользователей, даже если средние показатели меняются незначительно.

Google использует систему для эффективного обнаружения изображений-почти дубликатов (измененный размер, обрезка, сжатие). Система анализирует локальные особенности контента («визуальные слова») и их точное пространственное расположение («тайлы»), чтобы создать компактные дескрипторы. Сравнивая эти дескрипторы, Google быстро идентифицирует и удаляет дубликаты из результатов поиска для повышения разнообразия выдачи.

Google использует низкоуровневые технические параметры кодирования видео для эффективного анализа контента. Система автоматически определяет смену сцен, анализируя расположение ключевых кадров (I-frames), которые вставляются при значительном изменении изображения, и отфильтровывает технические ошибки (Jitter). Это позволяет Google сегментировать видео для классификации контента, генерации автоматических сводок и выделения ключевых моментов (Key Moments) в поиске.

Патент описывает вероятностный метод Google для точной идентификации языка поискового запроса, включая голосовые. Система анализирует частотность слов в разных языках и комбинирует эти данные с контекстом: языком интерфейса (например, google.fr) и историческими языковыми предпочтениями пользователя. Это позволяет корректно обрабатывать запросы, даже если их язык отличается от ожидаемого.

Google использует двухэтапный процесс машинного обучения для создания моделей визуального сходства. Сначала модель обучается на неразмеченных данных, анализируя расстояния между векторами признаков, извлеченных нейронными сетями (автоэнкодерами). Затем модель уточняется с использованием обратной связи от пользователей (размеченных данных), чтобы скорректировать важность различных визуальных признаков и привести результаты в соответствие с человеческим восприятием.

Google анализирует результаты поиска, особенно в локальной выдаче и E-commerce, и определяет, к каким категориям относятся топовые листинги. Система оценивает эти категории на основе позиций ранжирования или частоты встречаемости связанных документов. Наиболее релевантные категории предлагаются пользователю в качестве динамических фильтров для уточнения запроса.

Google использует специализированную инфраструктуру (Chunk Tables и Token Tables) для мгновенного предоставления поисковых подсказок (Autocomplete) с переводами. Система предсказывает полные запросы на основе частичного ввода, объединяя исторические данные о запросах пользователей и словарные базы. Она также обрабатывает ошибки ввода, включая использование неверной раскладки клавиатуры.

Патент Google описывает фундаментальные технологии компьютерного зрения для точного распознавания объектов. Система использует вероятностные модели для Регистрации — точного определения ключевых точек объекта, даже если он повернут или частично скрыт. Также описаны методы синтеза фронтального вида с помощью 3D-моделей и оптимизации обучения алгоритмов. Это основа для работы Google Images и Google Lens.

Яндекс патентует высокочувствительный метод для A/B тестирования, который анализирует полное распределение поведенческих метрик (например, времени на сайте), а не только их средние значения. Это позволяет Яндексу выявлять даже незначительные, но статистически значимые изменения в удовлетворенности пользователей при тестировании новых функций или алгоритмов ранжирования.

Google использует архитектуру для обработки медиазапросов (фильмы, сериалы). Система определяет, что запрос связан с медиа, и одновременно отправляет запросы в разные корпусы данных (структурированные данные, веб-индекс, картинки, расписания). Затем результаты агрегируются в единый специализированный интерфейс (например, Knowledge Panel или детальная страница сущности), предоставляя пользователю сводную информацию из разных источников.

Google использует систему для генерации анимированных сниппетов (например, GIF) в результатах поиска. Система анализирует страницу, идентифицирует постоянные изображения (исключая рекламу и иконки), оценивает их расположение и качество, и группирует их по темам. Для одной страницы создается несколько анимированных превью. При получении запроса Google выбирает то превью, которое наиболее релевантно теме запроса, улучшая визуальное представление выдачи.

Яндекс патентует двухэтапный метод идентификации аудиодорожек. Система создает короткие и длинные аудио-отпечатки (Chromaprints). Сначала выполняется быстрый поиск кандидатов по коротким отпечаткам с использованием специального индекса (Pruning Index). Затем проводится детальная валидация путем побитового сравнения длинных отпечатков для точного определения дубликатов или схожего контента.

Google использует «Идентификаторы критериев местоположения» (Location Criteria Identifiers), чтобы понять, что разные термины (например, «СПб» и «Санкт-Петербург») относятся к одному и тому же месту. Это позволяет точно сопоставлять контент с таргетингом на местоположение (например, рекламу) с запросами пользователей, даже если они используют сленг, сокращения или допускают ошибки в названиях.

Патент описывает систему, которая собирает результаты поиска, ранее выбранные пользователем (клики, просмотры) на разных платформах или сайтах. Эти результаты агрегируются и отображаются в едином интерфейсе для быстрого повторного доступа. Система использует фильтры по времени взаимодействия и частоте кликов для исключения случайных или нерелевантных посещений.

Патент Google, описывающий инфраструктурный механизм для организации данных (например, конфигураций системы или элементов UI), зависящих от множества условий. Система использует Directed Acyclic Graph (DAG) и структуру Skip List для быстрого поиска и выбора нужного варианта данных на основе характеристик входящего запроса.

Google использует метод сбора данных о предпочтениях пользователей в формате игры. Пользователям показывают пары изображений, представляющих разные группы мест (например, ресторанов). Выбирая предпочтительное изображение, пользователь итеративно сужает список кандидатов. Собранные данные о «выигравших» местах используются как сигнал для ранжирования результатов поиска.

Система определяет языковые предпочтения пользователя и сравнивает их с языком посещаемой веб-страницы. Если страница отображается не на предпочтительном языке из-за ошибки маршрутизации (например, из-за геолокации), и существует альтернативная версия на нужном языке, система предлагает пользователю перейти на нее или автоматически перенаправляет его.

Google использует систему для автоматического определения того, какой именно продукт просматривает пользователь, анализируя URL и заголовок страницы. Система извлекает идентификаторы объектов (например, SKU или GTIN) с помощью правил парсинга, специфичных для домена, и создает «Индекс идентификаторов объектов». Это позволяет Google точно индексировать товары и понимать интересы пользователей без необходимости сложной настройки тегов со стороны владельца сайта.

Яндекс патентует метод создания профиля пользователя исключительно на основе истории его браузера (URL). Система анализирует, какие домены пользователь посещал в рамках одной сессии, и использует алгоритмы типа word2vec для определения близости этих доменов. На основе этой близости, редкости доменов и давности посещений вычисляется навигационный профиль, который затем используется для предсказания интересов и социально-демографических характеристик пользователя (возраст, доход, пол) для таргетинга рекламы и рекомендаций (например, в Дзен).