SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует одновременный ввод видео и аудио (Multimodal Search) для понимания сложных запросов

VIDEO AND AUDIO MULTIMODAL SEARCHING SYSTEM (Система мультимодального поиска по видео и аудио)
  • US20240403362A1 (Application)
  • Google LLC
  • 2023-05-31
  • 2024-12-05
  • Мультимедиа
  • Семантика и интент
  • Индексация
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google разрабатывает систему мультимодального поиска, позволяющую пользователям записывать видео и одновременно задавать вопрос голосом или записывать звук. Система использует продвинутые ML-модели для генерации видео-эмбеддингов, анализа временной информации и аудиосигнатур. Это позволяет поиску понимать сложные запросы, требующие визуального и аудиального контекста (например, диагностика поломок, обучение действиям), и находить релевантные ответы в виде видео, веб-страниц или AR.

Описание

Какую проблему решает

Патент решает проблему ограничений традиционных поисковых систем (текстовых и голосовых) при обработке сложных запросов, требующих визуального или аудиального контекста. Стандартные системы не могут эффективно ответить на запросы типа «как починить этот прибор, издающий странный звук», «как научиться этим танцевальным движениям» или сравнить товары на полке. Изобретение улучшает понимание истинного намерения пользователя, позволяя ему использовать видео и аудио одновременно в качестве входных данных для запроса ("show and ask").

Что запатентовано

Запатентована система мультимодального поиска, которая принимает на вход видеоданные (последовательность кадров) и связанные с ними аудиоданные (голосовую команду или фоновый звук). Суть изобретения заключается в использовании моделей машинного обучения для генерации Video Embeddings на основе визуальных данных и последующем определении результатов поиска на основе комбинации этих эмбеддингов и анализа аудиоданных.

Как это работает

Система функционирует следующим образом:

  • Мультимодальный ввод: Пользователь одновременно записывает видео и аудио (например, снимает двигатель и спрашивает: «Что это за стук?»).
  • Обработка видео: Система анализирует последовательность кадров. Может использоваться Frame Selection Algorithm для выбора ключевых изображений. ML-модели обрабатывают эти кадры для создания Video Embeddings — векторных представлений, кодирующих семантику видео. Также извлекается Temporal Information (информация о движении и изменениях во времени).
  • Обработка аудио: Аудиоданные могут быть преобразованы в текст (ASR), обработаны для создания акустического отпечатка (Audio Signature) или использованы напрямую мультимодальной моделью.
  • Мультимодальное понимание и поиск: Система совместно обрабатывает Video Embeddings и аудиоданные для понимания запроса. Эмбеддинги используются для поиска совпадений по сходству в индексе видео (Video Index).
  • Вывод результатов: Система возвращает релевантные результаты, которые могут включать видео (Video Results), веб-страницы (Web Results) или ответы в дополненной реальности (Augmented Reality Output).

Актуальность для SEO

Крайне высокая. Мультимодальный поиск является стратегическим направлением развития Google (например, Google Lens, Circle to Search, Project Astra/Gemini). Эта заявка, поданная в 2023 году, описывает эволюцию к поиску по видео в реальном времени, интегрированному с аудио. Упоминание моделей типа Multimodal Multitask Unified Model (MUM) и Polymath model подтверждает актуальность технологии.

Важность для SEO

Патент имеет критическое стратегическое значение (90/100) для будущего SEO, особенно для Video SEO. Он демонстрирует механизмы, позволяющие Google глубоко понимать содержание видео (визуальное, звуковое, временное) и использовать его для прямого ответа на сложные мультимодальные запросы. Это подчеркивает критическую важность создания и оптимизации видеоконтента (особенно инструкционного), поскольку он становится основным источником информации для запросов типа «How-To» и устранения неполадок.

Детальный разбор

Термины и определения

Audio Data (Аудиоданные)
Входные данные, полученные с микрофона устройства, связанные с видео. Могут включать голосовые команды пользователя или фоновые звуки.
Audio Signature (Аудиосигнатура)
Цифровое представление (акустический отпечаток) аудиоданных. Используется для идентификации и сопоставления неречевых звуков (например, для диагностики проблем по звуку) путем сравнения с базой данных известных сигнатур.
Automatic Speech Recognition (ASR)
Технология автоматического распознавания речи, используемая для преобразования голосовой команды в текстовый запрос (Text Query).
Frame Selection Algorithm (Алгоритм выбора кадров)
Механизм для выбора подмножества ключевых кадров из видеопотока для повышения эффективности обработки. Может основываться на равномерной выборке или данных о положении/ориентации камеры (spatial relationship).
Image Embeddings (Эмбеддинги изображений)
Векторные представления отдельных кадров видео, сгенерированные ML-моделью.
Multimodal Multitask Unified Model (MUM)
Упоминается в патенте как пример сложной ML-модели, обученной понимать информацию из различных форматов, включая видео и текст.
Polymath model
Тип ML-модели, упомянутый в патенте, способный выполнять широкий спектр задач в разных доменах. Указано, что может обучаться на обучающих видео (tutorial videos).
Temporal Information (Временная информация)
Данные, описывающие изменения и прогрессию контента во времени. Включает данные о движении объектов, последовательности действий и изменениях сцены. Важно для понимания динамики видео.
Video Embeddings (Видео-эмбеддинги)
Векторные представления всего видео (или его сегмента), кодирующие его семантическое содержание. Могут быть получены путем агрегации (например, усреднения) Image Embeddings.
Video Index (Индекс видео)
Структурированное хранилище предварительно вычисленных Video Embeddings для большого корпуса видео, позволяющее выполнять быстрый поиск по сходству.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод мультимодального поиска.

  1. Система получает видеоданные (последовательность кадров) с камеры устройства.
  2. Система получает связанные аудиоданные.
  3. Используя ML-модели, система обрабатывает кадры для генерации Video Embeddings.
  4. Система определяет один или несколько видеорезультатов на основе комбинации Video Embeddings и аудиоданных.
  5. Результаты передаются на устройство пользователя.

Claim 2 (Зависимый от 1): Дополняет процесс генерацией и использованием временной информации.

  • ML-модели генерируют Temporal Information, связанную с последовательностью кадров.
  • Определение видеорезультатов дополнительно основывается на этой Temporal Information.

Claim 3 (Зависимый от 1): Уточняет способ обработки аудио через ASR.

  • Аудиоданные обрабатываются с помощью ASR для генерации Text Query.
  • Определение видеорезультатов дополнительно основывается на этом текстовом запросе.

Claim 4 и 5 (Зависимые от 1): Детализируют процесс генерации Video Embeddings.

  • Используется Frame Selection Algorithm для выбора подмножества кадров (Claim 4).
  • Video Embeddings могут быть получены путем усреднения (averaging) Image Embeddings выбранных кадров (Claim 5).

Claim 12 и 13 (Зависимые от 1): Описывают механизм использования аудиосигнатур (анализ звука).

  1. Система генерирует входную Audio Signature из аудиоданных (Claim 12).
  2. Система обнаруживает целевой объект в видео.
  3. Система обращается к базе данных известных аудиосигнатур, связанных с этим объектом.
  4. Система ищет совпадение, сравнивая входную сигнатуру с известными. Если оценка сравнения (comparison score) превышает порог, результаты определяются на основе совпавшей сигнатуры (Claim 13).

Claim 14 и 15 (Зависимые от 1): Описывают процесс поиска и ранжирования.

  • Сгенерированные Video Embeddings сопоставляются (mapping) с индексом видео-эмбеддингов (Claim 14).
  • Эмбеддинги в индексе ранжируются на основе сравнения (поиска по сходству) со сгенерированными эмбеддингами (Claim 15).

Claim 19 (Независимый пункт): Описывает метод со стороны клиентского устройства (On-Device ML).

  1. Устройство захватывает видео и аудио.
  2. Локальные ML-модели обрабатывают аудио и видео одновременно (concurrently) для генерации Video Embeddings.
  3. Эмбеддинги передаются на сервер.
  4. Устройство получает результаты от сервера и отображает их.

Где и как применяется

Изобретение затрагивает несколько ключевых этапов поисковой архитектуры, фокусируясь на взаимодействии пользователя с поиском и интерпретации сложных входных данных.

INDEXING – Индексирование и извлечение признаков
Для работы системы необходимо предварительное создание Video Index. На этом этапе существующий корпус видео (в патенте упоминаются обучающие видео на онлайн-платформах) обрабатывается мультимодальными ML-моделями для извлечения и сохранения Video Embeddings, Temporal Information и Audio Signatures.

QUNDERSTANDING – Понимание Запросов
Основное применение патента. Система меняет способ ввода и понимания запроса. Вместо текста система получает мультимодальный поток (видео + аудио). ML-модели (Polymath model или MUM) используются для интерпретации этого потока и преобразования его в структурированное представление (эмбеддинги, текст, сигнатуры), пригодное для поиска. Обработка может происходить как на сервере, так и на устройстве пользователя.

RANKING – Ранжирование (Этап Retrieval)
На этапе отбора кандидатов система использует сгенерированные Video Embeddings для выполнения поиска по сходству (similarity search) в Video Index. Система сопоставляет эмбеддинг запроса с эмбеддингами в индексе и ранжирует их на основе сравнения.

METASEARCH – Метапоиск и Смешивание
Система может предоставлять не только видеорезультаты, но и веб-результаты (Web Results) или вывод дополненной реальности (Augmented Reality Output), что требует смешивания результатов из разных индексов на основе мультимодального запроса.

Входные данные:

  • Video Data (последовательность кадров с камеры).
  • Audio Data (голосовая команда или фоновый звук с микрофона).
  • Данные сенсоров (позиция и ориентация камеры — могут использоваться в Frame Selection Algorithm).

Выходные данные:

  • Финальный набор результатов поиска (Video Results, Web Results, Augmented Reality Output).

На что влияет

  • Конкретные типы контента: Наибольшее влияние на обучающий (How-To), инструкционный контент, обзоры продуктов, диагностику и руководства по ремонту.
  • Специфические запросы: Влияет на запросы, которые сложно выразить текстом, но легко показать и описать голосом. Информационные запросы, связанные с физическим миром, и запросы на обучение действиям (например, танцы, спорт).
  • Конкретные ниши или тематики: Ремонт автомобилей и техники, DIY, кулинария, фитнес, образование, электронная коммерция (поиск товаров по видео, сравнение товаров на полке).

Когда применяется

  • Триггеры активации: Алгоритм применяется, когда пользователь инициирует мультимодальный поиск через соответствующий интерфейс (например, приложение камеры или Google Lens), предоставляя одновременный ввод видео и аудио для формулирования сложного запроса.
  • Вариативность реализации: Патент описывает два варианта архитектуры: Серверная обработка (устройство отправляет сырые данные на сервер) и Клиентская обработка (On-Device ML, устройство генерирует эмбеддинги локально и отправляет их на сервер).

Пошаговый алгоритм

Этап 1: Получение мультимодальных данных

  1. Система активирует камеру и микрофон пользовательского устройства.
  2. Получение потока видеоданных (последовательность кадров) и синхронизированного потока аудиоданных.

Этап 2: Обработка видео и генерация эмбеддингов

  1. (Опционально) Применение Frame Selection Algorithm для выбора подмножества ключевых кадров (например, на основе равномерной выборки или движения камеры).
  2. Обработка выбранных кадров с помощью ML-моделей (локально или на сервере).
  3. Генерация Image Embeddings для каждого выбранного кадра.
  4. Агрегация Image Embeddings (например, путем усреднения) для создания финальных Video Embeddings.
  5. (Опционально) Генерация Temporal Information на основе анализа последовательности кадров (с использованием техник типа RNN, LSTM или 3D-CNN).

Этап 3: Обработка аудио

Система может использовать один или несколько подходов:

  • Подход A (ASR): Обработка аудиоданных с помощью ASR для генерации Text Query.
  • Подход B (Audio Signature): Обработка аудиоданных для генерации входной Audio Signature (для анализа неречевых звуков).
  • Подход C (Совместная обработка): Ввод сырых аудиоданных совместно с видео в мультимодальную модель (concurrent processing).

Этап 4: Поиск и ранжирование

  1. Формирование итогового поискового запроса, включающего Video Embeddings, обработанные аудиоданные и Temporal Information.
  2. Сопоставление (mapping) Video Embeddings с Video Index (поиск по сходству).
  3. (Если используется Audio Signature) Идентификация объекта в видео и сравнение входной сигнатуры с базой данных известных сигнатур для этого объекта. Поиск совпадения, если comparison score превышает порог.
  4. Ранжирование кандидатов в индексе на основе сравнения с эмбеддингами запроса и другими сигналами.
  5. Определение финального набора результатов.

Этап 5: Предоставление результатов

  1. Передача результатов (видео, веб, AR) на устройство пользователя для отображения.

Какие данные и как использует

Данные на входе

  • Мультимедиа факторы (Видео): Последовательность кадров изображения. Система анализирует визуальное содержание, объекты, сцены, движение и действия, зафиксированные в кадрах.
  • Мультимедиа факторы (Аудио): Аудиопоток. Анализируется как речь пользователя (голосовая команда), так и фоновые звуки (например, шум работающего устройства).
  • Пользовательские и Технические факторы (Сенсоры): Данные о позиции и ориентации камеры могут использоваться для выбора наиболее информативных кадров (Frame Selection Algorithm) и понимания пространственного отношения к объекту (spatial relationship).

Какие метрики используются и как они считаются

Патент фокусируется на использовании векторных представлений и моделей машинного обучения:

  • Video Embeddings / Image Embeddings: Многомерные числовые векторы, кодирующие семантическое значение. Генерируются моделями ML.
  • Temporal Information: Метрики, фиксирующие динамику и изменения контента во времени.
  • Audio Signature: Акустический отпечаток входного звука.
  • Comparison Score (Оценка сравнения): Метрика сходства для аудиосигнатур. Используется пороговое значение (threshold value) для определения совпадения.
  • Ранжирование на основе сходства эмбеддингов (Vector Similarity): Основной механизм поиска. Используется для определения релевантности путем сравнения расстояния между Video Embeddings запроса и эмбеддингами в Video Index.
  • Алгоритмы машинного обучения: Упоминаются Polymath model и Multimodal Multitask Unified Model (MUM). Также упоминаются техники для анализа временной информации (RNN, LSTM и 3D-CNN).
  • Данные для обучения: Модели обучаются на обучающих видео (tutorial videos), публично доступных на онлайн-платформах (в описании также упоминается датасет HowTo 100M).

Выводы

  1. Мультимодальность как стандарт ввода для сложных запросов: Google активно развивает интерфейсы, позволяющие пользователям "показать и спросить" (видео + голос). Это фундаментальный сдвиг от текстового поиска как основного интерфейса для решения практических задач.
  2. Глубокое понимание видео через Embeddings и Temporal Analysis: Ключевыми механизмами понимания контента являются Video Embeddings (что показано) и Temporal Information (что происходит, последовательность действий). Поиск осуществляется путем сравнения векторов в многомерном пространстве (Vector Search).
  3. Анализ аудио за пределами речи: Система гибко обрабатывает аудио: преобразует речь в текст (ASR), анализирует неречевые звуки (Audio Signature) для диагностики или использует аудио совместно с видео в мультимодальной модели.
  4. Критичность инструкционного контента для ИИ: Прямое указание на обучение моделей на tutorial videos подчеркивает стратегическую важность качественного обучающего видеоконтента для Google.
  5. Гибкость архитектуры (On-Device vs Server-Side): Патент предусматривает возможность выполнения ресурсоемкой генерации эмбеддингов как на сервере, так и на устройстве пользователя (Claim 19), что позволяет балансировать между качеством, скоростью и конфиденциальностью.

Практика

Best practices (это мы делаем)

  • Приоритет инструкциональному видеоконтенту (How-To): Создавайте четкие, полезные видео, которые демонстрируют решение проблем или обучение. Так как модели Google обучаются на таком контенте, он имеет высокий потенциал для ранжирования в ответ на мультимодальные запросы.
  • Обеспечение визуальной четкости и качества: Поскольку система полагается на Video Embeddings, генерируемые из кадров, видео должно быть высокого качества, с хорошим освещением и четким отображением объектов. Это необходимо для точного распознавания.
  • Оптимизация под темпоральное понимание (Temporal Information): Структурируйте видео логично. Для инструкций показывайте четкую последовательность шагов. ML-модели, анализирующие временную информацию, лучше поймут контент с ясной прогрессией действий.
  • Синхронизация аудио и видеоряда: Убедитесь, что закадровый голос или звук на видео точно соответствует тому, что показано на экране. Мультимодальные модели обрабатывают эти потоки совместно (concurrently), и соответствие между ними критично для правильной интерпретации.
  • Оптимизация для распознавания звуков (Audio Signature): Если контент связан с диагностикой (например, ремонт техники), убедитесь, что ключевые объекты четко видны, а специфические звуки хорошо записываются и не перекрываются фоновой музыкой.

Worst practices (это делать не надо)

  • Низкое качество продакшена: Размытое видео, плохое освещение или некачественный звук снижают способность ML-моделей генерировать точные эмбеддинги и распознавать речь/звуки.
  • Хаотичная структура и визуальная неоднозначность: Видео без четкого фокуса или отсутствие ясной последовательности действий затрудняют анализ Temporal Information и генерацию качественных эмбеддингов.
  • Рассинхронизация модальностей: Использование стоковых видеорядов, которые не соответствуют аудиодорожке, может привести к неправильной интерпретации контента мультимодальными моделями.
  • Игнорирование Video SEO для сложных тем: Полагаться только на текстовый контент для сложных инструкциональных или диагностических тем становится рискованно, так как мультимодальный поиск может предложить более релевантные видеоответы.

Стратегическое значение

Этот патент подтверждает, что мультимодальный поиск — это фундаментальный сдвиг в том, как пользователи взаимодействуют с поиском и как Google понимает мир. Для SEO это означает необходимость перехода от оптимизации текста к оптимизации сущностей, действий и процессов, зафиксированных на видео. Долгосрочная стратегия должна включать инвестиции в качественный видеоконтент, оптимизированный для машинного понимания (векторного поиска), особенно в практических нишах.

Практические примеры

Сценарий 1: Оптимизация видео по ремонту техники (использование Audio Signature)

  • Действие: Создание видео "Диагностика странного шума в стиральной машине [Бренд]".
  • Реализация (по патенту):
    • Четко показать модель машины и область проблемы (для Video Embeddings и идентификации объекта).
    • Записать чистый пример шума (для генерации Audio Signature).
    • Показать процесс диагностики и ремонта (для Temporal Information).
  • Ожидаемый результат: Пользователь, снимающий свою шумную машину и спрашивающий "Что это?", получит это видео в выдаче. Система сопоставит объект (машину) и звук (сигнатуру) с проиндексированным видео.

Сценарий 2: Создание обучающего спортивного контента (использование Temporal Information)

  • Действие: Создание видео "Обучение технике подачи в волейболе".
  • Реализация (по патенту):
    • Съемка движений с разных ракурсов, замедленное воспроизведение ключевых фаз.
    • Четкая демонстрация последовательности движений и биомеханики (для извлечения Temporal Information).
    • Голосовые инструкции, синхронизированные с действиями.
  • Ожидаемый результат: Пользователь, снимающий видео чьей-то подачи и спрашивающий "Как научиться так подавать?", получит это обучающее видео, так как система распознает последовательность движений.

Вопросы и ответы

Что такое Video Embeddings в контексте этого патента и почему они важны для SEO?

Video Embeddings — это сжатые векторные представления семантического содержания видео, сгенерированные ML-моделями. Они являются ядром системы: когда пользователь делает мультимодальный запрос, система генерирует эмбеддинги этого запроса и ищет в Video Index видео с похожими векторами. Для SEO это означает, что видимость контента зависит от того, насколько точно модель сможет интерпретировать содержание вашего видео и сгенерировать релевантные эмбеддинги.

Что такое Temporal Information и как оптимизировать видео под этот фактор?

Temporal Information — это понимание системой того, как контент изменяется во времени (движение, последовательность действий, развитие сюжета). Это критически важно для инструкций и обучающих материалов. Для оптимизации необходимо создавать видео с четкой логической структурой: ясное начало, последовательные шаги и завершение. Хаотичный монтаж или отсутствие прогрессии ухудшают темпоральное понимание.

Как система обрабатывает аудио? Обязательно ли нужен голос пользователя?

Система гибко обрабатывает аудио. Если это голосовая команда, она может быть преобразована в текст с помощью ASR. Однако голос не обязателен. Система может анализировать неречевые звуки с помощью Audio Signature, например, для диагностики шума двигателя. Также аудиоданные могут использоваться совместно с видео напрямую в мультимодальной модели для лучшего понимания контекста.

Что такое Audio Signature и как это может использоваться в поиске?

Audio Signature — это цифровой отпечаток звука. Патент описывает механизм, где система идентифицирует объект на видео (например, автомобиль), а затем сравнивает звук, записанный пользователем, с базой данных известных звуков для этого объекта. Это позволяет диагностировать проблемы (например, определить неисправность по характерному гулу), что открывает новые возможности для поиска решений.

На каких данных обучаются эти мультимодальные модели?

В патенте прямо указано, что модели (например, Polymath model) обучаются с использованием обучающих видео (tutorial videos), публично доступных на платформах обмена видео. Это подчеркивает стратегическую важность создания качественного How-To контента для обеспечения видимости в этой системе.

Влияет ли этот патент на традиционное SEO для веб-страниц?

Напрямую на факторы ранжирования текста он не влияет, но он влияет на то, как пользователь получает ответ. Система может предоставить в ответ не только видео, но и веб-результаты (Web Results) или AR-ответы. Если мультимодальный поиск станет предпочтительным способом для решения практических задач, трафик может перераспределиться от традиционной выдачи к этим новым интерфейсам.

Что такое Frame Selection Algorithm и как он работает?

Это механизм для повышения эффективности обработки. Вместо анализа каждого кадра видео система выбирает подмножество наиболее информативных кадров. Алгоритм может использовать простую логику (например, каждый N-й кадр) или более сложную, основанную на данных сенсоров о положении камеры или четкости изображения целевого объекта.

Где происходит обработка данных — на устройстве или на сервере?

Патент описывает оба варианта. Обработка видео и генерация эмбеддингов могут происходить на серверах Google (повышает качество за счет более мощных моделей) или непосредственно на устройстве пользователя (On-Device ML, повышает скорость и конфиденциальность). Вероятно, будет использоваться гибридный подход.

Что важнее для SEO в контексте этого патента: метаданные видео или его содержание?

Содержание видео становится значительно важнее. Хотя метаданные по-прежнему играют роль, основной механизм поиска основан на анализе самого видеоряда и аудиодорожки через Video Embeddings и Audio Signatures. Система стремится понять, что именно показано и сказано в видео.

Какие типы моделей ИИ используются в этой системе?

Используются передовые мультимодальные модели, способные обрабатывать видео и текст/аудио одновременно. Конкретно названы Polymath Model и Multimodal Multitask Unified Model (MUM). Также для анализа временной информации могут использоваться специализированные архитектуры, такие как RNN, LSTM или 3D-CNN.

Похожие патенты

Как Google объединяет изображение с камеры и одновременный аудиовход (речь и звуки) для выполнения сложных мультимодальных поисковых запросов
Система мультимодального поиска Google, которая одновременно обрабатывает визуальные данные с камеры и аудиоданные с микрофона. Система извлекает визуальные признаки, транскрибирует речь и анализирует звуковые сигнатуры. Это позволяет пользователям задавать контекстные вопросы об объектах в кадре (например, «[Фото платья] + Найди такое же синее») или диагностировать проблемы по звуку и изображению (например, шум неисправного прибора), получая релевантные результаты из веб-поиска, поиска по картинкам или от генеративных моделей.
  • US12346386B2
  • 2025-07-01
  • Мультимедиа

  • Семантика и интент

Как Google использует мультимодальный поиск (изображение + голос) для более точного понимания запросов и ранжирования результатов
Google использует механизм мультимодального поиска, обрабатывая запросы, которые одновременно содержат изображение (например, фото) и аудио (например, голосовое описание или уточнение). Система анализирует визуальные признаки и конвертирует речь в текст, используя совместную модель релевантности для поиска ресурсов (таких как товары или веб-страницы), которые соответствуют обоим типам входных данных.
  • US8788434B2
  • 2014-07-22
  • Мультимедиа

  • Семантика и интент

  • SERP

Как Google использует мультимодальный поиск (текст + изображение) для уточнения запросов и фильтрации видеоконтента
Google использует механизм мультимодального поиска, позволяющий пользователям дополнять текстовые запросы визуальным вводом (например, фотографией). Система анализирует изображение с помощью моделей машинного обучения для распознавания объектов и генерации семантической информации. Эта информация используется либо для создания уточненного составного запроса (composite query), либо для фильтрации исходных результатов поиска путем сопоставления метаданных изображения с метаданными проиндексированного видеоконтента.
  • US20210064652A1
  • 2021-03-04
  • Мультимедиа

  • Индексация

  • Семантика и интент

Как Google планирует использовать аудио-отпечатки для поиска по голосовым запросам без распознавания речи (ASR)
Google разрабатывает технологию для голосового поиска, которая не требует транскрибации речи в текст (ASR). Система создает компактный аудио-отпечаток (фонетический сигнал) из голоса пользователя и напрямую сопоставляет его с токенами документов в общем векторном пространстве. Это позволяет находить релевантные результаты быстрее, эффективнее и с сохранением конфиденциальности пользователя.
  • US20250069593A1
  • 2025-02-27
  • Семантика и интент

  • Мультимедиа

Как Google создает видео-нарезки (Composite Videos) на лету, используя текстовый запрос и анализ аудиодорожек
Google может анализировать аудиодорожки (транскрипты) видео для идентификации конкретных сегментов, где произносятся слова из запроса пользователя. Система автоматически объединяет эти сегменты из разных видео в одно новое сводное видео (Composite Video). Для выбора сегментов используются метрики релевантности, популярности и свежести исходного контента.
  • US9672280B2
  • 2017-06-06
  • Мультимедиа

  • Индексация

  • Семантика и интент

Популярные патенты

Как Google персонализирует Sitelinks и сниппеты, используя интересы пользователя и тренды для прямого перехода на нужные страницы
Google использует механизм для динамического обогащения результатов поиска, особенно при навигационных запросах. Система анализирует сущности (продукты, категории) на целевом сайте и сравнивает их с известными интересами пользователя и текущими трендами. При совпадении Google отображает персонализированные прямые ссылки (например, динамические Sitelinks) на эти конкретные разделы или товары прямо в выдаче.
  • US20140188927A1
  • 2014-07-03
  • Персонализация

  • SERP

  • Ссылки

Как Google использует временной распад и анализ трендов кликов для корректировки ранжирования и борьбы со стагнацией выдачи
Google применяет механизмы для предотвращения «залипания» устаревших результатов в топе выдачи. Система анализирует возраст пользовательских кликов и снижает вес старых данных (временной распад), отдавая приоритет свежим сигналам. Кроме того, система выявляет документы с ускоряющимся трендом кликов по сравнению с фоном и повышает их в выдаче, улучшая актуальность результатов.
  • US9092510B1
  • 2015-07-28
  • Свежесть контента

  • Поведенческие сигналы

  • SERP

Как Google использует личные данные пользователя (User Model) для понимания его намерений и персонализации выдачи
Google создает персональную модель пользователя (User Model) на основе его личного контента (письма, контакты, документы). Эта модель используется для определения неявного намерения пользователя (личный поиск или общий) и для аннотирования запроса контекстом из личных данных, чтобы предоставить точные персонализированные результаты.
  • US20150012558A1
  • 2015-01-08
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует данные о посещаемости, уникальных пользователях и длине URL для ранжирования документов
Фундаментальный патент Google, описывающий использование поведенческих факторов в ранжировании. Система рассчитывает Usage Score на основе частоты посещений и количества уникальных пользователей, фильтруя ботов и взвешивая данные по географии. Этот балл комбинируется с текстовой релевантностью (IR Score) и длиной URL (Path Length Score) для определения итоговой позиции документа.
  • US8001118B2
  • 2011-08-16
  • Поведенческие сигналы

  • SERP

Как Google ранжирует и рекомендует источники контента (каналы, профили) на основе внутренних ссылок, аннотаций и кликов по ним
Google использует механизм для ранжирования и рекомендации источников контента (например, YouTube-каналов или профилей) внутри платформ. Система анализирует, как часто источник упоминается в аннотациях, описаниях и комментариях к контенту, который просматривал пользователь. Ключевым фактором ранжирования является не только количество упоминаний, но и общее число кликов (активаций) по этим ссылкам.
  • US9235625B2
  • 2016-01-12
  • Ссылки

  • Поведенческие сигналы

  • Мультимедиа

Как Google использует историю местоположений для определения физической активности пользователя и гиперперсонализации поиска
Google анализирует историю перемещений пользователя (местоположения и скорость), чтобы определить его текущую физическую активность (например, поход, шоппинг) и способ передвижения (например, пешком, на автобусе). Эта информация используется для радикальной персонализации: система корректирует ранжирование результатов, изменяет запросы и формирует подсказки, чтобы они соответствовали контексту реальных действий пользователя.
  • US20150006290A1
  • 2015-01-01
  • Поведенческие сигналы

  • Персонализация

  • Local SEO

Как Google определяет географическую зону релевантности бизнеса на основе реального поведения пользователей (Catchment Areas)
Google определяет уникальную "зону охвата" (Catchment Area) для локального бизнеса, анализируя, из каких географических точек пользователи кликали на его результаты в поиске. Эта динамическая зона заменяет фиксированный радиус и используется для фильтрации кандидатов при локальном поиске, учитывая известность бренда, категорию бизнеса и физические препятствия.
  • US8775434B1
  • 2014-07-08
  • Local SEO

  • Поведенческие сигналы

Как Google комбинирует визуальное сходство и поведение пользователей для переранжирования поиска по картинкам
Google использует механизм для перекрестной проверки релевантности изображений, объединяя поведенческие сигналы (клики) с визуальным анализом. Если изображение часто кликают и оно визуально похоже на другие релевантные изображения по запросу (совместная релевантность), его рейтинг агрессивно повышается. Если оно редко кликается и визуально отличается (совместная нерелевантность), его рейтинг понижается. Это защищает выдачу от кликбейта.
  • US8209330B1
  • 2012-06-26
  • Поведенческие сигналы

  • SERP

  • Мультимедиа

Как Google использует данные о совместном посещении сайтов (Co-Visitation) для персонализации и повышения релевантности выдачи
Google использует поведенческие данные сообщества пользователей для определения тематической связи между сайтами. Если пользователи часто посещают Сайт А и Сайт Б в течение короткого промежутка времени (Co-Visitation), система создает "Вектор повышения" (Boost Vector). Этот вектор используется для повышения в выдаче тематически связанных сайтов, основываясь на истории посещений пользователя или контексте текущего сайта, улучшая персонализацию и релевантность.
  • US8874570B1
  • 2014-10-28
  • Поведенческие сигналы

  • Персонализация

  • SERP

Как Google предсказывает намерения пользователя и выполняет поиск до ввода запроса (Predictive Search)
Google использует механизм для прогнозирования тем, интересующих пользователя в конкретный момент времени, основываясь на его истории и контексте. При обнаружении сигнала о намерении начать поиск (например, открытие страницы поиска), система проактивно выполняет запрос по предсказанной теме и мгновенно показывает результаты или перенаправляет пользователя на релевантный ресурс.
  • US8510285B1
  • 2013-08-13
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

seohardcore