Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует мультимодальные сигналы и контекст устройства для идентификации контента, воспроизводимого поблизости

    CONTEXTUAL QUERYING OF CONTENT RENDERING ACTIVITY (Контекстное формирование запросов об активности воспроизведения контента)
    • US20240303267A1
    • Google LLC
    • 2024-09-12
    • 2022-08-22
    2022 Мультимедиа Патенты Google

    Патент Google описывает систему для идентификации контента, воспроизводимого на одном устройстве (например, умной колонке), с помощью другого устройства (например, смартфона). Система объединяет локальные контекстные сигналы (такие как изображение колонки или аудиозапись) с данными другой модальности (например, историей воспроизведения аккаунта), чтобы точно определить контент и предоставить связанную информацию пользователю.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему точной идентификации и взаимодействия с контентом, который воспроизводится на одном устройстве (Output Device, например, умной колонке), когда пользователю удобнее взаимодействовать с ним через другое устройство (Client Device, например, смартфон). Существующие методы, полагающиеся на одну модальность (например, только аудиозапись), часто неточны в шумной среде или при наличии нескольких источников звука (commingled audio signals). Изобретение улучшает точность и удобство, позволяя быстро получить информацию о воспроизводимом контенте в рамках экосистемы устройств.

    Что запатентовано

    Запатентована система для генерации и обработки запросов о воспроизводимом контенте с использованием мультимодального подхода. Система требует получения как минимум двух входных сигналов разных модальностей. Первый сигнал предоставляет локальный контекст (например, изображение или аудиозапись), полученный с датчиков клиентского устройства. Второй сигнал может включать другие локальные данные или данные экосистемы пользователя (например, историю воспроизведения аккаунта). Эти сигналы комбинируются для формирования точного запроса (content query) и извлечения связанного контента.

    Как это работает

    Патент описывает внутренние процессы Google без прямых рекомендаций для SEO. Система использует мультимодальный подход для понимания контекста:

    • Сбор локального контекста: Пользователь использует Client Device (смартфон, носимое устройство), чтобы захватить local context signals об Output Device. Это может быть изображение устройства, аудиозапись или данные о близости.
    • Сбор дополнительных данных: Система получает второй сигнал другой модальности. Например, Account Data, включающие историю воспроизведения (playback history) устройств, связанных с аккаунтом.
    • Мультимодальное объединение и устранение неоднозначности: Система объединяет сигналы. Например, если пользователь фотографирует умную колонку (Модальность 1), система идентифицирует ее и сверяет это с недавней историей воспроизведения этой колонки (Модальность 2). Это позволяет точно определить контент, даже если присутствуют другие источники звука.
    • Генерация запроса и ответ: Формируется content query, и система извлекает соответствующий элемент контента (например, информацию о песне) и предоставляет его на Client Device.

    Актуальность для SEO

    Высокая. Мультимодальное понимание (использование ИИ для интерпретации изображений, звука и контекста одновременно) и взаимодействие между устройствами в рамках экосистемы (например, Google Assistant, Google Home/Nest) являются ключевыми направлениями развития Google. Патент описывает конкретный механизм для улучшения бесшовного переноса контекста между устройствами.

    Важность для SEO

    Влияние на традиционные стратегии SEO минимальное (1/10). Этот патент не описывает алгоритмы ранжирования веб-индекса, краулинга или индексирования сторонних сайтов. Он фокусируется исключительно на пользовательском опыте (UX), взаимодействии внутри экосистемы устройств пользователя и обработке мультимодальных входных данных для идентификации конкретных медиа-элементов (песен, новостей). Он не дает прямых рекомендаций для SEO-специалистов по оптимизации веб-контента.

    Детальный разбор

    Термины и определения

    Account Data (Данные аккаунта)
    Информация, связанная с учетной записью пользователя, включающая активность подключенных устройств и историю воспроизведения (playback history или schedule of audio or video playback).
    Client Device (Клиентское устройство)
    Устройство, используемое для сбора локального контекста и получения информации о контенте (например, смартфон, носимое устройство, AR-очки).
    Content Query (Запрос контента)
    Запрос, сгенерированный системой на основе мультимодальных входных сигналов для извлечения определенного элемента контента.
    Content Rendering Event (Событие воспроизведения контента)
    Процесс воспроизведения контента (аудио, видео) на Output Device.
    Local Context Signals (Сигналы локального контекста)
    Данные, полученные с датчиков Client Device, описывающие окружение и Output Device. Включают изображения, аудиозаписи, данные о близости (proximity data), а также физические реакции пользователя (например, взгляд (glance) или движение).
    Modality (Модальность)
    Тип или источник входных данных (например, аудио, изображение, текст, данные датчиков движения, данные аккаунта).
    Output Device (Устройство вывода)
    Устройство, которое воспроизводит контент (например, умная колонка, смарт-телевизор).
    Visual Query (Визуальный запрос)
    Запрос, сгенерированный на основе обработки изображения, часто с использованием machine-learned image processor.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод обработки запросов об активности воспроизведения контента. Ядро изобретения — обязательное использование как минимум двух разных модальностей.

    1. Система получает первый входной сигнал (first input signal) первой модальности. Этот сигнал получен датчиками Client Device и предоставляет local context signals о событии воспроизведения на Output Device.
    2. Система получает второй входной сигнал (second input signal) второй модальности, отличной от первой.
    3. На основе первого и второго сигналов система генерирует content query.
    4. На основе content query система извлекает элемент контента, связанный с событием воспроизведения.

    Claim 2, 3, 7 (Зависимые): Уточняют природу сенсорных сигналов. Первый сигнал может быть изображением Output Device (Claim 2) или аудиозаписью (Claim 3). Также возможна комбинация, где первый сигнал — изображение, а второй — аудиозапись (Claim 7).

    Claim 4, 5, 6 (Зависимые): Уточняют природу контекстных или экосистемных сигналов. Второй сигнал может включать данные об активности аккаунта (Claim 4), историю/расписание воспроизведения устройств аккаунта (Claim 5) или данные о близости (proximity data) между устройствами (Claim 6).

    Claim 8, 9 (Зависимые): Описывают механизм визуального запроса. Система генерирует visual query с помощью machine-learned image processor на основе изображения (Claim 8). Итоговый запрос формируется путем кросс-референцирования этого visual query с другими контекстными подсказками, например, аудио (Claim 9).

    Claim 12 (Зависимый): Описывает функцию дисамбигуации. Первый и второй сигналы кросс-референцируются для устранения неоднозначности смешанных аудиосигналов (disambiguate commingled audio signals), позволяя изолировать контент от конкретного устройства.

    Claim 23, 24 (Зависимые): Описывают аспект безопасности. Система аутентифицирует content query путем кросс-референцирования local context signals (указывающих на идентификатор Output Device) с известными идентификаторами, связанными с пользователем Client Device.

    Где и как применяется

    Этот патент не связан напрямую с основными этапами веб-поиска (Crawling, Indexing, Ranking веб-страниц). Он описывает систему взаимодействия с пользователем и обработки запросов в реальном времени в рамках экосистемы устройств.

    QUNDERSTANDING – Понимание Запросов
    Это основной этап применения патента. Система должна интерпретировать неявный запрос пользователя, выраженный через мультимодальные действия (например, фотографирование колонки или взгляд на нее через AR-очки).

    1. Сбор контекста: Система собирает local context signals (изображение, аудио, данные датчиков) и Account Data (история воспроизведения, связанные устройства).
    2. Мультимодальная интерпретация: Система обрабатывает эти сигналы (например, используя machine-learned image processor) и объединяет их для определения намерения пользователя (User intent) и идентификации целевого контента и устройства.
    3. Формирование запроса: Генерируется структурированный content query для извлечения нужной информации из внутренних баз данных контента (не веб-индекса).

    Входные данные:

    • Сигнал Модальности 1 (например, изображение Output Device или аудиозапись).
    • Сигнал Модальности 2 (например, Playback History из Account Data или данные о близости).
    • Идентификаторы пользователя и устройств.

    Выходные данные:

    • Сгенерированный content query.
    • Извлеченный элемент контента (content item), предоставляемый на Client Device.

    На что влияет

    Патент влияет преимущественно на взаимодействие пользователя с контентом в рамках экосистемы подключенных устройств.

    • Типы контента: В первую очередь влияет на медиаконтент, который воспроизводится на устройствах вывода — аудио (музыка, новости, подкасты) и видео.
    • Специфические запросы: Влияет на неявные запросы идентификации контента (например, «Что это за песня?»), выраженные через действия (фотографирование, взгляд), а не слова.
    • Устройства: Влияет на взаимодействие между смартфонами, носимыми устройствами (включая AR/VR) и умными домашними устройствами.

    Когда применяется

    Алгоритм применяется в ситуациях, когда пользователь хочет получить информацию о контенте, воспроизводимом поблизости, используя контекстные сигналы.

    • Триггеры активации: Активация может быть явной (пользователь запускает приложение камеры и фотографирует устройство) или неявной (носимое устройство фиксирует взгляд пользователя (glance) или физическую реакцию на контент, что интерпретируется как Local interaction event).
    • Условия: Требуется наличие как минимум двух сигналов разных модальностей. Также часто требуется, чтобы устройства были связаны с одним аккаунтом или группой аккаунтов для доступа к истории воспроизведения и аутентификации.

    Пошаговый алгоритм

    Процесс контекстного формирования запроса:

    1. Получение первого входного сигнала: Система получает сигнал первой модальности от Client Device. Этот сигнал содержит local context signals (например, изображение колонки).
    2. Получение второго входного сигнала: Система получает сигнал второй модальности (например, историю воспроизведения устройств аккаунта или аудиозапись).
    3. Обработка и анализ сигналов: Сигналы обрабатываются. Например, изображение может быть обработано с помощью machine-learned image processor для идентификации Output Device и генерации visual query.
    4. Кросс-референцирование и устранение неоднозначности: Система сверяет данные из разных модальностей. Например, идентифицированное устройство сверяется с историей воспроизведения. Если присутствуют смешанные аудиосигналы, визуальный контекст используется для фокусировки на целевом устройстве (дисамбигуация).
    5. Аутентификация (Опционально): Система может проверить, связан ли идентифицированный Output Device с аккаунтом пользователя, используя локальный контекст как фактор аутентификации.
    6. Генерация Content Query: На основе объединенных и верифицированных данных генерируется content query.
    7. Извлечение контента: Content query выполняется над базой данных контента.
    8. Предоставление результата: Извлеченный элемент контента передается на Client Device для воспроизведения, возможно, в интерфейсе дополненной (AR) или виртуальной (VR) реальности.

    Какие данные и как использует

    Данные на входе

    Патент фокусируется на использовании контекстных и пользовательских данных, полученных с устройств. Традиционные SEO-факторы (контентные, ссылочные) не упоминаются.

    • Мультимедиа факторы (Сенсорные данные):
      • Изображения или видео Output Device, полученные с камеры Client Device.
      • Аудиозаписи воспроизводимого контента или окружающей среды, полученные с микрофона.
    • Пользовательские и Технические факторы (Экосистема):
      • Account Data: Данные учетной записи пользователя.
      • Playback History (История воспроизведения): История контента на связанных устройствах.
      • Идентификаторы устройств и аккаунта.
    • Географические и Сенсорные факторы (Локальный контекст):
      • Proximity data: Данные о близости между устройствами (Bluetooth, Wi-Fi strength, UWB, GPS, LIDAR).
      • Данные датчиков движения (акселерометр, гироскоп) для обнаружения физической реакции пользователя или взгляда (glance).

    Какие метрики используются и как они считаются

    Патент не детализирует конкретные метрики или формулы ранжирования, но упоминает следующие методы обработки данных:

    • Машинное обучение: Использование machine-learned image processor для анализа изображений, распознавания Output Device и генерации visual query.
    • Кросс-референцирование (Cross-referencing): Сопоставление данных из разных модальностей (например, визуального запроса с аудио-подсказками или историей воспроизведения) для подтверждения идентификации контента и устранения неоднозначности.
    • Аутентификация: Сравнение идентификаторов устройств, полученных из локального контекста, с известными идентификаторами в Account Data.
    • Определение намерения (User Intent): Анализ Local Context Signals для определения намерения пользователя взаимодействовать с контентом.

    Выводы

    Патент чисто технический и описывает внутренние процессы Google, связанные с обработкой мультимодальных сигналов и улучшением пользовательского опыта в экосистеме устройств. Он не дает прямых рекомендаций для SEO.

    1. Мультимодальность как ключ к пониманию контекста: Патент подчеркивает стратегию Google по использованию комбинации различных типов данных (изображение, аудио, данные аккаунта, сенсоры) для точной интерпретации окружения пользователя и его намерений. Ценность заключается в их объединении (кросс-референцировании).
    2. Экосистема устройств и история пользователя: Система в значительной степени полагается на данные, собранные в рамках экосистемы пользователя (Account Data, Playback History). Это позволяет персонализировать ответы и обеспечивать точность идентификации.
    3. Устранение неоднозначности в сложных средах: Ключевым преимуществом является способность системы различать источники контента в шумной среде (disambiguate commingled audio signals). Визуальный контекст используется для фильтрации нерелевантных аудиосигналов или историй воспроизведения.
    4. Безопасность через контекст: Локальный контекст (например, изображение устройства) может использоваться как фактор аутентификации для доступа к данным аккаунта, повышая безопасность кросс-девайсного взаимодействия.
    5. Отсутствие влияния на веб-ранжирование: Механизмы, описанные в патенте, не влияют на то, как веб-сайты ранжируются в органическом поиске. Они касаются идентификации уже воспроизводимого медиаконтента.

    Практика

    Патент является инфраструктурным и ориентирован на UX взаимодействия с устройствами. Он не дает практических выводов для применения в работе по SEO продвижению сайтов.

    Best practices (это мы делаем)

    На основе данного патента нет конкретных рекомендаций для SEO-оптимизации веб-сайтов.

    Для общей стратегии контент-маркетинга можно отметить:

    • Доступность медиаконтента на платформах Google: Убедитесь, что ваш аудио и видео контент доступен на платформах, интегрированных с умными устройствами (YouTube, Google Podcasts). Это повышает вероятность того, что система сможет его идентифицировать через описанный механизм.
    • Качественные метаданные: Наличие точных метаданных для аудио и видео критически важно для его идентификации через playback history.

    Worst practices (это делать не надо)

    Патент не выявляет каких-либо SEO-тактик как неэффективных или опасных, так как он не связан с ранжированием или пессимизацией веб-сайтов.

    Стратегическое значение

    Стратегическое значение патента заключается в демонстрации того, как Google использует свою экосистему устройств и данные аккаунта для создания бесшовного пользовательского опыта (Ambient Computing). Он подчеркивает важность контекста, выходящего за рамки текстового запроса. Для долгосрочной стратегии это сигнал о том, что контент будет все чаще обнаруживаться через нетрадиционные, контекстные и мультимодальные интерфейсы, а не только через ввод ключевых слов в строку поиска.

    Практические примеры

    Практических примеров применения данного патента в работе SEO-специалиста нет.

    Пример работы технологии с точки зрения пользователя:

    Сценарий: Идентификация музыки в шумной комнате

    1. Воспроизведение: В комнате играют два устройства: умная колонка (Output Device 1) воспроизводит музыку, а телевизор (Output Device 2) транслирует новости. Среда зашумлена (commingled audio signals).
    2. Сбор контекста (Модальность 1): Пользователь хочет узнать название песни на колонке. Он открывает камеру на смартфоне (Client Device) и направляет ее на колонку. Система захватывает изображение.
    3. Анализ экосистемы (Модальность 2): Система анализирует Account Data и получает историю воспроизведения (Playback History) обоих устройств.
    4. Объединение и Дисамбигуация: Система использует machine-learned image processor для подтверждения, что на фото именно колонка. Используя этот визуальный контекст, система игнорирует историю воспроизведения телевизора и фокусируется на истории колонки.
    5. Результат: На экране смартфона появляется карточка с названием песни, которая играет на колонке.

    Вопросы и ответы

    Влияет ли этот патент на ранжирование сайтов в Google Поиске?

    Нет, этот патент не описывает алгоритмы ранжирования веб-страниц. Он посвящен механизму идентификации медиаконтента (например, музыки или новостей), воспроизводимого на устройствах пользователя, с использованием мультимодальных сигналов. Он не затрагивает краулинг, индексирование или оценку качества сторонних веб-сайтов.

    Что означает «мультимодальность» в контексте этого патента?

    Мультимодальность означает обязательное использование как минимум двух различных типов входных данных для выполнения задачи. Например, это может быть комбинация изображения устройства вывода (Модальность 1) и истории воспроизведения аккаунта (Модальность 2), или комбинация аудиозаписи (Модальность 1) и данных о близости устройства (Модальность 2).

    Зачем Google объединять изображение колонки и историю воспроизведения?

    Это решает несколько проблем. Во-первых, это повышает точность: если в комнате шумно или играют несколько устройств (commingled audio signals), изображение позволяет системе понять, какое именно устройство интересует пользователя (дисамбигуация). Во-вторых, это обеспечивает безопасность: сверка идентификатора устройства с данными аккаунта подтверждает, что запрос исходит от авторизованного пользователя.

    Может ли эта технология использоваться для анализа контента на моем сайте?

    Нет, технология предназначена для анализа Content Rendering Activity на физических устройствах вывода (колонки, телевизоры). Она не применяется для анализа контента, размещенного на веб-сайтах. Система идентифицирует уже известные медиа-элементы (песни, подкасты), которые транслируются через эти устройства.

    Какое значение этот патент имеет для SEO-специалистов?

    Для традиционного SEO значение минимально. Патент не дает прямых рекомендаций по оптимизации. Однако он важен для понимания того, как развиваются технологии поиска Google в сторону контекстного, мультимодального взаимодействия. Это напоминает, что поиск выходит за рамки текстового ввода.

    Что такое Local Context Signals?

    Это данные, собранные датчиками клиентского устройства в реальном времени, которые описывают текущую ситуацию. К ним относятся изображения с камеры, аудио с микрофона, данные GPS, сигналы для определения близости (proximity data), а также данные акселерометра, которые могут указывать на реакцию пользователя (например, взгляд или движение) на контент.

    Патент упоминает носимые устройства и AR/VR. Как они используются?

    Носимые устройства (например, AR-очки) могут выступать в роли клиентского устройства. Они могут захватывать контекст более естественно — например, фиксируя взгляд пользователя (glance) на устройстве вывода, что интерпретируется как запрос информации. Результат может быть затем отображен непосредственно в интерфейсе дополненной (AR) или виртуальной (VR) реальности.

    Использует ли Google машинное обучение в этом процессе?

    Да. Патент явно упоминает использование machine-learned image processor. Эта модель используется для анализа изображений, полученных с клиентского устройства, чтобы распознать устройство вывода и сгенерировать визуальный запрос (visual query).

    Является ли этот патент развитием технологии Google Lens?

    Технологически он связан. Google Lens использует визуальный ввод для инициирования поиска. Этот патент расширяет эту концепцию, добавляя обязательную вторую модальность (например, данные аккаунта или аудио) для повышения точности и аутентификации в специфическом контексте экосистемы устройств пользователя.

    На каких этапах поиска работает эта технология?

    Она работает исключительно на этапе Понимания Запросов (Query Understanding), а точнее, на этапе Генерации Запроса. Она определяет, что именно ищет пользователь на основе контекста и мультимодальных входов, до того как запрос будет отправлен в системы ранжирования или извлечения контента.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.