Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует машинное обучение для автоматического определения и объяснения ключевых сущностей во время просмотра видео

    ENTITY CARDS INCLUDING DESCRIPTIVE CONTENT RELATING TO ENTITIES FROM A VIDEO (Карточки сущностей, включающие описательный контент, относящийся к сущностям из видео)
    • US20240370494A1
    • Google LLC
    • 2024-11-07
    • 2022-12-30
    2022 Knowledge Graph Мультимедиа Патенты Google Семантика и интент

    Google патентует систему для улучшения понимания видеоконтента. Используя машинное обучение, система анализирует транскрипцию видео и прогнозирует, какие сущности зрители, скорее всего, захотят найти в поиске. Когда такая сущность упоминается, система синхронно показывает описательную «Карточку сущности» (Entity Card), позволяя пользователю получить контекст, не покидая видеоплатформу.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему прерывания пользовательского опыта при просмотре сложного или нового видеоконтента. Когда зрители сталкиваются с незнакомыми терминами, концепциями или сущностями, они вынуждены останавливать воспроизведение и искать информацию вручную. Это ухудшает вовлеченность, может быть затруднено сложностью написания термина и приводит к отказу от просмотра. Изобретение направлено на удержание пользователя путем предоставления необходимого контекста на лету.

    Что запатентовано

    Запатентована система автоматической идентификации, ранжирования и контекстного отображения информации о сущностях, упомянутых в видео. Ключевым элементом является использование ресурса машинного обучения (Machine Learning Resource) для предсказания того, какие сущности пользователь, скорее всего, захочет изучить (most likely to be searched for). Для этих сущностей генерируются описательные карточки (Entity Cards), которые показываются синхронно с их упоминанием в видео.

    Как это работает

    Система работает в несколько этапов:

    • Анализ видео: Аудиодорожка видео преобразуется в текст (Transcription). Текст сопоставляется с Графом Знаний (Knowledge Graph) для выявления кандидатов в сущности.
    • Прогнозирование и Ранжирование (ML): Machine Learning Resource ранжирует сущности. Модель обучается на реальных данных о том, что пользователи искали после просмотра видео (observational data). Учитываются такие факторы, как релевантность теме и специфичность (используя TF-IDF).
    • Генерация карточек: Для топовых сущностей создаются Entity Cards с описанием и изображениями из внешних источников (External Content).
    • Синхронное отображение: Во время воспроизведения видео, когда сущность упоминается (timepoint), соответствующая карточка отображается в интерфейсе без остановки видео.

    Актуальность для SEO

    Высокая. Патентная заявка опубликована недавно (2024 год) и отражает стратегический фокус Google на глубоком семантическом понимании видеоконтента и улучшении пользовательского опыта на видеоплатформах (например, YouTube). Технологии извлечения сущностей и прогнозирования интента активно развиваются.

    Важность для SEO

    Патент имеет важное значение (7/10), особенно для Video SEO и стратегии работы с сущностями. Он не описывает ранжирование веб-поиска, но раскрывает механизмы Google для анализа содержания видео. Это напрямую влияет на то, насколько глубоко контент будет понят системой. Кроме того, патент описывает механизм удовлетворения информационного интента прямо в видеоплеере, что может снижать трафик по простым запросам из традиционного поиска (усиление тренда Zero-Click).

    Детальный разбор

    Термины и определения

    Entity (Сущность)
    Концепция, термин, тема, объект, событие или персона, упомянутые в видео и связанные с Knowledge Graph.
    Entity Card (Карточка сущности)
    Элемент UI, содержащий описательный контент (descriptive content) о сущности, включая текст, изображение и атрибуцию источника. Отображается синхронно с видео.
    Knowledge Graph (Граф знаний)
    Структурированная база данных сущностей. Используется для идентификации кандидатов путем сопоставления текста транскрипции с узлами графа.
    Machine Learning Resource (Ресурс машинного обучения)
    ML-модель, используемая для ранжирования сущностей. Основная задача – определить сущности, которые most likely to be searched for (скорее всего будут искаться) пользователем.
    Observational Data (Данные наблюдений)
    Данные о реальных поисковых запросах (actual search queries), которые пользователи выполняли во время или после просмотра видео. Используются как обучающие данные (Training Data) для ML-модели.
    TF-IDF (Term Frequency-Inverse Document Frequency)
    Статистическая мера, используемая для оценки «широты» (broadness) сущности по всему корпусу видео. Помогает отфильтровать слишком общие термины.
    Transcription (Транскрипция)
    Текстовый транскрипт аудиодорожки видео, обычно получаемый через автоматическое распознавание речи (ASR).

    Ключевые утверждения (Анализ Claims)

    Примечание: US20240370494A1 является публикацией заявки. Анализ основан на Claim 1 и описанных методах (Description).

    Claim 1 (Независимый пункт): Описывает основной метод работы системы.

    1. Система получает видео.
    2. Применяются одна или несколько моделей машинного обучения (machine-learned models) для:
      1. Идентификации множества сущностей из видео.
      2. Ранжирования этого множества сущностей.
      3. Генерации, на основе ранга, первой Entity Card с описательным контентом. Первая сущность соответствует сущности с наивысшим рангом.
    3. Видео предоставляется для отображения.
    4. Первая Entity Card предоставляется для отображения *во время* воспроизведения видео и *в ответ* на то, что сущность была упомянута в видео.

    Техническая интерпретация ключевых механизмов (на основе Description):

    Механизм обучения ML: Ядром системы является способность учиться на реальном поведении. Machine Learning Resource обучается на Training Data, полученных из observational data — реальных поисковых запросов пользователей, выполненных в ответ на просмотр видео. Это позволяет системе точно прогнозировать информационные потребности.

    Механизм ранжирования сущностей: Ранжирование определяет, для каких сущностей создавать карточки. Оно основано на комплексе факторов:

    • Релевантность сущности общей теме видео.
    • Релевантность сущности другим сущностям в том же видео (контекст).
    • Количество упоминаний в видео.
    • Широта (broadness) сущности, определяемая по корпусу видео (упоминается использование сигнала TF-IDF). Это позволяет отсеивать слишком общие термины.

    Где и как применяется

    Изобретение применяется в рамках видеоплатформ и затрагивает этапы обработки контента и прогнозирования поведения пользователей.

    INDEXING – Индексирование и извлечение признаков
    Основная обработка происходит на этом этапе (офлайн):

    • Транскрипция: Обработка аудио (ASR) для получения текста.
    • Извлечение Признаков (NLP): Ассоциация текста с Knowledge Graph для идентификации кандидатов.
    • Расчет Сигналов: Вычисление метрик (частота, TF-IDF, релевантность теме).
    • Ранжирование Сущностей (ML): Применение Machine Learning Resource для ранжирования сущностей.
    • Генерация Контента: Создание Entity Cards для топовых сущностей.

    QUNDERSTANDING – Понимание Запросов (Имплицитное)
    Система анализирует логи поведения (observational data) — какие запросы пользователи вводят при просмотре видео. Эти данные используются для обучения Machine Learning Resource. Система прогнозирует будущие запросы пользователя.

    METASEARCH – Метапоиск и Смешивание (Внутри платформы UI)
    В интерфейсе видеоплеера происходит смешивание основного контента (видео) и дополнительной информации (Entity Cards). Система синхронизирует показ карточек с таймкодами упоминания сущностей в реальном времени.

    Входные данные:

    • Видеофайл (аудиопоток).
    • Данные Knowledge Graph.
    • Логи поисковых запросов пользователей (Observational Data для обучения ML).
    • Корпус видео (для расчета TF-IDF).
    • Внешний контент (для наполнения карточек).

    Выходные данные:

    • Набор ранжированных Entity Cards, ассоциированных с видео.
    • Временные метки (timepoints) для синхронизации.

    На что влияет

    • Типы контента: Наибольшее влияние на образовательный, документальный, технический контент, насыщенный терминами, именами или концепциями.
    • Специфические запросы: Влияет на информационные запросы (Что такое? Кто такой?), возникающие у пользователя во время просмотра. Система стремится удовлетворить этот интент проактивно.
    • Ниши и тематики: Тематики с богатой терминологией (наука, история, технологии, YMYL).

    Когда применяется

    • Условия работы: Алгоритм применяется, если удалось выполнить транскрипцию, идентифицировать сущности из Knowledge Graph и ML-модель предсказала высокую вероятность поиска этих сущностей.
    • Триггеры активации: Отображение карточки активируется в момент (timepoint), когда соответствующая сущность упоминается в видео.

    Пошаговый алгоритм

    Процесс А: Идентификация сущностей и генерация карточек (Офлайн)

    1. Транскрипция: Получение текстовой расшифровки аудиодорожки видео.
    2. Извлечение кандидатов: Ассоциация текста транскрипции с Knowledge Graph для получения набора потенциальных сущностей.
    3. Сбор обучающих данных (для ML): Анализ логов для идентификации сущностей, которые реальные пользователи искали в поиске во время просмотра этого видео (Observational Data).
    4. Расчет весов (Feature Engineering): Оценка кандидатов по критериям:
      • Релевантность теме видео.
      • Релевантность другим сущностям в видео.
      • Широта сущности (используя TF-IDF по корпусу видео; слишком широкие сущности пессимизируются).
      • Количество упоминаний сущности.
    5. Ранжирование и Прогнозирование: Применение обученного Machine Learning Resource для ранжирования сущностей по вероятности того, что пользователь захочет их найти.
    6. Выбор Топ-N сущностей: Отбор наиболее высоко ранжированных сущностей.
    7. Генерация Entity Cards: Получение информации (сводки, изображения) из внешних источников (External Content) и формирование карточек.

    Процесс Б: Отображение на устройстве пользователя (Реальное время)

    1. Воспроизведение видео: Видео отображается в первой части интерфейса.
    2. Мониторинг таймкодов: Система отслеживает текущее время воспроизведения.
    3. Синхронизация: Когда видео достигает момента (timepoint), где упоминается выбранная сущность.
    4. Отображение карточки: Соответствующая Entity Card отображается во второй части интерфейса (например, в карусели или в виде уведомления). Видео продолжает воспроизводиться.
    5. Взаимодействие: Пользователь может взаимодействовать с карточкой или выбрать предложенный поисковый запрос (suggested search query) для перехода на SERP.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы (Видео): Основным источником данных является аудиодорожка видео, преобразованная в транскрипцию (Transcription).
    • Структурные факторы (KG): Данные из Knowledge Graph используются для идентификации и валидации сущностей, упомянутых в тексте.
    • Поведенческие факторы (Обучение): Журналы реальных поисковых запросов пользователей (actual search queries), выполненных во время просмотра видео. Это критически важные данные (Observational Data) для обучения Machine Learning Resource.
    • Внешние данные: Контент из внешних источников (External Content, например, веб-сайты) используется для наполнения Entity Cards.

    Какие метрики используются и как они считаются

    Система использует несколько ключевых сигналов для ранжирования сущностей:

    • Вероятность поиска: Основная метрика, прогнозируемая Machine Learning Resource. Определяет, насколько вероятно, что пользователь захочет найти информацию об этой сущности.
    • Релевантность теме видео: Оценка связи сущности с основной темой видео (упоминается использование query-based salient term signal).
    • Релевантность другим сущностям: Оценка взаимосвязи между сущностями внутри видео (контекст).
    • Широта сущности (Broadness): Определяется с помощью сигнала TF-IDF по всему корпусу видео. Это позволяет отсеять слишком общие сущности.
    • Количество упоминаний: Частота упоминания сущности в видео.

    Выводы

    1. Удержание пользователя (Zero-Click) — стратегическая цель: Основная цель изобретения — удовлетворить информационную потребность пользователя мгновенно, прямо в интерфейсе видеоплеера, предотвращая его уход в традиционный поиск. Это усиливает тренд Zero-Click поиска.
    2. Критическая роль Knowledge Graph: Система полностью полагается на Knowledge Graph для идентификации сущностей. Если сущность отсутствует в KG, карточка не может быть сгенерирована.
    3. Выбор сущностей основан на прогнозировании поведения: Система использует ML, обученный на реальных поисковых запросах пользователей (observational data), чтобы определить, что именно вызывает затруднения или интерес, а не просто показывает карточки для всех распознанных сущностей.
    4. Специфичность сущностей приоритетнее общности: Использование TF-IDF для оценки «широты» (broadness) указывает на то, что система предпочитает специфичные и ключевые для данного видео концепции, а не общие термины.
    5. Важность качества аудио и ASR: Поскольку система полагается на транскрипцию, качество аудиодорожки и четкость произношения ключевых терминов становятся важными факторами для корректной работы механизма.

    Практика

    Best practices (это мы делаем)

    • Оптимизация присутствия в Knowledge Graph: Усилить работу над тем, чтобы ключевые сущности бренда, продуктов или тем были корректно и полно представлены в Knowledge Graph. Это необходимое условие для распознавания сущностей в видеоконтенте.
    • Четкое упоминание сущностей в видео (Video SEO): Обеспечить высокое качество звука и четкую дикцию спикеров. Проговаривать канонические названия ключевых терминов и имен. Это улучшит качество ASR и повысит вероятность корректной идентификации сущностей.
    • Анализ семантики и связей в видео: Структурировать сценарий видео так, чтобы подчеркивать связь между ключевыми сущностями и основной темой. Система учитывает relevance to the topic и relevance to other entities при ранжировании сущностей.
    • Создание авторитетного контента для сводок (Традиционное SEO): Создавать на сайте четкие и лаконичные описания ключевых сущностей. Поскольку система использует внешний контент для наполнения Entity Cards, авторитетные сайты имеют шанс стать источником для этих сводок и получить атрибуцию.

    Worst practices (это делать не надо)

    • Игнорирование качества звука и ASR: Некачественный звук или нечеткая речь приведут к ошибкам транскрипции, из-за чего система не сможет корректно идентифицировать ключевые сущности.
    • Переоптимизация общими терминами: Попытка манипулировать системой путем частого повторения общих терминов неэффективна. Система использует TF-IDF для пессимизации слишком широких (broad) сущностей.
    • Расчет на трафик по простым определениям из видео: Стратегия привлечения трафика по запросам определений терминов, упомянутых в популярных видео, становится менее эффективной. Эта система напрямую нацелена на перехват такого трафика (Zero-Click).
    • Использование неканонических названий: Использование сленга или внутренних синонимов вместо общепринятых названий снижает вероятность корректного сопоставления с Knowledge Graph.

    Стратегическое значение

    Патент подтверждает стратегию Google по интеграции семантических технологий и стремление удовлетворять информационные потребности пользователей мгновенно, часто без перехода на внешние сайты. Для SEO-специалистов это сигнал о смещении фокуса: от традиционного ранжирования к управлению присутствием в Knowledge Graph и оптимизации контента на всех платформах. Видеоплатформы становятся самодостаточными информационными экосистемами, и стратегия должна это учитывать.

    Практические примеры

    Сценарий 1: Оптимизация образовательного видео (VSEO)

    1. Задача: Создать видео о Войне Алой и Белой розы и максимизировать вовлеченность.
    2. Действия согласно патенту:
      • Обеспечить четкое произношение имен (Генрих VI, Ричард Йоркский) и терминов (Ланкастеры, Йорки).
      • Структурировать повествование так, чтобы связи между этими сущностями были очевидны для алгоритма.
    3. Ожидаемый результат: Когда в видео упоминается «Ричард Йоркский», система идентифицирует его как ключевую сущность. В интерфейсе синхронно появляется Entity Card с его портретом и кратким описанием. Пользователь получает контекст, не уходя с видео, что повышает глубину просмотра.

    Сценарий 2: Стать источником для Entity Card (Традиционное SEO)

    1. Задача: Продвижение авторитетного сайта о садоводстве.
    2. Действия согласно патенту: Создать на сайте глоссарий с краткими и точными определениями специфических терминов (например, «стратификация семян»). Оптимизировать эти страницы для попадания в Featured Snippets и распознавания Knowledge Graph.
    3. Ожидаемый результат: Когда пользователь смотрит популярное видео о растениях и там упоминается «стратификация», система генерирует Entity Card. Если сайт признан авторитетным источником, система может использовать определение с этого сайта и поставить атрибуцию (ссылку), повышая узнаваемость бренда.

    Вопросы и ответы

    Как система определяет, для каких именно сущностей нужно показывать карточки?

    Система использует модель машинного обучения, обученную на реальных данных о том, что пользователи искали в поиске во время просмотра видео (observational data). Она предсказывает, какие сущности с наибольшей вероятностью вызовут поисковый интерес. Также учитывается релевантность сущности теме видео и ее специфичность (используя TF-IDF).

    Откуда берется контент для этих Entity Cards?

    Контент (текстовые сводки, изображения) берется из внешних источников (External Content), таких как веб-сайты или сервисы, предоставляющие сводки по темам (например, Wikipedia). Карточки обычно содержат атрибуцию (attribution) источника информации, что дает возможность авторитетным сайтам стать источником этих данных.

    Как это влияет на традиционное SEO и трафик на мой сайт?

    Влияние может быть негативным для сайтов, ориентированных на трафик по простым информационным запросам (определения терминов). Система удовлетворяет потребность пользователя прямо в интерфейсе видеоплеера, снижая вероятность перехода в традиционный поиск. Это усиливает тренд Zero-Click поиска.

    Какова роль Knowledge Graph в этом патенте?

    Knowledge Graph играет центральную роль. На первом этапе анализа видео система обязательно пытается связать текст из транскрипции с сущностями в Knowledge Graph. Если сущность не идентифицирована в KG, она не сможет стать кандидатом для показа в Entity Card.

    Что такое TF-IDF в контексте этого патента и зачем он используется?

    TF-IDF используется для оценки «широты» (broadness) сущности по всему корпусу видео. Если сущность встречается очень часто во многих разных видео, она считается слишком общей, и ее вес при ранжировании снижается. Это помогает системе фокусироваться на специфичных терминах, ключевых именно для данного видео.

    Как я могу оптимизировать свои видео, чтобы эта функция работала лучше?

    Для оптимизации необходимо обеспечить высокое качество звука и четкое произношение канонических названий ключевых терминов и имен. Это улучшит автоматическую транскрипцию (ASR) и поможет системе корректно идентифицировать сущности. Также важно логично структурировать повествование, подчеркивая связь сущностей с темой.

    Могу ли я вручную указать, какие карточки показывать в моем видео?

    В патенте описан полностью автоматизированный процесс, основанный на машинном обучении и прогнозировании поведения пользователей. Механизмы ручного управления генерацией или выбором Entity Cards для авторов контента в данном документе не упоминаются.

    Показываются ли карточки синхронно с упоминанием сущности?

    Да, это ключевая особенность изобретения. Entity Card предоставляется для отображения в тот момент (timepoint), когда соответствующая сущность упоминается в видео. Это обеспечивает максимальную релевантность и контекстность информации.

    Использует ли система визуальное распознавание объектов для генерации этих карточек?

    Согласно тексту патента, основной механизм идентификации сущностей полагается на анализ транскрипции (т.е. аудиоконтента). Использование технологий компьютерного зрения для идентификации сущностей в этом конкретном механизме не описано.

    Как этот патент влияет на стратегию работы с сущностями (Entity Strategy)?

    Он значительно повышает важность работы с сущностями. Необходимо стремиться к тому, чтобы ваши ключевые сущности (бренды, продукты, персоны) были точно и полно представлены в Knowledge Graph. Также важно становиться авторитетным источником, предоставляя четкие описания, которые система может использовать для наполнения этих карточек.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.