Как Google предсказывает, какие сущности пользователи будут искать во время просмотра видео, и отображает контекстные карточки

Google анализирует видеоконтент для выявления сущностей (терминов, концепций), которые пользователи, вероятно, захотят найти в поиске. Система использует ML, обученное на реальных поисковых запросах, возникающих во время просмотра видео. Когда сущность упоминается, Google отображает «Карточку сущности» с кратким описанием и изображением прямо в интерфейсе плеера, не прерывая просмотр.

Описание

Какую задачу решает

Патент решает проблему прерывания пользовательского опыта при просмотре видео на новые или сложные темы. Когда пользователь сталкивается с незнакомым термином (например, «саркофаг» в видео о Египте), ему приходится останавливать воспроизведение и выполнять отдельный поиск. Это неудобно, отвлекает и может привести к отказу от просмотра. Изобретение направлено на предоставление необходимой контекстной информации непосредственно в момент ее необходимости, улучшая понимание контента и удержание пользователя на платформе.

Что запатентовано

Запатентована система для упреждающей идентификации и объяснения ключевых сущностей в видео. Система использует модель машинного обучения (Machine Learning Resource), чтобы предсказать, какие сущности, упомянутые в транскрипции видео, пользователь с наибольшей вероятностью захочет найти в поиске. Для этих сущностей генерируются «Карточки сущностей» (Entity Cards), которые отображаются синхронно с моментом упоминания сущности в видео, не прерывая воспроизведение.

Как это работает

Система работает в несколько этапов:

Транскрипция: Получение текстовой расшифровки (transcription) аудиодорожки видео (например, с помощью ASR).
Идентификация кандидатов: Сопоставление текста расшифровки с сущностями в Графе Знаний (Knowledge Graph).
Прогнозирование (ML): Применение Machine Learning Resource для ранжирования кандидатов. Модель обучается на реальных данных о том, что пользователи искали во время просмотра видео (Observational Data), чтобы определить сущности, которые «most likely to be searched for».
Генерация карточек: Создание Entity Cards для топовых сущностей с использованием внешних источников для получения описаний и изображений.
Отображение в UI: Показ соответствующей карточки в интерфейсе плеера точно в тот момент (timepoint), когда сущность упоминается в видео.

Актуальность для SEO

Высокая. Патент опубликован в 2023 году и отражает современные тенденции в области потребления видеоконтента и применения ИИ для улучшения понимания контекста. Учитывая фокус Google на видео (YouTube) и интеграцию мультимодального поиска, описанные механизмы для повышения вовлеченности и образовательной ценности видео крайне актуальны.

Важность для SEO

Влияние на SEO оценивается как значительное (7.5/10), особенно в контексте Video SEO и понимания сущностей (Entity Understanding). Патент раскрывает механизм, с помощью которого Google напрямую измеряет и моделирует пользовательский интерес к конкретным сущностям внутри видео. Это дает ценное понимание того, как Google оценивает важность концепций в данном контексте, что напрямую влияет на стратегию создания контента и оптимизацию видео (включая оптимизацию аудиодорожки).

Детальный разбор

Термины и определения

Entity (Сущность): Концепция, термин, тема, человек, место и т.д., упомянутые в видео.
Entity Card (Карточка сущности): Элемент пользовательского интерфейса, отображающий описательный контент (descriptive content), такой как текстовое резюме и/или изображение, о конкретной сущности.
Knowledge Graph (Граф Знаний): Структурированная база данных сущностей. Используется для идентификации кандидатов путем сопоставления текста транскрипции с известными сущностями (Knowledge Graph Entities).
Machine Learning Resource (Ресурс машинного обучения): Модель, используемая для прогнозирования того, какие сущности пользователь с наибольшей вероятностью будет искать во время просмотра видео.
Observational Data (Данные наблюдений): Данные о реальных поисковых запросах пользователей, выполненных в ответ на просмотр видео. Используются как обучающие данные для ML-модели.
TF-IDF Signal (Сигнал TF-IDF): Метрика (term frequency-inverse document frequency), используемая для определения того, насколько широким (общим) является термин в корпусе видео. Помогает отфильтровать слишком общие сущности.
Transcription (Транскрипция): Текстовая расшифровка аудиоконтента видео, часто получаемая с помощью автоматического распознавания речи (ASR).
Timepoint (Временная метка): Конкретный момент времени в видео, когда упоминается сущность. Используется для синхронизации отображения Entity Card.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод работы серверной системы.

Получение транскрипции контента из видео.
Применение Machine Learning Resource для идентификации сущностей, которые пользователь с наибольшей вероятностью будет искать (most likely to be searched for), на основе транскрипции.
Генерация Entity Cards для этих сущностей.
Предоставление пользовательского интерфейса (UI), который: (а) воспроизводит видео в первой части UI, и (б) когда сущность упоминается в видео, отображает соответствующую Entity Card во второй части UI.

Claim 2 (Зависимый от 1): Детализирует процесс обучения ML-модели. Ключевым является то, что обучение Machine Learning Resource основано на данных наблюдений за пользователями, выполняющими поиск в ответ на просмотр видео (observational data).

Claim 3 (Зависимый от 2): Детализирует процесс идентификации и ранжирования сущностей.

Идентификация кандидатов путем сопоставления текста транскрипции с Knowledge Graph.
Ранжирование кандидатов на основе одного или нескольких факторов:
- Релевантность кандидата теме видео.
- Релевантность кандидата другим кандидатам в видео.
- Количество упоминаний кандидата в видео.
- Количество видео в корпусе, в которых появляется кандидат (показатель широты/специфичности, например, через TF-IDF).

Claim 5 (Зависимый от 1): Уточняет синхронизацию. Entity Card отображается именно в тот момент времени (timepoint), когда сущность упоминается в видео.

Где и как применяется

Изобретение применяется в системах обработки и отображения видеоконтента (например, YouTube) и затрагивает этапы индексирования и финального отображения контента пользователю.

INDEXING – Индексирование и Извлечение Признаков (Offline/Preprocessing)
Основная часть работы алгоритма происходит на этом этапе:

Обработка видео: Выполняется автоматическое распознавание речи (ASR) для получения транскрипции.
Извлечение сущностей: Текст транскрипции анализируется для извлечения сущностей-кандидатов и их привязки к Knowledge Graph.
Анализ данных и обучение ML: Система анализирует логи поведения пользователей (Observational Data) – какие поисковые запросы выполняются во время просмотра видео. Эти данные используются для обучения Machine Learning Resource.
Расчет признаков и Ранжирование: Вычисляются метрики для сущностей (релевантность теме, количество упоминаний, TF-IDF). ML-модель применяется для выбора наиболее важных сущностей.
Генерация контента: Для выбранных сущностей создаются и сохраняются Entity Cards.

Отображение Контента (Runtime/Video Playback)
Патент фокусируется на улучшении интерфейса воспроизведения.

Синхронизация и Рендеринг UI: Во время воспроизведения система отслеживает таймкоды. Когда достигается таймкод, связанный с выбранной сущностью, система отображает предварительно сгенерированную Entity Card в интерфейсе плеера.

Входные данные:

Видеофайл (аудиодорожка) и его транскрипция.
Данные Графа Знаний (Knowledge Graph).
Данные наблюдений за поисковым поведением пользователей (Observational Data).
Внешние источники контента (для наполнения карточек).
Корпус видео (для расчета TF-IDF).

Выходные данные:

Список наиболее важных (salient) сущностей для видео.
Сгенерированные Entity Cards.
Инструкции для UI по синхронизированному отображению карточек.

На что влияет

Типы контента: Наибольшее влияние оказывается на образовательный контент, документальные фильмы, обзоры, туториалы и лекции – видео, насыщенные терминами и концепциями, которые могут быть незнакомы зрителю.
Специфические запросы: Влияет на информационные запросы, связанные с темами, обсуждаемыми в видео. Система стремится ответить на эти запросы превентивно.

Когда применяется

Условия применения: Алгоритм применяется к видео, для которых система смогла идентифицировать сущности, которые, согласно прогнозу ML-модели, с высокой вероятностью будут искаться пользователями.
Триггеры активации: Отображение конкретной Entity Card активируется в реальном времени во время воспроизведения видео, когда достигается определенный таймкод (timepoint), соответствующий упоминанию сущности.

Пошаговый алгоритм

Фаза А: Офлайн-обработка и обучение ML

Транскрипция: Получение текстовой расшифровки видеоконтента с помощью ASR.
Идентификация кандидатов: Анализ транскрипции и сопоставление текстовых сегментов с сущностями в Knowledge Graph для формирования списка кандидатов.
Сбор обучающих данных: Анализ Observational Data – логов поисковых запросов, которые пользователи выполняли во время просмотра видео. Определение того, какие сущности реально вызывали поисковый интерес.
Инжиниринг признаков: Расчет сигналов для сущностей-кандидатов: релевантность основной теме видео, взаимосвязь с другими сущностями в видео, частота упоминаний, а также TF-IDF по корпусу видео для оценки широты термина.
Обучение ML-модели: Тренировка Machine Learning Resource для прогнозирования вероятности поиска сущности, используя рассчитанные признаки и реальные поисковые данные.

Фаза Б: Генерация карточек сущностей

Выбор сущностей: Применение обученной ML-модели к списку кандидатов для их ранжирования. Выбор топовых сущностей, которые с наибольшей вероятностью будут искаться.
Получение контента: Запрос описательного контента (текстовые резюме, изображения) из внешних источников для выбранных сущностей.
Генерация карточек: Форматирование полученного контента в Entity Cards (включая заголовок, описание, изображение и атрибуцию источника). Сохранение карточек в базе данных.

Фаза В: Отображение во время воспроизведения (Runtime)

Воспроизведение видео: Пользователь запускает видео в интерфейсе.
Мониторинг таймкодов: Система отслеживает текущее время воспроизведения.
Триггер отображения: Когда достигается таймкод (timepoint), соответствующий упоминанию выбранной сущности.
Рендеринг UI: Отображение соответствующей Entity Card рядом с видеоплеером. Воспроизведение видео при этом не прерывается.
Обновление карточек: При упоминании следующей сущности текущая карточка может быть заменена новой или свернута.

Какие данные и как использует

Данные на входе

Контентные факторы: Аудиодорожка видео, обрабатываемая через ASR для получения транскрипции. Текст транскрипции является основным источником для идентификации сущностей.
Поведенческие факторы: Критически важные данные для обучения ML-модели. Используются Observational Data – логи реальных поисковых запросов пользователей, выполненных во время просмотра видео. Также могут использоваться данные о взаимодействии с карточками для корректировки ML-модели.
Семантические данные: Данные из Knowledge Graph для идентификации и disambiguation сущностей, упомянутых в тексте.
Внешние данные: Текстовые резюме и изображения из внешних источников (веб-сайты, сервисы резюмирования) для наполнения Entity Cards.

Какие метрики используются и как они считаются

Вероятность поиска (Likelihood of Search): Основная прогнозируемая метрика Machine Learning Resource. Определяет, насколько вероятно, что пользователь захочет найти информацию о сущности.
Оценки релевантности сущности:
- Релевантность теме видео (например, с использованием query-based salient term signal).
- Релевантность другим сущностям, упомянутым в видео.
Частота упоминаний (Mention Count): Количество раз, когда сущность упоминается в транскрипции.
TF-IDF (Term Frequency-Inverse Document Frequency): Используется для измерения широты (broadness) сущности в масштабе всего корпуса видео. Слишком общие термины получают пониженный вес.

Выводы

Прямое измерение важности сущностей через поведение пользователей: Ключевой вывод заключается в том, что Google не просто анализирует текст видео, но и напрямую измеряет, какие сущности вызывают у пользователей потребность в дополнительной информации (поиск). ML-модель обучается именно на этом поведении (Observational Data).
Понимание контента на основе прогнозирования интента: Система стремится понять видео, прогнозируя будущие поисковые намерения зрителя. Это продвинутый уровень понимания контента, выходящий за рамки простого извлечения сущностей.
Многофакторная оценка салиентности сущностей: Важность (салиентность) сущности определяется не только частотой упоминаний. Система учитывает релевантность центральной теме видео и использует TF-IDF для пессимизации слишком общих терминов, предпочитая более специфичные и информативные концепции.
Интеграция Графа Знаний: Knowledge Graph является основой для идентификации кандидатов, что подчеркивает важность наличия сущностей в Графе Знаний для их распознавания в видеоконтенте.
Удержание пользователя на платформе: Механизм направлен на снижение необходимости покидать видеоплатформу для перехода на основную страницу поиска (SERP), предоставляя информацию в контексте просмотра и улучшая вовлеченность.

Практика

Best practices (это мы делаем)

Оптимизация видео под четкость сущностей (Entity Clarity): Необходимо четко проговаривать ключевые термины и концепции. Система полагается на ASR (автоматическое распознавание речи); чистый звук и ясная дикция улучшают распознавание сущностей и их таймингов. Проверяйте и корректируйте автоматические субтитры.
Фокус на салиентных и специфичных сущностях: При создании сценария видео следует структурировать контент вокруг ключевых сущностей, которые являются центральными для темы, но могут потребовать пояснения. Следует избегать слишком общих терминов и фокусироваться на специфике (например, не просто «алгоритм», а «алгоритм PageRank»), так как система учитывает TF-IDF.
Анализ связей в Графе Знаний: Убедитесь, что сущности, на которые делается акцент в видео, хорошо представлены в Knowledge Graph, поскольку он используется для идентификации кандидатов. Работайте над улучшением представленности ваших ключевых тематических сущностей в Графе Знаний.
Создание авторитетного текстового контента (для источников): Создавайте качественные, точные и лаконичные определения ключевых сущностей на вашем сайте. Это повышает вероятность того, что ваш контент будет использован для наполнения Entity Cards и получит атрибуцию.

Worst practices (это делать не надо)

Вербальный переспам (Verbal Keyword Stuffing): Многократное повторение терминов может увеличить их вес по фактору частоты упоминаний, но если эти термины слишком широкие, они могут быть деприоритизированы ML-моделью как неинформативные (из-за TF-IDF).
Низкое качество звука: Плохое качество аудио или нечеткая речь напрямую препятствуют работе ASR и, следовательно, всему механизму распознавания сущностей и генерации карточек.
Использование узкого жаргона без контекста: Если используемые термины отсутствуют в Knowledge Graph или не могут быть однозначно интерпретированы, система не сможет сгенерировать для них карточки.

Стратегическое значение

Этот патент подтверждает сложный подход Google к обработке естественного языка в видео (Video NLP). Стратегия Video SEO должна выходить за рамки оптимизации метаданных и фокусироваться на фактическом разговорном контенте и обсуждаемых в нем сущностях. Патент дает представление о том, как Google оценивает информационную ценность и сложность видео, анализируя сущности, к которым пользователи проявляют повышенный интерес (через анализ поискового поведения).

Практические примеры

Сценарий: Создание образовательного видео по теме «Квантовая запутанность»

Анализ (Действие SEO-специалиста/Креатора): Специалист определяет, что термины «Суперпозиция» (Superposition) и «Теорема Белла» (Bell’s Theorem) являются критически важными, но сложными. Сценарий пишется так, чтобы эти термины были четко артикулированы в соответствующих разделах видео. Обеспечивается высокое качество записи звука.
Обработка (Процесс Google): Система транскрибирует видео. ML-модель Google, обученная на прошлых данных о поведении пользователей, смотрящих видео о физике, идентифицирует «Теорему Белла» как сущность с высокой вероятностью поиска. Генерируется Entity Card.
Результат (Опыт пользователя): Когда диктор произносит «…это можно проверить с помощью Теоремы Белла…», в интерфейсе появляется карточка с кратким объяснением теоремы. Это улучшает понимание контента зрителем и снижает вероятность того, что он уйдет с платформы для поиска термина.

Вопросы и ответы

Как именно Google узнает, какие сущности пользователи склонны искать?

Это ключевой аспект патента. Google использует модель машинного обучения, обученную на Observational Data. Это означает, что они анализируют логи реального поведения пользователей: какие поисковые запросы пользователи вводят во время или сразу после просмотра конкретного видео. Система находит корреляцию между упомянутыми в видео сущностями и последующими поисками.

Влияет ли этот механизм на ранжирование видео в поиске?

Патент не описывает прямого влияния на ранжирование видео в поиске. Он фокусируется на улучшении пользовательского интерфейса во время просмотра. Однако косвенное влияние возможно: если Entity Cards улучшают понимание контента и удержание аудитории, это может положительно сказаться на поведенческих факторах, которые учитываются алгоритмами ранжирования видеоплатформы.

Какие факторы делают сущность более вероятной для выбора в качестве Entity Card?

Модель учитывает несколько факторов: релевантность сущности общей теме видео, связь с другими сущностями в видео, количество упоминаний и специфичность термина (используя TF-IDF). Но решающим фактором является прогноз ML-модели, основанный на том, как часто эту сущность искали реальные пользователи в прошлом.

Как я могу оптимизировать свое видео, чтобы Google генерировал для него полезные Entity Cards?

Обеспечьте высокое качество звука и четкую дикцию для корректной работы ASR. Сфокусируйтесь на ясной подаче ключевых, специфичных для вашей темы сущностей. Структурируйте контент так, чтобы сложные концепции вводились последовательно. Проверка и корректировка автоматических субтитров также критически важна.

Использует ли система описание видео или метаданные для этого процесса?

Согласно патенту, основным источником данных для идентификации сущностей и таймингов является транскрипция контента видео (аудиодорожка). Метаданные явно не упоминаются в качестве входных данных для этого конкретного механизма, хотя они могут использоваться для определения общей темы видео, что является одним из сигналов ранжирования сущностей.

Какова роль Графа Знаний (Knowledge Graph) в этом процессе?

Knowledge Graph используется на начальном этапе для идентификации сущностей-кандидатов. Система сопоставляет текст расшифровки с узлами в Графе Знаний. Если концепция не представлена в Графе Знаний, она вряд ли будет выбрана для создания Entity Card в рамках этого механизма.

Как система определяет, является ли сущность «слишком широкой»?

Система использует сигнал TF-IDF (term frequency-inverse document frequency) по всему корпусу видео. Если сущность часто встречается во многих разных видео, она считается широкой или общей. Модель склонна присваивать меньший вес таким сущностям, предпочитая более специфичные термины.

Контент для Entity Card генерируется ИИ или берется из существующих источников?

Патент указывает, что система получает информацию из различных внешних источников (External Content), таких как веб-сайты или электронные сервисы, предоставляющие резюме по темам. Затем эта информация используется для наполнения карточки, и для нее указывается атрибуция (источник).

Влияет ли взаимодействие пользователя с этими карточками на работу системы?

Да. В патенте (Claim 4) упоминается, что система может оценивать взаимодействие пользователя с интерфейсом (включая карточки) и использовать эти данные для корректировки (adjustment) ресурса машинного обучения. Если карточку часто игнорируют, модель может научиться не показывать ее в будущем.

Для каких типов видео эта функция наиболее полезна?

Она наиболее полезна для образовательного контента, документальных фильмов, лекций, подробных обзоров продуктов и любых видео, которые вводят новые концепции, имена, места или термины. Для развлекательного или очень простого контента она менее релевантна.