
Google использует систему машинного обучения для связывания аудиовизуальных признаков видео (цвет, текстура, звук) с ключевыми словами. Это позволяет системе понимать содержание каждого кадра и динамически выбирать для тамбнейла (миниатюры) тот кадр, который наилучшим образом соответствует запросу пользователя или общему содержанию видео.
Патент решает две ключевые проблемы в поиске видео. Во-первых, он устраняет ограничения поиска, основанного только на текстовых метаданных (заголовки, описания), которые часто не описывают все сцены видео, из-за чего релевантный контент может быть не найден. Во-вторых, он решает проблему нерепрезентативных тамбнейлов (например, случайного или среднего кадра), которые мешают пользователю оценить релевантность видео в результатах поиска.
Запатентована система для анализа фактического аудиовизуального содержания видео с целью улучшения поиска и представления результатов. Ядром системы является модель машинного обучения (Feature-Keyword Model), которая связывает низкоуровневые признаки контента (цвет, текстура, звук) с семантическими ключевыми словами. Эта модель используется для автоматического аннотирования кадров видео и последующего динамического выбора наиболее релевантных тамбнейлов.
Система работает в три основных этапа:
Feature-Keyword Model.Keyword Association Scores). Эти данные сохраняются в Video Annotation Index.Video Annotation Index, она выбирает для тамбнейла тот кадр, который имеет наивысший Keyword Association Score по отношению к запросу пользователя или метаданным видео.Высокая. Понимание мультимедийного контента за пределами метаданных является фундаментальной задачей современного поиска. Динамический выбор тамбнейлов активно используется в Google и YouTube. Хотя конкретные методы извлечения признаков, описанные в патенте (например, LBP, цветовые гистограммы), уступили место нейросетям, общая концепция и архитектура системы остаются крайне актуальными.
Патент имеет высокое значение для Video SEO. Он демонстрирует механизмы, позволяющие Google понимать и ранжировать видео на основе анализа его фактического аудиовизуального содержания. Он также детально описывает, как динамически выбираются тамбнейлы на основе релевантности контента запросу, что напрямую влияет на CTR и поведенческие факторы в поисковой выдаче.
features) медиаконтента с ключевыми словами (keywords). Может быть реализована как матрица весов (feature-keyword matrix) или набор классификаторов.color features), текстура (texture features, например, LBP). Для аудио: MFCCs, спектрограммы.Feature-Keyword Model.Feature-Keyword Model.Keyword Association Scores для кадров/сцен видео. Используется для поиска и выбора тамбнейлов.Claim 1 (Независимый): Описывает офлайн-метод создания поискового индекса видео.
labeled training dataset (медиа + ключевые слова).features) из медиа.machine-learned model) для изучения корреляций между признаками и ключевыми словами.Ядро изобретения — это создание индекса для видео, основанного на содержании. Это достигается через ML-модель, которая переводит аудиовизуальные признаки в семантические ключевые слова.
Claim 10 (Зависимый): Детализирует итеративный процесс обучения feature-keyword matrix (одной из реализаций модели).
Описывается процесс обучения ранжированию. Система инициализирует матрицу, выбирает положительный пример (медиа, связанное с ключевым словом) и отрицательный пример. Рассчитываются Keyword Scores. Если оценка положительного примера не превышает оценку отрицательного на пороговое значение, веса матрицы корректируются. Это итеративный процесс оптимизации модели.
Claim 13 (Независимый): Описывает онлайн-метод представления результатов поиска видео (выбор тамбнейлов).
video annotation index (который хранит keyword association scores).Ключевой аспект — выбор тамбнейла не случайным образом, а на основе рассчитанной релевантности содержания кадра.
Claims 14, 15 и 16 (Зависимые): Уточняют механизм выбора кадра и источник ключевого слова.
Выбирается целевое ключевое слово, и из индекса извлекается кадр с наивысшим keyword association score для этого слова (Claim 14). Источником целевого ключевого слова может быть заголовок видео (Claim 15) или запрос пользователя (Claim 16). Это позволяет динамически выбирать тамбнейл: либо наиболее релевантный общей теме видео, либо наиболее релевантный конкретному запросу.
Изобретение применяется в системе хостинга видео (Video Hosting System) и затрагивает этапы индексирования и ранжирования/представления результатов.
INDEXING – Индексирование и извлечение признаков (Офлайн-процессы)
Click-Through Module собирает данные о поведении пользователей для формирования Labeled Training Dataset. Learning Engine анализирует эти данные и обучает Feature-Keyword Model.Video Annotation Engine обрабатывает видео. Он сэмплирует кадры, извлекает признаки и применяет обученную модель для расчета Keyword Association Scores. Результаты сохраняются в Video Annotation Index.RANKING, RERANKING & METASEARCH (Онлайн-процессы)
Video Search Engine может использовать Video Annotation Index для поиска видео по содержанию. Keyword Association Scores могут учитываться при ранжировании (Claim 19).Video Search Engine использует Video Annotation Index для выбора наиболее релевантного кадра в качестве тамбнейла. Это происходит на финальных этапах формирования выдачи (RERANKING или METASEARCH).Входные данные:
Выходные данные:
Feature-Keyword Model.Video Annotation Index.Related Videos) на основе схожести аудиовизуального содержания.Процесс А: Обучение модели (Офлайн)
Labeled Training Dataset путем анализа кликов пользователей (какие результаты выбираются по каким запросам) или из внешних источников.patches для изображений). Извлечение низкоуровневых признаков (цвет, текстура, аудио).Feature-Keyword Model (например, матрицы). Система сравнивает положительные и отрицательные примеры и корректирует веса модели так, чтобы релевантные медиа получали более высокие оценки для соответствующих ключевых слов (как описано в Claim 10).Процесс Б: Аннотирование и Индексирование (Офлайн/Батч)
Feature-Keyword Model к векторам признаков для получения Keyword Association Scores для каждого кадра.Video Annotation Index с привязкой к идентификатору кадра и видео.Процесс В: Обработка запроса и Выбор тамбнейла (Онлайн)
Video Annotation Index кадра с наивысшим Keyword Association Score для целевого ключевого слова.Click-through data). Используются для автоматического создания Labeled Training Dataset путем анализа того, какие результаты пользователи выбирают по определенным запросам.Извлечение признаков (Features):
Color Features: Цветовые гистограммы, которые хранят распределение цветов в пределах сегмента изображения (patch).Texture Features: Локальные бинарные шаблоны (Local Binary Patterns, LBPs). Представляют данные о текстуре и краях путем сравнения интенсивности пикселя с его соседями.Audio Features: Мел-частотные кепстральные коэффициенты (MFCCs), стабилизированные слуховые образы (SAI), спектрограммы.Методы машинного обучения:
Feature-Keyword Model. Веса модели корректируются так, чтобы положительные примеры получали Keyword Score выше отрицательных на определенное пороговое значение (Threshold).Метрики:
Keyword Association Score: Рассчитывается путем применения Feature-Keyword Model к вектору признаков кадра (например, путем умножения вектора признаков на feature-keyword matrix). Эта оценка определяет релевантность кадра ключевому слову.Feature-Keyword Model) для перевода низкоуровневых аудиовизуальных признаков (цвет, текстура, звук) в высокоуровневые семантические концепции (ключевые слова).Click-Through data) для автоматического сбора масштабных обучающих наборов данных, что позволяет модели постоянно совершенствоваться.features) и ассоциировать контент с релевантными ключевыми словами. Это улучшает способность системы понимать содержание видео.Keyword Association Scores для этих кадров.Keyword Association Scores и плохому выбору тамбнейла.Патент подтверждает стратегическое направление Google на глубокое понимание мультимедийного контента. Для SEO-специалистов это подчеркивает важность Video SEO и необходимость оптимизации не только текстовых элементов, но и самого аудиовизуального продукта. Google стремится понять, что именно показано и сказано в видео, и использует это понимание для улучшения презентации результатов (CTR) и ранжирования.
Сценарий: Оптимизация видеообзора гаджета для динамического выбора тамбнейла.
Video Annotation Engine анализирует кадры. Кадры с крупным планом устройства получат высокие Keyword Association Scores для "iPhone X". Кадры, демонстрирующие процесс съемки или примеры фото, получат высокие оценки для "тест камеры".Значит ли этот патент, что метаданные для видео больше не важны?
Нет. Метаданные (заголовок, описание) остаются критически важными сигналами ранжирования. Патент показывает, что Google дополняет их анализом содержания. Кроме того, патент явно указывает (Claim 15), что заголовок видео может использоваться как источник ключевых слов для выбора наиболее репрезентативного тамбнейла.
Как Google определяет, какие кадры анализировать в видео?
Патент описывает процесс сэмплирования (Video Sampling Module). Это может происходить с фиксированной частотой (например, 1 кадр каждые 10 секунд), с частотой, зависящей от длины или популярности видео, или на основе сегментации сцен. Последний вариант предполагает выборку хотя бы одного кадра из каждой сцены для обеспечения репрезентативности.
Как система учится связывать картинку с ключевым словом?
Она использует размеченный обучающий набор данных (Labeled Training Dataset). Один из ключевых методов сбора этих данных, описанный в патенте, — это автоматический анализ поведения пользователей (Click-Through Module). Если многие пользователи, ищущие "дельфин", кликают на определенное изображение, система учится, что признаки (цвет, форма) этого изображения коррелируют со словом "дельфин".
Может ли система выбрать разные тамбнейлы для одного и того же видео по разным запросам?
Да, это одна из ключевых особенностей патента (Claim 16). Если видео релевантно двум разным запросам, например, "собака на скейтборде" и "кошка играет на пианино", система выберет кадр с собакой для первого запроса и кадр с кошкой для второго. Выбор основывается на том, какой кадр имеет наивысший Keyword Association Score для конкретного запроса.
Какие конкретно признаки анализирует система?
Патент упоминает конкретные примеры признаков. Для изображений и кадров видео это Color Features (цветовые гистограммы) и Texture Features (например, Local Binary Patterns, описывающие текстуру и края). Для аудио это спектральные характеристики, такие как MFCCs (Мел-частотные кепстральные коэффициенты).
Влияет ли этот механизм на ранжирование видео?
Да. Патент указывает (Claim 19), что Video Annotation Index и рассчитанные Keyword Association Scores могут использоваться поисковой системой (Video Search Engine) для ранжирования видео в результатах поиска. Кроме того, более релевантный тамбнейл улучшает CTR, что косвенно влияет на ранжирование.
Применяется ли это только для поиска видео?
Основной фокус патента — поиск видео и выбор тамбнейлов. Однако в тексте также упоминается применение этой технологии для смежных задач: поиска похожих видео (Related Videos) на основе схожести контента и для таргетинга рекламы в реальном времени на основе содержания текущего кадра во время воспроизведения.
Насколько актуальны описанные методы извлечения признаков (LBP, Color Histograms)?
Эти методы были стандартными на момент подачи патента (2009 г.). Сегодня Google использует гораздо более продвинутые методы, основанные на глубоких нейронных сетях (например, CNN, Transformers, MUM). Однако общая архитектура системы (Обучение модели -> Индексирование контента -> Применение для поиска и отображения) остается актуальной.
Как SEO-специалист может повлиять на автоматический выбор тамбнейла?
Напрямую выбрать кадр нельзя (если не используется кастомный тамбнейл), но можно повлиять косвенно. Создавая видео с четкими, визуально сильными сценами, которые точно соответствуют целевым ключевым словам, вы увеличиваете Keyword Association Scores для этих кадров. Это повышает вероятность того, что система выберет именно эти сцены как наиболее релевантные.
Может ли эта система помочь найти конкретную сцену в длинном видео (Key Moments)?
Да, патент описывает такую возможность. Система находит кадры с высокими Keyword Association Scores для запроса, а затем определяет границы соответствующей сцены. Это позволяет вернуть пользователю релевантный фрагмент или начать воспроизведение с нужного момента, что соответствует функциональности Key Moments.

Мультимедиа
Семантика и интент

Семантика и интент
Мультимедиа
Индексация

Knowledge Graph
Семантика и интент
Мультимедиа

Семантика и интент
Мультимедиа
Индексация

Мультимедиа
SERP

Поведенческие сигналы
SERP
Семантика и интент

Local SEO
Поведенческие сигналы
Семантика и интент

Семантика и интент
Поведенческие сигналы

EEAT и качество
Свежесть контента
Семантика и интент

EEAT и качество
Ссылки
SERP

SERP
Поведенческие сигналы

Поведенческие сигналы
Персонализация
Семантика и интент

Поведенческие сигналы
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Антиспам
Ссылки
Семантика и интент
