Как Google использует данные о поведении пользователей для определения тематики и ранжирования видеоканалов и плейлистов

Google патентует систему для автоматической категоризации видеоканалов и плейлистов. Система определяет тематику канала, анализируя не только метаданные, но и то, какие видео пользователи смотрят чаще всего и сколько времени проводят на канале (Channel-driven watch time). Видео с низким вовлечением игнорируются, что позволяет точнее классифицировать канал и ранжировать его в поиске по релевантным категориям.

Описание

Какую задачу решает

Патент решает проблему точной категоризации групп мультимедийного контента, таких как видеоканалы или плейлисты. Существующие методы часто полагаются на метаданные, предоставленные создателем (описания, ключевые слова), которые могут быть неточными, неполными или манипулятивными. Это затрудняет пользователям поиск каналов или плейлистов по интересующей их тематике. Изобретение направлено на создание автоматизированной схемы категоризации, которая отражает фактическое содержание и фокус канала на основе потребления контента.

Что запатентовано

Запатентована система и метод для автоматического определения и оценки (скоринга) тематических категорий видеоканала или плейлиста. Ключевой особенностью является то, что категоризация основывается не только на метаданных видео, но и в значительной степени на том, как пользователи потребляют контент внутри канала. Система анализирует показатели использования (video use) отдельных видео и общие паттерны потребления канала (например, Channel-driven watch time), чтобы определить релевантность канала различным категориям.

Как это работает

Система работает следующим образом:

Извлечение данных: Система идентифицирует видео в канале и их существующие категории (category identifiers).
Оценка видео (Rating): Каждое видео оценивается на основе его использования внутри канала (популярность, время просмотра).
Агрегация и Фильтрация (Fuser): Компонент Fuser агрегирует эти оценки и категории. Видео с низкими оценками (те, которые редко смотрят в контексте канала) отбрасываются как нерепрезентативные.
Скоринг канала: Система генерирует общие оценки (scores) для канала по различным категориям, основываясь на категориях и оценках оставшихся видео, а также на общих показателях вовлеченности канала (просмотры, подписчики, curation events).
Машинное обучение: Для генерации оценок может использоваться модель (Fuser Model), обученная на примерах каналов, размеченных людьми.
Ранжирование: Полученные оценки используются для ранжирования канала в результатах поиска по соответствующим категориям.

Актуальность для SEO

Высокая. Точная категоризация контента и использование поведенческих сигналов для определения релевантности являются центральными задачами в современных поисковых и рекомендательных системах, особенно на платформах с пользовательским контентом, таких как YouTube. Механизм, описывающий, как потребление контента влияет на классификацию группы контента, остается крайне актуальным для Video SEO.

Важность для SEO

Патент имеет высокое значение (8/10) для Video SEO и стратегий продвижения на платформах типа YouTube. Он показывает, что для определения тематики канала и его ранжирования в поиске по категориям Google приоритизирует реальное поведение пользователей (какие видео смотрят, сколько времени проводят на канале), а не только оптимизацию метаданных. Если контент канала тематически разрознен или если пользователи игнорируют значительную часть видео, каналу будет сложнее получить высокие оценки релевантности в конкретных категориях.

Детальный разбор

Термины и определения

Annotated Channel Database (База данных аннотированных каналов): Хранилище, содержащее каналы с рассчитанными категориями и оценками, готовое для использования поисковыми системами.
Category Identifier (Идентификатор категории): Метка, связанная с видео или каналом, указывающая на одну или несколько категорий (широких или узких).
Channel (Канал): Группа мультимедийного контента (например, видео), доступная из общего источника или объединенная общей темой, обычно управляемая владельцем (куратором). В патенте также используется термин Group of multimedia content items, включающий плейлисты.
Channel-driven watch time (Время просмотра, обусловленное каналом): Количество времени, которое пользователь проводит на канале с момента доступа к нему до момента выхода. В Claim 1 определяется как playback time от входа пользователя в группу до выхода.
Curation events (События курирования): Действия пользователей, указывающие на интерес к контенту, такие как подписка (subscribing), отметка «нравится» (liking), добавление в друзья (friending).
Extractor (Экстрактор): Компонент, который извлекает видео и их идентификаторы категорий из базы данных и присваивает рейтинг (rating) каждому видео на основе его использования внутри канала.
Fuser (Объединитель/Агрегатор): Компонент, который агрегирует рейтинги и категории отдельных видео для генерации общих оценок (scores) категорий для всего канала. Может отбрасывать видео с низким рейтингом.
Fuser Model (Модель Агрегатора): Машинно-обученная модель, натренированная (часто с использованием данных от людей-асессоров) для прогнозирования категорий и оценок канала на основе входных сигналов.
Rating (Рейтинг видео): Оценка, присваиваемая отдельному видео, основанная на его использовании (video use) внутри видеоканала. Отражает релевантность или важность видео для аудитории канала.
Score (Оценка канала): Оценка, присваиваемая каналу, указывающая на его релевантность определенной категории.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод категоризации и ранжирования группы мультимедийного контента (канала/плейлиста).

Система идентифицирует группу контента, упорядоченную куратором.
Получаются идентификаторы категорий и информация, связанные с элементами контента в группе.
Генерируются оценки категорий (category scores) для всей группы.
Ключевое условие: Оценки генерируются на основе идентификаторов категорий, информации И playback time группы (Channel-driven watch time – время от входа пользователя в группу до выхода).
Оценки выводятся, если они превышают пороговое значение.
Эти оценки определяют позицию группы в результатах поиска по ключевым словам, соответствующим этим категориям.

Ядром изобретения является генерация оценок релевантности категории для группы контента с использованием поведенческого сигнала – времени просмотра, проведенного пользователем внутри этой группы (Channel-driven watch time).

Claim 2 (Зависимый от 1): Детализирует механизм ранжирования на основе популярности контента во время просмотра группы.

Группа ранжируется выше в Категории А, чем в Категории Б, если подмножество контента, относящееся к Категории А, более популярно, чем подмножество, относящееся к Категории Б, в течение времени просмотра группы (Channel-driven watch time). Это напрямую связывает потребление конкретного контента с ранжированием канала по соответствующей тематике.

Claim 4 (Зависимый от 1): Определяет, какая «информация» используется для генерации оценок.

Информация включает рейтинги (ratings) элементов контента, основанные на использовании элемента внутри группы (multimedia content item use within the first group), и/или метаданные элементов.

Claim 5 (Зависимый от 4): Вводит механизм фильтрации.

Система может отбрасывать (discarding) элементы контента из группы, если их соответствующий рейтинг ниже порогового значения. Это означает, что невостребованный контент не влияет на категоризацию канала.

Claim 6 (Зависимый от 1): Добавляет дополнительный фактор для генерации оценок.

Оценки категорий также генерируются на основе curation events, соответствующих группе (например, лайки канала, подписки на канал).

Где и как применяется

Изобретение применяется в системах поиска и рекомендаций мультимедийного контента (например, YouTube) для классификации и ранжирования каналов и плейлистов.

INDEXING – Индексирование и извлечение признаков
Основное применение патента. Система функционирует как часть процесса индексации для анализа каналов и извлечения признаков (Feature Extraction). Это, вероятно, офлайн или пакетный процесс.

Сбор данных: Система собирает данные об использовании видео и каналов (поведенческие сигналы).
Анализ и Рейтинг: Компонент Extractor анализирует использование отдельных видео внутри канала и присваивает им рейтинги.
Категоризация и Скоринг: Компонент Fuser (возможно, используя Fuser Model) вычисляет итоговые Category Scores для канала.
Хранение: Результаты сохраняются в Annotated Channel Database.

RANKING – Ранжирование
Рассчитанные Category Scores используются на этапе ранжирования. Когда пользователь ищет контент по определенной категории (или ключевым словам, связанным с ней), эти оценки определяют позицию канала или плейлиста в результатах поиска (Claim 1).

Входные данные:

Структура канала/плейлиста (список видео).
Метаданные и существующие Category Identifiers для каждого видео.
Данные об использовании (video use) каждого видео внутри канала.
Общие данные о потреблении канала (Channel-driven watch time, Curation events).

Выходные данные:

Набор категорий, релевантных для канала.
Category Scores для каждой релевантной категории.

На что влияет

Типы контента: В первую очередь влияет на группы мультимедийного контента – видеоканалы и плейлисты.
Специфические запросы: Влияет на результаты поиска каналов и плейлистов по тематическим (категорийным) запросам.
Структура каналов: Влияет на то, как система воспринимает каналы разной структуры (упомянутые в описании патента):
- Specialized Channel (Специализированный канал): Единая тема, большинство видео потребляется. Получит высокие оценки в своей категории.
- Broad Channel (Широкий канал): Одна широкая тема, но видео о разном. Оценки будут зависеть от того, на чем фокусируются зрители.
- Random Channel (Случайный канал): Нет общей темы. Вероятно, получит низкие оценки во всех категориях или не будет классифицирован.

Когда применяется

Условия применения: Алгоритм применяется при индексации или переиндексации каналов и плейлистов для определения их тематической релевантности.
Фильтрация видео: Механизм отбрасывания видео активируется, когда рейтинг видео (video rating), основанный на его использовании внутри канала, падает ниже определенного порога (threshold rating).
Вывод категорий: Категория ассоциируется с каналом, только если итоговая оценка канала (Category Score) для этой категории превышает пороговое значение (threshold score).

Пошаговый алгоритм

Алгоритм состоит из двух основных процессов: Процесс А (Рейтинг и Категоризация) и Процесс Б (Обучение модели, если используется ML).

Процесс А: Рейтинг и Категоризация канала

Извлечение данных (Extractor): Из базы данных извлекается список видео, составляющих канал, и их соответствующие Category Identifiers.
Расчет рейтинга видео (Extractor): Для каждого видео рассчитывается рейтинг (Rating). Расчет основан на данных об использовании видео внутри канала (video use): количество просмотров, среднее время просмотра, процент посетителей канала, просмотревших видео, и т.д.
Передача данных (Extractor -> Fuser): Рейтинги видео и их Category Identifiers передаются компоненту Fuser. Также может передаваться описание канала и его метаданные.
Фильтрация видео (Fuser): Видео, чей рейтинг ниже установленного порога (low rating threshold), отбрасываются. Их категории также исключаются из дальнейшего анализа канала.
Генерация оценок канала (Fuser): Fuser генерирует оценки (Scores) для канала по различным категориям. Расчет основывается на:
- Category Identifiers и Ratings оставшихся видео.
- Общих данных о потреблении канала: количество просмотров канала, Channel-driven watch time, количество подписчиков, Curation events.
- (Если используется ML) Применение функции, сгенерированной Fuser Model.
Фильтрация категорий и Вывод (Fuser): Выводятся только те категории, для которых оценка канала превышает установленный порог (threshold score).
Конвертация и Сохранение: Данные конвертируются и сохраняются в Annotated Channel Database для использования поисковой системой.

Процесс Б: Обучение Fuser Model (Офлайн)

Получение обучающих данных: Система получает набор каналов с категориями и оценками, присвоенными людьми (асессорами).
Извлечение признаков: Для этих каналов из базы данных извлекается информация (входные сигналы/признаки): метаданные канала, данные об использовании видео.
Обучение модели: Fuser Trainer обучает Fuser Model, используя входные сигналы и человеческие оценки, чтобы сгенерировать функцию для прогнозирования оценок категорий для будущих каналов.
Возврат функции: Обученная модель возвращает функцию, которая затем используется в Процессе А (шаг 5).

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании поведенческих данных для категоризации групп контента.

Контентные/Метаданные факторы:
- Метаданные видео (упоминаются в Claim 4).
- Category Identifiers видео (Broad и Narrow categories).
- Дескрипторы канала (Channel descriptor): заголовок, описание, категории, назначенные пользователем.
- Текст, ассоциированный с видео (например, субтитры), может использоваться для определения рейтинга видео.
Поведенческие факторы (Video Level — Video Use): Критически важные данные для расчета Video Rating.
- Количество кликов/воспроизведений.
- Среднее время просмотра видео.
- Количество подписчиков видео (если применимо).
- Паттерны кликов (какие видео смотрят до/после).
- Процент пользователей, посетивших канал, которые посмотрели данное видео.
Поведенческие факторы (Channel Level): Используются для расчета итогового Channel Score.
- Количество просмотров канала.
- Channel-driven watch time (время, проведенное на канале от входа до выхода).
- Количество подписчиков канала.
- Curation events (лайки, подписки на канал).
Данные для обучения (ML):
- Категории и оценки каналов, присвоенные людьми (Training channel categories and scores).

Какие метрики используются и как они считаются

Video Rating (Рейтинг видео): Метрика, рассчитываемая Extractor на основе Video Use внутри канала. Используется для определения важности видео для тематики канала.
Channel Category Score (Оценка категории канала): Итоговая метрика, рассчитываемая Fuser. Определяет релевантность канала категории. Основана на агрегации Video Ratings и Category Identifiers, а также на общих поведенческих факторах канала (Channel-driven watch time, Curation events).
Low Rating Threshold (Порог низкого рейтинга): Пороговое значение для Video Rating. Видео ниже этого порога отбрасываются как нерепрезентативные.
Threshold Score (Пороговая оценка): Пороговое значение для Channel Category Score. Категории ниже этого порога не ассоциируются с каналом.
Алгоритмы машинного обучения: Используется supervised learning (Fuser Model) для генерации функции, прогнозирующей Channel Category Score на основе входных сигналов и человеческих оценок.

Выводы

Потребление определяет категоризацию: Ключевой вывод патента – тематика канала или плейлиста определяется тем, как его потребляют пользователи, а не только тем, что заявляет создатель в метаданных. Система анализирует, на каком контенте фокусируются зрители.
Важность вовлечения внутри канала: Метрики, такие как Channel-driven watch time (время, проведенное на канале) и Video Use (использование конкретных видео внутри канала), являются прямыми факторами для определения релевантности категорий.
Игнорирование невостребованного контента: Система имеет механизм (discarding) для исключения видео с низким вовлечением из процесса категоризации. Если видео никто не смотрит, оно не влияет на тематику канала в глазах системы.
Популярность контента влияет на ранжирование по категориям: Claim 2 прямо указывает, что если видео по Теме А более популярны на канале, чем видео по Теме Б, канал будет ранжироваться выше по запросам, связанным с Теме А.
Использование машинного обучения и асессоров: Система использует модель (Fuser Model), обученную на человеческих оценках, чтобы научиться интерпретировать комбинации сигналов для точной категоризации.
Комплексная оценка релевантности: Релевантность канала категории – это сложная оценка, учитывающая метаданные, индивидуальное потребление видео и общую активность на канале (Curation events).

Практика

Best practices (это мы делаем)

Рекомендации относятся к Video SEO и оптимизации каналов на платформах типа YouTube.

Фокус на тематической целостности и вовлечении: Создавайте каналы с четкой тематикой (Specialized Channel) и стимулируйте просмотр максимального количества видео в рамках этой темы. Это поможет системе точно классифицировать канал и присвоить высокие Category Scores.
Анализ популярности контента внутри канала: Регулярно анализируйте статистику, чтобы понять, какие видео смотрят посетители канала. Усиливайте направления, которые генерируют наибольший Channel-driven watch time.
Удаление или скрытие нерелевантного контента: Если на канале есть старые, нерелевантные или экспериментальные видео, которые имеют очень низкие показатели Video Use (их почти не смотрят), рассмотрите возможность их удаления или скрытия. Хотя система может их игнорировать, поддержание чистоты канала улучшает общие сигналы.
Стимулирование Curation Events: Активно призывайте пользователей подписываться на канал и лайкать его. Эти сигналы (Curation Events) используются при расчете Category Scores (Claim 6).
Оптимизация метаданных релевантного контента: Убедитесь, что самые популярные видео на канале имеют точные метаданные и Category Identifiers. Именно эти видео будут определять категоризацию всего канала.

Worst practices (это делать не надо)

Резкая смена тематики канала без учета аудитории: Если канал был популярен в одной теме, а затем начал публиковать контент в другой, но аудитория продолжает смотреть только старый контент, система будет по-прежнему категоризировать канал по старой теме.
Создание «сборной солянки» (Random Channel): Публикация видео на множество несвязанных тем в надежде охватить широкую аудиторию. Это приведет к фрагментированному потреблению и низким Category Scores во всех темах.
Игнорирование поведенческих метрик: Фокусироваться только на SEO-оптимизации метаданных (заголовки, описания), игнорируя время просмотра и вовлеченность. Если контент не потребляют, оптимизация метаданных не поможет каналу высоко ранжироваться в категориях.
Накрутка просмотров без вовлечения: Попытки манипулировать системой с помощью коротких просмотров без реального вовлечения и Curation Events будут неэффективны, так как система учитывает Channel-driven watch time и глубину взаимодействия.

Стратегическое значение

Патент подтверждает стратегическую важность User Engagement для классификации контента. Для платформ видеохостинга тематика определяется не столько семантикой, сколько паттернами потребления. Это подчеркивает необходимость создания качественного, серийного контента, который удерживает пользователя на канале и стимулирует его просматривать несколько видео в рамках одной сессии. Стратегия Video SEO должна быть направлена на максимизацию времени просмотра внутри канала и построение четкого тематического фокуса, подтвержденного интересом аудитории.

Практические примеры

Сценарий: Канал со смешанной тематикой (Пример из описания патента)

Ситуация: Канал «Rock ‘N RC Cars» публикует видео о рок-музыке и радиоуправляемых машинах.
Анализ потребления: Пользователи, которые смотрят канал, в основном интересуются видео о радиоуправляемых машинах (например, Video A) и не интересуются рок-музыкой.
Действия системы (согласно патенту):
- Extractor присваивает низкий Rating музыкальным видео из-за низкого Video Use.
- Fuser отбрасывает (discards) музыкальные видео при категоризации.
- Система категоризирует канал как «Хобби», «Автомоделизм», игнорируя тему «Рок-музыка» (эти видео считаются off-topic).
SEO-действие: Владельцу следует сфокусироваться на контенте о радиоуправляемых машинах, чтобы максимизировать Category Score в этой нише, или создать отдельный канал для музыки.

Сценарий: Повышение ранжирования в нужной категории

Ситуация: Канал о путешествиях публикует обзоры отелей (Тема А) и путеводители по городам (Тема Б). Владелец хочет ранжироваться выше в категории «Обзоры отелей».
Анализ (Claim 2): Система будет ранжировать канал выше в Теме А, если контент Темы А более популярен на канале, чем контент Темы Б.
SEO-действие: Владельцу необходимо повысить популярность и время просмотра видео с обзорами отелей внутри канала. Это можно сделать через улучшение структуры канала, создание плейлистов, акцентирование внимания на этих видео на главной странице канала и перелинковку.

Вопросы и ответы

Как этот патент влияет на категоризацию канала, если я изменю его тематику?

Система ориентируется на то, что смотрят пользователи. Если вы начнете публиковать видео на новую тему, но аудитория продолжит смотреть преимущественно старые видео, категоризация канала изменится медленно. Канал будет переклассифицирован только тогда, когда основная часть времени просмотра (Channel-driven watch time) сместится на новый контент. Это защищает от резких изменений в ранжировании, основанных только на метаданных.

Что такое «Channel-driven watch time» и почему это важно?

Channel-driven watch time – это общее время, которое пользователь проводит за просмотром контента на канале с момента входа на него до момента выхода. Согласно Claim 1, это прямой фактор при расчете оценок релевантности канала категориям. Чем больше времени пользователи проводят на канале и чем больше видео они смотрят за сессию, тем выше потенциальные оценки релевантности.

Влияют ли невостребованные видео на тематику моего канала?

Согласно патенту (Claim 5), система может отбрасывать (discarding) видео, если их рейтинг использования внутри канала (Video Use) ниже определенного порога. Это означает, что если у вас есть видео, которые никто не смотрит, они, скорее всего, не будут влиять на общую категоризацию канала. Система фокусируется на контенте, который реально потребляется аудиторией.

Что важнее для категоризации канала: метаданные видео или поведение пользователей?

Оба фактора важны, но патент делает сильный акцент на поведении пользователей. Метаданные и исходные категории видео (Category Identifiers) служат основой, но финальная оценка (Score) сильно корректируется метриками Video Use и Channel-driven watch time. Поведение пользователей определяет, какие из заявленных тем действительно релевантны для канала.

Как система определяет, в какой категории мой канал должен ранжироваться выше?

Это описано в Claim 2. Система сравнивает популярность разных подмножеств контента на канале. Если на вашем канале видео по Кулинарии (Тема А) генерируют значительно больше времени просмотра, чем видео по Садоводству (Тема Б), ваш канал будет иметь более высокий Category Score и, соответственно, ранжироваться выше в категории «Кулинария».

Использует ли Google машинное обучение для категоризации каналов?

Да, патент описывает компонент Fuser Model. Это машинно-обученная модель, которая тренируется на примерах каналов, размеченных людьми (асессорами). Модель учится прогнозировать релевантные категории и оценки на основе множества входных сигналов, что позволяет системе автоматизировать и масштабировать процесс категоризации.

Влияют ли лайки и подписки на категоризацию канала?

Да, влияют. Патент упоминает Curation Events (события курирования), такие как лайки и подписки на канал, как один из факторов, используемых при генерации итоговых оценок категорий (Claim 6). Это подчеркивает важность взаимодействия с аудиторией и построения сообщества вокруг канала.

Применяется ли этот патент только к видеоканалам?

Хотя в патенте в основном говорится о видеоканалах (Video Channel), в описании и формуле изобретения используется более общий термин «группа мультимедийного контента» (group of multimedia content items). Это означает, что описанные механизмы могут применяться и к другим агрегациям контента, таким как плейлисты, аудиоподборки или галереи изображений.

Что делать, если мой канал охватывает несколько тем?

Если канал охватывает несколько тем (Broad Channel) и аудитория активно потребляет контент по всем этим темам, канал может получить хорошие оценки в нескольких категориях. Однако, если потребление сосредоточено только на одной из тем, система классифицирует канал преимущественно по этой теме. Для достижения наилучших результатов в конкретной нише рекомендуется фокусироваться на специализированном контенте (Specialized Channel).

Как быстро система реагирует на изменения в поведении пользователей?

Патент не указывает конкретных временных рамок. Однако, поскольку система использует данные об использовании (Video Use), которые постоянно обновляются, можно предположить, что категоризация корректируется по мере накопления новых данных о поведении пользователей. Изменения, вероятно, происходят во время очередной переиндексации канала и пересчета признаков.