Как Google (YouTube) ранжирует рекомендации видео, чтобы максимизировать общее время просмотра сессии

Google использует модель машинного обучения для ранжирования рекомендуемого контента, смещая фокус с вероятности клика на прогнозируемое время потребления. Система учитывает не только время просмотра конкретного видео, но и время просмотра всех последующих видео в этой же сессии (Sub-tree Consumption Time). Приоритет отдается контенту, который инициирует длительные сессии вовлечения.

Описание

Какую задачу решает

Патент решает проблему неэффективности систем рекомендаций, основанных на бинарных сигналах (кликнул/не кликнул). Такие системы не отличают контент, потребленный полностью, от контента, который был открыт и сразу закрыт (например, кликбейт). Это приводит к рекомендациям, которые генерируют клики, но не способствуют долгосрочному удержанию пользователя на платформе. Изобретение улучшает качество рекомендаций, оптимизируя их под максимизацию времени потребления контента (User Consumption Time).

Что запатентовано

Запатентована система ранжирования медиа-рекомендаций (например, видео на YouTube), использующая модель машинного обучения для прогнозирования времени потребления. Ядром изобретения является использование метрики Sub-tree Consumption Time. Эта метрика агрегирует время просмотра рекомендованного видео и всех последующих видео, просмотренных в той же сессии. Цель — приоритизировать контент, который инициирует длительные сессии просмотра.

Как это работает

Система функционирует в двух режимах: офлайн (обучение) и онлайн (ранжирование).

Офлайн: Анализируются исторические логи активности пользователей для расчета фактического Sub-tree Consumption Time. Эти данные (Training Data) используются для обучения модели машинного обучения (например, регрессионной модели), которая учится прогнозировать это время на основе различных признаков (Features).
Онлайн: Когда пользователь смотрит целевое видео (Target Video), система определяет список кандидатов. Модель выполняется для каждого кандидата, чтобы предсказать его Sub-tree Consumption Time. Кандидаты ранжируются на основе этого прогноза, и лучшие из них показываются как рекомендуемые видео (Suggested Videos).

Актуальность для SEO

Критически высокая. Патент описывает фундаментальный сдвиг от кликов к времени просмотра (Watch Time) и продолжительности сессии (Session Duration) как ключевым метрикам вовлеченности. Этот подход лежит в основе современных рекомендательных алгоритмов, включая YouTube. (Примечание: хотя дата подачи этой заявки 2017 год, она является продолжением заявки от 2012 года, что соответствует времени, когда YouTube публично объявил о переходе к оптимизации времени просмотра).

Важность для SEO

Патент имеет критическое значение (10/10) для Video SEO и оптимизации на YouTube. Он четко определяет, что для успеха в системе рекомендаций недостаточно генерировать клики. Ключевая цель — удержать пользователя и мотивировать его смотреть больше контента в рамках текущей сессии. Стратегии оптимизации должны быть полностью сосредоточены на максимизации Watch Time и инициировании длительных сессий просмотра.

Детальный разбор

Термины и определения

Candidate Media Item (Кандидатный медиа-элемент): Медиа-элемент (например, видео), рассматриваемый системой как потенциальная рекомендация для текущего целевого элемента.
Features (Признаки): Параметры кандидата и контекста, используемые моделью машинного обучения для прогнозирования. Включают данные о контенте, контексте запроса и пользователе (возраст, пол, страна).
Log Data (Логи данных): Записи о действиях пользователей: какие элементы были потреблены, как долго и в какой последовательности.
Prediction Model (Модель прогнозирования): Функция (например, regression model), обученная на Training Data, которая использует признаки кандидата для прогнозирования его User Consumption Time или Sub-tree Consumption Time.
Sub-tree Consumption Time (Время потребления поддерева): Ключевая метрика. Общее время, которое пользователь тратит на потребление родительского рекомендованного элемента (Parent) ПЛЮС время, потраченное на потребление всех последующих дочерних элементов (Children) в той же сессии. Время просмотра дочерних элементов атрибутируется родительскому.
Target Video / Target Media Item (Целевой медиа-элемент): Элемент, который пользователь потребляет в данный момент и для которого генерируются рекомендации.
Training Data (Обучающие данные): Обработанные данные из логов, используемые для обучения модели. Состоят из примеров (Examples), содержащих признаки (Features) и фактическое значение (Value) Sub-tree Consumption Time.
User Consumption Time (Время потребления пользователя) / Watch Time: Время, которое пользователь тратит на потребление одного конкретного медиа-элемента.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод предоставления рекомендаций во время воспроизведения видео.

Система получает выбор целевого видео (Target Video) для просмотра.
Воспроизводит его и одновременно показывает рекомендованные видео (Suggested Videos).
Ключевое условие: Рекомендованные видео выбраны на основе прогноза, что они будут просмотрены в течение как минимум пороговой продолжительности (threshold duration).
Основа прогноза: Исторические данные о времени потребления (i) ранее выбранных видео И (ii) видео, которые были рекомендованы вместе с ними.

Система защищает метод ранжирования рекомендаций на основе прогнозируемого времени просмотра, который учитывает данные о сессии/поддереве (Sub-tree Consumption Time).

Claim 4 (Зависимый): Детализирует механизм прогнозирования.

Прогноз основан на применении модели прогнозирования (prediction model) к признакам (features) кандидатов.
Модель предсказывает продолжительность времени просмотра для каждого кандидата.
Рекомендации выбираются из кандидатов, чье прогнозируемое время удовлетворяет порогу.

Claim 5 (Зависимый): Явно определяет и защищает метрику Sub-tree Consumption Time.

Система идентифицирует связь между кандидатом (Parent) и другими видео, которые предлагаются вместе с ним (Children).
Система прогнозирует sub-tree length of time (время поддерева).
Это время является суммой времени просмотра родительского видео И времени просмотра каждого дочернего видео.

Это ядро патента: ценность рекомендации определяется общим временем просмотра всей сессии, которую она инициирует.

Claim 6 (Зависимый): Перечисляет используемые признаки (Features). Включают идентификатор целевого видео, идентификаторы других видео в наборе, историческое время просмотра, идентификатор страны, пол и возраст пользователя.

Claim 8 (Зависимый): Описывает дополнительный фильтр качества — процент завершенности просмотра.

Система может определить процент видео, который будет потреблен, и прогнозировать время просмотра только для тех кандидатов, которые удовлетворяют пороговому проценту (percentage threshold).

Где и как применяется

Патент описывает работу систем рекомендаций медиаконтента (например, YouTube, Google Video, потенциально Google Discover). Он не относится к ранжированию стандартных веб-результатов.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит сбор и обработка поведенческих данных. Система логирует активность пользователей, рассчитывает фактические User Consumption Time и Sub-tree Consumption Time. Эти данные обрабатываются офлайн для генерации Training Data и периодического обучения Prediction Model.

RANKING – Ранжирование (Генерация рекомендаций)
Основное применение патента. Происходит в реальном времени, когда пользователь смотрит Target Video.

Отбор кандидатов: Система идентифицирует набор Candidate Media Items.
Извлечение признаков: Для кандидатов и контекста пользователя извлекаются Features.
Прогнозирование: Prediction Model используется для оценки каждого кандидата и прогнозирования его Sub-tree Consumption Time.
Ранжирование: Кандидаты сортируются на основе этих прогнозируемых значений.

RERANKING – Переранжирование
На финальном этапе система выбирает Топ-N кандидатов и может применять дополнительные фильтры (например, percentage threshold или threshold duration).

Входные данные:

Идентификатор Target Video.
Список Candidate Media Items и их Features.
Данные пользователя (возраст, пол, страна).
Обученная Prediction Model.

Выходные данные:

Отсортированный список Suggested Media Items, оптимизированный для максимизации времени просмотра сессии.

На что влияет

Конкретные типы контента: Влияет на медиа-контент (видео, аудио), где система генерирует список последующих рекомендаций.
Форматы контента: Отдает предпочтение форматам, способствующим длительному удержанию и сессионному потреблению (сериальный контент, плейлисты).
Языковые и географические ограничения: Идентификатор страны (country identifier) используется как признак (Feature), что подразумевает географическую адаптацию прогнозов.

Когда применяется

Триггеры активации: Алгоритм активируется при каждом запросе на генерацию списка рекомендаций для Target Video.
Пороговые значения: Используются threshold duration (минимальное прогнозируемое время для показа) и опционально percentage threshold (минимальный процент завершенности просмотра для учета кандидата).

Пошаговый алгоритм

Процесс разделен на Офлайн-обучение и Онлайн-ранжирование.

Этап А: Офлайн-обучение модели (Периодический процесс)

Сбор данных: Запись активности пользователей в Log Data (что смотрели, как долго, что дальше).
Обработка логов: Периодический анализ логов (например, раз в 24 часа).
Расчет метрик: Вычисление фактического Sub-tree Consumption Time для исторических сессий. Агрегация времени просмотра родительского и всех дочерних видео.
Формирование обучающих данных: Создание Training Data. Каждый пример содержит Features и фактическое значение Sub-tree Consumption Time.
Обучение модели: Prediction Model (регрессионная модель) обучается на этих данных для выявления паттернов.

Этап Б: Онлайн-ранжирование рекомендаций (В реальном времени)

Получение запроса: Система получает запрос на рекомендации для Target Video.
Идентификация кандидатов: Определяется набор Candidate Media Items.
Извлечение признаков: Для каждого кандидата и текущего контекста извлекаются Features.
Выполнение модели (Прогнозирование): Обученная модель прогнозирует Sub-tree Consumption Time для каждого кандидата.
(Опционально) Фильтрация: Применение Percentage Threshold для отсева кандидатов с низким прогнозируемым процентом завершения просмотра (Claim 8).
Ранжирование: Кандидаты сортируются на основе прогнозируемого Sub-tree Consumption Time.
Выбор рекомендаций: Выбор Топ-N кандидатов, которые превышают Threshold Duration.
Предоставление результатов: Отправка списка рекомендаций на клиентское устройство.

Какие данные и как использует

Данные на входе

Система полагается преимущественно на поведенческие данные, дополненные пользовательскими и контекстными факторами в качестве признаков для модели.

Поведенческие факторы (Критические): Log Data, включающие:
- Время просмотра (User Consumption Time) отдельных элементов.
- Последовательность просмотра в рамках сессии (для расчета Sub-tree Consumption Time).
- Процент завершенности просмотра (Percentage consumed).
Пользовательские факторы (Явно указаны в Claim 6):
- Пол пользователя (gender).
- Возраст пользователя (age).
(Сбор этих данных требует согласия пользователя).
Географические факторы (Claim 6):
- Идентификатор страны (country identifier).
Контекстуальные факторы:
- Идентификатор целевого видео (Target Video ID).
- Идентификаторы других кандидатов в том же наборе рекомендаций.

Какие метрики используются и как они считаются

Sub-tree Consumption Time (Время потребления поддерева): Основная метрика. Рассчитывается как сумма времени потребления родительского видео и всех его дочерних видео в сессии: Time(Parent) + Sum(Time(Child_i)).
Predicted Sub-tree Consumption Time: Целевая метрика для ранжирования. Выходное значение Prediction Model.
Threshold Duration (Пороговая продолжительность): Минимальное прогнозируемое время потребления для показа рекомендации.
Percentage Threshold (Пороговый процент): Фильтр качества. Порог завершенности просмотра, используемый для отсева кандидатов, которые пользователи склонны бросать.
Алгоритмы машинного обучения: Используется Prediction Model. Патент упоминает regression model (регрессионную модель) для предсказания числового значения времени.

Выводы

Цель системы — максимизация общего времени сессии, а не кликов. Патент подтверждает, что ценность видео для системы рекомендаций определяется не тем, сколько раз на него кликнули (CTR), а тем, сколько времени пользователь провел на платформе после этого клика.
Sub-tree Consumption Time является ядром ранжирования. Система оценивает видео по его способности инициировать длительную сессию просмотра. Видео, после которого пользователь уходит с платформы, будет иметь низкий ранг, даже если его досмотрели до конца.
Прямое противодействие кликбейту. Механизм пессимизирует контент с привлекательными заголовками/обложками, но низким временем удержания (низкий User Consumption Time) и низким временем сессии.
Важность удержания и завершенности просмотра (Retention). Использование Percentage Threshold (Claim 8) указывает на то, что система предпочитает контент, который пользователи досматривают до конца. Видео с низким процентом просмотра могут быть отфильтрованы.
Персонализация на основе поведения и демографии. Система использует модель машинного обучения, которая учитывает персональные данные (возраст, пол, страна) для прогнозирования поведения, делая рекомендации высоко персонализированными.

Практика

Best practices (это мы делаем)

Рекомендации применимы исключительно к Video SEO и оптимизации на платформах типа YouTube.

Оптимизация удержания аудитории (Audience Retention): Создавайте контент, который удерживает внимание зрителя на протяжении всего ролика. Анализируйте отчеты об удержании и устраняйте элементы, вызывающие отток. Это увеличивает User Consumption Time и обеспечивает прохождение Percentage Threshold.
Стимулирование продолжения просмотра (Оптимизация сессии): Ключевая задача — не дать сессии закончиться на вашем видео для максимизации Sub-tree Consumption Time. Активно используйте конечные заставки (End Screens), подсказки (Cards) и вербальные призывы к действию, чтобы направить зрителя на следующее релевантное видео.
Создание серийного контента и плейлистов: Разрабатывайте тематически связанные серии видео и объединяйте их в плейлисты. Это естественный способ стимулировать пользователей переходить к следующему видео, увеличивая общую продолжительность сессии.
Честные заголовки и обложки (Thumbnails): Убедитесь, что метаданные точно отражают содержание видео. Это снижает показатель отказов и увеличивает процент просмотра, что является позитивным сигналом для модели.
Анализ источников трафика «Рекомендуемые видео»: Изучайте, после каких видео система рекомендует ваш контент. Это помогает понять поведенческие и тематические связи, которые видит алгоритм, и оптимизировать контент для лучшего соответствия этим связям.

Worst practices (это делать не надо)

Использование кликбейта: Создание вводящих в заблуждение заголовков или обложек. Это приведет к низкому User Consumption Time и гарантирует пессимизацию в рекомендациях согласно этому патенту.
Фокус на просмотрах (Views) вместо времени просмотра (Watch Time): Оптимизация под количество кликов игнорирует основной фактор ранжирования, описанный в патенте.
Искусственное затягивание видео без ценности: Попытки увеличить время просмотра за счет «воды». Это приведет к падению процента просмотра (Retention) и негативно скажется на ранжировании.
Создание изолированного (тупикового) контента: Публикация видео, которые не предлагают зрителю пути для продолжения просмотра. Такие видео будут генерировать низкий Sub-tree Consumption Time.

Стратегическое значение

Этот патент является документальным подтверждением того, что для алгоритмов рекомендаций ключевой валютой является время и вовлеченность пользователя. Стратегия Video SEO должна быть построена вокруг создания качественного контента, который служит точкой входа в длительную сессию просмотра. Алгоритм вознаграждает каналы и авторов, которые способны удерживать аудиторию на платформе надолго.

Практические примеры

Сценарий: Оптимизация видео для увеличения Sub-tree Consumption Time

Ситуация: У вас есть два видео: Видео А («Основы SEO») и Видео Б («Анализ ссылок»). Видео А имеет хорошее собственное время просмотра (10 минут), но пользователи редко переходят дальше.
Цель: Максимизировать Sub-tree Consumption Time для Видео А.
Действия: В конце Видео А размещается конечная заставка и делается четкий призыв к действию, направляющий зрителя на Видео Б как на следующий шаг. Оба видео объединяются в плейлист.
Результат: Пользователи, посмотревшие Видео А (10 минут), массово переходят к просмотру Видео Б (например, 8 минут).
Влияние на алгоритм: Система фиксирует, что Sub-tree Consumption Time для Видео А теперь составляет 18 минут (10+8). Это значительно выше, чем у конкурента, чье видео смотрят 11 минут, но после него сессия заканчивается (Sub-tree Time = 11 минут). Видео А получает приоритет в рекомендациях.

Вопросы и ответы

Что такое «Sub-tree Consumption Time» и почему это самая важная метрика в патенте?

Sub-tree Consumption Time — это общее время, которое пользователь проводит за просмотром рекомендованного видео ПЛЮС время просмотра всех последующих видео в этой же сессии. Это критически важно, потому что алгоритм ранжирует рекомендации, стремясь максимизировать общее время сессии пользователя на платформе, а не просто показать одно релевантное видео. Видео, инициирующие длительные сессии, получают приоритет.

Означает ли этот патент, что клики (CTR) больше не важны для рекомендаций?

Клики необходимы как первый шаг — без клика нет времени просмотра. Однако патент ясно показывает, что система отдает приоритет времени просмотра над вероятностью клика. Видео с высоким CTR, но низким временем удержания (кликбейт) будет ранжироваться ниже, чем видео с умеренным CTR, но высоким прогнозируемым Sub-tree Consumption Time.

Как система прогнозирует время просмотра?

Система использует модель машинного обучения (в патенте упоминается регрессионная модель), обученную на исторических данных. Модель анализирует признаки (Features) кандидата, контекст просмотра и данные о пользователе (возраст, пол, страна), и на основе найденных паттернов предсказывает, сколько времени пользователь проведет за просмотром этого и последующих видео.

Применяется ли этот патент к обычному поиску Google (веб-результатам)?

Нет. Патент специфичен для ранжирования «медиа-рекомендаций» (Media Suggestions), которые показываются во время потребления другого медиа-контента. Это напрямую относится к блоку «Рекомендуемые видео» на YouTube или Google Video, а не к ранжированию веб-страниц в стандартном поиске.

Как я могу увеличить «Sub-tree Consumption Time» для моих видео?

Ключевая стратегия — оптимизация сессии. Необходимо мотивировать зрителя продолжить просмотр после окончания вашего видео. Используйте серийный контент, плейлисты, конечные заставки (End Screens) и прямые призывы к действию, чтобы направить зрителя на следующее релевантное видео. Ваше видео должно быть началом длительной сессии.

Что такое «Percentage Threshold» (Пороговый процент просмотра), упомянутый в Claim 8?

Это механизм фильтрации качества. Система может прогнозировать процент видео, который пользователь посмотрит. Если модель предсказывает, что пользователи будут смотреть менее определенного процента (например, менее 50%), система может исключить это видео из рекомендаций, чтобы не продвигать контент, который часто бросают смотреть.

Влияет ли рекомендация чужих видео на мои показатели?

Да, в контексте этого патента. Если после вашего видео пользователь переходит на чужое видео и смотрит его долго, это время добавляется к Sub-tree Consumption Time вашего видео, так как алгоритму важно удержать пользователя на платформе. Однако для роста собственного канала стратегически выгоднее направлять пользователя на свой контент.

Какие данные о пользователях использует система?

Патент явно упоминает (Claim 6), что в качестве признаков (Features) для модели используются возраст, пол и страна пользователя (при наличии согласия). Это означает, что модель адаптирует прогнозы времени просмотра под демографические и географические характеристики аудитории.

Стоит ли делать видео длиннее, чтобы увеличить время просмотра?

Не обязательно. Хотя длинные видео имеют больший потенциал для накопления времени просмотра, они должны поддерживать высокий уровень удержания. Если пользователи бросают длинное видео в начале (низкий Percentage Threshold), оно будет ранжироваться плохо. Важна комбинация длины и способности вовлекать аудиторию.

Как часто обучается модель прогнозирования?

Патент описывает, что обработка логов и обновление обучающих данных происходит периодически в офлайн-режиме (например, раз в день или раз в несколько часов). Это позволяет модели адаптироваться к изменениям в поведении пользователей и новым трендам контента.