Патент описывает, как платформа (например, YouTube) анализирует социальные данные (комментарии, а также поисковые запросы и просмотры пользователей до и после видео) вокруг пользовательского контента (UGVC), чтобы идентифицировать связанный официальный контент (фильм, шоу). Затем система автоматически генерирует для него «обогащенную веб-страницу», агрегируя структурированные данные (актеры, рецензии, трейлеры).
Описание
Какую задачу решает
Патент решает проблему фрагментации контента на видеохостинговых платформах. Основная задача — надежно связать пользовательский контент (User-Generated Video Content, UGVC), такой как клипы или пародии, с исходным полнометражным материалом (фильмами, ТВ-шоу). Изобретение устраняет недостаток существующих систем, которые неэффективно использовали анализ социальных взаимодействий (Social Data) для этой идентификации и не могли автоматически создавать централизованные, структурированные страницы для исходного контента.
Что запатентовано
Запатентована система для автоматической генерации обогащенных веб-страниц (Rich Web Pages) для медиа-сущностей. Система идентифицирует исходный материал (Target Content File), связанный с UGVC, путем анализа Social Data (комментарии, поведение пользователей до и после просмотра) и/или цифровых отпечатков (Fingerprints). После идентификации система извлекает структурированные данные (Target Data) из Universal Database и генерирует обогащенную страницу сущности.
Как это работает
Механизм работает следующим образом:
- Сбор данных: Платформа получает UGVC и отслеживает связанные с ним Social Data (комментарии, историю поиска и просмотров пользователей).
- Идентификация источника: Targeting Module определяет исходный Target Content File (например, фильм). Это делается путем анализа Social Data (например, упоминаний фильма в комментариях или последующих поисковых запросах) или путем сопоставления Fingerprints.
- Извлечение данных: Система запрашивает Universal Database для получения структурированных Target Data (актеры, сюжет, рецензии).
- Генерация страницы: GUI Module автоматически создает Rich Web Page (хаб сущности), используя полученные данные.
- Связывание: Страница просмотра UGVC дополняется ссылками на сгенерированную Rich Web Page, и наоборот.
Актуальность для SEO
Высокая. Описанные механизмы активно используются на YouTube для организации контента вокруг сущностей (Фильмы, ТВ-шоу, Музыка). Использование Content ID (Fingerprints) и анализ пользовательского поведения для понимания контекста видео и генерации структурированных страниц являются стандартной практикой современных медиа-платформ Google.
Важность для SEO
Патент имеет значительное влияние (7.5/10) на Platform SEO (особенно YouTube) и Entity SEO. Он явно подтверждает использование поведенческих данных (поиск и просмотры до и после взаимодействия с контентом) и социальных сигналов (комментарии) для интерпретации контента и установления связей между ним. Это подчеркивает важность управления сущностями и влияния поведения пользователей на то, как Google классифицирует и организует контент.
Детальный разбор
Термины и определения
- Asset Hosting Site (Сайт хостинга активов)
- Платформа для загрузки и просмотра контента (например, YouTube, как показано на иллюстрациях патента).
- Fingerprint (Цифровой отпечаток)
- Идентификатор контента, основанный на аудио/видео сигнатуре. Используется для сопоставления UGVC с известным контентом (аналог Content ID).
- GUI Module (Модуль графического интерфейса)
- Компонент, генерирующий пользовательский интерфейс, включая Rich Web Pages.
- Rich Web Page / Rich User Interface Document (Обогащенная веб-страница)
- Автоматически сгенерированная страница, посвященная Target Content File. Функционирует как хаб сущности, агрегируя структурированные данные (Target Data).
- Social Data (Социальные данные)
- Критически важный термин. Включает данные об активности пользователей: комментарии, посты в блогах/соцсетях. Также явно включает поведенческие данные: веб-сайты, посещенные пользователем, и поисковые запросы, выполненные пользователем до и после просмотра UGVC.
- Target Content File / Third Party Content File (Целевой файл контента)
- Исходный медиа-файл (например, полнометражный фильм или ТВ-шоу), с которым связан UGVC.
- Target Data (Целевые данные)
- Структурированные данные о Target Content File, извлекаемые из Universal Database. Включают актеров (cast information), сюжет, рецензии, даты релиза и т.д.
- Targeting Module (Модуль таргетинга)
- Компонент, который анализирует Social Data и/или Fingerprints для идентификации Target Content File.
- Universal Database (Универсальная база данных)
- Хранилище Target Data о медиа-сущностях (аналог Knowledge Graph для медиа).
- User Generated Content File (UGVC) (Файл пользовательского контента)
- Контент, загруженный пользователем (клип, пародия), часто производный от Target Content File.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод генерации обогащенной страницы через анализ социальных данных.
- Анализ Social Data (включая комментарии) для UGVC, чтобы определить темы (topics).
- Сопоставление (mapping) этих тем с набором стороннего контента (Third Party Content Files — TPC).
- Определение связи между UGVC (короткое видео) и TPC (длинное видео, частью которого является UGVC) на основе анализа комментариев и тем.
- Извлечение Target Data (внешних данных, описывающих TPC, включая информацию об актерах).
- Генерация Rich User Interface Document для TPC. Этот документ включает Target Data и ссылку на UGVC.
Claims 3 и 9 (Зависимые от 1): Определяют состав Social Data, включая поведенческие сигналы.
Social Data включают веб-сервисы, посещенные пользователем, и поисковые запросы, выполненные пользователем как до (Claim 3), так и после (Claim 9) потребления UGVC. Определение связи между контентом основывается на этих поведенческих данных.
Claim 7 (Зависимый от 1): Описывает альтернативный метод идентификации.
Определение TPC может включать генерацию и сопоставление цифровых отпечатков (Fingerprints) между UGVC и известным контентом.
Где и как применяется
Патент описывает процессы внутри платформы хостинга контента (например, YouTube).
INDEXING – Индексирование и извлечение признаков
- Генерация и хранение Fingerprints.
- Сбор, обработка и индексация Social Data (комментарии, логи поведения пользователей до/после просмотра).
- Хранение структурированных Target Data в Universal Database.
QUNDERSTANDING – Понимание Запросов (и Контента)
Система применяет механизмы понимания для интерпретации контента:
- Анализ Social Data (текста и поведения) для выявления тем (topics), контекста и связанных сущностей в UGVC.
METASEARCH – Метапоиск и Смешивание / Генерация Страниц
Основной этап применения:
- Идентификация связи между UGVC и Target Content File с помощью Targeting Module.
- Генерация Rich Web Page путем агрегации (смешивания) данных из Universal Database с помощью GUI Module.
- Модификация страницы просмотра UGVC путем добавления ссылок на Rich Web Page.
Входные данные:
- Загруженный UGVC файл.
- База данных Fingerprints.
- Social Data (комментарии, логи поведения: поиски до/после, посещения сайтов до/после).
- Universal Database (Target Data).
Выходные данные:
- Сгенерированная Rich Web Page для Target Content File.
- Установленные связи (ссылки) между UGVC и Rich Web Page.
На что влияет
- Конкретные типы контента: Видеоконтент, связанный с медиа-сущностями (фильмы, ТВ-шоу, музыка).
- Форматы контента: Создание нового формата страницы — Rich Web Page, функционирующей как структурированный хаб сущности внутри платформы.
- Организация контента: Способствует организации разрозненного UGVC вокруг канонических сущностей.
Когда применяется
- При загрузке контента: Активация механизма Fingerprinting для поиска совпадений.
- При накоплении данных: Активация анализа Social Data, когда накапливается достаточно данных о поведении пользователей и комментариях для надежной идентификации источника.
Пошаговый алгоритм
Алгоритм на основе социальных данных (согласно FIG. 7 и 9):
- Получение и хранение UGVC: Система сохраняет загруженный контент.
- Мониторинг и получение Social Data: Система отслеживает и получает данные об активности пользователей (комментарии, поиски до/после, посещения сайтов до/после).
- (Опционально) Сопоставление отпечатков: Параллельный поиск совпадений по Fingerprints.
- Определение Target Content File: Анализ Social Data для выявления тем (topics) и ключевых слов. Сопоставление этих тем с медиа-сущностями в Universal Database.
- Извлечение Target Data: Запрос к Universal Database для получения структурированных данных (актеры, рецензии и т.д.) об идентифицированном контенте.
- Генерация Rich Web Page: Создание обогащенной веб-страницы на основе Target Data.
- Генерация и добавление ссылок: Создание навигационных ссылок между UGVC и Rich Web Page.
Какие данные и как использует
Данные на входе
Система использует следующие типы данных:
- Контентные факторы (Мультимедиа): Аудиовизуальное содержание UGVC используется для генерации Fingerprints.
- Поведенческие и Социальные факторы (Social Data): Ключевые данные для патента. Включают:
- Комментарии, видеоответы, посты в блогах/соцсетях, связанные с UGVC.
- Поведенческие последовательности (Claims 3 и 9): Веб-сайты/сервисы, посещенные пользователем до и после просмотра UGVC. Поисковые запросы, выполненные пользователем до и после просмотра UGVC.
- Структурные факторы (Target Data): Данные из Universal Database для генерации Rich Web Page:
- Title data (название, постер).
- Movie release data (жанр, время, рейтинг, год выпуска).
- Synopsis data (краткое содержание, трейлер).
- Movie production data (актеры, режиссеры, сценаристы).
- Review data (рецензии).
- Related content file data (связанные фильмы, интервью).
Какие метрики используются и как они считаются
Патент не приводит формул, но описывает методы анализа:
- Fingerprint Matching: Сопоставление цифровых отпечатков.
- Анализ текста (NLP): Анализ комментариев и текстовых Social Data для извлечения тем (topics) и распознавания именованных сущностей (NER).
- Анализ поведенческих последовательностей: Анализ последовательности действий пользователя (поиск -> просмотр -> поиск/переход) для установления контекстуальной связи между UGVC и сущностями.
- Mapping (Сопоставление): Сопоставление извлеченных тем и сущностей с записями в Universal Database.
Выводы
- Автоматическая генерация хабов сущностей: Патент описывает механизм автоматического создания структурированных страниц (Rich Web Pages) для медиа-сущностей внутри платформы (YouTube). Это подтверждает стратегию организации контента вокруг сущностей (Things not Strings).
- Поведенческие сигналы как ключ к пониманию контента: Критически важный вывод — система явно использует поведение пользователей до и после просмотра видео (поисковые запросы, посещенные сайты) для понимания контекста и связей этого видео (Claims 3 и 9). Это прямое доказательство использования данных сессии пользователя для интерпретации контента.
- Анализ социальных сигналов (Engagement Analysis): Комментарии (Social Data) анализируются для извлечения тем и идентификации сущностей, подтверждая важность естественного вовлечения аудитории.
- Критическая зависимость от структурированных данных: Генерация Rich Web Pages полностью зависит от качества и наличия данных в Universal Database (Knowledge Graph).
- Интеграция разных методов идентификации: Система гибко использует как технический анализ (Fingerprinting), так и контекстуальный/поведенческий анализ для идентификации контента.
Практика
Best practices (это мы делаем)
Рекомендации в первую очередь относятся к SEO на YouTube и управлению медиа-сущностями.
- Обеспечение полноты данных в Knowledge Graph: Критически важно обеспечить наличие полных и точных данных о ваших медиа-сущностях (фильмах, шоу, музыке) в источниках, питающих Universal Database (Knowledge Graph, официальные фиды). Это гарантирует генерацию качественных Rich Web Pages.
- Стимулирование контекстуального вовлечения: Поощряйте пользователей оставлять осмысленные комментарии, упоминающие контекст видео (названия, имена). Эти Social Data используются системой для установления связей и понимания контента.
- Анализ пути пользователя (User Journey): Изучайте, что пользователи ищут до и после просмотра вашего контента. Патент подтверждает, что эти поведенческие паттерны используются для категоризации контента. Стратегия должна учитывать весь контекст сессии пользователя.
- Использование Content ID (Fingerprinting): Для правообладателей использование систем цифровых отпечатков является одним из прямых способов обеспечить идентификацию своего контента в UGVC.
Worst practices (это делать не надо)
- Отключение или игнорирование комментариев: Отключение комментариев лишает систему важного источника Social Data, что может затруднить правильную классификацию видео и его связь с сущностями.
- Игнорирование управления сущностями: Фокусировка только на оптимизации отдельных видео без стратегии управления представлением медиа-актива как сущности в базах данных Google.
- Фрагментация контента с неясными метаданными: Загрузка клипов с кликбейтными или неясными заголовками затрудняет системе их ассоциацию с исходной сущностью.
Стратегическое значение
Патент демонстрирует стратегию Google по превращению платформ в экосистемы, организованные вокруг сущностей. Явное использование поведенческих данных (поиск и просмотры до и после) для интерпретации контента является критически важным инсайтом: Google анализирует контекст всей сессии пользователя для понимания интента и связей контента. Это подчеркивает смещение фокуса с анализа изолированных страниц на анализ поведения и сущностей.
Практические примеры
Сценарий 1: Использование поведенческих данных для идентификации контента
- Действие ДО: Пользователь ищет «лучшие сцены из фильма Матрица».
- Взаимодействие с UGVC: Пользователь смотрит фанатскую компиляцию «Топ 10 экшн-моментов 90-х», которая содержит сцену из «Матрицы», но не упоминает фильм в метаданных.
- Действие ПОСЛЕ: Сразу после просмотра пользователь ищет «купить фильм Матрица» или переходит на страницу фильма на IMDB.
- Анализ Системы: Targeting Module анализирует эту последовательность действий как Social Data (согласно Claims 3 и 9).
- Результат: Система устанавливает связь между UGVC и Target Content File (фильм «Матрица»). На странице просмотра компиляции появляется ссылка на Rich Web Page фильма «Матрица».
Сценарий 2: Использование комментариев для идентификации
- Взаимодействие с UGVC: Пользователи смотрят клип с неясным названием.
- Комментарии (Social Data): Множество пользователей пишут комментарии вроде: «Это моя любимая сцена из сериала Друзья!»
- Анализ Системы: Targeting Module анализирует комментарии, извлекает тему «сериал Друзья».
- Результат: Система устанавливает связь с сериалом и генерирует ссылку на Rich Web Page сериала «Друзья».
Вопросы и ответы
Что такое «Social Data» в этом патенте и почему это важно для SEO?
Это ключевой термин. Помимо комментариев и лайков, он явно включает поведение пользователей: какие сайты они посещали и что искали до и после просмотра видео (Claims 3 и 9). Для SEO это прямое подтверждение того, что Google использует последовательность действий пользователя (User Journey) и контекст сессии для понимания и классификации контента.
Применяется ли этот патент к основному веб-поиску Google?
Патент описывает систему для Asset Hosting Site, и иллюстрации показывают интерфейс YouTube. Хотя базовые принципы (анализ поведения, идентификация сущностей) используются Google повсеместно, описанный механизм генерации Rich Web Pages и связывания UGVC специфичен для платформ типа YouTube или Google TV.
Что такое «Rich Web Page» и как она создается?
Это автоматически генерируемая страница сущности (например, фильма) внутри платформы. Она функционирует как информационный хаб. Система создает ее динамически, агрегируя структурированные данные (Target Data) из Universal Database после того, как идентифицировала фильм на основе анализа UGVC.
Как система узнает, о чем видео, если метаданные нечеткие?
Система использует два основных метода: 1) Fingerprinting (сопоставление аудиовизуального контента, как Content ID). 2) Анализ Social Data — изучение комментариев на предмет упоминания названий или имен, а также отслеживание поведенческих паттернов пользователей до и после просмотра.
Что такое «Universal Database» и как она связана с Knowledge Graph?
Universal Database – это хранилище структурированных данных о медиа-сущностях (фильмах, актерах). Она выполняет функции, аналогичные Google Knowledge Graph, но специализированные для контента платформы. Из нее берутся данные для генерации Rich Web Pages.
Как этот патент влияет на стратегию YouTube SEO?
Он подчеркивает важность стимулирования естественного и содержательного вовлечения. Комментарии, которые обсуждают содержание видео с упоминанием конкретных сущностей, помогают системе правильно классифицировать ваш контент и связать его с авторитетными Rich Web Pages, что улучшает его видимость.
Может ли отключение комментариев на YouTube навредить?
Да, согласно логике патента. Комментарии являются важной частью Social Data, используемых для понимания контекста видео. Отключая их, вы лишаете систему ценного источника информации для классификации контента и установления связей с сущностями.
Как SEO-специалисту повлиять на генерацию этих Rich Web Pages?
Ключевая задача — обеспечить наличие, точность и полноту данных о ваших медиа-сущностях в Google Knowledge Graph (Universal Database). Это достигается через оптимизацию структурированных данных на сайте (Schema.org), работу с авторитетными базами (Wikipedia, IMDb) и предоставление прямых фидов данных.
Учитывает ли система, что пользователь делал до или после просмотра видео?
Да, это критически важный момент патента (Claims 3 и 9). История посещений веб-сайтов и поисковые запросы пользователя до и после просмотра видео являются частью Social Data и используются для интерпретации содержания просматриваемого видео и его контекста.
Учитывает ли система географические ограничения и права доступа?
Да, патент упоминает Authority Module (FIG. 3, FIG. 8A-8B), который проверяет территориальные ограничения и статус контента (приватный/публичный). Система стремится найти альтернативную публичную версию контента, доступную в регионе пользователя, прежде чем генерировать ссылки.