Google использует систему для анализа повторного использования аудио и видеофрагментов между видеороликами. На основе этих данных строится «граф видео», который позволяет вычислить оценки схожести между целыми каналами. Эти оценки используются для удаления спам-каналов, повышения разнообразия в поиске и рекомендациях, а также для распространения тематических сигналов между схожими каналами.
Описание
Какую задачу решает
Патент решает задачу автоматического определения схожести между видеоканалами в рамках крупной видеохостинговой системы (например, YouTube). Это необходимо, когда ручные метаданные ненадежны или отсутствуют. Основная цель — выявить каналы, которые копируют или повторно используют значительные объемы контента (Content Reuse). Это знание используется для решения нескольких проблем: повышения разнообразия (diversity) в результатах поиска и рекомендациях, а также для обнаружения и борьбы с нарушениями (abuse detection), такими как спам-каналы или каналы, нарушающие авторские права.
Что запатентовано
Запатентована система и метод для обнаружения и оценки схожести видеоканалов на основе анализа повторного использования контента. Система строит Video Graph (Граф видео), где узлы представляют видеоролики, а связи (edges) — это идентифицированные совпадения аудио или видеоконтента, превышающие определенный порог длительности. На основе этого графа вычисляются оценки схожести (Similarity Scores) между каналами.
Как это работает
Система работает в несколько этапов:
- Обнаружение совпадений: Система идентифицирует сегменты аудио и/или видео, которые повторяются в разных роликах, и сохраняет эти данные в Matches Store.
- Построение графа видео: Video Graph Module фильтрует совпадения (например, по минимальной длительности) и строит Video Graph.
- Обработка запроса: Система получает Query Set (одно или несколько видео/каналов).
- Расчет схожести: Channel Similarity Module обходит граф, чтобы найти видео в других каналах, которые связаны с Query Set через повторное использование контента.
- Оценка: Вычисляется Similarity Score для каждого найденного канала. Оценка может учитывать количество совпадений, их длительность и популярность (просмотры) видео.
- Применение: Полученные оценки используются для фильтрации результатов поиска, изменения рекомендаций или идентификации спама.
Актуальность для SEO
Высокая. Для платформ уровня YouTube управление огромным объемом контента, борьба с дубликатами, перезаливами и повышение качества рекомендаций являются критически важными задачами. Описанные механизмы повышения разнообразия и обнаружения нарушений на основе фактического анализа контента остаются крайне актуальными.
Важность для SEO
Патент не имеет прямого отношения к традиционному веб-поиску (Web SEO), но имеет критическое значение (7/10) для Video SEO (продвижения на YouTube). Он раскрывает, как повторное использование контента напрямую отслеживается и используется для влияния на видимость канала в поиске и рекомендациях. Система активно стремится к разнообразию и борется с неоригинальным контентом, что делает стратегии, основанные на компиляциях, перезаливах или минимальной переработке чужого контента, высокорискованными.
Детальный разбор
Термины и определения
- Channel (Канал)
- Коллекция видеороликов, связанных друг с другом (например, загруженных одним пользователем или сгруппированных администратором).
- Channel Similarity Module (Модуль схожести каналов)
- Компонент системы, который вычисляет Similarity Scores между каналами на основе данных из Video Graph.
- Content Reuse (Повторное использование контента)
- Ситуация, когда один видеоролик использует сегмент видео или аудиоконтента из другого видеоролика.
- Edge (Связь)
- Элемент Video Graph, соединяющий два узла (видео). Представляет собой совпадение контента, которое превысило пороговое значение фильтрации (например, по длительности).
- Match / Video Match (Совпадение)
- Сегмент видео, который идентичен или достаточно похож на сегмент другого видео.
- Matches Store (Хранилище совпадений)
- База данных, хранящая информацию об идентифицированных совпадениях между видеороликами (ID видео, временные метки, длительность, тип контента).
- Node (Узел)
- Элемент Video Graph, представляющий отдельный видеоролик и его метаданные (включая принадлежность к каналу).
- Query Set (Набор запроса)
- Одно или несколько видео или каналов, предоставленных в качестве входных данных для запроса к Channel Similarity Module.
- Signal Smearing (Распространение сигнала)
- Процесс распространения дескриптора (сигнала, метки) с известного набора каналов на другие схожие каналы, идентифицированные системой. Например, распространение тематической классификации.
- Similarity Score (Оценка схожести)
- Числовое значение, показывающее, насколько канал похож на Query Set на основе повторного использования контента.
- Video Graph (Граф видео)
- Структура данных, состоящая из узлов (видео) и связей (отфильтрованные совпадения контента). Представляет собой отфильтрованную версию данных из Matches Store.
- Video Hosting System (Видеохостинговая система)
- Онлайн-система (например, YouTube), позволяющая пользователям загружать, хранить и просматривать видео.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод обнаружения и оценки схожести между видеоканалами.
- Система получает набор запроса (query video set), состоящий из одного или более видео.
- Из Video Graph извлекается набор совпавших видео (video match set). Ключевое условие: совпадение должно иметь по крайней мере пороговую длительность (threshold duration) идентичного контента с видео из набора запроса.
- Для каждого видео из набора совпадений определяется связанный с ним канал.
- Вычисляется Similarity Score между каждым видео из набора запроса и каждым видео из набора совпадений.
- Эти оценки схожести агрегируются по каналам для генерации общей оценки канала (channel score).
- Оценки каналов отправляются инициатору запроса.
Claims 2, 3, 4 (Зависимые): Уточняют, как может рассчитываться Similarity Score между двумя видео.
- Claim 2: На основе отношения длительности совпадения (match duration ratio).
- Claim 3: На основе отношения длительности совпадения с учетом просмотров (match view-duration ratio).
- Claim 4: На основе факта существования совпадения (связи в графе).
Claims 5, 6 (Зависимые): Уточняют методы агрегации индивидуальных оценок в общую оценку канала.
- Claim 5: Агрегация путем суммирования результатов (Sum of Evidence).
- Claim 6: Агрегация путем умножения результатов (Product of Evidence).
Claims 9-13 (Зависимые): Описывают конкретные применения технологии.
- Claim 9 (Abuse Detection): Использование списка «abusivе» (нарушающих правила) видео как Query Set для поиска схожих каналов и их последующего удаления.
- Claim 10 (Search Diversity): Использование каналов из результатов поиска как Query Set для идентификации схожих каналов (повторяющих контент) и удаления их из результатов поиска для повышения разнообразия.
- Claim 11 (Recommendation Diversity): Использование просмотренных пользователем видео как Query Set для поиска схожих каналов и исключения их из рекомендаций.
- Claim 12 (Watch Next): Использование текущего просматриваемого видео как Query Set для поиска схожих каналов и исключения их видео из блока «Смотреть далее».
- Claim 13 (Signal Smearing): Использование аннотированного набора каналов (с известным сигналом/меткой) как Query Set для поиска схожих каналов и применения к ним взвешенной оценки этого сигнала (распространение метки).
Где и как применяется
Изобретение применяется исключительно в рамках Video Hosting System (например, YouTube) и затрагивает несколько этапов обработки контента и формирования выдачи.
CRAWLING / INDEXING (Сканирование и Индексирование)
На этих этапах происходят ключевые процессы подготовки данных:
- Извлечение метаданных видео, включая идентификаторы каналов (Channel ID).
- Анализ аудио и видео дорожек для обнаружения совпадений (Content Reuse).
- Сохранение сырых данных о совпадениях в Matches Store.
- Построение Video Graph: Video Graph Module фильтрует совпадения по порогу длительности и создает структуру графа.
RANKING / RERANKING / METASEARCH (Ранжирование, Переранжирование, Метапоиск в контексте видеоплатформы)
Channel Similarity Module активно используется на финальных этапах для модификации результатов поиска и рекомендаций.
- Поиск (Search Diversity): На этапе формирования поисковой выдачи (RERANKING/METASEARCH) система может идентифицировать и удалить или понизить каналы, которые слишком похожи на уже присутствующие в результатах (Claim 10).
- Рекомендации (Recommendation Diversity / Watch Next): При генерации ленты рекомендаций или блока «Смотреть далее» система использует оценки схожести для фильтрации контента и повышения разнообразия (Claims 11, 12).
Другие процессы:
- Abuse Detection: Отдельный процесс модерации, который использует Channel Similarity Module для идентификации кластеров спам-каналов или каналов, нарушающих авторские права (Claim 9).
- Классификация (Signal Smearing): Процесс обогащения данных, использующий схожесть для распространения тематических или качественных меток между каналами (Claim 13).
Входные данные:
- Video Graph.
- Video Metadata (принадлежность к каналам, количество просмотров).
- Query Set (набор видео или каналов для сравнения).
Выходные данные:
- Список схожих каналов с их оценками (Channel Scores).
На что влияет
- Конкретные типы контента: Влияет исключительно на видеоконтент, анализируя как видео, так и аудио дорожки.
- Конкретные ниши или тематики: Наибольшее влияние оказывается на ниши с высоким уровнем повторного использования контента: компиляции, нарезки новостей, игровые стримы, музыкальные клипы, обзоры и реакции.
Когда применяется
- Триггеры активации: Алгоритм расчета схожести активируется при:
- Выполнении пользователем поиска на платформе.
- Генерации рекомендаций для пользователя (главная страница, «Смотреть далее»).
- Запуске процессов модерации контента (поиск спама).
- Запуске процессов классификации контента (Signal Smearing).
- Пороговые значения: Ключевым порогом является минимальная длительность совпадения (threshold duration), необходимая для того, чтобы совпадение было включено в Video Graph. В патенте упоминается пример порога в 48 секунд.
Пошаговый алгоритм
Процесс А: Построение Графа Видео (Офлайн)
- Сбор данных о совпадениях: Идентификация всех случаев повторного использования аудио/видео контента и сохранение их в Matches Store.
- Фильтрация: Video Graph Module обрабатывает данные из Matches Store и отбирает только те совпадения, которые превышают заданный порог (например, по длительности или уровню уверенности).
- Построение графа: Создание Video Graph. Для каждого видео создается узел с метаданными (включая Channel ID). Между узлами создаются связи, если между ними есть отфильтрованное совпадение.
- Обновление: Периодическое обновление графа при добавлении или удалении видео.
Процесс Б: Расчет схожести каналов (Онлайн/По запросу)
- Получение запроса: Система получает Query Set (например, одно видео, канал или набор каналов).
- Идентификация совпадений: Channel Similarity Module использует Video Graph для поиска всех видео, которые имеют связи (совпадения) с видео из Query Set.
- Идентификация каналов: Определяются каналы, к которым принадлежат найденные совпавшие видео.
- Вычисление индивидуальных оценок: Для каждой пары связанных видео (одно из Query Set, другое из найденного канала) вычисляется индивидуальный Similarity Score. Для этого используются выбранные метрики (например, Match Duration Ratio или Match View-Duration Ratio).
- Агрегация оценок: Индивидуальные оценки агрегируются на уровне канала с использованием выбранного метода:
- Sum of Evidence (Суммирование): Предпочитает большие каналы с большим количеством совпадений.
- Product of Evidence (Умножение): Предпочитает каналы с наиболее консистентными и сильными совпадениями.
- Выдача результатов: Предоставление списка схожих каналов, отсортированных по итоговой оценке схожести.
Процесс В: Применение (Пример: Повышение разнообразия поиска)
- Получение поискового запроса от пользователя.
- Генерация первичных результатов поиска.
- Определение каналов, представленных в результатах поиска.
- Выполнение запроса схожести: Использование этих каналов как Query Set (Multiple Channel Query).
- Получение списка схожих каналов, которые повторяют контент из Query Set.
- Фильтрация: Удаление из результатов поиска каналов, которые были идентифицированы как слишком похожие, для повышения разнообразия.
- Предоставление результатов пользователю.
Какие данные и как использует
Данные на входе
- Контентные факторы: Аудио и видео дорожки загруженных роликов. Это основные данные для обнаружения Content Reuse.
- Структурные факторы (Метаданные): Идентификаторы видео (Video ID) и идентификаторы каналов (Channel ID).
- Поведенческие факторы: Количество просмотров (Views) отдельных видео и общее количество просмотров каналов. Используются для взвешивания оценок схожести.
Какие метрики используются и как они считаются
Система использует несколько метрик для расчета схожести:
- Match Duration (Длительность совпадения): Абсолютная длина совпадающего сегмента. Используется для фильтрации при построении Video Graph.
- Number of Distinct Matching Videos (Число различных совпадающих видео): Простой подсчет количества видео в канале, которые имеют хотя бы одно совпадение с Query Set.
- Connectivity (Связность): Метрика, учитывающая отношение числа существующих связей между двумя каналами к максимально возможному числу связей (нормализация по размеру каналов). (Eq. 3, 4).
- Match Duration Ratio (Отношение длительности совпадения): Учитывает долю (фракцию) видео, которая совпадает с другим видео. Нормализуется по длине видео и размеру каналов. (Eq. 5, 6).
- Match View-Duration Ratio (Отношение длительности совпадения с учетом просмотров): Усложненная версия Match Duration Ratio, которая также учитывает популярность (просмотры) видео относительно их каналов. Повышает вес совпадений в популярных видео. (Eq. 7, 8).
Методы агрегации:
- Sum of Evidence (Сумма доказательств): Агрегация путем суммирования индивидуальных оценок схожести (Eq. 1). Формула: S=Σ_{i,j}Π_{k}(1+v_{
u}v_{j}))-1 - Product of Evidence (Произведение доказательств): Агрегация путем умножения индивидуальных оценок схожести (Eq. 2). Формула: S=Π_{i,j}Π_{k}(1+f_{k}(v_{x},v_{j}))-1
Выводы
Этот патент описывает инфраструктуру и алгоритмы, критически важные для функционирования крупной видеоплатформы, такой как YouTube. Основные выводы для специалистов по Video SEO:
- Повторное использование контента — это измеримый сигнал: Система точно отслеживает, кто, что и в каком объеме повторно использует. Это не предположение, а конкретные данные в Video Graph.
- Схожесть основана на контенте, а не только метаданных: Оценка схожести каналов базируется на фактическом совпадении аудио и видео дорожек, что делает манипуляции с метаданными (теги, описания) неэффективными для сокрытия дубликатов.
- Активная борьба за разнообразие (Diversity): Патент прямо указывает, что оценки схожести используются для удаления похожих каналов из поиска и рекомендаций (Watch Next, Home Feed). Доминирование неоригинального контента активно подавляется.
- Популярность (Views) влияет на оценку схожести: Метрика Match View-Duration Ratio показывает, что просмотры используются как весовой коэффициент. Повторное использование контента из популярных видео имеет больший вес.
- Распространение сигналов (Signal Smearing): Система может автоматически распространять тематические или качественные метки между схожими каналами. Если канал А классифицирован как «Спам», канал Б, активно использующий контент А, также может унаследовать этот сигнал.
- Борьба со спамом (Abuse Detection): Идентификация кластеров схожих каналов является ключевым механизмом для обнаружения и удаления сетей спам-каналов.
Практика
Best practices (это мы делаем)
Рекомендации применимы исключительно к Video SEO (YouTube).
- Фокус на оригинальном контенте: Создание уникального аудиовизуального контента является лучшей стратегией. Минимизация использования длинных фрагментов чужого контента снижает риск классификации канала как «похожего» и последующей пессимизации ради разнообразия.
- Добавление значительной ценности при использовании чужого контента: Если контент используется в рамках добросовестного использования (обзоры, реакции, критика), необходимо убедиться, что объем оригинального контента и добавленная ценность значительно превышают объем заимствованного материала. Система анализирует Match Duration Ratio.
- Мониторинг кражи контента: Если другие каналы массово копируют ваш контент, это может негативно повлиять на видимость вашего канала. Система может посчитать ваш канал и каналы-копии слишком похожими и снизить показы ради разнообразия. Используйте инструменты защиты авторских прав.
- Стратегическое использование Signal Smearing: Понимание того, что тематика распространяется через схожесть контента, подчеркивает важность фокусировки канала на одной нише для четкой классификации.
Worst practices (это делать не надо)
- Создание каналов-компиляций: Каналы, состоящие из нарезок чужих видео («Топ 10 моментов», «Смешные кошки») с минимальными изменениями, имеют высокие Similarity Scores с исходными каналами и друг с другом. Это приводит к их удалению из поиска и рекомендаций.
- Перезаливка популярных видео: Прямое копирование чужого контента (пиратство, перезаливы) легко обнаруживается и ведет к блокировке канала (Abuse Detection).
- Создание сетей схожих каналов (Спам): Массовое создание каналов со слегка измененным или перекомпонованным контентом. Система эффективно обнаруживает такие сети через Multiple Channel Query и блокирует их.
- Использование длинных вставок без изменений: Вставка длинных (более порога, например, 48 секунд) фрагментов чужого контента без добавления комментариев или изменений увеличивает Match Duration Ratio.
Стратегическое значение
Патент подтверждает стратегический приоритет YouTube на продвижение оригинального контента и борьбу с дубликатами. Оригинальность является фундаментальным фактором для долгосрочного успеха на платформе. Система рекомендаций и поиск настроены на предоставление пользователю разнообразного опыта, что означает активное подавление видимости каналов, которые повторно используют контент, даже если этот контент популярен.
Практические примеры
Сценарий 1: Повышение разнообразия в поиске
- Запрос: Пользователь ищет «Обзор iPhone 16».
- Первичная выдача: В топе много каналов, которые используют одинаковые официальные видеоматериалы Apple (высокий Content Reuse).
- Активация механизма: Система запускает Multiple Channel Query и определяет, что каналы A, B и C очень похожи друг на друга.
- Результат: Система оставляет в выдаче только канал А (например, самый авторитетный или с наибольшим количеством просмотров), а каналы B и C удаляются из топа ради показа других, менее похожих результатов.
Сценарий 2: Signal Smearing и классификация
- Исходные данные: Канал «National Geo» имеет сигнал «Высококачественный документальный контент о животных».
- Повторное использование: Канал «User123» загружает компиляции лучших моментов из видео «National Geo».
- Активация механизма: Система определяет высокую схожесть между «National Geo» и «User123».
- Результат (Signal Smearing): Система автоматически присваивает каналу «User123» сигнал «Контент о животных», но также может присвоить сигнал «Неоригинальный контент» или «Компиляция», что повлияет на его монетизацию и рекомендации.
Вопросы и ответы
Применим ли этот патент к традиционному веб-поиску Google?
Нет. Патент описывает системы и методы, разработанные специально для Video Hosting System (например, YouTube). Он фокусируется на анализе аудио и видео дорожек и структуре видеоканалов. Эти механизмы не применяются для ранжирования текстового контента на веб-сайтах.
Что такое Video Graph и как он строится?
Video Graph — это основная структура данных, где каждый узел представляет собой видеоролик, а связь между двумя узлами означает, что между ними есть совпадение контента (аудио или видео). Граф строится путем анализа всех видео на платформе, идентификации совпадений и последующей фильтрации. В граф включаются только те совпадения, которые превышают определенный порог длительности (например, 48 секунд).
Как рассчитывается схожесть каналов? Что важнее: количество совпадений или их длительность?
Патент описывает несколько методов. Можно считать просто количество совпадающих видео. Однако более продвинутые методы используют Match Duration Ratio (учитывает длительность совпадений) и Match View-Duration Ratio (учитывает длительность и просмотры). Это означает, что и количество, и длительность важны, но более длинные совпадения и совпадения в популярных видео дают больший вклад в оценку схожести.
Как влияют методы агрегации Sum of Evidence и Product of Evidence на результаты?
Sum of Evidence (Суммирование) предпочитает большие каналы, у которых много разных совпадений с исходным набором. Product of Evidence (Умножение) предпочитает каналы с наиболее сильными и консистентными совпадениями, так как положительные доказательства имеют более сильный усиливающий эффект. Выбор метода зависит от задачи, которую решает система.
Как этот патент влияет на каналы, делающие компиляции или обзоры?
Влияние значительное и преимущественно негативное. Такие каналы по определению имеют высокий уровень Content Reuse. Патент описывает механизмы (Claims 10, 11, 12), которые специально разработаны для снижения видимости таких каналов в поиске и рекомендациях ради повышения разнообразия. Чтобы минимизировать риск, необходимо добавлять значительную оригинальную ценность и следить, чтобы доля заимствованного контента была невысокой.
Что такое Signal Smearing и как это работает?
Signal Smearing (Распространение сигнала) — это процесс автоматического переноса меток (сигналов) с одного канала на другой, если они признаны похожими. Например, если канал А классифицирован как «Игры», а канал Б активно использует контент канала А, система автоматически присвоит каналу Б метку «Игры». Это используется для тематической классификации, но также может распространять и негативные сигналы (например, «Спам»).
Как система использует схожесть для борьбы со спамом?
Система использует механизм, описанный в Claim 9. Если идентифицирован набор видео или каналов, нарушающих правила (например, спам), система выполняет запрос схожести, чтобы найти все другие каналы, которые похожи на них (например, используют тот же контент или шаблоны). Затем эти схожие каналы могут быть автоматически удалены или отключены.
Влияет ли популярность видео на расчет схожести?
Да, влияет. Патент описывает метрику Match View-Duration Ratio. Она учитывает количество просмотров видео и канала при расчете веса совпадения. Совпадения, затрагивающие более популярные видео, вносят больший вклад в итоговую оценку схожести канала.
Есть ли минимальный порог длительности совпадения, который учитывает система?
Да. Патент явно указывает на использование порога длительности (threshold duration) при построении Video Graph. Совпадения короче этого порога игнорируются для снижения шума. Хотя конкретное значение не зафиксировано в Claims, в описании патента упоминается пример порога в 48 секунд.
Что делать, если мой оригинальный контент украли, и теперь мой канал пессимизирован за схожесть?
Это реальный риск, вытекающий из механизмов повышения разнообразия. Если система считает ваш канал и канал-копию слишком похожими, она может снизить показы обоим. В этом случае необходимо активно использовать инструменты YouTube для защиты авторских прав (Content ID или подача жалоб), чтобы удалить неправомерно скопированный контент и устранить источник схожести.