Как Google использует историю поисковых запросов на платформе для выявления пиратского контента, обходящего автоматические фильтры (Content ID)

Google использует механизм для обнаружения медиаконтента (например, видео на YouTube), который обходит стандартные системы контент-анализа (Content ID). Система анализирует историю поисковых запросов, которые приводили пользователей к уже удаленному (пиратскому) контенту. Затем она находит другие материалы, появлявшиеся в тех же результатах поиска, и оценивает их с помощью неконтентных сигналов (возраст канала, история нарушений), чтобы выявить потенциальные копии.

Описание

Какую задачу решает

Патент решает проблему неэффективности стандартных систем анализа контента (например, Content ID) против пользователей, которые намеренно модифицируют медиа-элементы (например, обрезают видео, добавляют рамки, изменяют аудио), чтобы обойти автоматическое обнаружение и не превысить порог совпадения (match threshold). Цель — обнаружить такой модифицированный контент (результат circumventing actions), используя non-content based signals (сигналы, не основанные на содержании).

Что запатентовано

Запатентована система (Media Matching Engine), которая использует анализ истории поисковых запросов (Search Query Analysis) на медиахостинговой платформе для выявления потенциальных нарушений авторских прав. Если один медиа-элемент был удален за нарушение, система анализирует, какие поисковые запросы приводили к нему пользователей. Другие медиа-элементы, найденные по тем же запросам, помечаются как потенциальные копии и проверяются с использованием дополнительных факторов риска.

Как это работает

Система работает постфактум:

Идентификация нарушения: Определяется медиа-элемент, который был удален с платформы по запросу правообладателя (Removed Media Item).
Анализ истории поиска: Система анализирует логи поиска (history of search queries), чтобы определить, по каким запросам пользователи находили этот удаленный элемент.
Идентификация кандидатов: Определяются другие медиа-элементы, которые также присутствовали в результатах поиска по этим же запросам.
Анализ рисков: Кандидаты оцениваются с использованием дополнительных факторов (Factors), таких как возраст канала или история нарушений, чтобы выявить элементы, которые, вероятно, обошли первичный анализ.
Принятие мер: Список подозрительных кандидатов предоставляется правообладателю для проверки или обрабатывается автоматически.

Актуальность для SEO

Высокая (для платформ управления контентом). Борьба с пиратством и методами обхода автоматических фильтров (таких как Content ID на YouTube) остается критически важной задачей для любой крупной UGC-платформы (User Generated Content). Использование поведенческих данных поиска для этой цели является актуальным подходом.

Важность для SEO

Влияние на традиционное веб-SEO минимальное (2/10). Патент не описывает алгоритмы ранжирования Google Search. Он описывает внутренний механизм модерации и защиты авторских прав, специфичный для медиахостинговых платформ (например, YouTube). Для специалистов по YouTube SEO (VSEO) он имеет умеренное значение, так как раскрывает конкретные Factors (возраст канала, история нарушений, спам-индикаторы), которые Google использует для оценки надежности источника контента на платформе.

Детальный разбор

Термины и определения

Candidate Media Item (Кандидатный медиа-элемент): Медиа-элемент, найденный в тех же результатах поиска, что и ранее удаленный элемент. Рассматривается как потенциально совпадающий с эталоном.
Circumventing Actions (Действия по обходу): Намеренные модификации контента пользователем (например, обрезка, добавление рамок) с целью обмануть систему автоматического анализа контента.
Content Matching Classifier (Классификатор совпадения контента): Компонент, выполняющий сравнение контента кандидата с эталоном. Может использоваться для вторичной проверки с более низким порогом совпадения (Content Matching Threshold).
Factors / Additional Factors (Факторы / Дополнительные факторы): Неконтентные сигналы, используемые для оценки вероятности того, что кандидат является модифицированной копией. Включают возраст канала, историю удалений, индикаторы спама и т.д.
Factor Analyzer (Анализатор факторов): Компонент, оценивающий вероятность совпадения на основе Factors.
Media Hosting Platform (Медиа-хостинговая платформа): Платформа для обмена контентом (например, YouTube).
Media Matching Engine (Система сопоставления медиа): Основная система, описанная в патенте, которая выполняет анализ поисковых запросов для поиска совпадающего контента.
Reference Media Item (Эталонный медиа-элемент): Оригинальный медиа-элемент, предоставленный владельцем, используемый для сравнения.
Removed Media Item / First Media Item (Удаленный / Первый медиа-элемент): Медиа-элемент, который ранее был удален с платформы из-за совпадения с эталоном. Служит отправной точкой для анализа.
Search History (История поиска): Данные, содержащие выполненные поисковые запросы, полученные результаты поиска и количество просмотров (Viewcount) этих результатов пользователями.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обнаружения контента, обходящего фильтры.

Идентификация первого медиа-элемента, который был удален с платформы, так как анализ контента показал его совпадение с эталонным элементом.
Идентификация признака того, что один или несколько дополнительных медиа-элементов не были идентифицированы как совпадения из-за действий по обходу (circumventing actions). Этот шаг включает:
1. Идентификацию поискового запроса, связанного с первым (удаленным) элементом на основе истории поиска.
2. Определение того, что дополнительные медиа-элементы также присутствовали в результатах этого поискового запроса.
Анализ этих дополнительных медиа-элементов на основе дополнительных факторов (additional factors) для выявления подмножества, которое, вероятно, было подвергнуто действиям по обходу.
Предоставление этого подмножества правообладателю для принятия решений.

Критически важно, что Claim 1 явно перечисляет additional factors: возраст канала (channel age), владелец канала, количество связанных каналов, трафик канала, количество подписчиков, активность канала, спам-индикатор (spam indicator), история удалений медиа-элементов (media item removal history) или соотношение аудио к видео.

Claim 4 (Зависимый от 1): Уточняет метод выбора поискового запроса.

Запрос выбирается, если общее количество связанных с ним медиа-элементов, которые были удалены с платформы (по любым запросам на удаление), превышает первый порог. Это позволяет фокусироваться на запросах с высоким «пиратским потенциалом».

Claim 5 (Зависимый от 1): Уточняет альтернативный метод выбора поискового запроса.

Запрос выбирается, если количество пользователей, просмотревших первый (удаленный) медиа-элемент именно из результатов этого запроса, превышает второй порог. Это позволяет фокусироваться на популярных путях доступа к нарушающему контенту.

Claim 8 (Зависимый от 1): Уточняет процесс идентификации подмножества.

Выполняется сравнение контента дополнительного медиа-элемента с эталонным. Элемент добавляется в подмножество, если уровень совпадения контента превышает заданный порог (specified match threshold). Патент предполагает, что этот порог может быть ниже стандартного.

Claim 9 (Независимый пункт): Описывает систему, аналогичную Claim 1, но с автоматическим выполнением действий.

Система выполняет те же шаги анализа, что и в Claim 1 (идентификация удаленного элемента, анализ истории поиска, анализ факторов риска), но вместо предоставления результатов владельцу для ручной проверки, она автоматически выполняет действие в отношении выявленного подмножества в соответствии с правилами (rules), указанными владельцем.

Где и как применяется

Этот патент не относится к архитектуре веб-поиска Google (Web Search). Он описывает систему модерации и защиты авторских прав, работающую на медиахостинговой платформе (например, YouTube) и использующую данные ее внутреннего поиска и систем аналитики.

INDEXING – Индексирование (В рамках платформы)
На этом этапе платформа индексирует контент и, что важно для этого патента, извлекает и сохраняет неконтентные сигналы (Factors) для каждого медиа-элемента и канала (возраст, активность, история нарушений).

RANKING / QUNDERSTANDING (В рамках платформы)
Поисковая система платформы обрабатывает запросы и ранжирует результаты. В процессе этой работы генерируется и сохраняется детальная Search History (логи запросов, результатов и просмотров).

Система Модерации (Вне основного потока поиска)
Описанный Media Matching Engine работает асинхронно или по расписанию, анализируя данные, собранные на предыдущих этапах.

Входные данные:
- База данных удаленных медиа-элементов (Removed Media Item).
- База данных эталонных медиа-элементов (Reference Media Item).
- История поисковых запросов платформы (Search History).
- Неконтентные факторы (Factors).
Выходные данные:
- Список кандидатных медиа-элементов (Candidate Media Item) для проверки.
- Автоматические действия (удаление, блокировка) согласно Owner Rules.

На что влияет

Конкретные типы контента: Медиаконтент, подверженный пиратству и часто искомый пользователями: фильмы, музыкальные клипы, ТВ-шоу, спортивные трансляции.
Конкретные ниши или тематики: Киноиндустрия, музыка, спорт.
Специфические запросы: Запросы, которые часто используются для поиска нелегального контента (например, содержащие «смотреть онлайн», «полный фильм», «бесплатно»).

Когда применяется

Триггеры активации: Идентификация медиа-элемента, который был удален с платформы (Removed Media Item). Анализ может быть ограничен временным окном (Time Threshold, например, последние 3 месяца), чтобы обеспечить актуальность поисковых трендов.
Условия применения: Наличие достаточного количества данных в истории поиска, связанных с удаленным объектом.
Пороговые значения: Применяются пороги для определения значимости поискового запроса (Порог 1 по количеству удалений, Порог 2 по количеству просмотров).

Пошаговый алгоритм

Процесс работы Media Matching Engine:

Идентификация удаленного элемента: Система идентифицирует первый медиа-элемент, удаленный с платформы из-за совпадения с эталоном.
Идентификация релевантных поисковых запросов: Query Analyzer анализирует Search History и находит поисковые запросы, в результатах которых присутствовал удаленный элемент.
Фильтрация поисковых запросов (Валидация): Выбранные запросы проверяются по критериям значимости:
- Критерий 1 (Популярность): Превышает ли количество пользователей, просмотревших удаленный элемент через этот запрос, заданный порог (Claim 5).
- Критерий 2 (Токсичность): Превышает ли общее количество ранее удаленных элементов, связанных с этим запросом, заданный порог (Claim 4).
Получение кандидатов: Candidate Media Determiner получает список других медиа-элементов (кандидатов), которые также присутствовали в результатах валидированных запросов.
Фильтрация кандидатов (Отбор подмножества): Система отбирает подмножество кандидатов для дальнейших действий, используя комбинацию методов:
- Фильтр исключений (Exclusion Filter): Исключение элементов, принадлежащих доверенным владельцам.
- Анализ факторов (Factor Analyzer): Оценка вероятности обхода защиты с помощью неконтентных сигналов (Factors): возраст канала, история нарушений, индикаторы спама и т.д.
- Контент-анализ (Content Matching Classifier) (Опционально): Сравнение контента кандидата с эталоном с использованием заданного (возможно, пониженного) порога совпадения (Claim 8).
Выполнение действий: Actions Module выполняет одно из действий:
- Предоставление отобранного подмножества владельцу эталона для ручной проверки (Claim 1).
- Автоматическое выполнение действий (удаление, блокировка) в соответствии с правилами владельца (Owner Rules) (Claim 9).

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании логов поиска и метаданных платформы.

Поведенческие факторы (Критические):
- Search History: Журналы поисковых запросов на платформе.
- Viewcount: Количество просмотров медиа-элемента, полученных непосредственно из результатов конкретного поискового запроса.
Метаданные и Факторы (Additional Factors): Система использует широкий спектр неконтентных сигналов для оценки риска (перечислены в Claim 1):
- Возраст канала (channel age).
- Владелец канала (channel owner) и количество связанных каналов у владельца.
- Трафик канала (channel traffic) и количество подписчиков.
- Активность канала (channel activity).
- Индикатор спама (spam indicator).
- История удалений медиа-элементов (media item removal history).
Мультимедиа/Технические факторы:
- Размер медиа-элемента (size of media item).
- Соотношение аудио к видео (audio to video ratio).

Какие метрики используются и как они считаются

Первый порог (Threshold 1, Claim 4): Минимальное количество уже удаленных медиа-элементов, связанных с поисковым запросом, чтобы считать его значимым.
Второй порог (Threshold 2, Claim 5): Минимальное количество пользователей, которые просмотрели удаленный элемент, придя из результатов поиска по запросу.
Вероятность совпадения (Likelihood of match): Оценка, рассчитываемая Factor Analyzer на основе Factors. Патент упоминает, что факторам могут присваиваться веса для расчета общего балла.
Порог совпадения контента (Content Matching Threshold): Процент совпадения контента, используемый для дополнительной валидации. Может быть ниже стандартного порога.

Выводы

Борьба с обходом фильтров с помощью поведения пользователей: Патент описывает конкретный механизм для борьбы с модификацией контента (circumventing actions). Система использует «мудрость толпы» в поиске: если пользователи ищут определенный контент (например, фильм), то результаты поиска с высокой вероятностью будут содержать этот контент, даже если он технически модифицирован.
Использование неконтентных сигналов для классификации: Система опирается на метаданные (Factors) и поведенческие сигналы (Search History), когда анализ самого контента неэффективен или был обойден.
Критерии оценки надежности канала/автора: Патент явно перечисляет факторы (additional factors), используемые для идентификации подозрительной активности: возраст канала, история спама, история удалений и т.д. Это ценный список сигналов, которые Google ассоциирует с низким качеством или манипулятивным поведением на платформе.
Адаптивные пороги сопоставления: Система может использовать более низкие пороги Content Matching для контента, который уже помечен как подозрительный на основе неконтентных сигналов, что повышает эффективность обнаружения.
Инфраструктурный характер: Это инструмент для внутренних нужд платформы (модерация, защита авторских прав), а не алгоритм, влияющий на ранжирование в поиске для пользователей.

Практика

ВАЖНО: Патент является инфраструктурным и описывает внутренние процессы модерации на медиахостинговой платформе (например, YouTube). Он не дает прямых рекомендаций для традиционного веб-SEO. Анализ ниже сфокусирован на YouTube SEO (VSEO) и стратегиях создания контента на платформе.

Best practices (это мы делаем)

Построение авторитетности и надежности канала: Перечисленные additional factors (возраст канала, история, активность) напрямую связаны с доверием к каналу. Долгосрочная стратегия развития канала и поддержание «чистой» истории (media item removal history) снижает вероятность ложных срабатываний и подтверждает легитимность контента в глазах системы классификации.
Создание оригинального контента: Это критически важно. Патент показывает, что даже если чужой контент был модифицирован и прошел первичную автоматическую проверку (Content ID), он все равно может быть обнаружен позже через анализ поискового поведения.
Мониторинг поисковых запросов (YouTube Analytics): Понимание того, по каким запросам пользователи находят ваш контент, важно. Убедитесь, что ваш контент не ассоциируется с запросами, которые массово используются для поиска спама или пиратского контента.

Worst practices (это делать не надо)

Загрузка модифицированного чужого контента (Серый контент, Пиратство): Использование тактик обхода (обрезка, изменение звука) не гарантирует безопасность. Эта система специально разработана для обнаружения такого контента.
Массовое создание новых каналов (Churn and Burn): Система использует возраст канала (channel age) и количество связанных каналов у одного владельца как индикаторы риска. Стратегии, основанные на быстром создании и забрасывании каналов, помечаются как подозрительные.
Оптимизация под «пиратские» запросы: Использование заголовков и метаданных, нацеленных на запросы, связанные с нелегальным контентом (например, «Full Movie Free»), увеличивает вероятность того, что ваш контент попадет под анализ этой системы, особенно если он появляется в выдаче рядом с уже удаленным контентом.

Стратегическое значение

Патент подтверждает стратегию Google по использованию комплексного анализа поведения пользователей и репутации сущностей (каналов, авторов) для оценки контента. Для создателей контента стратегический приоритет должен отдаваться созданию оригинального контента и построению долгосрочной репутации канала. Он также демонстрирует сложность и многоуровневость систем модерации, которые выходят за рамки простого анализа содержимого файлов.

Практические примеры

Сценарий: Выявление серого канала с фильмами на YouTube

Эталонный контент: Правообладатель загружает фильм «Tiger Queen» в систему управления правами (Reference Media Item).
Нарушение 1 (Обнаружено): Пользователь А загружает прямую копию. Content ID обнаруживает совпадение, и видео удаляется (становится Removed Media Item).
Анализ поиска: Media Matching Engine анализирует логи и видит, что 5000 пользователей нашли удаленное видео по запросу «смотреть фильм Tiger Queen полностью». Система помечает этот запрос как значимый (порог превышен).
Нарушение 2 (Обход фильтра): Пользователь Б загружает «T1ger Qu33n Movie (HD)». Видео обрезано, добавлена рамка. Content ID не срабатывает.
Обнаружение кандидата: Система видит, что видео Пользователя Б также показывается в результатах поиска по значимому запросу «смотреть фильм Tiger Queen полностью».
Анализ рисков: Factor Analyzer проверяет факторы. Канал Пользователя Б создан вчера (малый channel age) и имеет индикаторы спама. Видео помечается как высокорискованное.
Действие: Видео Пользователя Б добавляется в список кандидатов и отправляется правообладателю на ручную проверку или блокируется автоматически (согласно Claim 9), несмотря на то, что оно обошло автоматический фильтр.

Вопросы и ответы

Влияет ли этот патент на ранжирование видео в поиске YouTube или сайтов в Google Search?

Нет, напрямую не влияет. Этот патент описывает систему модерации и защиты авторских прав, которая работает постфактум для выявления нарушений. Он не определяет, какие видео или сайты показывать выше в ответ на запрос. Однако он дает представление о факторах надежности канала, которые Google учитывает.

Чем эта система отличается от Content ID?

Content ID работает путем анализа самого контента (видеоряда, аудиодорожки) и сравнения его с эталоном, обычно в момент загрузки. Описанная система использует неконтентные сигналы (non-content signals) — анализ поискового поведения и метаданных канала. Она предназначена для поиска контента, который был намеренно изменен, чтобы обмануть Content ID.

Как система узнает, по каким запросам пользователи находили удаленное видео?

Медиахостинговая платформа ведет подробные внутренние логи поиска (Search History). Эти логи содержат информацию о том, какой запрос ввел пользователь, какие результаты были показаны и на какой результат пользователь кликнул (Viewcount для конкретной пары запрос-результат). Система анализирует эти данные для установления связи.

Может ли мой оригинальный контент быть ошибочно помечен этой системой?

Теоретически это возможно, если ваш контент часто появляется в результатах поиска рядом с пиратским контентом по тем же запросам. Однако патент предусматривает анализ факторов риска (Factor Analyzer). Если у вас авторитетный канал с чистой историей (media item removal history), риск минимален. Также используется фильтр исключений (Exclusion Filter) для доверенных авторов.

Что такое «Дополнительные факторы» (Additional Factors), которые анализирует система?

Патент явно перечисляет эти факторы в Claim 1: возраст канала, владелец канала, количество связанных каналов у владельца, трафик и активность канала, количество подписчиков, спам-индикаторы (spam indicator), история удалений контента, а также технические параметры, такие как размер файла и соотношение аудио к видео.

Что такое вторичное сравнение контента (Claim 8) и зачем оно нужно?

Это дополнительный этап проверки. Поскольку кандидаты уже отобраны по поведенческим и неконтентным сигналам (что повышает вероятность совпадения), система может запустить сравнение контента, используя более низкий порог совпадения (match threshold), чем при стандартной проверке. Это помогает подтвердить нарушение, даже если контент сильно модифицирован.

Как система выбирает, какие именно поисковые запросы анализировать?

Система фокусируется на значимых запросах. Запрос считается значимым, если он привел много трафика на уже удаленное пиратское видео (Claim 5) ИЛИ если этот запрос в целом часто связан с большим количеством другого удаленного контента (Claim 4). Это позволяет не обрабатывать случайные или слишком общие запросы.

Стоит ли избегать определенных ключевых слов в заголовках, чтобы не попасть под эту систему?

Если вы создаете оригинальный контент, вам не нужно этого бояться. Однако использование ключевых слов, традиционно связанных с пиратством (например, «смотреть бесплатно полный фильм»), на новом или «сером» канале увеличивает риски, так как это соответствует поведению, которое ищет система.

Как этот патент влияет на стратегию создания каналов на YouTube (VSEO)?

Он делает стратегии типа «Churn and Burn» (быстрое создание и забрасывание каналов для монетизации серого контента) значительно более рискованными. Возраст канала и история нарушений являются ключевыми факторами для Factor Analyzer. Патент подтверждает ценность долгосрочного развития одного авторитетного канала.

Использует ли система машинное обучение для оценки факторов?

Патент явно не описывает конкретные модели ML, но он описывает процесс анализа множества факторов (Factors) и присвоения им весов для расчета общей оценки вероятности совпадения (Likelihood of match). Это типичная задача для классификаторов машинного обучения, поэтому весьма вероятно, что ML используется для оценки этих факторов.