
Google использует масштабируемую систему для борьбы с дублированным и частично дублированным медиаконтентом (видео, аудио). Вместо сравнения всех файлов между собой, система создает компактные «репрезентативные наборы» для каждого элемента, используя фингерпринтинг и хеширование (Min-Hash). При получении запроса система сравнивает эти наборы для быстрого выявления дубликатов и выбора одной канонической версии для показа в выдаче.
Патент решает проблему эффективной и масштабируемой дедупликации медиаконтента (видео, аудио) в поисковой выдаче. Основная сложность заключается в обработке частичных дубликатов. Традиционные методы кластеризации неэффективны из-за проблемы транзитивности (если файл A частично совпадает с B, а B с C, то A не обязательно совпадает с C в достаточной степени). Это приводит к показу избыточных, почти идентичных результатов пользователю на платформах вроде YouTube.
Запатентована система для выбора репрезентативных медиа-элементов с целью дедупликации. Вместо присвоения единого ID кластера, система генерирует для каждого медиафайла небольшой набор кандидатов-представителей (Candidate Representative Media Items), используя методы хеширования (например, Min-Hash). Дедупликация происходит во время запроса: если наборы представителей двух разных файлов пересекаются, система идентифицирует их как связанные и выбирает один элемент для показа.
Система использует вероятностный подход, основанный на фингерпринтинге и хешировании:
спектрограммы) и создает компактные цифровые дескрипторы (фингерпринты). Она находит все совпадения выше определенного порога (например, 80%). Из этого множества совпадений с помощью хеш-функции (Min-Hash) выбирается и сохраняется компактный репрезентативный набор.репрезентативный медиа-элемент.Высокая. Управление огромным объемом дублированного и частично совпадающего контента критически важно для качества поиска в YouTube и Google Video. Техники, описанные в патенте (Min-Hash, Locality Sensitive Hashing), являются стандартом индустрии для масштабируемой дедупликации в больших системах и остаются актуальными в 2025 году.
Влияние на SEO значительно (75/100), особенно для Video SEO. Патент описывает механизм, определяющий, какая версия контента будет выбрана как каноническая и показана в поиске. Хотя основная цель — инфраструктурная эффективность, патент упоминает (в описании), что при финальном выборе представителя могут использоваться метрики качества и популярности. Это напрямую влияет на видимость и трафик оригинального контента по сравнению с его копиями.
спектрограммы медиа-элемента.Claim 1 (Независимый пункт): Описывает основную систему дедупликации медиа-элементов в ответ на запрос.
компактных цифровых дескрипторов (фингерпринтов) на основе уникальных характеристик спектрограмм.кандидатов в репрезентативные элементы из числа совпадающих элементов, которые удовлетворяют пороговому уровню сходства (match threshold).репрезентативный медиа-элемент (Z), если он присутствует в пересечении первого и второго наборов кандидатов.substitute) X и Y на Z в результатах запроса и передает результат пользователю.Claim 3 и 11 (Зависимые от 1): Детализируют метод выбора кандидатов.
Выбор осуществляется псевдослучайным образом (Claim 3). Claim 11 уточняет, что это делается путем определения хеш-значений (hash values) для кандидатов и выбора фиксированного количества элементов на основе этих значений (например, выбор n элементов с наименьшим хешем — техника Min-Hash).
Claim 4 (Зависимый от 1): Уточняет критерии сопоставления сегментов.
Сопоставление учитывает только монотонно возрастающие сегменты (Monotonically Increasing Segments). Это означает, что порядок контента в сравниваемых файлах должен совпадать.
Claim 7 (Зависимый от 1): Уточняет критерии выбора кандидатов.
Выбор кандидата также основан на том, что общая длина совпадающих сегментов превышает пороговую длину (duration threshold length).
Изобретение затрагивает несколько этапов поисковой архитектуры, преимущественно в системах поиска медиа-контента (например, YouTube, Google Video Search).
INDEXING – Индексирование и извлечение признаков
Большая часть вычислений происходит на этом этапе (офлайн или near-real-time).
компактные цифровые дескрипторы (фингерпринты) на основе спектрограмм.Matching Component сравнивает фингерпринты для идентификации совпадающих элементов и сегментов.Representation Component вычисляет и сохраняет репрезентативные наборы (RPn(X)) для каждого элемента, используя Min-Hash.RERANKING – Переранжирование (Дедупликация)
Основное применение патента происходит во время запроса (онлайн) для очистки результатов, полученных на этапе RANKING.
репрезентативные наборы кандидатов. Если найден общий элемент (пересечение наборов), он используется как репрезентативный медиа-элемент, а исходные кандидаты удаляются из выдачи (подставляются).Входные данные:
Выходные данные:
Duration Threshold) для определения значимости совпадения.монотонно возрастающими (например, контент был перемонтирован с изменением порядка сцен), могут быть исключены.Процесс А: Генерация Репрезентативных Наборов (Индексирование)
компактного цифрового дескриптора на основе спектрограммы X.монотонно возрастающие сегменты.Процесс Б: Дедупликация результатов поиска (Онлайн)
метрики качества, популярность, автор).спектрограмм, которые затем преобразуются в компактные цифровые дескрипторы (фингерпринты).монотонности.метрики популярности (popularity metric) могут использоваться для выбора финального репрезентативного элемента среди нескольких кандидатов.Метрики качества (quality metrics) также могут использоваться для выбора финального репрезентативного элемента.монотонно возрастающих сегментов.репрезентативных наборов. Это позволяет масштабировать дедупликацию, жертвуя минимальной долей точности ради огромного выигрыша в скорости и ресурсах.спектрограмм) и генерации компактных цифровых дескрипторов, что делает его устойчивым к изменениям формата кодирования, но чувствительным к изменению самого контента.монотонно возрастающих сегментов). Компиляции или мэшапы не будут автоматически считаться дубликатами оригинала.репрезентативного элемента для SERP может основываться на метриках качества и популярности. Это критически важно для SEO.Рекомендации применимы в первую очередь к Video SEO (YouTube, Google Video).
метрики качества и популярности для выбора финального представителя из группы дубликатов, критически важно максимизировать сигналы вовлеченности (просмотры, удержание, лайки) и обеспечивать высокое техническое качество видео. Это повышает вероятность каноникализации вашей версии контента.монотонно возрастающих сегментов означает, что изменение структуры контента может помочь избежать его классификации как дубликата оригинала.Патент раскрывает ключевой инфраструктурный компонент систем поиска медиаконтента Google. Он подтверждает, что борьба с дубликатами ведется на системном уровне с использованием сложных алгоритмов. Для SEO-стратегии это подчеркивает смещение фокуса с простого наличия контента на его уникальность, качество и вовлеченность аудитории. В условиях, когда контент легко копируется, именно сигналы качества и популярности становятся решающими факторами для определения видимости в поиске.
Сценарий: Выбор репрезентативной версии популярного трейлера
метрики качества и популярности. Версия A (официальный канал, высокое качество, максимальное количество просмотров) имеет наивысшие показатели.Что такое «репрезентативный набор» и как он формируется?
Это небольшой список медиа-элементов, которые сильно совпадают с исходным элементом. Он формируется путем анализа всех совпадений, применения хеш-функции к их ID и выбора фиксированного числа (n) элементов с наименьшими значениями хеша. Этот метод (Min-Hash) обеспечивает случайный, но согласованный выбор, позволяя быстро оценивать сходство между элементами без необходимости хранить полный список всех совпадений.
Почему традиционная кластеризация не подходит для медиаконтента?
Она не подходит из-за проблемы транзитивности при частичных совпадениях. Если Видео A частично совпадает с B, а B с C, то A и C могут вообще не совпадать (если они совпадают с разными частями B). Традиционная кластеризация не может поместить их всех в один кластер, не нарушив порогов сходства. Метод репрезентативных наборов решает эту проблему, позволяя гибко связывать контент.
Означает ли этот патент, что Google всегда точно определяет дубликаты?
Не всегда. Описанный метод является вероятностным. Он оптимизирован для скорости и масштабируемости, а не для 100% точности. Существует небольшая вероятность, что система может пропустить дубликат (если репрезентативные наборы случайно не пересеклись). Однако использование многоуровневых наборов с разными порогами значительно повышает общую точность обнаружения.
Как система определяет, какой процент совпадения считать дубликатом?
Патент предполагает использование настраиваемых порогов (P%). Упоминаются примеры 80%, 95%, 99%. Система может использовать несколько порогов одновременно для создания многоуровневых репрезентативных наборов, что позволяет более гибко обрабатывать как почти полные копии, так и значительные частичные совпадения.
Что такое требование «монотонно возрастающих сегментов» и почему оно важно для SEO?
Это означает, что система учитывает только те совпадающие сегменты, которые идут в одинаковом временном порядке в обоих медиа-элементах. Если видео было перемонтировано и порядок сцен изменен, оно не будет считаться дубликатом оригинала. Для SEO это означает, что создание компиляций или обзоров с креативным монтажом позволяет избежать классификации контента как дубликата.
Если мой контент украли и перезалили, гарантирует ли эта система, что мой оригинал будет показан выше?
Не гарантирует, но способствует этому. Если система идентифицирует оригинал и копию как дубликаты, она выберет один репрезентативный элемент. Патент указывает, что выбор может основываться на метриках качества и популярности. Если ваш оригинал имеет лучшее качество и больше сигналов вовлеченности, он с большей вероятностью будет выбран в качестве представителя.
Влияет ли этот патент на текстовый контент?
Нет. Патент специфичен для медиа-элементов (аудио и видео). В Claims явно указано использование спектрограмм для генерации фингерпринтов, что применимо только к контенту, имеющему временное и частотное измерение. Для дедупликации текста используются другие алгоритмы (например, шинглинг).
Как система обрабатывает видео с одинаковой картинкой, но разным звуком (или наоборот)?
Система может определять совпадения по отдельным каналам (аудио, видео) или по их комбинации. Matching Component может вычислять взвешенные оценки совпадения. Если один канал совпадает, а другой нет, система может определить частичное совпадение, и решение о дедупликации будет зависеть от установленных порогов сходства (P%).
Что такое «компактный цифровой дескриптор»?
Это технический термин для фингерпринта (отпечатка) медиа-элемента. Он представляет собой набор уникальных характеристик, извлеченных из спектрограммы аудио или видео. Он намного меньше исходного файла и используется для быстрого и эффективного сравнения контента на предмет совпадений.
Как система обрабатывает вставки (например, рекламу) внутри видео?
Система способна идентифицировать несколько совпадающих сегментов, разделенных несовпадающим контентом (например, рекламой). Процент совпадения рассчитывается на основе суммы длин всех совпадающих сегментов. Если общая длина совпадений превышает порог P%, контент может быть признан дубликатом.

Мультимедиа
Индексация

Мультимедиа
Индексация

Мультимедиа
Индексация

Мультимедиа
Индексация

Мультимедиа

Ссылки
Индексация
Мультимедиа

Семантика и интент
Персонализация
Поведенческие сигналы

Поведенческие сигналы
Ссылки
SERP

Knowledge Graph
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
EEAT и качество

Мультимедиа
EEAT и качество
Ссылки

Персонализация
Поведенческие сигналы
Семантика и интент

EEAT и качество
SERP
Knowledge Graph

Семантика и интент
Персонализация
Поведенческие сигналы

Ссылки
Мультиязычность
Семантика и интент
