
Патент Google описывает инфраструктурный механизм для эффективного поиска дубликатов или похожих аудио- и видеофайлов в огромных базах данных. Система использует технику Locality Sensitive Hashing (LSH) и распределенную сортировку (например, MapReduce) для быстрого сопоставления «пробных» видео с «эталонными», что позволяет находить совпадения без медленного попарного сравнения всех файлов.
Патент решает проблему неэффективности традиционных методов сопоставления аудио- и видеоконтента при работе с огромными коллекциями данных (например, на видеохостингах). Цель — создать масштабируемую и быструю систему для идентификации визуально или аудиально похожих файлов. Это необходимо для улучшения результатов поиска (удаление дубликатов), рекомендации похожего контента и идентификации дубликатов или почти дубликатов для правообладателей (управление авторскими правами).
Запатентована система и метод для высокоэффективного масштабного сопоставления медиафайлов. Изобретение использует технику разделения цифровых отпечатков (Fingerprints) на полосы LSH (Locality Sensitive Hashing). Ключевой особенностью является использование распределенных систем (таких как MapReduce) для сортировки этих полос и последующее линейное сканирование отсортированных списков для быстрого нахождения совпадений. Также запатентован процесс инкрементального обновления базы данных совпадений без повторной обработки старых данных.
Система работает следующим образом:
Probe videos) и эталонных (Reference videos) видео генерируются цифровые отпечатки, которые делятся на суб-отпечатки (Subfingerprints), а затем на полосы LSH.LSH для пробных и эталонных видео сортируются отдельно по их значению с использованием распределенных вычислительных мощностей.LSH.Time Offset), чтобы подтвердить, что видео действительно похожи (например, требуется превышение порога в 50 совпадений).Высокая (для инфраструктуры). Описанные методы (LSH, распределенные вычисления типа MapReduce) являются стандартом для обработки больших данных. Системы идентификации контента (например, YouTube Content ID), основанные на подобных принципах, критически важны для функционирования современных медиаплатформ.
Минимальное/Инфраструктурное влияние (2/10). Патент описывает внутренние процессы Google для эффективного сопоставления контента, а не алгоритмы ранжирования веб-страниц. Он имеет огромное значение для управления контентом на видеоплатформах (обнаружение дубликатов, авторские права), но не дает прямых рекомендаций для SEO-оптимизации сайтов под Google Search.
Subfingerprint, используемые для эффективного сопоставления. В одном из вариантов реализации каждая полоса содержит 4 байта данных из 100 байт Subfingerprint.LSH появляется в видео, измеренное от начала файла.Claim 1 (Независимый пункт): Описывает основной метод масштабного сопоставления пробных и эталонных видео.
LSH пробных видео (каждая имеет значение и соответствует части суб-отпечатка).LSH пробных видео в первый список на основе их значений.LSH эталонных видео.LSH эталонных видео во второй список на основе их значений.Защищается конкретный рабочий процесс использования отсортированных списков LSH-полос и их линейного сканирования (вместо, например, медленных запросов к базе данных) для достижения эффективности при масштабном сопоставлении медиафайлов.
Claim 5 (Зависимый от 1): Уточняет, что сортировка полос LSH как для пробных, так и для эталонных видео выполняется с помощью распределенного сортировщика (distributed sorter).
Подчеркивается использование масштабируемых технологий, таких как MapReduce, для обработки огромного объема данных.
Claim 6 (Зависимый от 1): Описывает процесс инкрементального обновления.
Защищается эффективный метод обновления базы данных совпадений, который позволяет избежать ненужного повторного сравнения старого контента со старым контентом.
Патент описывает инфраструктурные процессы, которые не связаны напрямую с ранжированием поисковой выдачи в реальном времени, но критичны для управления медиа-контентом.
CRAWLING – Сканирование и Сбор данных
Применимо в контексте сбора данных с медиаплатформ, где загрузка пользовательского контента (Probe videos) рассматривается как этап сбора данных.
INDEXING – Индексирование и извлечение признаков
Основной этап применения. Система генерирует Fingerprints, Subfingerprints и LSH Bands для всего аудио- и видеоконтента. Сам процесс масштабного сопоставления является специализированной формой индексирования или обслуживания базы данных, направленной на выявление связей (совпадений) между файлами.
Взаимодействие с компонентами: Система взаимодействует с хранилищем отпечатков и видео ID, менеджером пакетов (Batch Manager) и инфраструктурой распределенной сортировки (Sort Distributor, Sort Machine).
Входные данные:
Probe) и эталонных (Reference) видео.LSH Bands и идентификаторы видео (Video IDs).Выходные данные:
Time Offset ranges), в которых обнаружено совпадение (аудио, видео или оба).Процесс А: Масштабное сопоставление (Full Collection Matching)
LSH для набора пробных видео.LSH для набора эталонных видео.LSH пробных видео по их значению для создания Списка 1. Выполняется с помощью Sort Distributor.LSH эталонных видео по их значению для создания Списка 2. Выполняется с помощью Sort Distributor.LSH.LSH сортируются по идентификатору пробного видео (Probe Video ID).offset).Match Storage.Процесс Б: Инкрементальное сопоставление (Incremental Matching)
Fingerprints и LSH Bands.LSH. Является ключом для сортировки и сопоставления.LSH Bands.LSH Bands, необходимое для подтверждения схожести между пробным и эталонным видео (в патенте упоминается примерный порог в 50 совпадений).LSH Bands сгруппированы темпорально (имеют схожие временные смещения).LSH Bands) позволяет заменить медленные индивидуальные запросы к базе данных на быстрое линейное сканирование. Это критически важно при работе в масштабах Google/YouTube.ВАЖНО: Патент является чисто инфраструктурным и описывает внутренние процессы Google для эффективного сопоставления медиафайлов. Он не дает прямых рекомендаций для SEO-оптимизации веб-сайтов. Приведенные ниже пункты актуальны в основном для создателей контента на платформах, использующих подобные технологии (например, YouTube).
Reference videos.LSH и фингерпринтинга разработана специально для обнаружения таких случаев в огромных масштабах.Reference videos правообладателей.Патент подтверждает, что Google обладает высокоразвитой инфраструктурой для анализа и сравнения мультимедийного контента на основе его содержимого, а не только метаданных. Для создателей видеоконтента это означает, что уникальность самого аудиовизуального потока имеет первостепенное значение для избежания проблем с дублированием и авторскими правами.
Сценарий: Автоматическое применение Content ID на YouTube
LSH Bands как Reference videos.Probe video.LSH Bands пробного видео и линейно сканирует их на совпадения с уже отсортированной базой эталонных LSH Bands.Поможет ли этот патент ранжировать мой сайт выше в Google Поиске?
Нет. Этот патент описывает инфраструктуру для сравнения аудио- и видеофайлов в больших масштабах (например, для Content ID или рекомендаций на YouTube). Он не имеет отношения к алгоритмам ранжирования стандартных веб-страниц в Google Search.
Связан ли этот патент с тем, как Google ранжирует видео в поиске YouTube?
Косвенно. Хотя патент не описывает алгоритмы ранжирования (релевантность, вовлеченность и т.д.), он описывает технологию, которая может использоваться для удаления дубликатов из результатов поиска, что улучшает общее качество выдачи. Также эта технология позволяет находить похожие видео для блока рекомендаций.
Что такое Locality Sensitive Hashing (LSH) в этом контексте?
Это техника для разделения цифрового отпечатка медиафайла на более мелкие части (LSH Bands). LSH спроектирован так, что похожие медиафайлы будут иметь много общих полос. Это позволяет быстро находить кандидатов на совпадение, не сравнивая полные отпечатки файлов друг с другом.
Анализирует ли эта система метаданные, теги или описания видео?
Нет, согласно патенту, эта система фокусируется исключительно на анализе самого аудиовизуального содержимого файла через цифровые отпечатки (Fingerprints). Она предназначена для поиска совпадений контента, даже если все метаданные отличаются.
Что означает «распределенная сортировка» и зачем она нужна?
При работе с миллиардами видео генерируется огромное количество LSH Bands. Сортировка такого объема данных на одном компьютере заняла бы слишком много времени. Распределенная сортировка (например, с использованием MapReduce) разделяет задачу на множество мелких подзадач, которые выполняются параллельно на кластере компьютеров, что значительно ускоряет процесс.
Зачем сортировать LSH Bands перед сравнением?
Это ключевая оптимизация патента. Сравнение двух отсортированных списков (линейное сканирование) происходит на порядки быстрее, чем поиск каждого значения из одного списка в неотсортированном другом списке (индивидуальные запросы к базе данных). Эта эффективность критична для работы в масштабах Google.
Что такое инкрементальное сопоставление?
Это процесс обновления базы данных совпадений при добавлении нового контента. Вместо того чтобы заново сравнивать всю коллекцию, система сравнивает только новые загрузки со старой базой и всю базу с новыми эталонами. Это позволяет избежать повторного выполнения уже сделанной работы (сравнения старого контента со старым).
Насколько точна эта система в определении дубликатов?
Патент описывает использование порога (например, 50 совпадающих LSH Bands) и анализ группировки совпадений по времени (Offset Clumping) для подтверждения совпадения. Это указывает на то, что система ищет значительные совпадения, а не случайные пересечения, что обеспечивает высокую точность обнаружения дубликатов и почти дубликатов.
Может ли эта система обнаружить ускоренное или замедленное видео?
Патент не описывает конкретные методы генерации отпечатков, устойчивых к изменению скорости воспроизведения. Однако он фокусируется на логистике сравнения отпечатков. Если используемый алгоритм фингерпринтинга (например, Waveprint, упомянутый в патенте как референс) устойчив к таким изменениям, то описанная система сможет эффективно найти эти совпадения.
Какое практическое значение этот патент имеет для SEO-специалиста?
Для стандартного SEO значение минимально. Однако для специалистов, занимающихся продвижением на YouTube или управлением видеоконтентом, патент подчеркивает важность создания оригинального контента и бесполезность попыток обойти системы обнаружения дубликатов путем незначительных модификаций или изменения метаданных.

Мультимедиа
Индексация

Мультимедиа
Индексация

Мультимедиа
Индексация

Мультимедиа

Мультимедиа
Индексация

Индексация
Ссылки
SERP

Knowledge Graph
Семантика и интент
Ссылки

Local SEO
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
Персонализация
EEAT и качество

Семантика и интент
EEAT и качество
SERP

EEAT и качество
Поведенческие сигналы

Local SEO
Поведенческие сигналы

Антиспам
Ссылки
Техническое SEO

Персонализация
Ссылки

Knowledge Graph
Семантика и интент
EEAT и качество
