Как Яндекс индексирует и находит дубликаты аудио и видео контента с помощью акустических отпечатков (Chromaprints)

Яндекс патентует инфраструктурный метод для эффективного индексирования и поиска дубликатов аудиоконтента (включая аудиодорожки видео). Система создает короткие и длинные акустические отпечатки (Chromaprints) и использует специализированный иерархический инвертированный индекс для быстрого поиска совпадений. Это позволяет Яндексу идентифицировать одинаковый аудиоконтент, даже если файлы отличаются качеством или имеют временные сдвиги.

Описание

Какую задачу решает

Патент решает задачу эффективного и масштабируемого индексирования больших объемов аудиоданных для быстрого поиска дубликатов (Audio Matching). В отличие от распознавания коротких фрагментов (Audio Recognition), поиск дубликатов требует сравнения более длинных участков аудио, что является ресурсоемкой задачей. Изобретение предлагает оптимизированную структуру инвертированного индекса и двухэтапный процесс поиска для снижения вычислительной нагрузки при сравнении акустических отпечатков.

Что запатентовано

Запатентован метод создания и поддержания инвертированного индекса аудиодорожек (Audio Track Inverted Index) и система поиска дубликатов на его основе. Суть изобретения заключается в специфической иерархической структуре индекса, основанной на компонентах акустических отпечатков (Chroma Words). Индекс оптимизирован для быстрого отбора кандидатов на совпадение (Pruning Index) с последующей детальной проверкой (Validation Index).

Как это работает

Система использует технологию акустических отпечатков Chromaprint. Для каждой аудиодорожки генерируются два типа отпечатков: короткий (например, первые 21 секунда) и длинный (например, первые 120 секунд). Индекс строится иерархически: Chroma Word (например, 4 байта) делится на части (например, 3 байта + 1 байт). Первая часть используется как ключ индекса (Index Key), а вторая — как ключ сортировки (Sorting Key).

Поиск дубликата происходит в два этапа:

Быстрый отбор кандидатов (Pruning): Короткий отпечаток входящего трека используется для поиска в Pruning Index, чтобы быстро найти треки с идентичными Chroma Words.
Валидация (Validation): Длинный отпечаток входящего трека побитово сравнивается с длинными отпечатками кандидатов (из Validation Index). Сравнение может учитывать временные сдвиги (например, +/- 20 секунд).

Актуальность для SEO

Высокая (для мультимедиа систем). Технологии аудио-фингерпринтинга и использование инвертированных индексов являются стандартом для поиска мультимедиа, управления авторскими правами (Content ID) и дедупликации в сервисах типа Яндекс.Музыка и Яндекс.Видео. Описанная структура индекса актуальна для повышения производительности этих систем.

Важность для SEO

Влияние на традиционное веб-SEO минимально (3/10). Патент описывает инфраструктуру для обработки аудиоконтента, а не алгоритмы ранжирования текстовых документов. Однако он имеет прямое значение для SEO в вертикалях аудио и видео. Понимание этого механизма критически важно для управления индексацией и каноникализацией мультимедийного контента на платформах Яндекса, так как система определяет, является ли загруженный аудио- или видеофайл дубликатом.

Детальный разбор

Термины и определения

Audio Fingerprint (Акустический отпечаток): Сжатое цифровое представление аудиосигнала. В патенте используется технология Chromaprint. Разделяется на Short (короткий) и Long (длинный).
Audio Matching (Сопоставление аудио): Задача поиска полных дубликатов аудиодорожек. Отличается от Audio Recognition (распознавания фрагментов).
Audio Track Inverted Index (Инвертированный индекс аудиодорожек): Структура данных, хранящая отображение компонентов аудио (Chroma Words) на аудиодорожки, которые их содержат.
Beginning Portion (Начальная часть): Определенное количество первых байтов Chroma Word (в примере – 4 байта). Используется как ключ для индексирования.
Chroma Word (Хрома-слово): Компонент акустического отпечатка. Последовательность байтов (например, 4 байта), описывающая небольшой фрагмент (chunk) аудиодорожки (указан диапазон от 0.5 до 8 секунд, предпочтительно 3 секунды).
First Byte / First Multi-byte sequence: Первая часть Beginning Portion. Используется как Index Key для определения набора постинг-листов. В примере: первые 3 байта.
Following Byte / Second Multi-byte sequence: Вторая часть Beginning Portion. Используется как Sorting Key для определения конкретного постинг-листа внутри набора. В примере: 4-й байт.
Posting List (Постинг-лист): Список записей об аудиодорожках (Track ID, длительность, позиция), которые содержат определенное Chroma Word.
Pruning Index (Индекс отсечения): Инвертированный индекс, построенный на коротких отпечатках (диапазон 9-27 сек, предпочтительно 21 сек). Используется для быстрого отбора кандидатов (Этап 1).
Validation Index (Индекс валидации): Индекс, хранящий длинные отпечатки (диапазон 96-141 сек, предпочтительно 120 сек). Используется для финальной проверки кандидатов (Этап 2). Состоит из Key File и Fingerprint File.

Ключевые утверждения (Анализ Claims)

Основной объект патента (Claims 1-15) — это метод поддержания специфической структуры инвертированного индекса для аудиоданных.

Claim 1 (Независимый пункт): Описывает метод поддержания (maintaining) инвертированного индекса аудиодорожек.

Система получает аудиодорожку и определяет ее акустический отпечаток и компонент — Chroma Word.
Структура Chroma Word: он имеет Beginning Portion, состоящую из First Byte (определенного как первая многобайтовая последовательность) и Following Byte.
Структура Индекса: Индекс организован как множество Наборов постинг-листов (Sets of Posting Lists). Каждый Набор группирует листы для Chroma Words с одинаковым First Byte. Внутри набора листы различаются уникальным Following Byte.
Процесс индексации (Шаг 1): На основе First Byte определяется соответствующий Набор постинг-листов.
Процесс индексации (Шаг 2): На основе Following Byte:

Если постинг-лист для данного Following Byte уже существует в наборе, индикация аудиодорожки добавляется в этот лист.
Если нет, создается новый постинг-лист внутри этого набора.

Патент защищает конкретную реализацию инвертированного индекса. Вместо использования полного Chroma Word (например, 4 байта) как единого ключа, ключ разбивается на две части (например, 3 байта + 1 байт). Это создает иерархическую структуру (Набор -> Лист), что оптимизирует хранение и ускоряет поиск за счет эффективной локализации данных.

Где и как применяется

Изобретение относится к инфраструктуре обработки и хранения мультимедийных данных, используемой в сервисах типа Яндекс.Музыка и Яндекс.Видео, а не к стандартному веб-поиску.

CRAWLING – Сканирование и Сбор данных
Система применяется при получении нового аудио- или видеоконтента (загрузка пользователем, сканирование внешних источников).

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. При индексации контента система выполняет:

Генерация отпечатков: Извлечение аудиодорожки и генерация короткого и длинного Chromaprints.
Извлечение Chroma Words: Разбиение отпечатков на компоненты.
Построение индекса: Внесение данных в Pruning Index (используя иерархический механизм из Claim 1) и Validation Index.

Сопоставление (Matching)
Система использует индексы для поиска совпадений (поиска дубликатов):

Candidate Selection: Быстрый поиск кандидатов по короткому отпечатку с использованием Pruning Index. На вход: Chroma Words входящего трека. На выход: Список Track IDs кандидатов.
Validation: Детальная проверка кандидатов с использованием Validation Index. На вход: Длинный отпечаток входящего трека и Track IDs кандидатов. На выход: Подтвержденные дубликаты.

На что влияет

Конкретные типы контента: Влияет исключительно на аудиоконтент и аудиодорожки видеофайлов. Не влияет на текст или изображения.
Конкретные ниши: Музыкальные сервисы, видеохостинги, платформы с пользовательским контентом (UGC).
Цель применения: Идентификация дубликатов контента (дедупликация), управление авторскими правами (Content ID), каноникализация мультимедийных файлов.

Когда применяется

Триггеры активации: Загрузка нового аудио/видео файла в систему или обнаружение такого файла краулером.
Условия работы: Алгоритм активируется для проверки уникальности входящего контента и для его индексации.

Пошаговый алгоритм

Процесс А: Индексация нового аудио трека (На основе Claim 1)

Получение трека и генерация отпечатков: Создаются Short и Long Audio Fingerprints (Chromaprints).
Обработка Long Fingerprint: Длинный отпечаток сохраняется в Validation Index.
Обработка Short Fingerprint (Индексация в Pruning Index):
- Для каждого Chroma Word (например, 4 байта) в коротком отпечатке:

Процесс Б: Поиск дубликатов (Matching) (На основе Description)

Получение входящего трека и генерация отпечатков.
Этап 1: Отбор кандидатов (Pruning):
- Для каждого Chroma Word в коротком отпечатке выполняется поиск в Pruning Index.
- Извлекаются Track IDs из найденных листов. Формируется список кандидатов.
Этап 2: Валидация (Validation):
- Для каждого кандидата:

Какие данные и как использует

Данные на входе

Мультимедиа факторы (Аудио): Основные данные — это сырой аудиосигнал (аудиофайлы или аудиодорожки видеофайлов).
Технические факторы (Внутренние): Track ID, Track Duration (длительность трека).

Система не использует контентные (текстовые), ссылочные или поведенческие факторы из веб-поиска.

Какие метрики используются и как они считаются

Chromaprint (Акустический отпечаток): Генерируется из аудиосигнала. Включает преобразование в спектрограмму, преобразование частот в музыкальные ноты (12 бинов) и применение фильтров.
Chroma Word: Результат применения фильтров, последовательность байтов (например, 4 байта).
Длительность отпечатков:
- Короткий: 9-27 секунд (предпочтительно 21 секунда).
- Длинный: 96-141 секунда (предпочтительно 120 секунд).
Точное совпадение ключей: На этапе Pruning используется точное совпадение Index Key и Sorting Key (т.е. точное совпадение Chroma Words).
Bit-by-bit Comparison (Побитовое сравнение): Метрика схожести длинных отпечатков на этапе Validation. Рассчитывается как количество совпадающих битов.
Временной сдвиг (Time Shift/Shifting): При валидации применяется сдвиг отпечатков (например, от +20 до -20 секунд).

Выводы

Патент описывает внутренние инфраструктурные процессы Яндекса, связанные с индексированием и поиском дубликатов аудиоконтента. Он не дает прямых рекомендаций для традиционного SEO, но важен для понимания обработки мультимедиа.

Специализация на поиске дубликатов (Matching): Система предназначена для идентификации идентичного аудиоконтента, а не для оценки его качества или релевантности текстовому запросу.
Двухэтапный поиск (Pruning и Validation): Яндекс использует стандартный подход: быстрый грубый отбор кандидатов по коротким отпечаткам с последующей точной проверкой по длинным отпечаткам.
Оптимизация инвертированного индекса: Ключевая техническая особенность — специфическая иерархическая структура Pruning Index. Разбиение ключа (Chroma Word) на две части (Index Key и Sorting Key) оптимизирует хранение и ускоряет доступ к данным.
Устойчивость к изменениям: Система устойчива к разнице в качестве аудио и небольшим временным сдвигам (до +/- 20 секунд) за счет технологии Chromaprint и механизма сдвига при валидации.
Индексация Видео: Механизм применяется к аудиодорожкам видеофайлов, что позволяет Яндексу идентифицировать видеоролики с одинаковым звуковым сопровождением.

Практика

Best practices (это мы делаем)

Хотя патент инфраструктурный, можно сделать выводы для SEO-специалистов, работающих с аудио и видео контентом на платформах Яндекса (например, Видео, Музыка, Дзен).

Приоритет уникального аудиоконтента: Система активно выявляет дубликаты. Для лучшей индексации и ранжирования в мультимедийных вертикалях необходимо создавать контент с уникальной аудиодорожкой.
Обеспечение чистоты начального сегмента аудио: Поскольку короткие отпечатки (первые ~21 секунды) используются для первичного поиска, и длинные (первые ~120 секунд) для валидации, важно, чтобы этот начальный сегмент содержал релевантный и чистый аудиосигнал, характеризующий контент.
Управление каноникализацией мультимедиа: Если на разных страницах размещаются идентичные аудио- или видеофайлы, система определит их как дубликаты. Необходимо понимать, какую версию Яндекс выберет в качестве канонической (патент не описывает логику выбора каноникала, но подтверждает факт дедупликации).

Worst practices (это делать не надо)

Массовая загрузка дубликатов: Попытки заполнить выдачу копиями одного и того же аудио- или видеоконтента будут неэффективны, так как система идентифицирует их как дубликаты.
Незначительные модификации аудио для уникализации: Попытки обмануть систему путем небольшого ускорения/замедления трека, наложения шумов или добавления тишины в начале неэффективны. Технология Chromaprint устойчива к изменениям качества, а механизм валидации учитывает временные сдвиги (до 20 секунд).

Стратегическое значение

Патент подтверждает, что Яндекс обладает развитой инфраструктурой для анализа и дедупликации мультимедийного контента в масштабах всего интернета. Это стратегически важно для поддержания чистоты индекса, борьбы с пиратством (Content ID) и развития специализированных сервисов. Для SEO это означает, что при работе с мультимедиа уникальность контента является фундаментальным требованием, и технические манипуляции для обхода систем уникализации маловероятны.

Практические примеры

Сценарий: Оптимизация видеоконтента и уникализация

Задача: Продвижение видеообзора продукта. SEO-специалист хочет использовать существующее популярное видео, немного изменив его.
Неправильное действие: Специалист добавляет 10 секунд тишины в начало аудиодорожки и немного снижает битрейт.
Работа системы: Яндекс генерирует Chromaprint. На этапе валидации система компенсирует 10-секундный сдвиг (допустимо до +/- 20 сек) и обнаруживает почти 100% побитовое совпадение длинных отпечатков с оригиналом.
Результат: Видео помечается как дубликат оригинала.
Правильное действие: Полностью переозвучить видео собственным голосом и использовать другую фоновую музыку. Это создаст совершенно новый Chromaprint, который будет проиндексирован как уникальный контент.

Вопросы и ответы

Влияет ли этот патент на ранжирование сайтов в основном поиске Яндекса?

Нет, прямого влияния на ранжирование веб-документов в основном поиске этот патент не оказывает. Он описывает инфраструктуру для индексирования и поиска дубликатов аудиофайлов. Это внутренняя система для управления мультимедийным контентом, а не часть основного алгоритма ранжирования, который оценивает релевантность сайта текстовому запросу.

Как этот патент влияет на SEO для видео?

Он влияет напрямую на индексацию и дедупликацию видеоконтента. Система анализирует аудиодорожку видеофайла. Если аудиодорожка идентична той, что уже есть в индексе (например, популярный музыкальный клип), видео может быть идентифицировано как дубликат. Для успешного SEO видео необходимо использовать уникальное звуковое сопровождение.

Что такое Chromaprint и Chroma Word?

Chromaprint — это технология создания акустических отпечатков, которая фокусируется на музыкальном содержании аудио и устойчива к изменениям качества звука. Chroma Word (Хрома-слово) — это компонент этого отпечатка, последовательность байтов (например, 4 байта), которая описывает небольшой фрагмент аудиодорожки (от 0.5 до 8 секунд).

Зачем нужны два типа отпечатков: короткий (Short) и длинный (Long)?

Это оптимизация для баланса скорости и точности. Короткий отпечаток (например, 21 секунда) используется для очень быстрого поиска потенциальных совпадений в Pruning Index (Этап 1). Длинный отпечаток (например, 120 секунд) используется для точной побитовой проверки отобранных кандидатов в Validation Index (Этап 2). Сравнивать длинные отпечатки для всех треков в базе слишком ресурсоемко.

В чем суть запатентованной структуры индекса?

Суть в иерархической организации инвертированного индекса (Pruning Index). Вместо того чтобы использовать полное Chroma Word (4 байта) как единый ключ, система разбивает его на две части (например, 3 байта – Index Key и 1 байт – Sorting Key). Это оптимизирует хранение данных и ускоряет поиск совпадений в больших базах данных.

Можно ли обмануть эту систему, немного изменив аудиофайл?

Это сложно. Технология Chromaprint устойчива к изменениям качества. Кроме того, на этапе валидации система проверяет совпадение с учетом временного сдвига до +/- 20 секунд. Чтобы система признала модифицированный файл уникальным, изменения должны быть существенными и затрагивать значительную часть аудиодорожки (особенно первые 120 секунд).

Что произойдет, если я загружу аудиофайл, который короче 120 секунд?

Если файл короче пороговых значений (например, короче 21 секунды или 120 секунд), то и короткий, и длинный отпечатки будут сгенерированы для полной длительности этого файла. Система корректно обработает такие файлы и сможет найти их дубликаты.

Использует ли система метаданные аудиофайла (теги ID3, название) для поиска дубликатов?

В данном патенте описан механизм, основанный исключительно на анализе самого аудиосигнала (Content-Based Audio Retrieval). Метаданные не упоминаются как часть этого процесса индексации или сопоставления. Система идентифицирует дубликаты по звуку, независимо от того, как они названы.

Используется ли эта технология для распознавания речи?

Патент описывает систему на основе Chromaprints, которая лучше подходит для идентификации музыки и общего звукового сопровождения, чем для распознавания текста речи (Speech-to-Text). Для извлечения текстовой информации из речи Яндекс использует другие специализированные NLP и ML технологии.

Как знание этого патента помогает при работе с UGC-контентом (User-Generated Content)?

При работе с платформами, принимающими UGC (например, Дзен, Yandex Video), этот механизм используется для модерации и управления авторскими правами (Content ID). Если пользователь загружает видео с чужой музыкой, система это обнаружит. SEO-специалистам необходимо использовать только лицензионный или оригинальный аудиоконтент, чтобы избежать пессимизации или блокировки.