Как Яндекс использует двухэтапный поиск и оптимизированный индекс для быстрого обнаружения дубликатов аудиофайлов

Яндекс патентует систему для эффективного поиска дубликатов аудиофайлов. Система использует двухэтапный подход: быстрая выборка кандидатов по коротким аудио-отпечаткам (Pruning) и детальная проверка по длинным отпечаткам (Validation). Также описана оптимизированная структура инвертированного индекса для ускорения поиска по компонентам отпечатков (Chroma Words).

Описание

Какую задачу решает

Патент решает задачу эффективного и быстрого поиска полных дубликатов аудиодорожек (Matching) в больших базах данных. Основная проблема заключается в высокой вычислительной стоимости сравнения больших аудио-отпечатков. Изобретение направлено на оптимизацию использования компьютерных ресурсов (процессорного времени, памяти) при детектировании дубликатов аудиоконтента. Оно не связано с улучшением веб-поиска или устранением SEO-манипуляций.

Что запатентовано

Запатентованы метод и система для эффективного сопоставления аудиодорожек, а также специфическая структура инвертированного индекса для хранения аудио-отпечатков. Суть изобретения заключается в двухэтапном процессе поиска дубликатов (быстрая выборка кандидатов и детальная валидация) и в иерархической организации индекса (Inverted Index), основанной на разделении компонентов отпечатков (Chroma Words) на ключи для ускоренного поиска.

Как это работает

Система использует два типа аудио-отпечатков, сгенерированных с помощью технологии Chromaprint: короткие (например, первые 21 секунды) и длинные (например, первые 120 секунд). Процесс поиска дубликатов состоит из двух этапов:

Pruning (Выборка кандидатов): Используя короткий отпечаток входящего трека, система быстро ищет в Pruning Index треки, которые содержат хотя бы один идентичный компонент (Chroma Word). Pruning Index имеет оптимизированную иерархическую структуру для ускорения этого поиска.
Validation (Валидация): Для найденных кандидатов система извлекает их длинные отпечатки из Validation Index и выполняет детальное побитовое сравнение с длинным отпечатком входящего трека. На этом этапе учитываются возможные временные сдвиги (например, тишина в начале трека).

Актуальность для SEO

Высокая (для мультимедийных сервисов). Технологии аудио-фингерпринтинга и эффективные методы индексирования для поиска дубликатов являются фундаментальными для управления большими каталогами музыки и видео, обеспечения соблюдения авторских прав и дедупликации контента в таких сервисах, как Яндекс.Музыка или Яндекс.Видео.

Важность для SEO

Минимальное влияние (1/10). Этот патент описывает инфраструктуру для сопоставления аудиофайлов на основе их акустических отпечатков. Он не имеет отношения к ранжированию, индексированию или пониманию текстового контента в веб-поиске. Патент актуален только для внутренних процессов мультимедийных вертикалей Яндекса и не влияет на стандартные SEO-стратегии продвижения сайтов.

Детальный разбор

Патент описывает внутренние процессы Яндекс без прямых рекомендаций для SEO. Анализ фокусируется на понимании инфраструктуры аудио-поиска.

Термины и определения

Audio Fingerprint (Аудио-отпечаток): Сжатое цифровое представление аудиосигнала, используемое для его идентификации.
Chromaprint: Конкретная технология или библиотека для генерации аудио-отпечатков, используемая в патенте.
Chroma Word: Компонент аудио-отпечатка (в патенте описывается как последовательность байтов, например, 4 байта), представляющий собой короткий фрагмент аудиодорожки (например, от 0.5 до 8 секунд).
Short Audio Fingerprint (Короткий аудио-отпечаток): Отпечаток начальной части трека (упоминается диапазон 9-27 секунд, оптимально 21 секунда). Используется на этапе Pruning.
Long Audio Fingerprint (Длинный аудио-отпечаток): Отпечаток более длинной начальной части трека (упоминается диапазон 96-141 секунда, оптимально 120 секунд). Используется на этапе Validation.
Pruning Index: Инвертированный индекс, построенный на основе коротких отпечатков. Используется для быстрого поиска кандидатов. Имеет оптимизированную иерархическую структуру, описанную в патенте.
Validation Index: Индекс или система хранения длинных отпечатков, используемая для детального сравнения. Состоит из Key File (Track ID и ссылки) и Fingerprint File (сами отпечатки).
Posting List (Список сообщений / Постинг-лист): Структура данных в инвертированном индексе, содержащая список вхождений конкретного Chroma Word (включая Track ID, длительность трека и позицию слова).
Index Key (Ключ индекса): Первая часть Chroma Word (например, первые 3 байта), используемая для локализации «набора списков сообщений» (Set of posting lists) в Pruning Index.
Sorting Key (Ключ сортировки): Последующая часть Chroma Word (например, 4-й байт), используемая для локализации конкретного Posting List внутри набора.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на двух основных аспектах: оптимизированной структуре инвертированного индекса и методе его поддержания.

Claim 1 (Независимый пункт): Описывает структуру инвертированного индекса аудиодорожек (фактически, структуру Pruning Index).

Индекс состоит из множества «наборов списков сообщений» (sets of posting lists).
Каждый список сообщений (posting list) содержит Chroma Words (компоненты аудио-отпечатков).
Chroma Word разделен на байты и имеет «начальную часть» (beginning portion), состоящую из «первого байта» (first byte) и «следующего байта» (following byte). (Примечание: в описании патента и других Claims (например, Claim 6 и 8) указано, что эти части могут быть многобайтовыми последовательностями, например, 3 байта + 1 байт).
В пределах одного «набора»: все списки сообщений содержат Chroma Words с одинаковым «первым байтом» (или последовательностью).
В пределах того же «набора»: отдельные списки сообщений отличаются друг от друга уникальным значением «следующего байта» (или последовательности).

Это иерархическая структура индекса. «Первый байт/последовательность» выступает как Index Key, который ведет к «набору». «Следующий байт/последовательность» выступает как Sorting Key, который ведет к конкретному списку внутри набора. Это оптимизирует поиск.

Claim 17 (Независимый пункт): Описывает метод создания и поддержания этого инвертированного индекса.

Система получает аудиодорожку и определяет ее Chroma Word (разделенный на «первый байт» и «следующий байт»).
Используя «первый байт», система определяет соответствующий «набор списков сообщений».
Система проверяет, существует ли внутри этого набора список сообщений, соответствующий «следующему байту».
Если да: индикация нового Chroma Word добавляется в существующий список.
Если нет: создается новый список сообщений внутри этого набора для данного «следующего байта».

Где и как применяется

Этот патент является инфраструктурным и применяется в слоях индексирования и поиска данных для мультимедийного контента (аудио), а не для стандартного веб-поиска.

CRAWLING & ACQUISITION (Сбор данных — Мультимедиа)
Аудиофайлы поступают в систему (например, загружаются пользователями или правообладателями).

INDEXING (Индексирование — Мультимедиа)
На этом этапе происходит основная работа по патенту:

Feature Extraction: Из аудиофайлов генерируются короткие и длинные аудио-отпечатки (Chromaprints).
Index Building/Maintenance:
- Pruning Index обновляется Chroma Words из коротких отпечатков с использованием описанной иерархической структуры (Index Key / Sorting Key).
- Validation Index обновляется: длинный отпечаток добавляется в Fingerprint File, а Key File обновляется Track ID и ссылкой на местоположение.

RANKING / RETRIEVAL (Поиск Дубликатов — Мультимедиа)
Это не ранжирование в смысле SEO, а процесс поиска совпадений.

Вход: Входящий аудио трек.
Обработка: Система выполняет двухэтапный процесс сопоставления (Pruning и Validation), используя два индекса для нахождения дубликатов.
Выход: Список совпадающих (дублирующихся) индексированных аудио треков.

На что влияет

Типы контента: Исключительно аудиофайлы (MP3 и т.д.) или аудиодорожки внутри видеофайлов.
Специфические запросы: Не применимо к поисковым запросам пользователей. Алгоритм применяется к внутренним процессам сопоставления нового аудиоконтента с существующей базой данных.
Ниши: Музыкальная индустрия, управление авторскими правами, платформы, размещающие пользовательский аудио/видео контент (UGC).

Когда применяется

Условия работы и Триггеры: Алгоритм активируется, когда в систему вводится новая аудиодорожка (например, при загрузке), и необходимо проверить ее на наличие дубликатов или идентифицировать ее по известной базе данных.

Пошаговый алгоритм

Процесс А: Индексация нового трека

Получение Аудио: Система получает новый аудиофайл.
Генерация Отпечатков: Генерируются короткий (например, 21 сек) и длинный (например, 120 сек) аудио-отпечатки (Chromaprints).
Извлечение Chroma Words: Из короткого отпечатка извлекаются составляющие его Chroma Words (например, 4-байтовые компоненты).
Обновление Pruning Index: Для каждого Chroma Word:
1. Определяется Index Key (например, первые 3 байта).
2. Определяется Sorting Key (например, 4-й байт).
3. Система находит соответствующий «набор списков сообщений» по Index Key.
4. Внутри набора система находит конкретный список сообщений по Sorting Key (или создает новый).
5. В список добавляется информация о треке (Track ID, длительность, позиция слова).
Обновление Validation Index: Длинный отпечаток добавляется в Fingerprint File. В Key File добавляется запись, связывающая Track ID с местоположением этого отпечатка.

Процесс Б: Поиск Дубликатов (Matching)

Получение Входящего Трека и Генерация Отпечатков: Система получает трек для проверки и генерирует его короткий и длинный отпечатки.
Этап 1: Выборка Кандидатов (Pruning):
1. Из короткого отпечатка извлекаются Chroma Words.
2. Для каждого Chroma Word система ищет точные совпадения в Pruning Index (используя Index Key и Sorting Key).
3. Все треки из базы, содержащие хотя бы одно совпадающее Chroma Word, становятся кандидатами.
Фильтрация Кандидатов (Опционально): Кандидаты могут быть отфильтрованы по длительности (например, исключаются треки, отличающиеся более чем на заданное значение, например 30 сек) или по количеству совпавших Chroma Words.
Этап 2: Валидация (Validation):
1. Для каждого кандидата система извлекает его длинный отпечаток из Validation Index.
2. Выполняется детальное побитовое сравнение (bit-by-bit comparing) длинного отпечатка входящего трека с длинным отпечатком кандидата.
3. Сравнение может включать временной сдвиг отпечатков друг относительно друга (например, +/- 20 сек) для учета тишины в начале или обрезанных треков.
Результат: Треки, чьи длинные отпечатки совпадают выше определенного порога, считаются дубликатами.

Какие данные и как использует

Данные на входе

Контентные факторы (Акустические): Основные данные – это непосредственно аудиосигнал (спектрограмма, интенсивность частот), который преобразуется в аудио-отпечатки (Chromaprints) и их компоненты (Chroma Words).
Метаданные: Длительность аудио трека. Используется для фильтрации кандидатов и хранится в Pruning Index.

Текстовые, ссылочные, поведенческие, технические и другие факторы ранжирования веб-поиска в данном патенте не используются.

Какие метрики используются и как они считаются

Chroma Word Matching: Бинарная метрика (совпадает/не совпадает). Используется на этапе Pruning для поиска кандидатов по точному совпадению компонентов отпечатка.
Bit-by-bit Comparison (Побитовое сравнение): Метрика схожести длинных отпечатков на этапе Validation. Рассчитывается как процент совпавших битов при детальном сравнении. Патент указывает, что 100% совпадение не требуется.
Duration Difference (Разница в длительности): Разница в общей длительности сравниваемых треков. Используется как фильтр с пороговым значением (например, 30 секунд).
Time Shift Amplitude (Амплитуда временного сдвига): Величина сдвига (например, +/- 20 секунд), используемая при валидации для компенсации различий в начале или конце треков.

Выводы

Патент инфраструктурный, без рекомендаций для SEO: Патент описывает исключительно внутренние инфраструктурные процессы Яндекса для обработки мультимедиа (аудио) и не содержит абсолютно никаких прямых или косвенных рекомендаций для SEO веб-сайтов.
Двухэтапное обнаружение дубликатов: Яндекс использует систему, разделяющую процесс на быструю грубую выборку (Pruning) и медленную точную проверку (Validation) для баланса между скоростью и точностью.
Оптимизация индекса через иерархию ключей: Ключевым техническим решением для ускорения выборки является оптимизированная структура Pruning Index. Она основана на иерархическом разделении компонентов отпечатков (Chroma Words) на Index Key и Sorting Key.
Устойчивость к модификациям треков: Система способна распознавать дубликаты, даже если они имеют временные сдвиги (например, тишина в начале) или небольшую разницу в длительности, благодаря механизмам сдвига на этапе валидации.
Акустический анализ: Поиск дубликатов основан исключительно на акустических характеристиках (Chromaprints), а не на метаданных или текстовом описании аудиофайлов.

Практика

Практическое применение в SEO

ВАЖНО: Патент является инфраструктурным и описывает механизм поиска дубликатов аудиофайлов. Он не дает практических выводов для SEO-продвижения стандартных веб-сайтов.

Best practices (это мы делаем)

Не применимо к стандартному SEO.

Worst practices (это делать не надо)

Не применимо к стандартному SEO.

Стратегическое значение

Патент демонстрирует техническую экспертизу Яндекса в области индексирования и поиска мультимедийных данных. Для SEO-специалистов этот патент имеет нулевое стратегическое значение в контексте ранжирования веб-документов. Он может представлять интерес только с точки зрения общего понимания инфраструктуры мультимедийных вертикалей Яндекса (Яндекс.Музыка, Яндекс.Видео).

Практические примеры

Практических примеров для SEO нет, так как патент не относится к веб-поиску.

Вопросы и ответы

Влияет ли этот патент на ранжирование сайтов в веб-поиске?

Нет. Патент описывает исключительно инфраструктуру и алгоритмы для индексирования и поиска дубликатов аудиофайлов на основе их акустических отпечатков (Chromaprints). Он не имеет отношения к текстовой релевантности, поведенческим факторам или другим аспектам ранжирования веб-документов.

Что такое «Pruning Index» и «Validation Index»?

Это два разных индекса для двух этапов поиска дубликатов. Pruning Index хранит короткие отпечатки и оптимизирован для очень быстрого поиска кандидатов, которые имеют хоть какое-то акустическое сходство. Validation Index хранит полные (длинные) отпечатки и используется для детального побитового сравнения и подтверждения того, что кандидат действительно является дубликатом.

Что такое Chroma Word и как он используется?

Chroma Word — это небольшой фрагмент (компонент) аудио-отпечатка, обычно длиной 4 байта, описывающий короткий участок аудио (например, 3 секунды). В Pruning Index система ищет точные совпадения этих Chroma Words между входящим треком и базой данных, чтобы быстро найти потенциальных кандидатов на дубликаты.

Как система обрабатывает треки, у которых в начале добавлена тишина или они обрезаны?

Система устойчива к таким модификациям благодаря этапу валидации. При сравнении длинных отпечатков система может применять временной сдвиг (в патенте упоминается диапазон, например, +/- 20 секунд), смещая отпечатки друг относительно друга, чтобы найти максимальное совпадение, игнорируя различия в начале или конце трека.

Описывает ли патент, как Яндекс ранжирует музыку или видео?

Нет. Патент описывает только процесс поиска дубликатов (Matching), а не процесс ранжирования (Ranking) в ответ на запрос пользователя. Он решает задачу «Является ли файл А копией файла Б?», а не задачу «Какой файл лучше всего отвечает на запрос пользователя?».

Зачем нужна сложная структура индекса с «Index Key» и «Sorting Key»?

Это оптимизация для ускорения поиска в Pruning Index. Вместо того чтобы сканировать весь индекс, система использует иерархический подход. Index Key (например, первые 3 байта Chroma Word) быстро сужает поиск до небольшой группы записей (Set of posting lists), а Sorting Key (например, 4-й байт) позволяет мгновенно найти нужную запись внутри этой группы.

Если я размещу аудиофайл на своем сайте, поможет ли этот патент его индексации?

Этот патент не описывает, как Яндекс находит и индексирует аудиофайлы на веб-сайтах (Web Crawling). Он описывает внутренний механизм, который Яндекс может использовать после того, как аудиофайл уже попал в его базу (например, в базу Яндекс.Музыки или Видео), для управления дубликатами внутри этой базы.

Учитывает ли система качество аудио при поиске дубликатов?

Да, косвенно. Технология аудио-отпечатков (Chromaprint) сама по себе устойчива к разнице в качестве или битрейте. На этапе валидации система допускает некоторое несовпадение битов при побитовом сравнении, что позволяет считать дубликатами треки с разным качеством звука, если их основное акустическое содержание совпадает.

Какая длительность используется для коротких и длинных отпечатков?

В патенте приводятся конкретные примеры: для короткого отпечатка (Pruning) упоминается диапазон 9-27 секунд (оптимально 21 секунда), а для длинного (Validation) – диапазон 96-141 секунда (оптимально 120 секунд). Если трек короче указанных значений, используется его полная длительность.

Может ли система спутать ремикс с оригинальным треком?

Патент проводит различие между распознаванием фрагментов (как Shazam) и поиском полных дубликатов (Matching). Цель описанной системы – найти именно дубликаты. Дубликатом микса или ремикса будет тот же самый микс или ремикс. Если ремикс значительно отличается акустически от оригинала, система не должна идентифицировать его как дубликат оригинала.