Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс использует двухэтапный поиск и оптимизированный индекс для быстрого обнаружения дубликатов аудиофайлов

    METHOD OF AND A SYSTEM FOR INDEXING AUDIO TRACKS USING CHROMAPRINTS (Метод и система индексирования аудиодорожек с использованием Chromaprints)
    • WO2016024171A1
    • Yandex LLC
    • 2016-02-18
    • 2015-03-03
    2016 Вертикальный поиск Индексация Патенты Яндекс Яндекс Музыка

    Яндекс патентует систему для эффективного поиска дубликатов аудиофайлов. Система использует двухэтапный подход: быстрая выборка кандидатов по коротким аудио-отпечаткам (Pruning) и детальная проверка по длинным отпечаткам (Validation). Также описана оптимизированная структура инвертированного индекса для ускорения поиска по компонентам отпечатков (Chroma Words).

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу эффективного и быстрого поиска полных дубликатов аудиодорожек (Matching) в больших базах данных. Основная проблема заключается в высокой вычислительной стоимости сравнения больших аудио-отпечатков. Изобретение направлено на оптимизацию использования компьютерных ресурсов (процессорного времени, памяти) при детектировании дубликатов аудиоконтента. Оно не связано с улучшением веб-поиска или устранением SEO-манипуляций.

    Что запатентовано

    Запатентованы метод и система для эффективного сопоставления аудиодорожек, а также специфическая структура инвертированного индекса для хранения аудио-отпечатков. Суть изобретения заключается в двухэтапном процессе поиска дубликатов (быстрая выборка кандидатов и детальная валидация) и в иерархической организации индекса (Inverted Index), основанной на разделении компонентов отпечатков (Chroma Words) на ключи для ускоренного поиска.

    Как это работает

    Система использует два типа аудио-отпечатков, сгенерированных с помощью технологии Chromaprint: короткие (например, первые 21 секунды) и длинные (например, первые 120 секунд). Процесс поиска дубликатов состоит из двух этапов:

    1. Pruning (Выборка кандидатов): Используя короткий отпечаток входящего трека, система быстро ищет в Pruning Index треки, которые содержат хотя бы один идентичный компонент (Chroma Word). Pruning Index имеет оптимизированную иерархическую структуру для ускорения этого поиска.
    2. Validation (Валидация): Для найденных кандидатов система извлекает их длинные отпечатки из Validation Index и выполняет детальное побитовое сравнение с длинным отпечатком входящего трека. На этом этапе учитываются возможные временные сдвиги (например, тишина в начале трека).

    Актуальность для SEO

    Высокая (для мультимедийных сервисов). Технологии аудио-фингерпринтинга и эффективные методы индексирования для поиска дубликатов являются фундаментальными для управления большими каталогами музыки и видео, обеспечения соблюдения авторских прав и дедупликации контента в таких сервисах, как Яндекс.Музыка или Яндекс.Видео.

    Важность для SEO

    Минимальное влияние (1/10). Этот патент описывает инфраструктуру для сопоставления аудиофайлов на основе их акустических отпечатков. Он не имеет отношения к ранжированию, индексированию или пониманию текстового контента в веб-поиске. Патент актуален только для внутренних процессов мультимедийных вертикалей Яндекса и не влияет на стандартные SEO-стратегии продвижения сайтов.

    Детальный разбор

    Патент описывает внутренние процессы Яндекс без прямых рекомендаций для SEO. Анализ фокусируется на понимании инфраструктуры аудио-поиска.

    Термины и определения

    Audio Fingerprint (Аудио-отпечаток)
    Сжатое цифровое представление аудиосигнала, используемое для его идентификации.
    Chromaprint
    Конкретная технология или библиотека для генерации аудио-отпечатков, используемая в патенте.
    Chroma Word
    Компонент аудио-отпечатка (в патенте описывается как последовательность байтов, например, 4 байта), представляющий собой короткий фрагмент аудиодорожки (например, от 0.5 до 8 секунд).
    Short Audio Fingerprint (Короткий аудио-отпечаток)
    Отпечаток начальной части трека (упоминается диапазон 9-27 секунд, оптимально 21 секунда). Используется на этапе Pruning.
    Long Audio Fingerprint (Длинный аудио-отпечаток)
    Отпечаток более длинной начальной части трека (упоминается диапазон 96-141 секунда, оптимально 120 секунд). Используется на этапе Validation.
    Pruning Index
    Инвертированный индекс, построенный на основе коротких отпечатков. Используется для быстрого поиска кандидатов. Имеет оптимизированную иерархическую структуру, описанную в патенте.
    Validation Index
    Индекс или система хранения длинных отпечатков, используемая для детального сравнения. Состоит из Key File (Track ID и ссылки) и Fingerprint File (сами отпечатки).
    Posting List (Список сообщений / Постинг-лист)
    Структура данных в инвертированном индексе, содержащая список вхождений конкретного Chroma Word (включая Track ID, длительность трека и позицию слова).
    Index Key (Ключ индекса)
    Первая часть Chroma Word (например, первые 3 байта), используемая для локализации «набора списков сообщений» (Set of posting lists) в Pruning Index.
    Sorting Key (Ключ сортировки)
    Последующая часть Chroma Word (например, 4-й байт), используемая для локализации конкретного Posting List внутри набора.

    Ключевые утверждения (Анализ Claims)

    Патент фокусируется на двух основных аспектах: оптимизированной структуре инвертированного индекса и методе его поддержания.

    Claim 1 (Независимый пункт): Описывает структуру инвертированного индекса аудиодорожек (фактически, структуру Pruning Index).

    1. Индекс состоит из множества «наборов списков сообщений» (sets of posting lists).
    2. Каждый список сообщений (posting list) содержит Chroma Words (компоненты аудио-отпечатков).
    3. Chroma Word разделен на байты и имеет «начальную часть» (beginning portion), состоящую из «первого байта» (first byte) и «следующего байта» (following byte). (Примечание: в описании патента и других Claims (например, Claim 6 и 8) указано, что эти части могут быть многобайтовыми последовательностями, например, 3 байта + 1 байт).
    4. В пределах одного «набора»: все списки сообщений содержат Chroma Words с одинаковым «первым байтом» (или последовательностью).
    5. В пределах того же «набора»: отдельные списки сообщений отличаются друг от друга уникальным значением «следующего байта» (или последовательности).

    Это иерархическая структура индекса. «Первый байт/последовательность» выступает как Index Key, который ведет к «набору». «Следующий байт/последовательность» выступает как Sorting Key, который ведет к конкретному списку внутри набора. Это оптимизирует поиск.

    Claim 17 (Независимый пункт): Описывает метод создания и поддержания этого инвертированного индекса.

    1. Система получает аудиодорожку и определяет ее Chroma Word (разделенный на «первый байт» и «следующий байт»).
    2. Используя «первый байт», система определяет соответствующий «набор списков сообщений».
    3. Система проверяет, существует ли внутри этого набора список сообщений, соответствующий «следующему байту».
    4. Если да: индикация нового Chroma Word добавляется в существующий список.
    5. Если нет: создается новый список сообщений внутри этого набора для данного «следующего байта».

    Где и как применяется

    Этот патент является инфраструктурным и применяется в слоях индексирования и поиска данных для мультимедийного контента (аудио), а не для стандартного веб-поиска.

    CRAWLING & ACQUISITION (Сбор данных — Мультимедиа)
    Аудиофайлы поступают в систему (например, загружаются пользователями или правообладателями).

    INDEXING (Индексирование — Мультимедиа)
    На этом этапе происходит основная работа по патенту:

    • Feature Extraction: Из аудиофайлов генерируются короткие и длинные аудио-отпечатки (Chromaprints).
    • Index Building/Maintenance:
      • Pruning Index обновляется Chroma Words из коротких отпечатков с использованием описанной иерархической структуры (Index Key / Sorting Key).
      • Validation Index обновляется: длинный отпечаток добавляется в Fingerprint File, а Key File обновляется Track ID и ссылкой на местоположение.

    RANKING / RETRIEVAL (Поиск Дубликатов — Мультимедиа)
    Это не ранжирование в смысле SEO, а процесс поиска совпадений.

    • Вход: Входящий аудио трек.
    • Обработка: Система выполняет двухэтапный процесс сопоставления (Pruning и Validation), используя два индекса для нахождения дубликатов.
    • Выход: Список совпадающих (дублирующихся) индексированных аудио треков.

    На что влияет

    • Типы контента: Исключительно аудиофайлы (MP3 и т.д.) или аудиодорожки внутри видеофайлов.
    • Специфические запросы: Не применимо к поисковым запросам пользователей. Алгоритм применяется к внутренним процессам сопоставления нового аудиоконтента с существующей базой данных.
    • Ниши: Музыкальная индустрия, управление авторскими правами, платформы, размещающие пользовательский аудио/видео контент (UGC).

    Когда применяется

    • Условия работы и Триггеры: Алгоритм активируется, когда в систему вводится новая аудиодорожка (например, при загрузке), и необходимо проверить ее на наличие дубликатов или идентифицировать ее по известной базе данных.

    Пошаговый алгоритм

    Процесс А: Индексация нового трека

    1. Получение Аудио: Система получает новый аудиофайл.
    2. Генерация Отпечатков: Генерируются короткий (например, 21 сек) и длинный (например, 120 сек) аудио-отпечатки (Chromaprints).
    3. Извлечение Chroma Words: Из короткого отпечатка извлекаются составляющие его Chroma Words (например, 4-байтовые компоненты).
    4. Обновление Pruning Index: Для каждого Chroma Word:
      1. Определяется Index Key (например, первые 3 байта).
      2. Определяется Sorting Key (например, 4-й байт).
      3. Система находит соответствующий «набор списков сообщений» по Index Key.
      4. Внутри набора система находит конкретный список сообщений по Sorting Key (или создает новый).
      5. В список добавляется информация о треке (Track ID, длительность, позиция слова).
    5. Обновление Validation Index: Длинный отпечаток добавляется в Fingerprint File. В Key File добавляется запись, связывающая Track ID с местоположением этого отпечатка.

    Процесс Б: Поиск Дубликатов (Matching)

    1. Получение Входящего Трека и Генерация Отпечатков: Система получает трек для проверки и генерирует его короткий и длинный отпечатки.
    2. Этап 1: Выборка Кандидатов (Pruning):
      1. Из короткого отпечатка извлекаются Chroma Words.
      2. Для каждого Chroma Word система ищет точные совпадения в Pruning Index (используя Index Key и Sorting Key).
      3. Все треки из базы, содержащие хотя бы одно совпадающее Chroma Word, становятся кандидатами.
    3. Фильтрация Кандидатов (Опционально): Кандидаты могут быть отфильтрованы по длительности (например, исключаются треки, отличающиеся более чем на заданное значение, например 30 сек) или по количеству совпавших Chroma Words.
    4. Этап 2: Валидация (Validation):
      1. Для каждого кандидата система извлекает его длинный отпечаток из Validation Index.
      2. Выполняется детальное побитовое сравнение (bit-by-bit comparing) длинного отпечатка входящего трека с длинным отпечатком кандидата.
      3. Сравнение может включать временной сдвиг отпечатков друг относительно друга (например, +/- 20 сек) для учета тишины в начале или обрезанных треков.
    5. Результат: Треки, чьи длинные отпечатки совпадают выше определенного порога, считаются дубликатами.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы (Акустические): Основные данные – это непосредственно аудиосигнал (спектрограмма, интенсивность частот), который преобразуется в аудио-отпечатки (Chromaprints) и их компоненты (Chroma Words).
    • Метаданные: Длительность аудио трека. Используется для фильтрации кандидатов и хранится в Pruning Index.

    Текстовые, ссылочные, поведенческие, технические и другие факторы ранжирования веб-поиска в данном патенте не используются.

    Какие метрики используются и как они считаются

    • Chroma Word Matching: Бинарная метрика (совпадает/не совпадает). Используется на этапе Pruning для поиска кандидатов по точному совпадению компонентов отпечатка.
    • Bit-by-bit Comparison (Побитовое сравнение): Метрика схожести длинных отпечатков на этапе Validation. Рассчитывается как процент совпавших битов при детальном сравнении. Патент указывает, что 100% совпадение не требуется.
    • Duration Difference (Разница в длительности): Разница в общей длительности сравниваемых треков. Используется как фильтр с пороговым значением (например, 30 секунд).
    • Time Shift Amplitude (Амплитуда временного сдвига): Величина сдвига (например, +/- 20 секунд), используемая при валидации для компенсации различий в начале или конце треков.

    Выводы

    1. Патент инфраструктурный, без рекомендаций для SEO: Патент описывает исключительно внутренние инфраструктурные процессы Яндекса для обработки мультимедиа (аудио) и не содержит абсолютно никаких прямых или косвенных рекомендаций для SEO веб-сайтов.
    2. Двухэтапное обнаружение дубликатов: Яндекс использует систему, разделяющую процесс на быструю грубую выборку (Pruning) и медленную точную проверку (Validation) для баланса между скоростью и точностью.
    3. Оптимизация индекса через иерархию ключей: Ключевым техническим решением для ускорения выборки является оптимизированная структура Pruning Index. Она основана на иерархическом разделении компонентов отпечатков (Chroma Words) на Index Key и Sorting Key.
    4. Устойчивость к модификациям треков: Система способна распознавать дубликаты, даже если они имеют временные сдвиги (например, тишина в начале) или небольшую разницу в длительности, благодаря механизмам сдвига на этапе валидации.
    5. Акустический анализ: Поиск дубликатов основан исключительно на акустических характеристиках (Chromaprints), а не на метаданных или текстовом описании аудиофайлов.

    Практика

    Практическое применение в SEO

    ВАЖНО: Патент является инфраструктурным и описывает механизм поиска дубликатов аудиофайлов. Он не дает практических выводов для SEO-продвижения стандартных веб-сайтов.

    Best practices (это мы делаем)

    Не применимо к стандартному SEO.

    Worst practices (это делать не надо)

    Не применимо к стандартному SEO.

    Стратегическое значение

    Патент демонстрирует техническую экспертизу Яндекса в области индексирования и поиска мультимедийных данных. Для SEO-специалистов этот патент имеет нулевое стратегическое значение в контексте ранжирования веб-документов. Он может представлять интерес только с точки зрения общего понимания инфраструктуры мультимедийных вертикалей Яндекса (Яндекс.Музыка, Яндекс.Видео).

    Практические примеры

    Практических примеров для SEO нет, так как патент не относится к веб-поиску.

    Вопросы и ответы

    Влияет ли этот патент на ранжирование сайтов в веб-поиске?

    Нет. Патент описывает исключительно инфраструктуру и алгоритмы для индексирования и поиска дубликатов аудиофайлов на основе их акустических отпечатков (Chromaprints). Он не имеет отношения к текстовой релевантности, поведенческим факторам или другим аспектам ранжирования веб-документов.

    Что такое «Pruning Index» и «Validation Index»?

    Это два разных индекса для двух этапов поиска дубликатов. Pruning Index хранит короткие отпечатки и оптимизирован для очень быстрого поиска кандидатов, которые имеют хоть какое-то акустическое сходство. Validation Index хранит полные (длинные) отпечатки и используется для детального побитового сравнения и подтверждения того, что кандидат действительно является дубликатом.

    Что такое Chroma Word и как он используется?

    Chroma Word — это небольшой фрагмент (компонент) аудио-отпечатка, обычно длиной 4 байта, описывающий короткий участок аудио (например, 3 секунды). В Pruning Index система ищет точные совпадения этих Chroma Words между входящим треком и базой данных, чтобы быстро найти потенциальных кандидатов на дубликаты.

    Как система обрабатывает треки, у которых в начале добавлена тишина или они обрезаны?

    Система устойчива к таким модификациям благодаря этапу валидации. При сравнении длинных отпечатков система может применять временной сдвиг (в патенте упоминается диапазон, например, +/- 20 секунд), смещая отпечатки друг относительно друга, чтобы найти максимальное совпадение, игнорируя различия в начале или конце трека.

    Описывает ли патент, как Яндекс ранжирует музыку или видео?

    Нет. Патент описывает только процесс поиска дубликатов (Matching), а не процесс ранжирования (Ranking) в ответ на запрос пользователя. Он решает задачу «Является ли файл А копией файла Б?», а не задачу «Какой файл лучше всего отвечает на запрос пользователя?».

    Зачем нужна сложная структура индекса с «Index Key» и «Sorting Key»?

    Это оптимизация для ускорения поиска в Pruning Index. Вместо того чтобы сканировать весь индекс, система использует иерархический подход. Index Key (например, первые 3 байта Chroma Word) быстро сужает поиск до небольшой группы записей (Set of posting lists), а Sorting Key (например, 4-й байт) позволяет мгновенно найти нужную запись внутри этой группы.

    Если я размещу аудиофайл на своем сайте, поможет ли этот патент его индексации?

    Этот патент не описывает, как Яндекс находит и индексирует аудиофайлы на веб-сайтах (Web Crawling). Он описывает внутренний механизм, который Яндекс может использовать после того, как аудиофайл уже попал в его базу (например, в базу Яндекс.Музыки или Видео), для управления дубликатами внутри этой базы.

    Учитывает ли система качество аудио при поиске дубликатов?

    Да, косвенно. Технология аудио-отпечатков (Chromaprint) сама по себе устойчива к разнице в качестве или битрейте. На этапе валидации система допускает некоторое несовпадение битов при побитовом сравнении, что позволяет считать дубликатами треки с разным качеством звука, если их основное акустическое содержание совпадает.

    Какая длительность используется для коротких и длинных отпечатков?

    В патенте приводятся конкретные примеры: для короткого отпечатка (Pruning) упоминается диапазон 9-27 секунд (оптимально 21 секунда), а для длинного (Validation) – диапазон 96-141 секунда (оптимально 120 секунд). Если трек короче указанных значений, используется его полная длительность.

    Может ли система спутать ремикс с оригинальным треком?

    Патент проводит различие между распознаванием фрагментов (как Shazam) и поиском полных дубликатов (Matching). Цель описанной системы – найти именно дубликаты. Дубликатом микса или ремикса будет тот же самый микс или ремикс. Если ремикс значительно отличается акустически от оригинала, система не должна идентифицировать его как дубликат оригинала.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.