Яндекс патентует двухэтапную систему для эффективного обнаружения дубликатов аудиофайлов (например, музыки или аудиодорожек видео). Система создает короткие и длинные аудиосигнатуры (отпечатки) на основе «хромаслов». Сначала она быстро находит кандидатов по коротким сигнатурам через специализированный инвертированный индекс, а затем проводит детальное побитовое сравнение длинных сигнатур для подтверждения дублирования.
Описание
Какую задачу решает
Патент решает задачу повышения эффективности и снижения ресурсоемкости процесса сравнения полных аудиофайлов (или аудиодорожек в видео) для поиска дубликатов. Традиционное сравнение крупных аудиосигнатур требует значительных вычислительных мощностей. Изобретение предлагает механизм для быстрого и эффективного обнаружения идентичного аудиоконтента в большой базе данных.
Что запатентовано
Запатентован способ формирования и использования специализированного инвертированного индекса аудиозаписей, а также двухэтапный метод сравнения контента. Суть изобретения заключается в использовании аудиосигнатур (аудио-отпечатков, хромапринтов), состоящих из хромаслов, и создании иерархической структуры индекса, которая позволяет экстремально быстро находить кандидатов на дублирование для последующей детальной проверки.
Как это работает
Система работает в два этапа:
- Быстрый выбор кандидата (Pruning): Для входящего аудиотрека генерируется короткая аудиосигнатура (например, первые 21 секунда). Система ищет в прюнинг-индексе (индексе отсева) другие треки, которые имеют хотя бы одно идентичное хромаслово. Индекс структурирован иерархически по байтам хромаслов для ускорения поиска.
- Проверка кандидата (Verification): Генерируется длинная аудиосигнатура (например, первые 120 секунд). Она побитно сравнивается с длинными сигнатурами треков-кандидатов, извлеченными из индекса проверки. Сравнение учитывает возможные сдвиги по времени (например, ±20 секунд) и допускает небольшие расхождения в битах.
Актуальность для SEO
Высокая. Технологии аудио-фингерпринтинга (в патенте упоминается технология «хромапринт»/Chromaprint) являются стандартом индустрии для управления мультимедийным контентом, борьбы с пиратством (Content ID) и дедупликации баз данных. Эти механизмы активно используются в сервисах Яндекса, таких как Яндекс Музыка и Яндекс Видео.
Важность для SEO
Влияние на традиционное SEO низкое (3/10). Патент не описывает механизмы ранжирования веб-страниц, текстовую релевантность или ссылочные факторы. Однако он имеет критическое значение для Video SEO (VSEO) и продвижения мультимедийного контента (подкасты, видео). Он раскрывает технический механизм, с помощью которого Яндекс идентифицирует уникальность аудиовизуального контента и обрабатывает дубликаты в своих мультимедийных вертикалях.
Детальный разбор
Термины и определения
- Аудиосигнатура (Audio Signature)
- Сжатая цифровая информация (отпечаток), детерминированно созданная из аудиосигнала. Используется для идентификации и сравнения аудио. В патенте упоминается технология «хромапринт».
- Длинная аудиосигнатура (Long Audio Signature)
- Аудиосигнатура, созданная для относительно длинной части аудиотрека (например, 96-141 секунда от начала, конкретный пример – 120 секунд). Используется на этапе детальной проверки (Verification).
- Индекс проверки (Verification Index / Индекс соответствия)
- Индекс, сформированный для множества длинных аудиосигнатур. Используется для детальной сверки кандидатов.
- Инвертированный индекс аудиозаписи
- Структура данных, хранящая соответствие между компонентами аудиосигнатур (хромасловами) и аудиотреками, которые их содержат. В патенте реализован как прюнинг-индекс и/или индекс проверки.
- Ключ индекса (Index Key)
- Идентификатор, используемый для быстрого определения положения набора списков словопозиций в индексе. Соответствует первой части хромаслова (префиксу, например, первым трем байтам).
- Ключ сортировки (Sorting Key)
- Идентификатор, используемый для быстрого определения конкретного списка словопозиций внутри набора. Соответствует последующей части хромаслова (суффиксу, например, четвертому байту).
- Короткая аудиосигнатура (Short Audio Signature)
- Аудиосигнатура, созданная для короткой начальной части аудиотрека (например, 9-27 секунд от начала, конкретный пример – 21 секунда). Используется на этапе быстрого выбора кандидатов (Pruning).
- Прюнинг-индекс (Pruning Index / Индекс обрезки)
- Инвертированный индекс, сформированный для множества коротких аудиосигнатур. Используется для быстрого отсева и выбора аудиотреков-кандидатов.
- Список словопозиций (Posting List)
- Список, содержащий идентификаторы треков (Track ID), в которых встречается конкретное хромаслово, а также может содержать информацию о длительности трека и положении хромаслова в нем.
- Хромаслово (Chroma Word)
- Компонент аудиосигнатуры. Последовательность байтов (в примере – 4 байта), описывающая короткую часть аудио (например, от 0.5 до 8 секунд).
Ключевые утверждения (Анализ Claims)
Патент фокусируется на структуре инвертированного индекса и способе его формирования для эффективного хранения и поиска аудиосигнатур.
Claim 17 (Независимый пункт): Способ формирования индекса.
Описывается процесс добавления новой аудиозаписи в инвертированный индекс:
- Получение новой аудиозаписи и определение первого хромаслова.
- Хромаслово делится на начальную часть, которая состоит из первого байта (или первой многобайтовой последовательности) и последующих байтов (или второй многобайтовой последовательности).
- На основе первого байта определяется конкретный набор списков словопозиций. Все списки в этом наборе относятся к хромасловам, начинающимся с этого первого байта.
- Проверка последующего байта:
- Если в этом наборе уже есть список словопозиций, соответствующий этому последующему байту, то индикация новой аудиозаписи (например, Track ID) добавляется в этот существующий список.
- Если списка для такого последующего байта еще нет, то формируется новый список словопозиций внутри этого конкретного набора.
Это ключевой механизм патента: создание иерархической структуры индекса. Первая часть хромаслова используется как Ключ индекса (для выбора набора списков), а вторая часть — как Ключ сортировки (для выбора конкретного списка внутри набора). Это оптимизирует хранение и ускоряет поиск.
Claims 1-16 (Машиночитаемый носитель):
Эти пункты защищают физический носитель (например, память сервера), содержащий инвертированный индекс, структурированный согласно методу из Claim 17. Они детализируют структуру индекса, включая уникальность Ключей индекса и Ключей сортировки (Claims 2-5), а также возможность разделения индекса на индекс обрезки (прюнинг) и индекс соответствия (проверки) (Claim 16).
Где и как применяется
Изобретение относится к инфраструктуре хранения и обработки мультимедийных данных.
CRAWLING – Сканирование и Сбор данных
На этом этапе система получает новые аудио- или видеофайлы из интернета или через прямую загрузку пользователями (например, в Яндекс Музыку или Видеохостинг).
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Происходит обработка мультимедийного контента для его идентификации и сравнения:
- Извлечение признаков (Feature Extraction): Аудиодорожка обрабатывается (например, с помощью Chromaprint) для генерации короткой и длинной аудиосигнатур, состоящих из хромаслов.
- Формирование индекса (Index Building): Хромаслова добавляются в инвертированный индекс (Прюнинг-индекс и Индекс проверки) согласно запатентованному методу (Claim 17). Используется иерархическая структура ключей.
- Поиск дубликатов (Duplicate Detection): При индексации новой записи система использует сформированный индекс для поиска существующих записей с похожими сигнатурами. Это позволяет идентифицировать дубликаты.
Система принимает на вход аудиозаписи, а на выходе предоставляет структуру индекса и/или идентификацию дубликатов.
На что влияет
- Конкретные типы контента: Влияет исключительно на мультимедийный контент — аудиофайлы (музыка, подкасты) и видеофайлы (анализируется их аудиодорожка). Не влияет на текст или изображения.
- Конкретные ниши: Наибольшее влияние в музыкальной индустрии, видеохостингах, подкастинге. Влияет на управление авторскими правами (Content ID) и дедупликацию контента.
Когда применяется
Алгоритм применяется в двух основных сценариях:
- Индексация нового контента: Когда в систему поступает новый аудио- или видеофайл, запускается процесс генерации сигнатур и их добавления в индекс.
- Сравнение контента: Когда необходимо проверить, является ли конкретный файл дубликатом уже существующего в базе (например, при загрузке пользователем или при обработке файлов, найденных краулером).
Пошаговый алгоритм
Алгоритм описывает два взаимосвязанных процесса: индексацию и сравнение.
Процесс А: Индексация (Формирование Индекса)
- Получение аудиозаписи.
- Генерация аудиосигнатур: Создание короткой (например, 21 сек) и длинной (например, 120 сек) сигнатур.
- Извлечение Хромаслов: Разбиение сигнатур на компоненты (хромаслова, например, по 4 байта).
- Определение Ключей: Разделение каждого хромаслова на Ключ индекса (например, первые 3 байта) и Ключ сортировки (например, 4-й байт).
- Поиск в Индексе (Уровень 1): Использование Ключа индекса для определения соответствующего Набора списков словопозиций.
- Поиск в Индексе (Уровень 2): Использование Ключа сортировки для поиска конкретного Списка словопозиций внутри набора.
- Обновление Индекса: Если список найден, добавить ID трека в него. Если не найден, создать новый список для этого Ключа сортировки и добавить ID трека.
Процесс Б: Сравнение (Поиск Дубликатов)
Этап 1: Быстрый выбор кандидатов (Pruning)
- Генерация короткой сигнатуры для входящего трека.
- Поиск совпадений: Для каждого хромаслова из короткой сигнатуры выполняется поиск в Прюнинг-индексе (используя иерархические ключи).
- Выбор кандидатов: Извлечение Track ID из найденных списков словопозиций. Треки, имеющие хотя бы одно совпадающее хромаслово, становятся кандидатами.
Этап 2: Проверка кандидатов (Verification)
- Генерация длинной сигнатуры для входящего трека.
- Извлечение сигнатур кандидатов: Извлечение длинных сигнатур треков-кандидатов из Индекса проверки (используя их Track ID).
- Побитное сравнение: Сравнение длинной сигнатуры входящего трека с сигнатурами кандидатов.
- Применение смещения: Повторение сравнения со сдвигом по времени (в патенте упоминается амплитуда, например, до ±20 секунд) для учета тишины или обрезки начала/конца трека.
- Фильтрация по длительности: Исключение кандидатов, чья общая длительность отличается от входящего трека больше, чем на порог (например, 10 или 30 секунд).
- Принятие решения: Если уровень побитного совпадения превышает установленный порог (который может быть ниже 100%), трек признается дубликатом.
Какие данные и как использует
Данные на входе
- Мультимедиа факторы: Основные данные — это аудиосигнал. Он преобразуется в спектрограмму, а затем в аудиосигнатуру (хромапринт), состоящую из последовательности хромаслов. В описании патента упоминается преобразование входящего аудио к частоте 11025 Гц (при использовании Хромапринт).
- Технические факторы (Временные): Используется длительность аудиотрека для генерации сигнатур нужной длины и для финальной фильтрации кандидатов. Также используется положение (timestamp) хромаслова внутри трека.
В патенте не упоминаются контентные, ссылочные, поведенческие или пользовательские факторы.
Какие метрики используются и как они считаются
- Хромаслово: Основная единица данных для индексации. В примере патента это последовательность из 4 байтов, характеризующая фрагмент от 0.5 до 8 секунд.
- Ключ индекса (Первая многобайтовая последовательность): Часть хромаслова, используемая для первого уровня индексации. В примере — 3 байта.
- Ключ сортировки (Последующий байт): Часть хромаслова, используемая для второго уровня индексации. В примере — 1 байт.
- Длительность короткой сигнатуры: Порог в диапазоне от 9 до 27 секунд (конкретный пример: 21 секунда).
- Длительность длинной сигнатуры: Порог в диапазоне от 96 до 141 секунды (конкретный пример: 120 секунд).
- Побитное сравнение (Bitwise comparison): Метрика схожести длинных аудиосигнатур. Упоминается, что 100% совпадение не обязательно (например, 90%, 80%, 70%).
- Амплитуда смещения: Допустимый временной сдвиг при сравнении сигнатур. Упоминается промежуток плюс или минус 20 секунд.
Выводы
Этот патент описывает инфраструктурные процессы Яндекса, связанные с обработкой мультимедиа. Он не дает прямых рекомендаций для традиционного SEO, но критически важен для понимания работы мультимедийных вертикалей.
- Техническая идентификация контента: Яндекс использует сложные алгоритмы аудио-фингерпринтинга (Chromaprint) для идентификации аудио и видео контента. Уникальность определяется на уровне аудиосигнала, а не метаданных.
- Эффективная дедупликация: Запатентованная двухэтапная система (Pruning + Verification) и иерархическая структура инвертированного индекса позволяют Яндексу быстро и эффективно находить дубликаты в огромных объемах данных.
- Устойчивость к модификациям: Система спроектирована так, чтобы быть устойчивой к незначительным техническим изменениям треков: разному качеству (битрейту), наличию тишины в начале/конце или небольшим временным сдвигам (до ±20 секунд).
- Разделение индексов: Использование отдельных индексов (Прюнинг и Проверки) для разных задач (скорость vs точность) является ключевой архитектурной особенностью.
- Приоритет уникальности в VSEO: Для успешного продвижения видеоконтента критически важно обеспечить его уникальность, в том числе уникальность аудиодорожки. Система легко идентифицирует перезаливы.
Практика
Best practices (это мы делаем)
Рекомендации касаются Video SEO и работы с аудиоконтентом.
- Создание уникального аудиовизуального контента: Убедитесь, что ваши видео и подкасты содержат оригинальную аудиодорожку. При создании обзоров, инструкций или развлекательного контента используйте собственную озвучку и уникальное музыкальное сопровождение.
- Осознанное использование чужого аудио: При использовании сторонней музыки или аудиофрагментов (например, в качестве фона или вставок) необходимо понимать, что Яндекс технически идентифицирует эти треки с помощью описанной системы. Это важно для управления авторскими правами и может влиять на то, как система классифицирует ваш контент.
- Локализация видео: При адаптации зарубежных видео для русскоязычной аудитории недостаточно добавить субтитры. Полный дубляж создает новую, уникальную аудиосигнатуру, что позволяет системе рассматривать локализованное видео как новый контент, а не дубликат оригинала.
Worst practices (это делать не надо)
- Перезаливка чужого контента: Загрузка чужих видео или аудио без существенных изменений неэффективна для SEO. Система легко идентифицирует дубликат по аудиосигнатуре, и такой контент, скорее всего, будет пессимизирован или склеен с оригиналом.
- Манипуляции для уникализации (Thin Modifications): Попытки обмануть систему путем добавления нескольких секунд тишины, небольшого ускорения/замедления воспроизведения или изменения битрейта не сработают. Механизмы сравнения со смещением (до ±20 сек) и устойчивость хромапринтов к изменениям качества нейтрализуют такие тактики.
- Игнорирование аудио при анализе конкурентов: Анализируя выдачу в Видео поиске, нужно учитывать не только визуальную часть и метаданные, но и понимать, насколько уникальна аудиодорожка у конкурентов.
Стратегическое значение
Патент подтверждает, что Яндекс рассматривает мультимедийный контент как самостоятельный объект индексации и анализа, требующий специализированной инфраструктуры. Для SEO-специалистов это подчеркивает стратегический сдвиг в сторону мультимедийного поиска, где уникальность контента проверяется на глубоком техническом уровне. Долгосрочная стратегия продвижения в видео-вертикалях должна базироваться на производстве оригинального контента, так как возможности для ранжирования за счет агрегации или перезалива чужого контента минимальны.
Практические примеры
Сценарий 1: Дедупликация видеообзоров на сайтах E-commerce
- Ситуация: Несколько интернет-магазинов размещают у себя на карточках товаров один и тот же видеообзор, предоставленный производителем.
- Действие системы: При индексации этих страниц Яндекс анализирует видео. Система генерирует аудиосигнатуры и определяет, что они идентичны (побитное сравнение дает высокий результат).
- Результат: В поиске (в том числе в Видео вертикали) эти видео будут склеены. Яндекс выберет один источник для ранжирования (вероятно, наиболее авторитетный сайт или первоисточник).
- SEO-действие: Чтобы получить преимущество, магазину следует записать собственный уникальный обзор. Это создаст новую аудиосигнатуру и позволит ранжироваться независимо.
Сценарий 2: Обработка подкастов
- Ситуация: Автор подкаста публикует выпуски на своем сайте, на YouTube и в Яндекс Музыке.
- Действие системы: Яндекс индексирует аудиофайлы со всех трех источников. Система сравнения определяет, что это один и тот же контент, несмотря на разные форматы (MP3, видеоконтейнер).
- Результат: Система корректно связывает все версии контента с одним и тем же выпуском подкаста, избегая дублирования в выдаче и агрегируя сигналы.
- SEO-действие: Важно обеспечить консистентность метаданных на всех платформах, чтобы помочь системе правильно связать идентифицированный контент с нужным автором и тематикой.
Вопросы и ответы
Влияет ли этот патент на ранжирование обычных текстовых статей в веб-поиске?
Нет, прямого влияния нет. Патент описывает исключительно методы формирования индекса и сравнения аудиозаписей (музыки, подкастов, аудиодорожек видео). Он не затрагивает факторы ранжирования HTML-документов, такие как текстовая релевантность, ссылки или поведенческие метрики веб-поиска.
Как Яндекс понимает, что два видео одинаковые, если у них разные названия, описания и превью?
Яндекс использует технологию аудио-фингерпринтинга, описанную в этом патенте. Система создает уникальную аудиосигнатуру (отпечаток) для аудиодорожки видео. Если аудиосигнатуры двух видео совпадают при побитном сравнении, система считает их дубликатами, независимо от метаданных или даже незначительных различий в видеоряде.
Можно ли обмануть эту систему дедупликации, добавив 5 секунд тишины в начало видео или немного его ускорив?
Это маловероятно. В патенте описан механизм сравнения со смещением (амплитуда смещения). Упоминается, что система проверяет совпадения с учетом сдвига в промежутке плюс или минус 20 секунд. Это нейтрализует попытки уникализации за счет добавления тишины или обрезки начала/конца. Технология Хромапринт также достаточно устойчива к небольшим изменениям скорости воспроизведения.
Что такое «хромаслово» на практике?
Хромаслово — это технический термин из патента, обозначающий компонент аудиосигнатуры. Это последовательность байтов (в примере патента — 4 байта), которая описывает характеристики звука в очень коротком фрагменте аудиотрека (от 0.5 до 8 секунд). Аудиосигнатура всего трека состоит из множества таких хромаслов.
Зачем Яндексу нужны и короткие (21 сек), и длинные (120 сек) аудиосигнатуры?
Это нужно для баланса между скоростью и точностью. Короткие сигнатуры используются на первом этапе (Pruning) для максимально быстрого поиска потенциальных кандидатов в огромной базе данных. Длинные сигнатуры используются на втором этапе (Verification) для детального побитного сравнения только с отобранными кандидатами, чтобы подтвердить совпадение.
Что такое прюнинг-индекс и чем он отличается от обычного индекса?
Прюнинг-индекс (индекс обрезки) — это специализированный инвертированный индекс, созданный для коротких аудиосигнатур. Его задача — не точное сравнение, а быстрый отсев (pruning) и выбор ограниченного числа кандидатов для дальнейшей, более дорогостоящей проверки. Он оптимизирован для скорости поиска совпадений отдельных хромаслов, используя запатентованную иерархическую структуру ключей.
Влияет ли качество звука (битрейт) на распознавание дубликатов?
Влияет минимально. Технология Хромапринт, упомянутая в патенте как основа для создания аудиосигнатур, спроектирована так, чтобы быть устойчивой к изменениям качества, битрейта и кодирования. Дубликат будет распознан, даже если один трек в высоком качестве, а другой — в низком, так как система допускает не 100% совпадение.
Если я использую лицензионную фоновую музыку в своем видео, как это повлияет на его SEO?
Система идентифицирует этот музыкальный трек в вашем видео. Само по себе это не является негативным фактором для SEO, но это означает, что часть вашей аудиодорожки не уникальна. Это также критически важно для управления авторскими правами (например, система может автоматически применять политики монетизации правообладателя).
Важен ли этот патент для продвижения подкастов?
Да, он очень важен. Он описывает механизм, который помогает Яндексу идентифицировать уникальные выпуски подкастов и отличать их от перезаливок или агрегированного контента. Это также помогает системе правильно склеивать один и тот же выпуск, размещенный на разных платформах (например, на сайте автора и в Яндекс Музыке).
Описывает ли этот патент, как работает распознавание музыки (аналог Shazam) в Яндексе?
Не совсем. Хотя базовая технология (Chromaprint) схожа, задачи разные. Патент фокусируется на сравнении относительно полных и чистых треков для поиска дубликатов (сравнение трека с базой данных). Сервисы типа Shazam решают задачу распознавания короткого (10-15 секунд), зашумленного и искаженного фрагмента, записанного на микрофон.