Яндекс патентует метод оптимизации поиска почти дублирующихся видеофайлов. Чтобы избежать дорогостоящего сравнения всех видео, система сначала фильтрует кандидатов по длительности. Допустимое отклонение длительности рассчитывается динамически (например, как процент от оригинала) на основе длины исходного видео. Если длительность кандидата выходит за эти рамки, он отбрасывается, экономя вычислительные ресурсы.
Описание
Какую задачу решает
Патент решает инфраструктурную задачу: снижение вычислительных затрат и времени, необходимых для обнаружения близких к дублированию видеофайлов (near-duplicate videos) в большом хранилище данных. Процесс прямого сравнения видеоконтента (например, через сравнение сигнатур) является ресурсоемким. Изобретение направлено на повышение эффективности индексации за счет исключения заведомо неподходящих кандидатов до начала стадии дорогостоящего сравнения.
Что запатентовано
Запатентован способ и система для эффективного предварительного отбора видеокандидатов на дублирование. Суть изобретения заключается в использовании «Параметра переменной длительности» (Variable Duration Parameter) в качестве первичного фильтра. Этот параметр динамически определяется на основе длительности анализируемого видео. Это основано на предположении, что допустимые различия в длине дубликатов зависят от общей продолжительности оригинала (например, в длинных видео отклонения могут быть больше из-за рекламы или вырезанных титров).
Как это работает
Система определяет длительность исходного видео и вычисляет для него Параметр переменной длительности — допустимый диапазон продолжительности для потенциальных дубликатов (например, используя Окно переменной длительности в ±5% от длины оригинала). Затем система сравнивает длительность потенциальных кандидатов с этим диапазоном. Если длительность кандидата попадает в диапазон, он помечается как «Действительный кандидат» и передается на следующий этап для детального сравнения контента (сигнатуры, аудиодорожки). Если длительность выходит за пределы диапазона, кандидат отбрасывается без дальнейшего анализа, что экономит ресурсы.
Актуальность для SEO
Средняя. Дедупликация контента является фундаментальной задачей для любой поисковой системы. Описанный метод использования длительности как первичного фильтра с динамическими порогами — это эффективная техника оптимизации процесса индексации. Хотя для сравнения контента используются более сложные методы, принцип предварительной фильтрации для снижения нагрузки остается актуальным.
Важность для SEO
Минимальное влияние на SEO (1/10). Патент описывает внутренние инфраструктурные процессы Яндекса, направленные на повышение эффективности индексации видео. Он не описывает алгоритмы ранжирования, оценку качества контента или анализ поведения пользователей. Он лишь помогает Яндексу быстрее и дешевле находить дубликаты видео в своей базе, но не предоставляет SEO-специалистам прямых рычагов воздействия.
Детальный разбор
Термины и определения
- Близкое к дублированию видео (Near-duplicate video)
- Видеофайл, который обладает почти идентичным контентом с другим видеофайлом, но может иметь модификации (добавленный или удаленный контент, реклама, титры), что может влиять на его общую длительность.
- Действительный кандидат (Valid Candidate)
- Потенциальный дубликат, чья длительность соответствует Параметру переменной длительности исходного видео. Только действительные кандидаты переходят на этап детального сравнения контента.
- Окно переменной длительности (Variable Duration Window)
- Значение (например, 5% от длительности исходного видео или фиксированное время), которое используется для расчета верхнего и/или нижнего пределов Параметра переменной длительности. Обозначается как Δ.
- Параметр переменной длительности (Variable Duration Parameter)
- Динамически вычисляемый диапазон (с верхним и нижним пределами), определяющий приемлемые различия в длительности между исходным видео и его потенциальными дубликатами. Определяется на основе длительности исходного видео. Также упоминается как «шаблон переменной длительности» или «маска переменной длительности».
- Сигнатура видео (Video Signature)
- Компактное представление видеоконтента, используемое для сравнения файлов. В патенте упоминается, что сигнатуры могут состоять из Визуальных слов.
- Визуальные слова (Visual Words)
- Элементы сигнатуры видео. Совпадение большого числа визуальных слов между двумя видео используется как индикатор их дублирования на этапе сравнения контента.
Ключевые утверждения (Анализ Claims)
Патент фокусируется на повышении эффективности процесса дедупликации за счет введения этапа адаптивной предварительной фильтрации.
Claim 1 (Независимый пункт): Описывает ядро изобретения — способ выбора видеокандидата.
- Система определяет Параметр переменной длительности. Критически важно, что он определяется на основе длительности первого (исходного) видео.
- Система получает множество потенциальных видеокандидатов.
- Выбирается первый кандидат и его длительность сравнивается с Параметром переменной длительности.
- Если длительность кандидата находится в пределах параметра, он определяется как «Действительный кандидат» на близкое к дублированию видео.
Claims 6 и 7 (Зависимые пункты): Описывают механизм экономии ресурсов.
- Система выбирает второго кандидата. Если его длительность находится ЗА пределами параметра, он определяется как НЕ являющийся действительным кандидатом (Claim 6).
- Ключевой момент оптимизации (Claim 7): Первый (действительный) кандидат сравнивается с исходным видео, а второй (недействительный) кандидат НЕ сравнивается с исходным видео.
Claims 8 и 9 (Зависимые пункты): Описывают варианты расчета Параметра переменной длительности с использованием Окна переменной длительности (Δ).
- Вариант 1 (Claim 8): Верхний предел равен длительности первого видео (T). Нижний предел = T — Δ. (Фильтр только для более коротких или равных по длине видео).
- Вариант 2 (Claim 9): Верхний предел = T + Δ. Нижний предел = T — Δ. (Фильтр для видео, которые немного короче или длиннее оригинала).
Claims 2, 3, 10 (Зависимые пункты): Уточняют, что после фильтрации действительные кандидаты проходят этап сравнения (Claim 2, 10), который может включать сравнение сигнатур видео (Claim 3).
Где и как применяется
Изобретение применяется на этапе обработки данных в хранилище видео.
INDEXING – Индексирование и извлечение признаков
Система применяется в процессе индексирования видеоконтента для построения связей между дубликатами. Она взаимодействует с Приложением индексирования видео и хранилищем видео.
Процесс делится на две стадии:
- Стадия 1: Выбор кандидатов (Фильтрация). Применяется запатентованный механизм. Это быстрая операция, использующая только метаданные о длительности. Цель — сократить количество пар видео для Стадии 2.
- Стадия 2: Анализ кандидатов (Сравнение). Ресурсоемкая операция сравнения контента (сигнатуры, аудио) только для действительных кандидатов.
- Входные данные (Стадия 1): Исходное видео, множество потенциальных видеокандидатов, длительность каждого видеофайла.
- Выходные данные (Стадия 1): Подмножество «Действительных кандидатов».
На что влияет
- Конкретные типы контента: Влияет исключительно на обработку видеофайлов (в вертикали Видео Поиска или в общем индексе).
- Эффективность системы: Основное влияние оказывается на скорость и стоимость процесса индексации видео в Яндексе.
- Технические особенности: Механизм учитывает, что более длинные видео могут иметь большие абсолютные различия в длительности с их дубликатами по сравнению с короткими видео, за счет использования переменного (часто процентного) окна.
Когда применяется
- Условия применения: Алгоритм применяется в процессе индексации новых видео или при периодической ре-индексации существующего хранилища для выявления дубликатов.
- Триггеры активации: Запуск процесса анализа дубликатов для конкретного видеофайла.
Пошаговый алгоритм
Процесс выбора действительных кандидатов для сравнения.
- Инициализация: Выбор «Первого видео» из хранилища, для которого необходимо найти дубликаты. Определение его длительности (T).
- Расчет Окна Переменной Длительности (Δ): Определение величины допустимого отклонения. Например, с использованием предварительно определенного процента (P, например, 5%):
$${Δ = P \times T}$$ - Расчет Параметра Переменной Длительности: Определение нижнего (L_low) и верхнего (L_up) пределов допустимой длительности.
Система может использовать разные стратегии (Claims 8 и 9):
- Стратегия 1: $${L}_{low} = T — Δ$$, $${L}_{up} = T$$
- Стратегия 2: $${L}_{low} = T — Δ$$, $${L}_{up} = T + Δ$$
(Патент также упоминает возможность использования разных окон для верхнего и нижнего пределов).
- Получение и Подготовка Кандидатов: Получение множества потенциальных видеокандидатов. В некоторых вариантах (Claim 12) кандидаты ранжируются по длительности (например, в порядке возрастания) для оптимизации.
- Итеративная Фильтрация: Для каждого видеокандидата (с длительностью T_cand):
- Сравнение T_cand с рассчитанными пределами L_low и L_up.
- Если T_cand ВНЕ пределов: Кандидат отбрасывается (не является действительным).
- Если $${L}_{low} \le {T}_{cand} \le {L}_{up}$$: Кандидат помечается как «Действительный кандидат».
- Детальное Сравнение (Стадия 2): Все «Действительные кандидаты» (и только они) сравниваются с Первым видео для подтверждения дублирования. Сравнение может включать:
- Сравнение Сигнатур видео (например, подсчет числа совпадающих Визуальных слов).
- Сравнение аудиодорожек, метаданных, заголовков.
- Действие (Опционально): Если дублирование подтверждено, система может выполнить действия: объединение метаданных, объединение сигнатур, создание кластера дубликатов.
Какие данные и как использует
Данные на входе
На этапе фильтрации (Стадия 1, основной предмет патента):
- Технические факторы: Ключевым фактором является Длительность (Duration) исходного видео и видеокандидатов.
На этапе детального сравнения (Стадия 2):
- Контентные/Мультимедиа факторы:
- Сигнатуры видео (Video Signatures).
- Визуальные слова (Visual Words) как компоненты сигнатур.
- Аудиодорожки (Audio tracks).
- Метаданные: Заголовки (Titles) и другие метаданные.
Какие метрики используются и как они считаются
- Окно переменной длительности (Δ): Рассчитывается на основе длительности первого видео (T). В патенте приведен пример использования параметра окна P=5% (0.05).
Формула 1 (из патента):
$${Δ = P \times T}$$
Значение параметра (P) может определяться эмпирически.
- Параметр переменной длительности: Диапазон, определяемый верхним и нижним пределами.
- Нижний предел (L_low):
Формула 2 (из патента):
$${L}_{low} = T — Δ$$
- Верхний предел (L_up): Может быть рассчитан двумя способами:
- Вариант А: Равен длительности первого видео ($${T}$$).
- Вариант Б (Формула 3 из патента): $${L}_{up} = T + Δ$$.
- Порог совпадения (Matching Threshold): На этапе детального сравнения используется предварительно определенный порог числа перекрывающихся визуальных слов для подтверждения дублирования.
Выводы
- Фокус на инфраструктурной эффективности, а не на ранжировании: Патент описывает исключительно внутренний механизм оптимизации процесса индексации видео. Он направлен на снижение вычислительной нагрузки при поиске дубликатов и не содержит информации об алгоритмах ранжирования или факторах качества.
- Двухэтапная дедупликация: Процесс четко разделен на быструю фильтрацию (по длительности) и дорогостоящее сравнение (по контенту). Патент оптимизирует первый этап.
- Динамический расчет допустимых отклонений: Ключевая особенность — Параметр переменной длительности. Система признает, что допустимое отклонение зависит от общей длины видео (для длинных фильмов оно больше, чем для коротких роликов), и рассчитывает его динамически (например, в процентах), а не использует фиксированные значения.
- Отсутствие практической ценности для SEO: Поскольку патент является инфраструктурным и описывает техническую оптимизацию внутренних процессов Яндекса, он не дает практических выводов для SEO-стратегии или тактик продвижения сайтов.
Практика
Патент является чисто техническим и описывает внутренние процессы индексации Яндекса без прямых рекомендаций для SEO. Он дает понимание того, как Яндекс оптимизирует свои ресурсы при обработке видеоконтента.
Best practices (это мы делаем)
Патент не предоставляет конкретных рекомендаций для SEO-специалистов. Стандартные практики видео-SEO (оптимизация метаданных, обеспечение доступности контента, создание уникального видео) остаются актуальными, но они не вытекают напрямую из механизмов, описанных в данном документе. Патент лишь подтверждает, что Яндекс активно индексирует и эффективно дедуплицирует видеоконтент.
Worst practices (это делать не надо)
Патент не направлен против каких-либо специфических SEO-манипуляций. Однако попытки обойти системы дедупликации путем незначительного изменения длительности видео (например, добавление короткого интро) будут неэффективны, так как система адаптивно учитывает такие отклонения и все равно проведет детальное сравнение контента.
Стратегическое значение
Стратегическое значение для SEO минимально. Патент демонстрирует, что Яндекс инвестирует в оптимизацию инфраструктуры для обработки больших объемов видеоданных. Это косвенно указывает на важность видеоконтента для экосистемы Яндекса и наличие сложных механизмов для поддержания чистоты индекса, но не меняет понимание приоритетов ранжирования.
Практические примеры
Практических примеров для SEO нет. Ниже приведен пример, иллюстрирующий внутренний процесс индексации.
Сценарий: Эффективное исключение кандидатов при индексации
- Исходное видео (Первое видео): Фильм длительностью 100 минут (T = 100).
- Расчет параметров: Система использует окно в 5% (P=0.05). Окно Δ = 5 минут. Параметр переменной длительности устанавливается от 95 минут (T — Δ) до 105 минут (T + Δ).
- Анализ Кандидатов:
- Кандидат А (Версия с вырезанными титрами, 98 минут): Попадает в диапазон. Помечается как «Действительный кандидат» и отправляется на сравнение сигнатур.
- Кандидат Б (Расширенная версия, 106 минут): Выходит за верхний предел. Отбрасывается без сравнения сигнатур.
- Кандидат В (Другой фильм, 99 минут): Попадает в диапазон. Помечается как «Действительный кандидат» и отправляется на сравнение сигнатур (где будет определено, что контент разный).
- Кандидат Г (Трейлер фильма, 3 минуты): Выходит за нижний предел. Отбрасывается без сравнения сигнатур.
- Результат: Система сэкономила ресурсы, не выполняя дорогостоящее сравнение контента для Кандидатов Б и Г.
Вопросы и ответы
Влияет ли этот патент на ранжирование видео в поиске Яндекса?
Нет, напрямую не влияет. Патент описывает исключительно инфраструктурный механизм для повышения эффективности индексации, а именно — оптимизацию поиска дубликатов видео. Он не затрагивает факторы ранжирования, оценку качества видео или пользовательское поведение.
Что такое «Параметр переменной длительности» и почему он «переменный»?
Это динамически рассчитываемый диапазон допустимой продолжительности для потенциальных дубликатов. Он называется «переменным», потому что зависит от длины исходного видео. Логика в том, что для длинного фильма допустимое отклонение (например, из-за разной рекламы) может составлять несколько минут, а для короткого ролика — всего несколько секунд. Динамический расчет (например, в процентах) эффективнее фиксированного порога.
Как именно рассчитывается допустимое отклонение длительности?
Патент предлагает несколько вариантов. Наиболее частый пример — использование процентного «Окна переменной длительности» (например, 5%). Если исходное видео длится 100 минут, окно составит 5 минут. Диапазон может быть рассчитан как от 95 до 105 минут (Вариант 1) или от 95 до 100 минут (Вариант 2). Конкретные значения определяются Яндексом эмпирически.
Зачем нужен этот механизм, если можно просто сравнить контент всех видео?
Сравнение контента (сигнатур, визуальных слов, аудиодорожек) — это вычислительно дорогая операция. При наличии миллионов видео в базе сравнение каждого с каждым неэффективно. Этот механизм позволяет быстро и дешево отфильтровать заведомо неподходящие варианты по их длительности, значительно сокращая количество необходимых дорогих сравнений.
Что происходит, если видео помечено как «Действительный кандидат»?
Это означает, что его длительность близка к оригиналу и оно проходит на второй этап. На этом этапе система проводит детальное сравнение контента: сравнивает сигнатуры видео, подсчитывает количество совпадающих визуальных слов, может анализировать аудиодорожки и метаданные. Если сходство контента превышает порог, видео признается дубликатом.
Использует ли система только длительность для определения дубликатов?
Нет. Длительность используется только для первичной фильтрации (Стадия 1). Финальное решение принимается на основе сравнения контента (Стадия 2). Два совершенно разных видео одинаковой длины пройдут фильтр по длительности, но не будут признаны дубликатами на Стадии 2.
Если я загружу много копий одного видео с немного разной длиной, поможет ли это занять топ?
Нет. Цель этого патента — эффективно обнаружить такие копии (near-duplicates). Если их длительность близка к оригиналу (попадает в Параметр переменной длительности), они будут идентифицированы как дубликаты на этапе сравнения контента. После идентификации Яндекс, скорее всего, склеит их в кластер и выберет каноническую версию для показа в выдаче.
Что такое «Визуальные слова», упомянутые в патенте?
Визуальные слова — это элементы, из которых состоит сигнатура видео. Это концепция из компьютерного зрения, позволяющая компактно представить визуальное содержание кадров. Система определяет дубликаты, подсчитывая количество совпадающих визуальных слов между двумя видеофайлами. Этот анализ происходит только на втором этапе.
Могу ли я как SEO-специалист использовать информацию из этого патента для продвижения?
Нет. Этот патент имеет чисто инфраструктурное значение и описывает внутреннюю оптимизацию Яндекса. Он не предоставляет никаких практических рекомендаций или инсайтов, которые можно было бы применить в SEO-стратегии для улучшения позиций сайта или видео.
На каком этапе поиска работает этот алгоритм?
Он работает на этапе Индексирования (INDEXING). Это офлайн-процесс обработки данных в хранилище видео, который происходит до того, как пользователь введет запрос. Он не участвует в обработке запросов или ранжировании в реальном времени.