SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google идентифицирует дубликаты и защищенный авторским правом видеоконтент с помощью 3D-отпечатков

THREE-DIMENSIONAL WAVELET BASED VIDEO FINGERPRINTING (Трехмерное создание цифровых отпечатков видео на основе вейвлетов)
  • US8094872B1
  • Google LLC
  • 2007-05-09
  • 2012-01-10
  • Индексация
  • Мультимедиа
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует технологию трехмерных цифровых отпечатков для управления большими видеобиблиотеками (например, YouTube). Система анализирует пространственные (внутри кадра) и временные (между кадрами) характеристики видео, создавая уникальный идентификатор. Это позволяет эффективно обнаруживать дубликаты и защищенный контент, даже если видео было изменено (сжато, обрезано, перекодировано).

Описание

Какую проблему решает

Патент решает проблему эффективного управления огромными видеобиблиотеками (такими как YouTube), где пользователи загружают миллионы файлов. Ключевые задачи:

  • Устойчивая идентификация контента: Традиционные методы (например, хэширование файлов) не работают, если файл был изменен (перекодирован, изменено разрешение, частота кадров, точки начала/конца). Требуется метод идентификации, основанный на визуальном содержании (perceived visual content), устойчивый к таким изменениям.
  • Обнаружение дубликатов: Сокращение затрат на хранение и улучшение организации индекса за счет выявления нескольких копий одного и того же видео.
  • Защита авторских прав: Автоматическое выявление несанкционированных загрузок защищенного контента (технологическая основа для систем типа Content ID).
  • Организация результатов поиска: Группировка идентичных видео в поисковой выдаче для улучшения пользовательского опыта.

Что запатентовано

Запатентована система и метод создания компактных и устойчивых (robust) цифровых отпечатков (video fingerprints) для видеоконтента. Суть изобретения заключается в применении трехмерного (3D) преобразования (например, вейвлет-преобразования) к сегментам видео. Это позволяет одновременно учитывать как пространственную информацию (spatial information — что изображено в кадре), так и временную/последовательную информацию (sequential characteristics — как изображение меняется от кадра к кадру). Полученный отпечаток устойчив к изменениям в кодировании и форматировании видео.

Как это работает

Система работает следующим образом:

  1. Нормализация: Входящее видео приводится к стандартному формату (например, фиксированный размер кадра 64x64, частота кадров, перевод в оттенки серого/яркость).
  2. Сегментация: Видео делится на перекрывающиеся временные сегменты (например, по 64 кадра).
  3. Трехмерное преобразование (3D Transform): К каждому сегменту применяется вейвлет-преобразование (например, Haar wavelet transform) в трех измерениях (X, Y и время). Это выявляет пространственные и временные "грани" (перепады яркости).
  4. Квантование (Quantization): Из результатов преобразования выбираются наиболее значимые коэффициенты (например, N самых больших по модулю), которые кодируются (+1 или -1), а остальные обнуляются.
  5. Формирование отпечатка: Полученные данные преобразуются в одномерный битовый вектор — это отпечаток сегмента.
  6. Индексирование: Для быстрого поиска отпечатки индексируются с использованием техник, таких как Min-hash и Locality Sensitive Hashing (LSH).
  7. Сопоставление: Последовательность отпечатков нового видео сравнивается с базой данных (Reference Database) для поиска совпадений.

Актуальность для SEO

Высокая. Технологии, описанные в патенте, лежат в основе систем идентификации видеоконтента, таких как YouTube Content ID, и критически важны для функционирования любой крупной видеоплатформы. Управление дубликатами и авторскими правами остается центральной задачей Google при обработке видео.

Важность для SEO

Влияние на SEO является значительным, но косвенным (65/100), и в первую очередь касается Video SEO (VSEO) и YouTube. Патент не описывает алгоритмы ранжирования, но он описывает фундаментальный механизм, с помощью которого Google идентифицирует и классифицирует видеоконтент. Понимание этого механизма критически важно для стратегий, связанных с каноникализацией видео, обеспечением уникальности контента и управлением дистрибуцией контента в поисковой выдаче.

Детальный разбор

Термины и определения

Video Fingerprint (Цифровой отпечаток видео)
Компактное представление пространственных и временных характеристик видеосегмента. Представляет собой одномерный битовый вектор, полученный после 3D-преобразования и квантования.
Fingerprint Sequence (Последовательность отпечатков)
Упорядоченный набор цифровых отпечатков, сгенерированных для всех сегментов одного видеофайла.
Three-Dimensional (3D) Transform (Трехмерное преобразование)
Математическое преобразование, применяемое к видеосегменту в трех измерениях: два пространственных (X, Y) и одно временное (t). Используется для вычисления частотной информации о перепадах яркости (гранях) в пространстве и времени.
Haar Wavelet Transform (Вейвлет-преобразование Хаара)
Конкретный тип вейвлет-преобразования, предложенный в качестве одного из вариантов реализации 3D Transform. Он вычисляет суммы и разности соседних значений (пикселей или групп пикселей).
Spatial Information (Пространственная информация)
Данные, определяемые расположением пикселей в пределах одного кадра (X и Y направления).
Sequential/Temporal Information (Временная информация)
Данные, определяемые изменением пикселей между последовательными кадрами (направление t).
Normalization (Нормализация)
Предварительная обработка видео для приведения его к стандартному формату (например, 64x64 пикселя, 15 кадров в секунду, оттенки серого/luminance) перед созданием отпечатка.
Segmentation (Сегментация)
Процесс разделения нормализованного видео на несколько временных сегментов (групп кадров). Сегменты обычно перекрываются для устойчивости к временным сдвигам.
Quantization (Квантование)
Процесс сокращения объема данных после преобразования. Включает выбор N наиболее значимых коэффициентов и их кодирование (например, +1, -1 или 0).
Min-hash (Мин-хэширование)
Техника индексирования для быстрого поиска похожих элементов. Используется для создания "сигнатуры" (signature) отпечатка, которая меньше по размеру, но сохраняет его основные характеристики.
Locality Sensitive Hashing (LSH, Локально-чувствительное хэширование)
Техника хэширования, используемая для индексирования сигнатур и быстрого поиска кандидатов на совпадение. Сигнатуры делятся на блоки (signature blocks) и помещаются в хеш-таблицы.

Ключевые утверждения (Анализ Claims)

Патент описывает внутренние процессы Google без прямых рекомендаций для SEO.

Claim 1 (Независимый пункт): Описывает основной метод создания и использования видеоотпечатков.

  1. Система получает видео и сегментирует его на несколько сегментов.
  2. Выполняется трехмерное преобразование (three-dimensional transform) кадров первого сегмента для генерации трехмерного вейвлета (three-dimensional wavelet).
  3. Ключевое уточнение: этот вейвлет представляет как пространственную информацию (spatial information) внутри кадров, так и последовательные характеристики (sequential characteristics) между кадрами.
  4. Трехмерный вейвлет квантуется для создания первого цифрового отпечатка.
  5. Последовательность отпечатков (video fingerprint sequence) сохраняется в памяти.
  6. Последовательность отпечатков сравнивается с эталонной последовательностью (reference fingerprint sequence).
  7. На основе сравнения определяется сходство (similarity).

Ядром изобретения является использование именно трехмерного преобразования для создания отпечатка, который фиксирует не только внешний вид кадров, но и то, как они меняются во времени.

Claim 2 (Зависимый от 1): Уточняет, что трехмерное преобразование может быть реализовано как Haar wavelet transform, применяемое к каждой строке (row), столбцу (column) и временной колонке (time column).

Claim 5 (Зависимый от 1): Указывает, что видеосегменты могут перекрываться (например, второй сегмент перекрывает первый на один или более кадров).

Claim 6 (Зависимый от 1): Детализирует процесс квантования.

  1. Выбирается подмножество из N коэффициентов трехмерного вейвлета.
  2. Отрицательные коэффициенты из этого набора устанавливаются в первое фиксированное значение (например, -1).
  3. Положительные коэффициенты устанавливаются во второе фиксированное значение (например, +1).
  4. Остальные коэффициенты (не вошедшие в набор N) устанавливаются в третье фиксированное значение (например, 0).

Этот шаг критически важен для создания компактного и устойчивого отпечатка, фокусирующегося на наиболее значимых характеристиках видео.

Claim 8 (Зависимый от 6): Уточняет, что выбор N коэффициентов осуществляется путем выбора N коэффициентов с наибольшей магнитудой (абсолютным значением).

Где и как применяется

Этот патент описывает инфраструктурную технологию обработки и идентификации видеоконтента. Он применяется на ранних этапах поисковой архитектуры.

CRAWLING – Сканирование и Сбор данных (Ingestion)

На этапе приема (ingestion) видеоконтента (например, при загрузке на YouTube) система (Ingest Server) может использовать этот механизм для немедленной проверки входящего видео на предмет совпадения с защищенным авторским правом контентом или существующими дубликатами.

INDEXING – Индексирование и извлечение признаков

Основное применение патента. Это механизм извлечения признаков (Feature Extraction) для видео. Fingerprinting Module обрабатывает "сырой" видеоконтент, анализирует его пространственные и временные характеристики и генерирует стабильный, компактный идентификатор (video fingerprint sequence). Indexing Module сохраняет этот идентификатор в базе данных (Reference Database) для последующего сравнения и организации контента.

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование

Патент напрямую не участвует в ранжировании, но его результаты используются на этих этапах. Matching Module может использовать данные об отпечатках для группировки дубликатов в результатах поиска (дедупликация) и выбора канонической версии видео для показа пользователю.

Входные данные:

  • Сырой видеофайл (Video Source).
  • Пиксельные данные (яркость, цвет).

Выходные данные:

  • Video Fingerprint Sequence (последовательность битовых векторов).
  • Индексированные сигнатуры отпечатков (Signatures), сохраненные в хэш-таблицах в Reference Database.
  • Результаты сравнения (Matching Score).

На что влияет

  • Типы контента: Влияет исключительно на видеоконтент.
  • Форматы контента: Механизм разработан так, чтобы быть устойчивым к различным форматам, разрешениям, частотам кадров и методам сжатия.
  • Ниши: Наиболее критичен в нишах с высоким уровнем пиратства или дублирования (музыка, кино, популярные шоу).

Когда применяется

  • При загрузке нового видео: Для проверки на дубликаты и нарушение авторских прав.
  • При обработке видео для индексации: Для создания уникального идентификатора контента.
  • При выполнении поиска по видео (Query-by-video): Когда пользователь или система (например, правообладатель) ищет видео, похожее на образец.
  • При организации библиотеки: Для периодического поиска и удаления дубликатов в хранилище.

Пошаговый алгоритм

Процесс А: Генерация последовательности отпечатков видео

  1. Нормализация входного видео:
    • Конвертация частоты кадров (например, до 15 fps).
    • Конвертация размера кадра (например, до 64x64 пикселя).
    • Конвертация цвета (например, в оттенки серого/яркость (luminance)).
  2. Сегментация видео: Видео разделяется на перекрывающиеся сегменты фиксированной длины (например, 64 кадра с шагом 16 кадров).
  3. Трехмерное преобразование (для каждого сегмента): Применяется 3D Transform (например, Haar wavelet transform) последовательно в трех измерениях:
    • Преобразование строк (X).
    • Преобразование столбцов (Y).
    • Преобразование временных колонок (t) (пиксели на одной и той же позиции X, Y в разных кадрах).
    Результат — трехмерный массив коэффициентов.
  4. Квантование (для каждого сегмента):
    • Определение N коэффициентов с наибольшей абсолютной величиной.
    • Кодирование этих коэффициентов: положительные в +1, отрицательные в -1.
    • Установка всех остальных коэффициентов в 0.
  5. Кодирование и сжатие (для каждого сегмента): Трехмерный массив квантованных коэффициентов преобразуется ("сплющивается") в одномерный битовый вектор (цифровой отпечаток сегмента).
  6. Формирование последовательности: Упорядоченный набор отпечатков всех сегментов формирует Fingerprint Sequence видео.

Процесс Б: Индексирование и сопоставление

  1. Генерация сигнатуры (Min-hash): К битовому вектору отпечатка применяется набор предопределенных перестановок (P). Для каждой перестановки фиксируется позиция первой "1". Набор этих позиций формирует сигнатуру отпечатка.
  2. Индексирование (LSH): Сигнатура разбивается на блоки (signature blocks). Каждый блок помещается в отдельную хэш-таблицу, где хранится идентификатор видеосегмента.
  3. Сопоставление (Matching): При получении нового видео его сигнатуры хэшируются. Система подсчитывает количество совпадающих блоков сигнатур с эталонными видео в базе данных.
  4. Оценка совпадения: Определяются эталонные отпечатки, чей Matching Score превышает порог.
  5. Анализ последовательности: Система ищет эталонные видео с наиболее длинной последовательностью совпадающих сегментов с новым видео.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке визуальных данных видео.

  • Контентные факторы (Визуальные) / Мультимедиа факторы: Основные данные — это значения пикселей. Система анализирует яркость (luminance) пикселей после нормализации видео в оттенки серого. Анализируются как значения внутри одного кадра (пространственные данные), так и изменения этих значений между кадрами (временные данные).

Другие типы факторов (ссылочные, поведенческие, текстовые и т.д.) в этом патенте не упоминаются.

Какие метрики используются и как они считаются

  • Коэффициенты вейвлет-преобразования: Метрики, отражающие частотную информацию о перепадах яркости (гранях) в видеосегменте. Например, при использовании Haar wavelet transform они вычисляются как разности между суммами соседних диапазонов пикселей.
  • Магнитуда (Абсолютное значение) коэффициентов: Используется на этапе квантования для определения наиболее значимых характеристик.
  • N (Количество коэффициентов): Порог, определяющий, сколько наиболее значимых коэффициентов будет сохранено в отпечатке.
  • Signature (Сигнатура): Компактное представление отпечатка, полученное с помощью Min-hash. Состоит из P значений местоположения.
  • Matching Score (Оценка совпадения): Метрика, определяющая сходство между двумя отпечатками. Рассчитывается на основе количества совпадающих блоков сигнатур (signature blocks) при индексировании через LSH.

Выводы

  1. Идентификация основана на визуальном и временном контенте: Google использует математически строгий метод для идентификации видео, который анализирует не метаданные или аудио, а непосредственно визуальное содержание и его изменение во времени (движение, сцены).
  2. Устойчивость к модификациям (Robustness): Механизм 3D-вейвлет преобразования и квантования специально разработан для того, чтобы игнорировать изменения, вызванные перекодированием, изменением разрешения, сжатием, обрезкой краев или небольшими изменениями в частоте кадров. Это делает системы типа Content ID и обнаружение дубликатов очень надежными.
  3. Важность временного компонента (3-е измерение): В отличие от систем сравнения изображений, которые анализируют только отдельные кадры (2D), этот патент подчеркивает важность анализа последовательности кадров (3D). Это значительно повышает точность идентификации видео.
  4. Эффективность масштабирования: Использование агрессивного квантования и методов индексирования (Min-hash и LSH) позволяет Google сравнивать миллиарды видео за приемлемое время, делая систему применимой в масштабах YouTube.
  5. Инфраструктурная основа для VSEO: Хотя патент не дает прямых рекомендаций по ранжированию, он показывает, как Google устанавливает "личность" видео. Это является основой для каноникализации видеоконтента в поиске.

Практика

Best practices (это мы делаем)

  • Фокус на уникальности визуального контента: Для Video SEO критически важно создавать действительно уникальный визуальный ряд. Поскольку система анализирует пространственные и временные характеристики, уникальность должна быть не только в теме, но и в ее визуальной подаче (съемка, монтаж, графика).
  • Понимание каноникализации видео: При наличии нескольких копий одного видео (например, на сайте и на YouTube) Google с высокой точностью определит, что это один и тот же контент, используя этот механизм. Необходимо стратегически подходить к дистрибуции контента и понимать, какая версия будет выбрана в качестве канонической.
  • Управление правами и дубликатами: Если вы управляете большой библиотекой видео или занимаетесь дистрибуцией контента, используйте инструменты, основанные на подобных технологиях (например, YouTube Content ID), для отслеживания использования вашего контента и управления дубликатами.

Worst practices (это делать не надо)

  • Попытки "уникализации" видео косметическими правками: Бесполезно пытаться обойти системы обнаружения дубликатов или Content ID путем добавления рамок, изменения скорости воспроизведения, изменения разрешения, обрезки начала/конца или повторного сжатия видео. Описанный механизм 3D-отпечатков устойчив к таким манипуляциям.
  • Использование чужого контента без значительной переработки: Вставка фрагментов чужого видеоконтента будет обнаружена, так как система анализирует видео по сегментам. Если вы используете чужой контент (например, в рамках добросовестного использования), он должен быть существенно переработан или дополнен оригинальным материалом.
  • Игнорирование проблем с дубликатами при дистрибуции: Распространение одного и того же видео на разных каналах или платформах без четкой стратегии может привести к размыванию сигналов ранжирования между дубликатами.

Стратегическое значение

Патент подтверждает технологические возможности Google в области анализа и идентификации видеоконтента в масштабе. Для SEO-стратегии это означает, что в области видеоконтента Google обладает мощными инструментами для понимания того, что именно содержит видео, и кто является его первоисточником (или, по крайней мере, какая версия является канонической). Стратегия VSEO должна строиться на создании ценного и визуально уникального контента, поскольку технические манипуляции для имитации уникальности неэффективны.

Практические примеры

Сценарий 1: Стратегия дистрибуции и каноникализация

Компания создает промо-ролик и планирует его дистрибуцию на своем сайте, корпоративном канале YouTube и в социальных сетях.

  • Понимание механизма: SEO-специалист должен понимать, что Google идентифицирует все эти копии как одно и то же видео благодаря 3D-отпечаткам.
  • Стратегия: Необходимо решить, какая платформа является приоритетной для ранжирования в Google Search. Если это YouTube, основные усилия по оптимизации (метаданные, продвижение) должны быть направлены туда. Если это сайт, необходимо использовать Video rich snippets и XML Video Sitemaps, чтобы указать Google на эту версию, хотя Google все равно может предпочесть версию YouTube.
  • Ожидаемый результат: Консолидация сигналов ранжирования на канонической версии видео и избежание внутренней конкуренции между дубликатами в выдаче.

Сценарий 2: Создание обзора на основе чужого видеоряда (Fair Use)

Видеоблогер хочет создать обзор нового продукта, используя официальные видеоматериалы производителя.

  • Понимание механизма: Блогер должен понимать, что простое наложение своего голоса на чужой видеоряд не сделает видео уникальным с точки зрения визуальных отпечатков. Система Google (и Content ID) идентифицирует использование исходного видео.
  • Стратегия: Чтобы создать уникальный контент и снизить риски претензий, необходимо перемежать фрагменты исходного видео с собственными съемками, добавлять значительное количество оригинальной графики, использовать режим "картинка в картинке" или существенно изменять монтаж.
  • Ожидаемый результат: Снижение риска блокировки контента по Content ID и повышение шансов на ранжирование видео как уникального обзора, а не дубликата промо-материалов.

Вопросы и ответы

Что такое трехмерный отпечаток видео и почему он лучше, чем сравнение отдельных кадров?

Трехмерный отпечаток анализирует видео как объем данных, где два измерения — это пространство (X и Y внутри кадра), а третье — это время (последовательность кадров). Это позволяет уловить движение и изменение сцен во времени. Сравнение отдельных кадров (2D) игнорирует эту временную информацию, что делает его менее точным и более ресурсоемким, так как видео содержит огромное количество кадров.

Насколько устойчива эта система к изменениям в видео (сжатие, разрешение)?

Система разработана с высокой устойчивостью к стандартным изменениям. Нормализация видео (приведение к стандартному формату) и использование вейвлет-преобразований позволяют игнорировать различия в сжатии, разрешении, частоте кадров. Система фокусируется на наиболее значимых визуальных характеристиках (гранях), которые сохраняются при этих изменениях.

Можно ли обмануть эту систему, чтобы уникализировать чужое видео?

Обмануть систему с помощью простых технических трюков крайне сложно. Добавление рамок, логотипов, изменение цветокоррекции или зеркальное отражение видео, скорее всего, не повлияют на основные коэффициенты вейвлет-преобразования, используемые в отпечатке. Чтобы сделать контент уникальным, требуются существенные изменения в визуальном ряде и временной структуре видео.

Как этот патент связан с YouTube Content ID?

Описанная в патенте технология является фундаментальной основой для систем типа Content ID. Она предоставляет механизм для создания надежных отпечатков защищенного контента и эффективного сравнения загружаемых пользователями видео с этой базой данных в реальном времени для выявления нарушений авторских прав.

Влияет ли этот механизм на ранжирование видео в поиске Google или YouTube?

Прямого влияния на ранжирование нет, так как патент не описывает алгоритмы оценки релевантности или качества. Однако он оказывает сильное косвенное влияние. Система помогает Google идентифицировать дубликаты и выбирать каноническую версию для показа в результатах поиска. Уникальный контент имеет больше шансов на высокое ранжирование, чем дубликаты.

Что такое Haar Wavelet Transform в контексте этого патента?

Это математический инструмент для анализа частотных характеристик сигнала (в данном случае видео). Он вычисляет разности между соседними пикселями или группами пикселей. Это позволяет выявить "грани" (резкие перепады яркости) в пространстве и времени. Результаты этого преобразования используются для создания отпечатка.

Зачем нужно квантование (Quantization) отпечатков?

Квантование необходимо для значительного сокращения объема данных при сохранении наиболее важной информации. Вместо хранения точных значений всех коэффициентов преобразования система сохраняет только знаки (+1 или -1) самых сильных коэффициентов, а остальные обнуляет. Это делает отпечатки компактными и ускоряет их сравнение.

Что происходит, если я загружу видео на свой сайт и на YouTube? Как Google поймет, что это одно и то же?

Google проанализирует оба видеофайла, используя этот механизм 3D-фингерпринтинга. Поскольку визуальное содержание идентично, сгенерированные последовательности отпечатков будут совпадать. Google идентифицирует их как дубликаты и выберет одну версию в качестве канонической для показа в результатах поиска, часто отдавая предпочтение версии на YouTube.

Анализирует ли эта система аудиодорожку видео?

Нет. Данный конкретный патент (US8094872B1) фокусируется исключительно на визуальной составляющей видео (Video Fingerprinting) с использованием трехмерных вейвлетов. Google использует другие технологии для анализа и создания отпечатков аудио (Audio Fingerprinting), которые часто применяются параллельно.

Зачем видео разбивается на перекрывающиеся сегменты?

Разбиение на сегменты позволяет идентифицировать частичное совпадение контента (например, если используется только фрагмент чужого видео). Перекрытие сегментов необходимо для устойчивости к временным сдвигам. Если точка начала/конца видео изменена (обрезана), перекрытие гарантирует, что большая часть контента все равно попадет в один из сегментов и будет корректно идентифицирована.

Похожие патенты

Как Google использует трехэтапную систему фингерпринтинга (Content ID) для обнаружения дубликатов видео и аудио
Google использует масштабируемую систему для обнаружения полных или частичных совпадений в видео и аудио контенте. Система генерирует компактные цифровые отпечатки (фингерпринты) и применяет трехэтапный процесс: быстрый поиск кандидатов с помощью Locality-Sensitive Hashing (LSH), точная классификация с использованием машинного обучения и объединение результатов. Это позволяет идентифицировать контент даже при изменении качества или скорости воспроизведения.
  • US8238669B2
  • 2012-08-07
  • Мультимедиа

  • Индексация

Как Google использует структурные разрывы (смены сцен и тишину) для идентификации дубликатов видео и организации видео-поиска
Google использует систему фингерпринтинга видео, которая анализирует не пиксели, а временные метки структурных разрывов — смены сцен (shot boundaries) и моменты тишины (silent points). Это позволяет идентифицировать дубликаты или похожий контент даже при различиях в кодировании, разрешении или частоте кадров, что используется для удаления нарушений авторских прав и организации результатов видео-поиска.
  • US8611422B1
  • 2013-12-17
  • Мультимедиа

  • Индексация

Как Google использует иерархическое хеширование для создания компактных отпечатков всего видео и выявления дубликатов
Google использует многоуровневый процесс для создания компактного цифрового отпечатка (fingerprint), представляющего всё содержимое видеофайла. Система анализирует видео по сегментам (subfingerprints), агрегирует частоту визуальных признаков в гистограммы и применяет взвешенное хеширование (Weighted Min-Hash). Это позволяет эффективно обнаруживать почти идентичные видео (near-duplicates) в огромных базах данных, независимо от различий в кодировании или длительности.
  • US8229219B1
  • 2012-07-24
  • Мультимедиа

Как Google идентифицирует аудио, видео и изображения, даже если они были изменены (растянуты, замедлены или ускорены)
Google использует технологию для создания цифровых отпечатков медиаконтента (аудио, изображений, видео), которые устойчивы к различным трансформациям, таким как изменение скорости воспроизведения или соотношения сторон. Система анализирует относительное расположение ключевых маркеров в сигнале (например, пиков в аудио или краев на изображении), а не их абсолютные значения. Это позволяет Google распознавать контент, даже если он был отредактирован или искажен.
  • US9143784B2
  • 2015-09-22
  • Мультимедиа

Как Google обнаруживает неавторизованное использование контента (текст, изображения, видео, аудио), сохраняя конфиденциальность
Система позволяет владельцам контента загружать образцы (текст, изображения, видео, аудио) и проверять, существуют ли совпадения в индексах Google, включая веб-индекс и пользовательские базы данных. Система сообщает о факте наличия совпадения, не раскрывая источник напрямую, и может предоставить зашифрованный идентификатор для дальнейшего расследования.
  • US20080288509A1
  • 2008-11-20
  • Индексация

  • Мультимедиа

Популярные патенты

Как Google автоматически изучает синонимы, анализируя последовательные запросы пользователей и вариации анкорных текстов
Google использует методы для автоматического определения синонимов, акронимов и эквивалентных фраз. Система анализирует логи запросов: если пользователь быстро меняет запрос, сохраняя часть слов (например, с «отели в париже» на «гостиницы в париже»), система учится, что «отели» и «гостиницы» эквивалентны. Также анализируются вариации анкорных текстов, указывающих на одну и ту же страницу.
  • US6941293B1
  • 2005-09-06
  • Семантика и интент

  • Ссылки

Как Google рассчитывает авторитетность и ранжирует сайты, вычисляя кратчайшие пути до доверенных источников (Seeds) в Веб-графе
Google использует масштабируемую распределенную систему для анализа огромных графов, таких как Веб-граф (триллионы связей). Система вычисляет кратчайшие пути от каждого узла (сайта) до набора предопределенных авторитетных источников («Seeds»). Эти расстояния используются для расчета метрик авторитетности и ранжирования сайтов: чем ближе сайт к доверенным источникам, тем выше его предполагаемое качество.
  • US8631094B1
  • 2014-01-14
  • EEAT и качество

  • Ссылки

Как Google использует контекст внешних страниц для понимания и идентификации видео и аудио контента
Google анализирует внешние веб-страницы, которые ссылаются на медиафайлы или встраивают их (например, видео YouTube). Система извлекает метаданные из контекста этих страниц — заголовков, окружающего текста, URL. Надежность данных проверяется частотой их повторения на разных сайтах. Эта информация используется для улучшения понимания содержания медиафайла и повышения эффективности систем идентификации контента (Content ID).
  • US10318543B1
  • 2019-06-11
  • Ссылки

  • Индексация

  • Мультимедиа

Как Google использует анализ сущностей в результатах поиска для подтверждения интента и продвижения авторитетного контента
Google анализирует сущности (Topics/Entities) и их типы, общие для топовых результатов поиска, чтобы определить истинный интент запроса. Если интент подтверждается этим тематическим консенсусом выдачи, система продвигает "авторитетные кандидаты" (например, полные фильмы). Если консенсуса нет, продвижение блокируется для предотвращения показа нерелевантных результатов.
  • US9213745B1
  • 2015-12-15
  • Семантика и интент

  • EEAT и качество

  • SERP

Как Google извлекает готовые ответы из авторитетных источников для формирования Featured Snippets
Google использует систему для предоставления прямых ответов на естественном языке (в виде абзацев или списков) на запросы с четким намерением. Система заранее анализирует авторитетные источники, извлекает пары «заголовок-текст», соответствующие популярным шаблонам вопросов, и сохраняет их в специальной базе данных. При получении соответствующего запроса система извлекает готовый ответ из этой базы и отображает его в выдаче.
  • US9448992B2
  • 2016-09-20
  • Семантика и интент

  • EEAT и качество

  • Индексация

Как Google снижает ценность кликов по результатам, полученным из слишком общих запросов
Google использует механизм для корректировки показателей популярности (например, кликов) документа. Если документ получил клик в ответ на очень общий (широкий) запрос, ценность этого клика снижается. Это предотвращает искусственное завышение популярности документов, которые часто показываются по высокочастотным общим запросам, и повышает значимость кликов, полученных по более специфическим запросам.
  • US7925657B1
  • 2011-04-12
  • Поведенческие сигналы

Как Google использует погоду, время и местоположение для понимания истинного намерения пользователя и адаптации поисковой выдачи
Google анализирует, как физическое окружение (погода, время, местоположение) влияет на то, что ищут пользователи. Система выявляет корреляции между средой и поведением пользователей в прошлом (включая длительность кликов), чтобы лучше понять текущий интент многозначных запросов. Затем она переранжирует выдачу или переписывает запрос для предоставления наиболее релевантных результатов и рекламы.
  • US8898148B1
  • 2014-11-25
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google определяет авторитетные сайты для конкретных тем, анализируя «гибридные запросы» пользователей
Google анализирует «гибридные запросы» (например, «back pain WebMD»), чтобы понять, какие сайты пользователи считают лучшими источниками информации по конкретным темам. Система создает карты соответствия между темами и авторитетными ресурсами. Эти данные используются для повышения релевантности авторитетных сайтов в выдаче по информационным запросам и для улучшения поисковых подсказок.
  • US9244972B1
  • 2016-01-26
  • EEAT и качество

  • Семантика и интент

  • SERP

Как Google определяет географическую зону релевантности бизнеса на основе реального поведения пользователей (Catchment Areas)
Google определяет уникальную "зону охвата" (Catchment Area) для локального бизнеса, анализируя, из каких географических точек пользователи кликали на его результаты в поиске. Эта динамическая зона заменяет фиксированный радиус и используется для фильтрации кандидатов при локальном поиске, учитывая известность бренда, категорию бизнеса и физические препятствия.
  • US8775434B1
  • 2014-07-08
  • Local SEO

  • Поведенческие сигналы

Как Google использует исторические данные о поведении пользователей для сохранения эффективных синонимов
Google постоянно обновляет модели, определяющие синонимы для расширения запросов. Этот патент описывает защитный механизм: если новая модель отключает синоним, который исторически давал хорошие результаты (пользователи были довольны выдачей), система автоматически вернет этот синоним в работу, опираясь на накопленные данные о поведении пользователей.
  • US8762363B1
  • 2014-06-24
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

seohardcore