
Google использует технологию для создания цифровых отпечатков медиаконтента (аудио, изображений, видео), которые устойчивы к различным трансформациям, таким как изменение скорости воспроизведения или соотношения сторон. Система анализирует относительное расположение ключевых маркеров в сигнале (например, пиков в аудио или краев на изображении), а не их абсолютные значения. Это позволяет Google распознавать контент, даже если он был отредактирован или искажен.
Патент решает проблему надежной идентификации медиаконтента (аудио, видео, изображений), который подвергся трансформациям, таким как временное растяжение (time stretching), изменение скорости воспроизведения или изменение соотношения сторон (aspect ratio alterations). Традиционные методы сопоставления, использующие фиксированные системы координат, часто терпят неудачу при таких изменениях, так как извлеченные признаки оказываются нестабильными («хрупкими»). Изобретение направлено на создание устойчивой и эффективной системы распознавания модифицированного контента.
Запатентована система генерации инвариантных к трансформациям идентификаторов (цифровых отпечатков) для медиаконтента. Суть изобретения заключается в адаптивном кодировании относительного порядка (relative ordering) сигнальных маркеров (например, пиков или краев) в контенте, а не их абсолютных значений или позиций. Для этого используются методы геометрии опорных точек (Reference Point Geometry) и гистограммы отношений (Ratio Histograms), часто в сочетании с хешированием по принципу "Победитель получает всё" (Winner Takes All (WTA) Hashing).
Система обрабатывает медиаконтент, представленный в виде сигнального изображения (Signal Image), например, спектрограммы аудио или кадра видео.
Signal Markers) – пики в аудиосигнале или края (edges) на изображении.WTA Hashing. Эта функция кодирует ранговое сходство (какой элемент больше), а не сами значения. Это делает итоговый отпечаток устойчивым к масштабированию и искажениям.Hash Table) известных медиафайлов.Высокая. Идентификация медиаконтента критически важна для Google (Google Images, Video Search) и платформ типа YouTube (Content ID). С ростом объема пользовательского контента и легкости его модификации, технологии, способные распознавать трансформированный контент (изменение скорости, пропорций), остаются крайне актуальными для дедупликации, каноникализации и управления авторскими правами.
Влияние на SEO оценивается как высокое, особенно для мультимедийного SEO (Video и Image Search). Хотя это инфраструктурный патент, не описывающий сигналы ранжирования, он определяет, как Google понимает уникальность медиаконтента. Он напрямую влияет на дедупликацию и каноникализацию медиафайлов. Патент демонстрирует, что попытки «уникализировать» контент путем простых трансформаций (растягивание, изменение скорости) неэффективны.
Signal Image, используемые для измерений (например, пики интенсивности, края).Патент US9143784B2 является разделенным (divisional) патентом. Его Claims (1-20) сфокусированы исключительно на методе Reference Point Geometry в сочетании со специфической реализацией WTA Hashing.
Claim 1 (Независимый пункт): Описывает систему генерации хеш-значения.
reference point) в Signal Image.WTA Hash Function, примененной к этим расстояниям.Ядром изобретения является использование WTA для кодирования относительного порядка измерений (расстояний). Если сигнал растягивается (например, аудио замедляется), абсолютные расстояния изменяются, но их относительный порядок (какое расстояние самое длинное, второе по длине и т.д.) часто сохраняется. WTA-хеш фиксирует этот порядок, делая результирующее хеш-значение трансформационно-инвариантным.
Claim 2 (Зависимый): Уточняет применение: сравнение хеш-значения с Hash Table известного медиаконтента для идентификации.
Изобретение является инфраструктурной технологией обработки медиаконтента.
CRAWLING – Сканирование и Сбор данных
Система собирает медиафайлы (аудио, видео, изображения).
INDEXING – Индексирование и извлечение признаков
Основной этап применения. Компонент генерации отпечатков (Fingerprinting Component) обрабатывает медиаконтент.
Signal Image (например, спектрограмму).Reference Point Geometry или Ratio Histograms для извлечения данных о структуре контента.WTA Hashing) для создания Transformation Invariant Identifier.RANKING / RERANKING (Косвенное влияние)
Патент не влияет на ранжирование напрямую, но обеспечивает его фундамент, позволяя корректно ассоциировать сигналы ранжирования с канонической версией медиа и оценивать уникальность контента на странице.
Входные данные:
Signal Image.Выходные данные:
Патент описывает два основных метода извлечения признаков.
Метод А: Геометрия опорных точек (Reference Point Geometry) (Описан в Claims)
Signal Image из медиаконтента.Reference Points (например, пиков сигнала).Метод Б: Гистограммы отношений (Ratio Histograms) (Описан в Description)
Signal Markers (пиков, краев) относительно друг друга; расстояния и локации пересечений.Reference Point Geometry).Ratio Histograms).WTA Hashing. Система оценивает, насколько совпадает порядок признаков.WTA Hashing.WTA Hashing является эффективным методом для кодирования рангового сходства. Он позволяет преобразовать сложные признаки в компактные коды, устойчивые к изменениям, которые не нарушают порядок признаков.Reference Point Geometry, Ratio Histograms), которые "привязываются" к структуре самого контента (пикам, краям), а не к фиксированным координатам или временным меткам.Signal Markers. Чрезмерно шумный или артефактный контент может затруднить точное создание отпечатков.WTA Hashing и Ratio Histograms специально разработаны для обнаружения таких модификаций.Reference Point Geometry применяется для надежного создания аудио-отпечатков, что означает, что аудиодорожка также анализируется для идентификации контента.Патент подтверждает сложность систем Google по идентификации мультимедийного контента. Для SEO-стратегии это подчеркивает, что «уникальность» медиа оценивается не по метаданным или точному совпадению пикселей, а по базовым структурным отпечаткам. Эта технология позволяет Google консолидировать сигналы вокруг канонических медиа-активов, даже если они распространены в сети в модифицированных формах. Стратегический фокус должен быть направлен на создание оригинального контента, а не на технические манипуляции.
Сценарий 1: Оптимизация изображений для E-commerce
Ratio Histograms и идентифицирует эти фото как дубликаты, независимо от их размера или сжатия на сайте. Шансы ранжирования в Google Images низкие.Сценарий 2: Попытка повторного использования видео с изменением скорости
Reference Point Geometry. Хотя абсолютные расстояния между пиками изменились из-за замедления, их относительный порядок остался прежним.WTA Hashing генерирует отпечаток, совпадающий с оригиналом. Система идентифицирует контент как дубликат.Что такое Winner Takes All (WTA) Hashing и почему он устойчив к изменениям медиа?
WTA Hashing — это метод, который фокусируется на относительном порядке (ранжировании) признаков, а не на их абсолютных значениях. Он определяет, какой признак имеет наибольшее значение в подмножестве. Это устойчиво, потому что при растяжении или масштабировании контента абсолютные значения изменяются, но относительный порядок часто сохраняется (например, пик А все равно выше пика Б). Это позволяет генерировать стабильный отпечаток.
Поможет ли изменение размера или соотношения сторон изображения сделать его уникальным для Google?
Нет, не поможет. Патент описывает метод Ratio Histograms, специально разработанный для устойчивости к изменению пропорций. Система анализирует отношение расстояний между ключевыми элементами (краями) на изображении. При изменении размера или растяжении эти отношения сохраняются, и Google идентифицирует изображение как исходное.
Если я ускорю или замедлю видео, сможет ли Google определить оригинал?
Да, сможет. Метод Reference Point Geometry устойчив к временному растяжению (изменению скорости). Система измеряет расстояния между ключевыми маркерами в сигнале. При изменении скорости эти расстояния масштабируются, но их относительный порядок остается прежним. WTA hashing кодирует этот порядок, позволяя идентифицировать оригинал.
Влияет ли этот патент на ранжирование обычных веб-страниц (10 синих ссылок)?
Напрямую нет, но косвенно влияет. Этот механизм используется для оценки уникальности медиаконтента на странице. Если Google идентифицирует ваши изображения или видео как дубликаты, это может негативно сказаться на общей оценке качества и уникальности страницы, что, в свою очередь, повлияет на ее ранжирование.
Как этот патент связан с Google Images и YouTube Content ID?
Это фундаментальная технология для этих сервисов. В Google Images она используется для дедупликации, каноникализации и обратного поиска по изображению. В YouTube Content ID она позволяет автоматически идентифицировать защищенный авторским правом материал (музыку или видео), даже если пользователи пытаются обойти защиту путем модификации контента.
Что подразумевается под "Сигнальными маркерами" (Signal Markers)?
Signal Markers — это ключевые особенности в медиаконтенте, используемые для анализа. В аудио это могут быть пики интенсивности или частоты (опорные точки). На изображении это, как правило, края (edges) – области резкого изменения яркости или цвета. Система использует расположение этих маркеров для создания отпечатка.
Эффективно ли добавление водяного знака или логотипа поверх изображения для его уникализации?
Это малоэффективно для уникализации основного содержания. Хотя водяной знак добавляет новые элементы, базовая структура исходного изображения сохраняется. Системы, основанные на описанных методах, достаточно устойчивы, чтобы игнорировать такие наложения и распознать исходное изображение под ними, если оно не было существенно изменено.
Что такое "Гистограммы отношений" (Ratio Histograms) и как они работают?
Это метод для идентификации изображений. Система находит края (например, горизонтальные) и измеряет расстояния между ними вдоль вертикальных линий. Затем вычисляется отношение этих расстояний (например, AB/BC). Если изображение растянуть, расстояния изменятся, но их отношение останется постоянным. Гистограмма этих отношений служит устойчивым отпечатком.
На каком этапе поиска Google применяет эту технологию?
В основном на этапе индексирования и извлечения признаков (INDEXING & Feature Extraction). Когда Google сканирует медиафайл, система генерирует этот трансформационно-инвариантный отпечаток для идентификации контента, его дедупликации и каноникализации до того, как он будет участвовать в ранжировании.
Какие действия предпринять SEO-специалисту, исходя из этого патента?
Главное действие — инвестировать в создание действительно оригинального мультимедийного контента. Не полагайтесь на стоковые фото или чужие видео, пытаясь их поверхностно изменить (растянуть, обрезать, изменить цвет). Для достижения успеха в мультимедийном поиске необходим контент, который имеет уникальную внутреннюю структуру.

Индексация
Мультимедиа

Ссылки
Мультимедиа
Поведенческие сигналы

Мультимедиа
Индексация

Индексация

Мультимедиа
Семантика и интент

SERP
Семантика и интент
Поведенческие сигналы

Антиспам
Ссылки
SERP

Поведенческие сигналы
Персонализация
Семантика и интент

Семантика и интент
Поведенческие сигналы
Local SEO

EEAT и качество
Техническое SEO
Ссылки

Ссылки
EEAT и качество
Антиспам

Поведенческие сигналы
Персонализация
EEAT и качество

Антиспам
Ссылки
Техническое SEO

Персонализация
Поведенческие сигналы

Поведенческие сигналы
Ссылки
SERP
