
Google использует метод машинного обучения для создания «прощающих» (forgiving) хеш-функций. Этот механизм позволяет эффективно находить похожий или почти идентичный контент (аудио, изображения, видео) в огромных базах данных. Система группирует похожие элементы вместе, даже если они имеют небольшие различия, что критически важно для выявления около-дубликатов и масштабируемого поиска мультимедиа.
Патент решает фундаментальную проблему информационного поиска: как эффективно и масштабируемо найти похожие (но не обязательно идентичные) элементы в огромных корпусах высокоразмерных данных (high-dimensional data), таких как аудио, изображения и видео. Сложность заключается в том, что прямое сравнение таких данных вычислительно слишком затратно, а само определение "похожести" часто бывает нечетким.
Запатентован метод обучения систем машинного обучения (в частности, нейронных сетей) для генерации аппроксимативных или "прощающих" хеш-функций (Forgiving Hash Functions). Эти функции предназначены для того, чтобы помещать похожие элементы в одни и те же хеш-корзины. Ключевым нововведением является метод обучения с динамической корректировкой целевых выходных значений (Dynamic Target Reassignment), который позволяет системе изучать функцию сходства на основе слабо размеченных данных (weakly labeled examples).
Система работает в три этапа: Обучение, Инициализация и Оценка.
Hash Bits), которые служат индексами.Высокая. Поиск по сходству (Approximate Nearest Neighbor Search), обнаружение почти дубликатов и кластеризация контента являются фундаментальными задачами для современных поисковых систем, особенно в контексте мультимедиа (Google Images, YouTube Content ID). Описанные методы использования машинного обучения для создания эффективных индексов (Learned Hashing) лежат в основе современных систем поиска информации и векторного поиска.
Патент имеет высокое значение (75/100), особенно для SEO в области мультимедиа (Image Search, Video Search) и для понимания того, как Google обрабатывает уникальность контента. Он описывает конкретный механизм, позволяющий Google понимать сходство на основе характеристик самого контента. Это напрямую влияет на то, как контент индексируется, кластеризуется и как неэффективными становятся тактики поверхностной уникализации медиафайлов.
Hash Bin). Она "прощает" небольшие различия в соответствии с изученной функцией расстояния.Entropy, что означает равномерное распределение элементов по всем доступным хеш-корзинам для обеспечения эффективности индекса.Neural Networks).Claim 1 (Независимый пункт): Описывает полный метод, включающий обучение, инициализацию и оценку.
Обучение:
target output values).Dynamic Target Reassignment).Инициализация:
Оценка:
Claim 12 и 13 (Зависимые от 1): Детализируют механизм комбинирования выходов.
Комбинирование включает выбор подмножества выходных значений из разных систем. Claim 13 уточняет, что этот выбор может включать определение Least Correlated Bits (наименее коррелированных битов). Это технически важно для масштабирования системы и поддержания высокой Entropy составного хеша.
Claim 18 (Независимый пункт): Описывает метод поиска с акцентом на эффективность.
Поиск совпадения в структуре данных осуществляется без прямого сравнения целевого образца с образцом из структуры данных. Это подчеркивает, что сравнение происходит только в низкоразмерном пространстве хешей, а не в исходном высокоразмерном пространстве.
Изобретение применяется на этапах индексирования и ранжирования (в части отбора кандидатов) для мультимедийного контента.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Система описывает, как создавать эффективный индекс (хеш-таблицы) для поиска по сходству.
audio-spectrogram).Forgiving Hashes).Hash Bins), что позволяет обнаруживать дубликаты.RANKING – Ранжирование (L1 Retrieval / Отбор кандидатов)
Механизм обеспечивает высокоэффективный отбор кандидатов (L1).
Входные данные:
Выходные данные:
Learning Systems).high-dimensional data.Dynamic Target Reassignment применяется для создания или обновления моделей.Процесс делится на три основных этапа: Обучение, Инициализация и Оценка.
Этап 1: Обучение ансамбля моделей (Training)
Hamming distance) к ее фактическому выводу. При этом сохраняется уникальность кодов для разных групп (для поддержания Entropy).Этап 2: Инициализация Индекса (Initializing)
Least Correlated Bits (Claim 13) для максимизации эффективности.Этап 3: Поиск (Evaluating)
Патент фокусируется на обработке характеристик самого контента, а не метаданных.
mel-frequency spectrogram). Для изображений или видео это могут быть соответствующие визуальные признаки.Weakly labeled data используются на этапе обучения. Это информация о том, какие образцы следует считать похожими (например, происхождение из одного источника).Least Correlated Bits (Claim 13).Dynamic Target Reassignment. Он позволяет Google изучать, что делает контент похожим, используя только слабые метки. Система сама определяет релевантные признаки для кластеризации, не требуя явного определения функции сходства.Forgiving Hash Functions, которые устойчивы к небольшим изменениям, шуму и артефактам сжатия. Это позволяет группировать похожий, но не идентичный контент (почти дубликаты) в одном месте индекса.Least Correlated Bits (Claim 13). Это позволяет масштабировать индекс, сохраняя вычислительную эффективность и высокую энтропию.Forgiving Hash Functions специально разработаны для игнорирования таких различий.Патент подтверждает стратегический фокус Google на использовании машинного обучения для понимания нетекстового контента на глубоком уровне. Он демонстрирует, как Google решает фундаментальную проблему масштабируемого поиска по сходству. Для SEO это означает, что оценка и индексация мультимедийного контента становятся все более сложными. Стратегии, направленные на манипулирование поверхностными сигналами или эксплуатацию слабостей традиционных методов обнаружения дубликатов, теряют свою эффективность.
Сценарий: Оптимизация изображений товаров в E-commerce
Learning to Hash генерирует для всех этих изображений очень похожие Forgiving Hashes, группируя их в одни и те же Hash Bins. Google распознает их как дубликаты.Сценарий: Обнаружение неавторизованного использования видео (Content ID)
Что такое "прощающая хеш-функция" (Forgiving Hash Function) и почему это важно для SEO?
Это хеш-функция, которая генерирует одинаковые или очень близкие хеш-коды для похожих, но не идентичных входных данных. В отличие от стандартного хеширования, "прощающий хеш" игнорирует незначительные различия. Для SEO это критически важно, так как позволяет Google эффективно обнаруживать почти дубликаты (например, изображения с измененным размером или слегка отредактированное видео) и группировать их вместе, выбирая одну каноническую версию.
Означает ли этот патент, что бесполезно пытаться уникализировать изображения или видео?
Да, если под уникализацией подразумеваются незначительные изменения, такие как изменение размера, наложение водяного знака, зеркальное отражение или легкая коррекция цвета. Системы, основанные на этом патенте, специально разработаны для того, чтобы распознавать такой контент как похожий. Чтобы контент считался уникальным, он должен иметь существенно отличающиеся признаки.
Что такое "динамическое переназначение целей" (Dynamic Target Reassignment) в процессе обучения?
Это ключевая инновация патента. Вместо того чтобы заставлять нейронную сеть выучить фиксированные хеш-коды, система позволяет сети самой определять сходство. Периодически система смотрит, какие элементы сеть считает похожими (дает им близкие фактические выходы), и корректирует целевые хеш-коды так, чтобы они лучше соответствовали этому изученному сходству. Это позволяет обучать систему на неточных данных.
Применяется ли этот метод только к аудио?
Нет. Хотя в патенте в качестве основного примера используется аудио (поиск похожих песен по фрагментам), описанный метод является общим и применим к любым высокоразмерным данным. Это включает изображения, видео и потенциально даже текстовые документы, представленные в виде векторов (embeddings).
Как этот патент связан с поиском по изображениям Google Images или Google Lens?
Этот патент напрямую связан с функциональностью поиска похожих изображений или поиска по образцу. Описанная технология позволяет Google быстро индексировать миллиарды изображений и при получении запроса мгновенно находить похожие кандидаты на этапе отбора (L1 Retrieval), сравнивая их хеш-коды, а не сами изображения.
Нужно ли системе сравнивать исходный контент во время поиска?
Нет. Согласно Claim 18, одно из главных преимуществ метода заключается в том, что во время поиска система не выполняет прямого сравнения исходного высокоразмерного контента (например, сравнения пикселей). Поиск осуществляется только путем сравнения компактных хеш-кодов, что делает процесс чрезвычайно быстрым.
Что означает "максимизация энтропии" в контексте индекса?
Максимизация энтропии означает стремление к равномерному распределению контента по всем доступным хеш-корзинам индекса. Это критически важно для эффективности. Если бы слишком много элементов попадало в одну корзину (низкая энтропия), поиск замедлился бы, так как системе пришлось бы перебирать слишком много кандидатов в этой переполненной корзине.
Что такое "слабо размеченные данные" и почему Google их использует?
Слабо размеченные данные (Weakly Labeled Data) – это данные с неточной или обобщенной разметкой. Например, известно, что фрагменты принадлежат одному видео, но не известно, насколько они похожи на другие видео. Google использует их, потому что получение точной разметки сложно. Этот патент предлагает метод (Dynamic Target Reassignment), который позволяет эффективно обучаться на таких данных.
Почему используется ансамбль маленьких нейросетей вместо одной большой?
Использование ансамбля (множества) маленьких сетей более эффективно с точки зрения обучения. Комбинируя выходы разных сетей, особенно выбирая Least Correlated Bits (Claim 13), можно создать очень большие и эффективные хеш-пространства, обеспечивая лучшее разделение данных и высокую энтропию.
Как этот патент связан с каноникализацией?
Этот механизм является важным инструментом на этапе каноникализации. Прежде чем выбрать канонический URL из группы дубликатов, система должна сначала идентифицировать эту группу. Forgiving Hashes позволяют эффективно находить и группировать около-дубликаты контента в масштабе всего интернета.

Индексация
Мультимедиа

Мультимедиа
Индексация

Индексация
Мультимедиа
Техническое SEO

Мультимедиа
Индексация

Семантика и интент
Мультимедиа
Персонализация

Поведенческие сигналы
Мультимедиа
Семантика и интент

Семантика и интент
SERP
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
Мультимедиа

Knowledge Graph
Семантика и интент
Ссылки

Антиспам
Ссылки
Семантика и интент

Поведенческие сигналы
EEAT и качество
SERP

Ссылки
SERP

Семантика и интент
Поведенческие сигналы

Индексация
SERP
Персонализация
