Google использует метод машинного обучения для создания «прощающих» (forgiving) хеш-функций. Этот механизм позволяет эффективно находить похожий или почти идентичный контент (аудио, изображения, видео) в огромных базах данных. Система группирует похожие элементы вместе, даже если они имеют небольшие различия, что критически важно для выявления около-дубликатов и масштабируемого поиска мультимедиа.
Описание
Какую задачу решает
Патент решает фундаментальную проблему информационного поиска: как эффективно и масштабируемо найти похожие (но не обязательно идентичные) элементы в огромных корпусах высокоразмерных данных (high-dimensional data), таких как аудио, изображения и видео. Сложность заключается в том, что прямое сравнение таких данных вычислительно слишком затратно, а само определение «похожести» часто бывает нечетким.
Что запатентовано
Запатентован метод обучения систем машинного обучения (в частности, нейронных сетей) для генерации аппроксимативных или «прощающих» хеш-функций (Forgiving Hash Functions). Эти функции предназначены для того, чтобы помещать похожие элементы в одни и те же хеш-корзины. Ключевым нововведением является метод обучения с динамической корректировкой целевых выходных значений (Dynamic Target Reassignment), который позволяет системе изучать функцию сходства на основе слабо размеченных данных (weakly labeled examples).
Как это работает
Система работает в три этапа: Обучение, Инициализация и Оценка.
- Обучение: Нейронные сети обучаются на слабо размеченных данных. Вместо фиксированных целей система периодически переоценивает результаты сети и динамически переназначает целевые коды, чтобы лучше отражать фактическое сходство, изученное сетью. Это формирует кластеры похожего контента, поддерживая высокую энтропию индекса.
- Инициализация (Индексирование): Весь корпус данных обрабатывается обученными сетями. Выходные данные сетей комбинируются (например, путем выбора наименее коррелированных битов) для создания хеш-кодов (Hash Bits), которые служат индексами.
- Оценка (Поиск): Когда поступает новый запрос, он обрабатывается теми же сетями. Полученный хеш-код используется для мгновенного поиска в соответствующих корзинах индекса. Поиск выполняется без прямого сравнения исходных высокоразмерных данных.
Актуальность для SEO
Высокая. Поиск по сходству (Approximate Nearest Neighbor Search), обнаружение почти дубликатов и кластеризация контента являются фундаментальными задачами для современных поисковых систем, особенно в контексте мультимедиа (Google Images, YouTube Content ID). Описанные методы использования машинного обучения для создания эффективных индексов (Learned Hashing) лежат в основе современных систем поиска информации и векторного поиска.
Важность для SEO
Патент имеет высокое значение (75/100), особенно для SEO в области мультимедиа (Image Search, Video Search) и для понимания того, как Google обрабатывает уникальность контента. Он описывает конкретный механизм, позволяющий Google понимать сходство на основе характеристик самого контента. Это напрямую влияет на то, как контент индексируется, кластеризуется и как неэффективными становятся тактики поверхностной уникализации медиафайлов.
Детальный разбор
Термины и определения
- Approximate Hashing / Forgiving Hash Function («Прощающая» хеш-функция)
- Хеш-функция, которая стремится поместить похожие, но не идентичные входные данные в одну и ту же хеш-корзину (Hash Bin). Она «прощает» небольшие различия в соответствии с изученной функцией расстояния.
- Dynamic Target Reassignment (Динамическое переназначение целей)
- Ключевая часть процесса обучения (описанная как «adjusting the target output values»). Целевые выходные значения (хеш-коды) периодически корректируются на основе фактических выходных данных обучающейся системы, чтобы лучше группировать похожие элементы.
- Entropy (Энтропия)
- Мера распределения данных. Система стремится к максимальной Entropy, что означает равномерное распределение элементов по всем доступным хеш-корзинам для обеспечения эффективности индекса.
- Hamming Distance (Расстояние Хэмминга)
- Метрика для сравнения двух бинарных строк. Используется для измерения сходства между полученными хеш-кодами.
- Learning System (Обучающаяся система)
- Система машинного обучения, используемая для изучения функции сходства и генерации хешей. В патенте используются нейронные сети (Neural Networks).
- Least Correlated Bits (Наименее коррелированные биты)
- Метод выбора битов из выходов нескольких нейронных сетей для формирования объединенного хеша. Выбор наименее коррелированных битов максимизирует энтропию.
- Weakly Labeled Data (Слабо размеченные данные)
- Обучающие данные, где разметка неточна или неполна. Например, известно, что фрагменты принадлежат одному источнику (положительный пример), но нет явных отрицательных примеров.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает полный метод, включающий обучение, инициализацию и оценку.
Обучение:
- Определяется обучающий набор с целевыми выходными значениями (target output values).
- Обучение системы в течение небольшого числа циклов.
- Критический шаг: Целевые выходные значения корректируются на основе фактических выходных данных системы (Dynamic Target Reassignment).
- Обучение продолжается.
Инициализация:
- Образцы предоставляются обученным системам.
- Выходные данные систем комбинируются.
- Комбинированные выходные данные используются как индексы в структурах данных (хеш-таблицах).
Оценка:
- Целевой образец предоставляется обученным системам.
- Выходные данные комбинируются.
- Соответствующие образцы обнаруживаются с использованием этого индекса.
Claim 12 и 13 (Зависимые от 1): Детализируют механизм комбинирования выходов.
Комбинирование включает выбор подмножества выходных значений из разных систем. Claim 13 уточняет, что этот выбор может включать определение Least Correlated Bits (наименее коррелированных битов). Это технически важно для масштабирования системы и поддержания высокой Entropy составного хеша.
Claim 18 (Независимый пункт): Описывает метод поиска с акцентом на эффективность.
Поиск совпадения в структуре данных осуществляется без прямого сравнения целевого образца с образцом из структуры данных. Это подчеркивает, что сравнение происходит только в низкоразмерном пространстве хешей, а не в исходном высокоразмерном пространстве.
Где и как применяется
Изобретение применяется на этапах индексирования и ранжирования (в части отбора кандидатов) для мультимедийного контента.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Система описывает, как создавать эффективный индекс (хеш-таблицы) для поиска по сходству.
- Извлечение признаков: Высокоразмерные данные (аудио, видео, изображения) обрабатываются для извлечения признаков (например, audio-spectrogram).
- Генерация хешей: Обученные нейронные сети используются для преобразования этих признаков в компактные бинарные коды (Forgiving Hashes).
- Построение индекса и Кластеризация: Хеши используются как ключи в индексе. Похожий контент группируется в одних и тех же корзинах (Hash Bins), что позволяет обнаруживать дубликаты.
RANKING – Ранжирование (L1 Retrieval / Отбор кандидатов)
Механизм обеспечивает высокоэффективный отбор кандидатов (L1).
- При получении запроса система генерирует его хеш-код.
- Система мгновенно извлекает контент из соответствующей хеш-корзины.
- Это радикально сокращает пространство поиска для последующих этапов ранжирования (L2/L3).
Входные данные:
- Слабо размеченные обучающие данные (для этапа обучения).
- Корпус высокоразмерных данных для индексации.
- Целевой образец (запрос) во время поиска.
Выходные данные:
- Обученные модели (Learning Systems).
- Индекс (хеш-таблицы).
- Набор похожих кандидатов в ответ на запрос.
На что влияет
- Конкретные типы контента: В первую очередь влияет на мультимедийный контент – аудио, изображения, видео. Метод является общим для high-dimensional data.
- Специфические запросы: Запросы типа «найти похожее» (more-like-this), поиск по образцу (Google Lens, обратный поиск изображений), а также внутренние процессы обнаружения дубликатов и нарушений авторских прав (Content ID).
Когда применяется
- Во время индексирования: Для генерации хеш-кодов для всего корпуса контента и построения индекса.
- Во время обучения моделей (Офлайн): Процесс обучения с Dynamic Target Reassignment применяется для создания или обновления моделей.
- Во время поиска (Retrieval): В реальном времени для генерации хеш-кода запроса и быстрого извлечения кандидатов.
Пошаговый алгоритм
Процесс делится на три основных этапа: Обучение, Инициализация и Оценка.
Этап 1: Обучение ансамбля моделей (Training)
- Подготовка данных: Сбор данных и применение слабой разметки (например, группировка фрагментов по источнику).
- Инициализация целей: Каждой группе случайным образом назначается уникальный целевой бинарный код (хеш).
- Итеративное обучение:
- Обучение сети: Нейронная сеть обучается в течение небольшого количества эпох (например, 10).
- Оценка фактического вывода: Вычисляется агрегированный фактический вывод сети для каждой группы.
- Динамическое переназначение целей (Dynamic Target Reassignment): Целевой код для группы обновляется до того кода, который наиболее близок (по Hamming distance) к ее фактическому выводу. При этом сохраняется уникальность кодов для разных групп (для поддержания Entropy).
- Повторение: Шаги a-c повторяются до сходимости.
- Финальное обучение и Комбинирование: Сети дообучаются. Обучается несколько независимых сетей для последующего использования в ансамбле.
Этап 2: Инициализация Индекса (Initializing)
- Обработка корпуса: Каждый элемент корпуса обрабатывается обученными сетями.
- Комбинирование выходов (Масштабирование): Выходы разных сетей комбинируются для создания более длинных хеш-кодов. Это может включать выбор Least Correlated Bits (Claim 13) для максимизации эффективности.
- Построение индекса: Элемент сохраняется в хеш-таблице с использованием этого кода как индекса.
Этап 3: Поиск (Evaluating)
- Обработка запроса: Запрос обрабатывается теми же обученными сетями для генерации хеш-кода.
- Извлечение кандидатов: Система извлекает все элементы из соответствующей корзины хеш-таблицы. Это делается без прямого сравнения исходных данных (Claim 18).
- Ранжирование (Опционально): Если используется несколько хеш-таблиц, результаты объединяются и ранжируются по частоте встречаемости.
Какие данные и как использует
Данные на входе
Патент фокусируется на обработке характеристик самого контента, а не метаданных.
- Мультимедиа факторы (Признаки контента): Основные входные данные – это высокоразмерные представления контента. Для аудио это могут быть спектрограммы (mel-frequency spectrogram). Для изображений или видео это могут быть соответствующие визуальные признаки.
- Системные данные (Слабые метки): Weakly labeled data используются на этапе обучения. Это информация о том, какие образцы следует считать похожими (например, происхождение из одного источника).
Какие метрики используются и как они считаются
- Расстояние Хэмминга (Hamming Distance): Используется во время обучения для оценки близости фактических выходов сети к целевым кодам (при переназначении целей).
- Энтропия (Entropy): Система стремится максимизировать энтропию для равномерного заполнения индекса. Это достигается за счет уникального назначения целевых кодов.
- Корреляция между выходами: При комбинировании выходов нескольких сетей измеряется корреляция между битами. Для построения эффективного составного хеша выбираются Least Correlated Bits (Claim 13).
- Метрики производительности (Recall/Lookups): Используются для оценки эффективности системы: процент нахождения правильного ответа (Recall) и среднее количество кандидатов в корзине (Lookups per Hashed Bin).
Выводы
- Изучение сходства без явных определений: Ключевая инновация – метод Dynamic Target Reassignment. Он позволяет Google изучать, что делает контент похожим, используя только слабые метки. Система сама определяет релевантные признаки для кластеризации, не требуя явного определения функции сходства.
- «Прощающие хеши» для обработки вариативности: Система генерирует Forgiving Hash Functions, которые устойчивы к небольшим изменениям, шуму и артефактам сжатия. Это позволяет группировать похожий, но не идентичный контент (почти дубликаты) в одном месте индекса.
- Эффективность поиска по сходству: Патент описывает механизм высокоэффективного отбора кандидатов (L1 Retrieval). Поиск осуществляется без необходимости дорогостоящего прямого сравнения исходных высокоразмерных данных (Claim 18).
- Приоритет признаков контента над метаданными: Метод основан на анализе самого контента (аудио, видео, изображения). Это подчеркивает способность Google понимать мультимедиа независимо от сопровождающего текста или тегов.
- Масштабируемость через ансамбли моделей: Система использует ансамбль небольших нейронных сетей и комбинирует их выходы, выбирая Least Correlated Bits (Claim 13). Это позволяет масштабировать индекс, сохраняя вычислительную эффективность и высокую энтропию.
Практика
Best practices (это мы делаем)
- Создание действительно уникального контента: Понимая, что Google использует «прощающие хеши» для обнаружения почти дубликатов в мультимедиа, необходимо сосредоточиться на создании действительно уникального контента. Поверхностные изменения не сделают контент уникальным в глазах системы.
- Оптимизация мультимедиа для четкости признаков: Поскольку система анализирует сам контент, качество исходных данных имеет значение. Для видео и изображений использование высокого разрешения и четкости помогает системе извлекать более точные признаки и корректно кластеризовать контент (например, в Google Images и для визуального поиска).
- Управление каноникализацией: Осознание того, что Google обладает мощными инструментами для обнаружения около-дубликатов. Необходимо тщательно управлять дублированием контента на сайте (например, варианты товаров) и корректно использовать канонические теги, так как система легко идентифицирует схожесть.
Worst practices (это делать не надо)
- Попытки выдать почти дубликаты за уникальный контент: Использование методов «уникализации» контента, которые вносят незначительные изменения (например, зеркальное отражение изображений, наложение фильтров, изменение размера, перекодирование аудио), неэффективно. Forgiving Hash Functions специально разработаны для игнорирования таких различий.
- Массовое использование стоковых изображений: Чрезмерное использование неуникального визуального контента неэффективно. Система легко сгруппирует этот контент, что затрудняет выделение вашего сайта среди конкурентов, использующих те же ресурсы.
- Полная зависимость от метаданных для мультимедиа SEO: Оптимизация только текстовых элементов (alt-тексты, заголовки) недостаточна. Система поиска и группировки основана на признаках, извлеченных непосредственно из самого медиафайла.
Стратегическое значение
Патент подтверждает стратегический фокус Google на использовании машинного обучения для понимания нетекстового контента на глубоком уровне. Он демонстрирует, как Google решает фундаментальную проблему масштабируемого поиска по сходству. Для SEO это означает, что оценка и индексация мультимедийного контента становятся все более сложными. Стратегии, направленные на манипулирование поверхностными сигналами или эксплуатацию слабостей традиционных методов обнаружения дубликатов, теряют свою эффективность.
Практические примеры
Сценарий: Оптимизация изображений товаров в E-commerce
- Ситуация: Интернет-магазин использует стандартное изображение продукта от производителя. Это же изображение используют сотни других сайтов.
- Применение патента Google: Система Learning to Hash генерирует для всех этих изображений очень похожие Forgiving Hashes, группируя их в одни и те же Hash Bins. Google распознает их как дубликаты.
- Действия SEO-специалиста: Магазин инвестирует в создание уникальных фотографий товара с разных ракурсов и в контексте использования.
- Результат: Система генерирует уникальные хеши для новых изображений. Эти изображения с меньшей вероятностью будут отфильтрованы как дубликаты, что увеличивает их видимость в Google Images.
Сценарий: Обнаружение неавторизованного использования видео (Content ID)
- Ситуация: Пользователь загружает на платформу видео, которое является копией авторского контента, но немного обрезано или перекодировано.
- Применение патента: Система использует аппроксимативные хеши. Даже если видео изменено, его хеш будет близок к оригиналу из-за «прощающего» характера функции.
- Результат: Эффективное обнаружение почти дубликатов и неавторизованных копий без необходимости ручного поиска или точного совпадения файлов.
Вопросы и ответы
Что такое «прощающая хеш-функция» (Forgiving Hash Function) и почему это важно для SEO?
Это хеш-функция, которая генерирует одинаковые или очень близкие хеш-коды для похожих, но не идентичных входных данных. В отличие от стандартного хеширования, «прощающий хеш» игнорирует незначительные различия. Для SEO это критически важно, так как позволяет Google эффективно обнаруживать почти дубликаты (например, изображения с измененным размером или слегка отредактированное видео) и группировать их вместе, выбирая одну каноническую версию.
Означает ли этот патент, что бесполезно пытаться уникализировать изображения или видео?
Да, если под уникализацией подразумеваются незначительные изменения, такие как изменение размера, наложение водяного знака, зеркальное отражение или легкая коррекция цвета. Системы, основанные на этом патенте, специально разработаны для того, чтобы распознавать такой контент как похожий. Чтобы контент считался уникальным, он должен иметь существенно отличающиеся признаки.
Что такое «динамическое переназначение целей» (Dynamic Target Reassignment) в процессе обучения?
Это ключевая инновация патента. Вместо того чтобы заставлять нейронную сеть выучить фиксированные хеш-коды, система позволяет сети самой определять сходство. Периодически система смотрит, какие элементы сеть считает похожими (дает им близкие фактические выходы), и корректирует целевые хеш-коды так, чтобы они лучше соответствовали этому изученному сходству. Это позволяет обучать систему на неточных данных.
Применяется ли этот метод только к аудио?
Нет. Хотя в патенте в качестве основного примера используется аудио (поиск похожих песен по фрагментам), описанный метод является общим и применим к любым высокоразмерным данным. Это включает изображения, видео и потенциально даже текстовые документы, представленные в виде векторов (embeddings).
Как этот патент связан с поиском по изображениям Google Images или Google Lens?
Этот патент напрямую связан с функциональностью поиска похожих изображений или поиска по образцу. Описанная технология позволяет Google быстро индексировать миллиарды изображений и при получении запроса мгновенно находить похожие кандидаты на этапе отбора (L1 Retrieval), сравнивая их хеш-коды, а не сами изображения.
Нужно ли системе сравнивать исходный контент во время поиска?
Нет. Согласно Claim 18, одно из главных преимуществ метода заключается в том, что во время поиска система не выполняет прямого сравнения исходного высокоразмерного контента (например, сравнения пикселей). Поиск осуществляется только путем сравнения компактных хеш-кодов, что делает процесс чрезвычайно быстрым.
Что означает «максимизация энтропии» в контексте индекса?
Максимизация энтропии означает стремление к равномерному распределению контента по всем доступным хеш-корзинам индекса. Это критически важно для эффективности. Если бы слишком много элементов попадало в одну корзину (низкая энтропия), поиск замедлился бы, так как системе пришлось бы перебирать слишком много кандидатов в этой переполненной корзине.
Что такое «слабо размеченные данные» и почему Google их использует?
Слабо размеченные данные (Weakly Labeled Data) – это данные с неточной или обобщенной разметкой. Например, известно, что фрагменты принадлежат одному видео, но не известно, насколько они похожи на другие видео. Google использует их, потому что получение точной разметки сложно. Этот патент предлагает метод (Dynamic Target Reassignment), который позволяет эффективно обучаться на таких данных.
Почему используется ансамбль маленьких нейросетей вместо одной большой?
Использование ансамбля (множества) маленьких сетей более эффективно с точки зрения обучения. Комбинируя выходы разных сетей, особенно выбирая Least Correlated Bits (Claim 13), можно создать очень большие и эффективные хеш-пространства, обеспечивая лучшее разделение данных и высокую энтропию.
Как этот патент связан с каноникализацией?
Этот механизм является важным инструментом на этапе каноникализации. Прежде чем выбрать канонический URL из группы дубликатов, система должна сначала идентифицировать эту группу. Forgiving Hashes позволяют эффективно находить и группировать около-дубликаты контента в масштабе всего интернета.