Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует изображения пользователей для автоматического обучения и расширения своих возможностей визуального распознавания объектов

    SYSTEMS AND METHODS FOR VISUAL OBJECT MATCHING (Системы и методы сопоставления визуальных объектов)
    • US9020246B2
    • Google LLC
    • 2015-04-28
    • 2011-07-12
    2011 Google Shopping Мультимедиа Патенты Google Семантика и интент

    Google улучшает свои возможности визуального поиска, анализируя изображения, загружаемые пользователями (query images). Система автоматически добавляет уверенно распознанные пользовательские изображения в свою обучающую базу данных, чтобы лучше распознавать вариации известных объектов. Она также кластеризует нераспознанные изображения для обнаружения совершенно новых объектов и определяет внешние наборы данных, релевантные запросам пользователей, для расширения своей базы знаний.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает фундаментальную проблему в области компьютерного зрения: сложность создания и поддержания обширного и разнообразного набора обучающих данных (training corpus) для распознавания визуальных объектов. Ручной сбор данных медленный и часто не способен охватить широкое разнообразие реальных визуальных проявлений объектов (изменения позы, освещения, формы), а также постоянное появление новых объектов, которые система должна уметь распознавать.

    Что запатентовано

    Запатентована система для автоматического улучшения визуального распознавания объектов путем анализа изображений, предоставленных пользователями (query images). Система расширяет обучающий корпус (training corpus) тремя основными способами: обогащение моделей существующих объектов за счет совпавших запросов, обнаружение новых объектов путем кластеризации несовпавших запросов и автоматический выбор и включение релевантных внешних наборов данных (candidate image corpora) на основе интересов пользователей.

    Как это работает

    Система использует три ключевых механизма для расширения training corpus:

    • Обогащение (Enrichment): Query images сопоставляются с существующим training corpus. Если оценка совпадения (match score) высока, изображение запроса добавляется как новый обучающий пример для этого объекта, улучшая способность системы распознавать его вариации.
    • Расширение (Expansion): Анализируются несовпавшие запросы. Они используются для оценки внешних candidate image corpora. Наборы данных, которые хорошо соответствуют несовпавшим запросам пользователей (имеют высокие match statistics), выбираются и включаются в основной training corpus.
    • Обнаружение (Discovery): Несовпавшие query images кластеризуются на основе визуального сходства. Кластеры, представляющие новые объекты, идентифицируются, аннотируются (получают метаданные) и добавляются в training corpus.

    Актуальность для SEO

    Высокая. Автоматизированное обучение и самообучающиеся системы являются основой современного ML/AI. Методы использования пользовательских данных для обучения моделей (например, в Google Lens, Google Photos) активно применяются. Этот патент описывает основополагающие концепции для масштабирования систем визуального распознавания и автоматического расширения их базы знаний.

    Важность для SEO

    Влияние патента значительно для Визуального SEO (Image Search, Google Lens), но косвенное для традиционного веб-поиска (6.5/10). Он объясняет, как именно Google учится понимать содержание изображений. Патент подчеркивает важность разнообразного визуального представления контента и описывает механизм, с помощью которого Google может распознавать новые или нишевые продукты/объекты, основываясь на поведении пользователей, а не только на сканировании веба.

    Детальный разбор

    Термины и определения

    Training Corpus (Обучающий корпус)
    База данных известных объектов. Для каждого объекта содержит одно или несколько обучающих изображений (training images), представляющих его визуальные проявления, а также связанные метаданные.
    Query Images (Изображения запросов)
    Изображения, отправленные пользователями в систему, например, для поиска по содержанию (content-based image retrieval) или идентификации объекта (например, через Google Lens).
    Visual Object Recognition Module (Модуль распознавания визуальных объектов / Matcher)
    Система (движок), которая сравнивает query images с training corpus для поиска совпадений.
    Match Score / Similarity Score (Оценка совпадения / Оценка сходства)
    Метрика, указывающая уровень сходства между изображением запроса и обучающим изображением.
    Score Threshold (Порог оценки)
    Значение, используемое для классификации изображений запросов как совпавших или несовпавших.
    Matched Query Images (Совпавшие изображения запросов)
    Изображения запросов, у которых Match Score выше установленного порога.
    Unmatched Query Images (Несовпавшие изображения запросов)
    Изображения запросов, у которых Match Score ниже установленного порога или совпадения не найдены.
    Candidate Image Corpora (Кандидатные корпуса изображений)
    Внешние наборы данных (потенциально неиндексированные или неразмеченные), которые оцениваются на предмет включения в основной training corpus.
    Image Template / Descriptors (Шаблон изображения / Дескрипторы)
    Извлеченные признаки и ключевые точки (interest points) изображения. Используются для эффективного сопоставления вместо сравнения необработанных пиксельных данных.
    Match Statistics (Статистика совпадений)
    Метрики, используемые для оценки полезности Candidate Image Corpora, например, процент или количество изображений в корпусе, которые совпадают с Unmatched Query Images.

    Ключевые утверждения (Анализ Claims)

    Важное примечание: Патент US9020246B2 является продолжением (continuation) более ранней заявки. Описание (Detailed Description) в тексте патента описывает три механизма (Обогащение, Расширение, Обнаружение). Однако, финальные утверждения (Claims 1-17), которые определяют юридически защищенное ядро изобретения в этом конкретном патенте, сосредоточены исключительно на первом механизме — Обогащении (Enrichment).

    Claim 1 (Независимый пункт): Описывает основной процесс использования пользовательских изображений для обогащения обучающего корпуса.

    1. Система получает query image, отправленное пользователем поисковой системы изображений.
    2. Определяется, что query image связано с неким объектом.
    3. Для query image система получает: (i) одно или несколько существующих training images из корпуса, которые связаны с этим объектом, и (ii) для каждого из них рассчитывает similarity score (оценку сходства) между query image и training image.
    4. Принимается решение добавить query image в корпус training images для этого объекта, если similarity score удовлетворяет пороговому значению (threshold).
    5. Поисковая система изображений обучается распознавать объект в последующих запросах, используя расширенный corpus of training images.

    Claim 5 и 6 (Зависимые): Уточняют процесс добавления.

    Изображение добавляется в корпус в ответ на то, что оно было охарактеризовано как совпавшее изображение (matched image). Эта характеристика определяется тем, что similarity score превышает порог. Это механизм контроля качества, предотвращающий загрязнение обучающего корпуса ошибочными данными.

    Где и как применяется

    Описанная система в первую очередь является инфраструктурой для машинного обучения и обработки данных, а не компонентом ранжирования в реальном времени. Она работает в офлайн или пакетном режиме для улучшения моделей распознавания.

    CRAWLING – Сканирование и Сбор данных
    Система собирает данные из двух ключевых источников: Plurality of Query Images (изображения, загруженные пользователями) и, опционально, Candidate Image Corpora (внешние наборы данных).

    INDEXING – Индексирование и извлечение признаков (Этап обучения моделей)
    Это основной этап применения патента. Система анализирует собранные данные для расширения Training Corpus. Происходит извлечение признаков (Descriptors, Image Templates) из новых изображений. После расширения корпуса Visual Object Recognition Module переобучается (re-trained) на обновленном наборе данных. Улучшенные модели затем используются для понимания и аннотирования изображений в основном веб-индексе.

    Входные данные:

    • Текущий Training Corpus.
    • Plurality of Query Images (накопленные логи пользовательских запросов).
    • (Опционально) Candidate Image Corpora.

    Выходные данные:

    • Расширенный Training Corpus (с новыми вариациями объектов и/или новыми объектами).
    • Переобученный Visual Object Recognition Module с улучшенным покрытием распознавания.

    На что влияет

    • Конкретные типы контента: В первую очередь влияет на системы, зависящие от визуального распознавания: Image Search, Google Lens, распознавание товаров на изображениях.
    • Конкретные ниши или тематики: Наибольшее влияние в тематиках с высокой визуальной вариативностью (мода, товары, искусство) и в нишах, где появляются новые объекты (новые модели техники). Механизм позволяет Google быстрее узнавать о новинках, если пользователи начинают их искать визуально.

    Когда применяется

    • Временные рамки и частота применения: Процесс применяется периодически (в пакетном режиме) для анализа накопленных логов запросов и обновления моделей распознавания.
    • Триггеры активации: Активация может происходить при накоплении достаточного объема новых query images или при плановом обновлении моделей для улучшения их производительности и покрытия.

    Пошаговый алгоритм

    В патенте описаны три различных механизма расширения обучающего корпуса.

    Механизм 1: Обогащение существующих моделей (Enrichment)

    1. Получение данных: Система получает множество query images от пользователей.
    2. Сопоставление: Visual Object Recognition Module сопоставляет эти изображения с объектами в текущем Training Corpus.
    3. Расчет оценок: Для совпадений рассчитываются Match Scores, указывающие уровень сходства.
    4. Классификация: Изображения классифицируются как Matched (оценка выше порога) или Unmatched (оценка ниже порога).
    5. Добавление: Matched Query Images добавляются в Training Corpus как новые обучающие примеры для соответствующих объектов.

    Механизм 2: Расширение за счет внешних данных (Expansion)

    1. Подготовка данных: Система получает Candidate Image Corpora (внешние наборы данных).
    2. Анализ пробелов: Используются Unmatched Query Images (из Механизма 1), которые представляют пробелы в знаниях системы.
    3. Оценка кандидатов: Внешние корпуса сопоставляются с Unmatched Query Images.
    4. Расчет статистики: Определяются Match Statistics для каждого кандидатного корпуса (например, процент покрытых несовпавших запросов).
    5. Выбор и добавление: Кандидатные корпуса с высокой статистикой совпадений выбираются и добавляются в основной Training Corpus.

    Механизм 3: Обнаружение новых объектов (Discovery)

    1. Кластеризация: Unmatched Query Images (из Механизма 1) группируются в кластеры на основе визуального сходства (например, с использованием k-means или сравнения Image Templates).
    2. Фильтрация: Кластеры могут фильтроваться (например, по размеру) для устранения шума.
    3. Аннотирование: Определяется, что кластер описывает конкретный новый объект, и ему присваиваются метаданные (аннотации). Это может происходить автоматически или вручную пользователями.
    4. Добавление: Аннотированные кластеры добавляются в Training Corpus как обучающие изображения для новых объектов.

    Финальный этап (Общий для всех механизмов):

    1. Переобучение: Основной Visual Object Recognition Module переобучается с использованием расширенного Training Corpus.

    Какие данные и как использует

    Данные на входе

    • Мультимедиа факторы: Основные используемые данные. Включают необработанные данные изображений (пиксели). Система также извлекает и использует Descriptors (дескрипторы), Interest Points (ключевые точки) и Image Templates (шаблоны изображений) для эффективного сравнения.
    • Пользовательские факторы: Query Images, загруженные пользователями. Сам факт загрузки изображения является неявным сигналом пользовательского интереса к объекту на изображении.
    • Структурные факторы: Метаданные (название, тип объекта), связанные с изображениями в Training Corpus и те, которые присваиваются новым кластерам в процессе аннотирования.

    Какие метрики используются и как они считаются

    • Match Score / Similarity Score: Метрика сходства между двумя изображениями. Может рассчитываться на основе количества совпадающих Descriptors, сравнения цветовых гистограмм (color histograms), корреляционных метрик (correlation metrics) или измерения расстояния между изображениями (image distance measure) в различных измерениях (цвет, текстура, форма).
    • Score Threshold: Пороговое значение для Match Score, используемое для бинарной классификации изображений как Matched или Unmatched.
    • Match Statistics: Метрики для оценки Candidate Image Corpora. Указываются процент или количество изображений в корпусе, которые совпадают с Unmatched Query Images.
    • Алгоритмы кластеризации: Для механизма обнаружения используются алгоритмы машинного обучения, такие как k-means, агломеративные или дивизивные иерархические методы для группировки визуально похожих изображений.

    Выводы

    1. Пользовательские изображения как источник обучающих данных: Google активно использует изображения, загружаемые пользователями (например, через Image Search или Google Lens), как критически важный ресурс для обучения своих систем компьютерного зрения. Это не просто функция поиска, это механизм сбора данных.
    2. Автоматизация обучения и обработки вариаций: Механизм 1 (Обогащение) позволяет системе автоматически улучшать модели известных объектов. Если пользователь загружает фотографию известного объекта в новом ракурсе или при плохом освещении, и система все равно его распознает с высокой уверенностью, эта фотография добавляется в базу, делая модель более устойчивой к таким вариациям.
    3. Пользовательский интерес определяет приоритеты обучения: Unmatched Query Images (несовпавшие запросы) сигнализируют о пробелах в знаниях Google. Патент показывает, что Google приоритизирует заполнение этих пробелов. Если много пользователей ищут объект, который система не знает, активируются Механизмы 2 и 3.
    4. Обнаружение новых объектов через кластеризацию: Механизм 3 (Обнаружение) критически важен. Он позволяет Google обнаруживать совершенно новые объекты (например, новый продукт или мем), анализируя то, что пользователи ищут, но система еще не может распознать. Кластеризация позволяет выделить эти новые сущности из шума.
    5. Комплексная стратегия масштабирования: Патент демонстрирует многогранный подход к автоматическому масштабированию визуального распознавания, используя как внутренние (логи запросов), так и внешние (кандидатные корпуса) источники данных.

    Практика

    Best practices (это мы делаем)

    Хотя патент описывает внутренние процессы обучения моделей Google, он дает важные инсайты для стратегии визуального SEO.

    • Обеспечение максимального визуального разнообразия: Предоставляйте разнообразные изображения продуктов и объектов (разные углы, освещение, контекст использования, реальные фотографии). Это увеличивает вероятность того, что ваши изображения будут соответствовать разнообразным пользовательским запросам и будут корректно распознаны системами, обученными на таких разнообразных данных (согласно Механизму 1).
    • Стимулирование поведения визуального поиска (для нишевых/новых продуктов): Если у вас есть уникальные, нишевые или совершенно новые продукты, поощряйте пользователей искать их визуально (например, с помощью Google Lens). Это генерирует query images. Если объект неизвестен Google, достаточное количество таких запросов может активировать Механизм 3 (Обнаружение), позволяя Google узнать о существовании этого объекта.
    • Публикация высококачественных и четких изображений: Убедитесь, что изображения достаточно четкие и контрастные для того, чтобы системы могли извлекать признаки (Descriptors и Interest Points). Это необходимое условие для работы всех описанных механизмов сопоставления.

    Worst practices (это делать не надо)

    • Использование только стоковых или предоставленных производителем изображений: Ограничение визуального ряда одним типом изображений снижает способность контента ранжироваться в ответ на разнообразные реальные пользовательские визуальные запросы.
    • Обфускация изображений или использование визуальных эффектов, мешающих распознаванию: Использование чрезмерных водяных знаков, низкого контраста или сложных наложений может помешать извлечению Descriptors и, следовательно, корректному распознаванию объекта.
    • Игнорирование Визуального SEO: Рассматривать изображения только как дополнение к тексту. Патент подтверждает, что визуальное распознавание — это самостоятельная и активно развивающаяся область поиска.

    Стратегическое значение

    Патент подтверждает стратегическую важность визуального поиска и компьютерного зрения для Google. Он демонстрирует, как Google масштабирует свое понимание мира за пределы простого сканирования веб-страниц. Поведение пользователей в визуальном поиске напрямую влияет на формирование графа знаний о визуальных объектах. Для долгосрочной видимости, особенно в e-commerce и контентных проектах с богатым визуальным рядом, оптимизация под системы распознавания объектов критически важна.

    Практические примеры

    Сценарий: Запуск нового уникального продукта (например, новая модель кроссовок), о котором Google еще не знает.

    1. Задача: Ускорить процесс «обучения» Google этому новому продукту.
    2. Действие (основанное на Механизме 3): Создать PR или маркетинговую кампанию (например, через инфлюенсеров), которая стимулирует пользователей фотографировать продукт в реальных условиях и искать его с помощью Google Lens.
    3. Процесс Google: Пользователи генерируют множество Query Images. Так как продукт новый, система классифицирует их как Unmatched Query Images.
    4. Активация алгоритма: При накоплении достаточного количества похожих несовпавших запросов активируется алгоритм кластеризации. Изображения кроссовок группируются в кластер.
    5. Ожидаемый результат: Система обнаруживает новый объект. После аннотирования (которое может произойти, когда система свяжет кластер с первыми веб-страницами о продукте), объект добавляется в Training Corpus. Google начинает распознавать эти кроссовки в последующих запросах и на других сайтах.

    Вопросы и ответы

    Относится ли этот патент к ранжированию веб-страниц?

    Нет, напрямую этот патент не описывает алгоритмы ранжирования веб-страниц или даже изображений в выдаче. Он описывает инфраструктуру и методы, с помощью которых Google обучает свои модели визуального распознавания. Это влияет на то, *что* Google видит на изображении, а не на то, *как высоко* он его ранжирует.

    Что такое «Query Images» в контексте этого патента?

    Query Images — это изображения, которые пользователи загружают в сервисы Google для поиска информации. На практике это в основном изображения, полученные через Google Lens, а также изображения, загруженные пользователем в строку поиска Google Images (обратный поиск по картинке). Это реальные данные от пользователей.

    Как Google использует изображения, которые он успешно распознал?

    Если система распознает объект на изображении пользователя с высокой степенью уверенности (Match Score выше порога), она использует это изображение для улучшения своей модели (Механизм 1). Изображение добавляется в Training Corpus, что помогает системе лучше распознавать этот объект в будущем при другом освещении, ракурсе или форме.

    Что происходит с изображениями, которые Google не смог распознать?

    Нераспознанные изображения (Unmatched Query Images) крайне важны. Они сигнализируют о пробелах в знаниях системы. Google кластеризует их для обнаружения совершенно новых объектов (Механизм 3) или использует их для поиска и оценки релевантных внешних наборов данных, которые можно добавить в систему (Механизм 2).

    Как SEO-специалисты могут использовать эти знания на практике?

    Ключевая стратегия — предоставлять разнообразный визуальный контент. Вместо одной студийной фотографии продукта лучше предоставить несколько фотографий в разных контекстах и ракурсах. Это повышает шансы на распознавание в ответ на разнообразные пользовательские запросы в Google Lens и Image Search.

    Может ли этот механизм помочь Google узнать о моем новом продукте быстрее?

    Да, потенциально может. Если ваш новый продукт визуально уникален и вы сможете сгенерировать значительный объем визуальных поисковых запросов от пользователей (например, через PR-активности, стимулирующие использование Google Lens), Механизм 3 (Обнаружение) может кластеризовать эти запросы и идентифицировать ваш продукт как новый объект.

    Что такое «Candidate Image Corpora» и откуда они берутся?

    Это внешние наборы данных изображений, которые Google рассматривает для включения в свою обучающую базу. Это могут быть большие коллекции фотографий из интернета, партнерские датасеты или специализированные базы данных. Google оценивает их полезность, проверяя, насколько хорошо они покрывают объекты, которые пользователи ищут, но система пока не знает.

    Использует ли система метаданные или текст для распознавания в этом патенте?

    Основной фокус патента — на визуальном сопоставлении (использование Descriptors, Image Templates). Метаданные используются для аннотирования уже существующих обучающих изображений или для разметки новых обнаруженных кластеров, но сам процесс сопоставления и кластеризации основан на визуальных признаках.

    Влияет ли качество моих изображений на этот процесс?

    Да, безусловно. Для работы системы необходимо, чтобы из изображений можно было извлечь надежные визуальные признаки (Descriptors). Слишком размытые, темные или маленькие изображения могут быть непригодны для эффективного сопоставления и обучения.

    Работает ли эта система в реальном времени?

    Нет, описанные процессы (анализ логов запросов, кластеризация, оценка внешних корпусов и переобучение моделей) происходят в офлайн или пакетном режиме. Это процессы улучшения инфраструктуры, а не обработки запроса пользователя в реальном времени.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.