Как Google использует связку LLM и Vision-моделей для автоматического создания классификаторов изображений без участия человека

Патент Google описывает систему автоматизации разметки изображений для обучения классификаторов. Используя текстовое описание категории (Input Concept), система задействует Большие Языковые Модели (LLM) для генерации запросов к Визуально-Языковым Моделям (VLM). LLM анализируют ответы VLM и присваивают изображению метку. Это позволяет Google быстро создавать классификаторы для субъективных понятий (например, «качественное фото товара») без ручной разметки.

Описание

Какую задачу решает

Патент решает проблему зависимости обучения моделей классификации изображений от ручной разметки данных (human-labelled data). Традиционные методы краудсорсинга эффективны для объективных задач, но плохо справляются с субъективными или узкоспециализированными концепциями (например, определение «высококачественного» или «экспертного» контента). Существующие пользовательские подходы по-прежнему требуют значительных усилий по разметке. Изобретение направлено на автоматизацию процесса разметки изображений для любой заданной текстовой концепции, минимизируя или устраняя необходимость в человеческом участии.

Что запатентовано

Запатентована система для автоматической генерации меток (machine-generated labels) для изображений на основе текстового описания категории (Input Concept). Суть изобретения заключается в оркестрации взаимодействия между Большими Языковыми Моделями (LLM) и Визуально-Языковыми Моделями (VLM). LLM отвечают за интерпретацию концепции и логическое обоснование метки, а VLM — за анализ визуального содержания изображения. Эти автоматически сгенерированные метки затем используются для обучения легковесной модели классификации изображений (Image Classifier Model).

Как это работает

Система работает по следующему принципу:

Определение концепции: Получается текстовое описание категории изображений (Input Concept).
Поиск изображений: LLM генерирует поисковые запросы (положительные и отрицательные) для поиска релевантных изображений-кандидатов.
Генерация запросов к VLM: LLM формирует набор вопросов или инструкций (VLM prompts/queries) на основе Input Concept.
Визуальный анализ: VLM обрабатывают изображение и запросы от LLM, генерируя текстовые ответы (responses) — описания изображения или ответы на вопросы.
Принятие решения о метке: LLM анализирует ответы VLM в контексте исходного Input Concept (часто используя Chain-of-Thought или Few-Shot prompting) и генерирует финальную метку (принадлежит ли изображение к категории) и обоснование.
Обучение классификатора: Набор размеченных данных используется для обучения эффективной Image Classifier Model.

Актуальность для SEO

Высокая. Патент подан в конце 2023 года и описывает передовые методы использования генеративных моделей (LLM и VLM) для автоматизации сложных задач. Этот подход соответствует стратегии Google по масштабированию оценки качества контента (включая визуальный) с помощью ИИ, снижая зависимость от асессоров.

Важность для SEO

Влияние на SEO значительно, но косвенно (7.5/10). Патент не описывает алгоритм ранжирования. Он описывает инфраструктуру, которая позволяет Google быстро и дешево создавать классификаторы для любых, в том числе субъективных, визуальных концепций (например, «оригинальное фото», «полезная инфографика», «спамное изображение», «фото из отзыва»). Это критически важно для масштабирования сигналов E-E-A-T и Helpful Content на визуальный контент. SEO-специалисты должны понимать, что Google может автоматически оценивать качество и релевантность изображений на сайте с высокой степенью детализации.

Детальный разбор

Термины и определения

Active Learning (Активное обучение): Процесс, при котором обученная модель классификации используется для выявления «пограничных» (borderline) или сложных примеров в неразмеченном наборе данных. Эти примеры затем размечаются (машиной или человеком) для дообучения модели.
Chain-of-Thought Prompting (Промптинг по цепочке рассуждений): Техника промптинга LLM, которая структурирует задачу таким образом, чтобы модель генерировала промежуточные шаги рассуждения перед выдачей окончательного ответа (метки).
Few-Shot Prompting (Промптинг с малым числом примеров): Техника промптинга, при которой модели предоставляется небольшое количество примеров выполнения задачи перед тем, как запросить выполнение аналогичной задачи на новых данных.
Image Classifier Model (Модель классификации изображений): Машинно-обученная модель, обученная на размеченных данных для классификации новых изображений в соответствии с Input Concept. Часто это легковесная модель (например, QUIC model) для эффективного инференса.
Image Labeler (Разметчик изображений): Система, генерирующая метки для изображений. В контексте патента это оркестрованная система, состоящая из LLM и VLM.
Image Retriever (Система поиска изображений): Система, которая использует LLM для генерации поисковых запросов (positive/negative queries) и извлекает изображения-кандидаты из базы данных.
Input Concept (Входная концепция): Текстовое описание категории изображений, которое служит основой для всего процесса классификации. Может включать название, описание и примеры.
LLM (Large Language Model, Большая языковая модель): Модель, используемая для интерпретации Input Concept, генерации поисковых запросов, генерации запросов к VLM и принятия финального решения о метке на основе ответов VLM.
Machine-generated Labels (Машинно-сгенерированные метки): Метки, автоматически присвоенные изображениям системой Image Labeler без участия человека.
VLM (Vision Language Model, Визуально-языковая модель): Мультимодальная модель, способная обрабатывать как изображения, так и текст. Используется для анализа визуального контента и генерации текстовых ответов (описаний или ответов на вопросы) об изображении.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод машинной разметки изображений.

Получение текстового описания категории изображений.
Получение набора изображений на основе этого описания.
Использование одной или нескольких LLM для генерации промптов, предназначенных для ввода в VLM.
Использование одной или нескольких VLM для генерации ответов на основе этих промптов.
Использование одной или нескольких LLM для генерации набора машинных меток на основе ответов VLM. Каждая метка указывает, принадлежит ли соответствующее изображение к категории.

Claim 2 (Зависимый от 1): Уточняет цель использования меток.

Метод включает обучение Image Classification Model на основе сгенерированных машинных меток и соответствующих изображений.

Claim 5 (Зависимый от 1): Детализирует процесс получения изображений.

Получение изображений включает использование LLM для генерации набора запросов для поиска изображений (image retrieval query set) и последующий поиск кандидатов на основе этого набора.

Claim 6 (Зависимый от 5): Описывает итеративное улучшение поиска изображений.

Определение (с помощью LLM и VLM), принадлежат ли изображения из первого набора кандидатов к категории.
Модификация набора поисковых запросов на основе этого определения.
Поиск второго набора кандидатов на основе модифицированных запросов.

Claim 13 и 16 (Зависимые от 1): Уточняют методы промптинга.

Генерация меток (Claim 13) и генерация промптов для VLM (Claim 16) могут включать использование Chain-of-Thought prompting.

Claim 22 и 23 (Зависимые от 1): Описывают использование нескольких LLM для контроля качества.

Процесс генерации промптов для VLM (Claim 22) и генерации финальных меток (Claim 23) может включать использование первой LLM для генерации кандидатов (запросов или меток) и второй LLM для генерации скорректированных версий на основе кандидатов (выступая в роли супервизора или корректора).

Claim 26 (Зависимый от 1): Описывает использование специализированных VLM.

Система может использовать как минимум две разные VLM. Ответы первой VLM характеризуются большей средней длиной, чем ответы второй VLM (например, первая генерирует подробные описания, вторая — короткие ответы на вопросы).

Где и как применяется

Изобретение относится к инфраструктуре машинного обучения и генерации данных, а не к процессу ранжирования в реальном времени. Оно влияет на следующие этапы поиска:

CRAWLING – Сканирование и Сбор данных
Система Image Retriever активно ищет и собирает изображения-кандидаты для разметки на основе Input Concept, используя запросы, сгенерированные LLM. Это не стандартный краулинг, а целевой сбор данных для обучения моделей.

INDEXING – Индексирование и извлечение признаков
Основное применение. Патент описывает механизм для масштабного извлечения признаков (Feature Extraction) из изображений.

Генерация обучающих данных: Система Image Labeler (связка LLM+VLM) создает размеченные наборы данных.
Обучение классификаторов: Training System использует эти данные для обучения Image Classifier Models.
Применение классификаторов: Обученные (легковесные) классификаторы затем могут применяться на этапе индексирования для аннотирования контента в индексе новыми сигналами (например, классификация всех изображений на странице как «качественные» или «некачественные»).

Входные данные:

Текстовое описание категории (Input Concept).
Доступ к базе данных изображений (через Image Search System).
Неразмеченные изображения-кандидаты.

Выходные данные:

Набор размеченных изображений (Images + Machine-generated Labels).
Обученная модель классификации изображений (Image Classifier Model).

На что влияет

Типы контента: В первую очередь влияет на изображения (фотографии, иллюстрации, диаграммы).
Специфические запросы и Ниши: Наибольшее влияние оказывается на области, где важна субъективная оценка качества или специфическая экспертиза (YMYL, обзоры продуктов, хобби, искусство). Система позволяет создавать классификаторы для концепций, которые трудно формализовать для стандартной разметки.

Когда применяется

Условия работы: Алгоритм применяется офлайн или в пакетном режиме для создания новых классификаторов или улучшения существующих. Он не применяется в момент выполнения поискового запроса пользователем.
Триггеры активации: Необходимость создать классификатор для новой концепции (например, новый тип спама, новый критерий качества контента) при желании минимизировать затраты на ручную разметку.

Пошаговый алгоритм

Процесс А: Генерация размеченных данных и обучение классификатора

Получение и уточнение концепции: Система получает текстовое описание категории (Input Concept). LLM может взаимодействовать с источником концепции (например, пользователем) в многоэтапном диалоге для уточнения деталей.
Генерация поисковых запросов: LLM анализирует Input Concept и генерирует набор положительных (для поиска примеров внутри категории) и отрицательных (для поиска примеров вне категории) поисковых запросов.
Поиск изображений: Система поиска изображений (например, использующая nearest neighbor retrieval в пространстве эмбеддингов) извлекает наборы кандидатов по сгенерированным запросам.
Генерация VLM-запросов: Для каждого изображения-кандидата LLM (Worker LLM) генерирует специфические вопросы или промпты для VLM, направленные на проверку соответствия изображения критериям Input Concept. Может использоваться Few-Shot или Chain-of-Thought prompting.
Коррекция VLM-запросов (Опционально): Вторая LLM (Supervisor LLM) проверяет и корректирует запросы, сгенерированные первой LLM.
Визуальный анализ: Изображение и скорректированные запросы подаются на вход VLM. Могут использоваться несколько специализированных VLM (например, одна для подробных описаний, другая для ответов на вопросы). VLM генерируют текстовые ответы.
Генерация метки: LLM (Worker LLM) получает ответы от VLM и сопоставляет их с Input Concept. Используя структурированное рассуждение (например, Chain-of-Thought), LLM генерирует кандидатскую метку (например, Да/Нет) и текстовое обоснование.
Коррекция метки (Опционально): Вторая LLM (Supervisor LLM) проверяет кандидатскую метку и обоснование, и при необходимости корректирует их.
Итеративное улучшение поиска (Опционально): Система анализирует сгенерированные метки для оценки эффективности поисковых запросов (например, вычисляет false positive rate). Если эффективность низкая, набор поисковых запросов модифицируется, и процесс возвращается к шагу 3.
Обучение классификатора: Накопленный набор размеченных данных используется для обучения Image Classifier Model.

Процесс Б: Активное обучение (Опционально)

Анализ неразмеченных данных: Обученная Image Classifier Model применяется к большому набору неразмеченных данных.
Выявление пограничных примеров: Система идентифицирует изображения, которые находятся близко к границе принятия решений модели (например, на основе оценки неопределенности).
Разметка сложных примеров: Выявленные пограничные примеры подаются в систему Image Labeler (Процесс А, шаги 4-8) для получения меток.
Дообучение: Классификатор дообучается на новых размеченных данных.

Какие данные и как использует

Данные на входе

Контентные факторы (Текст): Текстовое описание категории (Input Concept), которое может включать название, описание, примеры. Также используются текстовые запросы, сгенерированные LLM, и текстовые ответы, сгенерированные VLM.
Мультимедиа факторы (Изображения): Пиксельные данные изображений-кандидатов, которые обрабатываются VLM.
Системные данные: Внутренние представления данных в LLM и VLM (эмбеддинги, состояния).

Какие метрики используются и как они считаются

Патент не приводит конкретных формул для генерации меток, так как этот процесс основан на внутреннем функционировании LLM и VLM. Однако упоминаются следующие метрики для управления процессом:

False Positive Rate / False Negative Rate: Используются в процессе итеративного улучшения поиска изображений (Claim 8). False Positive Rate — процент изображений, полученных по положительному запросу, которые НЕ принадлежат к категории (согласно метке Image Labeler). Эти метрики используются для модификации набора поисковых запросов.
Близость к границе принятия решений (Decision Boundary): Используется в процессе активного обучения (Claim 4). Вычисляется значение, указывающее, находится ли изображение рядом с границей решения Image Classifier Model (например, оценка неопределенности или маржинальности).
Rating (Рейтинг): Финальная метка может включать рейтинг (например, Да/Нет или числовая оценка уверенности) и обоснование (Claim 19).

Выводы

Автоматизация разметки через оркестрацию моделей: Ключевым выводом является метод использования LLM в качестве ‘мозга’ для интерпретации концепций и рассуждений, а VLM — в качестве ‘глаз’ для визуального анализа. LLM генерирует запросы к VLM и затем интерпретирует их ответы для принятия решения о метке.
Масштабирование субъективной классификации: Система позволяет создавать классификаторы для сложных и субъективных концепций (например, качество, стиль, намерение), которые ранее требовали значительных усилий по ручной разметке и составлению инструкций для асессоров.
Использование специализированных моделей: Патент подчеркивает ценность использования нескольких специализированных моделей. Упоминается использование разных VLM (например, для подробных описаний и для коротких ответов) и нескольких LLM (например, Worker и Supervisor для генерации и коррекции).
Техники продвинутого промптинга: Эффективность системы достигается за счет использования техник Chain-of-Thought и Few-Shot prompting, что позволяет LLM выполнять сложное структурированное рассуждение при генерации меток.
Итеративное улучшение и Активное обучение: Система включает механизмы обратной связи для улучшения поиска обучающих примеров (путем модификации поисковых запросов) и механизмы активного обучения для фокусировки на сложных, пограничных случаях.
Создание легковесных классификаторов: Конечной целью является не использование дорогостоящих LLM+VLM для инференса в продакшене, а обучение на их разметке более легковесных и эффективных Image Classifier Models.

Практика

Best practices (это мы делаем)

Инвестиции в оригинальный и качественный визуальный контент: Этот патент подтверждает, что Google развивает инфраструктуру для автоматической оценки качества изображений по субъективным критериям. Необходимо создавать оригинальные фотографии, полезные диаграммы и уникальные иллюстрации, которые соответствуют положительным концепциям (например, «экспертный», «достоверный», «полезный для пользователя»).
Оптимизация под визуальный интент и концепции, а не только ключевые слова: При создании изображений следует ориентироваться на то, как они раскрывают тему и соответствуют ли они концепции страницы. Google может классифицировать изображения на соответствие сложным концепциям, выходящим за рамки простого распознавания объектов.
Использование изображений для подтверждения E-E-A-T: Используйте визуальный контент для демонстрации опыта и авторитетности. Например, в обзорах продуктов используйте реальные фотографии процесса тестирования, а не только стоковые фото производителя. Google потенциально может создать классификатор для отличия «Authentic Review Image» от «Stock Product Image» с помощью этой технологии.

Worst practices (это делать не надо)

Использование генерических стоковых изображений: Массовое использование неуникальных или низкокачественных стоковых изображений может быть легко классифицировано как негативный сигнал. Если Google обучит классификатор на концепции «Low-Effort Stock Image», такие страницы могут ранжироваться хуже.
Визуальный кликбейт и вводящие в заблуждение изображения: Использование изображений, которые не соответствуют содержанию статьи или вводят пользователя в заблуждение. Технология позволяет обучить классификаторы для выявления таких несоответствий на основе анализа визуального контента и контекста.
Игнорирование качества изображений в UGC: Допущение загрузки низкокачественного, спамного или нерелевантного визуального контента пользователями. Google может применить классификаторы ко всему контенту страницы, включая UGC.

Стратегическое значение

Этот патент имеет высокое стратегическое значение, так как демонстрирует механизм масштабирования оценки качества контента за пределы текста. Он показывает, как Google может быстро реагировать на новые тренды или проблемы качества, создавая специализированные классификаторы без длительного цикла сбора данных через асессоров. Это подтверждает долгосрочный тренд на переход от формальных факторов к автоматизированной оценке качества, полезности и достоверности контента во всех его формах, включая визуальную.

Практические примеры

Сценарий: Создание классификатора для оценки качества изображений в обзорах товаров

Задача Google: Улучшить ранжирование страниц с полезными обзорами товаров, отдав предпочтение тем, кто реально тестировал продукт.
Определение концепции (Input Concept): Google определяет концепцию «Authentic Product Testing Image». Описание включает: изображение продукта в реальном окружении, следы использования, сравнение с другими продуктами, демонстрация функций в действии.
Автоматическая разметка: Система LLM+VLM размечает тысячи изображений. LLM спрашивает у VLM: «Находится ли продукт на нейтральном фоне или в реальной комнате?», «Видны ли руки человека, взаимодействующего с продуктом?». LLM агрегирует ответы и ставит метку.
Обучение классификатора: Обучается легковесный классификатор.
Применение в SEO: На этапе индексирования этот классификатор оценивает все изображения на странице обзора. Страницы, где большинство изображений классифицированы как «Authentic Product Testing Image», получают буст в ранжировании (как часть Helpful Content System или Product Review System).
Действия SEO-специалиста: Заменить стоковые фото на реальные фотографии тестирования продукта, добавить фото сравнения размеров и демонстрации использования.

Вопросы и ответы

Означает ли этот патент, что Google использует LLM и VLM для ранжирования в реальном времени?

Нет, напрямую этот патент не описывает использование LLM и VLM в момент запроса пользователя. Описанная система (Image Labeler) слишком ресурсоемка для этого. Патент описывает, как Google использует эти мощные модели для автоматической разметки данных офлайн. Затем на этих данных обучаются более легковесные и быстрые классификаторы (Image Classifier Models), которые уже могут использоваться в продакшене на этапе индексирования или ранжирования.

Как этот патент связан с E-E-A-T и качеством контента?

Патент предоставляет инфраструктуру для масштабирования оценки E-E-A-T на визуальный контент. Традиционно качество оценивалось асессорами, что медленно и дорого. Эта технология позволяет Google автоматически создавать классификаторы для субъективных концепций, связанных с качеством, например: «экспертная диаграмма», «оригинальная фотография с места событий» или «низкокачественное стоковое фото». Это позволяет оценивать визуальный E-E-A-T в масштабах всего интернета.

Может ли Google определить, использую ли я стоковые фотографии?

Да, с помощью этой технологии Google может легко создать классификатор для отличия стоковых фотографий от оригинального контента. LLM может определить характеристики стокового фото (например, идеальное освещение, нейтральный фон, обобщенные сюжеты) и поручить VLM проверить их наличие на изображении. Если сайт массово использует контент, классифицированный как стоковый, это может повлиять на оценку качества и оригинальности контента страницы.

Насколько быстро Google может создать новый классификатор с помощью этой системы?

Патент подчеркивает «гибкость» (Agile) системы. В описании упоминается, что генерация классификаторов может занимать очень мало времени (например, в течение 5 минут) с минимальным человеческим вводом. Это означает, что Google может очень быстро реагировать на новые типы спама или внедрять новые критерии качества, создавая соответствующие классификаторы практически в реальном времени.

Что такое Input Concept и кто его определяет?

Input Concept — это текстовое описание категории, для которой нужно создать классификатор (например, «Изображение, нарушающее правила» или «Высококачественное фото товара»). Его могут определять инженеры Google, аналитики или даже сама система ИИ. Патент также описывает, что LLM может помочь пользователю (например, инженеру) уточнить этот концепт через многоэтапный диалог.

В чем разница между LLM и VLM в этой системе?

VLM (Визуально-Языковая Модель) выступает в роли «глаз» — она анализирует пиксели изображения и генерирует текстовое описание того, что видит, или отвечает на конкретные вопросы о содержании изображения. LLM (Большая Языковая Модель) выступает в роли «мозга» — она не видит изображение напрямую, но интерпретирует Input Concept, формирует вопросы для VLM, анализирует ответы VLM и принимает финальное логическое решение о классификации.

Что такое итеративное улучшение поиска изображений (Iterative Retrieval)?

Это механизм обратной связи. Система сначала генерирует поисковые запросы для поиска примеров (например, запрос «качественное фото товара»). Затем она проверяет, действительно ли найденные изображения соответствуют концепции. Если многие изображения не соответствуют (высокий False Positive Rate), система автоматически модифицирует поисковые запросы, чтобы улучшить качество выборки для обучения.

Стоит ли пытаться оптимизировать изображения под конкретные промпты LLM/VLM?

Нет, это нецелесообразно. Механизмы промптинга (Chain-of-Thought, Few-Shot) являются внутренними инструментами Google для обучения классификаторов. SEO-специалистам следует сосредоточиться на создании визуального контента, который объективно обладает высоким качеством, оригинальностью и полезностью для пользователя, а не пытаться угадать внутренние механизмы классификации.

Влияет ли эта система на SEO для видео?

Патент фокусируется на классификации изображений (Image Classification). Хотя базовые технологии (LLM, VLM) применимы и к видео (которое является последовательностью изображений), данный патент описывает механизмы именно для статических изображений. Однако логично предположить, что аналогичные подходы разрабатываются и для видеоконтента.

Что такое Active Learning в контексте этого патента и как это влияет на SEO?

Active Learning — это процесс, когда обученный классификатор сам находит сложные или неоднозначные примеры (например, изображение, которое трудно отнести к качественному или некачественному). Эти примеры затем размечаются более точно. Для SEO это означает, что классификаторы Google постоянно совершенствуются и учатся распознавать тонкие нюансы качества, делая попытки манипуляций с помощью «серых» методов все менее эффективными.