Google улучшает распознавание объектов на изображениях, проверяя их контекстуальную согласованность. Система анализирует, как часто названия потенциальных объектов встречаются вместе в огромном корпусе текстов (например, в Интернете). Это позволяет выбирать наиболее вероятные метки, основываясь не только на визуальном анализе, но и на знаниях о мире, полученных из текстов.
Описание
Какую задачу решает
Патент решает проблему неточности и неоднозначности систем компьютерного зрения (Computer Vision), которые распознают объекты изолированно, полагаясь только на визуальные атрибуты. Это может приводить к ошибкам, когда объекты визуально похожи или качество изображения низкое. Изобретение повышает точность маркировки (labeling), гарантируя, что распознанные объекты контекстуально согласованы друг с другом в рамках одного изображения.
Что запатентовано
Запатентована система анализа изображений, которая объединяет результаты визуального распознавания (Option Scores) с оценками контекстуальной согласованности (Relation Scores). Ключевым элементом является использование модели совместной встречаемости (Co-occurrence Model), обученной на огромном текстовом корпусе (например, World Wide Web). Это позволяет системе использовать знания о мире, полученные из языка (NLP), для валидации визуального анализа (CV).
Как это работает
Система работает следующим образом:
- Сегментация: Изображение делится на участки (Image Patches) или объекты.
- Генерация кандидатов: Модель CV предлагает несколько потенциальных меток (Options) для каждого участка и присваивает им оценки уверенности (Option Scores).
- Оценка согласованности (NLP): Система рассчитывает Relation Score для пар меток. Эта оценка основана на том, как часто соответствующие слова встречаются вместе (co-occur) в текстовом корпусе.
- Глобальная оптимизация: Рассчитывается Global Score путем решения задачи оптимизации, цель которой — максимизировать как визуальное сходство, так и контекстуальную согласованность.
- Присвоение меток: Комбинация меток с наивысшим Global Score выбирается в качестве финального результата.
Актуальность для SEO
Высокая. Патент описывает фундаментальный подход к объединению NLP и компьютерного зрения. Мультимодальность и использование данных веб-масштаба для понимания контекста являются центральными элементами современных ИИ-систем Google (таких как MUM или Gemini). Авторитетный состав изобретателей (включая Джеффа Дина) подчеркивает важность разработки.
Важность для SEO
Влияние на SEO значительное (75/100), особенно для Image Search и стратегий, полагающихся на визуальный контент. Патент раскрывает механизм, как Google использует общее понимание языка и контекста для интерпретации изображений. Это напрямую влияет на ранжирование изображений (подтверждено в Claim 8) и на то, как Google оценивает релевантность веб-страниц, содержащих эти изображения.
Детальный разбор
Термины и определения
- Co-occurrence Model (Модель совместной встречаемости)
- Статистическая модель, обученная на Text Corpus, которая хранит данные о частоте совместного появления терминов. Используется для расчета Relation Score.
- Global Score (Глобальная оценка, G(X, α))
- Итоговая оценка для набора меток на изображении. Является функцией, агрегирующей Option Scores и Relation Scores. Цель системы — максимизировать эту оценку.
- Image Patch (Участок изображения, xᵢ)
- Область или сегмент изображения, который анализируется системой и может содержать объект.
- Option (Вариант метки, yⱼ)
- Потенциальная метка (кандидат) для объекта или участка изображения.
- Option Score (Визуальная оценка, F(nᵢ))
- Оценка, присваиваемая моделью визуального распознавания, отражающая вероятность того, что данный Option корректно описывает объект на основе его визуальных признаков.
- Point-wise Mutual Information (PMI, Поточечная взаимная информация, sᵢ,ⱼ)
- Статистическая мера связи между двумя терминами в тексте. Используется как основа для Relation Score.
- Relation Score (Оценка взаимосвязи / Согласованности, S(nᵢ, nⱼ))
- Метрика, рассчитанная на основе Co-occurrence Model и PMI. Показывает, насколько вероятно совместное появление двух объектов (меток) в одном контексте.
- Text Corpus (Текстовый корпус)
- Большой набор текстовых данных (в патенте упоминается World Wide Web), используемый для построения Co-occurrence Model.
Ключевые утверждения (Анализ Claims)
Анализ основан на Claims 2-17 (Claim 1 отменен в документе US20200012905A1).
Claim 2 (Независимый пункт): Описывает метод разрешения неоднозначности (disambiguation) для конкретного объекта с использованием контекста другого объекта (Control Label).
- Система получает первый (Option 1) и второй (Option 2) варианты метки для первого объекта.
- Система получает контрольную метку (Control Label) для второго объекта на том же изображении.
- Генерируется первая Relation Score между Option 1 и Control Label на основе Co-occurrence Model.
- Генерируется вторая Relation Score между Option 2 и Control Label.
- Система определяет, что первая Relation Score превышает вторую.
- На основании этого Option 1 присваивается первому объекту.
Это конкретный механизм использования контекста. Если система не уверена, является ли объект А «Ножом» или «Ручкой», но видит, что рядом находится объект Б («Тарелка»), она проверит, что чаще встречается в текстовом корпусе: «Нож» рядом с «Тарелкой» или «Ручка» рядом с «Тарелкой». Метка с более высоким Relation Score будет выбрана.
Claims 3-6 (Зависимые): Уточняют, что Co-occurrence Model обучается на текстовом корпусе (например, World Wide Web), и Relation Score основан на вероятности совместной встречаемости в определенных пределах (предложение, абзац, документ и т.д.).
Claim 8 (Зависимый от 2): Подтверждает применение технологии в поиске.
- Получение поискового запроса.
- Идентификация изображения на основе назначенной метки как результата запроса.
- Предоставление изображения пользователю.
Это прямое подтверждение того, что данный механизм используется для улучшения релевантности поиска по изображениям (Image Search).
Важное замечание: Помимо механизма в Claim 2, общее описание патента (Description) также детализирует более сложный механизм Глобальной Оптимизации (Global Optimization), где метки для всех объектов выбираются одновременно путем максимизации Global Score.
Где и как применяется
Изобретение применяется в системах анализа и индексирования визуального контента.
CRAWLING / INDEXING (Офлайн-процессы)
На этом этапе происходит сбор и анализ большого Text Corpus (World Wide Web). Эти данные используются для обучения Co-occurrence Model офлайн.
INDEXING – Индексирование и извлечение признаков (Основное применение)
Во время индексирования контента система анализирует изображения.
- Извлечение признаков: Модель CV анализирует визуальные данные для генерации Options и расчета Option Scores.
- Контекстуальный анализ: Описанный механизм активируется для расчета Relation Scores, используя данные из Co-occurrence Model.
- Оптимизация и маркировка: Вычисляется Global Score и выбирается наилучший согласованный набор меток.
RANKING – Ранжирование (Image Search)
Результаты работы алгоритма (точные метки объектов) используются для поиска и ранжирования изображений в ответ на запрос пользователя (как описано в Claim 8).
Входные данные:
- Изображение для анализа.
- Предварительно обученная Co-occurrence Model.
Выходные данные:
- Набор точных, контекстуально согласованных меток (сущностей), ассоциированных с изображением.
На что влияет
- Конкретные типы контента: Наибольшее влияние на изображения со сложными сценами и несколькими объектами (E-commerce, рецепты, новости), где визуальный контекст играет ключевую роль.
- Специфические запросы: Влияет на точность ответов в Image Search, особенно для запросов, требующих понимания композиции и взаимосвязи объектов.
Когда применяется
- Условия работы: Алгоритм применяется в процессе индексирования изображений.
- Триггеры активации: Механизм особенно важен, когда изображение содержит несколько объектов и/или когда базовая модель распознавания выдает несколько вариантов меток с близкими оценками (существует неоднозначность).
Пошаговый алгоритм
Патент описывает несколько вариантов реализации, включая глобальную оптимизацию и разрешение неоднозначности.
Процесс А: Офлайн-обучение Co-occurrence Model
- Сбор данных: Анализируется большой Text Corpus (например, World Wide Web).
- Анализ совместной встречаемости: Для пар терминов (i, j) подсчитывается количество их совместных появлений p(i, j) и индивидуальных появлений p(i), p(j) в пределах определенного окна (предложение, абзац).
- Расчет PMI: Вычисляется поточечная взаимная информация (PMI, $s_{i,j}$): sᵢ,ⱼ = log (p(i,j) / (p(i)p(j))).
- Фильтрация и Расчет Relation Score: Положительные значения PMI преобразуются в Relation Score ($S_{i,j}$). В патенте предложена формула с использованием сигмоидной функции: Sᵢ,ⱼ = 1 / (1 + exp(-sᵢ,ⱼ)), если $s_{i,j}$ > 0, и 0 в противном случае.
Процесс Б: Анализ изображения (Global Optimization)
- Сегментация: Изображение X делится на участки (Image Patches).
- Генерация кандидатов: Модель CV генерирует Топ-K вариантов (Options) для каждого участка.
- Получение оценок: Извлекаются Option Scores ($F(n_{i})$) от модели CV и Relation Scores ($S(n_{i},n_{j})$) из Процесса А.
- Решение задачи оптимизации: Система ищет подмножество меток (определяемое вектором α), которое максимизирует глобальную оценку (Global Score, $G(X,\alpha)$):
G(X,α) = Σᵢ αᵢF(nᵢ) + Σᵢ,ⱼ αᵢαⱼS(nᵢ,nⱼ).
Это уравнение балансирует визуальное сходство (первый компонент) и контекстуальную согласованность (второй компонент). Задача оптимизации может быть упрощена (relaxed) до задачи выпуклой оптимизации. - Выбор меток: Варианты, вошедшие в оптимальное подмножество, назначаются метками.
Процесс В: Разрешение неоднозначности (Disambiguation — как в Claim 2)
- Идентификация проблемы: Для Объекта 1 определяются два конкурирующих варианта (Option 1, Option 2).
- Выбор контекста: Определяется контрольная метка (Control Label) для Объекта 2.
- Расчет взаимосвязей: Рассчитывается Relation Score 1 (Option 1 + Control Label) и Relation Score 2 (Option 2 + Control Label) на основе Процесса А.
- Сравнение и выбор: Выбирается вариант с более высоким Relation Score.
Какие данные и как использует
Данные на входе
- Мультимедиа факторы (Визуальные данные): Пиксельные данные изображения. Используются для сегментации на Image Patches и для расчета базовых Option Scores моделью компьютерного зрения.
- Внешние данные (Текстовые): Огромный Text Corpus (упоминается World Wide Web). Используется исключительно для построения Co-occurrence Model офлайн. Текст, окружающий изображение на конкретной странице, в данном патенте явно не используется для этого механизма.
Какие метрики используются и как они считаются
- Option Score (F(nᵢ)): Вычисляется визуальной моделью (CV).
- Point-wise Mutual Information (PMI, sᵢ,ⱼ): Статистическая мера ассоциации между терминами в текстовом корпусе. Формула: sᵢ,ⱼ = log (p(i,j) / (p(i)p(j))).
- Relation Score (Sᵢ,ⱼ): Оценка контекстуальной согласованности. Вычисляется из PMI с применением сигмоидной функции и пороговой фильтрации (используются только положительные PMI).
- Global Score (G(X,α)): Агрегированная оценка для набора меток. Формула: G(X,α) = Σᵢ αᵢF(nᵢ) + Σᵢ,ⱼ αᵢαⱼS(nᵢ,nⱼ).
- Regularization component (R(α)): В описании патента упоминается возможность использования компонента регуляризации (например, L2-нормализация) в задаче оптимизации для предотвращения переобучения (overfitting).
Выводы
- Синергия Computer Vision и NLP: Google активно объединяет компьютерное зрение и обработку естественного языка. Визуальное распознавание не выполняется изолированно; оно проверяется и корректируется статистическими языковыми моделями, обученными на данных из Веба.
- Контекст критичен для понимания изображений: Взаимосвязь между объектами на изображении (контекст сцены) является ключевым фактором для подтверждения результатов распознавания. Система стремится к тому, чтобы набор меток был семантически согласованным (Label Consistency).
- Разрешение неоднозначности через язык: В случаях визуальной неоднозначности (когда Option Scores близки), контекстуальная связь (Relation Score), извлеченная из языка, становится решающим фактором для выбора правильной метки.
- Глобальная оптимизация вместо локальных решений: Система решает задачу глобальной оптимизации (Global Score). Метка с более низким визуальным баллом может быть выбрана, если она значительно повышает общую согласованность сцены.
- Прямое влияние на Image Search: Патент явно указывает (Claim 8), что метки, сгенерированные этим методом, используются для поиска изображений в ответ на запросы пользователей.
Практика
Best practices (это мы делаем)
- Обеспечение сильной согласованности между изображением и текстом: Текст на странице (подписи, alt-атрибуты, окружающий контент) должен точно и естественно описывать объекты на изображении и их взаимосвязи. Ваша страница является частью Text Corpus, который Google использует для обучения. Четкое соответствие помогает системе подтвердить правильность интерпретации контента.
- Использование контекстуально релевантных изображений: Изображения должны строго соответствовать тематике документа. Если на странице о сервировке стола изображен стол с приборами, система легко подтвердит метки «тарелка», «вилка», «нож» благодаря высоким Relation Scores между ними.
- Создание естественных визуальных сцен (E-commerce): При фотографировании товаров демонстрируйте их в контексте использования. Фото кухонного ножа на разделочной доске лучше, чем на офисном столе, так как «нож» и «разделочная доска» имеют высокий Relation Score в текстовых корпусах.
- Повышение качества и четкости изображений: Используйте высококачественные, четкие изображения, на которых объекты легко различимы. Это повышает базовый Option Score, что дает системе более надежные данные для последующей контекстуальной валидации.
Worst practices (это делать не надо)
- Использование нерелевантных или общих стоковых фото: Размещение изображений, которые слабо связаны с основным контентом страницы. Это не помогает системе установить сильные семантические связи и не приносит значительной SEO-ценности.
- Создание визуально противоречивых сцен: Использование изображений, где объекты семантически противоречат друг другу (например, дельфин в пустыне). Это приведет к низким Relation Scores и может снизить общую оценку Global Score изображения.
- Манипуляции с метаданными (Alt-текст): Использование вводящих в заблуждение Alt-текстов. Если визуальные данные (Option Score) и глобальный контекст (Relation Score) противоречат вашим метаданным, система может их игнорировать, полагаясь на собственную интерпретацию.
Стратегическое значение
Патент подтверждает стратегический курс Google на глубокое, мультимодальное понимание контента через синергию компьютерного зрения и NLP. Для SEO это означает, что интерпретация изображений происходит не в вакууме, а в контексте всего массива знаний Google. Долгосрочная стратегия должна фокусироваться на создании качественного, семантически целостного контента, где текст и визуальные элементы гармонично дополняют друг друга и точно описывают реальность.
Практические примеры
Сценарий: Оптимизация страницы товара E-commerce (Ноутбук)
- Задача: Обеспечить видимость товара (ноутбук) в Image Search.
- Действие: Добавить фотографии ноутбука на рабочем столе в окружении типичных аксессуаров: мышь, зарядное устройство, чашка кофе.
- Как работает система:
- Модель CV распознает «ноутбук», «мышь», «зарядка», «чашка» (высокие Option Scores).
- Co-occurrence Model подтверждает высокую частоту совместного упоминания этих слов в текстах (высокие Relation Scores).
- Global Score максимизируется.
- Результат: Повышается уверенность системы в идентификации товара и его контекста, что улучшает видимость по основному и связанным запросам в Google Images и Shopping.
Сценарий: Оптимизация страницы рецепта
- Задача: Улучшить ранжирование страницы рецепта и ее изображений.
- Действие: Разместить пошаговые фотографии. На фото четко видны ингредиенты и принадлежности. В тексте шага описать действия с этими объектами.
- Как работает система: Google распознает на фото «миска», «венчик», «мука». Система обращается к Co-occurrence Model и видит, что эти термины очень часто встречаются вместе (высокие Relation Scores).
- Результат: Система уверена в содержании изображений и их релевантности контексту страницы. Это улучшает ранжирование страницы и изображений.
Вопросы и ответы
Как этот патент связывает Computer Vision и NLP?
Патент описывает гибридную систему. Computer Vision (CV) используется для генерации потенциальных меток объектов на основе визуальных признаков (Option Score). NLP используется для анализа огромного текстового корпуса и создания Co-occurrence Model, которая определяет, насколько вероятно, что эти объекты появятся вместе (Relation Score). Финальное решение принимается путем объединения этих двух оценок.
Использует ли этот алгоритм текст, окружающий изображение на моей странице, для расчета Relation Score?
Согласно данному патенту, нет. Co-occurrence Model строится на основе внешнего, глобального текстового корпуса (World Wide Web). Алгоритм использует общую статистику о том, как объекты связаны в языке, а не то, как они описаны на конкретной странице. Однако для общего SEO всегда полезно, чтобы текст на странице соответствовал изображению, так как это усиливает общую релевантность.
Что такое Point-wise Mutual Information (PMI) и как она используется?
PMI — это статистическая мера, которая показывает, насколько сильно два слова связаны друг с другом в тексте. Она рассчитывается на основе частоты их совместного и индивидуального появления. Если PMI положительна, слова встречаются вместе чаще, чем случайно. В патенте PMI используется как основа для расчета Relation Score между объектами на изображении.
Что важнее: визуальное сходство (Option Score) или контекстуальная связь (Relation Score)?
Система ищет баланс, максимизируя Global Score, который является суммой обоих показателей. В случаях визуальной неоднозначности (когда Option Scores близки), Relation Score становится решающим фактором для выбора правильной метки. Однако очень высокий Option Score может компенсировать низкий Relation Score, если система абсолютно уверена в визуальном распознавании.
Как этот патент влияет на стратегию написания Alt-текстов?
Это подтверждает важность написания контекстуально точных и описательных Alt-текстов. Вместо простого перечисления объектов важно описать сцену и взаимосвязи между объектами. Alt-текст должен быть семантически согласованным, чтобы соответствовать ожиданиям Co-occurrence Model, которую использует Google.
Насколько важен этот патент для Google Images?
Он критически важен. Claim 8 патента прямо заявляет, что этот метод используется для идентификации изображений в ответ на поисковый запрос. Повышение точности маркировки объектов напрямую ведет к более релевантным результатам в поиске по картинкам.
Как SEO-специалисту использовать эти знания в E-commerce?
Ключевой вывод — важность демонстрации товаров в естественном контексте. Фотографии стиля жизни (lifestyle photos), показывающие товар вместе с сопутствующими предметами (например, тостер рядом с хлебом), помогают системе уверенно идентифицировать основной продукт благодаря высоким Relation Scores с контекстуальными объектами.
Что такое «задача глобальной оптимизации» (Global Optimization Problem)?
Это математический процесс нахождения наилучшего набора меток для всех объектов одновременно. Вместо выбора лучшей метки для каждого объекта по отдельности, система ищет комбинацию меток, которая максимизирует сумму всех визуальных оценок и всех оценок связей между ними. Это сложная задача, которую Google решает с помощью эффективных аппроксимаций (convex optimization).
Влияет ли этот механизм на ранжирование веб-страниц в основном поиске?
Косвенно. Если Google может точно понять содержание изображений на странице, он лучше понимает общую тематику, качество и релевантность страницы. В визуально-ориентированных нишах (рецепты, мода, ремонт) точное понимание изображений может быть значимым сигналом релевантности контента.
Является ли это примером мультимодального ИИ?
Да, это четкий пример мультимодального подхода. Система обрабатывает информацию из двух разных модальностей — визуальной (изображения) и текстовой (текстовый корпус) — и объединяет их для принятия более обоснованного решения, чем если бы использовалась только одна модальность.