Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google переводит изображения в ключевые слова с помощью моделей релевантности, обученных на поведении пользователей

    IDENTIFYING TEXTUAL TERMS IN RESPONSE TO A VISUAL QUERY (Идентификация текстовых терминов в ответ на визуальный запрос)
    • US9372920B2
    • Google LLC
    • 2016-06-21
    • 2012-08-08
    2012 Google Shopping Мультимедиа Патенты Google Семантика и интент

    Google использует систему машинного обучения для анализа визуальных характеристик изображения (цвета, текстуры, формы) и определения наиболее релевантных текстовых запросов. Система сопоставляет характеристики изображения с тысячами моделей релевантности. Каждая модель обучена на исторических данных поиска, чтобы понять, как выглядит контент, который пользователи считают релевантным для конкретного ключевого слова.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему «семантического разрыва» (semantic gap) или «словарного разрыва» (vocabulary gap) в поиске. Пользователи могут иметь изображение, но не знать точных терминов для поиска информации о нем. Изобретение позволяет системе принимать визуальный запрос (Visual Query) и автоматически определять релевантные текстовые термины, устраняя разрыв между визуальным вводом и текстовым поиском, и улучшая понимание контента изображений.

    Что запатентовано

    Запатентована система, которая переводит визуальный запрос в ранжированный список релевантных текстовых терминов. Это достигается за счет использования набора предварительно обученных моделей машинного обучения (Image Relevance Models). Каждая модель соответствует популярному текстовому запросу и обучена распознавать визуальные характеристики (image feature values), свойственные изображениям, которые пользователи исторически выбирали для этого запроса.

    Как это работает

    Система работает в два этапа: офлайн-обучение и онлайн-обработка.

    • Офлайн-обучение: Анализируются логи поисковых запросов, чтобы определить, какие изображения пользователи выбирали для конкретных текстовых запросов. На основе этих данных для тысяч популярных запросов (Top N query terms) создаются Image Relevance Models. Эти модели объединяются в матрицу.
    • Онлайн-обработка: Когда поступает визуальный запрос, система извлекает из него вектор визуальных характеристик (цвет, текстура, формы). Этот вектор умножается на матрицу моделей. В результате для каждого текстового термина вычисляется оценка релевантности (score/weight). Термины ранжируются по этой оценке и возвращаются пользователю.

    Актуальность для SEO

    Высокая. Описанная технология является фундаментальной для систем визуального поиска, таких как Google Lens, и продвинутого понимания изображений в Google Search. Способность алгоритмически интерпретировать визуальный контент и связывать его с текстовыми концепциями на основе поведения пользователей критически важна в современных мультимодальных поисковых системах.

    Важность для SEO

    Влияние на SEO значительное (80/100). Патент напрямую влияет на Image SEO. Он описывает механизм, который Google использует для ассоциации изображений с ключевыми словами на основе анализа пикселей, а не только метаданных (таких как alt-текст). Это означает, что сами визуальные характеристики изображений и их соответствие ожиданиям пользователей (визуальный консенсус) являются факторами, влияющими на ранжирование.

    Детальный разбор

    Термины и определения

    Visual Query (Визуальный запрос)
    Изображение (фотография, скан, кадр видео), которое отправляется в поисковую систему в качестве запроса.
    Image Feature Values (Значения признаков изображения)
    Числовые значения, описывающие визуальные характеристики изображения или его части. Примеры включают значения цветовой гистограммы (color histogram values), значения интенсивности (intensity values), статистику краев (edge statistic) и текстуры.
    Image Features Vector (Вектор признаков изображения)
    Структурированный набор Image Feature Values, представляющий визуальное содержание изображения в формате, пригодном для математической обработки.
    Image Relevance Model (IRM) (Модель релевантности изображения)
    Модель машинного обучения, обученная для конкретного текстового термина. Она содержит веса (weights), которые показывают относительную важность (relative importance) различных Image Feature Values для определения релевантности изображения этому термину. Также может быть представлена как Image Relevance Vector.
    Matrix of Image Relevance Models (Матрица моделей релевантности изображений)
    Структура данных, объединяющая множество Image Relevance Models. Каждая строка матрицы соответствует модели для одного конкретного текстового термина.
    Top N Query Terms (Топ-N текстовых запросов)
    Набор наиболее частых текстовых запросов, используемых в поиске по картинкам (в описании упоминается диапазон N от 5,000 до 30,000), для которых система обучает индивидуальные модели.
    Training Data (Данные для обучения)
    Логи текстовых запросов на поиск изображений, включающие информацию о том, какие изображения были выбраны пользователями в ответ на эти запросы.
    PAMIR (Passive-Aggressive Model for Image Retrieval)
    Пример алгоритма машинного обучения, упомянутый в описании патента как возможный метод для создания Image Relevance Models.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод обработки визуального запроса.

    1. Система получает изображение запроса (query image).
    2. Извлекаются признаки изображения и их значения (image feature values).
    3. Эти значения передаются множеству image relevance models. Каждая модель связана с отдельным текстовым запросом (query term) и обучена выдавать оценку (score), отражающую релевантность данного изображения этому запросу.
    4. Система получает эти оценки от моделей.
    5. На основе оценок выбирается подмножество текстовых запросов.
    6. Выбранные текстовые запросы предоставляются для вывода.

    Claim 3 (Зависимый): Детализирует механизм оценки релевантности.

    1. Значения признаков представлены в виде вектора (vector of image feature values).
    2. Для каждого текстового запроса вычисляется вес (оценка) путем применения этого вектора к соответствующему вектору релевантности изображения (image relevance vector, реализация IRM).
    3. Компоненты image relevance vector указывают на относительную важность соответствующих компонентов вектора признаков для определения релевантности.

    Это описывает математическую операцию (например, скалярное произведение), где модель используется для взвешивания признаков изображения для получения итоговой оценки.

    Claim 6 (Зависимый): Описывает метод массового сопоставления для эффективности.

    1. Система использует матрицу векторов релевантности (matrix of image relevance vectors).
    2. Вектор признаков изображения умножается на эту матрицу.
    3. Каждая строка матрицы соответствует определенному текстовому запросу.

    Это описывает эффективный способ одновременного вычисления оценок релевантности для тысяч терминов путем одной операции матричного умножения.

    Где и как применяется

    Изобретение затрагивает несколько этапов поисковой архитектуры, разделяя процесс на офлайн-обучение и онлайн-обработку.

    INDEXING – Индексирование и извлечение признаков (Офлайн-обучение)
    На этом этапе происходит основной процесс обучения системы. Система анализирует логи поведения пользователей (Training Data), определяет Top N Query Terms, находит репрезентативные изображения для этих терминов, извлекает из них признаки и обучает Image Relevance Models. Результатом является создание Matrix of Image Relevance Models.

    QUNDERSTANDING – Понимание Запросов (Визуальное)
    Когда пользователь отправляет визуальный запрос (например, через Google Lens или загрузку в Google Images), система активируется для его интерпретации. Это функция понимания визуального интента путем перевода изображения в текст.

    RANKING – Ранжирование (Визуальное)
    Это основной этап применения патента в реальном времени.

    1. Извлечение признаков: Из входящего визуального запроса генерируется Image Features Vector.
    2. Сопоставление: Вектор умножается на предварительно рассчитанную Matrix of Image Relevance Models.
    3. Ранжирование терминов: Система генерирует оценки (scores) для текстовых терминов и ранжирует их.

    Входные данные:

    • Визуальный запрос (изображение).
    • (Для обучения): Логи текстовых поисков по изображениям и данные о кликах пользователей.

    Выходные данные:

    • Ранжированный список текстовых терминов (ranked textual terms).
    • (Опционально): Интерактивный документ с результатами (например, изображение с кликабельными метками на распознанных подобластях (sub-portions)).

    На что влияет

    • Типы контента и форматы: В первую очередь влияет на обработку изображений (фотографий, рисунков, сканов).
    • Специфические запросы: Влияет на запросы, поданные в виде изображений (визуальный поиск).
    • Конкретные ниши: Наибольшее влияние в e-commerce (распознавание продуктов), локальном поиске и информационных нишах, где требуется идентификация объектов (логотипы, достопримечательности, растения, животные).

    Когда применяется

    • Условия применения и Триггеры активации: Алгоритм применяется, когда пользователь инициирует визуальный поиск, отправляя изображение в качестве запроса (получение Visual Query). Система работает внутри специализированного компонента Image-to-Terms Search System.

    Пошаговый алгоритм

    Процесс А: Офлайн-обучение (Создание моделей)

    1. Сбор данных: Доступ к логам текстовых запросов для поиска изображений, включая данные о том, какие изображения были выбраны пользователями (клики).
    2. Идентификация терминов: Определение Топ-N наиболее частых уникальных текстовых запросов (Top N Query Terms).
    3. Выбор репрезентативных изображений: Для каждого термина из Топ-N идентифицируются изображения, которые пользователи чаще всего выбирали.
    4. Извлечение признаков (Обучение): Из каждого репрезентативного изображения извлекаются Image Feature Values (цвет, текстура и т.д.).
    5. Машинное обучение: Применение алгоритма машинного обучения (в описании упоминается PAMIR) для генерации Image Relevance Model (IRM) для каждого из Топ-N терминов. IRM представляет собой вектор весов, показывающий важность каждого признака для данного термина.
    6. Компиляция матрицы: Объединение всех IRM в единую Matrix of Image Relevance Models.

    Процесс Б: Онлайн-обработка (Ответ на запрос)

    1. Получение запроса: Система получает визуальный запрос от клиента.
    2. Извлечение признаков (Запрос): Генерация Image Features Vector для входящего визуального запроса.
    3. Сопоставление (Mapping): Умножение Image Features Vector на Matrix of Image Relevance Models.
    4. Генерация оценок: В результате умножения получается набор пар (Текстовый термин, Оценка релевантности).
    5. Ранжирование: Текстовые термины ранжируются в соответствии с их оценками (весами).
    6. Вывод результатов: Отправка одного или нескольких топовых ранжированных текстовых терминов клиенту.

    Какие данные и как использует

    Данные на входе

    Патент фокусируется на двух основных типах данных для обучения и работы системы:

    • Мультимедиа факторы (Визуальные данные): Пиксельные данные входящего изображения. Из них извлекаются Image Feature Values. В патенте явно упоминаются:
      • Color histogram values (Значения цветовой гистограммы).
      • Intensity values (Значения интенсивности).
      • Edge statistic (Статистика краев/контуров).
      • Texture values (Значения текстур, упомянуты в описании).
    • Поведенческие факторы (Данные для обучения): Логи поисковой системы (logs with textual queries for image results). Эти логи содержат информацию о том, какие текстовые запросы вводили пользователи и какие изображения они выбирали (кликали) из результатов поиска.

    Какие метрики используются и как они считаются

    • Image Feature Weights (Веса признаков изображения): Метрики внутри Image Relevance Model. Они рассчитываются в процессе офлайн-обучения с использованием машинного обучения (например, PAMIR). Эти веса представляют относительную важность конкретного визуального признака для конкретного текстового термина.
    • Relevance Score/Weight (Оценка релевантности): Основная метрика для ранжирования. Рассчитывается путем умножения Image Features Vector входящего изображения на Image Relevance Model соответствующего термина.
    • N (в Top N Query Terms): Пороговое значение, определяющее количество индивидуальных моделей, которые будут обучены (например, 5,000–30,000).

    Выводы

    1. Визуальные характеристики определяют релевантность: Патент подтверждает, что Google анализирует фактическое содержание изображения (пиксели), а не полагается исключительно на метаданные (например, alt-теги). Визуальные признаки (цвет, текстура, форма) напрямую используются для определения тематики изображения.
    2. Обучение на основе поведения пользователей (Визуальный консенсус): Система учится понимать, что изображено на картинке, анализируя, какие изображения пользователи ранее выбирали для конкретных текстовых поисков. «Истина» о содержании изображения формируется на основе агрегированных пользовательских данных.
    3. Модели релевантности для каждого запроса: Google создает и поддерживает тысячи индивидуальных моделей (Image Relevance Models), каждая из которых «знает», как выглядят изображения, релевантные конкретному популярному запросу (Top N).
    4. Перевод изображений в ключевые слова: Основной механизм понимания визуального контента заключается в сопоставлении визуальных признаков с этим набором предварительно определенных текстовых терминов. Система не генерирует описание, а выбирает наиболее подходящий существующий термин.
    5. Фундамент для визуального поиска: Этот механизм лежит в основе того, как системы типа Google Lens идентифицируют объекты и предлагают соответствующие текстовые поисковые запросы.

    Практика

    Best practices (это мы делаем)

    • Анализ и соответствие визуальному консенсусу: Изучите выдачу Google Images по вашим целевым запросам. Определите доминирующие визуальные характеристики (стиль, цвет, композиция, ракурс). Ваши изображения должны соответствовать этому консенсусу, так как именно на этих данных обучались Image Relevance Models.
    • Использование четких и репрезентативных изображений: Используйте высококачественные изображения, на которых объект хорошо освещен, контрастен и занимает центральное место. Это облегчает извлечение четких Image Feature Values (особенно edge statistic и текстур) и повышает вероятность точного сопоставления с моделями.
    • Оптимизация для привлечения кликов в Image Search: Создавайте привлекательный визуальный контент. Поскольку система обучается на том, какие изображения пользователи выбирают, высокий CTR в поиске по картинкам может повлиять на будущие обучающие данные (Training Data), укрепляя связь между вашим визуальным контентом и целевым термином.
    • Использование уникальных и описательных изображений: Вместо общих стоковых фотографий используйте изображения, которые точно иллюстрируют содержание страницы. Это помогает системе точнее определить релевантные текстовые термины, связанные с вашим контентом.

    Worst practices (это делать не надо)

    • Игнорирование визуальных признаков: Полагаться только на alt-текст и имена файлов, игнорируя само изображение. Патент доказывает, что визуальное содержание анализируется напрямую.
    • Использование некачественных изображений: Размытые, шумные, плохо освещенные изображения затрудняют извлечение качественных признаков, что снижает вероятность правильной идентификации контента.
    • Визуальное несоответствие (Visual Mismatch): Использование изображений, которые визуально не соответствуют ожиданиям пользователей по целевому запросу (не соответствуют визуальному консенсусу). Система может присвоить изображению нерелевантные текстовые метки или низкие оценки релевантности.
    • Чрезмерное использование генерических стоковых фото: Они могут ассоциироваться с слишком общими или нерелевантными терминами, так как их визуальные признаки не уникальны для конкретной ниши.

    Стратегическое значение

    Патент подчеркивает стратегический сдвиг в SEO: оптимизация изображений выходит далеко за рамки заполнения метатегов. Визуальный контент напрямую способствует пониманию Google тематики страницы. Для e-commerce это критически важно, так как качество и репрезентативность изображений продуктов становятся факторами ранжирования, позволяя системе точно идентифицировать продукт и связать его с коммерческими запросами. Это основа для успеха в Image Search и Google Lens.

    Практические примеры

    Сценарий: Оптимизация карточки товара в интернет-магазине (E-commerce)

    1. Задача: Улучшить ранжирование страницы с товаром «Красное вечернее платье из шелка» в поиске по картинкам.
    2. Анализ визуального консенсуса: SEO-специалист анализирует выдачу по целевому запросу и определяет, что в топе преобладают изображения на светлом фоне, с хорошим освещением, подчеркивающим текстуру шелка, и определенным оттенком красного.
    3. Действия на основе патента:
      • Создать высококачественные фотографии товара, соответствующие этому консенсусу.
      • Особое внимание уделить цветопередаче (для color histogram values) и четкости текстуры ткани (для извлечения текстурных признаков).
      • Обеспечить контрастный фон для четкого определения контуров платья (edge statistic).
    4. Как это работает (по патенту): Система извлекает Image Features Vector из оптимизированных изображений. Этот вектор с высокой вероятностью совпадет с Image Relevance Model, обученной на запросе «Красное вечернее платье из шелка».
    5. Ожидаемый результат: Изображения товара получают более высокую оценку релевантности (Relevance Score) для целевых запросов, что улучшает их позиции в выдаче.

    Вопросы и ответы

    Означает ли этот патент, что Google распознает объекты на изображении?

    Не совсем в классическом смысле Object Detection. Патент описывает механизм сопоставления визуальных признаков с текстовыми терминами на основе корреляций. Система не обязательно «понимает» объект, но определяет, что визуальные характеристики изображения очень похожи на характеристики других изображений, которые пользователи искали по этому текстовому запросу. Результат похож, но механизм основан на корреляции с историческими данными поиска.

    Как система определяет, какие текстовые термины использовать для обучения моделей?

    Система использует данные из реальной истории поиска. Анализируются логи текстовых запросов в поиске по картинкам, и выбираются Топ-N (например, 30 000) самых частых запросов (Top N Query Terms). Именно для этих популярных запросов создаются индивидуальные Image Relevance Models.

    Как данные о кликах пользователей влияют на работу этой системы?

    Данные о кликах (поведенческие факторы) критически важны для офлайн-обучения системы. Репрезентативные изображения для обучения выбираются на основе того, какие картинки пользователи чаще всего выбирали по конкретному текстовому запросу. Таким образом, коллективное поведение пользователей формирует «понимание» системы о том, как выглядит тот или иной концепт.

    Насколько важны alt-теги, если Google использует эту технологию?

    Alt-теги остаются важными для доступности и как дополнительный сигнал контекста. Однако этот патент доказывает, что Google обладает мощным механизмом для понимания содержания изображения напрямую, через анализ пикселей. Для максимальной эффективности визуальные и текстовые сигналы должны быть согласованы, но полагаться только на ALT-теги нельзя.

    Что такое «Image Relevance Model» простыми словами?

    Это модель, которая для определенного ключевого слова (например, «лабрадор») знает, какие визуальные характеристики наиболее важны. Она знает, что для «лабрадора» важны определенные формы, цвета и текстуры шерсти, основываясь на том, какие изображения пользователи выбирали ранее. Модель присваивает веса этим характеристикам и использует их для оценки входящего изображения.

    Как SEO-специалист может повлиять на Image Relevance Model для своего запроса?

    Напрямую повлиять сложно, но можно косвенно. Создавая качественные, визуально релевантные изображения и оптимизируя их так, чтобы они получали максимальное количество кликов в поиске по картинкам по целевому запросу (высокий CTR), вы предоставляете Google данные для обучения, которые укрепляют связь между вашим типом визуального контента и этим запросом.

    Может ли эта система распознать несколько объектов на одном изображении?

    Да. Патент упоминает возможность создания интерактивного документа с результатами, который содержит визуальные идентификаторы (например, метки или рамки) для соответствующих подобластей (sub-portions) визуального запроса. Это позволяет идентифицировать различные объекты и связать разные текстовые термины с разными частями изображения.

    Как качество изображения влияет на этот процесс?

    Качество критично. Низкое качество, плохое освещение или размытость затрудняют извлечение надежных визуальных признаков (Image Feature Values). Это может привести к низким оценкам релевантности или неправильной идентификации объектов, что негативно скажется на видимости в поиске.

    Что такое умножение вектора на матрицу в контексте этого патента?

    Это математическая операция для эффективного расчета релевантности. Вектор представляет входное изображение, а матрица содержит модели для тысяч разных ключевых слов. Умножение позволяет одновременно рассчитать оценки релевантности изображения всем этим ключевым словам за одну операцию, что критически важно для скорости работы системы.

    Применимо ли это к нишевым или новым темам?

    Если тема слишком нишевая или новая, она может не попасть в Top N популярных запросов, и для нее не будет создана специальная Image Relevance Model. В таких случаях система будет полагаться на другие механизмы распознавания или анализ окружающего текста, и точность визуальной идентификации может быть ниже.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.