Google использует систему для классификации изображений, объединяющую пиксельные данные, метаданные (время, место) и контекстуальную информацию (включая личные данные пользователя или контекст веб-страницы). Патент раскрывает формулу ранжирования изображений, основанную на уверенности в классификации, релевантности запросу, а также качестве и популярности изображения.
Описание
Какую задачу решает
Патент решает проблему неточности автоматической классификации изображений, основанной исключительно на анализе пикселей (pixel-based classification information). Он направлен на улучшение организации и поиска изображений (особенно без ручной разметки) путем использования широкого спектра контекстуальных сигналов для более точного определения содержания, событий и объектов на фото.
Что запатентовано
Запатентована система, которая автоматически ассоциирует классификации с изображениями и присваивает им оценки уверенности (Confidence Scores). Ключевой особенностью является использование комбинации трех типов данных: пиксельной информации (визуальный анализ), метаданных (время, геолокация) и контекстной информации (User information, такой как история просмотров, данные календаря или контекст веб-страницы). Система генерирует структурированные классификации на основе взвешенной комбинации этих сигналов.
Как это работает
Система работает путем корреляции разнородных данных:
- Анализ: Система анализирует пиксели для идентификации объектов/сцен и извлекает метаданные (время, место).
- Контекстуализация: Эти данные сопоставляются с контекстной информацией (например, событиями в календаре пользователя или текстом на веб-странице).
- Классификация и Оценка: Если пиксельные данные указывают на «торт», а контекст подтверждает «День рождения», система генерирует классификацию «Event=Birthday Party» с высоким Confidence Score, используя взвешенные значения от каждого источника.
- Ранжирование: При поиске система генерирует Ranking Score, основанный на Confidence Score, Relevancy Score (соответствие запросу) и Quality Score (качество и популярность изображения).
Актуальность для SEO
Высокая. Технологии компьютерного зрения и контекстуального понимания лежат в основе современных продуктов Google (Image Search, Google Lens, Google Photos). Хотя патент часто ссылается на использование частных данных (e-mail, календарь), что характерно для Google Photos, описанная методология комбинирования пиксельных данных с контекстом и формула ранжирования применимы ко всем системам поиска изображений Google.
Важность для SEO
Влияние на Image SEO значительное (7/10). Патент четко определяет три компонента ранжирования изображений: уверенность в классификации (Confidence Score), релевантность запросу (Relevancy Score) и качество изображения (Quality Score). Критически важным инсайтом является то, что Quality Score включает не только технические параметры (разрешение), но и «меру популярности» (measure of popularity). Это подтверждает важность создания качественных, популярных и контекстуально релевантных изображений.
Детальный разбор
Термины и определения
- Classification (Классификация)
- Метка или идентификатор, присвоенный изображению, описывающий его атрибуты (событие, объект, геолокация, человек, активность и т.д.). Классификации описаны как структурированные и связанные (structured and linked) с другими классификациями.
- Confidence Score (Оценка уверенности)
- Числовое значение (например, 0-100), указывающее на вероятность того, что классификация корректно соответствует изображению. Рассчитывается на основе взвешенной комбинации входных данных (пиксели, метаданные, контекст).
- Metadata information (Информация метаданных)
- Данные, связанные с файлом изображения: временная метка (timestamp), геолокация (GPS), имя файла, размер изображения.
- Pixel-based classification information (Информация классификации на основе пикселей)
- Данные, полученные путем анализа содержимого изображения: идентификация объектов, текста (OCR), цветов, паттернов, лиц, эмоций, жестов и действий.
- Quality Score (Оценка качества)
- Метрика, используемая для расчета Ranking Score. Основана на технических характеристиках изображения (размер, разрешение) и/или «мере популярности» (measure of popularity), такой как количество просмотров, репостов, сохранений.
- Ranking Score (Оценка ранжирования)
- Итоговая оценка, определяющая позицию изображения в результатах поиска. Рассчитывается на основе Confidence Score, Relevancy Score и Quality Score.
- Relevancy Score (Оценка релевантности)
- Метрика, измеряющая, насколько классификация изображения соответствует поисковому запросу.
- User information (Информация о пользователе / Контекст)
- Контекстуальная информация, используемая для уточнения классификации. Включает данные из e-mail, календаря, социальных сетей, истории чатов, а также профиль истории веб-просмотров (web browsing history profile).
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод классификации изображений.
- Система получает множество изображений.
- Для каждого изображения определяются классификации. Они структурированы и связаны (structured and linked) с другими классификациями.
- Классификации основаны на входных данных (data inputs): пиксельной информации, метаданных и/или информации о пользователе.
- Для каждой классификации генерируется Confidence Score.
- Confidence Score рассчитывается путем комбинирования взвешенных значений входных данных (combining weighted data values), где каждому типу данных присваивается соответствующий вес (respective weight).
- Изображения сортируются по классификациям и Confidence Scores.
Claim 2 (Зависимый от 1): Описывает процесс поиска и ранжирования.
- Система получает поисковый запрос.
- Идентифицируются изображения на основе их классификаций и запроса.
- Для каждого изображения генерируется Ranking Score, основанный на Confidence Scores.
Claim 3 (Зависимый от 2): Детализирует расчет Ranking Score (Критически важно для SEO).
Ranking Score дополнительно основывается на Relevancy Score и/или Quality Score.
Quality Score основывается на размере, разрешении ИЛИ мере популярности (measure of popularity) изображений.
Claims 4, 5, 6 (Зависимые): Описывают сценарии использования контекста.
Классификация может быть основана на комбинации объекта на фото (Claim 4), метаданных (время) (Claim 5) и информации о пользователе (событие), подтверждающих друг друга (Claim 6).
Claims 18, 19, 20 (Зависимые): Описывают групповой анализ и распространение контекста.
- Система определяет временной диапазон (time-span) группы изображений (Claim 18) и может использовать его для классификации (Claim 19) (например, неделя фото = «отпуск»).
- Изображению может быть присвоена классификация на основе входных данных, связанных с другими изображениями из того же множества (Claim 20).
Где и как применяется
Изобретение применяется на этапах индексирования и ранжирования в системах поиска изображений (как персональных, так и публичных).
INDEXING – Индексирование и извлечение признаков
Основной этап применения патента. Image Indexing System анализирует изображения.
- Извлечение признаков: Анализируются пиксельные данные и метаданные (время, место).
- Контекстуализация: Система собирает доступную контекстную информацию (User information для персональных сервисов или контекст веб-страницы для публичного поиска).
- Классификация и Оценка: Система комбинирует эти данные для генерации Classifications и рассчитывает Confidence Scores с использованием весов. Также рассчитывается Quality Score (техническое качество и популярность).
- Групповой анализ: Система может анализировать изображение в контексте группы (альбома/галереи) и корректировать классификации.
RANKING – Ранжирование
При получении запроса система использует предварительно рассчитанные данные.
- Отбор кандидатов: Идентифицируются изображения, чьи Classifications соответствуют запросу.
- Расчет оценок: Рассчитывается Relevancy Score. Он комбинируется с Confidence Score и Quality Score для получения финального Ranking Score.
Входные данные:
- Изображение (пиксельные данные).
- Метаданные изображения (EXIF, GPS, имя файла).
- Контекстуальные данные (User information или контекст веб-страницы).
- Данные о популярности изображения (просмотры, репосты).
Выходные данные:
- Индекс изображений с ассоциированными Classifications, Confidence Scores и Quality Scores.
- Ранжированный список изображений в ответ на поисковый запрос.
На что влияет
- Конкретные типы контента: Влияет на все типы изображений (фотографии товаров, новостные изображения, инфографика).
- Специфические запросы: Особенно влияет на запросы, где важен контекст (события, места, конкретные объекты), позволяя находить изображения, которые были классифицированы автоматически без явных текстовых меток.
Когда применяется
- Во время индексирования: Алгоритм классификации и расчета Confidence Score и Quality Score применяется при обработке новых или обновленных изображений.
- Во время поиска: Механизм ранжирования (расчет Ranking Score) активируется при каждом поисковом запросе к системе поиска изображений.
- Условия: Использование глубоко личных данных (e-mail, календарь) требует явного разрешения пользователя и применимо в основном в персональных сервисах (Google Photos).
Пошаговый алгоритм
Процесс А: Индексирование и Классификация
- Получение изображения.
- Извлечение входных данных: Извлекаются Pixel-based information (объекты, сцены), Metadata information (время, место) и доступная контекстная информация.
- Групповой анализ (Опционально): Анализ изображения в контексте других изображений из той же группы (альбома, временного диапазона).
- Определение классификаций: На основе входных данных (включая данные из группы) определяются потенциальные Classifications.
- Генерация Confidence Score: Для каждой классификации рассчитывается Confidence Score путем присвоения весов (weights) различным типам входных данных и их комбинирования.
- Расчет Quality Score: Оценивается техническое качество изображения и его популярность.
- Индексирование: Изображение, его классификации, Confidence Scores и Quality Score сохраняются в индексе.
Процесс Б: Поиск и Ранжирование
- Получение запроса.
- Идентификация изображений: Система ищет в индексе изображения, чьи Classifications соответствуют запросу.
- Генерация Ranking Score: Для кандидатов рассчитывается Ranking Score. Он является функцией от:
- Confidence Score (насколько система уверена в классификации).
- Relevancy Score (насколько классификация релевантна запросу).
- Quality Score (техническое качество и популярность изображения).
- Генерация ранжированного списка: Изображения сортируются по Ranking Score и предоставляются пользователю.
Какие данные и как использует
Данные на входе
Патент описывает использование следующих категорий данных:
- Мультимедиа факторы (Pixel-based information):
- Объекты, цвета, паттерны, логотипы.
- Лица, выражения лиц (эмоции), жесты.
- Действия и активность.
- Текст на изображении (OCR).
- Технические, Временные и Географические факторы (Metadata information):
- Временные метки (Timestamp/EXIF data).
- Геолокация (Geo-location/GPS data).
- Имя файла изображения.
- Размер и разрешение изображения (используется для Quality Score).
- Пользовательские и Контекстуальные факторы (User information):
- Данные из e-mail, календаря, социальных сетей, чатов (в основном для персональных сервисов).
- Профиль истории веб-просмотров (web browsing history profile).
- (Для публичного поиска эквивалентом является контекст веб-страницы).
- Поведенческие факторы (В составе Quality Score):
- Measure of popularity: количество просмотров, репостов, сохранений изображения.
Какие метрики используются и как они считаются
- Confidence Score: Рассчитывается путем комбинирования взвешенных значений (combining weighted data values) от различных входных данных (Claim 1). Веса присваиваются доказательствам из пикселей, метаданных и контекста.
- Quality Score: Агрегированная метрика, включающая оценку технического качества (разрешение, размер) и оценку популярности (measure of popularity) (Claim 3).
- Relevancy Score: Оценка соответствия между терминами поискового запроса и классификациями изображения.
- Ranking Score: Финальная метрика ранжирования. Рассчитывается как комбинация Confidence Score, Relevancy Score и Quality Score (Claim 2, 3).
Выводы
- Формула ранжирования изображений подтверждена: Патент четко определяет компоненты Ranking Score: Ранжирование = f(Уверенность в классификации, Релевантность запросу, Качество изображения).
- Популярность как фактор ранжирования (Критически важно для SEO): Quality Score изображения включает не только технические аспекты (разрешение), но и measure of popularity (вовлеченность, просмотры, репосты) (Claim 3). Это прямое подтверждение важности поведенческих сигналов для Image SEO.
- Контекст критичен для уверенности в классификации: Google активно использует сигналы за пределами пикселей (метаданные, контекст пользователя или веб-страницы) для достижения высокого Confidence Score.
- Взвешивание сигналов: Система использует взвешенную комбинацию сигналов для определения Confidence Score. Это позволяет балансировать между различными источниками информации.
- Структурированные классификации (Entities): Google использует структурированные и связанные классификации (structured and linked classifications), что соответствует общему движению поиска к пониманию сущностей.
- Групповой анализ и распространение контекста: Система может анализировать изображения в контексте группы (галереи на странице, альбома) и распространять классификации между ними (Claims 18-20), улучшая понимание отдельных изображений на основе окружающих.
Практика
Best practices (это мы делаем)
Необходимо оптимизировать изображения по всем трем направлениям, определенным в патенте: Quality, Confidence/Relevance, Popularity.
- Стимулирование популярности (Quality Score): Создавайте уникальные, привлекательные и полезные изображения (инфографика, оригинальные фото товаров), которыми пользователи захотят делиться или встраивать на другие сайты. Популярность (measure of popularity) является подтвержденным фактором ранжирования изображений (Claim 3).
- Повышение технического качества (Quality Score): Используйте изображения высокого разрешения, с хорошим контрастом и четкостью. Техническое качество является прямым компонентом Quality Score.
- Усиление контекстуальной релевантности (Confidence/Relevancy Score): Обеспечьте сильный контекст на веб-странице. Окружающий текст, заголовки, подписи и микроразметка (Schema.org) должны точно соответствовать содержанию изображения. В публичном поиске контекст страницы выполняет роль, аналогичную User Information в патенте.
- Обеспечение четкости (Confidence Score): Используйте изображения, где основной объект или сцена легко идентифицируются системами компьютерного зрения. Чем меньше двусмысленности, тем выше Confidence Score.
- Группировка связанных изображений: Размещайте тематически связанные изображения вместе (например, в галерее товара). Анализ группы (Claim 20) может усилить классификацию отдельных изображений.
- Сохранение полезных метаданных (Metadata Information): Если это релевантно (например, локальный бизнес, новостные события), сохраняйте данные EXIF, особенно геолокацию и время. Это помогает Google связать изображение с конкретными местами или сущностями.
Worst practices (это делать не надо)
- Игнорирование вовлеченности и популярности: Фокус только на ALT-тегах и размещении стоковых фото. Низкая популярность снижает Quality Score, ограничивая потенциал ранжирования.
- Использование низкокачественных изображений: Изображения с низким разрешением или артефактами сжатия получат низкий Quality Score.
- Несоответствие контекста и изображения: Размещение изображений, которые не соответствуют окружающему контенту страницы. Это снижает уверенность системы в классификации изображения в данном контексте (низкий Confidence Score).
Стратегическое значение
Патент подтверждает, что Image SEO выходит далеко за рамки базовой оптимизации. Стратегия должна включать создание высококачественных медиа-активов, которые генерируют сигналы вовлеченности (популярность) и размещаются в сильном семантическом контексте. Подтверждение формулы Ранжирование = C*R*Q дает четкую структуру для построения стратегии продвижения изображений.
Практические примеры
Сценарий: Оптимизация изображения товара для E-commerce
- Действие (Quality): Загрузить фотографию товара (например, кроссовок Nike Air Max) в высоком разрешении (например, 2000x2000px).
- Обоснование: Высокое разрешение положительно влияет на техническую часть Quality Score (Claim 3).
- Действие (Popularity): Создать уникальные фото товара (например, 360-градусный обзор или фото в использовании), которыми делятся в социальных сетях и блогах.
- Обоснование: Популярность изображения улучшает Quality Score (Claim 3).
- Действие (Context/Confidence): Разместить изображение на странице товара с подробным описанием, включающим бренд, модель, цвет и характеристики. Использовать микроразметку Product.
- Обоснование: Текст на странице предоставляет контекст, помогая системе точно классифицировать объект и повышая Confidence Score.
- Действие (Grouping): Разместить несколько фотографий этой модели кроссовок с разных ракурсов в одной галерее.
- Обоснование: Групповой анализ (Claim 20) помогает системе лучше понять объект на всех изображениях группы.
Вопросы и ответы
Что такое «Quality Score» для изображений согласно патенту и почему это важно для SEO?
Патент определяет Quality Score как метрику, основанную на двух типах сигналов (Claim 3). Во-первых, это техническое качество (размер, разрешение). Во-вторых, это «мера популярности» (measure of popularity), такая как просмотры, репосты, сохранения. Это критически важно для SEO, так как подтверждает, что популярность и вовлеченность являются прямыми факторами ранжирования в Google Images.
Означает ли этот патент, что Google читает мои электронные письма для ранжирования публичных изображений в поиске?
Нет. Использование частных данных (e-mail, календарь) применяется в основном в сервисах для управления личными фотографиями (например, Google Photos), где пользователь дал разрешение. Для публичного веб-поиска система использует аналогичный подход к контексту, но опирается на публично доступные сигналы: содержание веб-страницы, окружающий текст, а также общие данные о пользователе (история просмотров, местоположение).
Как SEO-специалист может повлиять на «Confidence Score» изображения?
Можно создать условия для его повышения. Используйте четкие, недвусмысленные изображения, где основной объект легко идентифицируется. Самое важное – обеспечить сильный и релевантный контекст на странице: убедитесь, что текст, заголовки и микроразметка точно соответствуют содержанию изображения. Это помогает системе подтвердить свою автоматическую классификацию.
Какие три основных фактора влияют на ранжирование изображения в поиске?
Патент выделяет три ключевых компонента для расчета Ranking Score: Confidence Score (насколько система уверена в том, что изображено на картинке), Relevancy Score (насколько классификация картинки соответствует запросу пользователя) и Quality Score (техническое качество и популярность изображения).
Что означает, что классификации «структурированы и связаны»?
Это означает, что Google не просто присваивает изображению набор тегов, а строит иерархию и связи, подобно графу знаний (Entities). Например, классификация «Event=Wedding» может быть связана с сущностями «Person=Bride» или «Object=Wedding Cake». Это позволяет системе лучше понимать отношения между различными аспектами изображения.
Стоит ли сохранять EXIF-данные (время и геолокацию) в изображениях?
Да, если это релевантно контексту. Патент явно указывает, что время и местоположение (Metadata information) используются для корреляции с событиями и местами. Для фотографий, связанных с локальным бизнесом или новостными событиями, наличие точных метаданных может помочь Google точнее классифицировать изображение и повысить Confidence Score.
Как система использует историю браузера (Web Browsing History)?
История просмотров используется как источник контекста (User information). Если пользователь недавно искал информацию о конкретном продукте и затем система анализирует изображение этого продукта, контекст из истории просмотров может повысить Confidence Score для классификации этого объекта, помогая отличить его от похожих.
Может ли классификация одного изображения влиять на классификацию другого?
Да. В патенте (Claims 18-20) описан механизм группового анализа. Изображению может быть присвоена классификация на основе входных данных, связанных с другими изображениями из того же множества (например, галереи на странице или фотографий, сделанных в одно время). Контекст группы усиливает понимание отдельных изображений.
Как рассчитывается «Confidence Score»?
Патент указывает на методологию (Claim 1). Система использует несколько входных данных (пиксели, метаданные, контекст). Каждому источнику присваивается вес (respective weight). Итоговый Confidence Score рассчитывается путем комбинирования этих взвешенных значений (combining weighted data values). Чем больше источников подтверждают классификацию, тем выше оценка.
Что важнее для ранжирования: качество изображения или его релевантность?
Оба фактора критичны, так как Ranking Score является комбинацией Quality Score, Relevancy Score и Confidence Score. Изображение низкого качества или с низкой популярностью вряд ли будет хорошо ранжироваться, даже если оно релевантно. В то же время, высококачественное изображение не будет показано, если оно нерелевантно запросу. Необходимо оптимизировать все компоненты.