Google использует автоматизированную систему для создания индекса логотипов. Система анализирует логи поисковых запросов, содержащих слово «логотип», собирает соответствующие изображения из выдачи, кластеризует их по визуальному сходству и выбирает лучшее «репрезентативное изображение» на основе популярности и качества. Это позволяет Google распознавать бренды на фотографиях пользователей (например, в Google Lens).
Описание
Какую задачу решает
Патент решает проблему масштабного и эффективного создания базы данных логотипов (Logo Index), необходимой для систем визуального распознавания. Ручной сбор названий брендов и соответствующих им визуальных моделей трудоемок и плохо масштабируется. Существующие автоматизированные методы для других объектов (например, лиц или достопримечательностей) плохо применимы к логотипам. Изобретение автоматизирует процесс сбора, очистки и индексации логотипов, используя существующие данные из интернета и логи поисковых запросов.
Что запатентовано
Запатентована система автоматического создания индекса логотипов (Logo Index) путем интеллектуального анализа результатов поиска изображений. Система использует популярные запросы, содержащие ключевое слово (например, «logo»), для сбора кандидатов. Затем она применяет визуальную кластеризацию для группировки похожих изображений, фильтрует шум и выбирает одно высококачественное репрезентативное изображение (Representative Image) для каждого логотипа. Этот индекс затем используется для распознавания логотипов на новых изображениях.
Как это работает
Система работает как автоматизированный конвейер обучения:
- Генерация запросов: Анализируется Query Log для поиска популярных запросов, содержащих слово «logo» (например, «[Brand] logo»).
- Сбор и Фильтрация: Выполняется поиск изображений. Результаты фильтруются для удаления шума (например, с помощью Clipart Score).
- Кластеризация: Изображения группируются на основе визуального сходства с использованием Image Templates (наборов визуальных признаков). Слишком маленькие кластеры отбрасываются.
- Выбор Репрезентативного Изображения: Для каждого кластера выбирается лучшее изображение. Приоритет отдается изображению с наивысшим Document Count Score (показатель популярности/авторитетности в сети) и лучшим качеством (Image Quality Score).
- Очистка и Индексация: Система объединяет дубликаты, уточняет названия и удаляет не-логотипы (например, упаковку продукта или лица). Финальный набор сохраняется в Logo Index.
Актуальность для SEO
Высокая. С развитием визуального поиска (например, Google Lens) и усилением фокуса на распознавании сущностей (Entities) и брендов, способность Google автоматически идентифицировать и индексировать логотипы критически важна. Этот патент описывает базовую инфраструктуру для понимания визуальной идентичности брендов в интернете.
Важность для SEO
Патент имеет высокое значение для Image SEO и управления представлением бренда (Entity Management). Он раскрывает механизмы, с помощью которых Google определяет каноническую версию логотипа. Ключевыми факторами являются Document Count Score (авторитетность/популярность изображения в сети) и качество изображения. Это подчеркивает важность обеспечения того, чтобы официальная, высококачественная версия логотипа была наиболее распространенной и цитируемой в интернете для корректной идентификации бренда системами Google.
Детальный разбор
Термины и определения
- Clipart Score (Оценка клипарта)
- Метрика, определяющая вероятность того, что изображение является клипартом (графическим рисунком). Используется для фильтрации шума из результатов поиска.
- DocID (Идентификатор документа)
- Уникальный идентификатор или «отпечаток» изображения, определяемый на основе его содержимого (пикселей). Используется для идентификации дубликатов и пересечения результатов поиска между разными запросами.
- Document Count Score (doccount) (Оценка количества документов)
- Показатель важности или популярности изображения. Примеры: количество ссылок на изображение в интернете или количество выборов этого изображения пользователями в результатах поиска. Ключевой сигнал для выбора исходного Representative Image.
- Image Quality Score (Оценка качества изображения)
- Метрика, оценивающая техническое качество изображения (например, размер, разрешение). Используется для выбора финального Representative Image среди похожих вариантов.
- Image Template (Шаблон изображения)
- Набор извлеченных визуальных признаков изображения (дескрипторов локальных интересных точек). Используется для эффективного сравнения визуального сходства вместо анализа сырых пикселей.
- Logo Index (Индекс логотипов)
- База данных, содержащая Representative Images логотипов и их названия. Является результатом работы системы и используется для визуального распознавания.
- Matcher (Сопоставитель)
- Модуль, который сравнивает Image Templates и возвращает оценку сходства (Similarity Score или Match Score).
- Query Log (Лог запросов)
- Хранилище анонимизированных поисковых запросов пользователей. Используется как источник для поиска потенциальных названий логотипов.
- Referrer URL Rank (Ранг ссылающейся страницы)
- Ранг (авторитетность) веб-страницы, на которой размещено изображение. Упоминается как фактор для выбора наилучшего источника изображения при наличии нескольких URL.
- Representative Image (Репрезентативное изображение)
- Одно изображение, выбранное из кластера как наилучший (канонический) пример логотипа, основанное на Document Count Score и Image Quality Score.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает общую систему автоматического создания индекса логотипов.
- Система получает термин (например, «logo»).
- Получает список поисковых запросов логотипов на основе этого термина.
- Для этих запросов получает кластеры изображений (сгруппированные результаты поиска).
- Для кластеров определяет Representative Image и соответствующее название.
- Предоставляет Representative Image и название в Logo Index.
- Logo Index используется для идентификации логотипов на входном изображении (query image).
Claim 4 (Зависимый): Детализирует фильтрацию входных данных.
Система вычисляет Image Score (например, Clipart Score) для каждого изображения и удаляет его из набора данных, если оценка не удовлетворяет пороговому значению. Это механизм очистки от шума.
Claim 5 (Зависимый): Детализирует фильтрацию кластеров.
Система подсчитывает количество изображений в кластере и удаляет кластер, если это количество меньше порогового значения. Это гарантирует, что в индекс попадают только подтвержденные логотипы.
Claim 6 (Зависимый): Описывает механизм кластеризации.
Кластеризация основана на генерации Image Template для каждого изображения и вычислении Similarity Score между шаблонами. Изображения группируются, если сходство превышает порог.
Claim 7 (Зависимый): Описывает механизм выбора Representative Image (двухэтапный процесс).
- Выбор исходного изображения в кластере с наивысшим Document Count Score (наиболее популярное/авторитетное).
- Сравнение его с другими изображениями в кластере (идентификация совпадающих изображений).
- Выбор одного из них (исходного или совпадающего) как финального Representative Image.
Claim 9 (Зависимый от 7): Уточняет критерии финального выбора.
Финальный выбор между популярным (по Doccount) и совпадающим изображением делается на основе Quality Score. Выбирается изображение наивысшего качества.
Где и как применяется
Изобретение в основном относится к этапам индексирования и создания специализированных баз данных для визуального поиска.
INDEXING – Индексирование и извлечение признаков (Офлайн)
Это основная область применения патента. Описанный процесс является сложной формой индексирования, направленной на создание Logo Index. Он использует данные, уже имеющиеся в основном индексе изображений Google и Query Log.
- Извлечение признаков: Генерация Image Templates для изображений-кандидатов.
- Оценка и Кластеризация: Использование предварительно рассчитанных метрик (Clipart Score, Document Count Score, Image Quality Score) для группировки и выбора канонических изображений.
QUNDERSTANDING – Понимание Запросов (Офлайн)
Система выполняет офлайн-анализ Query Log для идентификации того, как пользователи ищут логотипы. Это используется как отправная точка для построения индекса.
RANKING / METASEARCH (Применение в Визуальном Поиске — Онлайн)
После построения Logo Index он используется в системах визуального поиска (например, Google Lens). Когда пользователь загружает изображение (query image), система распознавания сопоставляет его с эталонами в Logo Index для идентификации брендов.
Входные данные:
- Query Log.
- Индекс изображений Google.
- Метаданные изображений (DocID, URL, размеры) и оценки (Clipart Score, Document Count Score, Image Quality Score, Referrer URL Rank).
Выходные данные:
- Logo Index: база данных канонических изображений логотипов и их названий.
На что влияет
- Конкретные типы контента: Изображения логотипов брендов, организаций, спортивных команд и т.д.
- Специфические запросы: Влияет на результаты визуального поиска (Google Lens, поиск по картинке) и потенциально на выбор логотипа для Knowledge Panel сущности.
- Управление сущностями (Entity Management): Определяет, как Google визуально идентифицирует и связывает бренд с его сущностью в Knowledge Graph.
Когда применяется
- Построение индекса: Выполняется в офлайн-режиме (batch processing), периодически обновляется.
- Триггеры активации (для построения индекса): Наличие в Query Log популярных запросов, содержащих определенный термин (например, «logo»).
- Распознавание: Применяется в реальном времени при обработке запросов визуального поиска.
Пошаговый алгоритм
Процесс А: Построение Индекса Логотипов (Офлайн)
- Генерация списка запросов: Анализ Query Log для извлечения популярных запросов, содержащих «logo».
- Сбор данных и Предварительная фильтрация:
- Для каждого запроса выполняется поиск изображений. Извлекаются метаданные (DocID, Scores).
- Удаляются изображения, идентифицированные как клипарт (на основе Clipart Score).
- Генерация шаблонов и Кластеризация:
- Создаются Image Templates для оставшихся изображений.
- Изображения группируются на основе визуального сходства шаблонов (используя Matcher).
- Фильтрация кластеров: Удаляются кластеры, содержащие меньше порогового числа изображений (например, менее 3 или 5).
- Выбор Репрезентативного Изображения (Двухраундовый процесс):
- Раунд 1 (Популярность): Выбор исходного изображения в кластере с наивысшим Document Count Score.
- Раунд 2 (Качество): Сравнение исходного изображения с другими в кластере. Если найдено похожее изображение с более высоким Image Quality Score (например, размер больше QVGA 320×240), оно выбирается как финальное Representative Image.
- Удаление дубликатов и уточнение названий: Идентификация и объединение кластеров, относящихся к одному логотипу, но полученных по разным запросам (на основе пересечения DocID, текстового сходства запросов или визуального сходства). Выбор финального названия.
- Пост-обработка и Индексация:
- Финальная очистка (удаление изображений продуктов, лиц).
- Выбор наилучшего источника на основе Referrer URL Rank.
- Сохранение данных в Logo Index.
Процесс Б: Распознавание Логотипа (Онлайн)
- Получение запроса: Пользователь загружает изображение.
- Генерация шаблона запроса: Создается Image Template для входного изображения.
- Сопоставление: Шаблон запроса сравнивается с эталонными шаблонами в Logo Index.
- Вывод результата: Если оценка совпадения (Match Score) превышает порог, возвращается название соответствующего логотипа.
Какие данные и как использует
Данные на входе
Система использует данные, которые уже существуют в инфраструктуре поисковой системы:
- Поведенческие факторы: Query Log используется для определения интента поиска логотипов. Document Count Score может включать данные о кликах пользователей по изображению в SERP.
- Ссылочные факторы (для изображений): Document Count Score может определяться как количество раз, когда на изображение ссылаются в интернете (Image Authority). Также используется Referrer URL Rank (авторитетность страницы, где размещено изображение) для выбора наилучшего источника.
- Контентные факторы (Визуальные): Пиксельные данные изображения используются для генерации Image Templates, расчета DocID, Clipart Score и Image Quality Score.
- Технические факторы: Используются метаданные: URL изображения, Referrer URL, размеры (ширина/высота), размер файла.
Какие метрики используются и как они считаются
- Document Count Score (doccount): Метрика популярности/авторитетности изображения. Ключевой сигнал для выбора начального кандидата Representative Image.
- Image Quality Score: Метрика технического качества (например, размер больше QVGA 320×240). Используется для финального выбора Representative Image.
- Clipart Score: Рассчитывается классификатором машинного обучения. Используется для фильтрации шума.
- Similarity Score / Match Score: Оценка визуального сходства между двумя Image Templates, вычисляемая Matcher. Используется для кластеризации и распознавания.
- Referrer URL Rank: Ранг веб-страницы, на которой размещено изображение. Используется для выбора наилучшего источника.
- Оценки наличия объектов: Метрики от детекторов лиц и продуктов. Используются для финальной очистки индекса.
Выводы
- Автоматизация идентификации брендов: Патент описывает инфраструктурный механизм, позволяющий Google автоматически изучать и индексировать визуальную идентичность брендов без ручного вмешательства, основываясь на данных из интернета и поведении пользователей (Query Log).
- Определение канонического логотипа: Система активно определяет, какое изображение является «официальным» или каноническим (Representative Image) для данного логотипа.
- Критичность популярности и авторитетности изображения (Image Authority): Выбор Representative Image в значительной степени зависит от Document Count Score и Referrer URL Rank. Это показатели популярности и авторитетности изображения и его источника в сети. Это ключевой сигнал для Image SEO.
- Важность качества изображения: При прочих равных система выбирает версию с более высоким Image Quality Score. Техническое качество логотипа имеет значение.
- Активная фильтрация шума: Google применяет многоэтапную очистку для обеспечения чистоты Logo Index, используя фильтры клипарта, размера кластера, а также детекторы лиц и продуктов.
Практика
Best practices (это мы делаем)
- Максимизация «Image Authority» канонической версии: Необходимо обеспечить, чтобы официальная версия логотипа была наиболее распространенной и цитируемой в вебе. Это максимизирует Document Count Score и увеличивает шансы на выбор этой версии в качестве Representative Image.
- Размещение на авторитетных страницах: Размещайте логотип на важных, хорошо ранжирующихся страницах сайта (например, Главная, О нас). Патент упоминает использование Referrer URL Rank (ранг страницы, где находится изображение) для выбора лучшего источника.
- Оптимизация качества и размера: Используйте логотипы высокого разрешения и качества. Система использует Image Quality Score для финального выбора канонической версии (предпочтение отдается размерам больше QVGA 320×240).
- Соответствие поисковому интенту: Убедитесь, что ваш логотип хорошо ранжируется в Google Images по запросу «[Ваш Бренд] logo». Процесс индексации начинается с анализа этих запросов в Query Log. Оптимизируйте alt-текст и окружающий контент соответственно.
- Консистентность брендинга: Используйте логотип последовательно на всех платформах, чтобы облегчить процесс кластеризации и избежать фрагментации визуальной идентичности.
Worst practices (это делать не надо)
- Использование логотипов низкого качества: Размещение только маленьких, зашумленных или искаженных версий логотипа снижает Image Quality Score и уменьшает шансы на его выбор в качестве эталона.
- Использование логотипов, похожих на клипарт: Изображения, которые могут быть классифицированы как клипарт, будут отфильтрованы системой на основе Clipart Score.
- Игнорирование распространения неофициальных версий: Если устаревшие или некорректные версии логотипа станут более популярными (выше Document Count Score) в интернете, система может ошибочно принять их за канонические.
- Сложный контекст логотипа: Если логотип часто используется как часть упаковки продукта или на фотографиях с лицами, он может быть отфильтрован на этапе очистки Logo Index. Официальный логотип должен быть представлен в чистом виде.
Стратегическое значение
Этот патент подтверждает важность управления визуальными активами бренда в рамках SEO-стратегии (Entity Management). Способность Google распознавать логотипы является фундаментальной частью понимания сущностей и их присутствия в интернете. Стратегически важно гарантировать, что Google правильно идентифицирует канонический логотип, так как он будет использоваться в визуальном поиске (Google Lens), потенциально в Knowledge Panels и других элементах выдачи. Это подчеркивает важность Image SEO и контроля за авторитетностью изображений (Image Authority).
Практические примеры
Сценарий: Обеспечение выбора правильного логотипа после ребрендинга
- Задача: Компания провела ребрендинг и хочет, чтобы Google как можно быстрее изучил новый логотип для визуального распознавания и использовал его как Representative Image.
- Действия (на основе патента):
- Повышение Качества: Разместить новый логотип в высоком разрешении (максимизация Image Quality Score).
- Повышение Авторитетности Страницы: Заменить старый логотип на новый на всех ключевых страницах сайта (использование Referrer URL Rank).
- Увеличение Популярности (Doccount): Активно распространять новый логотип через PR, обновить профили в соцсетях и каталогах. Цель – сделать новый логотип более цитируемым (выше Document Count Score), чем старый.
- Стимулирование Поиска: Анонсировать ребрендинг для генерации запросов типа «[Brand] new logo» (попадание в Query Log).
- Ожидаемый результат: Во время следующего цикла обновления Logo Index, новый логотип, благодаря высокому Doccount Score и качеству, будет выбран как Representative Image, вытеснив старую версию.
Вопросы и ответы
Как Google определяет, какое изображение является официальным (каноническим) логотипом бренда?
Google использует автоматический двухэтапный процесс. Сначала система ищет наиболее популярную версию логотипа в интернете на основе Document Count Score (как часто на него ссылаются или кликают). Затем среди визуально похожих вариантов этой популярной версии выбирается изображение с наилучшим техническим качеством (Image Quality Score).
Что такое Document Count Score (doccount) и как на него повлиять?
Document Count Score — это метрика популярности и авторитетности изображения в сети (Image Authority). Чтобы повлиять на него, необходимо обеспечить широкое распространение и цитирование канонической версии вашего логотипа на авторитетных внешних ресурсах (СМИ, партнеры, социальные сети) и на вашем собственном сайте.
Влияет ли качество или размер загружаемого логотипа на его обработку?
Да, это критически важно. Система использует Image Quality Score для финального выбора. В патенте упоминается предпочтение изображений размером больше, чем QVGA (320×240 пикселей). Использование высококачественных логотипов увеличивает шансы на их выбор в качестве эталона.
Влияет ли страница, на которой размещен логотип, на его выбор в качестве канонического?
Да. В патенте упоминается использование Referrer URL Rank (ранг страницы, где размещено изображение). Если одно и то же изображение доступно из нескольких источников, система предпочитает тот, который размещен на более авторитетной странице. Размещение логотипа на главной странице сайта предпочтительнее, чем на внутренних страницах низкого уровня.
Как система понимает, что искать и откуда берет названия брендов?
Система анализирует Query Log (логи поисковых запросов) и ищет популярные запросы, содержащие определенный термин, в данном случае — «logo». Это означает, что система изучает те логотипы, которые активно ищут пользователи (например, «[Brand] logo»). Названия берутся из этих же запросов и затем уточняются.
Что произойдет, если мой логотип похож на клипарт?
Система активно фильтрует изображения, которые классифицируются как клипарт, используя Clipart Score на ранних этапах обработки. Если ваш логотип будет классифицирован как клипарт, он может быть исключен из процесса построения Logo Index и не будет использоваться для визуального распознавания вашего бренда.
Как система обрабатывает разные версии логотипа (например, цветную и монохромную)?
Система использует визуальную кластеризацию на основе Image Templates. Если версии визуально похожи по структуре и ключевым точкам, они попадут в один кластер. Затем система выберет одну версию (наиболее популярную и качественную) как Representative Image. Если версии сильно отличаются, они могут сформировать отдельные кластеры.
Как этот патент связан с Google Lens или визуальным поиском?
Этот патент описывает создание Logo Index, который является базой знаний для движка визуального распознавания. Когда пользователь загружает фотографию в Google Lens, система использует этот индекс для идентификации логотипов на фото.
Как Google отличает настоящий логотип от изображения продукта или лица?
Патент описывает этап постобработки индекса. Система использует внешние сервисы для детекции лиц и сопоставления с базой продуктов (product matching service). Если изображение в Logo Index идентифицируется как упаковка продукта или содержит лицо, оно удаляется из индекса.
Какое стратегическое значение этот патент имеет для SEO?
Стратегическое значение заключается в подтверждении того, что Google рассматривает логотипы как важные визуальные идентификаторы сущностей (Entities). Для SEO это означает необходимость активного управления визуальными активами бренда. Обеспечение доминирования канонического логотипа в сети напрямую влияет на то, как бренд будет представлен в визуальном поиске и других сервисах Google.