Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует архитектуру параллельных поисковых систем для обработки визуальных запросов (Visual Search/Google Lens)

    ARCHITECTURE FOR RESPONDING TO A VISUAL QUERY (Архитектура для ответа на визуальный запрос)
    • AU2016200659B2
    • Google LLC
    • 2017-06-22
    • 2014-05-07
    2014 Мультимедиа Патенты Google

    Google использует систему для обработки визуальных запросов (изображений). Изображение одновременно отправляется в несколько специализированных поисковых систем (распознавание лиц, OCR, распознавание объектов, штрих-кодов и т.д.). Система агрегирует, ранжирует результаты и может создать интерактивный документ, выделяя распознанные объекты и связывая их с соответствующими результатами поиска.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает фундаментальное ограничение текстового поиска: невозможность получить информацию об объекте на изображении, если пользователь не может сформулировать релевантный текстовый запрос (например, не знает названия продукта, имени человека или названия места на фото). Изобретение создает архитектуру, позволяющую использовать само изображение в качестве запроса (Visual Query) для поиска информации.

    Что запатентовано

    Запатентована архитектура серверной системы для обработки визуальных запросов с использованием множества параллельных, специализированных поисковых систем. Фронтенд-сервер (Front End Visual Query Processing Server) получает изображение и распределяет его по специализированным системам (например, распознавание лиц, OCR, распознавание объектов/продуктов). Затем он агрегирует и ранжирует полученные результаты, формируя комплексный ответ на визуальный запрос.

    Как это работает

    Система работает следующим образом:

    • Получение и распределение: Изображение (Visual Query) поступает на фронтенд-сервер.
    • Параллельная обработка: Запрос одновременно отправляется в несколько специализированных систем (Parallel Search Systems или Image Search Components), таких как Face Recognition, OCR Search System, Image-to-Terms Search System, Barcode Recognition и другие.
    • Специализированный анализ: Каждая система выполняет свой уникальный процесс (unique image-based search process). OCR извлекает текст, система распознавания лиц ищет совпадения в своей базе данных и т.д.
    • Агрегация и Ранжирование: Фронтенд-сервер собирает результаты и их оценки релевантности (search scores) от всех систем, ранжирует их и фильтрует.
    • Формирование ответа: Результаты могут быть представлены в виде списка или в виде Interactive Results Document, где на исходном изображении выделяются распознанные объекты (например, с помощью Bounding Boxes), связанные с результатами поиска.

    Актуальность для SEO

    Высокая. Этот патент описывает фундаментальную архитектуру, лежащую в основе современных систем визуального поиска, таких как Google Lens. Концепции параллельной обработки изображений различными специализированными движками остаются центральными для работы Visual Search в 2025 году.

    Важность для SEO

    Патент имеет высокое значение (85/100) для SEO. Он детально описывает, как именно поисковая система «видит», сегментирует и интерпретирует изображения. Понимание того, что система активно ищет разные типы сущностей (продукты, текст, лица, логотипы) в одном изображении параллельно, критически важно для оптимизации графического контента. Это напрямую влияет на стратегии оптимизации изображений (VSO) в e-commerce, локальном поиске и контентных проектах для максимизации видимости в результатах визуального поиска.

    Детальный разбор

    Термины и определения

    Visual Query (Визуальный запрос)
    Изображение (фотография, скан, скриншот, кадр видео), отправленное пользователем в качестве поискового запроса. В Claims называется query image.
    Front End Visual Query Processing Server (Фронтенд-сервер обработки визуальных запросов)
    Центральный компонент системы, который принимает визуальный запрос, распределяет его по параллельным поисковым системам, агрегирует, ранжирует и форматирует результаты.
    Parallel Search Systems / Image Search Components (Параллельные поисковые системы / Компоненты поиска изображений)
    Специализированные поисковые системы, работающие параллельно. Примеры: OCR Search System, Face Recognition Search System, Image-to-Terms Search System, Product Recognition, Barcode Recognition.
    Query-by-Image Process (Процесс поиска по изображению)
    Общий термин для всех поисковых процессов, использующих изображение как ввод, включая OCR.
    Image-Match Process (Процесс сопоставления изображений)
    Процессы поиска по изображению, исключая OCR (например, распознавание лиц, объектов, продуктов).
    Interactive Results Document (Интерактивный документ с результатами)
    Документ, возвращаемый пользователю, который накладывает визуальные идентификаторы на исходное изображение для интерактивной связи с результатами поиска.
    Visual Identifier (Визуальный идентификатор)
    Элемент интерфейса, выделяющий распознанную подобласть (sub-portion) изображения. Может быть реализован как Bounding Box (ограничивающая рамка) или Label (метка).
    Term Query Server System (Система поиска по текстовым запросам)
    Стандартная поисковая система. Используется для запуска запросов на основе текста или сущностей, распознанных в визуальном запросе.
    Actionable Search Results (Действенные результаты поиска)
    Элементы результатов, позволяющие запустить действие на стороне клиента (например, позвонить, отправить email, купить продукт).
    Terms-to-Image Inverse Index (Инвертированный индекс «Термины к Изображению»)
    Индекс, используемый Image-to-Terms Search System. Хранит текстовые термины, которые пользователи использовали при поиске изображений через текстовый поиск.
    Category Weight (Вес категории)
    Метрика для упорядочивания категорий результатов в списке выдачи. Может быть комбинацией весов лучших N результатов в этой категории.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает базовый метод и архитектуру системы визуального поиска.

    1. Система получает изображение-запрос (query image).
    2. Изображение предоставляется нескольким компонентам поиска изображений (multiple image search components). Ключевое условие: каждый компонент применяет процесс поиска на основе изображений, который является уникальным для этого компонента (image-based search process that is unique), для идентификации совпадающих ресурсов в своей коллекции.
    3. Система получает набор ресурсов, которые компоненты идентифицировали как совпадающие.
    4. Выбирается подмножество из этого набора ресурсов.
    5. Предоставляются данные, идентифицирующие это подмножество (результаты поиска).

    Claim 2 (Зависимый): Уточняет процесс предоставления изображения компонентам.

    Идентифицируются одна или несколько подобластей (sub-portions) изображения-запроса. Каждая подобласть предоставляется соответствующему поисковому компоненту. Это указывает на то, что система активно сегментирует изображение перед поиском или в процессе поиска.

    Claim 4 (Зависимый): Описывает интеграцию с текстовым поиском.

    Идентифицируются текстовые элементы в изображении. Они предоставляются компоненту текстового поиска (term query search component). Полученные результаты текстового поиска используются для дополнения (augmenting) результатов, полученных от компонентов поиска изображений.

    Claim 5 (Зависимый): Описывает оптимизацию на основе предварительного распознавания типа контента.

    Определяется вероятность того, что изображение содержит распознаваемый шаблон (recognizable pattern). Эта вероятность сравнивается с пороговым значением. Если вероятность выше порога, изображение предоставляется конкретному поисковому компоненту, связанному с этим шаблоном (например, если высока вероятность наличия штрих-кода, запрос направляется в систему распознавания штрих-кодов).

    Где и как применяется

    Патент описывает архитектуру, которая формирует весь конвейер обработки визуального поиска (Visual Search Pipeline). Он затрагивает несколько этапов.

    CRAWLING & INDEXING (Офлайн)
    Для работы системы необходимы предварительно созданные специализированные базы данных: Facial Image Database, Image Search Database (для объектов и категорий), OCR Database. Это требует процессов сканирования и индексации визуального контента интернета. Система Image-to-Terms также полагается на Terms-to-Image Inverse Index.

    QUNDERSTANDING (Визуальное)
    Front End Server получает изображение. На этом этапе (или даже на стороне клиента с помощью local image analysis) может происходить предварительная обработка (pre-processing) для обнаружения типов контента (лицо, текст, штрих-код) с целью оптимизации маршрутизации запроса к соответствующим системам (как описано в Claim 5).

    RANKING (Параллельное выполнение)
    Это основное применение патента в реальном времени. Визуальный запрос одновременно (параллельно) отправляется в Parallel Search Systems. Каждая система выполняет свой уникальный поисковый процесс (например, сопоставление лиц, извлечение текста) в своей специализированной базе данных.

    METASEARCH & RERANKING (Агрегация и Смешивание)
    Front End Server получает результаты и оценки релевантности от параллельных систем. Он выполняет агрегацию, ранжирование, фильтрацию и форматирование результатов (используя Results Ranking and Formatting Module). На этом этапе может быть сгенерирован Interactive Results Document. Также система может инициировать запросы к Term Query Server System на основе распознанных данных.

    Входные данные:

    • Визуальный запрос (изображение).
    • Опционально: данные о местоположении (GPS) для помощи в распознавании мест (place recognition).
    • Опционально: результаты предварительной обработки на стороне клиента (например, обнаруженные типы контента).

    Выходные данные:

    • Набор ранжированных результатов поиска (текст, изображения, ссылки, Actionable Search Results).
    • Опционально: Interactive Results Document с выделенными распознанными объектами.

    На что влияет

    • Конкретные типы контента: Напрямую влияет на обработку всех типов изображений, фотографий, сканированных документов и видеокадров.
    • Конкретные ниши или тематики: Критическое влияние на E-commerce (через Product Recognition и Barcode Recognition), Локальный поиск (через Landmark Recognition и распознавание мест с помощью GPS), Медиа и Публикации (через OCR и Named Entity Recognition в тексте), Социальные сети (через Face Recognition).

    Когда применяется

    • Триггеры активации: Алгоритм активируется всякий раз, когда система получает Visual Query (например, при использовании Google Lens или загрузке изображения в Поиск по картинкам).
    • Условия: Система пытается запустить все доступные параллельные поисковые процессы. Конкретный результат возвращается, только если он превышает внутренние пороги релевантности или уверенности соответствующей специализированной системы.

    Пошаговый алгоритм

    1. Получение запроса: Система получает Visual Query от клиентского устройства.
    2. (Опционально) Предварительная обработка и Распознавание типа: Клиент (local image analysis) или Front End Server анализирует изображение на наличие узнаваемых шаблонов (например, лиц, штрих-кодов, текста) и рассчитывает Confidence Value для каждого типа.
    3. Параллельная обработка: Front End Server отправляет изображение (или его релевантные подобласти) одновременно в несколько Parallel Search Systems. Этот шаг может быть оптимизирован на основе шага 2.
    4. Специализированный поиск:
      • OCR System извлекает и распознает текст.
      • Face Recognition System ищет совпадения лиц.
      • Image-to-Terms System распознает объекты и категории, используя Image Search Database и Terms-to-Image Inverse Index.
      • Другие системы (Barcode, Product, Landmark) выполняют свой поиск.
    5. Получение результатов: Front End Server получает результаты от параллельных систем. Каждый результат имеет оценку релевантности (Search Score). Системы, не нашедшие релевантных результатов, возвращают null.
    6. (Опционально) Запуск текстового поиска: На основе распознанного текста (OCR) или идентифицированных сущностей/объектов система может запустить дополнительные запросы в Term Query Server System для обогащения выдачи (augmenting).
    7. Ранжирование и Фильтрация: Результаты от всех систем (включая текстовый поиск) агрегируются. Происходит ранжирование на основе Search Scores и фильтрация (удаление результатов ниже пороговых значений).
    8. Форматирование и Создание интерактивного документа: Система форматирует ответ. Если в изображении распознано несколько сущностей, может быть создан Interactive Results Document. В нем используются визуальные идентификаторы (Bounding Boxes или Labels) для выделения распознанных подобластей и связывания их с результатами. Результаты могут быть сгруппированы в категории, упорядоченные по Category Weight.
    9. Отправка ответа: Сформированный набор результатов отправляется клиенту.
    10. Обработка обратной связи: Система может получать от клиента аннотации (annotations) или информацию о выборе результатов (selections) для хранения в Query & Annotation Database и будущего улучшения системы.

    Какие данные и как использует

    Данные на входе

    • Мультимедиа факторы: Основной входной сигнал — это пиксельные данные самого изображения (Visual Query), которое может быть фотографией, сканом, скриншотом или кадром видео.
    • Географические факторы: В патенте упоминается использование гео-локационной информации (предоставленной GPS клиента) для помощи в распознавании мест (place recognition).
    • Пользовательские факторы: Данные о пользователе и его социальном графе могут использоваться, особенно в контексте Facial Recognition Search System, которая может обращаться к Social Network Database для получения информации о найденных совпадениях (имя, контакты, связи).

    Какие метрики используются и как они считаются

    • Search Score / Relevance Score (Оценка поиска / Оценка релевантности): Числовое значение, генерируемое каждой параллельной поисковой системой для оценки качества или релевантности найденного совпадения. Используется для финального ранжирования.
    • Confidence Value (Оценка уверенности): Метрика, используемая на этапе предварительной обработки для оценки вероятности того, что подобласть изображения соответствует определенному типу (лицо, текст, штрих-код).
    • Пороги (Thresholds): Используются для фильтрации результатов с низким Search Score. Также используются для определения, следует ли активировать специализированный поиск на основе Confidence Value (Claim 5).
    • Category Weight (Вес категории): Используется для упорядочивания категорий результатов в списке выдачи. Вес может быть комбинацией оценок лучших N результатов в этой категории.
    • Обратная связь пользователя:
      • Implicit Feedback: Выбор пользователем конкретного результата (Selection) интерпретируется как подтверждение релевантности.
      • Explicit Feedback: Аннотации (Annotations), предоставляемые пользователем (например, исправление OCR, добавление описания объекта), используются для улучшения системы.

    Выводы

    1. Изображения как мульти-сущностные запросы: Ключевой вывод заключается в том, что Google не анализирует изображение как единое целое. Система активно сегментирует изображение и параллельно ищет различные типы сущностей: продукты, текст, лица, логотипы, штрих-коды. Одно изображение может генерировать множество разнородных результатов.
    2. Архитектура Visual Search (Front-End + Parallel Engines): Патент подтверждает модель, где центральный оркестратор распределяет задачу между узкоспециализированными движками. Это обеспечивает масштабируемость и возможность добавления новых типов распознавания (например, Landmark Recognition) без перестройки всей системы.
    3. Тесная интеграция визуального и текстового поиска: Visual Search не существует изолированно. Система активно использует распознанный контент (текст через OCR, объекты через Image-to-Terms) для запуска стандартных текстовых запросов и обогащения выдачи результатами из основного веб-индекса. Использование Terms-to-Image Inverse Index подчеркивает важность текстового контекста для понимания изображений.
    4. Интерактивная выдача для разрешения неоднозначности: Использование Interactive Results Document с визуальными идентификаторами (Bounding Boxes, Labels) является основным механизмом UX для обработки изображений, содержащих несколько объектов интереса. Это позволяет пользователю уточнить свой интент после получения результатов.
    5. Важность обратной связи для обучения: Система спроектирована для сбора явной (аннотации) и неявной (клики/выборы) обратной связи, что подчеркивает роль пользовательских данных в постоянном улучшении качества распознавания и релевантности Visual Search.

    Практика

    Best practices (это мы делаем)

    • Оптимизация для распознавания объектов (Object Recognition): Использовать четкие, высококачественные изображения ключевых объектов (продуктов, логотипов). Объект должен быть визуально различим от фона, чтобы облегчить системе сегментацию изображения и создание точного Bounding Box.
    • Оптимизация текста на изображениях (OCR): Убедиться, что любой важный текст на изображениях (например, на упаковке продукта, в инфографике, на баннерах) легко читается (размер шрифта, контрастность). Система будет пытаться извлечь этот текст с помощью OCR System и может использовать его для запуска связанных текстовых поисков.
    • Усиление связи Изображение-Термин: Так как система использует Terms-to-Image Inverse Index, важно окружать изображение релевантным текстовым контекстом на веб-странице и использовать точные Alt-тексты. Это помогает системе Image-to-Terms корректно классифицировать визуальный контент.
    • E-commerce специфика: Для товаров предоставлять не только студийные фото, но и изображения упаковки с четко видимыми штрих-кодами, логотипами и названиями, так как для них существуют специализированные параллельные поисковые системы (Barcode Recognition, Product Recognition).
    • Стимулирование индексации визуального контента: Обеспечить доступность качественных изображений для сканирования и попадания в специализированные базы данных Google (например, Image Search Database). Использовать Image Sitemaps.

    Worst practices (это делать не надо)

    • Использование перегруженных и нечетких изображений: Изображения с множеством мелких, плохо различимых объектов затрудняют работу систем распознавания и могут привести к игнорированию ключевых элементов или неверной идентификации.
    • Размещение важного текста в нечитаемой графике: Использование слишком стилизованных или низкоконтрастных шрифтов для текста на изображениях, который не может быть корректно обработан OCR System. Это лишает систему возможности понять контекст изображения через текст.
    • Игнорирование качества изображений: Использование изображений низкого разрешения или с артефактами сжатия снижает эффективность всех систем распознавания образов (Image-Match Processes).

    Стратегическое значение

    Патент подтверждает стратегическую важность Visual Search как самостоятельного, но глубоко интегрированного способа поиска информации. SEO-стратегии должны включать комплексную оптимизацию визуальных активов (VSO), рассматривая каждое изображение как потенциальный запрос, содержащий множество распознаваемых сущностей. Это критически важно для e-commerce и локального поиска, где визуальное обнаружение продукта или места является ключевым сценарием использования.

    Практические примеры

    Сценарий: Оптимизация карточки товара интернет-магазина для Visual Search.

    1. Цель: Увеличить вероятность того, что товар будет найден, если пользователь сфотографирует его в офлайн-магазине или увидит у друга.
    2. Действия:
      • Разместить главное изображение продукта четко, крупным планом, на контрастном фоне. Это оптимизирует работу Product Recognition и Image-to-Terms.
      • Добавить отдельное изображение упаковки товара, на котором хорошо видны и читаемы название бренда, характеристики и штрих-код.
      • Усилить текстовый контекст на странице для поддержки Terms-to-Image Inverse Index.
    3. Ожидаемый результат: Когда пользователь делает визуальный запрос с фотографией товара, система Google активирует параллельные системы. Product Recognition распознает сам объект. OCR System извлекает название и характеристики с упаковки. Barcode Recognition идентифицирует товар по штрих-коду. Агрегировав эти сигналы, система с высокой вероятностью покажет оптимизированную карточку товара в результатах поиска.

    Вопросы и ответы

    Как этот патент связан с Google Lens?

    Этот патент описывает базовую архитектуру, которая, весьма вероятно, лежит в основе работы Google Lens. Описанный механизм, когда одно изображение одновременно анализируется на предмет текста, продуктов, лиц, штрих-кодов и объектов, а затем результаты представляются в виде интерактивных элементов (Bounding Boxes), точно соответствует функциональности и интерфейсу Google Lens.

    Что такое «Interactive Results Document» и как он влияет на взаимодействие с пользователем?

    Это способ представления результатов, когда на исходное изображение накладываются интерактивные элементы (рамки или метки), выделяющие распознанные объекты. Это критически важно, когда на фото есть несколько сущностей (например, человек в одежде рядом с машиной). Пользователь может кликнуть на интересующий его объект (например, на машину), чтобы увидеть результаты поиска именно по нему, тем самым разрешая неоднозначность запроса.

    Система распознает все объекты на изображении одинаково хорошо?

    Нет. Патент описывает использование специализированных систем (Parallel Search Systems) для разных типов контента. Качество распознавания зависит от эффективности конкретной системы и качества ее базы данных. Например, распознавание популярных продуктов или штрих-кодов может работать лучше, чем распознавание редких видов растений, если для последних база данных менее наполнена.

    Как текст на изображениях (OCR) влияет на поиск?

    Текст, распознанный системой OCR, играет важную роль. Согласно патенту (Claim 4), система использует этот текст для запуска запросов в стандартной системе текстового поиска (Term Query Server System). Результаты этого текстового поиска затем дополняют (augment) результаты визуального поиска. Это означает, что читаемый текст на изображении может значительно улучшить его понимание системой.

    Нужно ли SEO-специалистам беспокоиться о распознавании лиц (Facial Recognition)?

    Для большинства коммерческих сайтов это не является приоритетом. Система Facial Recognition описана в патенте и часто связана с социальными функциями (упоминается Social Network Database) или распознаванием знаменитостей. Однако, если сайт посвящен медиа, новостям или биографиям, наличие качественных портретов, которые могут быть проиндексированы и распознаны, может быть полезным для связывания с Knowledge Graph.

    Какие типы изображений лучше всего работают с этой архитектурой?

    Лучше всего работают четкие, высококачественные изображения с хорошо освещенными объектами на контрастном фоне. Это облегчает сегментацию изображения (выделение подобластей) и работу алгоритмов распознавания образов. Изображения должны быть сфокусированы на ключевых сущностях, которые мы хотим оптимизировать (продукт, логотип, место).

    Использует ли система данные Schema.org или Alt-text для Visual Search?

    Патент фокусируется на анализе пикселей и архитектуре параллельных систем. Он не упоминает Alt-text или Schema.org. Однако он упоминает Terms-to-Image Inverse Index, который строится на основе текстовых данных, связанных с изображениями. Alt-text и контекст страницы помогают наполнять этот индекс. Schema.org помогает связать распознанный объект с конкретной сущностью (Product), что улучшает качество финальной выдачи.

    Что такое система «Image-to-Terms» и как она работает?

    Это система, которая распознает объекты или категории объектов на изображении и возвращает соответствующие им текстовые термины. Она использует базу данных изображений и Terms-to-Image Inverse Index (инвертированный индекс терминов, связанных с этими изображениями). Это позволяет связать визуальный контент с семантическими концепциями.

    Как система решает, какие результаты показать первыми, если распознано несколько разных объектов?

    Фронтенд-сервер получает оценки релевантности (Search Scores) от каждой параллельной системы. Ранжирование происходит на основе этих оценок. Система может предпочесть результаты с наивысшей оценкой уверенности. Также упоминается возможность группировки результатов по категориям (используя Category Weight) или распознанным сущностям для удобства пользователя.

    Влияет ли геолокация на результаты визуального поиска?

    Да, в патенте явно упоминается использование информации о геолокации (например, GPS с клиентского устройства) для помощи в распознавании мест (place recognition). Это особенно важно для локального SEO и идентификации достопримечательностей или объектов, привязанных к конкретной местности.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.