
Google использует систему для ответа на текстовые запросы (например, «Сколько я потратил в ресторане?») путем анализа личной библиотеки изображений. Система предварительно классифицирует фотографии (например, чеки, меню, пейзажи), используя распознавание объектов и текста (OCR). Это позволяет быстро найти нужную информацию в релевантной категории и представить ответ в виде обрезанного изображения или аудиосообщения.
Патент решает задачу эффективного и точного извлечения конкретной фактической информации из большой коллекции изображений пользователя (например, личных фотографий) в ответ на текстовый запрос. Основная проблема — снижение вычислительных затрат и времени поиска. Система достигает этого за счет предварительной классификации изображений и сужения пространства поиска только до релевантных категорий, а также за счет выборочного применения ресурсоемкого процесса OCR.
Запатентована система обработки запросов к изображениям (Image Query Processing System). Она использует гибридный подход к классификации изображений, комбинируя распознавание объектов и текста. При получении текстового запроса система определяет необходимую категорию изображения (Image Category) и тип запрашиваемого контента (Output Type), что позволяет быстро найти и извлечь конкретные данные для ответа (например, сумму из чека).
Система работает в двух режимах:
OCR для уточнения категории (например, «чек» или «меню»).cropping), чтобы акцентировать внимание на ответе, или генерирует аудиосообщение.Высокая. Механизмы, описанные в патенте, лежат в основе функций поиска в персональных фото-сервисах (таких как Google Photos) и тесно связаны с технологиями Google Assistant и Google Lens. Гибридная классификация изображений и извлечение фактов из них являются ключевыми направлениями развития поиска.
Влияние на стандартные SEO-стратегии минимальное (20/100). Патент сфокусирован на механизмах поиска по личной коллекции изображений пользователя, а не по общедоступному веб-индексу. Он не описывает ранжирование публичных веб-сайтов. Однако патент имеет высокое концептуальное значение, так как раскрывает передовые методы Google в области классификации изображений и OCR. Эти технологии фундаментальны для Visual Search и Google Lens.
Initial Image Category).Image Category, Output Type и ключевых фраз (Key Phrases).OCR, и их расположения для уточнения категории изображения (Second Image Category).Claim 1 (Независимый пункт): Описывает основной процесс ответа на текстовый запрос с использованием изображений.
Image Category и Output Type на основе текстуального запроса.Image Category (используя предварительно сохраненные связи).Output Type.Claim 3 (Зависимый от 1): Детализирует механизм визуального представления ответа.
emphasizes) эту выбранную часть (например, путем обрезки или выделения).Claim 20 (Независимый пункт): Описывает офлайн-процесс классификации изображений (гибридный подход).
Object Recognition) для определения начальной категории (Initial Image Category).Text Recognition/OCR) для определения второй категории (Second Image Category).Claim 22 (Независимый пункт): Описывает процесс генерации аудиоответа.
Процесс аналогичен Claim 1 и 3 (определение категории, выбор подмножества, анализ, выбор релевантной части изображения). Финальный шаг — генерация инструкций для звукового представления (audible presentation) извлеченных данных и предоставление этих инструкций динамику.
Изобретение применяется в системах поиска по личным коллекциям изображений (например, Google Photos).
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка и классификация изображений (Офлайн-процесс). Object Classification System и, при необходимости, Text Classification System (OCR) анализируют изображения для определения их категорий. Результаты сохраняются в базе данных.
QUNDERSTANDING – Понимание Запросов
Query Processing System анализирует входящий текстовый запрос в реальном времени для определения Image Category, Output Type и Key Phrases.
RANKING – Ранжирование (Отбор кандидатов)
Система использует определенную Image Category для быстрого отбора подмножества изображений. Это радикально сокращает поисковое пространство.
RERANKING / METASEARCH – Переранжирование / Представление
Система анализирует отобранное подмножество для поиска точного ответа. Results Presentation System форматирует вывод: определяет область ответа (Bounding Box), обрезает изображение (cropping) или генерирует аудиоответ.
Входные данные:
Выходные данные:
Процесс А: Офлайн-классификация изображений (Индексирование)
Object Classification System анализирует изображение для определения начальной категории (Initial Image Category).Text Classification System и OCR анализируют текст и его структуру на изображении для определения второй категории (Second Image Category, например, «чек», «меню»). Финальная категория определяется на основе начальной и второй.Процесс Б: Обработка запроса в реальном времени
Query Processing System определяет Image Category, Output Type и Key Phrases.Image Category.OCR), чтобы найти изображения, отвечающие на запрос.Bounding Box).Results Presentation System генерирует инструкции для презентации. Это может включать: cropping) изображения для акцентирования ответа.summary), если найдено несколько результатов.Патент фокусируется на обработке изображений и запросов в контексте персонального поиска.
Object Classification).OCR. Используется для классификации текста (Text Classification) и поиска ответа на запрос.OCR может не использоваться.Output Type (например, одиночный результат или сводка — summary).OCR активируется только при необходимости (если изображение похоже на документ), а не для всех изображений (например, пейзажей).cropping) изображение, чтобы выделить ответ, или предоставить аудиоответ вместо визуального.ВАЖНО: Этот патент является инфраструктурным и описывает процессы Google для персонального поиска изображений. Он не дает прямых практических рекомендаций для SEO-продвижения веб-сайтов.
Тем не менее, он демонстрирует возможности Google в области анализа изображений (Computer Vision, OCR), которые также используются в Google Images и Google Lens. Понимание этих возможностей полезно для общей стратегии работы с визуальным контентом.
OCR для классификации изображений и извлечения данных. Текст на изображениях (инфографика, схемы, фотографии товаров с этикетками, баннеры) должен быть четким, контрастным и легко распознаваемым.OCR корректно извлечь данные.OCR.Патент подтверждает высокий уровень развития технологий Google в области машинного зрения и извлечения информации (Information Extraction). Он демонстрирует способность системы не только классифицировать изображения по объектам, но и понимать их функциональный тип (чек, меню) и извлекать конкретные текстовые данные. Это подчеркивает важность оптимизации под визуальный поиск (Visual Search) и Google Lens, где изображения рассматриваются как источник структурированных данных.
Практических примеров для SEO нет, так как патент описывает поиск по личным данным. Примеры из патента иллюстрируют работу с личными фотографиями.
Пример из патента (Персональный поиск):
Object Classification определяет «текст/документ», затем OCR и Text Classification уточняют категорию до «чек».Image Category = «чек» и Output Type = «общая стоимость».Влияет ли этот патент на ранжирование моего сайта в Google Web Search или Google Images?
Нет, напрямую не влияет. Патент описывает систему для анализа личной библиотеки фотографий пользователя (например, в Google Photos). Он не касается механизмов ранжирования общедоступных веб-страниц или изображений в интернете. Однако он демонстрирует технологии (OCR, классификация), которые Google использует повсеместно.
Как работает описанная гибридная классификация изображений?
Это двухэтапный процесс для экономии ресурсов. Сначала система использует быстрое распознавание объектов. Если она уверена в категории (например, «пейзаж»), классификация завершается. Если результат неоднозначен или изображение содержит текст, активируется второй, более ресурсоемкий этап — OCR и анализ текста для уточнения категории (например, чтобы отличить «чек» от «меню»).
Что такое «Output Type» и зачем он нужен?
Output Type — это тип ответа, который ожидает пользователь. Система определяет его из запроса (например, «Сколько я потратил?» = «общая стоимость»). Это помогает системе понять, какую именно информацию нужно извлечь из картинки (например, итоговую сумму на чеке) и в каком формате её показать (текст, обрезанное изображение или аудио).
Что означает, что система «акцентирует» (emphasizes) часть изображения?
Это означает, что система выделяет ту часть изображения, которая содержит ответ. На практике это реализуется путем обрезки (cropping) изображения, чтобы показать только нужную область (например, итоговую сумму на чеке), или путем визуального выделения этой области (например, рамкой).
Может ли эта система отвечать голосом?
Да. Патент (Claim 22) явно описывает генерацию инструкций для аудио-презентации (audible presentation) ответа. Система может озвучить извлеченные данные, например: «Вы потратили 29.63 евро в ресторане Extravaganza», и предоставить этот ответ через динамик устройства.
Какую практическую пользу для SEO можно извлечь из этого патента?
Основная польза — это подтверждение важности оптимизации изображений для машинного чтения, особенно для Visual Search и Google Lens. Для SEO-специалистов это сигнал о том, что текст на изображениях (инфографика, товары) должен быть максимально доступным для OCR (четким, контрастным), а сами изображения должны быть понятными для корректной классификации объектов.
Использует ли система OCR при каждом запросе?
Не обязательно. OCR активно используется на этапе предварительной классификации (офлайн), если изображение содержит текст. Во время запроса система может использовать уже извлеченный текст или, при необходимости, запустить OCR повторно для анализа отобранного подмножества изображений.
Может ли система комбинировать информацию из нескольких изображений?
Да. Патент описывает сценарии с несколькими релевантными изображениями. В этом случае система может сгенерировать сводку (summary). Например, в ответ на запрос «Сколько я потратил на обед на прошлой неделе?» система может найти три чека, показать общую сумму и список отдельных трат.
Используются ли метаданные изображений (время, место съемки)?
Да, в патенте упоминается возможность использования метаданных, таких как временные метки (timestamp) и GPS-координаты. Это позволяет системе отвечать на запросы, содержащие временные или географические ограничения (например, «ресторан, в котором я был в прошлую среду»).
Что важнее для этой системы: распознавание объектов или распознавание текста?
Они работают в тандеме. Распознавание объектов используется первым для быстрой общей классификации и принятия решения о необходимости запуска распознавания текста. Распознавание текста (OCR) критически важно для анализа документов и извлечения конкретных ответов на запросы пользователя. Эффективность зависит от слаженной работы обоих компонентов.

Индексация
Local SEO
Мультимедиа

Мультимедиа
Индексация
Семантика и интент


Мультимедиа
Индексация
EEAT и качество

Мультимедиа
Ссылки

Ссылки
Поведенческие сигналы
Антиспам

SERP
Семантика и интент
Поведенческие сигналы

Семантика и интент
SERP
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
Персонализация

Индексация
Поведенческие сигналы

Local SEO
Поведенческие сигналы

Ссылки
Антиспам
SERP

Персонализация
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
SERP
