Как Google использует контекст изображения для уточнения поисковых запросов, инициированных текстом на картинке

Google использует технологию для анализа изображений (например, фотографий меню или постеров). Система распознает текст на картинке и позволяет пользователю выбрать его для поиска. Ключевой механизм — классификация контекста всего изображения. Если система определяет, что это меню, она адаптирует результаты поиска по выбранному блюду, чтобы показать рецепты или nutritional facts, а не общую информацию, повышая релевантность визуального поиска.

Описание

Какую задачу решает

Патент решает проблему неэффективности и неточности поиска информации, основанного на контенте изображений. Традиционный подход требует от пользователя вручную вводить текст, увиденный на картинке, в поисковую строку, что медленно и чревато ошибками. Кроме того, поиск по изолированному тексту часто приводит к нерелевантным результатам из-за отсутствия контекста (например, слово на постере фильма может иметь иное значение, чем то же слово в меню). Изобретение автоматизирует извлечение текста (OCR) и использует контекст всего изображения для уточнения запроса и улучшения релевантности результатов.

Что запатентовано

Запатентована система для интерактивного взаимодействия с текстом на изображениях и выполнения действий на его основе, в первую очередь — поисковых запросов. Система извлекает текст из изображения, разбивает его на логические блоки и делает их выбираемыми для пользователя. При выборе текста система генерирует запрос, который уточняется с помощью Context Classifier, определяющего категорию изображения (например, «меню», «постер»). Результаты поиска ранжируются с учетом этой категории.

Как это работает

Система работает следующим образом:

Извлечение текста: Устройство пользователя (например, через камеру) захватывает изображение и применяет OCR для извлечения текста.
Сегментация и UI: Текст разбивается на блоки (multiple blocks). Пользовательский интерфейс отображает эти блоки как выбираемые цели (user-selectable targets), возможно, на разных уровнях масштабирования для удобства выбора.
Инициация действия: Пользователь выбирает блок текста.
Генерация запроса и контекстуализация: Система формирует поисковый запрос из выбранного текста и собирает контекстуальные данные (contextual data) из изображения.
Классификация контекста: Context Classifier (использующий машинное обучение) пытается определить категорию изображения (например, «ресторанное меню»).
Адаптивный поиск: Если категория определена, результаты поиска идентифицируются и ранжируются на основе запроса И категории. Если нет — выполняется общий поиск только по тексту запроса.
Отображение: Результаты отображаются пользователю вместе с исходным изображением.

Актуальность для SEO

Высокая. Патент напрямую описывает технологии, лежащие в основе продуктов типа Google Lens, которые активно развиваются. С ростом значения визуального и мультимодального поиска (например, MUM), способность Google точно интерпретировать текст в контексте изображения является критически важной функцией поиска в 2025 году.

Важность для SEO

Влияние на SEO значительно (75/100), особенно в контексте визуального поиска (Visual Search) и локального SEO. Хотя патент не описывает ранжирование традиционной веб-выдачи, он раскрывает механизмы того, как Google обрабатывает запросы, инициированные через изображения. Понимание того, что контекст изображения напрямую влияет на интерпретацию текста и ранжирование результатов по нему, критически важно для оптимизации графических ассетов (меню, инфографики, продуктовых фото) под технологии типа Google Lens.

Детальный разбор

Термины и определения

Context Classifier (Классификатор контекста): Компонент системы (часто на основе машинного обучения), который анализирует contextual data изображения (например, весь текст на нем) и пытается отнести изображение к одной из предопределенных категорий (например, «ресторанное меню», «постер фильма»).
Contextual Data (Контекстуальные данные): Данные, извлеченные из изображения помимо основного выбранного пользователем текста. В основном включают другой текст на изображении. Используются для определения категории изображения.
Extracted Text (Извлеченный текст): Текст, распознанный на изображении с помощью OCR.
Lightweight OCR Engine (Легковесный движок OCR): Упоминается в описании как вариант реализации OCR на устройстве пользователя для ускорения распознавания текста и снижения задержек.
Multiple Blocks (Множественные блоки): Сегменты, на которые разбивается извлеченный текст, часто на основе семантического анализа или визуального расположения текста на изображении.
Text-based Granularity (Гранулярность текста): Уровень детализации текста, используемый для генерации запросов или создания выбираемых целей (например, отдельные слова, фразы или целые блоки).
User-selectable Targets (Выбираемые пользователем цели): Элементы интерфейса, связанные с блоками или частями текста на изображении, позволяющие пользователю инициировать действие (например, поиск или звонок) путем выбора этого текста.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обработки изображения и генерации контекстно-зависимых результатов поиска.

Система получает изображение.
Текст на изображении разбивается на множественные блоки (plurality of blocks).
Система получает выбор пользователя одного из блоков (first block), содержащего первый набор текста (first set of text).
Генерируется поисковый запрос (search query) на основе выбранного текста.
Определяются контекстуальные данные (contextual data) для изображения.
Контекстуальные данные обрабатываются с помощью Context Classifier для определения, связано ли изображение с одной из категорий.
Определяется контент результатов поиска (search result content) на основе запроса И того, была ли найдена категория:
- Если категория найдена: Результаты определяются на основе запроса И этой конкретной категории.
- Если категория не найдена: Результаты определяются на основе запроса как общий поиск (general search results).
Предоставляются данные для обновленного интерфейса, отображающего результаты поиска вместе с частью изображения, включающей выбранный блок.

Claim 11 (Независимый пункт): Описывает систему (аппаратное обеспечение и ПО), реализующую тот же процесс, что и в Claim 1.

Ключевые зависимые пункты (Claims 12-14): Детализируют, как именно категория влияет на результаты поиска (если она найдена).

Claim 12: Процесс может включать модификацию поискового запроса путем добавления терминов, основанных на классификации категории.
Claim 13 и 14: Процесс может включать повышение ранга (boosting ranks) ресурсов, связанных с категорией, и/или понижение ранга (decreasing ranks) ресурсов, не связанных с категорией.

Где и как применяется

Изобретение затрагивает несколько этапов, объединяя обработку на устройстве пользователя и серверные поисковые системы. Это технология визуального поиска (Visual Search).

На устройстве пользователя (On-Device):

CRAWLING / INDEXING (локальные): Приложение камеры захватывает изображение. Text Processor (возможно, использующий Lightweight OCR Engine) извлекает текст и разбивает его на блоки. Это локальное индексирование визуальных данных в реальном времени.
UI/Взаимодействие: UI Controller отображает изображение и генерирует user-selectable targets на разных уровнях зума.

Серверная часть (Search System):

QUNDERSTANDING – Понимание Запросов
Это ключевой этап применения патента. Когда пользователь выбирает текст, он становится запросом. Система не просто принимает этот текст, но и обогащает его контекстом изображения.

Context Classifier анализирует контекстуальные данные, чтобы классифицировать изображение (например, как «меню»).
Запрос может быть переписан (modifying the search query) на основе категории. Например, запрос [Alien] с постера фильма превращается в [Alien movie].

RANKING – Ранжирование
Категория изображения напрямую влияет на ранжирование.

Если категория определена, система адаптирует ранжирование: повышает ресурсы, связанные с категорией, и/или понижает не связанные.
Если категория не определена, используется стандартное ранжирование (general search).

Входные данные:

Изображение (захваченное камерой или из памяти).
Выбор пользователем определенного блока текста.
Контекстуальные данные (другой текст или признаки изображения).

Выходные данные:

Обновленный пользовательский интерфейс.
Контент результатов поиска (search result content), ранжированный с учетом контекста изображения.

На что влияет

Локальный поиск и E-commerce: Сильно влияет на обработку изображений меню ресторанов, вывесок магазинов, продуктовых упаковок. Контекст позволяет точно идентифицировать блюда, продукты или бизнесы.
Информационный контент: Влияет на обработку изображений из журналов, постеров, инфографики, позволяя пользователям быстро получать дополнительную информацию по тексту на них.
Типы запросов: Улучшает обработку запросов, которые без контекста являются неоднозначными (например, название блюда, которое также является обычным словом).

Когда применяется

Триггер активации: Захват изображения и последующее взаимодействие пользователя с распознанным текстом на этом изображении (например, через Google Lens).
Условия работы: Система активирует механизм контекстуального поиска только тогда, когда пользователь инициирует запрос, выбрав текст на изображении. Адаптивное ранжирование применяется только в том случае, если Context Classifier смог успешно классифицировать изображение в одну из предопределенных категорий.

Пошаговый алгоритм

Процесс А: Обработка на устройстве и взаимодействие

Захват изображения: Получение изображения с камеры или из хранилища.
Извлечение текста: Применение OCR для распознавания текста на изображении.
Партиционирование текста: Разбиение извлеченного текста на логические блоки на основе семантики и расположения.
Отображение интерфейса (Уровень 1): Отображение изображения на первом уровне масштабирования с выделением блоков как выбираемых целей.
Обработка выбора блока: Детектирование выбора пользователем одного из блоков.
Отображение интерфейса (Уровень 2): Увеличение масштаба выбранного блока и отображение его частей (например, фраз или слов) как новых выбираемых целей.
Обработка выбора текста: Детектирование выбора пользователем конкретной части текста.
Инициация действия: Определение типа действия (поиск, звонок, навигация) на основе содержания текста. Если это поиск, переход к Процессу Б.

Процесс Б: Контекстный поиск (Взаимодействие Устройство-Сервер)

Формирование данных запроса: Генерация поискового запроса из выбранного текста и сбор контекстуальных данных из изображения.
Передача данных: Отправка данных запроса в поисковую систему.
Классификация контекста: Попытка классифицировать изображение с помощью Context Classifier на основе контекстуальных данных.
Принятие решения о ранжировании:
- Если классифицировано: Идентификация и ранжирование ресурсов на основе запроса И классифицированной категории. Это может включать переписывание запроса или корректировку весов (boosting/decreasing ranks).
- Если не классифицировано: Идентификация и ранжирование ресурсов на основе общего поиска по тексту запроса.
Возврат результатов: Предоставление контента результатов поиска устройству пользователя.
Отображение результатов: Обновление интерфейса для показа результатов вместе с соответствующей частью изображения.

Какие данные и как использует

Данные на входе

Мультимедиа факторы (Изображение): Основной источник данных. Анализируется визуальное расположение текста для партиционирования на блоки.
Контентные факторы (Текст на изображении): Текст, извлеченный через OCR. Делится на:
- Выбранный текст: Используется как основа для поискового запроса.
- Контекстуальный текст (Contextual Data): Другой текст на изображении, используемый для классификации контекста.
Пользовательские факторы (Взаимодействие): Действия пользователя по масштабированию и выбору конкретных блоков текста.

Какие метрики используются и как они считаются

Патент не детализирует конкретные формулы ранжирования, но описывает ключевые процессы и метрики:

Классификация категории: Результат работы Context Classifier. Это бинарное решение (классифицировано или нет) и, если да, то какая категория (например, «меню», «постер»). Основано на машинном обучении, обученном на размеченных данных.
Корректировка ранжирования: Патент описывает два метода корректировки, если категория определена:
- Переписывание запроса (Query Modification): Добавление терминов, связанных с категорией, к исходному запросу.
- Boosting/Decreasing Ranks: Повышение или понижение оценок релевантности ресурсов в зависимости от их связи с категорией изображения.
Семантический анализ: Используется на устройстве для разбиения текста на логические блоки и определения смысла слов в контексте (например, слово «cheek» под заголовком «BBQ Entrees», упомянутое в описании патента, распознается как еда).

Выводы

Контекст изображения — это фактор ранжирования для визуального поиска: Ключевой вывод патента в том, что Google не рассматривает текст на изображении изолированно. Контекст всего изображения (определяемый через Context Classifier) напрямую используется для переписывания запроса и/или корректировки ранжирования результатов поиска, инициированного этим текстом.
Категоризация изображений критична: Способность системы классифицировать изображение (например, как меню или постер) определяет, будет ли применен специализированный алгоритм ранжирования или общий поиск. Это подчеркивает важность четкой визуальной и текстовой структуры на изображениях.
Два пути обработки запросов с картинок: Система имеет четкое разделение: контекстно-зависимый поиск (если категория известна) и общий поиск (если категория неизвестна). Цель — избежать предоставления общих результатов, когда контекст требует специфических.
Семантика и структура текста на изображении важны: Система использует семантический анализ и визуальное расположение текста для его разбиения на логические блоки (partitioning). Четкая структура помогает системе правильно сегментировать контент для взаимодействия с пользователем.
Технология направлена на точность и скорость: Использование локального OCR и механизмов префетчинга (упомянутых в описании патента) указывает на стремление сделать визуальный поиск мгновенным и точным.

Практика

Best practices (это мы делаем)

Оптимизация изображений для OCR: Убедитесь, что весь важный текст на изображениях (особенно на логотипах, инфографике, фотографиях продуктов, меню) легко читается. Используйте контрастные цвета, четкие шрифты и достаточно крупный размер текста. Это гарантирует, что система сможет извлечь текст и использовать его как запрос.
Создание четкого визуального и текстового контекста: Дизайн изображений должен помогать Context Classifier правильно определить их категорию. Например, меню ресторана должно выглядеть как меню — с четкими заголовками разделов («Закуски», «Напитки») и структурированным списком блюд. Это повышает вероятность активации контекстного ранжирования.
Использование полного и описательного текста на изображениях: Включайте достаточно текстовой информации на изображение, чтобы обеспечить контекст. Если вы показываете продукт, убедитесь, что его название и ключевые характеристики видны. Это помогает как пользователю, так и классификатору.
Оптимизация локальных ассетов (Local SEO): Для локального бизнеса критически важно загружать высококачественные и актуальные фотографии меню и вывесок в Google Business Profile. Патент показывает, как пользователи могут взаимодействовать с этими ассетами напрямую через камеру для получения информации.

Worst practices (это делать не надо)

Использование изображений вместо текста для критически важной информации (без оптимизации): Хотя система и распознает текст на картинках, полагаться только на это рискованно. Всегда дублируйте важную информацию в HTML или, как минимум, убедитесь в идеальной читаемости текста на изображении.
Сложные и нечитаемые шрифты: Использование декоративных, рукописных или низкоконтрастных шрифтов на изображениях может привести к ошибкам OCR, что сделает невозможным инициирование поиска по этому тексту.
Неоднозначный визуальный контекст: Создание изображений, которые трудно классифицировать (например, постер мероприятия без даты и места, или фото продукта без названия). Это приведет к тому, что система применит общий поиск (general search), что снизит релевантность результатов.
Игнорирование Visual Search: Рассматривать изображения только как декоративный элемент, игнорируя их потенциал как точку входа в поиск (Google Lens).

Стратегическое значение

Патент подтверждает стратегический фокус Google на развитии визуального поиска как основного способа взаимодействия с информацией в реальном мире. Для SEO это означает, что оптимизация больше не ограничивается веб-страницами. Графические ассеты, как онлайн, так и офлайн (через камеру пользователя), становятся частью поисковой экосистемы. Стратегия должна включать оптимизацию всех визуальных материалов компании, предполагая, что пользователи будут «гуглить» их через камеру, и что Google будет использовать визуальный контекст для интерпретации этих запросов.

Практические примеры

Сценарий 1: Оптимизация меню ресторана для Visual Search

Задача: Увеличить видимость конкретных блюд через Google Lens.
Действия: Редизайн загружаемого в GBP меню. Использование стандартной структуры (Закуски, Основные блюда). Применение высококонтрастного, четкого шрифта. Убедиться, что названия блюд уникальны и описательны.
Как работает по патенту: Пользователь фотографирует меню. Система распознает текст. Context Classifier анализирует структуру и слова («Закуски», названия блюд) и классифицирует изображение как «Меню». Пользователь выбирает блюдо. Система генерирует запрос и применяет ранжирование для категории «Меню» (показывая фото блюда, отзывы, калорийность), а не общий поиск.
Результат: Пользователь получает максимально релевантную информацию о блюде.

Сценарий 2: Улучшение интерпретации инфографики

Задача: Сделать так, чтобы пользователи могли легко найти дополнительную информацию по терминам из инфографики на сайте.
Действия: Разработка инфографики с четкой иерархией заголовков и определений. Включение связанных терминов рядом для создания сильного контекста.
Как работает по патенту: Система анализирует инфографику. Благодаря четкой структуре текст корректно разбивается на блоки (partitioning). Контекст помогает классифицировать изображение как информационное в определенной тематике. При выборе термина пользователем система выдает результаты, релевантные этой тематике, а не общее определение термина.
Результат: Улучшение пользовательского опыта при изучении сложных тем через визуальные материалы.

Вопросы и ответы

Означает ли этот патент, что текст на изображениях теперь так же важен, как и HTML-текст для ранжирования?

Не совсем. Патент описывает, как обрабатываются запросы, инициированные из текста на изображении (например, через Google Lens), а не то, как текст на изображениях влияет на ранжирование самой веб-страницы. Однако он показывает, что текст на изображениях является точкой входа в поиск. Если ваш контент часто потребляется через изображения (меню, инфографика), то оптимизация этого текста критически важна для видимости в результатах визуального поиска.

Как именно система определяет контекст изображения?

Патент указывает на использование Context Classifier, работающего на основе машинного обучения. Он анализирует contextual data, в первую очередь — весь текст, распознанный на изображении. Например, наличие слов «Закуски», «Основное блюдо», «Цена» и списка блюд позволяет классифицировать изображение как «Меню».

Что произойдет, если система неправильно классифицирует контекст изображения?

Если система неправильно классифицирует изображение (например, примет арт-объект за меню), она попытается применить специализированное ранжирование или перепишет запрос на основе неверной категории. Это приведет к нерелевантным результатам поиска для пользователя. Именно поэтому важно создавать изображения с четким и однозначным контекстом.

Что делать, если на изображении мало текста, например, только логотип?

В этом случае у Context Classifier будет мало данных для классификации. Патент описывает, что если категория не определена, система выполняет общий поиск (general search) по выбранному тексту. Для логотипов это, вероятно, приведет к поиску компании по ее названию, что является ожидаемым поведением.

Как этот патент влияет на Local SEO?

Влияние значительно. Он описывает технологию, позволяющую пользователям фотографировать меню, вывески, визитки и мгновенно получать релевантную информацию или выполнять действия (например, звонить по номеру с визитки). Для локального бизнеса критически важно обеспечить доступность и читаемость этих материалов, как физически, так и в виде изображений в Google Business Profile.

Какие технические требования к изображениям следуют из патента?

Главное требование — это возможность качественного распознавания текста (OCR). Это подразумевает высокое разрешение, контрастность между текстом и фоном, использование четких шрифтов и избегание наложения текста на сложные визуальные элементы. Чем чище OCR, тем точнее будет запрос и контекстуальные данные.

Как система решает, повышать ранжирование или переписывать запрос, если контекст определен?

Патент описывает оба механизма как возможные варианты реализации. На практике, вероятно, используется комбинация этих подходов в зависимости от категории и уверенности системы. Например, для постера фильма может быть эффективнее переписать запрос, добавив слово «фильм», а для меню — повысить ранжирование сайтов с рецептами и nutritional facts.

Что такое партиционирование текста (partitioning) и как на него повлиять?

Партиционирование — это разбиение всего текста на изображении на логические блоки (например, разделы меню или абзацы текста). Система делает это на основе визуального расположения (близость текста, выравнивание) и семантического анализа. Повлиять на это можно через дизайн: использование четких отступов, заголовков и списков помогает системе правильно определить границы блоков.

Применяется ли эта технология только к фотографиям, сделанным пользователем?

Нет. Патент описывает обработку любого полученного изображения (obtaining an image). Это может быть фотография, сделанная камерой, сохраненное изображение на устройстве или потенциально изображение, найденное в интернете. Технология универсальна для обработки текста в контексте картинки.

Связан ли этот патент с Google MUM?

Хотя MUM не упоминается, описанная технология идеально вписывается в концепцию мультимодального поиска MUM. MUM стремится понимать информацию через текст и изображения одновременно. Этот патент предоставляет конкретный механизм для этого: использование контекста изображения для уточнения текстового запроса, извлеченного из него же.