Google использует технологию для анализа изображений (например, фотографий меню или постеров). Система распознает текст на картинке и позволяет пользователю выбрать его для поиска. Ключевой механизм — классификация контекста всего изображения. Если система определяет, что это меню, она адаптирует результаты поиска по выбранному блюду, чтобы показать рецепты или nutritional facts, а не общую информацию, повышая релевантность визуального поиска.
Описание
Какую задачу решает
Патент решает проблему неэффективности и неточности поиска информации, основанного на контенте изображений. Традиционный подход требует от пользователя вручную вводить текст, увиденный на картинке, в поисковую строку, что медленно и чревато ошибками. Кроме того, поиск по изолированному тексту часто приводит к нерелевантным результатам из-за отсутствия контекста (например, слово на постере фильма может иметь иное значение, чем то же слово в меню). Изобретение автоматизирует извлечение текста (OCR) и использует контекст всего изображения для уточнения запроса и улучшения релевантности результатов.
Что запатентовано
Запатентована система для интерактивного взаимодействия с текстом на изображениях и выполнения действий на его основе, в первую очередь — поисковых запросов. Система извлекает текст из изображения, разбивает его на логические блоки и делает их выбираемыми для пользователя. При выборе текста система генерирует запрос, который уточняется с помощью Context Classifier, определяющего категорию изображения (например, «меню», «постер»). Результаты поиска ранжируются с учетом этой категории.
Как это работает
Система работает следующим образом:
- Извлечение текста: Устройство пользователя (например, через камеру) захватывает изображение и применяет OCR для извлечения текста.
- Сегментация и UI: Текст разбивается на блоки (multiple blocks). Пользовательский интерфейс отображает эти блоки как выбираемые цели (user-selectable targets), возможно, на разных уровнях масштабирования для удобства выбора.
- Инициация действия: Пользователь выбирает блок текста.
- Генерация запроса и контекстуализация: Система формирует поисковый запрос из выбранного текста и собирает контекстуальные данные (contextual data) из изображения.
- Классификация контекста: Context Classifier (использующий машинное обучение) пытается определить категорию изображения (например, «ресторанное меню»).
- Адаптивный поиск: Если категория определена, результаты поиска идентифицируются и ранжируются на основе запроса И категории. Если нет — выполняется общий поиск только по тексту запроса.
- Отображение: Результаты отображаются пользователю вместе с исходным изображением.
Актуальность для SEO
Высокая. Патент напрямую описывает технологии, лежащие в основе продуктов типа Google Lens, которые активно развиваются. С ростом значения визуального и мультимодального поиска (например, MUM), способность Google точно интерпретировать текст в контексте изображения является критически важной функцией поиска в 2025 году.
Важность для SEO
Влияние на SEO значительно (75/100), особенно в контексте визуального поиска (Visual Search) и локального SEO. Хотя патент не описывает ранжирование традиционной веб-выдачи, он раскрывает механизмы того, как Google обрабатывает запросы, инициированные через изображения. Понимание того, что контекст изображения напрямую влияет на интерпретацию текста и ранжирование результатов по нему, критически важно для оптимизации графических ассетов (меню, инфографики, продуктовых фото) под технологии типа Google Lens.
Детальный разбор
Термины и определения
- Context Classifier (Классификатор контекста)
- Компонент системы (часто на основе машинного обучения), который анализирует contextual data изображения (например, весь текст на нем) и пытается отнести изображение к одной из предопределенных категорий (например, «ресторанное меню», «постер фильма»).
- Contextual Data (Контекстуальные данные)
- Данные, извлеченные из изображения помимо основного выбранного пользователем текста. В основном включают другой текст на изображении. Используются для определения категории изображения.
- Extracted Text (Извлеченный текст)
- Текст, распознанный на изображении с помощью OCR.
- Lightweight OCR Engine (Легковесный движок OCR)
- Упоминается в описании как вариант реализации OCR на устройстве пользователя для ускорения распознавания текста и снижения задержек.
- Multiple Blocks (Множественные блоки)
- Сегменты, на которые разбивается извлеченный текст, часто на основе семантического анализа или визуального расположения текста на изображении.
- Text-based Granularity (Гранулярность текста)
- Уровень детализации текста, используемый для генерации запросов или создания выбираемых целей (например, отдельные слова, фразы или целые блоки).
- User-selectable Targets (Выбираемые пользователем цели)
- Элементы интерфейса, связанные с блоками или частями текста на изображении, позволяющие пользователю инициировать действие (например, поиск или звонок) путем выбора этого текста.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод обработки изображения и генерации контекстно-зависимых результатов поиска.
- Система получает изображение.
- Текст на изображении разбивается на множественные блоки (plurality of blocks).
- Система получает выбор пользователя одного из блоков (first block), содержащего первый набор текста (first set of text).
- Генерируется поисковый запрос (search query) на основе выбранного текста.
- Определяются контекстуальные данные (contextual data) для изображения.
- Контекстуальные данные обрабатываются с помощью Context Classifier для определения, связано ли изображение с одной из категорий.
- Определяется контент результатов поиска (search result content) на основе запроса И того, была ли найдена категория:
- Если категория найдена: Результаты определяются на основе запроса И этой конкретной категории.
- Если категория не найдена: Результаты определяются на основе запроса как общий поиск (general search results).
- Предоставляются данные для обновленного интерфейса, отображающего результаты поиска вместе с частью изображения, включающей выбранный блок.
Claim 11 (Независимый пункт): Описывает систему (аппаратное обеспечение и ПО), реализующую тот же процесс, что и в Claim 1.
Ключевые зависимые пункты (Claims 12-14): Детализируют, как именно категория влияет на результаты поиска (если она найдена).
- Claim 12: Процесс может включать модификацию поискового запроса путем добавления терминов, основанных на классификации категории.
- Claim 13 и 14: Процесс может включать повышение ранга (boosting ranks) ресурсов, связанных с категорией, и/или понижение ранга (decreasing ranks) ресурсов, не связанных с категорией.
Где и как применяется
Изобретение затрагивает несколько этапов, объединяя обработку на устройстве пользователя и серверные поисковые системы. Это технология визуального поиска (Visual Search).
На устройстве пользователя (On-Device):
- CRAWLING / INDEXING (локальные): Приложение камеры захватывает изображение. Text Processor (возможно, использующий Lightweight OCR Engine) извлекает текст и разбивает его на блоки. Это локальное индексирование визуальных данных в реальном времени.
- UI/Взаимодействие: UI Controller отображает изображение и генерирует user-selectable targets на разных уровнях зума.
Серверная часть (Search System):
QUNDERSTANDING – Понимание Запросов
Это ключевой этап применения патента. Когда пользователь выбирает текст, он становится запросом. Система не просто принимает этот текст, но и обогащает его контекстом изображения.
- Context Classifier анализирует контекстуальные данные, чтобы классифицировать изображение (например, как «меню»).
- Запрос может быть переписан (modifying the search query) на основе категории. Например, запрос [Alien] с постера фильма превращается в [Alien movie].
RANKING – Ранжирование
Категория изображения напрямую влияет на ранжирование.
- Если категория определена, система адаптирует ранжирование: повышает ресурсы, связанные с категорией, и/или понижает не связанные.
- Если категория не определена, используется стандартное ранжирование (general search).
Входные данные:
- Изображение (захваченное камерой или из памяти).
- Выбор пользователем определенного блока текста.
- Контекстуальные данные (другой текст или признаки изображения).
Выходные данные:
- Обновленный пользовательский интерфейс.
- Контент результатов поиска (search result content), ранжированный с учетом контекста изображения.
На что влияет
- Локальный поиск и E-commerce: Сильно влияет на обработку изображений меню ресторанов, вывесок магазинов, продуктовых упаковок. Контекст позволяет точно идентифицировать блюда, продукты или бизнесы.
- Информационный контент: Влияет на обработку изображений из журналов, постеров, инфографики, позволяя пользователям быстро получать дополнительную информацию по тексту на них.
- Типы запросов: Улучшает обработку запросов, которые без контекста являются неоднозначными (например, название блюда, которое также является обычным словом).
Когда применяется
- Триггер активации: Захват изображения и последующее взаимодействие пользователя с распознанным текстом на этом изображении (например, через Google Lens).
- Условия работы: Система активирует механизм контекстуального поиска только тогда, когда пользователь инициирует запрос, выбрав текст на изображении. Адаптивное ранжирование применяется только в том случае, если Context Classifier смог успешно классифицировать изображение в одну из предопределенных категорий.
Пошаговый алгоритм
Процесс А: Обработка на устройстве и взаимодействие
- Захват изображения: Получение изображения с камеры или из хранилища.
- Извлечение текста: Применение OCR для распознавания текста на изображении.
- Партиционирование текста: Разбиение извлеченного текста на логические блоки на основе семантики и расположения.
- Отображение интерфейса (Уровень 1): Отображение изображения на первом уровне масштабирования с выделением блоков как выбираемых целей.
- Обработка выбора блока: Детектирование выбора пользователем одного из блоков.
- Отображение интерфейса (Уровень 2): Увеличение масштаба выбранного блока и отображение его частей (например, фраз или слов) как новых выбираемых целей.
- Обработка выбора текста: Детектирование выбора пользователем конкретной части текста.
- Инициация действия: Определение типа действия (поиск, звонок, навигация) на основе содержания текста. Если это поиск, переход к Процессу Б.
Процесс Б: Контекстный поиск (Взаимодействие Устройство-Сервер)
- Формирование данных запроса: Генерация поискового запроса из выбранного текста и сбор контекстуальных данных из изображения.
- Передача данных: Отправка данных запроса в поисковую систему.
- Классификация контекста: Попытка классифицировать изображение с помощью Context Classifier на основе контекстуальных данных.
- Принятие решения о ранжировании:
- Если классифицировано: Идентификация и ранжирование ресурсов на основе запроса И классифицированной категории. Это может включать переписывание запроса или корректировку весов (boosting/decreasing ranks).
- Если не классифицировано: Идентификация и ранжирование ресурсов на основе общего поиска по тексту запроса.
- Возврат результатов: Предоставление контента результатов поиска устройству пользователя.
- Отображение результатов: Обновление интерфейса для показа результатов вместе с соответствующей частью изображения.
Какие данные и как использует
Данные на входе
- Мультимедиа факторы (Изображение): Основной источник данных. Анализируется визуальное расположение текста для партиционирования на блоки.
- Контентные факторы (Текст на изображении): Текст, извлеченный через OCR. Делится на:
- Выбранный текст: Используется как основа для поискового запроса.
- Контекстуальный текст (Contextual Data): Другой текст на изображении, используемый для классификации контекста.
- Пользовательские факторы (Взаимодействие): Действия пользователя по масштабированию и выбору конкретных блоков текста.
Какие метрики используются и как они считаются
Патент не детализирует конкретные формулы ранжирования, но описывает ключевые процессы и метрики:
- Классификация категории: Результат работы Context Classifier. Это бинарное решение (классифицировано или нет) и, если да, то какая категория (например, «меню», «постер»). Основано на машинном обучении, обученном на размеченных данных.
- Корректировка ранжирования: Патент описывает два метода корректировки, если категория определена:
- Переписывание запроса (Query Modification): Добавление терминов, связанных с категорией, к исходному запросу.
- Boosting/Decreasing Ranks: Повышение или понижение оценок релевантности ресурсов в зависимости от их связи с категорией изображения.
- Семантический анализ: Используется на устройстве для разбиения текста на логические блоки и определения смысла слов в контексте (например, слово «cheek» под заголовком «BBQ Entrees», упомянутое в описании патента, распознается как еда).
Выводы
- Контекст изображения — это фактор ранжирования для визуального поиска: Ключевой вывод патента в том, что Google не рассматривает текст на изображении изолированно. Контекст всего изображения (определяемый через Context Classifier) напрямую используется для переписывания запроса и/или корректировки ранжирования результатов поиска, инициированного этим текстом.
- Категоризация изображений критична: Способность системы классифицировать изображение (например, как меню или постер) определяет, будет ли применен специализированный алгоритм ранжирования или общий поиск. Это подчеркивает важность четкой визуальной и текстовой структуры на изображениях.
- Два пути обработки запросов с картинок: Система имеет четкое разделение: контекстно-зависимый поиск (если категория известна) и общий поиск (если категория неизвестна). Цель — избежать предоставления общих результатов, когда контекст требует специфических.
- Семантика и структура текста на изображении важны: Система использует семантический анализ и визуальное расположение текста для его разбиения на логические блоки (partitioning). Четкая структура помогает системе правильно сегментировать контент для взаимодействия с пользователем.
- Технология направлена на точность и скорость: Использование локального OCR и механизмов префетчинга (упомянутых в описании патента) указывает на стремление сделать визуальный поиск мгновенным и точным.
Практика
Best practices (это мы делаем)
- Оптимизация изображений для OCR: Убедитесь, что весь важный текст на изображениях (особенно на логотипах, инфографике, фотографиях продуктов, меню) легко читается. Используйте контрастные цвета, четкие шрифты и достаточно крупный размер текста. Это гарантирует, что система сможет извлечь текст и использовать его как запрос.
- Создание четкого визуального и текстового контекста: Дизайн изображений должен помогать Context Classifier правильно определить их категорию. Например, меню ресторана должно выглядеть как меню — с четкими заголовками разделов («Закуски», «Напитки») и структурированным списком блюд. Это повышает вероятность активации контекстного ранжирования.
- Использование полного и описательного текста на изображениях: Включайте достаточно текстовой информации на изображение, чтобы обеспечить контекст. Если вы показываете продукт, убедитесь, что его название и ключевые характеристики видны. Это помогает как пользователю, так и классификатору.
- Оптимизация локальных ассетов (Local SEO): Для локального бизнеса критически важно загружать высококачественные и актуальные фотографии меню и вывесок в Google Business Profile. Патент показывает, как пользователи могут взаимодействовать с этими ассетами напрямую через камеру для получения информации.
Worst practices (это делать не надо)
- Использование изображений вместо текста для критически важной информации (без оптимизации): Хотя система и распознает текст на картинках, полагаться только на это рискованно. Всегда дублируйте важную информацию в HTML или, как минимум, убедитесь в идеальной читаемости текста на изображении.
- Сложные и нечитаемые шрифты: Использование декоративных, рукописных или низкоконтрастных шрифтов на изображениях может привести к ошибкам OCR, что сделает невозможным инициирование поиска по этому тексту.
- Неоднозначный визуальный контекст: Создание изображений, которые трудно классифицировать (например, постер мероприятия без даты и места, или фото продукта без названия). Это приведет к тому, что система применит общий поиск (general search), что снизит релевантность результатов.
- Игнорирование Visual Search: Рассматривать изображения только как декоративный элемент, игнорируя их потенциал как точку входа в поиск (Google Lens).
Стратегическое значение
Патент подтверждает стратегический фокус Google на развитии визуального поиска как основного способа взаимодействия с информацией в реальном мире. Для SEO это означает, что оптимизация больше не ограничивается веб-страницами. Графические ассеты, как онлайн, так и офлайн (через камеру пользователя), становятся частью поисковой экосистемы. Стратегия должна включать оптимизацию всех визуальных материалов компании, предполагая, что пользователи будут «гуглить» их через камеру, и что Google будет использовать визуальный контекст для интерпретации этих запросов.
Практические примеры
Сценарий 1: Оптимизация меню ресторана для Visual Search
- Задача: Увеличить видимость конкретных блюд через Google Lens.
- Действия: Редизайн загружаемого в GBP меню. Использование стандартной структуры (Закуски, Основные блюда). Применение высококонтрастного, четкого шрифта. Убедиться, что названия блюд уникальны и описательны.
- Как работает по патенту: Пользователь фотографирует меню. Система распознает текст. Context Classifier анализирует структуру и слова («Закуски», названия блюд) и классифицирует изображение как «Меню». Пользователь выбирает блюдо. Система генерирует запрос и применяет ранжирование для категории «Меню» (показывая фото блюда, отзывы, калорийность), а не общий поиск.
- Результат: Пользователь получает максимально релевантную информацию о блюде.
Сценарий 2: Улучшение интерпретации инфографики
- Задача: Сделать так, чтобы пользователи могли легко найти дополнительную информацию по терминам из инфографики на сайте.
- Действия: Разработка инфографики с четкой иерархией заголовков и определений. Включение связанных терминов рядом для создания сильного контекста.
- Как работает по патенту: Система анализирует инфографику. Благодаря четкой структуре текст корректно разбивается на блоки (partitioning). Контекст помогает классифицировать изображение как информационное в определенной тематике. При выборе термина пользователем система выдает результаты, релевантные этой тематике, а не общее определение термина.
- Результат: Улучшение пользовательского опыта при изучении сложных тем через визуальные материалы.
Вопросы и ответы
Означает ли этот патент, что текст на изображениях теперь так же важен, как и HTML-текст для ранжирования?
Не совсем. Патент описывает, как обрабатываются запросы, инициированные из текста на изображении (например, через Google Lens), а не то, как текст на изображениях влияет на ранжирование самой веб-страницы. Однако он показывает, что текст на изображениях является точкой входа в поиск. Если ваш контент часто потребляется через изображения (меню, инфографика), то оптимизация этого текста критически важна для видимости в результатах визуального поиска.
Как именно система определяет контекст изображения?
Патент указывает на использование Context Classifier, работающего на основе машинного обучения. Он анализирует contextual data, в первую очередь — весь текст, распознанный на изображении. Например, наличие слов «Закуски», «Основное блюдо», «Цена» и списка блюд позволяет классифицировать изображение как «Меню».
Что произойдет, если система неправильно классифицирует контекст изображения?
Если система неправильно классифицирует изображение (например, примет арт-объект за меню), она попытается применить специализированное ранжирование или перепишет запрос на основе неверной категории. Это приведет к нерелевантным результатам поиска для пользователя. Именно поэтому важно создавать изображения с четким и однозначным контекстом.
Что делать, если на изображении мало текста, например, только логотип?
В этом случае у Context Classifier будет мало данных для классификации. Патент описывает, что если категория не определена, система выполняет общий поиск (general search) по выбранному тексту. Для логотипов это, вероятно, приведет к поиску компании по ее названию, что является ожидаемым поведением.
Как этот патент влияет на Local SEO?
Влияние значительно. Он описывает технологию, позволяющую пользователям фотографировать меню, вывески, визитки и мгновенно получать релевантную информацию или выполнять действия (например, звонить по номеру с визитки). Для локального бизнеса критически важно обеспечить доступность и читаемость этих материалов, как физически, так и в виде изображений в Google Business Profile.
Какие технические требования к изображениям следуют из патента?
Главное требование — это возможность качественного распознавания текста (OCR). Это подразумевает высокое разрешение, контрастность между текстом и фоном, использование четких шрифтов и избегание наложения текста на сложные визуальные элементы. Чем чище OCR, тем точнее будет запрос и контекстуальные данные.
Как система решает, повышать ранжирование или переписывать запрос, если контекст определен?
Патент описывает оба механизма как возможные варианты реализации. На практике, вероятно, используется комбинация этих подходов в зависимости от категории и уверенности системы. Например, для постера фильма может быть эффективнее переписать запрос, добавив слово «фильм», а для меню — повысить ранжирование сайтов с рецептами и nutritional facts.
Что такое партиционирование текста (partitioning) и как на него повлиять?
Партиционирование — это разбиение всего текста на изображении на логические блоки (например, разделы меню или абзацы текста). Система делает это на основе визуального расположения (близость текста, выравнивание) и семантического анализа. Повлиять на это можно через дизайн: использование четких отступов, заголовков и списков помогает системе правильно определить границы блоков.
Применяется ли эта технология только к фотографиям, сделанным пользователем?
Нет. Патент описывает обработку любого полученного изображения (obtaining an image). Это может быть фотография, сделанная камерой, сохраненное изображение на устройстве или потенциально изображение, найденное в интернете. Технология универсальна для обработки текста в контексте картинки.
Связан ли этот патент с Google MUM?
Хотя MUM не упоминается, описанная технология идеально вписывается в концепцию мультимодального поиска MUM. MUM стремится понимать информацию через текст и изображения одновременно. Этот патент предоставляет конкретный механизм для этого: использование контекста изображения для уточнения текстового запроса, извлеченного из него же.