
Google может анализировать активные нетекстовые данные (изображения или видео), отображаемые на устройстве пользователя в момент ввода запроса. Если запрос неоднозначен (например, содержит местоимения или общие фразы), система извлекает из визуального контента сущности, текст (через OCR) или структурированные данные (QR-коды) и использует их для автоматической модификации запроса, чтобы лучше понять намерение пользователя и предоставить точные результаты или инициировать действия.
Патент решает проблему обработки неоднозначных (ambiguous) или неполных поисковых запросов, особенно в контексте голосового или "разговорного" поиска (conversational search). Проблема возникает, когда пользователь вводит запрос, который семантически относится к контенту на экране, но не упоминает объект явно (например, видя изображение театра, спрашивает: "Какой у него номер телефона?"). Система улучшает понимание намерения пользователя, используя активный визуальный контекст для разрешения неоднозначности.
Запатентована система модификации запросов, которая использует контекст нетекстовых ресурсов (изображений, видео), активных на устройстве пользователя. Если входящий запрос определяется как неоднозначный, система идентифицирует активные нетекстовые данные, извлекает из них данные для модификации (например, сущности, метки, текст через OCR) и генерирует набор модифицированных запросов. Лучший вариант выбирается на основе скоринга и используется для предоставления результатов или выполнения действий.
Система работает следующим образом:
ambiguous query), активируется механизм контекстуальной модификации.active non-textual data), отображаемые на устройстве (например, выбранное изображение, кадр видео или снимок с камеры).modification data. Это могут быть связанные сущности (entities), метки (labels), текст, распознанный с помощью OCR, или данные из QR codes/штрих-кодов.scoring), например, по качеству возвращаемых ими результатов.Высокая. С развитием Google Assistant, Google Lens и мультимодального поиска, способность понимать контекст, объединяющий текст/голос и визуальную информацию, является стратегическим приоритетом Google. Этот патент описывает фундаментальные механизмы, лежащие в основе таких технологий, позволяя пользователям взаимодействовать с поиском более естественно.
(7.5/10). Патент имеет высокое значение для SEO, особенно в контексте оптимизации визуальных активов (Image/Video SEO) и сущностей. Он демонстрирует, что Google активно использует содержание изображений и видео не только для ранжирования в вертикалях, но и для понимания общего контекста сессии пользователя. Оптимизация изображений и их четкая связь с сущностями критически важны, так как они могут служить источником контекста для уточнения запросов.
knowledge graph).entity text), метки (labels), текст OCR, данные из структурированных кодов.QR codes или штрих-коды (bar codes).Claim 1 (Независимый пункт): Описывает основной метод модификации запроса на основе визуального контекста.
ambiguous query) И (Б) устройство отображает эти нетекстовые данные.modification data из каждого активного нетекстового элемента.scoring) модифицированные запросы.Ядро изобретения — это автоматическое уточнение неоднозначного запроса путем анализа визуального контента, активного на экране пользователя в момент запроса.
Claim 3 (Зависимый): Уточняет, что активные нетекстовые данные могут быть изображениями, которые были выбраны (selected) пользователем в приложении.
Claim 4 и 6 (Зависимые): Детализируют типы данных модификации. Claim 4 указывает на использование меток (labels), описывающих предмет изображения. Claim 6 указывает на использование текста сущностей (entity text), описывающего сущности на изображении.
Claim 7 (Зависимый): Описывает способ генерации модифицированного запроса путем изменения терминов исходного запроса на основе текста сущности (например, замена местоимения на имя сущности).
Claim 8 (Зависимый): Описывает альтернативный способ генерации: поиск в логах (query log) похожих запросов, которые содержат текст исходного запроса и текст сущности, и выбор тех, что превышают порог сходства.
Claim 10 и 13 (Зависимые): Описывают методы извлечения данных из видеокадров. Claim 10 описывает декодирование структурированных данных (structured video data), таких как QR codes. Claim 13 описывает выполнение оптического распознавания символов (OCR) для получения текста.
Изобретение применяется на стыке нескольких этапов поиска, преимущественно связанных с пониманием запроса и инициированием поиска.
INDEXING – Индексирование и извлечение признаков
На этом этапе система предварительно обрабатывает нетекстовые ресурсы. Это включает:
labels) из подписей, метаданных.Entities).OCR, и структурированных данных.QUNDERSTANDING – Понимание Запросов
Основное применение патента. Contextual Query Modifier работает здесь в реальном времени:
ambiguity).modification data. Это может включать запрос к индексу или обработку "на лету" (OCR, распознавание QR), если ресурс новый (например, фото с камеры).Candidate Scorer.RANKING – Ранжирование
На этом этапе выполняется поиск по итоговому модифицированному запросу. Также результаты этого поиска могут использоваться на этапе QUNDERSTANDING для оценки качества сгенерированных кандидатов (Claim 17).
Входные данные:
Query Logs).Выходные данные:
conversational), голосовые и мультимодальные запросы (например, в Google Assistant, Google Lens). Влияет на запросы с местоимениями ("кто это?") или неполные запросы ("позвонить").ambiguous query).active non-textual data).modification data (сущности, текст) из визуального контекста. Если визуальный контекст не содержит полезной информации (нет OCR текста, нет распознанных сущностей), запрос обрабатывается без модификации.Основной процесс обработки запроса
QR codes или штрих-кодов.entities) или меток (labels), связанных с ресурсом (используя индекс или визуальное распознавание).action query).Патент фокусируется на использовании нетекстовых данных как источника контекста.
video frames).local descriptors). Используются для визуального поиска и распознавания объектов.QR codes, штрих-коды (structured video data).OCR.labels), связанные с изображением (из подписей captions, окружающего текста).Entities), ассоциированные с изображением или извлеченные из OCR-текста.Query Logs) используются для генерации кандидатов путем поиска похожих предыдущих запросов, которые соответствуют комбинации исходного запроса и извлеченных данных.application context) на устройстве.Патент описывает критерии и метрики, используемые для оценки модифицированных запросов:
quality scores ресурсов, которые он возвращает. Запрос, возвращающий высококачественные ресурсы, оценивается выше.relevance scores. Высокая релевантность результатов сигнализирует, что модифицированный запрос хорошо сформирован (well formed query).question query или action query). Такие запросы могут получать повышение (boost) в оценке.Query Logs. Используются пороговые значения (threshold similarity value) для отбора кандидатов.OCR для чтения текста на изображениях, распознает структурированные данные (QR codes) и идентифицирует сущности с помощью визуального анализа.query logs для поиска наиболее удачных формулировок.action query) или прямым ответам (question query), что улучшает пользовательский опыт.captions), alt-тексты и окружающий текст. Микроразметка (например, Schema.org) также помогает укрепить эти связи.OCR (контрастные цвета, читаемые шрифты). Это позволит Google извлечь текст и использовать его как контекст.QR codes. Патент явно указывает на способность системы считывать их и использовать для модификации запросов или инициирования действий.OCR или распознавание логотипа для извлечения этих данных и ответа на запросы типа "как туда добраться".OCR и не позволит системе извлечь контекст.Этот патент подтверждает стратегический курс Google на развитие мультимодального поиска (как MUM), где границы между текстом, голосом и визуальной информацией стираются. Для SEO это означает переход от оптимизации страниц к оптимизации сущностей и их представлений во всех форматах. Долгосрочная стратегия должна включать создание сильной базы визуальных активов, которые точно представляют бренд и продукты, и обеспечение их максимальной понятности для систем машинного зрения Google.
Сценарий 1: Оптимизация карточки товара в E-commerce
OCR для идентификации сущности (Бренд + Модель).Сценарий 2: Использование OCR для локального SEO
OCR к табличке с часами работы и извлекает название ресторана.Что такое "активные нетекстовые данные" в контексте этого патента?
Это изображения или видео, которые отображаются на экране устройства пользователя в момент ввода запроса. Это может быть изображение, на которое пользователь только что нажал, видео, которое воспроизводится, или даже живое изображение с камеры устройства (как в Google Lens). Система использует этот визуальный контент как контекст для понимания запроса.
В каких случаях Google будет применять этот механизм модификации запросов?
Механизм активируется только тогда, когда выполняются два условия: во-первых, пользователь ввел неоднозначный запрос (например, содержащий местоимения типа "он", "этот" или общие команды типа "позвонить"); во-вторых, на экране есть релевантный визуальный контекст, из которого можно извлечь уточняющую информацию. Для полных и ясных запросов этот механизм не используется.
Какие технологии Google использует для извлечения информации из изображений согласно патенту?
Патент описывает несколько методов. Ключевые из них: распознавание сущностей (Entities) и меток (Labels) с помощью визуального анализа или анализа связанных данных (подписи, метаданные); оптическое распознавание символов (OCR) для чтения текста на изображении; и распознавание структурированных данных, таких как QR codes и штрих-коды.
Как это влияет на оптимизацию изображений (Image SEO)?
Это значительно повышает важность Image SEO. Изображения теперь не просто ранжируются в поиске по картинкам, но и служат источником семантического контекста для всей поисковой сессии. Необходимо оптимизировать изображения так, чтобы Google мог легко распознать изображенные на них сущности и прочитать любой важный текст.
Стоит ли добавлять текст на изображения, чтобы помочь Google понять контекст?
Да, если это уместно. Патент подтверждает активное использование OCR. Если на изображении есть текст (например, название продукта, адрес на фото магазина, ключевые пункты инфографики), он должен быть четким и читаемым. Это позволит Google извлечь его и использовать для уточнения запросов пользователя, просматривающего этот контент.
Как система определяет, какой из вариантов модифицированного запроса лучше?
Система генерирует несколько кандидатов и оценивает их. Оценка может основываться на качестве и релевантности результатов поиска, которые возвращает каждый кандидат. Также предпочтение отдается запросам, которые инициируют конкретные действия (например, ответ на вопрос, звонок, навигация), так как они считаются более "хорошо сформированными".
Как этот патент связан с Google Lens или Google Assistant?
Этот патент описывает базовую технологию, которая лежит в основе работы Google Lens и мультимодальных возможностей Google Assistant. Он объясняет, как эти сервисы могут анализировать изображение (с камеры или экрана) и одновременно обрабатывать голосовой запрос пользователя, объединяя эти два источника информации для понимания сложного намерения.
Что важнее для этой системы: метаданные изображения (alt, title) или его реальное содержание?
Патент делает сильный акцент на анализе реального содержания: визуальные признаки, OCR и распознавание QR codes. Хотя метаданные и подписи (упоминаются как источник "меток") также используются для понимания контекста, способность системы анализировать пиксели напрямую снижает зависимость от текстовых атрибутов, которые могут быть неточными.
Как использовать этот патент для улучшения позиций в E-commerce?
Убедитесь, что изображения ваших продуктов четкие, а ключевая информация (бренд, модель) визуально различима или читаема через OCR. Это поможет системе правильно идентифицировать продукт, когда пользователь задает контекстные вопросы о нем (например, "найти отзывы на это", "сравнить цены"), что повышает шансы на конверсию и видимость в поиске.
Может ли система использовать логи запросов для улучшения модификации?
Да. Патент описывает метод, при котором система ищет в исторических query logs запросы, которые содержат комбинацию исходного неоднозначного запроса и сущности, извлеченной из изображения. Если такая комбинация часто встречалась ранее, система может использовать эту популярную формулировку в качестве модифицированного запроса.

Семантика и интент
Мультимедиа
Персонализация

Семантика и интент
Мультимедиа
Персонализация

Семантика и интент
Knowledge Graph

Персонализация
Семантика и интент
Поведенческие сигналы

Мультимедиа
EEAT и качество
Ссылки

Персонализация
Поведенческие сигналы
SERP

Персонализация
SERP
Ссылки

Мультиязычность
Поведенческие сигналы
SERP

Ссылки
Структура сайта
Семантика и интент

Персонализация
Поведенческие сигналы
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Knowledge Graph
Свежесть контента
Семантика и интент

Knowledge Graph
Семантика и интент
EEAT и качество

Ссылки
Семантика и интент
Индексация

Семантика и интент
EEAT и качество
SERP
