Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google преобразует изображения в текстовые поисковые запросы, используя сущности и контекст пользователя

    MAPPING IMAGES TO SEARCH QUERIES (Сопоставление изображений с поисковыми запросами)
    • US12298985B2
    • Google LLC
    • 2025-05-13
    • 2016-04-18
    2016 Google Shopping Matthew Sharifi Мультимедиа Патенты Google Семантика и интент

    Патент Google описывает механизм Визуального поиска (например, Google Lens). Система анализирует входное изображение, распознает объекты и сущности (используя общие и детальные метки). Затем она генерирует список потенциальных текстовых запросов, связанных с этими сущностями, и выбирает лучший из них, учитывая контекст пользователя (местоположение, активность), популярность запроса и качество результирующей выдачи.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему интерпретации намерения пользователя (user intent), когда в качестве запроса используется изображение (визуальный поиск). Задача состоит в том, чтобы понять, какую информацию ищет пользователь, предоставив изображение объекта, и перевести это визуальное намерение в наиболее релевантный текстовый запрос (natural language candidate search query), который может быть обработан стандартной поисковой системой.

    Что запатентовано

    Запатентована система для преобразования изображения (query image) в текстовый поисковый запрос. Система объединяет результаты визуального распознавания (query image labels) с данными из логов поисковых запросов и атрибутами запросов для генерации релевантных текстовых кандидатов. Ключевым элементом является механизм оценки этих кандидатов с учетом контекста пользователя (например, местоположение, активность) для выбора наилучшего представительного запроса (representative search query).

    Как это работает

    Система работает в несколько этапов:

    • Аннотирование: Входящее изображение анализируется Image Annotator для добавления меток, которые могут быть общими (coarse-grained, например, «здание») или точными (fine-grained, например, «The Gherkin»).
    • Распознавание сущностей: Метки используются Recognition Engine для идентификации конкретных сущностей (Entities) из базы знаний.
    • Генерация кандидатов: Knowledge Engine извлекает связанные с этими сущностями текстовые запросы из заранее подготовленной базы (pre-computed query map).
    • Оценка и выбор: Кандидаты оцениваются (Relevance Score) на основе соответствия контексту пользователя, популярности запроса и оценки того, насколько «интересной и полезной» будет результирующая SERP.
    • Вывод: Выбирается лучший текстовый запрос, и пользователю предоставляется соответствующая страница результатов поиска.

    Актуальность для SEO

    Высокая. Патент является продолжением (continuation) заявки 2016 года и описывает фундаментальные механизмы систем визуального поиска, таких как Google Lens. Технологии мультимодального поиска (изображение + контекст/текст) и преобразования визуального ввода в текстовые запросы являются зрелыми и критически важными для текущей стратегии Google.

    Важность для SEO

    Влияние на SEO высокое (85/100). Патент раскрывает, как Google интерпретирует изображения и какие факторы влияют на выбор текстового запроса, который будет выполнен от имени пользователя. Это напрямую влияет на оптимизацию под визуальный поиск. Понимание этого процесса критически важно для обеспечения того, чтобы визуальные представления сущностей (продуктов, логотипов, мест) корректно распознавались и связывались с релевантными коммерческими или информационными текстовыми запросами.

    Детальный разбор

    Термины и определения

    Candidate Search Query (Запрос-кандидат)
    Текстовый поисковый запрос, предварительно связанный с сущностями, распознанными на изображении.
    Context (Контекст)
    Информация, связанная с запросом, помимо самого изображения. Включает местоположение, намерение (intent) пользователя, активность пользователя (например, шопинг, туризм) или сопутствующий текстовый/голосовой запрос (Natural language query).
    Coarse-grained Image Labels (Общие/Грубые метки)
    Метки, которые идентифицируют общие классы объектов (например, «здание», «книга»). Согласно Claim 1, используются для определения классов объектов.
    Entity (Сущность)
    Конкретный идентифицируемый объект, человек, место и т.д. Согласно Claim 1, это конкретные экземпляры (specific instances) классов объектов.
    Fine-grained Image Labels (Детальные/Точные метки)
    Метки, которые идентифицируют конкретные объекты (например, «The Gherkin», конкретная обложка книги). Могут включать результаты OCR.
    Image Annotator (Аннотатор изображений)
    Компонент, который анализирует изображение и присваивает ему Query Image Labels.
    Knowledge Engine (Движок знаний)
    Компонент, который идентифицирует Candidate Search Queries, связанные с сущностями, и рассчитывает Relevance Scores.
    Label Score (Оценка метки)
    Метрика, присваиваемая метке. Основывается на topicality, специфичности, надежности бэкенда и его уверенности (calibrated backend confidence score).
    Pre-computed Query Map (Предварительно вычисленная карта запросов)
    База данных, связывающая сущности с соответствующими поисковыми запросами, основанная на анализе логов поиска.
    Query Image (Изображение-запрос)
    Входное изображение, используемое как поисковый запрос.
    Relevance Score (Оценка релевантности)
    Метрика, присваиваемая Candidate Search Query, указывающая на его соответствие изображению и контексту пользователя.
    Representative Search Query (Репрезентативный поисковый запрос)
    Выбранный текстовый запрос с наивысшей итоговой оценкой.
    Topicality (Топикальность/Важность)
    Показатель того, насколько важна метка для изображения в целом (например, центральный или крупный объект).

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной процесс преобразования изображения в результат поиска.

    1. Получение query image.
    2. Обработка изображения с помощью image annotator для идентификации меток. Ключевое требование: метки включают coarse grained image labels (классы объектов).
    3. Определение entities, связанных с метками. Эти сущности являются конкретными экземплярами (specific instances) этих классов.
    4. Определение набора candidate search queries на основе сущностей.
    5. Определение context, связанного с изображением-запросом.
    6. Определение representative search query из набора кандидатов, основываясь, по крайней мере частично, на context.
    7. Получение и предоставление для отображения страницы результатов поиска (SERP) для этого запроса.

    Ядром изобретения является процесс, который способен использовать даже общие (coarse-grained) результаты визуального распознавания, связывать их с конкретными сущностями и затем применять контекстуальные сигналы для выбора наиболее подходящего текстового запроса.

    Claim 2 (Зависимый): Уточняет, что выбор представительного запроса также основывается на relevance scores, которые рассчитываются на основе популярности (popularity) запросов-кандидатов.

    Claim 5 (Зависимый): Уточняет, что relevance score может рассчитываться путем анализа потенциальной SERP для определения меры того, насколько она «интересна и полезна» (interesting and useful).

    Claim 13 (Зависимый от Claim 12): Уточняет, что система может принимать natural language query (текст или речь вместе с изображением) и использовать его для генерации relevance score.

    Claim 15 (Зависимый от Claim 12): Уточняет, что определение контекста включает определение намерения (intent) пользователя или его местоположения (location).

    Где и как применяется

    Изобретение применяется в системах визуального поиска (например, Google Lens) и затрагивает несколько этапов поисковой архитектуры.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе происходит предварительная подготовка данных: построение Knowledge Graph и генерация pre-computed query map путем анализа логов поисковых запросов для связи сущностей с популярными запросами.

    QUNDERSTANDING – Понимание Запросов (Основное применение)
    Это основной этап применения патента. Система обрабатывает нетекстовый ввод (изображение) и преобразует его в структурированное намерение, выраженное текстовым запросом.

    1. Image Annotator и Recognition Engine анализируют ввод и извлекают метки и сущности.
    2. Система собирает контекстуальные сигналы (местоположение, активность).
    3. Knowledge Engine ищет candidate search queries и рассчитывает relevance scores, используя контекст и другие факторы.
    4. Выбирается representative search query.

    RANKING / METASEARCH
    Выбранный текстовый запрос передается стандартным системам ранжирования для генерации финальной SERP. Патент также указывает, что система может предварительно оценить качество (interesting and useful) потенциальной SERP, чтобы повлиять на выбор самого запроса.

    Входные данные:

    • Query Image (данные изображения).
    • Контекстуальные данные (местоположение, активность пользователя, время).
    • Опционально: сопутствующий natural language query (текст/голос).

    Выходные данные:

    • Список Representative search queries (текстовые предложения).
    • Страница результатов поиска (SERP) для наиболее релевантного запроса.

    На что влияет

    • Специфические запросы: Наибольшее влияние на визуальные поисковые запросы, где намерение неоднозначно без контекста (например, фото продукта может означать желание купить, идентифицировать или прочитать отзывы).
    • Конкретные типы контента: Влияет на контент, связанный с четко идентифицируемыми сущностями: товары (ecommerce), локальные объекты (landmarks), медиа (книги, постеры), бренды.
    • Конкретные ниши: E-commerce, путешествия, локальный поиск.

    Когда применяется

    • Условия работы алгоритма: Алгоритм активируется, когда пользователь предоставляет изображение в качестве основного или дополнительного ввода для поискового запроса (например, через Google Lens).
    • Триггеры активации: Получение query image поисковой системой.

    Пошаговый алгоритм

    Процесс обработки визуального запроса

    1. Получение ввода: Система получает Query Image и сопутствующие данные (Context, опционально Natural Language Query).
    2. Аннотирование изображения: Image Annotator обрабатывает изображение для получения Query Image Labels (включая coarse-grained, fine-grained метки и OCR).
    3. Оценка меток (Опционально): Генерация Label Score для каждой метки на основе topicality (важности объекта), специфичности и уверенности системы распознавания.
    4. Идентификация сущностей: Recognition Engine сопоставляет полученные метки с известными Entities (например, используя Knowledge Graph).
    5. Генерация кандидатов: Knowledge Engine использует сущности для поиска Candidate Search Queries в pre-computed query map.
    6. Расчет оценки релевантности: Для каждого кандидата генерируется Relevance Score. Расчет включает:
      • Анализ контекста: Сравнение запроса с местоположением и активностью пользователя.
      • Анализ популярности: Учет частоты использования запроса (Popularity).
      • Анализ качества SERP (Опционально): Оценка предполагаемой страницы результатов на «интересность и полезность».
      • Мультимодальное сопоставление (Опционально): Учет сопутствующего natural language query.
    7. Выбор репрезентативного запроса: Выбор одного или нескольких запросов с наивысшими оценками. Выбор может основываться на агрегированной оценке, сочетающей Relevance Score и Label Score.
    8. Вывод результатов: Система предоставляет выбранные текстовые запросы и/или генерирует и отображает SERP для запроса с наивысшим рейтингом.

    Какие данные и как использует

    Данные на входе

    • Мультимедиа факторы: Данные изображения (Query Image). Основной входной сигнал, анализируемый для извлечения визуальных признаков и текста (OCR).
    • Географические факторы: Местоположение, связанное с изображением или текущее местоположение пользователя. Используется для определения Context.
    • Пользовательские факторы: Данные об активности пользователя (user activity), такие как недавние поисковые запросы или данные календаря. Используются для определения контекста (например, шопинг, туризм). Язык пользователя.
    • Контентные факторы (Опционально): Сопутствующий natural language query (текст или речь).
    • Поведенческие факторы (Офлайн): Логи поисковых запросов используются для создания pre-computed query map и определения Popularity.

    Какие метрики используются и как они считаются

    • Label Score: Оценка качества и релевантности метки изображения. Учитывает:
      • Topicality: Насколько важен или централен объект на изображении.
      • Специфичность метки.
      • Calibrated backend confidence score и надежность (Reliability) бэкенда: Уверенность системы распознавания.
    • Relevance Score: Оценка соответствия текстового запроса-кандидата намерению пользователя. Учитывает:
      • Context Match: Соответствие запроса контексту (местоположению, активности, намерению).
      • Popularity: Популярность запроса в логах.
      • Measure of how interesting and useful the search results page is: Оценка качества SERP, генерируемой запросом (например, наличие визуальных элементов, oneboxes, webanswer cards).
      • Natural Language Match: Соответствие сопутствующему текстовому/голосовому вводу.
    • Aggregate Score: В некоторых вариантах итоговая оценка для выбора запроса агрегирует Label Score и Relevance Score.

    Выводы

    1. Визуальный поиск — это интерфейс к текстовому поиску через сущности: Система не ищет напрямую по визуальным признакам. Она интерпретирует изображение, идентифицирует Entities и конвертирует визуальный ввод в текстовый запрос, связанный с этими сущностями.
    2. Критическая роль контекста в определении интента: Содержание изображения — это только часть ввода. Context (местоположение, активность пользователя, время) играет решающую роль в выборе между различными возможными запросами. Одно и то же изображение приведет к разным результатам в разных ситуациях.
    3. Устойчивость за счет общих меток (Coarse-Grained): Система разработана так, чтобы работать, даже если детальное распознавание не удалось. Она может использовать общую метку (класс объекта) и контекст для уточнения запроса.
    4. Предпочтение популярным запросам и качественным SERP: Система смещена в сторону выбора текстовых запросов, которые (1) популярны среди пользователей (Popularity) и (2) приводят к формированию «интересных и полезных» SERP (с богатыми результатами).
    5. Мультимодальность как стандарт: Система изначально спроектирована для обработки комбинации визуального и текстового/голосового ввода (Natural Language Query), что позволяет более точно определять намерения.
    6. Оценка важности объектов (Topicality): Система определяет, какие объекты на изображении являются главными (по размеру, центральности), и метки этих объектов получают больший вес (Label Score).

    Практика

    Best practices (это мы делаем)

    • Оптимизация изображений для четкого распознавания и Topicality: Убедитесь, что ключевые объекты (продукты, логотипы) на изображениях четкие, хорошо освещенные и занимают центральное место. Это повышает topicality и улучшает качество query image labels, облегчая работу Image Annotator.
    • Усиление связи между визуальным представлением и сущностью: Обеспечьте, чтобы визуальные представления ваших продуктов или бренда были последовательными и четко связаны с вашей сущностью в Knowledge Graph (используйте Schema.org). Это гарантирует корректную идентификацию вашей сущности при визуальном поиске.
    • Создание контента для контекстуальных и популярных запросов: Поскольку система генерирует запросы на основе контекста и популярности, создавайте контент, отвечающий на различные намерения, связанные с вашими сущностями (коммерческие и информационные). Убедитесь, что вы покрываете популярные запросы.
    • Стремление к генерации богатых SERP (Rich Results): Поскольку система предпочитает запросы, ведущие к «интересным» SERP, оптимизируйте контент (используя структурированные данные) так, чтобы он способствовал появлению расширенных сниппетов и визуальных элементов в выдаче.
    • Использование текста на изображениях (OCR): Если уместно (упаковка, вывеска), убедитесь, что текст читаем. OCR используется для генерации меток.

    Worst practices (это делать не надо)

    • Использование неоднозначных, зашумленных или перегруженных изображений: Размещение изображений, где основной объект трудно идентифицировать или он теряется на фоне, снижает Topicality и может привести к неправильной идентификации меток и сущностей.
    • Использование только стоковых или генерических фото: Они часто не связаны с конкретными сущностями и могут быть ассоциированы только с общими coarse-grained labels, что затрудняет генерацию ценных для бизнеса запросов.
    • Игнорирование визуального поиска как источника трафика: Рассмотрение изображений только как элемента дизайна. Патент показывает, что Google активно переводит визуальный интерес в поисковый трафик.

    Стратегическое значение

    Патент подтверждает стратегическое направление Google на развитие мультимодального поиска (Google Lens). Для SEO это означает, что оптимизация выходит за рамки текста. Визуальные активы становятся полноценными точками входа в поиск. Стратегически важно обеспечить, чтобы система могла легко распознать ваши сущности визуально и связать их с наиболее ценными текстовыми запросами, учитывая различные контексты использования.

    Практические примеры

    Сценарий 1: Визуальный поиск продукта в разных контекстах (E-commerce)

    1. Ввод: Пользователь делает фото кроссовка (Query Image).
    2. Распознавание: Система идентифицирует Entity (например, конкретная модель Nike).
    3. Контекст А (Коммерческий): Пользователь находится в торговом центре (Location Context). Система генерирует Relevance Scores, отдавая предпочтение коммерческим намерениям. Результат: Representative Search Query: «Купить [Модель кроссовка]».
    4. Контекст Б (Информационный): Пользователь находится дома (Location Context) и недавно искал средства для чистки обуви (Activity Context). Результат: Representative Search Query: «Как чистить [Модель кроссовка]».
    5. SEO-действие: Иметь оптимизированный контент для обоих сценариев и четкие изображения продукта.

    Сценарий 2: Использование Coarse-Grained меток (Локальный поиск)

    1. Ввод: Пользователь делает фото неизвестного памятника.
    2. Распознавание: Image Annotator не может точно определить объект (нет fine-grained label), но определяет coarse-grained label: «Памятник».
    3. Контекст: Система использует текущее местоположение пользователя (например, центр города) и его активность (туризм).
    4. Генерация запросов: Система ищет сущности, соответствующие «Памятник» в контексте текущего местоположения.
    5. Результат: Representative Search Query: «Знаменитые памятники в [Название города]» или предлагает ближайший известный памятник.

    Вопросы и ответы

    Что такое coarse-grained и fine-grained метки и почему это важно?

    Fine-grained labels (детальные) идентифицируют конкретный объект (например, «The Gherkin»). Coarse-grained labels (общие) идентифицируют класс объектов (например, «здание»). Патент подчеркивает, что система может работать, даже если доступны только общие метки. Это важно, так как гарантирует работоспособность визуального поиска в сложных условиях, используя контекст для уточнения общих меток до конкретных намерений.

    Как Google определяет контекст пользователя при визуальном поиске?

    Патент упоминает несколько источников контекста. Основные — это местоположение пользователя или изображения и активность пользователя (user activity). Активность может определяться по недавним поисковым запросам, данным календаря или местоположению (например, нахождение в торговом центре предполагает шопинг, а возле достопримечательности — туризм).

    Что означает, что система оценивает, насколько SERP «интересна и полезна»?

    Это означает, что при выборе лучшего текстового запроса система может предварительно оценить качество выдачи по этому запросу. Запросы, которые генерируют визуально богатые SERP, например, содержащие oneboxes, webanswer cards, Knowledge Panels или множество визуальных элементов, считаются более интересными и получают более высокий Relevance Score.

    Как SEO-специалист может повлиять на то, какие текстовые запросы Google свяжет с изображением?

    Напрямую повлиять сложно, так как pre-computed query map строится на основе общих логов поиска. Косвенно можно повлиять, обеспечив четкое визуальное распознавание вашей сущности (оптимизация изображений) и создав высококачественный контент, который отвечает на популярные запросы, связанные с этой сущностью, и генерирует богатые SERP.

    Что такое Topicality и как ее улучшить?

    Topicality — это показатель того, насколько объект важен или централен на изображении. Она используется при расчете Label Score. Чтобы ее улучшить, делайте объект интереса крупным, располагайте его по центру кадра и используйте нейтральный или размытый фон. Это помогает системе понять, какой именно объект является предметом запроса.

    Как система обрабатывает мультимодальные запросы (изображение + текст/голос)?

    Если пользователь предоставляет изображение вместе с текстовым или голосовым вводом (natural language query), этот ввод используется как сильный сигнал контекста и намерения. Запросы-кандидаты, соответствующие этому дополнительному вводу, получат значительное повышение в Relevance Score.

    Использует ли система OCR (текст на изображении) при анализе?

    Да, в описании патента указано, что Image Annotator может возвращать метки, основанные на OCR. Например, текст на уличных знаках, упаковке продукта или названия магазинов на изображении могут быть идентифицированы как query image labels и использованы для генерации запросов.

    Как этот патент связан с Google Lens?

    Этот патент описывает базовые механизмы, лежащие в основе работы систем типа Google Lens. Он детально описывает процесс, который происходит «под капотом»: от получения изображения до генерации осмысленных текстовых запросов и предоставления результатов поиска на их основе.

    Что важнее для SEO в контексте этого патента: качество изображения или текстовая оптимизация сайта?

    Важны оба аспекта. Качество и содержание изображения критичны для инициирования процесса и корректной идентификации сущности. Однако, чтобы получить трафик, ваш сайт должен хорошо ранжироваться по тому текстовому запросу, который система в итоге сгенерирует (Representative Search Query).

    Как этот патент влияет на E-commerce и локальный бизнес?

    Влияние критично. Для E-commerce важно, чтобы товар (Entity) был распознан по фото, а контекст определил коммерческий интент. Для локального бизнеса важно распознавание места (например, по фото фасада) и использование локации пользователя для генерации запросов типа «как добраться» или «часы работы».

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.