Google анализирует визуальные запросы (изображения) для распознавания сущностей (продукты, логотипы, текст, здания). Система находит связанную информацию в индексе (номера телефонов, адреса, URL) и генерирует «действенные результаты» — интерактивные кнопки, позволяющие пользователю немедленно совершить действие (позвонить, купить, проложить маршрут), запуская соответствующее приложение.
Описание
Какую задачу решает
Патент решает проблему разрыва между распознаванием сущности на изображении и взаимодействием с ней. Традиционный визуальный поиск предоставляет информацию об объекте. Данное изобретение позволяет пользователю немедленно действовать в отношении распознанного объекта (например, позвонить в компанию, чей логотип распознан, купить продукт с фотографии или проложить маршрут к зданию) без ручного ввода данных.
Что запатентовано
Запатентована система, которая обрабатывает визуальный запрос (изображение), идентифицирует в нем сущности и генерирует Actionable Search Result Elements (действенные элементы результатов поиска). Эти элементы (например, кнопки) инициируют конкретные действия на клиентском устройстве (client-side actions). Ключевой особенностью является способность системы находить необходимую для действия информацию (например, номер телефона) в связанных результатах поиска, даже если ее нет на самом изображении (косвенная ассоциация).
Как это работает
Система работает следующим образом:
- Получение и анализ: Сервер получает изображение и анализирует его с помощью параллельных систем (OCR, распознавание объектов, лиц, штрихкодов).
- Идентификация сущности: Идентифицируются конкретные сущности (продукт, логотип, адрес).
- Определение действий: Система определяет возможные действия, основываясь на распознанной сущности и информации, найденной в результатах поиска (косвенная ассоциация).
- Генерация элементов действия: Создаются интерактивные элементы (например, кнопки «Позвонить», «Купить»).
- Ответ и выполнение: Элементы отправляются клиенту и отображаются отдельно от стандартного списка результатов. При выборе элемента запускается соответствующее приложение на устройстве (номеронабиратель, карты, браузер).
Актуальность для SEO
Высокая. Описанные механизмы лежат в основе современных систем визуального поиска, таких как Google Lens. Возможность связать визуальное распознавание с конкретными действиями и локальным контекстом (включая использование данных Street View) является ключевым направлением развития мобильного поиска и дополненной реальности (AR).
Важность для SEO
Патент имеет высокое стратегическое значение (80/100). Он демонстрирует переход Google от предоставления информации к фасилитации действий и транзакций через визуальный интерфейс. Для SEO это подчеркивает критическую важность оптимизации сущностей (Entity Optimization): информация о бизнесе (контакты, адреса, доступность товаров) должна быть точной, полной и легко ассоциироваться с визуальными идентификаторами бренда (логотипы, продукты, витрины). Это напрямую влияет на конверсии из визуального поиска.
Детальный разбор
Термины и определения
- Actionable Search Result Element (Действенный элемент результата поиска)
- Интерактивный элемент интерфейса (например, кнопка), сгенерированный поисковой системой. Он сконфигурирован для запуска определенного Client-Side Action на устройстве пользователя.
- Client-Side Action (Действие на стороне клиента)
- Операция, запускаемая на устройстве пользователя при активации Actionable Search Result Element. Примеры: инициирование звонка, создание email, построение маршрута, покупка товара.
- Entity (Сущность)
- Объект, распознанный в визуальном запросе. Может быть человеком, компанией, логотипом, продуктом, штрихкодом, адресом, зданием и т.д.
- Enhanced Location Information (Уточненная информация о местоположении)
- Более точные координаты и направление взгляда пользователя, полученные путем сопоставления визуального запроса с базой данных геолоцированных изображений (например, Street View).
- Location-Augmented Search System (Поисковая система с дополнением местоположением)
- Система, использующая визуальный запрос и данные о местоположении клиента для уточнения местоположения пользователя и поиска локальных совпадений.
- Non-OCR image matching process (Процесс сопоставления изображений без OCR)
- Методы идентификации сущностей, не основанные на распознавании текста (например, распознавание объектов, логотипов, лиц).
- Parallel Search Systems (Параллельные поисковые системы)
- Специализированные системы, одновременно анализирующие визуальный запрос (например, OCR Search System, Face Recognition Search System, Image to Terms Search System).
- Visual Query (Визуальный запрос)
- Изображение, отправленное в поисковую систему в качестве запроса.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод обработки визуального запроса на стороне сервера для генерации действенных результатов.
- Сервер получает визуальный запрос (изображение) от клиента.
- В ответ система:
- Получает набор результатов поиска по этому запросу.
- Анализирует изображение для идентификации сущности (Entity).
- Идентифицирует одно или несколько действий на стороне клиента (Client-Side Actions), соответствующих этой сущности, основываясь на информации, содержащейся в полученном наборе результатов поиска.
- Создает один или несколько Actionable Search Result Elements, настроенных для запуска этих действий.
- Система отправляет клиенту действенные элементы и как минимум один стандартный результат поиска.
- Форматирование гарантирует, что действенные элементы отображаются в области дисплея (search result element portion), отличной от той, где отображается список стандартных результатов (search result portion).
Ядро изобретения — это возможность косвенной ассоциации: действия определяются на основе информации, найденной в результатах поиска, а не только извлеченной из самого изображения. Также критично разделение интерфейса на информационную и действенную части.
Claim 4 (Зависимый от 1): Уточняет, что идентификация сущности может использовать non-OCR image matching process (распознавание объектов, логотипов, лиц и т.д.).
Claim 12 (Зависимый от 1): Детализирует сценарий с распознаванием человека. Если идентифицирован человек, и результаты поиска содержат его коммуникационный адрес (email, профиль соцсети), система создаст действенный элемент для связи с ним, используя этот адрес.
Claim 17 (Независимый пункт): Описывает процесс на стороне клиента, фокусируясь на получении и отображении результатов и действенных элементов в разных областях дисплея.
Где и как применяется
Изобретение применяется в рамках архитектуры визуального поиска (например, Google Lens) и затрагивает несколько этапов.
INDEXING – Индексирование и извлечение признаков
На этом этапе формируются базы данных для распознавания (базы лиц, объектов, Street View) и индексируется информация о сущностях и связанных с ними данных для действий (телефоны, URL, адреса в Knowledge Graph и веб-индексе).
RANKING – Ранжирование (в контексте визуального поиска)
Front End Visual Query Processing Server координирует процесс и отправляет запрос в Parallel Search Systems (OCR, Image to Terms и т.д.). Эти системы возвращают результаты, которые используются для идентификации сущностей на изображении.
METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
Это основной этап применения патента. Front End Server агрегирует результаты. Модуль Actionable Search Results Module анализирует их, идентифицирует сущности и определяет релевантные Client-Side Actions, используя данные из индекса. Затем он создает Actionable Search Result Elements. Происходит смешивание (blending) информационных результатов с элементами действия для формирования финальной выдачи (SERP).
Входные данные:
- Визуальный запрос (изображение).
- Опционально: информация о местоположении клиента (Location Information).
Выходные данные:
- Набор стандартных результатов поиска.
- Набор Actionable Search Result Elements, отформатированных для отображения в отдельной области интерфейса.
На что влияет
- Конкретные ниши или тематики:
- E-commerce: Прямое влияние через распознавание продуктов и штрих-кодов с генерацией кнопок «Купить» или «Отзывы».
- Локальный бизнес (Local SEO): Влияние через распознавание визиток, вывесок, зданий (особенно в сочетании с геолокацией) с генерацией кнопок «Позвонить», «Маршрут», «Забронировать».
- Специфические запросы: В первую очередь влияет на визуальные запросы с четким действенным или транзакционным интентом.
Когда применяется
- Триггер активации: Когда система успешно идентифицирует сущность в визуальном запросе (напрямую через OCR или через распознавание образов).
- Условие применения: Когда для идентифицированной сущности может быть определено одно или несколько релевантных Client-Side Actions. Это требует наличия связанных данных (телефон, URL, адрес) в изображении или в результатах поиска, связанных с этой сущностью.
Пошаговый алгоритм
Процесс обработки визуального запроса и генерации действенных результатов
- Прием запроса: Серверная система получает визуальный запрос от клиента. Опционально принимается информация о местоположении.
- Параллельная обработка: Запрос отправляется в одну или несколько систем визуального поиска (OCR, распознавание объектов и т.д.). Если предоставлена геолокация, она может быть использована для сужения поиска (например, в Location-Augmented Search System).
- Получение результатов и Идентификация сущности: Система собирает результаты и анализирует их для идентификации конкретных сущностей в изображении.
- (Опционально) Уточнение местоположения: Получение Enhanced Location Information путем сопоставления изображения с базой данных геотегированных изображений (Street View).
- Идентификация действий: Для каждой распознанной сущности система определяет потенциальные Client-Side Actions. Это основывается на информации, найденной в результатах поиска (например, поиск номера телефона для распознанного логотипа).
- Создание действенных элементов: Для наиболее релевантных действий система создает Actionable Search Result Elements (кнопки).
- Форматирование и отправка: Система отправляет клиенту стандартные результаты поиска и созданные действенные элементы, форматируя их для отображения в разных частях интерфейса.
- Исполнение действия (на клиенте): При выборе пользователем действенного элемента, клиент запускает соответствующее действие в приложении, отличном от приложения визуального поиска (например, открывает номеронабиратель или карты).
Какие данные и как использует
Данные на входе
Патент фокусируется на использовании визуальных данных и данных из индекса для генерации действий.
- Контентные/Мультимедиа факторы (Визуальные данные): Изображение (визуальный запрос). Анализируется для распознавания текста (OCR), лиц, штрихкодов, логотипов, продуктов, зданий.
- Географические факторы: Location Information от клиента (GPS, данные сотовых вышек). Используется для уточнения визуального поиска, особенно для локальных запросов (Street View visual queries).
- Данные из Индекса/Knowledge Graph (Search Results): Критически важный компонент. Информация для выполнения действия (URL, номер телефона, адрес) часто извлекается из результатов поиска, связанных с распознанной сущностью, а не напрямую из изображения (косвенная ассоциация).
Какие метрики используются и как они считаются
Патент не детализирует конкретные формулы, но упоминает следующие концепции:
- Оценка релевантности/качества совпадения (Relevance Score): Метрики, используемые параллельными поисковыми системами для оценки точности распознавания сущностей.
- Оценка действенных результатов (Scoring Actionable Results): Потенциальные Actionable Search Result Elements могут оцениваться (scored) на основе факторов, таких как релевантность, популярность, связь с фокусом запроса и история пользователя, чтобы выбрать Топ-N элементов для отображения.
- Критерий точности геолокации: Для локальных запросов может использоваться порог точности входящих данных о местоположении (например, не хуже 100 метров) для активации Location-Augmented Search.
Выводы
- Визуальный поиск как интерфейс для транзакций и действий: Google рассматривает визуальный поиск не только как способ получения информации, но и как прямой путь к совершению действий. Система спроектирована для выявления действенного (actionable) интента на основе изображений.
- Критичность косвенных ассоциаций и данных о сущностях: Ключевым механизмом является способность системы найти данные для действия (телефон, URL) в индексе, даже если они отсутствуют на изображении. Это подчеркивает фундаментальную важность оптимизации сущностей (Entity Optimization) и обеспечения точности данных в Knowledge Graph и веб-индексе.
- Приоритет действия над информацией в UI: Патент явно предусматривает (Claim 1) отдельную область отображения для Actionable Search Result Elements, отличную от стандартного списка результатов. Это указывает на стремление Google ускорить путь пользователя от распознавания к действию.
- Мультимодальность и параллельная обработка: Успех системы зависит от координации нескольких технологий (OCR, распознавание объектов, лиц, геолокация). Система агрегирует данные от всех этих систем для определения наилучшего действия.
- Геолокация как усилитель локального визуального поиска: Использование Location Information для уточнения визуального запроса (например, Street View) позволяет генерировать гиперлокальные действенные результаты, что критично для Local SEO.
Практика
Best practices (это мы делаем)
Практическое применение направлено на обеспечение того, чтобы Google мог точно идентифицировать ваши сущности визуально и связать их с правильными действиями.
- Оптимизация сущностей и согласованность данных (Entity Optimization & NAP Consistency): Поскольку действия часто основаны на косвенных ассоциациях, критически важно обеспечить полноту и точность информации о компании и продуктах в индексе Google (GBP, Merchant Center, Schema.org). Google должен иметь возможность связать распознанный визуальный образ (логотип, продукт) с актуальными данными для действия (телефон, URL покупки, адрес).
- Оптимизация изображений для распознавания: Используйте четкие, высококачественные изображения продуктов и логотипов. Убедитесь, что ключевые визуальные идентификаторы не заслонены и хорошо читаемы. Это повышает вероятность точного распознавания сущности системами Image to Terms.
- Локальная оптимизация для визуального поиска: Для локального бизнеса убедитесь, что физический вид вашего заведения (вывеска, фасад) соответствует изображениям в GBP и хорошо виден на Street View. Это помогает системе Location-Augmented Search System точно идентифицировать ваше местоположение при уличных запросах и генерировать корректные действия (маршрут, звонок).
- Оптимизация печатных материалов и упаковки (OCR): При разработке визиток, меню или упаковки используйте разборчивые шрифты и стандартные форматы для контактной информации. Размещайте штрихкоды и QR-коды. Это позволяет системам OCR и сканерам штрихкодов корректно извлекать данные для генерации действий.
Worst practices (это делать не надо)
- Расхождение данных о сущности: Наличие устаревших или противоречивых контактных данных в разных источниках. Если система распознает логотип, но найдет неверный номер телефона в связанных результатах поиска, она сгенерирует некорректное действие.
- Использование сложных шрифтов или низкого контраста: Использование стилизованных или нечитаемых шрифтов для номеров телефонов или URL на изображениях (реклама, упаковка) снижает эффективность OCR и препятствует созданию действенных результатов.
- Блокировка визуальных идентификаторов: Размещение водяных знаков или других элементов поверх логотипов или штрих-кодов может помешать системам распознавания идентифицировать сущность.
Стратегическое значение
Патент подтверждает стратегию Google на превращение поиска (особенно через Google Lens) в бесшовный инструмент для взаимодействия с миром. Для SEO это означает, что оптимизация выходит за рамки сайта. Стратегия должна включать обеспечение того, чтобы физическое присутствие бренда (продукты, локации) было оптимизировано для визуального распознавания и связано с цифровыми данными, позволяющими совершать действия. Визуальный поиск становится прямым каналом конверсии.
Практические примеры
Сценарий 1: Оптимизация E-commerce для визуальных покупок
- Задача: Увеличить продажи товара через визуальный поиск.
- Действия на основе патента: 1. Разместить четкие изображения товара на сайте и в Merchant Center. 2. Внедрить структурированные данные (Product Schema) с актуальными offers и URL для покупки.
- Как работает система: Пользователь фотографирует товар. Система распознает продукт (Entity). Система ищет связанные данные и находит информацию из Merchant Center или Schema (косвенная ассоциация). Actionable Search Results Module определяет действие «Покупка» и генерирует кнопку.
- Результат: Пользователь видит кнопку «Купить» прямо в интерфейсе визуального поиска, ведущую на URL покупки.
Сценарий 2: Локальный бизнес и Street View запросы
- Задача: Привлечь пешеходов, использующих визуальный поиск на улице.
- Действия на основе патента: 1. Обновить GBP с точными координатами, телефоном и ссылкой на бронирование. 2. Загрузить качественные фото фасада и вывески в GBP.
- Как работает система: Пользователь фотографирует фасад ресторана. Система использует GPS и сопоставляет фото с базой Street View (Location-Augmented Search System), получая точное местоположение. Система идентифицирует ресторан (Entity) и находит его телефон в GBP. Генерируются кнопки «Позвонить» и «Маршрут».
- Результат: Пользователь мгновенно может позвонить в ресторан или построить маршрут, не вводя текст.
Вопросы и ответы
Что такое «Actionable Search Result Element» в контексте этого патента?
Это интерактивный элемент интерфейса (чаще всего кнопка), который генерируется сервером на основе распознанной в изображении сущности. Его цель — позволить пользователю немедленно совершить действие, например, «Позвонить», «Купить», «Проложить маршрут». При нажатии он запускает соответствующее приложение на устройстве пользователя (номеронабиратель, карты, браузер).
Должна ли информация для действия (например, номер телефона) присутствовать на самом изображении?
Нет, это не обязательно и является ключевой особенностью патента (Claim 1). Система может распознать сущность визуально (например, логотип компании или продукт) с помощью non-OCR image matching, а затем найти необходимые данные (номер телефона, URL) в результатах поиска, ассоциированных с этой сущностью. Это называется косвенной ассоциацией.
Как этот патент связан с Google Lens?
Этот патент описывает фундаментальную механику, лежащую в основе Google Lens. Возможность распознавать объекты и немедленно предлагать контекстные действия (купить, позвонить, перевести, найти маршрут) является прямой реализацией концепций, изложенных в данном документе.
Какое значение это имеет для E-commerce SEO?
Критическое. Он превращает визуальный поиск в прямой канал продаж. Если система распознает ваш продукт на изображении и сможет найти актуальные данные о покупке (например, через Merchant Center или Schema.org), она сгенерирует кнопку «Купить». Это значительно сокращает путь пользователя к конверсии.
Как это влияет на локальный SEO (Local SEO)?
Влияние очень велико, особенно в сочетании с геолокацией (Street View queries). Патент описывает Location-Augmented Search, позволяющий идентифицировать бизнес по фотографии фасада и предложить действия. Это подчеркивает важность точности данных в Google Business Profile и качества изображений экстерьера.
Как SEO-специалист может повлиять на то, какие действия Google предложит для его сущностей?
Основной способ влияния — это обеспечение полноты, точности и связности данных о сущности в индексе Google (Entity Optimization). Убедитесь, что Google четко ассоциирует ваш бренд или продукт с актуальными контактными данными, адресами и URL для покупки. Использование структурированных данных и активное управление профилями (GBP, Merchant Center) являются ключевыми инструментами.
Какие технологии используются для распознавания сущностей на изображении?
Патент описывает использование параллельных поисковых систем (Parallel Search Systems). Ключевые из них — OCR (для текста, номеров телефонов, URL), системы распознавания образов (Image to Terms для объектов, логотипов, достопримечательностей), распознавание лиц (Face Recognition) и распознавание штрих-кодов.
Отличается ли отображение действенных результатов от обычных результатов поиска?
Да, патент явно указывает (Claim 1), что Actionable Search Result Elements форматируются для отображения в области дисплея, отличной от той, где отображается стандартный список результатов поиска. Это делается для того, чтобы выделить возможность немедленного действия и ускорить взаимодействие.
Что такое «Enhanced Location Information»?
Это уточненные данные о местоположении. Если исходные данные GPS имеют погрешность, система может использовать визуальный запрос и сопоставить его с базой Street View (используя Location-Augmented Search System), чтобы определить точное местоположение и направление взгляда пользователя. Это позволяет предоставлять гиперлокальные результаты и действия.
Может ли система ошибочно связать мой логотип с чужим номером телефона?
Да, если в индексе Google присутствует несогласованная или спамная информация, связывающая ваши визуальные активы с некорректными данными. Это подчеркивает необходимость мониторинга индекса и поддержания чистоты и авторитетности данных о вашем бренде (Entity Authority).