Google использует сложные методы OCR и обработки изображений (включая Super-resolution) для извлечения текста (названия компаний, адреса, вывески) из реальных фотографий. Этот текст индексируется вместе с географическими координатами и используется для верификации данных о местных компаниях, улучшения результатов локального поиска и таргетинга рекламы.
Описание
Какую задачу решает
Патент решает две основные задачи. Во-первых, это техническая проблема надежного автоматического распознавания текста на изображениях реального мира (например, уличных сцен). Эта задача осложняется низким качеством изображений (разрешение, искажения, артефакты сжатия) и факторами окружающей среды (освещение, тени, препятствия, перспектива). Во-вторых, это информационная задача использования извлеченного текста для индексации и поиска, в частности, для связывания физических объектов (компаний, адресов) с их географическим положением.
Что запатентовано
Запатентована система и метод для извлечения текста из изображений и его индексации совместно с данными о географическом местоположении (geographic location), где было сделано изображение. Система использует комплексный конвейер, включающий предварительную обработку изображений, обнаружение кандидатов на текст с помощью классификаторов (Classifier), улучшение качества этих кандидатов (в частности, с помощью технологии Super-resolution) и оптическое распознавание символов (OCR). Извлеченный текст и его местоположение затем используются для ответа на поисковые запросы и таргетинга рекламы.
Как это работает
Система работает по следующему конвейеру:
- Сбор данных: Получение изображений (например, панорам Street View) вместе с метаданными, такими как GPS-координаты и, возможно, 3D-данные о дальности (3D range data).
- Предварительная обработка: Улучшение контрастности (например, адаптивная нормализация) и коррекция искажений для выделения текста.
- Обнаружение текста: Использование обученного Classifier для выявления областей-кандидатов (candidate text regions), которые могут содержать текст, на основе анализа признаков (градиенты, углы).
- Улучшение кандидатов (Super-resolution): Ключевой механизм, который объединяет несколько изображений одной и той же сцены (снятых движущейся камерой) для создания единого изображения текста с более высоким разрешением.
- Распознавание (OCR): Применение OCR к улучшенным изображениям для извлечения текстовых данных.
- Индексация и Применение: Индексация извлеченного текста вместе с его географическим положением для использования в локальном поиске и рекламе.
Актуальность для SEO
Критически высокая. Описанные технологии являются фундаментом для работы Google Street View, Google Lens и их интеграции с Google Maps и Local Search. Способность Google извлекать и понимать текст из реального мира напрямую влияет на то, как система проверяет существование местных компаний, их названия, адреса и часы работы (Валидация Сущностей).
Важность для SEO
Патент имеет критическое значение (8.5/10) для локального SEO (Local SEO). Он демонстрирует механизм, с помощью которого Google валидирует данные о физических точках (NAP — Name, Address, Phone) путем анализа изображений. Если информация на физической вывеске компании не совпадает с данными в Google Business Profile (GBP) или плохо читаема, это может негативно повлиять на локальное ранжирование и доверие системы. Патент также подчеркивает, что извлеченный текст используется для таргетинга рекламы.
Детальный разбор
Термины и определения
- 3D Range Data (3차원 레인지 데이터)
- Информация о расстоянии от камеры до точек на изображении. Получается с помощью LIDAR или стереосенсоров. Используется для фильтрации кандидатов на текст (например, текст обычно находится на плоских поверхностях) и улучшения выравнивания изображений.
- Adaptive Gray Value Normalization (Адаптивная нормализация значений серого)
- Метод предварительной обработки для улучшения контрастности изображения, особенно в областях с низким контрастом (например, в тени).
- Candidate Text Region (후보 텍스트 영역)
- Участок изображения, идентифицированный классификатором как потенциально содержащий текст.
- Classifier (분류기)
- Модель, обученная отличать текст от нетекстовых элементов на основе анализа признаков изображения (Features) (градиенты, углы, гистограммы и т.д.).
- Features (특성)
- Атрибуты изображения, анализируемые классификатором для обнаружения текста. Включают градиенты, контраст, формы линий, углы, распределение краев.
- Geographic location data (지리적 위치를 식별하는 데이터)
- Данные (например, GPS-координаты), определяющие место, где было получено изображение.
- OCR (Optical Character Recognition — 광학 문자 인식)
- Процесс преобразования изображения текста в машиночитаемый текстовый формат.
- Super-resolution (초고해상도)
- Техника улучшения качества, которая объединяет несколько изображений низкого разрешения одной и той же сцены (снятых с разных ракурсов) для создания одного изображения высокого разрешения.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной процесс связывания извлеченного текста с географией и его использование в поиске.
- Система получает данные, идентифицирующие изображение И соответствующее географическое местоположение, где оно было получено.
- Извлекается текст внутри изображения.
- Извлеченный текст индексируется вместе с данными о географическом местоположении для создания одного или нескольких индексов.
- Система получает запрос и использует индекс(ы) для определения изображения, удовлетворяющего запросу.
- В ответ на запрос система предоставляет (i) результаты поиска, связанные с географическим местоположением, И (ii) само изображение.
Ядро изобретения — это не просто распознавание текста, а его индексация в привязке к географии и использование этой связки для предоставления комбинированных результатов (локальный поиск + изображение).
Claim 2 (Зависимый от 1): Детализирует технический процесс извлечения текста.
- Обработка изображения для разделения его на области.
- Обнаружение характеристик (features) в каждой области.
- Определение, является ли область кандидатом на текст на основе обнаруженных признаков.
- Улучшение (enhance) областей-кандидатов с использованием процессов коррекции качества изображения (например, Super-resolution) для создания улучшенного изображения.
- Выполнение OCR на улучшенном изображении.
Этот пункт описывает технический конвейер обработки, включая обнаружение и улучшение текста перед распознаванием.
Claim 7, 8, 9 (Зависимые от 1): Описывают использование системы для рекламы.
- Claim 7: Система дополнительно предоставляет одну или несколько рекламных объявлений вместе с изображением.
- Claim 8: Предоставляемая реклама определяется на основе содержания запроса пользователя.
- Claim 9: Предоставляемая реклама определяется с использованием извлеченного текста из изображения.
Эти пункты критически важны, так как показывают прямую монетизацию технологии: реклама может таргетироваться не только на запрос пользователя, но и на то, что физически изображено и распознано на картинке (например, реклама конкретного бренда, распознанного на фото).
Где и как применяется
Изобретение охватывает несколько этапов поисковой архитектуры, в основном фокусируясь на сборе и индексации данных для локального поиска.
CRAWLING – Сканирование и Сбор данных
На этом этапе происходит физический сбор данных: получение изображений (например, с помощью автомобилей Street View или загрузка пользователями) и сбор связанных метаданных, таких как GPS-координаты и 3D Range Data.
INDEXING – Индексирование и извлечение признаков
Это основная фаза применения патента. Система выполняет сложную обработку собранных изображений:
- Предварительная обработка: Улучшение контрастности и коррекция искажений.
- Обнаружение текста: Использование классификаторов для поиска Candidate Text Regions.
- Улучшение (Super-resolution): Повышение разрешения текстовых областей путем объединения нескольких кадров.
- Извлечение признаков (OCR): Распознавание текста.
- Индексация: Создание индекса, который связывает извлеченный текст (признак) с географическим местоположением.
METASEARCH – Метапоиск и Смешивание / RANKING – Ранжирование (Локальный поиск)
На этом этапе система использует созданный индекс. При получении запроса (например, названия компании или адреса), система обращается к индексу, чтобы найти соответствующие изображения и связанные с ними географические данные. Это используется для формирования результатов локального поиска (Local Pack), карт и выбора релевантной рекламы.
Входные данные:
- Цифровые изображения (панорамы, статичные фото, видеокадры).
- Географические координаты (GPS).
- 3D Range Data (опционально).
- Базы данных для поддержки OCR (названия компаний, словари).
Выходные данные:
- Индекс, связывающий извлеченный текст с географическим положением.
- Результаты поиска, включающие изображения и связанные локальные данные.
- Рекламные объявления, таргетированные на основе извлеченного текста или запроса.
На что влияет
- Конкретные типы контента: Изображения с географической привязкой (Street View, фотографии в Google Maps).
- Специфические запросы: Локальные запросы (название компании + город, адрес), запросы, связанные с поиском физических объектов.
- Конкретные ниши или тематики: Критически влияет на все ниши, связанные с физическим присутствием: ритейл, рестораны, услуги, недвижимость. В патенте также упоминается применение для индексации товаров в магазинах и экспонатов в музеях.
Когда применяется
Алгоритм применяется в двух основных сценариях:
- Офлайн-обработка (Индексация): Во время обработки и индексации новых или обновленных изображений с географической привязкой (например, после проезда автомобиля Street View).
- Во время выполнения запроса (Поиск): Когда система использует созданный индекс для ответа на локальные поисковые запросы или запросы в картографических сервисах.
Пошаговый алгоритм
Процесс А: Обработка изображения и Индексация (Офлайн)
- Сбор данных: Получение изображений и связанных с ними географических данных и 3D Range Data.
- Предварительная обработка: Применение Adaptive Gray Value Normalization или HDR Processing для улучшения контрастности. Коррекция перспективных искажений.
- Обнаружение текста:
- Разделение изображения на под-области.
- Масштабирование изображения (создание пирамиды изображений) для поиска текста разного размера.
- Применение Classifier для анализа признаков (градиенты, углы и т.д.) в каждой под-области.
- Идентификация Candidate Text Regions.
- Фильтрация ложных срабатываний (например, с использованием 3D Range Data для проверки плоскостности поверхности или фильтрации по расстоянию).
- Улучшение кандидатов (Super-resolution):
- Выбор нескольких изображений (кадров), содержащих одну и ту же текстовую область.
- Масштабирование (суперсэмплинг) каждой области.
- Выравнивание масштабированных областей на сетке высокого разрешения (например, с помощью блочного сопоставления).
- Объединение выровненных пикселей (например, путем вычисления медианного значения) для создания единого изображения высокого разрешения.
- Распознавание текста (OCR):
- Применение OCR к улучшенному изображению.
- Применение OCR к инвертированной версии изображения (для распознавания светлого текста на темном фоне).
- Фильтрация результатов и использование баз данных (Database-assisted OCR) для повышения точности.
- Индексация: Сохранение извлеченного текста в индексе вместе с географическими координатами изображения.
Процесс Б: Обработка запроса (Онлайн)
- Получение запроса: Получение поискового запроса от пользователя.
- Поиск в индексе: Использование индекса (Текст + География) для определения изображений и местоположений, удовлетворяющих запросу.
- Формирование ответа: Предоставление пользователю комбинированного результата: (i) результаты локального поиска и (ii) соответствующее изображение.
- Выбор рекламы: Определение релевантной рекламы на основе запроса пользователя И/ИЛИ на основе текста, извлеченного из показанного изображения (Claim 9).
Какие данные и как использует
Данные на входе
- Контентные факторы (Изображения): Система анализирует пиксельные данные для извлечения признаков, таких как градиенты, углы, интенсивность, края (Canny edges).
- Технические факторы (Метаданные изображений): Используются данные о разрешении и формате сжатия для определения необходимости предварительной обработки.
- Географические факторы: Критически важные данные – географическое местоположение (GPS-координаты), связанные с каждым изображением или даже с отдельными частями панорамного изображения.
- Сенсорные данные: 3D Range Data (данные о дальности от LIDAR или стереосенсоров), используемые для понимания геометрии сцены.
Какие метрики используются и как они считаются
Патент фокусируется на методах обработки и описывает следующие ключевые методы:
- Анализ признаков для классификации: Используется набор признаков (описанный в Таблице 1 патента), включающий горизонтальные/вертикальные производные, гистограммы интенсивности и градиентов, распределение краев Canny, силу углов (например, Harris Corner operator).
- Фильтрация по плоскостности и расстоянию: Использование 3D Range Data для разложения изображения на плоские и неплоские области, а также для определения расстояния до объекта. Кандидаты на текст в неплоских областях или вне заданного диапазона расстояний отбрасываются.
- Super-resolution: Использует методы выравнивания (например, иерархическое блочное сопоставление) и комбинирования пикселей (например, вычисление медианного значения пикселей из нескольких кадров) для повышения разрешения.
- Database-Assisted OCR: Ограничение результатов OCR на основе известных данных о местоположении (например, ожидаемые названия компаний или адреса в данном районе) или использование ограниченных словарей (например, только цифры для распознавания номеров домов).
- Template Matching (Сопоставление с шаблоном): Использование заранее сгенерированных растровых изображений ожидаемых слов в разных шрифтах и масштабах для сравнения с кандидатами на текст.
Выводы
- Валидация физического мира (Ground Truth): Патент демонстрирует, как Google использует анализ изображений для понимания и валидации физического мира. Это механизм для извлечения структурированных данных (текста) и привязки их к конкретным географическим координатам, что служит основой для E-E-A-T в локальном поиске.
- Критичность связки Текст + География: Ядром изобретения является индексация извлеченного текста СТРОГО вместе с его местоположением. Это позволяет системе использовать данные из изображений в локальном поиске и картографических сервисах.
- Super-resolution как ключевая технология: Для преодоления ограничений качества реальных изображений (размытость, расстояние) Google использует технологию Super-resolution, объединяя несколько кадров. Это значительно повышает точность OCR.
- Использование 3D-данных для точности: Система использует 3D Range Data для понимания геометрии сцены, что позволяет отфильтровывать ложные срабатывания (например, текст не ожидается на неплоских поверхностях, таких как деревья) и фокусироваться на нужных объектах (например, фасадах зданий).
- Прямое применение в рекламе: Патент явно указывает (Claim 9), что извлеченный текст используется не только для поиска, но и для таргетинга рекламы. Google может показывать рекламу на основе того, что физически присутствует на изображении.
Практика
Best practices (это мы делаем)
- Обеспечить четкую и видимую физическую сигнализацию (Signage): Убедитесь, что название компании, адрес, номер телефона и часы работы четко видны и читаемы на физическом здании/входе. Используйте контрастные цвета и достаточно крупный шрифт. Это помогает системам Google (включая Street View) корректно извлечь и проиндексировать эту информацию для верификации.
- Абсолютное соответствие NAP (Name, Address, Phone): Данные в Google Business Profile (GBP), на сайте и на физической вывеске должны быть идентичными. Этот патент подтверждает, что Google сверяет онлайн-данные с тем, что он «видит» на изображениях.
- Мониторинг изображений в Google Maps/Street View: Регулярно проверяйте, как ваша компания выглядит в Street View и на фотографиях, загруженных пользователями. Если изображения устарели или вывеска плохо видна (например, загорожена деревом или находится в тени), это может снижать уверенность системы.
- Загрузка высококачественных фотографий в GBP: Загружайте четкие фотографии фасада, входа и вывески в свой профиль GBP. Это предоставляет системе источники высококачественных изображений для анализа и извлечения текста.
Worst practices (это делать не надо)
- Использование виртуальных офисов без четкой сигнализации: Попытка ранжироваться в локальном поиске без физического присутствия и четкой вывески рискованна, так как система не сможет подтвердить существование компании через анализ изображений.
- Несоответствие данных: Указывать одно название в GBP, а на физической вывеске использовать другое. Это может быть расценено как несоответствие и понизить доверие.
- Плохо читаемые или отсутствующие вывески: Использование мелкого шрифта, низкоконтрастных цветов или размещение вывески в постоянно затененном/загороженном месте усложняет работу описанных алгоритмов (Preprocessing, OCR).
Стратегическое значение
Патент подтверждает стратегическую важность интеграции онлайн и офлайн данных для локального поиска. Google активно использует компьютерное зрение для картирования и валидации физического мира. Для SEO-специалистов это означает, что оптимизация не ограничивается сайтом; физическое представление бизнеса является прямым фактором, влияющим на видимость в локальном поиске. Долгосрочная стратегия должна включать заботу о том, как бренд представлен в реальном мире и насколько легко эта информация может быть считана автоматизированными системами.
Практические примеры
Сценарий 1: Валидация данных новой клиники (Local SEO)
- Действие: Открывается новая клиника. SEO-специалист создает профиль в GBP. На фасаде размещается крупная, контрастная вывеска, точно соответствующая данным в GBP.
- Работа алгоритма: Автомобиль Street View делает серию снимков. Система Google применяет алгоритм:
- Обнаруживает вывеску как Candidate Text Region.
- Использует Super-resolution, объединяя несколько кадров для повышения четкости текста.
- Выполняет OCR и извлекает название, адрес и телефон.
- Индексирует этот текст вместе с GPS-координатами.
- Результат: Система сравнивает данные из GBP с данными, извлеченными из изображения. Полное совпадение значительно повышает уверенность Google в достоверности данных (E-E-A-T), что способствует улучшению позиций в локальном поиске.
Сценарий 2: Таргетинг рекламы на основе изображений (Claim 9)
- Действие: Пользователь ищет «кофейня рядом» в Google Maps и просматривает фотографии улицы.
- Работа алгоритма: На одной из фотографий система распознала вывеску «Starbucks» с помощью OCR.
- Результат: Вместе с результатами поиска и изображением система может показать пользователю рекламу, связанную со Starbucks (например, купон на скидку) или рекламу конкурирующей кофейни, используя распознанный текст как триггер.
Вопросы и ответы
Как именно работает технология Super-resolution, описанная в патенте?
Super-resolution (Супер-разрешение) — это техника для улучшения качества текста на изображениях низкого качества. Она использует несколько снимков одной и той же сцены (например, сделанных движущейся камерой Street View). Система выравнивает эти снимки на сетке высокого разрешения и комбинирует пиксели из всех кадров (например, вычисляя медианное значение). В результате получается одно изображение текста с гораздо более высоким разрешением, чем у исходных кадров, что значительно повышает точность OCR.
Что такое 3D Range Data и зачем они нужны Google при анализе текста?
3D Range Data — это данные о расстоянии от камеры до объектов на сцене, получаемые с помощью LIDAR или стереосенсоров. Google использует их для понимания геометрии сцены и фильтрации ложных срабатываний. Например, система ожидает, что текст (вывески) находится на плоских поверхностях (фасады зданий). Если классификатор по ошибке идентифицировал текст на неплоском объекте (например, на дереве), 3D Range Data помогут отбросить этот результат.
Насколько важно для Local SEO, чтобы вывеска компании была хорошо видна?
Это критически важно. Патент демонстрирует, что Google активно извлекает текст из изображений реального мира (Street View, фото пользователей) и индексирует его в привязке к географии. Четкая, контрастная и незагороженная вывеска позволяет системе корректно распознать название компании и сверить его с данными в Google Business Profile. Это служит мощным сигналом валидации физического присутствия компании.
Может ли Google наказывать за несоответствие названия на вывеске и в Google Business Profile (NAP Consistency)?
Да, это может привести к проблемам с доверием (E-E-A-T). Если система извлекает текст из изображения и видит, что он не соответствует данным в GBP для этих же координат, это снижает уверенность системы в достоверности информации. Это может привести к понижению в локальном ранжировании или даже к приостановке действия профиля GBP.
Использует ли Google текст, извлеченный из изображений, для таргетинга рекламы?
Да, патент явно это утверждает (Claim 9). Система может определять релевантную рекламу не только на основе запроса пользователя, но и на основе текста, распознанного на изображении, которое показывается пользователю. Например, если на фото распознан логотип определенного бренда, система может показать рекламу этого бренда или его конкурентов.
Что такое Database-Assisted OCR и как это влияет на точность?
Это метод повышения точности распознавания, упомянутый в описании патента. Если система знает географическое положение изображения, она может предположить, какие компании или адреса там находятся (используя существующие базы данных). OCR затем пытается сопоставить текст на изображении с этими ожидаемыми значениями, что значительно снижает вероятность ошибок распознавания.
Влияет ли этот патент на обычный веб-поиск или только на локальный?
В первую очередь, патент критичен для локального поиска, Google Maps и Street View, так как он фокусируется на индексации текста вместе с географическим положением. Однако он также описывает использование извлеченного текста в общем поиске изображений (Image Search), где текст внутри картинки может использоваться как ключевое слово для ее нахождения.
Что делать, если моя вывеска находится в тени или имеет низкую контрастность?
Патент упоминает методы предварительной обработки, такие как Adaptive Gray Value Normalization, для борьбы с низким контрастом и тенями. Однако, чем сложнее условия, тем выше вероятность ошибки. С точки зрения SEO, рекомендуется использовать высококонтрастные цвета для вывесок и обеспечивать хорошее освещение, чтобы максимизировать шансы на корректное распознавание текста системой.
Применяется ли эта технология только к уличным сценам?
В основном да, но в описании патента также упоминается возможность применения этой технологии для индексации товаров внутри магазинов или экспонатов в музеях. Система может извлекать названия товаров с полок и индексировать их с указанием местоположения внутри магазина, что позволяет пользователям искать конкретные товары.
Может ли Google узнать о моем бизнесе, даже если у меня нет сайта?
Да. Если ваш бизнес имеет физическую локацию с видимой вывеской, система может извлечь название и адрес с изображений Street View и проиндексировать эту информацию. Это позволяет Google создавать базовый профиль бизнеса на картах, основываясь исключительно на данных из реального мира.