Google применяет комплексную систему для чтения текста на изображениях (например, вывесок в Street View). Патент описывает методы улучшения качества размытых изображений путем объединения нескольких кадров (Superresolution), распознавания текста (OCR) и точного определения его GPS-координат с помощью интерполяции. Эти данные используются для валидации локального бизнеса (Local SEO) и улучшения поиска по картинкам (Image SEO).
Описание
Какую задачу решает
Патент решает две основные проблемы:
- Надежное распознавание текста (OCR) в сложных «естественных сценах» (например, уличные виды, такие как Google Street View). Текст на таких изображениях часто трудно читаем из-за низкого разрешения, искажений, плохого освещения, теней или физических препятствий.
- Точное определение географического местоположения (GPS coordinates) извлеченного текста для его использования в картографических сервисах и локальном поиске.
Что запатентовано
Запатентована система для распознавания и использования текста в изображениях. Описание патента детализирует полный конвейер обработки: предобработка изображений, обнаружение текста с помощью классификатора, значительное улучшение качества текстовых областей (включая технологию Superresolution, использующую несколько кадров) и выполнение OCR. Конкретные пункты формулы изобретения (Claims) в этом документе сфокусированы на методе точной линейной интерполяции GPS coordinates для определения местоположения промежуточных точек в изображении.
Как это работает
Система работает как конвейер обработки данных:
- Сбор и Предобработка: Изображения (например, уличных сцен) с привязкой к GPS собираются и нормализуются для улучшения контраста.
- Обнаружение текста: Обученный Classifier выявляет области, потенциально содержащие текст (candidate text regions).
- Улучшение (Superresolution): Несколько изображений одной и той же сцены (снятые с небольшим смещением) объединяются для создания единого изображения текста с более высоким разрешением и четкостью.
- Распознавание (OCR): Текст извлекается из улучшенных областей.
- Геолокация: Применяется линейная интерполяция (linear interpolation) между известными GPS coordinates для точного определения местоположения извлеченного текста.
- Индексация: Извлеченный текст и его местоположение индексируются для использования в поиске по изображениям и картах.
Актуальность для SEO
Высокая. Описанные технологии являются фундаментальными для работы Google Street View, Google Lens, Google Maps и индексации физического мира. Способность Google извлекать текст из изображений и точно определять его местоположение напрямую влияет на Local SEO (верификация данных о бизнесе) и Image Search (использование текста на картинке как ключевых слов). Эти принципы остаются критически важными.
Важность для SEO
Высокое влияние (85/100). Патент имеет критическое значение для Local SEO и Image SEO. Он детально описывает механизмы, позволяющие Google считывать информацию (названия, адреса, часы работы, меню) непосредственно с физических вывесок и витрин. Это позволяет Google валидировать данные в Google Business Profile (GBP) и использовать визуальную информацию как источник истины. Также патент подтверждает, что текст внутри изображений является прямым сигналом для ранжирования в Image Search.
Детальный разбор
Термины и определения
- Adaptive Gray Value Normalization (Адаптивная нормализация оттенков серого)
- Метод предварительной обработки изображений для улучшения контраста в областях с низким освещением или тенями.
- Candidate Text Region (Кандидатная текстовая область)
- Область изображения, идентифицированная классификатором как потенциально содержащая текст.
- Classifier (Классификатор)
- Модель машинного обучения, обученная отличать текстовые признаки от нетекстовых на основе анализа признаков изображения (градиенты, углы, гистограммы и т.д.).
- Database Assisted OCR (OCR с поддержкой базы данных)
- Метод повышения точности распознавания путем ограничения возможных результатов данными из внешних источников (например, списком известных названий бизнесов в данном районе или словарем только для цифр).
- GPS Coordinates (GPS-координаты)
- Данные о местоположении, связанные с изображением.
- Linear Interpolation (Линейная интерполяция)
- Математический метод, используемый для вычисления приблизительных GPS-координат промежуточных точек (intermediate points) на изображении, если известны координаты двух опорных точек.
- OCR (Optical Character Recognition / Оптическое распознавание символов)
- Процесс преобразования текста на изображении в машиночитаемый текстовый формат.
- Superresolution (Сверхразрешение)
- Техника улучшения качества изображения, которая объединяет информацию из нескольких изображений низкого разрешения одной и той же сцены (сделанных с небольшим смещением) для создания одного изображения высокого разрешения.
- Three-dimensional range data (Трехмерные данные о дальности)
- Данные о расстоянии от камеры до объектов на изображении (например, LIDAR). Используются для фильтрации нетекстовых областей, так как текст обычно находится на плоских поверхностях (planar regions).
Ключевые утверждения (Анализ Claims)
ВАЖНОЕ ПРИМЕЧАНИЕ: Патент US9760781B2 является продолжением (continuation) более ранних заявок (начиная с 2006 года). Его Описание (Description) широко охватывает весь процесс OCR и Superresolution. Однако, защищенные пункты (Claims 1-15) этого конкретного документа узко сфокусированы исключительно на методе геолокации.
Claim 1 (Независимый пункт): Описывает метод определения геолокации внутри изображения уличной сцены.
- Система получает изображение уличной сцены (street scene).
- На изображении отображены первая локация (с известными GPS1) и вторая локация (с известными GPS2).
- Система идентифицирует набор промежуточных точек (intermediate points) между первой и второй локациями на изображении.
- На основе GPS1 и GPS2 система вычисляет GPS coordinates для каждой промежуточной точки.
- Вычисленные координаты ассоциируются с соответствующими промежуточными точками на изображении.
Claim 2 (Зависимый от 1): Уточняет метод вычисления координат.
Вычисление GPS coordinates для промежуточной точки выполняется с использованием линейной интерполяции (linearly interpolating) между GPS1 и GPS2, основываясь на относительном положении (relative position) промежуточной точки на изображении.
Claim 3 (Зависимый от 1): Уточняет, что такое промежуточные точки.
Идентификация промежуточных точек может включать идентификацию вертикальных линий (vertical lines) на изображении.
Контекстуализация: Хотя Claims сосредоточены на GPS Interpolation, описание патента детализирует полный конвейер OCR. Интерполяция необходима для того, чтобы точно привязать текст, извлеченный с помощью OCR (например, название бизнеса или адрес), к физическому местоположению в реальном мире.
Где и как применяется
Изобретение затрагивает ключевые этапы поисковой архитектуры, особенно в контексте обработки визуальных и локальных данных (например, Street View, Google Maps).
CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает изображения (с автомобилей Street View или через загрузку пользователями) вместе с сопутствующими метаданными: GPS coordinates (с использованием высокоточных приемников, инерциальных блоков) и Three-dimensional range data.
INDEXING – Индексирование и извлечение признаков
Основной этап применения патента. Полученные изображения обрабатываются для извлечения структурированной информации:
- Препроцессинг: Улучшение контраста (Normalization) и коррекция искажений.
- Обнаружение текста: Идентификация candidate text regions с помощью Classifier. Фильтрация с использованием Three-dimensional range data (фокус на planar regions).
- Улучшение: Применение Superresolution для повышения читаемости текста.
- Извлечение текста: Применение OCR (возможно, Database Assisted OCR).
- Определение геолокации: Вычисление точных GPS-координат для извлеченного текста с помощью linear interpolation (как описано в Claims).
- Индексация: Сохранение извлеченного текста в индексе с ассоциацией к изображению и его точной геолокации.
RANKING – Ранжирование
- Image Search: Извлеченный текст используется как ключевые слова для ранжирования изображений.
- Local Search / Maps: Извлеченный текст (название бизнеса, адрес, часы работы) используется для валидации, обогащения и ранжирования локальных бизнес-листингов.
На что влияет
- Локальный поиск (Local SEO): Критическое влияние. Позволяет Google проверять соответствие данных в GBP (Name, Address, Phone, часы работы) с физическими вывесками и витринами зданий.
- Поиск по изображениям (Image SEO): Текст внутри изображения становится индексируемым контентом и фактором ранжирования.
- Типы контента: Уличные сцены, витрины магазинов, вывески, меню, товары на полках (упоминается индексация магазинов и музеев).
- Ниши: Все локальные бизнесы (ритейл, рестораны, услуги), E-commerce (текст на упаковках).
Когда применяется
- Условия применения: При индексации новых или обновленных изображений. Superresolution применяется, если доступно несколько кадров одной сцены. GPS Interpolation применяется для панорамных или составных изображений, охватывающих определенное расстояние.
- Триггеры активации: Наличие изображения, на котором Classifier обнаруживает candidate text regions.
Пошаговый алгоритм
Ниже приведена общая последовательность обработки изображений, описанная в патенте.
- Сбор данных: Получение одного или нескольких изображений вместе с метаданными (GPS, 3D данные).
- Предварительная обработка: Выполнение препроцессинга. Например, применение Adaptive gray value normalization для улучшения контраста или коррекция перспективных искажений.
- Обнаружение текста:
- Создание пирамиды масштабированных изображений для поиска текста разного размера.
- Применение обученного Classifier для обнаружения candidate text regions на основе анализа признаков.
- Фильтрация ложных срабатываний (например, проверка стабильности на разных масштабах или использование Three-dimensional range data для проверки плоскостности области).
- Улучшение текста (Superresolution):
- Выбор нескольких изображений, содержащих одну и ту же текстовую область.
- Масштабирование (Supersampling) областей до высокого разрешения (например, с помощью bicubic splines).
- Выравнивание масштабированных областей на сетке высокого разрешения (например, с помощью block matching).
- Объединение выровненных пикселей (например, используя медианное значение) для создания изображения сверхвысокого разрешения.
- Распознавание текста (OCR): Применение OCR к улучшенной текстовой области и ее инвертированной версии (для распознавания светлого текста на темном фоне). Может использоваться Database Assisted OCR для повышения точности.
- Определение геолокации: Вычисление точных GPS coordinates для распознанного текста. Используется linear interpolation между двумя известными точками на изображении (Метод из Claims).
- Индексация: Ассоциация извлеченного текста с исходным изображением и вычисленной геолокацией в поисковом индексе.
Какие данные и как использует
Данные на входе
- Мультимедиа факторы: Цифровые изображения (панорамные, отдельные кадры, видеофрагменты). Количество доступных кадров влияет на качество Superresolution.
- Географические факторы: GPS coordinates, связанные с моментом и местом съемки. Критически важны для интерполяции и локальной индексации.
- Технические факторы (Сенсоры): Three-dimensional range data (LIDAR, стерео), данные инерциальных измерительных блоков (IMU), датчики скорости движения — используются для точного позиционирования и фильтрации.
- Внешние данные: Базы данных для Database Assisted OCR (например, списки бизнесов, Yellow Pages, базы данных продуктов).
Какие метрики используются и как они считаются
- Признаки для классификатора (Features): Патент перечисляет признаки (Table 1), используемые для обнаружения текста, включая:
- Горизонтальные/вертикальные производные (среднее и дисперсия).
- Гистограммы силы градиента (gradient strength).
- Показатели наличия углов (Corners), например, с помощью Harris Corner operator.
- Распределение элементов краев (Canny edgels).
- Adaptive gray value normalization: Вычисляется среднее значение (mean) и дисперсия (variance) для пикселей в локальной области, после чего значения пикселей пересчитываются для улучшения контраста.
- Superresolution (Комбинирование): Финальное изображение создается путем комбинирования пикселей из нескольких выровненных изображений, например, путем взятия медианного значения (median value) каждого пикселя.
- GPS Calculation: Используется Linear interpolation. Координаты вычисляются на основе относительного положения точки между двумя точками с известными координатами.
Выводы
- Google активно читает текст на изображениях для понимания реального мира. Система стремится извлечь текстовую информацию непосредственно из пикселей (вывесок, адресов, меню), не полагаясь только на метаданные или alt-текст.
- Продвинутые техники улучшения изображений повышают читаемость. Механизм Superresolution демонстрирует, что Google может восстановить и прочитать текст даже из низкокачественных, размытых или частично перекрытых изображений, объединяя данные из нескольких кадров.
- Связка «Текст + Изображение + Точная Геолокация» фундаментальна для Local SEO. Патент подчеркивает важность не только извлечения текста (Описание), но и точного определения его местоположения (Claims). Точная интерполяция GPS-координат критична для работы локального поиска и карт.
- Визуальные данные как источник истины (Ground Truth). Извлеченный текст используется для валидации, обогащения и исправления информации о бизнесе (NAP, часы работы). Google может сравнивать данные из GBP с тем, что «видит» на фотографии.
- Текст внутри изображения — прямой сигнал для Image Search. Патент подтверждает, что извлеченный текст индексируется и используется для поиска изображений по ключевым словам.
Практика
Best practices (это мы делаем)
Для Local SEO:
- Обеспечение читаемости и актуальности физических вывесок. Убедитесь, что название бизнеса, адрес и часы работы на вашей физической витрине/вывеске актуальны, хорошо читаемы и не загорожены препятствиями. Это критично для валидации данных через Street View и фото пользователей.
- Согласованность данных (Consistency). Информация на физических вывесках должна точно соответствовать информации в вашем GBP и на сайте. Расхождения могут вызвать недоверие у системы.
- Загрузка качественных фотографий в GBP. Загружайте четкие фотографии витрины, входа, меню и табличек с часами работы. OCR Google сможет извлечь эту информацию и использовать ее для подтверждения данных профиля.
Для Image SEO и E-commerce:
- Использование четкого текста на изображениях. При создании инфографики или фотографий продуктов используйте четкий, контрастный текст. Google распознает его и использует для ранжирования в Image Search.
- Оптимизация изображений упаковки. Текст на упаковке товара должен быть читаем на фотографиях, так как он может быть извлечен и проиндексирован (патент упоминает индексацию магазинов).
Worst practices (это делать не надо)
- Игнорирование физического присутствия (Local SEO). Полагаться только на онлайн-данные в GBP, игнорируя состояние физической вывески. Если вы сменили часы работы, но не обновили вывеску, Google получит противоречивые сигналы.
- Использование нечитаемых шрифтов или низкого контраста. Использование сложных декоративных шрифтов или низкоконтрастного текста на вывесках или важных изображениях затрудняет работу OCR.
- Манипуляции с текстом на изображениях (Keyword Stuffing). Попытки перенасытить изображение ключевыми словами, нерелевантными содержанию. Патент упоминает возможность использования извлеченного текста для фильтрации спама.
Стратегическое значение
Патент подтверждает стратегию Google по созданию «Ground Truth» — стремление верифицировать онлайн-информацию с помощью данных из офлайн-реальности. Способность Google объединять визуальные (OCR, Superresolution), текстовые и геолокационные (GPS Interpolation) данные является основой для развития локального поиска и сервисов, основанных на понимании реального мира (например, Google Lens).
Практические примеры
Сценарий 1: Валидация локального бизнеса с помощью Street View
- Сбор данных: Автомобиль Street View делает несколько снимков витрины магазина с движущегося автомобиля. Изображения могут быть нечеткими. Регистрируются GPS-координаты начала и конца квартала.
- Обработка: Система применяет Superresolution для объединения нескольких снимков и улучшения читаемости вывески.
- Извлечение (OCR): Система читает название «Mandarin Gourmet» и номер дома «155».
- Геопривязка: Используя linear interpolation (Claims патента), система точно определяет координаты этой вывески.
- Результат: Google визуально верифицирует название, адрес и точное местоположение бизнеса. Если эти данные совпадают с GBP, доверие к листингу возрастает.
Сценарий 2: Поиск по изображениям (Image Search)
- Действие: Пользователь ищет в Image Search «Меню ресторана BrandX».
- Работа системы: Google ищет релевантные изображения. Система OCR анализирует найденные фотографии меню, загруженные пользователями или владельцем.
- Результат: Изображение меню, на котором четко виден текст и названия блюд, ранжируется выше, так как OCR извлек этот текст и подтвердил высокую релевантность изображения запросу, даже если в alt-text это не было указано.
Вопросы и ответы
Как этот патент влияет на локальное SEO (Local SEO)?
Влияние критическое. Патент описывает, как Google извлекает текст (названия, адреса, часы работы) непосредственно с фотографий (Street View, фото пользователей) и привязывает его к точной геолокации с помощью GPS Interpolation. Это позволяет Google использовать физические вывески как источник истины для валидации данных в Google Business Profile. Консистентность между вашей вывеской и вашим GBP очень важна.
Что такое Superresolution и почему это важно?
Superresolution — это техника, которая объединяет несколько изображений низкого качества одной и той же сцены для создания одного изображения высокого разрешения. Это важно, потому что позволяет Google прочитать текст, который на отдельной фотографии может казаться нечитаемым, размытым или слишком мелким. Система становится менее зависимой от качества исходных снимков.
Означает ли это, что текст на изображениях заменяет alt-текст?
Нет, не заменяет, но дополняет. Alt-текст по-прежнему важен для доступности. Однако этот патент подтверждает, что Google может напрямую читать текст внутри изображения с помощью OCR и использовать его как индексируемый контент и сигнал ранжирования в Image Search. Это дает дополнительный контекст, который может быть более надежным, чем метаданные.
На чем сосредоточены основные Claims (Формула изобретения) этого конкретного патента?
Хотя описание охватывает весь процесс OCR, Claims этого патента (US9760781B2) сосредоточены на методе высокоточной интерполяции GPS-координат (linear interpolation) для промежуточных точек на изображении. Это технология для точного геотегирования извлеченного текста, что является ключевым для Local SEO.
Что такое Database Assisted OCR?
Это метод повышения точности распознавания. Вместо того чтобы пытаться распознать любой возможный текст, система ограничивает поиск известными данными. Например, если система знает, что в данном районе находится «Pizza Hut», она будет в первую очередь искать это название на вывесках, или использовать режим «только цифры» для распознавания адресов.
Может ли Google прочитать текст, если он находится в тени или при плохом освещении?
Да, патент описывает методы предварительной обработки для решения этой проблемы. В частности, используется Adaptive gray value normalization — техника, которая выравнивает контраст и «вытягивает» детали из темных или пересвеченных областей, улучшая способность системы распознавать текст в сложных условиях.
Как система отсеивает ложные срабатывания (например, не принимает узор кирпичной кладки за текст)?
Используется несколько методов. Во-первых, обученный Classifier анализирует множество признаков (градиенты, углы), чтобы отличить текст от фона. Во-вторых, используются Three-dimensional range data (данные о расстоянии): поскольку текст обычно находится на плоской поверхности (стена, вывеска), области, которые не являются плоскими, отбрасываются.
Стоит ли оптимизировать изображения на сайте под этот патент?
Да. Если вы используете текст на изображениях (например, в инфографике или на фото продуктов), убедитесь, что он четкий, достаточно крупный и контрастный. Это повысит вероятность того, что Google сможет его прочитать и использовать для ранжирования изображения в Image Search по соответствующим запросам.
Влияет ли этот патент только на Street View?
Нет. Хотя примеры в патенте в основном касаются уличных сцен, описанные технологии применимы к любым изображениям в индексе Google, включая фотографии, загруженные пользователями в Google Maps, и изображения, найденные на веб-сайтах (например, фото товаров в E-commerce).
Что делать, если информация на моей физической вывеске устарела?
Необходимо как можно скорее обновить вывеску. В контексте этого патента, физическая вывеска является авторитетным источником данных. Если Google обнаружит расхождение между устаревшей вывеской (через Street View или фото пользователей) и вашим актуальным GBP, это может привести к потере доверия к вашим данным и потенциальному понижению в локальном ранжировании.