Google анализирует метаданные (GPS, ориентация устройства, данные акселерометра) и визуальные характеристики (края, цвет, текстура) фотографии, сделанной на мобильном устройстве. Эта система позволяет быстро классифицировать, изображено ли на ней «место» (например, здание), оптимизируя Визуальный Поиск (Google Lens) путем запуска соответствующих алгоритмов распознавания.
Описание
Какую задачу решает
Патент решает проблему эффективности и скорости мобильного визуального поиска (например, Google Lens). Процесс детального распознавания мест (Place Recognition) является вычислительно интенсивным. Запускать его для каждого изображения (например, селфи, товара, документа) неэффективно. Изобретение предлагает механизм предварительной фильтрации, позволяющий быстро отфильтровать изображения, не являющиеся местами, экономя вычислительные ресурсы и направляя запрос в соответствующую систему распознавания (объекты, лица и т.д.).
Что запатентовано
Запатентована система и метод обучения классификаторов для определения того, относится ли изображение, полученное с мобильного устройства, к типу Place (Место). Система использует многоступенчатую классификацию, анализируя как метаданные сенсоров устройства (например, GPS, ориентация), так и визуальные признаки самого изображения. Ключевым аспектом является использование машинного обучения (например, AdaBoost) для настройки этих классификаторов.
Как это работает
Система работает в двух режимах: обучение и классификация.
- Обучение (Офлайн): На размеченных тренировочных изображениях вычисляются различные измерения (визуальные и сенсорные). Алгоритм машинного обучения определяет веса и пороги для каждого измерения.
- Классификация (Реальное время): При получении нового изображения система применяет обученные классификаторы. Используется каскадный или параллельный подход: Sensor Based Classifier (только метаданные) и Image & Sensor Based Classifier (метаданные + изображение). Если изображение классифицируется как Place, оно направляется в Place Match Filter для детального распознавания; в противном случае — в другие фильтры.
Актуальность для SEO
Высокая. Визуальный поиск (Google Lens) и приложения дополненной реальности (AR) являются ключевыми направлениями развития. Эффективная и быстрая классификация входящих визуальных запросов критически важна для производительности системы и улучшения пользовательского опыта. Хотя конкретные алгоритмы (например, AdaBoost) могли эволюционировать, архитектурный подход остается фундаментальным.
Важность для SEO
Патент имеет умеренное значение для общего SEO (6.5/10), но высокое значение для Визуального Поиска (VSO) и Локального SEO. Он не описывает сигналы ранжирования, но описывает механизм-шлюз (gatekeeper), который решает, запускать ли локальный визуальный поиск для данного изображения. Понимание того, какие характеристики заставляют Google классифицировать изображение как Place, критично для оптимизации визуальных активов локального бизнеса.
Детальный разбор
Термины и определения
- AdaBoost
- Алгоритм статистического машинного обучения, упомянутый как возможный метод для обучения классификаторов. Также упоминаются машины опорных векторов, логистическая регрессия и деревья решений.
- Image Data / Image Information (Данные изображения)
- Визуальная информация, извлеченная из пикселей (края, цвет, текстура, резкость/размытость, наличие текста), а также параметры камеры (зум, выдержка, фокусное расстояние).
- Image & Sensor Based Classifier (Классификатор на основе изображения и сенсоров)
- Более надежный классификатор, анализирующий комбинацию Metadata и Image Data для определения, является ли изображение местом.
- Measurement Thresholds (θi) (Пороги измерений)
- Пороговые значения для конкретных измерений (признаков), определяемые в процессе обучения. Если измерение превышает порог, оно учитывается в итоговой оценке.
- Measurement Weights (αi) (Веса измерений)
- Числовые значения, присваиваемые каждому измерению в процессе обучения, отражающие его важность для классификации.
- Metadata / Sensor Data (Метаданные / Данные сенсоров)
- Информация от сенсоров мобильного устройства в момент съемки: GPS-координаты, точность местоположения (Location Accuracy), ориентация устройства (угол, наклон, поворот, компас), данные акселерометра, время.
- Place (Место)
- Тип сцены, изображающий географический объект, здание или достопримечательность. Изображение, для которого актуальна геолокационная информация.
- Place Match Filter (Фильтр сопоставления мест)
- Модуль, выполняющий детальное и ресурсоемкое сравнение изображения с базой данных известных мест для точного распознавания.
- Sensor Based Classifier (Классификатор на основе сенсоров)
- Быстрый классификатор, использующий только Metadata для первоначального определения, является ли изображение местом.
Ключевые утверждения (Анализ Claims)
Патент US8798378B1 является патентом-продолжением (continuation). Его Claims сфокусированы на методе обучения классификаторов и их последующем применении.
Claim 1 (Независимый пункт): Описывает компьютеризированный метод обучения и последующей классификации.
Часть 1: Обучение (Training)
- Использование набора тренировочных изображений, размеченных как тип Place или нет.
- Выполнение измерений (извлечение признаков) для каждого изображения.
- Определение Measurement Weights (αi) и Measurement Thresholds (θi).
- Настройка этих весов и порогов для установки желаемых уровней ложноположительных (False Positive) и ложноотрицательных (False Negative) срабатываний.
Часть 2: Классификация (Classification)
- Выполнение первой классификации фактического изображения, используя только метаданные (Metadata).
- Выполнение второй классификации, используя как метаданные, так и информацию об изображении (Image Data).
- Если ни одна из классификаций не определяет изображение как Place, выполняется фильтрация для определения, является ли оно объектом или человеком.
Claim 5 (Зависимый): Детализирует формулу для расчета взвешенного результата классификатора.
Взвешенный результат (Weighted Output) рассчитывается как сумма весов (αi) для всех измерений (xi), которые превышают соответствующие им пороги (θi). Формула: Σ αi * 1[xi > θi].
Claim 8 (Зависимый): Перечисляет типы данных изображения (визуальных признаков), используемых при обучении и классификации (например, размытые/резкие области, настройки цвета, края, зум, выдержка, текстура, текст).
Claim 17 (Зависимый): Описывает механизм арбитража. Если разные модули фильтрации (например, распознавание лиц и мест) идентифицируют изображение как разные типы, результаты классификаций (из Claim 1) используются для выбора правильной идентификации.
Где и как применяется
Изобретение применяется в инфраструктуре Визуального Поиска (Visual Search) и Дополненной Реальности (AR).
INDEXING – Индексирование и извлечение признаков (Офлайн)
На этом этапе происходит обучение системы. Google собирает тренировочные данные и использует алгоритмы машинного обучения (например, AdaBoost) для создания классификаторов. Веса (αi) и пороги (θi) сохраняются для использования в реальном времени.
QUNDERSTANDING – Понимание Запросов (Реальное время)
Это основная фаза применения. Когда пользователь инициирует визуальный поиск (Google Lens), система действует как пре-фильтр или интеллектуальный маршрутизатор. Она анализирует входные данные (изображение + метаданные), чтобы мгновенно классифицировать тип сцены и решить, какую поисковую вертикаль активировать (Локальный поиск, Поиск товаров и т.д.).
Входные данные:
- Изображение (пиксели).
- Metadata (GPS-координаты, ориентация устройства, данные акселерометра, точность геолокации, время съемки).
Выходные данные:
- Бинарная классификация (Place или Not a Place).
- Сигнал для маршрутизации запроса в соответствующий фильтр (Place Match Filter, Object Match Filter и т.д.).
На что влияет
- Специфические запросы: Влияет исключительно на визуальные поисковые запросы, особенно инициированные с мобильных устройств с активными сенсорами.
- Конкретные типы контента: Влияет на обработку изображений локальных бизнесов, достопримечательностей, уличных сцен. Определяет, следует ли искать геолокационную информацию для этих изображений.
- Конкретные ниши: Наибольшее влияние в локальном поиске, путешествиях, ритейле и недвижимости.
Когда применяется
- Условия работы: Алгоритм применяется немедленно после получения визуального запроса от пользователя, до запуска ресурсоемких процессов распознавания.
- Триггеры активации: Запуск визуального поиска (например, Google Lens) на мобильном устройстве.
- Особые случаи: Используется для разрешения конфликтов (арбитража), если изображение одновременно соответствует нескольким типам (например, лицо на фоне здания).
Пошаговый алгоритм
Процесс А: Обучение классификаторов (Офлайн)
- Сбор и Разметка данных: Сбор тренировочных изображений с метаданными, разметка их как Place (1) или Not a Place (0).
- Вычисление измерений (Извлечение признаков): Вычисление характеристик на основе Image Data и Metadata.
- Применение алгоритма обучения: Использование алгоритма (например, AdaBoost) для анализа признаков.
- Определение параметров: Определение Measurement Weights (αi) и Measurement Thresholds (θi).
- Валидация и настройка: Использование валидационного набора для настройки финального порога классификатора, чтобы достичь приемлемых уровней False Positive и False Negative.
Процесс Б: Классификация изображения (Реальное время)
- Получение данных: Получение изображения и его метаданных от мобильного устройства.
- Вычисление измерений: Извлечение признаков для нового изображения.
- Выполнение Классификации 1 (Sensor Based): Анализ только метаданных. Рассчитывается первая оценка.
- Выполнение Классификации 2 (Image & Sensor Based): Анализ метаданных и визуальных признаков. Рассчитывается вторая оценка. (Шаги 3 и 4 могут выполняться последовательно или параллельно).
- Расчет взвешенной оценки: Для каждого классификатора вычисляется Weighted Output по формуле Σ αi * 1[xi > θi].
- Принятие решения: Сравнение оценок с финальными порогами.
- Маршрутизация:
- Если классифицировано как Place: Запуск Place Match Filter. Результатом может быть точное совпадение (Place Match & Geolocation) или просто предоставление локальной информации на основе GPS (Place Match w/o Location).
- Если Not a Place: Направление изображения в другие фильтры (объекты, лица и т.д.).
- Арбитраж (Опционально): Если активированы другие фильтры и возникают конфликты типов (Claim 17), результаты классификации используются для выбора наиболее вероятного типа.
Какие данные и как использует
Данные на входе
Система использует широкий спектр данных, полученных как от сенсоров устройства, так и путем анализа пикселей.
Метаданные / Данные сенсоров (Metadata):
- Географические факторы: GPS-координаты, точность местоположения (Location Accuracy), статистика местоположения (например, городская или сельская местность).
- Технические факторы (Сенсоры): Ориентация устройства (угол, наклон (pitch), поворот (roll), компас), данные акселерометра.
- Временные факторы: Время суток, время года.
Данные изображения (Image Data) (Перечислены в Claim 8 и описании):
- Структурные и Контентные факторы: Вертикальные и горизонтальные края (edges), количество линий, текстура, наличие текста, ориентация изображения (портретная/альбомная).
- Мультимедиа факторы (Визуальные): Статистика цвета (гистограммы, настройки цветокоррекции), резкие или размытые области.
- Технические факторы (Камера): Уровень зума (zoom level), фокусное расстояние, дистанция фокусировки, выдержка (shutter speed).
Какие метрики используются и как они считаются
- Measurement Weights (αi): Вес, указывающий на важность i-го признака. Определяется алгоритмом обучения.
- Measurement Thresholds (θi): Порог для i-го признака. Определяется алгоритмом обучения.
- Weighted Output (Взвешенный результат): Итоговая оценка классификатора. Рассчитывается по формуле: Σ αi * 1[xi > θi] (сумма весов всех признаков, превысивших свои пороги).
- Final Threshold (Финальный порог): Значение, с которым сравнивается Weighted Output для принятия бинарного решения.
- Алгоритмы машинного обучения: Упоминаются AdaBoost, машины опорных векторов (Support Vector Machines), логистическая регрессия и деревья решений.
Выводы
- Визуальный поиск начинается с классификации типа сцены: Google не пытается сразу распознать объект. Первая задача — понять, что это: место, человек, продукт или документ. Это определяет всю дальнейшую логику поиска (маршрутизацию запроса).
- Метаданные сенсоров критичны для скорости: Данные сенсоров (GPS, ориентация телефона) используются как быстрый и дешевый способ первоначальной оценки (Sensor Based Classifier). То, как пользователь держит телефон (например, направлен вниз или вперед), влияет на интерпретацию сцены.
- Комбинированный подход для точности: Для надежности система объединяет данные сенсоров с визуальными характеристиками (края, текстура, цвет) в Image & Sensor Based Classifier.
- Машинное обучение определяет признаки «Места»: Система использует обученные модели для взвешивания признаков. То, что делает изображение «местом» (например, количество вертикальных линий или уровень зума), определяется статистически.
- Классификация как арбитраж: Система может использовать результаты классификации для разрешения конфликтов, если изображение одновременно соответствует нескольким типам (Claim 17).
- «Место» не всегда означает распознанное место: Система может классифицировать изображение как Place, даже если точное совпадение не найдено (Place Match w/o Location). Это позволяет Google предоставлять релевантную локальную информацию (например, список ближайших бизнесов), основываясь на типе сцены и GPS.
Практика
Best practices (это мы делаем)
Для SEO-специалистов, работающих над Локальным SEO и оптимизацией под Визуальный Поиск (VSO), цель — обеспечить, чтобы визуальные активы бизнеса четко классифицировались как Place.
- Обеспечение четких визуальных индикаторов «Места»: Изображения зданий, витрин и интерьеров должны иметь характеристики, которые классификатор ассоциирует с местами. Это включает четкие вертикальные и горизонтальные края (архитектурные линии), определенные текстуры и хорошее освещение. Резкость изображения важна.
- Сохранение и оптимизация EXIF-данных: При загрузке изображений на сайт или в Google Business Profile (GBP) критически важно сохранять или добавлять точные геолокационные данные и параметры камеры в EXIF. Это данные для Sensor Based Classifier.
- Сохранение контекста сцены (Композиция): Не следует слишком сильно кадрировать изображение. Наличие элементов окружения (тротуар, соседние здания, интерьер) помогает классификатору понять, что это сцена места, а не отдельный объект. Избегайте чрезмерного размытия (боке) на основных изображениях локации.
- Использование четких вывесок: Патент упоминает наличие текста как признак. Четкие вывески могут способствовать классификации изображения как места.
Worst practices (это делать не надо)
- Удаление метаданных (EXIF Stripping): Автоматическое удаление EXIF-данных при загрузке лишает Google возможности использовать Sensor Based Classifier, снижая вероятность правильной классификации локального интента.
- Использование абстрактных или художественных изображений: Стилизованные изображения, необычные углы, сильное размытие или плохое освещение могут привести к классификации как Not a Place.
- Слишком плотное кадрирование (Tight Cropping): Фотография логотипа крупным планом может быть классифицирована как Object или Text, а не Place. Визуальный поиск будет искать логотип, а не локацию бизнеса.
- Фокус только на продукте в локальном контенте: Если все изображения в GBP сосредоточены на продуктах, система может не ассоциировать эти визуальные активы с физическим местоположением.
Стратегическое значение
Патент подчеркивает конвергенцию данных мобильных устройств и компьютерного зрения в Локальном Поиске. Вход в воронку Визуального Поиска строго контролируется классификаторами. Для Локального SEO стратегически важно, чтобы визуальные активы соответствовали машинному пониманию того, как выглядит место. Оптимизация визуальной репрезентации бизнеса становится необходимой частью комплексного SEO для работы с Google Lens и AR-приложениями.
Практические примеры
Сценарий: Оптимизация изображения ресторана для Визуального Поиска (Google Lens)
Пример 1: Плохая практика
- Изображение: Фотография блюда на столе крупным планом с сильным размытием фона (боке).
- Анализ системы: Metadata (GPS) может указывать на локацию, но ориентация направлена вниз (данные акселерометра). Визуальные данные (размытый фон, текстура еды, отсутствие архитектурных линий) перевешивают.
- Результат: Классифицируется как Not a Place (возможно, Еда/Объект). Google ищет рецепты или похожие блюда, а не информацию о ресторане.
Пример 2: Хорошая практика
- Изображение: Фотография входа в ресторан, видна вывеска, часть улицы и тротуар. Изображение резкое, EXIF данные сохранены.
- Анализ системы: Metadata указывает на локацию, телефон держится ровно. Визуальные данные показывают четкие вертикальные и горизонтальные линии (дверь, окна, тротуар), текст на вывеске.
- Результат: Классифицируется как Place. Google запускает Place Match Filter, идентифицирует ресторан и предоставляет пользователю локальную информацию.
Вопросы и ответы
Как этот патент влияет на Локальное SEO?
Он напрямую влияет на то, как Google интерпретирует изображения, связанные с бизнесом, в контексте визуального поиска (Google Lens). Если изображения вашего бизнеса не классифицируются как Place, система может не запустить локальный поиск, даже если пользователь находится перед вашим зданием. Это подчеркивает важность оптимизации визуальных активов для демонстрации физического местоположения.
Имеет ли значение, сохраняем ли мы EXIF-данные (гео-теги) в изображениях для сайта или GBP?
Да, это критически важно для VSO и Локального SEO. Патент явно указывает, что метаданные, включая GPS, ориентацию и настройки камеры (зум, фокусное расстояние), используются для классификации. Удаление этих данных (Stripping EXIF) лишает Google важных сигналов для определения локального интента изображения.
Что такое Sensor Based Classifier и почему он используется?
Это классификатор, который использует только данные сенсоров устройства (GPS, компас, акселерометр), игнорируя пиксели. Анализ этих данных вычислительно очень дешев и быстр. Он позволяет системе мгновенно отфильтровать изображения, которые явно не связаны с местом (например, по ориентации телефона), экономя ресурсы.
Какие визуальные характеристики помогают классифицировать изображение как «Место»?
Система анализирует вертикальные и горизонтальные края, количество линий, текстуру, статистику цвета и резкость (Claim 8). Архитектурные элементы, такие как окна, двери и линии зданий, вероятно, имеют большой вес в классификаторе, обученном распознавать места.
Может ли изображение быть классифицировано как «Place», даже если GPS отключен?
Да, но это сложнее. Отсутствие GPS данных снижает эффективность Sensor Based Classifier. Системе придется больше полагаться на Image & Sensor Based Classifier, анализирующий визуальные признаки. Если визуальные признаки очень сильны, классификация возможна.
Как система решает, является ли фото селфи на фоне здания «Place» или «Person»?
Патент описывает механизм арбитража (Claim 17). Если активируются и фильтр распознавания лиц, и классификатор мест, система использует результаты классификаций для разрешения конфликта. Факторы, такие как фокус, уровень зума и композиция кадра, будут влиять на итоговое решение о том, что является основным объектом.
Влияет ли качество фотографии (разрешение, освещение) на классификацию?
Да, качество важно. Патент упоминает анализ «размытых или резких областей», статистики цвета и выдержки. Четкие, хорошо освещенные изображения с выраженными визуальными признаками (линии, текстуры) будут классифицированы более точно.
Влияет ли использование портретного режима или эффекта боке на классификацию?
Да, может повлиять. Поскольку система анализирует резкие и размытые области, сильное размытие фона (боке) может сместить классификацию в сторону «объекта» или «портрета», а не «места». Для основных изображений локации рекомендуется использовать стандартный режим с большей глубиной резкости.
Что происходит, если изображение классифицировано как «Place», но Google не может найти совпадение?
Патент предусматривает такой сценарий (Place Match w/o Location). Если классификатор уверен, что это место, но Place Match Filter не нашел точного совпадения, система все равно может предоставить пользователю полезную гео-информацию, например, список локальных бизнесов поблизости, основываясь на GPS-данных пользователя.
Какова основная рекомендация для владельцев бизнеса на основе этого патента?
Основная рекомендация — предоставлять Google четкие, хорошо скомпонованные и точно гео-тегированные изображения вашего физического местоположения. Избегайте использования абстрактных или студийных фотографий в качестве основных визуальных активов для локального присутствия (GBP). Убедитесь, что ваши изображения визуально выглядят как «место».