Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google определяет геолокацию изображений с помощью кластеризации и «размазывания» (Smearing) данных

    GEOGRAPHICALLY LOCATING AND POSING IMAGES IN A LARGE-SCALE IMAGE REPOSITORY AND PROCESSING FRAMEWORK (Географическое определение местоположения и позиционирования изображений в крупномасштабном репозитории изображений и фреймворке обработки)
    • US9208171B1
    • Google LLC
    • 2015-12-08
    • 2013-09-05
    2013 SERP Индексация Мультимедиа Патенты Google

    Патент Google, описывающий систему массового присвоения геоданных изображениям. Система собирает информацию из EXIF, текста на странице, распознавания объектов и пользовательских альбомов/событий. Затем она кластеризует похожие или связанные изображения и «размазывает» (копирует) наиболее достоверные геоданные между ними, повышая точность локализации контента для Image Search и Local Search.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему отсутствия, неточности или противоречивости геолокационных данных у изображений, собранных из разных источников. Цель — значительно увеличить количество и точность географически локализованных изображений в репозитории Google. Это необходимо для улучшения качества локального поиска, поиска по картинкам и для обучения алгоритмов компьютерного зрения (например, распознавания ориентиров).

    Что запатентовано

    Запатентован фреймворк для крупномасштабной обработки и обогащения геоданных изображений. Система использует многоэтапный конвейер: агрегация потенциальных геосигналов из множества источников, строгая фильтрация этих сигналов на основе рейтинга надежности (Reliability Ranking), кластеризация связанных изображений и последующее «размазывание» (Smearing) высоконадежных геоданных внутри кластеров.

    Как это работает

    Система работает как конвейер обработки данных:

    • Сбор данных (Gathering): Для изображения собираются геоданные из EXIF, текста на странице (Source URL), где найдено изображение (включая страницы с идентичными копиями), пользовательских аннотаций и путем распознавания объектов (Bitmap processing).
    • Фильтрация (Начальная): Собранные данные оцениваются по надежности источника. Конфликтующие данные удаляются.
    • Кластеризация (Clustering): Изображения группируются по визуальному сходству, принадлежности к одному альбому или загрузке в рамках одного события (user-defined event).
    • Размазывание (Smearing): Геоданные всех изображений в кластере объединяются и копируются на каждое изображение этого кластера.
    • Фильтрация (Финальная): Объединенные данные снова фильтруются для выбора наиболее точной информации.

    Актуальность для SEO

    Высокая. Понимание географического контекста визуального контента критически важно для современных сервисов Google (Image Search, Google Maps, Local Search, Google Lens). Описанные методы агрегации, валидации и распространения данных остаются фундаментальными для работы с изображениями в вебе и валидации локальных сущностей.

    Важность для SEO

    Патент имеет высокое значение (8/10) для Image SEO и Local SEO. Он детально раскрывает, как Google извлекает, интерпретирует и распространяет геолокационные сигналы. Он подтверждает, что Google анализирует не только метаданные (EXIF), но и контент страницы размещения, а также связи между изображениями. Это подчеркивает важность использования оригинальных фотографий и оптимизации контекста вокруг них для подтверждения географической релевантности.

    Детальный разбор

    Термины и определения

    Bitmap processing (Обработка растрового изображения)
    Анализ пикселей изображения для идентификации объектов, ориентиров (landmarks), POI, текста на знаках с целью определения местоположения.
    Camera Pose (Позиция камеры)
    Информация, включающая местоположение камеры (широта, долгота, высота), ее ориентацию (направление съемки, угол наклона) и параметры объектива (фокусное расстояние).
    Clustering (Кластеризация)
    Процесс группировки изображений на основе общих признаков (визуальное сходство, принадлежность к одному альбому или событию).
    EXIF (Exchangeable Image File Format)
    Стандарт метаданных, который может включать геолокационные координаты (GPS), записанные камерой.
    Filtering (Фильтрация)
    Процесс удаления ненадежных или противоречивых локационных данных на основе Reliability Ranking.
    Geolocation coordinates (Геолокационные координаты)
    Координаты, идентифицирующие конкретную точку (например, широта и долгота). Могут включать радиус точности (precision radius).
    Near duplicate image fingerprints (Отпечатки почти дублирующихся изображений)
    Идентификаторы, используемые для кластеризации визуально похожих или идентичных изображений.
    Place references (Ссылки на места)
    Привязка изображения к конкретной сущности или географическому объекту (например, ресторан, памятник, город).
    Reliability Value/Ranking (Значение/Рейтинг надежности)
    Оценка, присваиваемая источнику геоданных для определения его достоверности. Используется при фильтрации конфликтующих данных.
    Smearing (Размазывание)
    Процесс копирования и объединения локационных данных между всеми изображениями внутри одного кластера.
    Source URLs (Исходные URL)
    Веб-адреса страниц, на которых было найдено изображение. Текст на этих страницах анализируется для извлечения локационных данных.
    User-defined event (Пользовательское событие)
    Интерактивный онлайн-ресурс (например, страница мероприятия), куда разные пользователи загружают изображения, относящиеся к одному событию. Сильный сигнал для кластеризации.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает метод географической локализации с акцентом на кластеризацию по событиям и строгую фильтрацию по надежности.

    1. Система получает первое изображение, ассоциированное с идентификатором (например, события).
    2. Используя идентификатор, система находит интерактивный онлайн-ресурс (user-defined event).
    3. Система находит второе изображение по другому URL, которое идентично первому изображению.
    4. Генерируется первый набор локационных данных для первого изображения, основываясь (как минимум) на информации, найденной по URL второго (идентичного) изображения.
    5. Создается кластер изображений на основе общего идентификатора события.
    6. Система идентифицирует источники всех локационных данных в кластере.
    7. Определяется уровень надежности (reliability level) каждого источника путем присвоения значения (value).
    8. Данные ранжируются по уровню надежности.
    9. Данные фильтруются на основе рангов.
    10. Отфильтрованные наборы данных объединяются (Smearing).
    11. Объединенный набор данных присваивается каждому изображению в кластере.

    Ядро изобретения — использование кластеризации (в данном случае по событию) для распространения (Smearing) локационной информации, которая предварительно прошла строгую фильтрацию на основе надежности источников, включая анализ контекста идентичных изображений, найденных на других URL.

    Claim 7 (Зависимый от 1): Уточняет иерархию надежности. Координаты, предоставленные пользователем (user-provided coordinates), ранжируются выше, чем данные, найденные на URL (location data found at a URL).

    Claim 8 (Зависимый от 1): Расширяет метод, добавляя кластеризацию на основе визуального сходства (threshold level of similarity).

    Claim 10 (Зависимый от 1): Расширяет метод, добавляя кластеризацию на основе принадлежности к одному пользовательскому альбому (user defined album).

    Где и как применяется

    Это инфраструктурный патент, описывающий процесс обогащения данных в репозитории изображений. Он работает в фоновом режиме, а не в реальном времени при запросе.

    CRAWLING – Сканирование и Сбор данных
    Система собирает изображения из интернета и пользовательских загрузок, фиксируя исходные URL и идентифицируя дубликаты на разных URL.

    INDEXING – Индексирование и извлечение признаков
    Это основной этап применения патента. Весь описанный конвейер является частью процесса индексирования изображений.

    • Feature Extraction: Извлечение потенциальных геоданных из метаданных, контекста URL и с помощью Bitmap processing (компьютерное зрение).
    • Data Enrichment & Validation: Система кластеризует изображения, использует Smearing для распространения данных и применяет фильтрацию на основе Reliability Ranking для валидации информации.

    Результаты (точные геотеги) сохраняются в индексе и используются на этапе RANKING в Image Search и Local Search.

    Входные данные:

    • Изображения (пиксельные данные) и их метаданные (EXIF, теги).
    • Идентификаторы альбомов или событий.
    • URL-адреса, где были найдены изображения, и контент этих страниц.

    Выходные данные:

    • Обогащенный репозиторий изображений с присвоенными высокоточными геолокационными координатами, ссылками на места (Place references) и данными о позиции камеры (Camera Pose).

    На что влияет

    • Конкретные типы контента: В первую очередь влияет на фотографии (Images).
    • Специфические запросы: Сильно влияет на локальные запросы и запросы о достопримечательностях или событиях.
    • Конкретные ниши или тематики: Критически важно для Local SEO (туризм, рестораны, недвижимость, услуги), где визуальная информация тесно связана с географией.

    Когда применяется

    Алгоритм применяется при индексации новых изображений или при периодическом пересмотре индекса. Это офлайн-процесс. Процесс может быть итеративным: данные могут распространяться по цепочке связанных изображений через несколько циклов кластеризации и размазывания.

    Пошаговый алгоритм

    Конвейер обработки изображений:

    1. Сбор данных (Gathering): Для изображения агрегируются потенциальные Geolocation coordinates и Place references. Источники включают:
      • Анализ метаданных (EXIF, аннотации, теги).
      • Анализ контекста Source URLs.
      • Поиск идентичных копий изображения на других URL и анализ их контекста.
      • Bitmap processing (распознавание ориентиров, POI).
    2. Начальная фильтрация (Initial Filtering):
      • Оценка источников: Каждому источнику присваивается Reliability Value.
      • Разрешение конфликтов: Удаление противоречивых данных. Выбор репрезентативных данных (например, наиболее точных координат с наивысшим рейтингом надежности в пределах precision radius).
    3. Кластеризация (Clustering): Изображения группируются в кластеры. Методы:
      • Визуальное сходство (near duplicate image fingerprints).
      • Принадлежность к одному user defined album.
      • Принадлежность к одному user-defined event.
    4. Размазывание (Smearing): Локационные данные всех изображений внутри кластера объединяются. Объединенный набор копируется каждому изображению в этом кластере.
    5. Финальная фильтрация (Final Filtering): Объединенный набор данных повторно фильтруется для удаления возникших противоречий и выбора наилучших данных, учитывая надежность источников и типы кластеризации.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы (Веб-страница): Текст, окружающий изображение на Source URL (и на URL дубликатов), анализируется для извлечения названий мест и адресов.
    • Мультимедиа факторы (Изображение): Пиксельные данные (bitmap) анализируются для распознавания ориентиров (landmark detection) и для вычисления отпечатков для кластеризации.
    • Технические факторы (Метаданные):
      • EXIF данные: GPS-координаты, время съемки, параметры камеры (для Camera Pose).
      • Пользовательские метаданные: аннотации, теги, описания.
      • Данные из image search sitemaps.
    • Структурные/Пользовательские факторы:
      • Принадлежность к user defined album.
      • Принадлежность к user-defined event.
      • Чек-ины пользователей в социальных сетях (user check-ins).

    Какие метрики используются и как они считаются

    • Reliability Value / Ranking (Значение/Рейтинг надежности): Ключевая метрика для фильтрации. Каждому источнику присваивается значение. Патент (Claim 7) явно указывает, что координаты, предоставленные пользователем, ранжируются выше, чем данные из URL. Примерная иерархия: EXIF GPS > Явные координаты пользователя > Распознавание ориентиров > Данные из альбомов/событий > Текст на Source URLs.
    • Precision Radius (Радиус точности): Используется для валидации координат. Более точные координаты должны находиться в пределах радиуса менее точных. Может использоваться фиксированное значение (например, 20 км), если радиус не указан.
    • Threshold level of similarity (Пороговый уровень сходства): Метрика визуального сходства для кластеризации почти дубликатов изображений.

    Выводы

    1. Агрессивная агрегация и триангуляция данных: Google не полагается на один источник. Система активно ищет геоданные в EXIF, визуальном содержании (Bitmap processing) и контексте размещения (текст на Source URL), включая анализ всех идентичных копий изображения в интернете.
    2. Иерархия надежности источников критична: Система имеет строгую иерархию доверия (Reliability Ranking). EXIF и пользовательские данные имеют приоритет над контекстом веб-страниц. Это основа для разрешения конфликтов и борьбы с недостоверной информацией.
    3. Сила «Размазывания» (Smearing): Это ключевой механизм масштабирования. Если Google уверен в местоположении одного изображения в кластере (альбоме, событии или группе похожих фото), эта локация будет скопирована всем остальным изображениям в этом кластере.
    4. Кластеризация как метод обогащения: Принадлежность изображения к группе (альбому, событию) или наличие визуально похожих копий является сильным сигналом для геолокации. Это подчеркивает важность серий оригинальных фотографий.
    5. Инфраструктурное значение для Local SEO: Патент описывает, как Google связывает визуальный контент с реальным миром, что критически важно для валидации локальных сущностей (бизнеса) и улучшения их видимости на картах и в локальном поиске.

    Практика

    Best practices (это мы делаем)

    • Сохраняйте и оптимизируйте EXIF-данные: Для Local SEO критически важно сохранять GPS-координаты в EXIF. Это высоконадежный источник (High Reliability Value), который будет иметь приоритет при фильтрации и может быть «размазан» на связанные изображения.
    • Оптимизируйте контекст вокруг изображения (Source URL): Текст на странице (подписи, alt-текст, основной контент) должен четко указывать на местоположение. Система анализирует Source URLs для извлечения геоданных. Убедитесь, что контекст согласуется с другими сигналами.
    • Используйте уникальные серии фотографий: Публикуйте серии оригинальных изображений (галереи объекта/события). Это способствует корректной кластеризации. Если часть фото имеет четкие геосигналы (например, EXIF), механизм Smearing поможет привязать весь набор к нужной локации.
    • Применяйте Image Sitemaps с геолокацией: Используйте теги геолокации в файлах Sitemap для изображений, так как патент упоминает их как один из возможных источников данных.
    • Используйте узнаваемые визуальные элементы: Включайте в изображения узнаваемые ориентиры или вывески. Это помогает системе определить местоположение через Bitmap processing (распознавание объектов).

    Worst practices (это делать не надо)

    • Удаление метаданных (EXIF Stripping): Автоматическое удаление EXIF данных при загрузке на сайт лишает Google одного из самых надежных источников геолокационных данных. Используйте сжатие, сохраняющее критичные метаданные.
    • Использование стоковых фото для локального бизнеса: Стоковые фото не имеют релевантных EXIF данных и используются на тысячах сайтов. Система агрегирует конфликтующие сигналы со всех дубликатов, что затрудняет привязку к конкретному бизнесу.
    • Размещение изображений в нерелевантном контексте: Использование локальных фотографий на страницах, не связанных с этой локацией. Система может ошибочно ассоциировать изображение с контекстом страницы или выявить конфликт сигналов.
    • Манипуляции с геотегами (Geo-Spam): Попытки встроить ложные GPS-координаты. Система фильтрации выявит конфликты с другими сигналами (например, распознанным объектом или контекстом URL) и может отбросить данные или понизить доверие к контенту.

    Стратегическое значение

    Патент подтверждает стратегический курс Google на глубокое понимание связи визуального контента с реальным миром. Для SEO это означает, что оптимизация изображений является неотъемлемой частью Local SEO и подтверждения E-E-A-T. Система стремится к проверке подлинности: действительно ли фотография сделана в этом месте. Использование оригинального, контекстуализированного контента с корректными метаданными становится фактором, повышающим достоверность и релевантность ресурса в глазах поисковой системы.

    Практические примеры

    Сценарий: Оптимизация изображений для сайта отеля

    1. Подготовка (EXIF): Фотограф делает серию снимков отеля (фасад, номера, ресторан) с включенным GPS. EXIF данные сохраняются при загрузке на сайт. Это дает сигнал с высоким Reliability Value.
    2. Размещение (Source URL Context): Фотографии размещаются в галерее на сайте. На этой же странице указан точный адрес, название отеля и микроразметка LocalBusiness. Текст рядом с фото описывает отель.
    3. Кластеризация и Smearing: Изображения группируются в кластер (как часть одного альбома/галереи). Если у некоторых фото EXIF данные отсутствовали (например, фото от дизайнера интерьера), система сможет кластеризовать их с основными фотографиями и скопировать (Smear) точные координаты на них.
    4. Результат: Все изображения отеля получают точные и высоконадежные геотеги. Это повышает видимость отеля в Image Search по локальным запросам и служит сильным сигналом валидации для Local SEO.

    Вопросы и ответы

    Что такое «Размазывание» (Smearing) и как оно влияет на мои изображения?

    Smearing — это процесс распространения геоданных внутри кластера связанных изображений. Если ваше изображение попадает в один кластер (например, по визуальному сходству или через общий альбом) с другим изображением, у которого есть надежные геоданные (например, из EXIF), ваше изображение унаследует эти данные. Это позволяет Google точно локализовать фотографии, даже если у них изначально не было геотега.

    Как Google определяет, каким источникам геоданных доверять? Что надежнее: EXIF или текст на странице?

    Система использует рейтинг надежности (Reliability Ranking). В патенте (Claim 7) указано, что пользовательские координаты (к которым часто приравнивается EXIF GPS) считаются более надежными, чем данные, извлеченные из текста на веб-странице (Source URL). При конфликте данных система отдает предпочтение более надежному источнику.

    Стоит ли удалять EXIF-данные из изображений для оптимизации скорости загрузки?

    С точки зрения Local SEO, это плохая практика. EXIF данные с GPS-координатами — это высоконадежный сигнал для системы геолокации Google. Удаляя их, вы лишаете поисковую систему важных данных для подтверждения местоположения. Рекомендуется использовать методы сжатия, сохраняющие критически важные метаданные.

    Как этот патент влияет на Local SEO?

    Влияние значительное. Система позволяет Google валидировать местоположение бизнеса через визуальный контент. Если изображения на сайте компании или в GBP имеют точные и подтвержденные геотеги (полученные через EXIF или Smearing), это усиливает уверенность системы в том, что компания реально существует по указанному адресу. Это подчеркивает важность использования оригинальных фотографий.

    Использует ли система текст, окружающий изображение на странице?

    Да, обязательно. Патент явно указывает, что информация с Source URL является одним из источников геоданных. Сюда входит анализ текста на странице (подписи, alt-текст, основной контент). Более того, система ищет копии изображения на других URL и также анализирует их контекст для уточнения местоположения.

    Что произойдет, если я использую одно и то же изображение на страницах для разных городов?

    Это плохая практика. Google идентифицирует изображение как дубликат (кластеризация по схожести) и агрегирует геоданные со всех страниц (всех городов). В процессе фильтрации система столкнется с конфликтом и, скорее всего, присвоит изображению слишком общую геолокацию (например, страну) или проигнорирует геоданные. Для Local SEO лучше использовать уникальные фото для каждого филиала.

    Какие методы кластеризации изображений использует Google?

    Патент описывает три основных метода: 1) Визуальная схожесть (поиск дубликатов и похожих изображений). 2) Принадлежность к одному событию (user-defined event) – фото, загруженные разными пользователями на одну страницу мероприятия. 3) Принадлежность к одному альбому (user defined album) – фото из одной галереи.

    Использует ли Google распознавание объектов на фото для определения местоположения?

    Да. Патент упоминает Bitmap processing как один из способов генерации геолокационных данных. Если система распознает на фото известную достопримечательность (например, Колизей), она присвоит изображению соответствующие координаты и Place reference.

    Что такое «Camera Pose» и зачем это нужно SEO-специалисту?

    Camera Pose — это полное описание положения и ориентации камеры в момент съемки (куда она была направлена, под каким углом). Хотя SEO-специалист редко влияет на эти данные напрямую, это показывает, что Google стремится не просто узнать, *где* сделано фото, но и понять его в контексте 3D-пространства, что важно для технологий вроде Google Lens или AR. Сохранение EXIF помогает в этом.

    Может ли локационная информация распространяться между изображениями, которые не находятся в одном кластере?

    Да, это возможно косвенно через итеративную кластеризацию. Например, Изображение А передает локацию Изображению Б в Кластере 1 (по событию). Затем Изображение Б попадает в Кластер 2 вместе с Изображением В (по визуальному сходству). Изображение Б передает локацию (полученную от А) Изображению В. Таким образом, данные распространяются по сети связанных изображений.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.