Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google автоматически распознает и аннотирует достопримечательности на фотографиях, используя текст, визуальное сходство и геоданные

    LANDMARKS FROM DIGITAL PHOTO COLLECTIONS (Ориентиры из коллекций цифровых фотографий)
    • US10303975B2
    • Google LLC
    • 2019-05-28
    • 2009-05-15
    2009 Knowledge Graph Local SEO Мультимедиа Патенты Google

    Google использует систему неконтролируемого обучения для автоматического распознавания достопримечательностей (Landmarks). Анализируя текст, визуальное сходство, геоданные и информацию об авторах в больших коллекциях фотографий, система определяет надежные названия объектов (N-граммы). На основе этого создаются модели распознавания (Appearance Models), которые позволяют аннотировать новые изображения и оценивать популярность мест.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему масштабируемой организации и аннотирования огромных коллекций цифровых изображений (например, в интернете или на фотохостингах), где ручная разметка пользователями часто бывает неполной, неточной или отсутствует. Цель — автоматически обнаруживать достопримечательности (Landmarks) на фотографиях без прямого человеческого надзора (unsupervised learning) и надежно помечать их соответствующими названиями.

    Что запатентовано

    Запатентована система для автоматического обнаружения и аннотации достопримечательностей. Изобретение использует коллекции изображений с ассоциированным текстом и метаданными для выявления надежных текстовых дескрипторов (n-grams). Это достигается путем сложной кросс-валидации: текстовые данные проверяются визуальным сходством, географической информацией и данными об авторах. На основе надежно идентифицированных объектов система создает Appearance Models (Модели внешнего вида), которые используются для распознавания этих объектов на новых изображениях.

    Как это работает

    Система анализирует и коррелирует несколько типов данных:

    • Извлечение N-грамм: Из текста, связанного с изображениями (теги, описания), извлекаются потенциальные названия (n-grams).
    • Фильтрация Надежности: N-граммы фильтруются, например, по минимальному количеству уникальных авторов, использующих термин (minimum reliability measure).
    • Визуальное Сопоставление: Строится граф (matching-images graph) на основе визуального сходства изображений.
    • Скоринг N-грамм: Рассчитывается N-gram score, отражающий, насколько визуально согласованы изображения, связанные с одним термином.
    • Гео-валидация: Проверяется точность геотегов (Geo-reliability) и географический разброс термина (Geo-variance).
    • Обучение Модели: Для высоко оцененных n-грамм генерируется Appearance Model.
    • Аннотация и Приоритизация: Модель используется для распознавания объекта на новых изображениях. Популярные ориентиры приоритизируются на основе количества загруженных фотографий (Landmark Popularity Measure).

    Актуальность для SEO

    Высокая. Автоматическое распознавание сущностей (мест, объектов) на изображениях является критически важным компонентом современных технологий Google (Image Search, Google Lens, Google Maps, Knowledge Graph). Описанные методы кросс-валидации текста, визуальных данных и метаданных остаются фундаментальными для машинного обучения на основе зашумленных пользовательских данных.

    Важность для SEO

    Высокое влияние (8/10). Патент имеет прямое отношение к Image SEO и Local SEO. Он раскрывает механизмы, с помощью которых Google валидирует текстовые описания изображений, используя визуальные, географические и пользовательские (UGC) сигналы. Понимание этих механизмов критично для оптимизации видимости изображений, связанных с локациями (туризм, локальный бизнес) и другими визуальными сущностями.

    Детальный разбор

    Термины и определения

    Appearance Model (Модель внешнего вида)
    Шаблон для автоматического распознавания объекта (достопримечательности). Включает вектор визуальных признаков (feature vector) и может включать невизуальную информацию (например, геоданные).
    Correlation-weight (W(i)) (Корреляционный вес)
    Вес, присваиваемый изображению I(i). Обратная мера корреляции данного изображения с другими (например, серия фото одного автора в одном месте). Используется для снижения влияния дубликатов.
    Geo-reliability (G(i)) (Геонадежность)
    Оценка точности геолокации изображения I(i). Основана на проверке визуальной согласованности изображения с другими изображениями, имеющими близкие координаты.
    Geo-variance (V(k)) (Геовариативность/Дисперсия)
    Мера географического разброса изображений, связанных с n-граммой N(k). Высокая вариативность указывает, что термин, вероятно, слишком общий и не описывает конкретную локацию.
    Image-name link (L(i,k)) (Связь изображение-имя)
    Сглаженная оценка силы связи между изображением I(i) и n-граммой N(k). Рассчитывается путем усреднения по набору визуально похожих изображений, а не только по наличию тега у самого изображения.
    Landmark-tagged images (Изображения с тегами достопримечательностей)
    Набор изображений, которым система автоматически присвоила надежный тег. Используется как обучающий набор данных для Appearance Model.
    Landmark Popularity Measure (Мера популярности достопримечательности)
    Метрика для приоритизации. Основана на количестве изображений данной локации, загруженных на фотохостинг (Claim 1).
    Matching-images graph (Граф сопоставления изображений)
    Структура данных, где узлы — это изображения, а ребра отражают степень их визуального сходства (Matching score M(i,j)).
    Minimum Reliability Measure (Минимальная мера надежности)
    Порог для фильтрации n-грамм. Основан на количестве уникальных авторов, использующих данную n-грамму (Claim 1).
    N-gram (N-грамма)
    Последовательность слов, извлеченная из текста, ассоциированного с изображением. Потенциальный дескриптор достопримечательности.
    N-gram score (S(k)) (Оценка N-граммы)
    Оценка, отражающая вероятность того, что n-грамма относится к визуально различимой сущности. Рассчитывается как отношение внутренней силы связей к внешней силе связей в графе.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод автоматического обнаружения и аннотации достопримечательностей.

    1. Доступ к коллекции цифровых изображений.
    2. Извлечение набора n-грамм (n-gram set) из связанных текстов.
    3. Выбор оцененных n-грамм (scored n-grams), удовлетворяющих minimum reliability measure, основанной на количестве уникальных авторов текстов.
    4. Автоматическое присвоение тега изображениям, которые алгоритмически определены как содержащие достопримечательность (географическую точку/область).
    5. Приоритизация изображений популярных локаций на основе Landmark Popularity Measure (количества загруженных фотографий этой локации на фотохостинг).
    6. Обучение Appearance Model на основе этих изображений (landmark-tagged images).
    7. Обнаружение достопримечательности на новом изображении (не из исходной коллекции) с использованием модели.

    Claim 3 (Зависимый): Детализирует инфраструктуру для скоринга.

    1. Присвоение Correlation-weights изображениям на основе корреляции их метаданных (автор, геолокация, время).
    2. Генерация Matching-images graph с оценками визуального совпадения (match score).
    3. Связывание n-грамм с изображениями с учетом этих весов и графа.

    Claim 4 и 5 (Зависимые): Вводят географическую валидацию.

    • Оценка Geo-reliability для каждого изображения. Точность геотегов проверяется через визуальную согласованность с соседними изображениями (Claim 4).
    • Вычисление Geo-variance (variance of geo-location) для n-граммы и удаление n-грамм с разбросом выше порога (Claim 5).

    Claim 7 (Зависимый): Определяет механизм расчета N-gram score.

    Оценка рассчитывается как отношение силы внутренних ребер графа (связь между изображениями с общей n-граммой) к силе внешних ребер (связь между изображениями без общей n-граммы). Это измеряет визуальную согласованность термина.

    Где и как применяется

    Изобретение применяется на этапах индексирования и анализа данных для улучшения понимания содержания изображений и распознавания сущностей.

    CRAWLING – Сканирование и Сбор данных
    Система собирает изображения, ассоциированный текст (теги, заголовки, окружающий контент) и метаданные (EXIF: геолокация, автор, время) из веб-источников и фотохостингов.

    INDEXING – Индексирование и извлечение признаков
    Основной этап работы алгоритма. Происходит глубокий анализ данных:

    1. Извлечение признаков: Извлекаются визуальные признаки (feature vectors) и текстовые n-grams.
    2. Построение графов и расчет метрик: Генерируется Matching-images graph, рассчитываются Correlation-weights, Geo-reliability.
    3. Анализ и Скоринг: Происходит фильтрация и скоринг n-грамм для выявления надежных дескрипторов сущностей.
    4. Обучение моделей: Создаются Appearance Models для идентифицированных сущностей.
    5. Аннотирование: Изображениям присваиваются надежные теги.

    RANKING – Ранжирование (Image Search) / METASEARCH
    Сгенерированные аннотации используются как сигналы релевантности в поиске по картинкам. Landmark Popularity Measure используется для приоритизации результатов. Это также влияет на формирование блоков с изображениями в универсальной выдаче (Metasearch).

    На что влияет

    • Конкретные типы контента: Изображения, особенно пользовательский контент (UGC) и фотографии локаций/объектов.
    • Специфические запросы: Запросы, связанные с локациями, путешествиями, известными объектами (информационные и локальные интенты).
    • Конкретные ниши или тематики: Travel, Local SEO, Недвижимость.

    Когда применяется

    • Условия работы: При обработке больших массивов изображений с метаданными.
    • Триггеры активации: Анализ n-граммы запускается, когда она достигает порога minimum reliability measure (достаточное количество уникальных авторов).
    • Частота применения: Построение моделей — ресурсоемкий периодический офлайн-процесс. Аннотирование — в процессе индексации новых изображений.

    Пошаговый алгоритм

    Алгоритм состоит из двух основных фаз: идентификация и обучение, затем применение.

    Фаза А: Идентификация достопримечательностей и генерация надежных тегов

    1. Генерация набора N-грамм (FIG. 5):

    1. Доступ к коллекциям изображений и текста.
    2. Извлечение потенциальных дескрипторов (n-grams).
    3. Фильтрация n-грамм: удаление стоп-слов и проверка minimum reliability measure (порог по уникальным авторам).

    2. Скоринг N-грамм (FIG. 6):

    1. Расчет весов изображений: Присвоение Correlation-weights (W(i)). Вес снижается для коррелирующих изображений (дубликатов от одного автора/места).
    2. Построение графа: Генерация Matching-images graph. Вычисление Matching score (M(i,j)) на основе визуальных признаков.
    3. Расчет связей: Вычисление Image-name link (L(i,k)) — сглаженной связи между изображением и n-граммой, учитывающей визуально похожие изображения.
    4. Оценка геонадежности: Расчет Geo-reliability (G(i)) путем проверки визуальной согласованности соседних по геолокации изображений.
    5. Географическая фильтрация: Вычисление Geo-variance (V(k)). Фильтрация n-грамм с высоким V(k) (слишком большой разброс).
    6. Расчет оценки N-граммы: Вычисление N-gram score (S(k)) (отношение внутренней визуальной согласованности к внешней).
    7. Фильтрация и Объединение: Удаление n-грамм с низким S(k). Слияние синонимичных n-грамм (на основе схожести оценок и перекрытия изображений).

    3. Присвоение тегов (FIG. 4):

    1. Расчет pairing-score (например, L(i,k)*S(k)).
    2. Присвоение изображению n-грамм с наивысшими оценками. Формирование набора landmark-tagged images.

    Фаза Б: Обучение модели и аннотация (FIG. 3)

    1. Обучение модели: Использование landmark-tagged images для обучения Appearance Model.
    2. Обнаружение: Применение Appearance Model к новым изображениям.
    3. Аннотация: Присвоение тегов новым изображениям при обнаружении объекта.

    Какие данные и как использует

    Данные на входе

    Система использует комплексный набор данных для кросс-валидации:

    • Контентные факторы (Текст): Текст, ассоциированный с изображениями (теги, заголовки, описания, окружающий текст). Источник n-grams.
    • Мультимедиа факторы (Визуальные данные): Визуальные признаки изображений (feature vectors). Используются для построения Matching-images graph и обучения Appearance Model.
    • Географические факторы: Геолокационные данные (geo-tags, например из EXIF). Используются для расчета Geo-reliability и Geo-variance.
    • Пользовательские факторы (Авторство): Информация об авторе (Author information). Критически важна для расчета Correlation-weights (борьба с дубликатами) и minimum reliability measure (уникальные авторы).
    • Временные факторы: Временные метки (Timestamps). Могут использоваться для расчета Correlation-weights.

    Какие метрики используются и как они считаются

    • Minimum Reliability Measure: Пороговое количество уникальных авторов, использующих n-грамму.
    • Correlation-weight (W(i)): Обратная мера корреляции изображения с другими по метаданным (автор, место). Например, если N изображений коррелируют, вес может быть 1/N.
    • Matching score (M(i,j)): Оценка визуального сходства между изображениями I(i) и I(j).
    • Image-name link (L(i,k)): Сглаженная сила связи между изображением и n-граммой, учитывающая визуальное сходство с другими изображениями, имеющими эту n-грамму.
    • Geo-reliability (G(i)): Оценка точности геотега, основанная на визуальной согласованности (M(i,j)) с географическими соседями.
    • Geo-variance (V(k)): Взвешенная дисперсия геолокаций изображений, связанных с n-граммой.
    • N-gram score (S(k)): Отношение суммы взвешенных внутренних связей к сумме взвешенных внешних связей в Matching-images graph. Измеряет визуальную согласованность термина.
    • Landmark Popularity Measure: Количество загруженных изображений данной локации на фотохостинг.

    Выводы

    1. Мультимодальная кросс-валидация как основа распознавания: Google идентифицирует сущности без ручного контроля, используя корреляцию между различными типами данных. Текстовый контекст, визуальное сходство, геолокация и авторство используются совместно для подтверждения значения n-граммы.
    2. Визуальная Согласованность как фактор истины: Ключевым механизмом валидации текстового описания является N-gram score (S(k)). Если изображения, помеченные одним термином, визуально похожи друг на друга, термин считается надежным.
    3. Разнообразие Авторов (Анти-манипуляция): Термин должен использоваться достаточным количеством уникальных авторов (minimum reliability measure), что защищает от спама и индивидуальных ошибок. Это подчеркивает важность аутентичного UGC.
    4. Валидация Геоданных: Система не доверяет слепо геотегам. Она проверяет их точность (Geo-reliability), сравнивая визуальное содержание с фотографиями из той же местности, и фильтрует общие термины, не привязанные к месту (Geo-variance).
    5. Снижение влияния дубликатов: Система снижает вес серийных фотографий от одного автора (Correlation-weights), предотвращая перекос модели и обеспечивая объективность оценки.
    6. UGC как сигнал популярности: Landmark Popularity Measure (количество загруженных пользователями фотографий) явно используется для приоритизации (Claim 1), подтверждая важность UGC как индикатора значимости локации в реальном мире.

    Практика

    Best practices (это мы делаем)

    • Обеспечение сильного текстового контекста: Для Image SEO критически важно, чтобы изображения сущностей (локаций, продуктов) имели четкий и последовательный текстовый контекст (заголовки, окружающий текст, ALT-атрибуты, подписи). Это обеспечивает исходные данные для извлечения надежных n-grams.
    • Стимулирование разнообразного UGC для Local SEO: Активно поощряйте клиентов загружать фотографии вашего бизнеса в Google Maps/GBP и на другие платформы. Это увеличивает Landmark Popularity Measure (приоритизация) и обеспечивает разнообразие авторов (minimum reliability measure), что необходимо для валидации названия.
    • Использование точных геосигналов: Используйте точное геотегирование в EXIF-данных изображений на сайте. Точные данные повысят Geo-reliability, если они согласуются с визуальным контентом.
    • Визуальная чистота и разнообразие ракурсов: Используйте четкие, качественные изображения, на которых хорошо виден объект. Система полагается на визуальное сопоставление (Matching-images graph). Разнообразные ракурсы помогают построить надежную Appearance Model.
    • Последовательное и специфичное именование: Используйте консистентные и конкретные названия для ваших локаций. Это снижает Geo-variance и облегчает системе процесс скоринга и объединения (merging) n-grams.

    Worst practices (это делать не надо)

    • Фальсификация EXIF-данных (Гео-спам): Попытки манипулировать геолокацией путем вставки ложных геотегов могут быть обнаружены механизмом Geo-reliability, если визуальное содержание не соответствует местности.
    • Массовая загрузка однотипных фото (Астротурфинг): Загрузка множества фото с одного аккаунта для имитации популярности неэффективна из-за механизма Correlation-weights и требования разнообразия авторов.
    • Использование слишком общих терминов: Оптимизация только под общие термины (например, «кафе») неэффективна для идентификации конкретной локации, так как они будут иметь высокую Geo-variance и будут отфильтрованы.
    • Нерелевантный текстовый контекст (Keyword Stuffing): Использование ключевых слов, не соответствующих изображению. Система обнаружит низкую визуальную согласованность, что приведет к низкому N-gram Score для этой связки.
    • Использование стоковых фото для конкретных локаций: Использование общих стоковых фотографий для представления конкретного места неэффективно, так как они не несут уникальных визуальных и географических сигналов, необходимых для точной идентификации.

    Стратегическое значение

    Патент подтверждает стратегию Google по глубокому пониманию сущностей через мультимодальный анализ (текст + изображение + метаданные). Image SEO — это не только оптимизация тегов, но и обеспечение согласованности всех сигналов. Для Local SEO это подчеркивает возрастающую роль визуального контента, особенно пользовательского (UGC), как ключевого фактора ранжирования и индикатора популярности в реальном мире.

    Практические примеры

    Сценарий: Оптимизация изображений для локального бизнеса (ресторана)

    Цель: Гарантировать, что Google распознает изображения ресторана и свяжет их с его сущностью.

    1. Действие 1 (Визуальный контент и Геоданные): Сделать профессиональные фотографии экстерьера (фасада с вывеской) и интерьера. Встроить точные GPS-координаты в EXIF данные (повышение Geo-reliability).
    2. Действие 2 (Текстовый контекст): Опубликовать фотографии на сайте и в Google Business Profile. Использовать консистентное название (например, «Ресторан ‘Ромашка’, Тверская 1») в подписях, alt-текстах и окружающем тексте (надежные n-grams).
    3. Действие 3 (Стимулирование UGC): Запустить акцию, поощряющую посетителей публиковать фото в Google Maps и социальных сетях с геолокацией и упоминанием названия.
    4. Ожидаемый результат (по патенту):
      • Система обнаружит визуально согласованные изображения (высокий Matching Score) в определенной локации (низкая Geo-Variance).
      • Разнообразие авторов (UGC) повысит Minimum Reliability Measure и Landmark Popularity Measure.
      • Система рассчитает высокий N-gram Score для названия ресторана и создаст Appearance Model, улучшая его распознавание и видимость в поиске.

    Вопросы и ответы

    Как Google определяет, что текстовый тег действительно описывает объект на фото?

    Ключевым механизмом является оценка визуальной согласованности (N-gram Score). Система проверяет, насколько изображения, помеченные одним и тем же термином, визуально похожи друг на друга (высокая внутренняя связь) и отличаются от изображений без этого тега (низкая внешняя связь). Если согласованность высокая, термин считается надежным.

    Насколько важны геотеги (GPS данные) в EXIF для Image SEO?

    Они очень важны для локаций, но Google проверяет их точность. Патент описывает метрику Geo-Reliability, которая оценивает достоверность геотега путем сравнения визуального контента изображения с другими фотографиями, сделанными поблизости. Если изображение визуально не соответствует своему окружению, его геотег будет считаться ненадежным.

    Как система отличает общий термин (например, «кафе») от конкретного ориентира (например, «Кафе Пушкинъ»)?

    Для этого используется метрика Geo-Variance. Система анализирует географическое распределение изображений с этим термином. Если изображения разбросаны по всему миру (высокая дисперсия), как в случае с «кафе», термин фильтруется. Если же они сконцентрированы в определенной локации (низкая дисперсия), термин считается кандидатом на название ориентира.

    Как система защищается от манипуляций, например, массовой загрузки фото с одного аккаунта?

    Патент предусматривает два механизма защиты. Во-первых, Correlation-Weights снижают вес изображений, если они сильно коррелируют (один автор, одно место), уменьшая влияние серийных загрузок. Во-вторых, используется Minimum Reliability Measure, требующая определенного количества уникальных авторов для принятия термина как надежного.

    Какова роль пользовательского контента (UGC) в этом процессе?

    UGC играет критически важную роль. Разнообразие авторов используется как мера надежности названия (Minimum Reliability Measure). Кроме того, общее количество загруженных фотографий используется как мера популярности (Landmark Popularity Measure) для приоритизации ориентиров в выдаче (Claim 1).

    Что такое Appearance Model?

    Appearance Model — это натренированная модель машинного обучения для конкретного ориентира. Она содержит вектор визуальных признаков, описывающий, как выглядит ориентир с разных ракурсов и в разных условиях, а также может включать геоданные. Эта модель используется для автоматического распознавания этого ориентира на любых новых изображениях.

    Влияет ли качество и четкость фотографий на распознавание?

    Да, напрямую. Система полагается на извлечение визуальных признаков для расчета сходства (Matching Score) и тренировки Appearance Model. Высококачественные, четкие изображения позволяют извлечь более надежные признаки, что повышает точность всего процесса распознавания и валидации.

    Стоит ли использовать стоковые фотографии для иллюстрации локаций?

    Это плохая практика с точки зрения данного патента. Стоковые фотографии не несут уникальных визуальных и географических сигналов, необходимых для точной идентификации конкретной локации. Система ищет визуальную согласованность с другими реальными фотографиями объекта, и стоковые изображения, вероятно, не пройдут эту проверку.

    Как система обрабатывает синонимы или разные названия одного и того же места?

    Патент описывает этап объединения n-grams (Merge n-grams). Если два разных термина имеют схожие оценки (N-gram Scores) и связаны с существенно перекрывающимся набором изображений (т.е. используются для описания одних и тех же фотографий), система объединяет их, считая, что они относятся к одному ориентиру.

    Применим ли этот патент только к достопримечательностям или также к продуктам в e-commerce?

    Патент сфокусирован на ориентирах (Landmarks) и активно использует геоданные. Однако базовые принципы — корреляция текста, визуального сходства и метаданных для распознавания сущностей без ручного контроля — абсолютно применимы и к продуктам. Механизм валидации названий через визуальную согласованность и разнообразие источников остается универсальным.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.