Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует Deep Learning для автоматического обнаружения и картирования локального бизнеса по изображениям Street View

    BUSINESS DISCOVERY FROM IMAGERY (Обнаружение бизнеса по изображениям)
    • US9594984B2
    • Google LLC
    • 2017-03-14
    • 2015-08-07
    2015 EEAT и качество Local SEO SERP Патенты Google

    Этот патент описывает, как Google может использовать Сверточные Нейронные Сети для анализа уличных изображений (например, Street View) и автоматического обнаружения физических витрин магазинов. Система определяет точное местоположение каждого бизнеса с помощью ограничивающих рамок, что позволяет впоследствии извлекать названия компаний (через OCR) и атрибуты для создания или обновления локального бизнес-индекса Google (например, Google Maps).

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу точного и масштабируемого обнаружения локальных бизнесов (рестораны, магазины и т.д.) по всему миру с использованием гео-лоцированных уличных фотографий (например, Street View). Цель — автоматизировать процесс построения точных карт и наполнения базы данных локальных сущностей, так как ручная аннотация миллиардов изображений невозможна, а существующие автоматизированные методы были недостаточно точными или слишком медленными для глобального масштаба.

    Что запатентовано

    Запатентован метод использования Глубокой Нейронной Сети (Deep Neural Network, конкретно Convolutional Neural Network) для обнаружения витрин бизнеса на изображениях. В отличие от традиционных методов, которые генерируют тепловые карты или карты вероятностей, требующие постобработки, эта система обучена ‘от пикселей до ограничивающих рамок’ (end-to-end). Она напрямую предсказывает точные ограничивающие рамки (bounding boxes) для каждой витрины и оценки уверенности (confidence scores) за одну оценку изображения.

    Как это работает

    Система использует Convolutional Neural Network, обученную на большом наборе изображений с размеченными витринами.

    • Обучение: Сеть учится распознавать визуальные признаки витрин, несмотря на различия во внешнем виде, освещении, ракурсе и частичном перекрытии.
    • Эффективная оценка (Multi-crop evaluation): Для анализа больших панорамных изображений используется метод coarse sliding window (грубое скользящее окно), который значительно быстрее традиционного плотного поиска.
    • Генерация рамок: Сеть анализирует изображение и генерирует набор bounding boxes, точно выделяющих каждую отдельную витрину, даже если они расположены рядом.
    • Пост-классификация (Post-classification): Для повышения точности может применяться дополнительный этап классификации для фильтрации предложенных рамок.
    • Извлечение данных: После точного обнаружения витрины система может применить OCR (оптическое распознавание символов) и другие методы для извлечения названия бизнеса, атрибутов и уточнения геолокации.

    Актуальность для SEO

    Высокая. Автоматическое извлечение структурированных данных из неструктурированных источников (изображений) является ключевым направлением развития Google (например, Google Lens, усовершенствования в Google Maps). Технологии, описанные в патенте, лежат в основе способности Google поддерживать актуальность данных о миллионах физических бизнесов по всему миру, используя данные Street View.

    Важность для SEO

    Патент имеет высокое значение для Local SEO. Он описывает инфраструктурный механизм, с помощью которого Google собирает и верифицирует данные о существовании и расположении физических бизнесов. Это напрямую влияет на качество и полноту данных в Google Maps и Knowledge Graph для локальных сущностей. Понимание этого механизма подчеркивает важность визуальной идентификации бизнеса в физическом мире.

    Детальный разбор

    Термины и определения

    Bounding Box (Ограничивающая рамка)
    Прямоугольник (или другая форма), наложенный на изображение, который точно определяет местоположение и границы объекта, в данном случае — витрины одного бизнеса.
    Coarse Sliding Window / Multi-crop Evaluation (Грубое скользящее окно / Мульти-кадровая оценка)
    Метод эффективной оценки изображения, при котором анализируется лишь небольшое количество перекрывающихся ‘кадров’ (crops) изображения. Это значительно быстрее, чем dense sliding window (плотное скользящее окно), которое анализирует почти каждый пиксель.
    Confidence Score (Оценка уверенности)
    Метрика, генерируемая нейронной сетью для каждой bounding box, которая представляет вероятность того, что рамка действительно содержит витрину бизнеса.
    Convolutional Neural Network (CNN) (Сверточная нейронная сеть)
    Тип нейронной сети, используемый для анализа изображений. В патенте используется для обнаружения витрин.
    Deep Neural Network (DNN) (Глубокая нейронная сеть)
    Общий термин для нейронных сетей с множеством слоев. В контексте патента часто подразумевается CNN.
    End-to-End Learning (Сквозное обучение)
    Подход, при котором система обучается выполнять задачу напрямую от входных данных (пикселей) до конечного результата (bounding boxes и confidence scores), без промежуточных этапов, таких как генерация тепловых карт.
    Jaccard Similarity Coefficient (Коэффициент Жаккара)
    Метрика, используемая во время обучения для сопоставления предсказанных bounding boxes с реальными границами витрин. Определяется как размер пересечения, деленный на размер объединения двух рамок.
    Post-classification (Пост-классификация)
    Дополнительный этап после генерации bounding boxes, на котором применяется второй классификатор для дальнейшей фильтрации и уточнения результатов, повышая общую точность.
    Street Level Photographs (Уличные фотографии)
    Гео-лоцированные изображения, снятые на уровне улицы (например, Street View), которые служат основным источником данных для обнаружения бизнеса.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод обнаружения бизнеса.

    1. Обучение Deep Neural Network с использованием набора тренировочных изображений и данных, идентифицирующих местоположение витрин на этих изображениях.
    2. Получение нового (первого) изображения.
    3. Оценка первого изображения с помощью обученной DNN.
    4. Генерация набора из двух или более bounding boxes, идентифицирующих местоположение витрин на первом изображении.

    Ядро изобретения — использование DNN для прямой генерации точных bounding boxes для нескольких витрин на одном изображении.

    Claim 2 (Зависимый от 1): Связывает технологию компьютерного зрения с поисковой системой и локальным поиском.

    1. Обнаружение бизнес-информации (например, текста, логотипов) в пределах идентифицированных bounding boxes.
    2. Обновление базы данных бизнес-информации (например, Google Maps/Local Index) с использованием извлеченных данных.
    3. Получение запроса от пользователя на бизнес-информацию.
    4. Извлечение запрошенной информации из обновленной базы данных.

    Это критически важный пункт, показывающий, как автоматическое обнаружение витрин используется для наполнения и обновления локального индекса Google.

    Claim 4 и 5 (Зависимые от 1): Уточняют метод оценки изображений.

    • Утверждается использование coarse sliding window (грубого скользящего окна) на части изображения во время обучения (Claim 4) и во время генерации результатов (Claim 5).
    • Включает удаление рамок на основе их расположения относительно анализируемой части изображения (например, если рамка касается края кадра).

    Это описывает технику повышения эффективности (multi-crop evaluation), позволяющую быстро обрабатывать большие панорамные изображения.

    Claim 6 и 7 (Зависимые от 1): Описывают использование оценок уверенности.

    • Определение confidence score для каждой рамки, представляющей вероятность наличия витрины.
    • Удаление рамок, чья оценка ниже установленного порога, как во время обучения (Claim 6), так и во время генерации (Claim 7).

    Claim 8 (Зависимый от 1): Указывает на использование этапа Post-classification как во время обучения, так и при генерации результатов для повышения точности.

    Где и как применяется

    Изобретение относится к процессам сбора и обработки данных о физическом мире для построения локального индекса и карт.

    CRAWLING – Сканирование и Сбор данных (Data Acquisition)
    На этом этапе система получает исходные данные — уличные фотографии (Street Level Photographs), например, из автомобилей Street View. Патент описывает, как эти сырые данные обрабатываются для обнаружения новых или изменившихся бизнесов.

    INDEXING – Индексирование и извлечение признаков (Feature Extraction)
    Это основной этап применения патента. Система выполняет сложный анализ изображений для извлечения структурированной информации:

    1. Обнаружение витрин (Storefront Detection): Использование DNN для анализа изображений и генерации bounding boxes вокруг витрин.
    2. Извлечение атрибутов (Attribute Extraction): Как описано в Claim 2, после обнаружения витрины система извлекает бизнес-информацию (например, с помощью OCR для чтения вывесок, классификации логотипов).
    3. Уточнение геолокации: Точное определение границ витрины позволяет более точно определить географическое положение бизнеса.
    4. Обновление базы данных: Извлеченные данные используются для обновления локального индекса и Knowledge Graph.

    Входные данные:

    • Набор тренировочных изображений (для обучения).
    • Данные о расположении витрин на тренировочных изображениях (для обучения).
    • Новые уличные изображения (панорамные или стандартные) для анализа.

    Выходные данные:

    • Обученная модель Deep Neural Network.
    • Для новых изображений: набор bounding boxes, идентифицирующих витрины.
    • Confidence scores для каждой рамки.
    • Обновленная база данных бизнес-информации (после этапа извлечения атрибутов).

    На что влияет

    • Конкретные типы контента: Влияет на уличные изображения (Street View) и данные в Google Maps / Локальном поиске.
    • Специфические запросы: Влияет на локальные запросы (например, «рестораны рядом со мной», «аптека на улице Ленина»), так как обеспечивает точность и полноту базы данных, используемой для ответа на эти запросы.
    • Конкретные ниши или тематики: Влияет на все тематики, имеющие физическое представительство (ритейл, услуги, общепит и т.д.).

    Когда применяется

    • Условия работы алгоритма: При наличии уличных изображений достаточного качества для анализа.
    • Триггеры активации: Вероятно, активируется при получении новых или обновленных данных Street View для определенной территории, или при необходимости периодической верификации существующей базы данных локальных бизнесов.
    • Временные рамки: Процесс является офлайновым (не в реальном времени ответа на запрос пользователя). Обучение модели и обработка миллиардов изображений требуют значительных вычислительных ресурсов и времени.

    Пошаговый алгоритм

    Процесс А: Обучение модели (Training)

    1. Сбор данных: Получение набора тренировочных изображений и соответствующей разметки (идентификации местоположения витрин).
    2. Инициализация сети: Настройка архитектуры Deep Neural Network (CNN).
    3. Применение Multi-crop Evaluation: Использование coarse sliding window для анализа частей тренировочных изображений.
    4. Генерация предсказаний: Сеть генерирует первичный набор bounding boxes и confidence scores.
    5. Сопоставление и оценка потерь: Сопоставление предсказанных рамок с реальной разметкой (например, с использованием Jaccard similarity). Расчет ошибки (потерь).
    6. Фильтрация предсказаний: Удаление рамок с низким confidence score или некорректным расположением (например, касающихся края кадра).
    7. Опциональная Пост-классификация: Применение второго классификатора к предложенным рамкам для уточнения вероятности.
    8. Обновление весов: Корректировка параметров сети для минимизации потерь. Повторение шагов 3-8 до достижения требуемой точности.

    Процесс Б: Обнаружение бизнеса (Inference/Evaluation)

    1. Получение изображения: Загрузка нового уличного изображения (например, панорамы Street View).
    2. Применение Multi-crop Evaluation: Анализ изображения с помощью обученной DNN с использованием coarse sliding window.
    3. Генерация Bounding Boxes: Получение набора рамок, идентифицирующих потенциальные витрины, и их confidence scores.
    4. Фильтрация: Удаление рамок с низким confidence score или некорректным расположением.
    5. Опциональная Пост-классификация: Применение обученного пост-классификатора для повышения точности и фильтрации ложных срабатываний.
    6. Постобработка результатов: Например, объединение рамок с разных изображений, соответствующих одному и тому же физическому объекту, и удаление ложных срабатываний (например, машин, закрывающих обзор).
    7. Извлечение бизнес-информации: Применение OCR и других методов анализа к областям внутри финальных bounding boxes.
    8. Обновление базы данных: Внесение или обновление информации о бизнесе в локальный индекс.

    Какие данные и как использует

    Данные на входе

    Патент фокусируется на обработке изображений и не детализирует другие типы SEO-факторов.

    • Мультимедиа факторы: Ключевые данные — уличные фотографии (Street Level Photographs). Упоминается, что они могут быть панорамными (до 360 градусов), сферическими или почти сферическими. Система должна справляться с шумом, размытием движения, окклюзиями, вариациями освещения, отражениями и перспективой.
    • Географические факторы: Изображения должны быть гео-лоцированы, чтобы обнаруженный бизнес можно было нанести на карту.

    Какие метрики используются и как они считаются

    • Confidence Score (Оценка уверенности): Вероятностная метрика, вычисляемая DNN для каждой предложенной bounding box.
    • Пороги уверенности (Confidence Thresholds): Предопределенные значения, используемые для фильтрации рамок с низким confidence score.
    • Jaccard Similarity Coefficient: Используется во время обучения для измерения степени перекрытия между предсказанной рамкой и реальным расположением витрины.
    • Вероятность пост-классификации: Метрика, рассчитываемая на этапе Post-classification. Может вычисляться путем объединения (суммирования или умножения) исходного confidence score от DNN и оценки от пост-классификатора.
    • Ранжирование рамок: Bounding boxes могут быть ранжированы на основе их итоговой вероятности/оценки уверенности для выбора лучших кандидатов.

    Выводы

    1. Автоматизация сбора локальных данных: Патент описывает ключевую технологию, позволяющую Google автоматизировать обнаружение и верификацию физических бизнесов в глобальном масштабе, используя Street View. Это снижает зависимость от ручного ввода, данных от владельцев бизнеса или сторонних агрегаторов.
    2. End-to-End Deep Learning для точности: Использование сквозного обучения (от пикселей к рамкам) позволяет системе точно выделять отдельные витрины, даже в плотной городской застройке, что критично для последующего извлечения данных (OCR).
    3. Эффективность и масштабируемость: Техники вроде coarse sliding window (multi-crop evaluation) обеспечивают необходимую скорость обработки миллиардов панорамных изображений.
    4. Данные из изображений как источник истины: Для Google визуальное подтверждение существования бизнеса на актуальных изображениях Street View является сильным сигналом достоверности (E-E-A-T в контексте локального поиска).
    5. Связь компьютерного зрения и поиска: Claim 2 четко демонстрирует, как результаты работы системы компьютерного зрения (обнаружение витрин) интегрируются в базу данных поиска и используются для ответов на запросы пользователей.

    Практика

    Best practices (это мы делаем)

    Хотя патент описывает внутренние процессы Google по сбору данных, он дает важные инсайты для стратегии Local SEO.

    • Обеспечение четкой и видимой вывески: Убедитесь, что название бизнеса, логотип и основная деятельность четко видны и читаемы с улицы. Это критически важно для того, чтобы система могла обнаружить витрину (DNN) и правильно прочитать название (OCR).
    • Соответствие вывески и онлайн-данных: Название и атрибуты на физической вывеске должны точно соответствовать данным в профиле Google Business Profile (GBP). Если система обнаружит расхождения, это может привести к проблемам с верификацией или созданию дубликатов.
    • Актуализация фотографий в GBP: Регулярно загружайте актуальные фотографии фасада и витрины в GBP. Хотя система в первую очередь полагается на Street View, эти фотографии могут помочь в верификации и классификации бизнеса.
    • Управление видимостью при переезде или закрытии: Если бизнес закрывается или переезжает, необходимо оперативно убрать старые вывески. В противном случае система может продолжать обнаруживать неактуальный бизнес по старым изображениям Street View до их обновления.

    Worst practices (это делать не надо)

    • Использование нечетких или перегруженных вывесок: Вывески, которые трудно прочитать человеку, также будут трудны для распознавания системой OCR после того, как DNN обнаружит витрину.
    • Манипуляции с вывесками (Keyword Stuffing): Попытки перечислить все ключевые слова на физической вывеске могут ухудшить читаемость и не дадут значительного преимущества, если они не соответствуют официальному названию бизнеса.
    • Игнорирование физического присутствия: Создание виртуальных офисов или попытки зарегистрировать бизнес там, где нет четких визуальных идентификаторов (вывески), повышает риск того, что система не сможет автоматически верифицировать его существование.

    Стратегическое значение

    Патент подчеркивает стратегию Google по построению индекса реального мира, основанного на прямом наблюдении через изображения. Для Local SEO это означает, что физическое присутствие и его визуальная репрезентация являются фундаментальными факторами достоверности. Способность Google автоматически верифицировать данные с помощью Deep Learning и Street View делает манипуляции с локальной выдачей (например, создание фейковых точек) более сложными в долгосрочной перспективе.

    Практические примеры

    Сценарий: Автоматическое обновление данных о бизнесе

    1. Сбор данных: Автомобиль Street View проезжает по торговой улице и делает новые панорамные снимки.
    2. Обработка: Новые изображения поступают в систему, описанную в патенте.
    3. Обнаружение: Deep Neural Network анализирует изображения. На месте старого магазина одежды она обнаруживает новую витрину кофейни. Система генерирует bounding box вокруг новой витрины с высоким confidence score.
    4. Извлечение данных: Система применяет OCR к области внутри bounding box и считывает название «Central Perk» и надпись «Кофейня».
    5. Обновление базы данных: Система автоматически обновляет локальный индекс: помечает магазин одежды как закрытый и добавляет новую сущность «Central Perk» с категорией «Кофейня» по этому адресу.
    6. Результат для пользователя: При следующем поиске кофеен в этом районе пользователь увидит «Central Perk» на карте.

    Вопросы и ответы

    Как этот патент влияет на ранжирование в Local SEO?

    Патент напрямую не описывает алгоритмы ранжирования. Он описывает механизм сбора и верификации данных (Data Acquisition). Однако качество, точность и полнота этих данных критически важны для Local SEO. Если система не сможет обнаружить ваш бизнес или неправильно считает его название с вывески, он может не появиться в локальной выдаче или ранжироваться ниже из-за недостатка уверенности системы в его существовании.

    Что такое Deep Neural Network (DNN) в контексте этого патента?

    Это система машинного обучения, конкретно Сверточная Нейронная Сеть (Convolutional Neural Network — CNN), обученная распознавать визуальные паттерны витрин магазинов на изображениях. Она способна анализировать пиксели и напрямую определять границы (bounding boxes) каждого бизнеса, а также оценивать уверенность (confidence score) в своем предсказании.

    Что такое ‘End-to-End’ подход и почему это важно?

    Подход ‘от пикселей до ограничивающих рамок’ означает, что нейронная сеть выполняет всю задачу целиком, без промежуточных шагов, таких как генерация тепловых карт вероятности, которые требовали сложной постобработки в старых системах. Это делает процесс значительно быстрее, точнее и позволяет лучше разделять соседние бизнесы на отдельные объекты.

    Использует ли система фотографии, загруженные владельцами в Google Business Profile?

    Патент фокусируется на использовании гео-лоцированных уличных фотографий (Street Level Photographs), таких как Street View, которые Google собирает самостоятельно. Это обеспечивает независимый и масштабируемый источник верификации. Фотографии владельцев могут использоваться другими системами, но в данном патенте они не упоминаются как основной источник данных.

    Что делать, если моя вывеска плохо видна с дороги?

    Это может стать проблемой. Если система не сможет обнаружить витрину или прочитать вывеску из-за препятствий (деревья, припаркованные машины) или неудачного расположения, автоматическая верификация будет затруднена. В этом случае критически важно использовать все остальные инструменты Local SEO: заполненный профиль GBP, отзывы, локальные ссылки и, возможно, потребуется ручная верификация.

    Что такое Coarse Sliding Window или Multi-crop Evaluation?

    Это техника оптимизации скорости. Вместо анализа каждого возможного положения на большом панорамном изображении (что очень медленно), система анализирует только ограниченное количество перекрывающихся кадров (crops). Это позволяет быстро обработать изображение, сохраняя при этом способность обнаруживать объекты разного размера.

    Как система справляется с ситуацией, когда несколько бизнесов находятся в одном здании?

    Система специально разработана для решения этой проблемы. DNN обучается генерировать отдельные bounding boxes для каждой отдельной витрины, даже если они расположены вплотную друг к другу. Это позволяет точно идентифицировать и разделить разные бизнесы по их визуальным границам.

    Влияет ли этот патент на борьбу с фейковыми локациями (спамом в Google Maps)?

    Да, косвенно. Поскольку система ищет визуальное подтверждение существования бизнеса на изображениях Street View, создание фейковых точек или виртуальных офисов без реальных вывесок становится менее эффективным. Если Google не видит бизнес физически, он с меньшей вероятностью будет доверять информации о нем.

    Что происходит после того, как система обнаружила витрину?

    Как указано в Claim 2, после обнаружения витрины (генерации bounding box) система переходит к извлечению бизнес-информации из этой области. Это включает оптическое распознавание текста (OCR) для чтения вывесок, распознавание логотипов и классификацию типа бизнеса. Затем эти данные используются для обновления базы данных Google.

    Как часто обновляются данные с помощью этой системы?

    Патент не указывает частоту. Однако логично предположить, что обработка активируется по мере обновления данных Street View для конкретной территории. Поскольку обновление Street View происходит нерегулярно и может занимать месяцы или годы, важно следить за актуальностью данных в GBP самостоятельно и не полагаться только на автоматическое обнаружение.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.