Как Google использует машинное обучение для распознавания изображений и создания неявных связей между документами

Google использует комбинацию алгоритмов машинного обучения (AdaBoost и Hillclimbing) для точного отделения изображений от текста на сканированных страницах. Система анализирует локальные визуальные признаки (например, SIFT), чтобы классифицировать контент и находить идентичные изображения в разных документах, создавая на их основе неявные связи (implicit links) между источниками.

Описание

Какую задачу решает

Патент решает задачу точной автоматической сегментации текста и графических элементов (фотографий, рисунков, диаграмм) на цифровых изображениях, например, на сканированных страницах книг. Цель — улучшить понимание макета страницы, повысить эффективность OCR и, что более важно, использовать распознанные изображения для идентификации связей между различными документами. Система позволяет находить общие изображения и создавать на их основе «implicit links» (неявные ссылки).

Что запатентовано

Запатентована система и метод классификации признаков изображений с использованием комбинированного подхода машинного обучения. Суть изобретения заключается в интеграции алгоритма оптимизации Hillclimbing (восхождение к вершине) в итеративный процесс бустинга (AdaBoost). Это позволяет создавать высокоточные классификаторы, которые обучаются отличать локальные визуальные признаки (Local Image Features, например, SIFT), относящиеся к тексту, от признаков, относящихся к изображениям.

Как это работает

Система работает в две основные фазы: обучение и применение.

Обучение: На основе вручную размеченного набора данных (только текст или только изображения) извлекаются локальные признаки (SIFT). Применяется AdaBoost для итеративного выбора лучших слабых классификаторов (Weak Classifiers). Ключевая особенность: каждый выбранный классификатор дополнительно оптимизируется с помощью Hillclimbing. Результатом является сильный классификатор (Strong Classifier) или мета-классификатор (голосование нескольких сильных).
Применение: На новых изображениях извлекаются локальные признаки. Обученный классификатор фильтрует признаки текста. После постобработки (настройки порогов и удаления изолированных срабатываний) оставшиеся признаки используются для сравнения и связывания документов, содержащих похожие изображения.

Актуальность для SEO

Средняя. Конкретные технологии, описанные в патенте (SIFT, AdaBoost), в значительной степени устарели и были заменены методами глубокого обучения (Deep Learning) для задач анализа изображений. Однако базовые принципы — использование машинного обучения для сегментации контента и концепция связывания документов через общие изображения (implicit links) — остаются высокоактуальными и лежат в основе современных систем, таких как Google Lens и Google Images.

Важность для SEO

Влияние на SEO умеренное (5/10). Патент напрямую не описывает алгоритмы ранжирования веб-поиска. Однако он имеет высокое стратегическое значение для понимания Image SEO. Он раскрывает механизм, позволяющий Google идентифицировать дубликаты изображений и использовать их для установления связей (implicit links) между документами. Это подчеркивает критическую важность уникальности визуального контента и открывает возможности для анализа связей, выходящие за рамки традиционного ссылочного графа.

Детальный разбор

Термины и определения

AdaBoost (Adaptive Boosting): Алгоритм машинного обучения. Он итеративно обучает слабые классификаторы, увеличивая вес (значимость) ошибочно классифицированных примеров на каждом следующем шаге, чтобы сфокусироваться на сложных случаях.
Allocation Mask (Маска распределения): Компонент слабого классификатора. Используется для распределения входных данных (например, 128 значений гистограммы SIFT) по разным группам (bins) для последующего сравнения.
Comparison Function (Функция сравнения): Компонент слабого классификатора. Определяет операцию над сгруппированными значениями признаков (например, вычисление разницы, соотношения, среднего).
Hillclimbing Algorithm (Алгоритм восхождения к вершине): Метод оптимизации. Он итеративно вносит небольшие случайные изменения в решение (например, в Allocation Mask или Comparison Function) и принимает их только в том случае, если они улучшают точность классификации.
Implicit Links (Неявные ссылки) / Hyperlinks: Связи между документами, установленные системой на основе обнаружения общих изображений. В патенте (Claim 13) они описаны как гиперссылки (hyperlinks), соединяющие изображения на основе сходства признаков.
Local Image Features (Локальные признаки изображения): Дескрипторы, описывающие небольшие участки изображения (углы, края, текстуры). Они устойчивы к изменениям масштаба и поворота. В патенте упоминаются SIFT, CONGAS, Harris corners.
Meta-classifier (Мета-классификатор): Комбинация нескольких сильных классификаторов. Итоговое решение принимается путем голосования (простого большинства или взвешенного) между ними для повышения точности.
SIFT (Scale-Invariant Feature Transform): Конкретный алгоритм для извлечения локальных признаков, используемый в патенте в качестве основного примера. Генерирует 128-мерные векторы.
Strong Classifier (Сильный классификатор): Сложная модель, созданная путем взвешенной комбинации множества оптимизированных слабых классификаторов.
Weak Classifier (Слабый классификатор): Простая модель или правило классификации, которое работает чуть лучше, чем случайное угадывание.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод машинного обучения для классификации.

Получение обучающих изображений, предварительно классифицированных как содержащие преимущественно «pictures».
Идентификация локальных признаков (local image features).
Рекурсивное применение слабых классификаторов (процесс Boosting): На каждой итерации выбирается наиболее точный слабый классификатор. После выбора вес признаков, которые были ошибочно классифицированы, увеличивается.
Применение алгоритма Hillclimbing к каждому выбранному слабому классификатору для его улучшения.
Создание сильного классификатора (Strong Classifier) как взвешенной комбинации улучшенных слабых классификаторов.
Ключевое дополнение: Создание множества сильных классификаторов и классификация признаков в новом изображении путем их голосования (большинством или взвешенным голосованием).

Claim 5 (Независимый пункт): Детализирует применение созданного классификатора для связывания документов.

(Включает ручную классификацию и выполнение шагов по созданию Strong Classifier).
Применение сильного классификатора к новому изображению для идентификации группы признаков, соответствующих «pictures», в отличие от признаков, соответствующих «text».
Сохранение этой группы признаков.
Сравнение данных этой группы с данными из других изображений для определения того, что исходное и другое изображение содержат общее изображение (common picture).

Claim 7 (Зависимый от 1): Описывает механизм работы слабых классификаторов.

Выбор слабых классификаторов включает применение Allocation Mask к локальным признакам для распределения связанных с ними записей по группам (bins) и применение одной или нескольких функций сравнения (comparison functions) к этим группам.

Claim 8, 9, 10 (Зависимые): Уточняют работу алгоритма Hillclimbing.

Алгоритм заключается в выполнении итеративных попыток улучшения слабого классификатора. Попытка принимается, если она улучшает классификацию. Улучшение может включать модификацию Allocation Mask (Claim 9) или Comparison Function (Claim 10).

Claim 13 (Независимый пункт — Система): Описывает архитектуру системы.

Система включает classification trainer и classifying module. Также включает постоянное хранилище для сохранения распознанных признаков и механизм создания гиперссылок (hyperlinks), соединяющих изображения на основе сходства их локальных признаков.

Где и как применяется

Изобретение применяется в основном на этапе обработки и анализа контента в системах, работающих с большими объемами изображений (Google Books, Google Images).

CRAWLING – Сканирование и Сбор данных
На этом этапе система получает исходные данные — цифровые изображения (например, сканы страниц книг или изображения из веба).

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Система выполняет:

Извлечение признаков: Вычисление Local Image Features (например, SIFT).
Классификация признаков: Применение обученных классификаторов (Strong Classifiers или Meta-classifier) для сегментации контента — отделения признаков изображений от признаков текста.
Пост-обработка и Фильтрация: Удаление шума и признаков текста.
Сравнение и Связывание: Сравнение оставшихся признаков между разными документами для идентификации общих изображений и создания Implicit Links.

Процесс обучения классификаторов (Training) происходит офлайн, до этапа индексирования.

RANKING – Ранжирование (Косвенное влияние)
Идентификация общих изображений позволяет создавать implicit links. Наличие таких связей может влиять на оценку связанности или авторитетности документов в специализированных поисковых системах.

Входные данные:

Цифровые изображения.
Извлеченные из них Local Image Features (SIFT-дескрипторы).
Предварительно обученные Strong Classifiers.

Выходные данные:

Отфильтрованный набор локальных признаков для каждого изображения, классифицированных как «изображение» (визуальный фингерпринт).
Данные о связях (implicit links) между документами, основанные на совпадении этих признаков.

На что влияет

Конкретные типы контента: Влияет на обработку и интерпретацию изображений (фотографии, рисунки, графики), находящихся внутри документов (сканы книг, PDF-файлы, веб-страницы).
Конкретные ниши или тематики: Особенно актуально для областей, где визуальная информация доминирует или где часто встречаются повторяющиеся стандартные изображения (исторические архивы, искусство, техническая документация, каталоги, E-commerce).

Когда применяется

Условия работы алгоритма: Алгоритм применяется в процессе индексации или обработки нового контента, содержащего смешанный тип данных (текст и изображения).
Триггеры активации: Необходимость понять структуру контента, выделить визуальные элементы для предпросмотра или сравнения с другими документами.

Пошаговый алгоритм

Фаза 1: Обучение Классификаторов (Offline)

Сбор данных: Формирование обучающего набора изображений, вручную классифицированных как «только текст» или «только изображение».
Извлечение признаков: Вычисление локальных признаков (SIFT).
Инициализация весов: Присвоение начальных весов всем обучающим примерам.
Итеративное обучение (AdaBoost + Hillclimbing): Цикл повторяется заданное количество раз:
1. Выбор и Оптимизация: Оценка кандидатов в слабые классификаторы (используя Allocation Mask и Comparison Function). Применение Hillclimbing для оптимизации выбранного кандидата путем внесения итеративных улучшений.
2. Оценка и выбор: Выбор лучшего оптимизированного слабого классификатора на текущей итерации.
3. Обновление весов (AdaBoost): Увеличение весов для признаков, которые были ошибочно классифицированы.
Создание Strong Classifier: Формирование итогового классификатора как взвешенной комбинации выбранных слабых классификаторов.
Создание Meta-classifier (Опционально): Объединение нескольких сильных классификаторов, решение принимается голосованием.

Фаза 2: Применение (Run Time / Indexing)

Получение нового изображения и извлечение признаков: Вычисление SIFT.
Классификация признаков: Применение обученного классификатора к каждому признаку.
Пост-обработка (Настройка порога): Применение порога классификации. Порог может быть смещен (например, выше 50%) для уменьшения числа ложноположительных срабатываний. В патенте упоминается настройка порога до 59%.
Пост-обработка (Фильтрация шума): Удаление изолированных признаков (не имеющих достаточного количества соседей D в заданном радиусе R).
Сравнение и связывание: Сравнение оставшегося набора признаков с базой данных признаков других документов для поиска визуальных совпадений и создания implicit links.

Какие данные и как использует

Данные на входе

Мультимедиа факторы: Система использует исключительно пиксельные данные цифровых изображений. Никакие другие факторы (текстовые, ссылочные, поведенческие) в патенте не упоминаются.
Извлеченные данные (Контентные/Структурные): Ключевыми данными являются Local Image Features. В патенте используется пример SIFT, где каждый признак представляет собой 128-мерный вектор, описывающий градиенты и ориентации в локальной области вокруг ключевой точки.

Какие метрики используются и как они считаются

Метрики Точности: Для оценки эффективности классификаторов используется процент правильных классификаций (percentage of correct classifications) на тестовых наборах.
Взвешивание (AdaBoost): Используются веса обучающих примеров. Вес увеличивается для примеров, на которых классификатор ошибся. Метрикой выбора является Error rate (уровень ошибки) на взвешенной выборке.
Методы анализа (Слабые классификаторы): Используют Allocation Mask для группировки значений из вектора SIFT в две группы (A и B). Затем применяются Comparison Functions (например, абсолютная разница, соотношение сумм, соотношение средних) для сравнения этих групп.
Оптимизация (Hillclimbing): Метрикой является улучшение точности классификации слабого классификатора после внесения изменений в его Allocation Mask или Comparison Function.
Агрегация (Мета-классификатор): Используется голосование (vote) — простое большинство или взвешенная комбинация решений нескольких сильных классификаторов.
Пост-обработка (Пороги):
- Classification Threshold: Порог для принятия решения. В патенте упоминается возможность его настройки (например, 59% вместо 50%).
- Proximity Thresholds (R и D): Минимальное количество обнаружений (D) в пределах определенного радиуса (R). Пример в патенте: D=3 и R=4% от ширины страницы.

Выводы

Глубокий анализ изображений через локальные признаки: Патент подтверждает, что Google использует детальный анализ локальных признаков (таких как SIFT) для понимания содержимого изображений. Это позволяет системе точно распознавать, сегментировать и сравнивать изображения, не полагаясь только на метаданные.
Изображения как сигналы связи (Implicit Links): Ключевой стратегический вывод — Google активно развивает технологии для обнаружения идентичных или похожих изображений в разных документах и рассматривает это как сигнал связи между ними. Это создает «неявные ссылки» (или hyperlinks), функционирующие аналогично текстовым гиперссылкам.
Сложные ML-модели для классификации контента: Для точного распознавания типа контента (текст vs. изображение) используются сложные комбинации алгоритмов машинного обучения (AdaBoost + Hillclimbing), а также многоуровневая пост-обработка для фильтрации шума.
Важность уникальности визуального контента: Способность системы точно идентифицировать совпадения на основе Local Image Features подчеркивает ценность уникальных изображений для SEO и риски, связанные с использованием широко распространенного стокового контента.
Сегментация для дифференцированной обработки: Система стремится четко разделить текст и изображения. Это позволяет применять к ним разные методы обработки (например, OCR к тексту, сравнение визуальных признаков к изображениям) и лучше понимать структуру документа.

Практика

Best practices (это мы делаем)

Инвестиции в уникальный визуальный контент: Создавайте собственные фотографии, иллюстрации и диаграммы. Поскольку Google идентифицирует повторяющиеся изображения для связывания документов (implicit links), уникальный контент гарантирует, что ваш сайт не будет ассоциирован с нерелевантными или низкокачественными источниками только на основе общего стокового изображения.
Оптимизация качества изображений для извлечения признаков: Используйте изображения с достаточным разрешением, четкостью и контрастностью. Это облегчает извлечение качественных Local Image Features (SIFT или современных аналогов), что улучшает распознавание и классификацию изображения системой.
Стратегическое использование общих изображений внутри сайта: Если необходимо усилить связь между связанными документами на вашем сайте (например, между обзором продукта и его карточкой), намеренное использование общих ключевых высококачественных изображений может способствовать созданию неявных связей, которые будут распознаны Google.

Worst practices (это делать не надо)

Чрезмерное использование популярных стоковых изображений: Это не предоставляет уникальных сигналов для вашего контента. Ваш сайт может быть визуально кластеризован с множеством других сайтов, использующих то же изображение, что размывает его тематическую авторитетность.
Использование изображений низкого качества: Размытые, слишком маленькие или сильно сжатые изображения не позволяют системе извлечь надежные локальные признаки, что снижает их ценность для поиска и связывания.
Размещение основного контента в виде текста на изображении: Система активно пытается сегментировать текст и графику. Текст на изображении будет обработан как набор графических признаков (или через OCR), но он не будет эффективно обработан как часть основного текстового потока страницы.

Стратегическое значение

Патент подтверждает стратегию Google по глубокому пониманию визуального контента наравне с текстовым. Для SEO это означает, что оптимизация изображений выходит далеко за рамки ALT-тегов. Само содержание изображения, его визуальные характеристики и уникальность играют важную роль. Технология связывания документов через изображения (Image-based linking) открывает новый вектор для анализа связей в интернете, дополняя традиционный анализ ссылочного графа.

Практические примеры

Сценарий: Усиление связи между статьями в контентном проекте.

Задача: Связать серию статей по одной теме для улучшения понимания их взаимосвязи поисковой системой.
Действие: Разработать уникальную ключевую диаграмму или иллюстрацию, которая резюмирует основную концепцию серии, и разместить это изображение (в высоком качестве) в каждой статье серии.
Ожидаемый результат: Система распознавания Google идентифицирует Local Image Features этого изображения на всех страницах. Это создает implicit links между статьями, укрепляя их тематическую связь и кластеризацию в контексте Image Search и, возможно, Web Search.

Сценарий: Дифференциация карточек товаров в E-commerce.

Задача: Выделить свои страницы продуктов среди конкурентов, продающих аналогичные товары со стандартными фото от производителя.
Действие: Сделать собственные уникальные высококачественные снимки продукта с разных ракурсов, включая макросъемку деталей.
Ожидаемый результат: Уникальные визуальные признаки предотвращают прямую ассоциацию (implicit links) с сайтами конкурентов. Это повышает ценность контента и улучшает видимость в Google Images.

Вопросы и ответы

Означает ли этот патент, что Google использует изображения как фактор ранжирования?

Патент напрямую не утверждает это для веб-поиска. Однако он описывает механизм создания «implicit links» (неявных ссылок) между документами на основе общих изображений. В той мере, в какой ссылки (явные или неявные) влияют на ранжирование (например, через оценку авторитетности или связанности контента), общие изображения становятся фактором, влияющим на то, как Google воспринимает взаимосвязи между страницами.

Как этот патент влияет на использование стоковых фотографий?

Патент подчеркивает способность Google точно идентифицировать дубликаты изображений с помощью Local Image Features. Использование популярных стоковых фотографий приводит к тому, что ваша страница содержит контент, визуально идентичный сотням других сайтов. Это не добавляет уникальной ценности и может привести к ассоциации вашего сайта с другими, возможно, менее качественными ресурсами через эти общие изображения.

Что такое «неявные ссылки» (implicit links) на основе изображений?

Это связи между двумя документами, которые система устанавливает, обнаружив, что они содержат идентичное или очень похожее изображение. Патент описывает это как создание гиперссылок (hyperlinks) между страницами на основе визуального сходства. Это позволяет пользователям (и поисковым роботам) переходить между связанными документами, даже если между ними нет прямых текстовых ссылок.

Какие характеристики изображения важны для извлечения локальных признаков (SIFT)?

Для эффективного извлечения SIFT (и аналогичных признаков) важны локальные контрасты, наличие углов, краев и текстур. Изображения должны быть достаточно четкими и иметь хорошее разрешение. Очень размытые, однотонные или пикселизированные изображения дадут мало надежных локальных признаков, что затруднит их распознавание и сравнение.

Может ли система ошибочно принять текст за изображение, и наоборот?

Да. Основная цель патента — минимизировать такие ошибки с помощью AdaBoost + Hillclimbing. Однако уравнения или декоративные шрифты могут генерировать признаки, похожие на рисунки. Для борьбы с этим применяется пост-обработка: удаление изолированных признаков (так как изображения обычно создают кластеры признаков) и настройка порогов классификации (например, смещение порога до 59% вместо 50%).

Как эта технология связана с Google Image Search или Google Lens?

Эта технология является фундаментальной для таких сервисов. Google Image Search использует сравнение локальных признаков для функции «Поиск по картинке» (Reverse Image Search), чтобы найти копии или похожие изображения. Google Lens использует аналогичные, хотя и более современные, технологии для распознавания объектов. Описанный механизм классификации и сравнения признаков лежит в основе их работы.

Стоит ли намеренно дублировать изображения на разных страницах моего сайта?

Да, если это стратегически обосновано. Если вы хотите усилить связь между тесно связанными страницами (например, частями длинного руководства или связанными продуктами), использование общего ключевого изображения может помочь Google распознать эту связь через implicit links. Однако не стоит злоупотреблять этим для несвязанного контента.

Влияет ли эта технология на обработку текста внутри изображений (OCR)?

Да, косвенно. Патент упоминает, что точная сегментация помогает улучшить работу OCR, позволяя системе сфокусироваться на областях, классифицированных как текст. Также упоминается, что если OCR не находит текст в области, помеченной как текстовая, эта область может быть переклассифицирована как изображение.

Насколько продвинулись технологии Google по сравнению с описанным в патенте SIFT и AdaBoost?

Технологии значительно продвинулись. Современные системы Google чаще используют глубокие нейронные сети (Deep Learning) для извлечения признаков и классификации, что обеспечивает более высокую точность, чем SIFT и AdaBoost. Однако базовый принцип — извлечение устойчивых локальных признаков и их использование для сравнения и связывания — остается неизменным.

Что такое «слабый классификатор» в этом патенте?

Это простое правило, которое анализирует вектор признака (SIFT). Он использует Allocation Mask для разделения значений вектора на группы (например, А и Б) и Comparison Function для их сравнения (например, «среднее группы А больше среднего группы Б»). Сам по себе он не очень точен, но комбинация многих таких правил создает сильный классификатор.