Как Google использует структурные шаблоны сайта для автоматического извлечения описаний изображений

Google использует систему для автоматического создания описательного текста для изображений, изучая структуру веб-сайта. Система анализирует известные качественные описания («начальные дескрипторы») и определяет их расположение относительно изображения в HTML-коде. На основе этого создается шаблон, который затем применяется к другим страницам того же сайта с аналогичной структурой для масштабного извлечения описаний, улучшая индексацию и релевантность в поиске по картинкам.

Описание

Какую задачу решает

Патент решает проблему масштабируемого получения точного описательного текста для изображений в интернете. Поиск по изображениям сильно зависит от связанного с ними текста (подписей, alt-текста, окружающего контента), который часто отсутствует или неточен. Система стремится автоматизировать процесс разметки изображений релевантным текстом, анализируя контекст их размещения на странице, для улучшения качества поиска по картинкам.

Что запатентовано

Запатентована система автоматического извлечения описательного текста для изображений путем индукции шаблонов (Template Induction). Процесс начинается с Seed Descriptors (начальных дескрипторов) — известных качественных описаний или запросов для конкретного изображения. Система анализирует структуру документа (HTML), чтобы определить, где этот дескриптор расположен относительно изображения. На основе этой структурной связи создается шаблон (Template), который затем применяется к другим документам (на том же сайте) с аналогичной структурой для извлечения текста для других изображений.

Как это работает

Система работает в несколько этапов:

Идентификация начальных данных: Определяется изображение и связанные с ним Seed Descriptors (например, высокоэффективные запросы или проверенные метки).
Анализ структуры: Система находит, где термины из Seed Descriptor появляются в документе, и анализирует структуру (HTML-теги, расположение) относительно изображения.
Генерация шаблона: Создается шаблон (Template), включающий информацию о расположении изображения, структуре документа, характеристиках изображения (Image Features) и генеративное правило (Generative Rule) для извлечения текста.
Валидация шаблона (Site-level): Система проверяет, встречается ли этот шаблон достаточно часто на сайте (преодолевает ли Template Threshold), чтобы считаться надежным паттерном, а не случайностью.
Применение шаблона: Подтвержденный шаблон применяется к другим страницам с аналогичной структурой для извлечения описательного текста для новых изображений.

Актуальность для SEO

Высокая. Автоматическое понимание и разметка изображений остаются критически важными задачами для поисковых систем. Описанный метод обеспечивает масштабируемый способ улучшения индексации изображений без ручного вмешательства, дополняя технологии компьютерного зрения. Участие Пола Хаара (Paul Haahr) подчеркивает важность этого патента для основных поисковых технологий Google.

Важность для SEO

Патент имеет высокое значение (8/10) для SEO, особенно для сайтов с большим количеством изображений (e-commerce, новости, галереи). Он демонстрирует, что Google активно использует структурную согласованность сайта для понимания контента. Сайты с чистой, семантической и повторяющейся структурой для изображений и их подписей получат преимущество, так как Google сможет надежно извлекать описания для всех их изображений.

Детальный разбор

Термины и определения

Seed Descriptor (Начальный дескриптор): Текстовые данные, которые считаются точным описанием изображения. Служат отправной точкой для генерации шаблонов. Источниками могут быть проверенные метки, высокоэффективные поисковые запросы (Seed Queries) или результаты технологий классификации изображений.
Template (Шаблон): Набор правил, используемый для извлечения описательного текста из документов со схожей структурой. Включает Image Location Information, Document Structure Information, Image Feature Information и Generative Rule.
Document Structure Information (Информация о структуре документа): Данные, определяющие структуру документа относительно изображения и дескриптора. Включает расположение текста (Text Location Information) и HTML-разметку (например, теги <figure>, <figcaption>), окружающую текст и изображение.
Image Feature Information (Информация о характеристиках изображения): Данные, определяющие визуальные характеристики изображения (например, соотношение сторон, размер дисплея, форма, кроппинг) или метаданные файла (например, имя файла, тип файла). Используется как ограничение для применения шаблона.
Generative Rule (Генеративное правило): Часть шаблона, которая определяет, как именно извлекать текст из документа, соответствующего шаблону. Может включать литералы (фиксированный текст) и подстановочные знаки (Wildcards).
Template Threshold (Порог шаблона): Минимальное количество раз, которое кандидат в шаблоны должен появиться в документах на сайте, чтобы быть принятым как действительный шаблон. Используется для валидации и отсеивания шума.
Embedded Coding Fragment (Встроенный фрагмент кода): Часть исходного кода документа, например, пара HTML-тегов, заключающая изображение или описательный текст.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод генерации описательного текста.

Идентификация набора Seed Descriptors для данного изображения в данном документе.
Для каждого Seed Descriptor:
1. Определение местоположения хотя бы одного слова из дескриптора в документе.
2. Генерация одного или нескольких шаблонов на основе этого местоположения. Шаблон обязательно включает:
  - Image Location Information (расположение изображения).
  - Document Structure Information (включая расположение текста дескриптора относительно изображения).
  - Image Feature Information (визуальные или файловые характеристики).
Для каждого сгенерированного шаблона:
1. Идентификация набора других документов, которые соответствуют шаблону. Соответствие требует совпадения характеристик изображения (i) И совпадения относительного расположения текста (ii).
2. Для каждого документа в наборе: генерация описательного текста для его изображения с использованием шаблона и ассоциация текста с изображением.

Ядром изобретения является использование комбинации структурных сигналов (расположение текста и изображения) и характеристик изображения для создания правил извлечения текста.

Claim 6 (Зависимый от 1): Описывает критически важный процесс валидации шаблонов (Template Validation).

Генерация кандидатов в шаблоны.
Для каждого кандидата определяется количество документов на том же веб-сайте, которые соответствуют структуре кандидата.
Проверка, достигает ли это количество Template Threshold.
Если ДА, кандидат принимается как шаблон и используется.
Если НЕТ, кандидат отбрасывается.

Это гарантирует, что система изучает повторяющиеся паттерны сайта, а не уникальные макеты отдельных страниц, и подтверждает сайт-специфичный характер анализа.

Claim 3 (Зависимый от 1): Детализирует механизм извлечения с использованием литералов и подстановочных знаков.

Шаблон может включать фиксированную часть строки (литерал, например, префикс «Фото: «) и подстановочный знак (Wildcard) для переменной части (которая соответствует терминам дескриптора).

Где и как применяется

Изобретение применяется на этапе индексирования для извлечения признаков изображений.

CRAWLING – Сканирование и Сбор данных
Система собирает документы (веб-страницы), которые формируют Document Corpus, необходимый для анализа.

INDEXING – Индексирование и извлечение признаков
Основной этап применения патента. Специализированная система (Descriptive Text System) работает с проиндексированными данными.

Анализ структуры и Извлечение признаков: Система анализирует HTML/DOM структуру и вычисляет характеристики изображений (Image Features).
Генерация и валидация шаблонов: Используя Seed Descriptors, система генерирует и проверяет шаблоны на уровне сайта.
Извлечение текста: Применение валидированных шаблонов для извлечения новых описательных текстов.
Сохранение данных: Извлеченный текст сохраняется в Индексе Изображений (Image Index).

RANKING – Ранжирование (Image Search)
Поисковая система использует обогащенный Image Index, включая сгенерированный описательный текст, для определения релевантности изображений поисковым запросам.

Входные данные:

Документы из Document Corpus (HTML/XML).
Seed Descriptors для конкретных изображений.
Данные анализа изображений (Image Features).

Выходные данные:

Сгенерированные и валидированные шаблоны (сохраняются в Template Store).
Описательный текст, ассоциированный с изображениями в Image Index.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на страницы с шаблонной структурой, где изображения играют ключевую роль: страницы товаров (e-commerce), статьи новостей, рецепты, списки недвижимости, галереи.
Конкретные ниши или тематики: Критично для E-commerce и других визуально ориентированных вертикалей, где точное описание изображения необходимо для релевантности.
Ограничения: Метод сильно зависит от наличия согласованной структуры на сайте. Он неэффективен на сайтах с уникальным дизайном для каждой страницы или там, где описания расположены непредсказуемо.

Когда применяется

Условия работы: Алгоритм применяется во время индексирования или переиндексирования контента сайта.
Триггеры активации (Генерация): Наличие достаточного количества Seed Descriptors для изображений на сайте.
Пороговые значения (Валидация): Ключевым условием является Template Threshold. Шаблон должен появляться достаточно часто на сайте, чтобы быть активированным.

Пошаговый алгоритм

Процесс разделен на два основных этапа: Генерация/Валидация шаблонов и Применение шаблонов.

Этап А: Генерация и Валидация Шаблонов

Сбор начальных данных: Идентификация изображения в документе на веб-сайте и получение связанных с ним Seed Descriptors.
Анализ структуры документа:
1. Поиск терминов из Seed Descriptor в тексте документа.
2. Идентификация строки текста, содержащей эти термины.
3. Генерация информации о структуре: определение местоположения строки текста относительно изображения (например, внутри тега <figcaption> под изображением).
4. Извлечение характеристик изображения (Image Features), таких как размер и тип файла.
Генерация кандидата в шаблоны: Создание кандидата, который включает информацию о структуре, местоположении, характеристиках изображения и Generative Rule (например, с использованием Literals и Wildcards).
Валидация шаблона (Site-level):
1. Определение количества появлений структуры кандидата в других документах на том же веб-сайте.
2. Сравнение количества появлений с Template Threshold.
3. Если порог достигнут, кандидат принимается как действительный шаблон. Если нет, он отбрасывается.

Этап Б: Применение Шаблонов и Извлечение Текста

Сопоставление документа с шаблоном: Система анализирует новый документ и определяет, соответствует ли он валидированному шаблону. Это включает проверку:
1. Наличия изображения в указанном месте.
2. Соответствия характеристик изображения (Image Features) требованиям шаблона.
3. Наличия текста в указанной структурной позиции относительно изображения.
Извлечение текста: Если документ соответствует шаблону, система применяет Generative Rule для идентификации и извлечения строки текста из указанного места.
Генерация описания: Извлеченная строка используется для генерации описательного текста для изображения (например, путем удаления литералов и сохранения текста, соответствующего Wildcards).
Ассоциация: Сгенерированный описательный текст ассоциируется с изображением в Image Index.

Какие данные и как использует

Данные на входе

Система использует комбинацию контентных, структурных и мультимедийных факторов для генерации и применения шаблонов.

Контентные факторы:
- Seed Descriptors (известные качественные описания или запросы).
- Текст документа, особенно текст, расположенный структурно близко к изображению (подписи, заголовки рядом).
Структурные факторы:
- HTML-разметка (Embedded Coding Fragments). Патент явно упоминает использование HTML-тегов, таких как <figure> и <figcaption>.
- Структура документа и расположение элементов (Layout): расположение текста относительно изображения (например, ниже, сбоку).
Мультимедиа факторы (Image Features):
- Визуальные характеристики: соотношение сторон (aspect ratio), размер дисплея (display size), форма (shape), данные об обрезке (cropping).
- Метаданные файла: имя файла, тип файла (например, JPEG, GIF).
Поведенческие факторы (Косвенно): Seed Descriptors могут быть определены как Seed Queries — запросы, по которым изображение имеет высокую производительность (threshold performance), что подразумевает использование данных о кликах.

Какие метрики используются и как они считаются

Соответствие шаблону (Template Matching): Оценка, основанная на совпадении структуры документа, расположения изображения и характеристик изображения с данными в шаблоне.
Количество появлений (Number of Appearances): Подсчет количества документов на сайте, которые соответствуют структуре кандидата в шаблоны.
Template Threshold (Порог шаблона): Пороговое значение для валидации шаблона. Патент предполагает, что этот порог может быть пропорционален размеру веб-сайта (например, общему количеству документов на сайте) или фиксированным числом.

Выводы

Google использует структурный анализ для понимания контекста изображений: Основной вывод заключается в том, что Google автоматизированно изучает, как конкретный сайт структурирует информацию об изображениях (Layout Analysis), и использует эту структуру для масштабного извлечения данных.
Структурная согласованность критически важна: Система полагается на повторяющиеся паттерны на уровне сайта. Шаблон генерируется и валидируется только в том случае, если он встречается достаточно часто (Template Threshold). Сайты с непоследовательной разметкой затрудняют работу этой системы.
Семантический HTML облегчает извлечение: Патент явно упоминает использование HTML-тегов, таких как <figcaption>. Использование семантической разметки облегчает системе идентификацию структурных связей между изображением и его описанием.
Зависимость от «Ground Truth» (Seed Descriptors): Система не пытается понять структуру в вакууме; она основывается на известных качественных данных (Seed Descriptors), чтобы определить, какой текст является описательным.
Характеристики изображения как ограничение: Шаблоны не являются чисто структурными. Они включают Image Features (например, размер, соотношение сторон), гарантируя, что шаблон применяется только к соответствующим типам изображений (например, отличая шаблон для основного изображения товара от шаблона для иконки).

Практика

Best practices (это мы делаем)

Обеспечьте абсолютную согласованность шаблонов страниц: Это критически важно. Используйте идентичную HTML-структуру для однотипного контента (например, всех страниц товаров, всех статей блога). Это позволяет Google успешно сгенерировать и валидировать Template для вашего сайта.
Используйте семантическую разметку для изображений: Всегда заключайте основные изображения и их подписи в теги <figure> и <figcaption>. Патент явно указывает на использование этих тегов для идентификации описательного текста.
Размещайте описательный текст предсказуемо и близко: Убедитесь, что наиболее точное описание изображения всегда находится в одном и том же структурном месте относительно изображения (например, всегда в теге H1 над изображением или в <figcaption> под ним) и близко к нему в DOM-структуре.
Поддерживайте консистентность характеристик изображений: Если основные изображения контента всегда имеют одинаковое соотношение сторон или минимальный размер, это поможет системе создать более точные шаблоны (используя Image Features), отличающие основные изображения от второстепенных.
Оптимизируйте Alt-текст для «посева»: Качественный alt-текст может служить источником Seed Descriptors, которые необходимы для запуска процесса обучения шаблонов на вашем сайте.

Worst practices (это делать не надо)

Использовать уникальный дизайн или разную верстку для однотипных страниц: Если каждая страница имеет разную структуру HTML для изображений и подписей, система не сможет достичь Template Threshold, и автоматическое извлечение текста не произойдет.
Непоследовательное размещение подписей: Размещение подписей то над, то под, то сбоку от изображения в рамках одного типа контента запутает систему генерации шаблонов.
Использование несемантической разметки для подписей: Использование общих тегов <div> или <span> для подписей вместо <figcaption> усложняет идентификацию описательного текста.
Разделять изображение и описание в DOM: Размещение изображения и его описания далеко друг от друга в HTML-структуре (даже если визуально они рядом благодаря CSS) затрудняет идентификацию их связи.

Стратегическое значение

Патент подтверждает стратегию Google по поиску масштабируемых решений для понимания контента через анализ структуры (Information Extraction). Вместо того чтобы пытаться понять каждую страницу индивидуально с помощью сложного анализа макета, Google предпочитает идентифицировать шаблоны на уровне сайта. Для SEO это означает, что техническая чистота, семантика и, прежде всего, согласованность структуры сайта напрямую влияют на способность Google индексировать и ранжировать визуальный контент.

Практические примеры

Сценарий: Оптимизация страниц товаров E-commerce

Цель: Обеспечить, чтобы Google автоматически извлекал название товара как описательный текст для основного изображения товара.

Анализ текущего состояния: SEO-специалист обнаруживает, что на некоторых страницах товаров название находится в H1 над изображением, а на других — в H2 под изображением. Разметка также отличается.
Внедрение согласованной структуры: Разработчики стандартизируют шаблон страницы товара. Основное изображение заключается в <figure>, а название товара всегда находится в H1 непосредственно перед <figure>. Соотношение сторон изображения также стандартизируется.
Как работает система Google:
1. Google идентифицирует несколько товаров через Seed Descriptors (например, из Merchant Center или высокоэффективных запросов).
2. Система замечает паттерн: Seed Descriptor всегда появляется в H1 прямо перед основным изображением (с определенным соотношением сторон).
3. Система генерирует шаблон и проверяет его на сайте. Так как структура согласована, шаблон достигает Template Threshold.
4. Шаблон активируется и применяется ко всем страницам товаров.
Ожидаемый результат: Google успешно извлекает названия товаров для всех изображений на сайте, что приводит к улучшению ранжирования и релевантности в поиске по картинкам.

Вопросы и ответы

Чем этот механизм отличается от использования Google текста из атрибута alt?

Атрибут alt является важным сигналом, но он часто бывает слишком коротким, переоптимизированным или отсутствует. Описанный механизм фокусируется на извлечении видимого текста со страницы (например, подписей, заголовков), который часто бывает более полным. Система изучает структуру сайта, чтобы определить, какой текст на странице является наилучшим описанием изображения, используя alt-текст как один из возможных источников (или как Seed Descriptor), но не ограничиваясь им.

Является ли этот процесс специфичным для сайта?

Да, патент (в частности, Claim 6) явно подчеркивает это. Валидация шаблонов происходит путем анализа документов в рамках одного веб-сайта. Google изучает, как именно ваш сайт структурирует данные. Если структурный паттерн не повторяется достаточно часто на сайте (не превышает Template Threshold), шаблон будет отклонен.

Что такое «Seed Descriptor» и как Google их получает?

Seed Descriptor — это фрагмент текста, который Google уже уверенно считает точным описанием изображения. Это «эталон» для обучения. Патент упоминает несколько источников: запросы, по которым изображение показывает высокую эффективность (Seed Queries), описания, подтвержденные вручную, результаты работы систем классификации изображений (например, Google Lens) или пользовательские метки.

Насколько важен тег <figcaption> в контексте этого патента?

Он очень важен. <figcaption> является семантическим HTML-тегом, предназначенным именно для подписей к изображениям. Патент явно использует его в примерах генерации шаблонов. Использование <figure> и <figcaption> дает Google четкий сигнал о назначении текста, что значительно упрощает создание надежных шаблонов для извлечения описаний.

Что произойдет, если мой сайт имеет очень разнообразный или уникальный дизайн для каждой страницы?

Это затруднит работу системы. Если структура HTML и расположение описаний относительно изображений сильно различаются от страницы к странице, система не сможет идентифицировать повторяющийся паттерн. Кандидаты в шаблоны не достигнут Template Threshold и будут отброшены. В результате Google не сможет использовать этот механизм на вашем сайте.

Как характеристики изображения (Image Features) влияют на создание шаблонов?

Image Features (такие как размер, соотношение сторон, тип файла) действуют как ограничения в шаблоне. Это помогает системе различать разные типы изображений на странице. Например, система может создать один шаблон для основного изображения товара (большой размер, соотношение 1:1) и другой шаблон для иконок (маленький размер, PNG), гарантируя, что извлекается правильный текст для каждого типа изображения.

Что такое «Generative Rule» и как она работает с литералами и подстановочными знаками?

Generative Rule определяет, как извлекать текст. Она может включать литералы (фиксированный текст) и подстановочные знаки (Wildcards). Например, если подпись часто имеет вид «Фото: [Имя Фотографа]», система может создать правило с литералом «Фото: » и подстановочным знаком для имени. При применении шаблона система извлечет только ту часть текста, которая соответствует подстановочному знаку.

Влияет ли этот патент на ранжирование веб-страниц или только на поиск по картинкам?

Основное применение — улучшение поиска по картинкам за счет более точных описаний. Однако улучшенное понимание изображений также помогает Google лучше понять общую тематику и контекст веб-страницы. Если Google может точно определить, что изображено на картинках, это может косвенно улучшить оценку релевантности и качества самой веб-страницы.

Может ли система извлечь текст, который визуально находится рядом с изображением, но далеко в структуре DOM?

Это маловероятно. Система анализирует Document Structure Information, что подразумевает анализ HTML-кода и DOM-дерева. Если элементы находятся далеко друг от друга в структуре документа, системе будет сложно установить между ними связь и создать надежный шаблон, даже если с помощью CSS они отображаются рядом на экране.

Как SEO-специалисту использовать знание об этом патенте при разработке нового дизайна сайта?

Необходимо настаивать на консистентности и семантичности верстки. Разработайте стандартные блоки для отображения контента (например, «карточка товара», «иллюстрация в статье») и убедитесь, что эти блоки используются одинаково по всему сайту. Это гарантирует, что Google сможет легко изучить шаблоны и корректно интерпретировать ваш визуальный контент.