Как Google анализирует структуру страницы (Token Table) для определения галерей изображений и оценки релевантности текста к картинкам

Google использует механизм «Token Table» для анализа логической структуры веб-страницы. Это позволяет системе вычислять логическое расстояние между текстом и изображениями для оценки их релевантности друг другу (Relatedness). Также система определяет, являются ли равномерно расположенные изображения частью организованной галереи, что может влиять на их ранжирование.

Описание

Какую задачу решает

Патент решает две ключевые задачи для поисковых систем:

Ассоциация текста с изображениями: Потребность в точном определении того, какой фрагмент текста описывает конкретное изображение на странице, основываясь на их пространственном расположении в структуре документа. Это критично для релевантности в Image Search.
Определение галерей изображений: Необходимость автоматически идентифицировать документы, содержащие Image Gallery (множество изображений, организованных единообразно), чтобы применять к ним особую логику обработки и ранжирования, так как они могут иметь иное качество (different quality).

Что запатентовано

Запатентована система анализа пространственной (spatial layout) структуры документа. Ядром изобретения является создание логической карты документа, называемой Document Token Table. В этой таблице всем элементам страницы (текстовым фрагментам и изображениям) присваиваются координаты на основе их расположения в структуре документа (например, в HTML-таблицах). Эта карта используется для вычисления логических расстояний между элементами.

Как это работает

Система парсит документ и строит Token Table, определяя координаты элементов. Далее работа идет по двум направлениям:

Для оценки релевантности (Claim 36+): Вычисляется логическое расстояние между текстовым токеном и токеном изображения. Чем меньше расстояние в Token Table, тем более связанным (related) считается текст для описания этого изображения.
Для детекции галерей: Анализируется расположение изображений. Если множество изображений расположены равномерно (evenly distributed), система классифицирует это как Image Gallery. Это определяется путем построения гистограммы расстояний между изображениями; высокий пик гистограммы указывает на наличие галереи.

Актуальность для SEO

Высокая. Понимание визуальной структуры страницы и семантической связи между текстом и мультимедиа является критически важным для современного поиска (Image Search, Page Understanding). Хотя исходная заявка (2004 г.) фокусируется на табличной верстке, описанная логика анализа структурной и пространственной близости остается фундаментально актуальной для интерпретации контента.

Важность для SEO

Патент имеет значительное влияние на SEO (8/10), особенно на оптимизацию под Image Search. Он раскрывает конкретный механизм (Claim 36), как Google использует структуру страницы для определения того, какой текст ассоциировать с изображением. Это подчеркивает важность семантической верстки и расположения описательного текста рядом с соответствующими изображениями в логической структуре документа.

Детальный разбор

Термины и определения

Document Token Table (Таблица токенов документа): Структура данных, представляющая логическое пространственное расположение (logical spatial layout) документа. Элементы документа (токены) размещаются в ячейках таблицы.
Token (Токен): Компонент документа, выделенный на основе HTML-тегов. Бывают Image Tokens (изображения, например, тег <img>) и Textual Tokens (текст, разделенный тегами типа <p>, <br>, <hr>).
Coordinates (Координаты): Значения (строка, столбец), присваиваемые токену и определяющие его позицию в Token Table. Определяют логическое, а не точное положение в Евклидовом пространстве (пикселях).
Relatedness (Связанность): Оценка того, насколько текст (ключевое слово) связан с визуальным контентом (изображением). Основана на расстоянии между ними в Token Table (Claim 36).
Image Gallery (Галерея изображений): Множество изображений в документе, организованных единообразным (uniform manner), равномерным образом (evenly distributed).
Column Tree (Дерево столбцов): Вспомогательная структура данных, используемая для анализа сложных и вложенных HTML-таблиц (nested tables) с целью определения координат в Token Table.
(h, v) Integer Pair (Пара целых чисел (h, v)): Вектор, представляющий расстояние от одного изображения до следующего по горизонтали (h) и вертикали (v) в Token Table.
Histogram Peak Value (p) (Пиковое значение гистограммы): Наибольшее значение в гистограмме расстояний (h, v). Высокий пик указывает на то, что много изображений имеют одинаковое смещение, что свидетельствует о наличии галереи.

Ключевые утверждения (Анализ Claims)

Важное примечание: В данной публикации патента (US20150161179A1) пункты 1-35 отменены (canceled). Анализ сосредоточен на действующих пунктах 36-55, которые описывают использование пространственной структуры для определения релевантности текста к изображениям.

Claim 36 (Независимый пункт): Описывает метод определения связи между словом и визуальным контентом на основе расстояния.

Система парсит документ для идентификации элементов (слов и визуального контента).
На основе этой информации заполняется структура данных (подразумевается Token Table), которая содержит информацию о расстояниях между элементами.
Определяется расстояние между конкретным словом и конкретным визуальным контентом с использованием этой структуры данных.
Определяется, насколько слово связано (related) с визуальным контентом, основываясь на вычисленном расстоянии.

Система создает логическую карту документа. Расстояние между текстом и изображением на этой карте используется как мера релевантности: чем ближе текст структурно расположен к изображению, тем сильнее он связан с ним.

Claim 39 (Зависимый от 36): Уточняет механизм заполнения структуры данных.

Заполнение структуры данных включает присвоение координатных значений (coordinate values) ячеек этой структуры элементам документа.

Claim 41 и 42 (Зависимые от 39): Описывают дополнительное применение координат.

Координаты также используются для оценки общей структуры или геометрического макета (geometric layout) документа, что может применяться для последующего анализа контента страницы (Page Understanding/Segmentation).

Где и как применяется

Изобретение применяется на этапе индексирования для анализа структуры документа и извлечения признаков, преимущественно для Image Search Engine.

INDEXING – Индексирование и извлечение признаков

На этом этапе Image Indexing Component анализирует входящие документы.

Анализ структуры: Происходит парсинг HTML и построение Token Table для моделирования логического пространственного расположения всех токенов.
Извлечение признаков (Feature Extraction): Система использует Token Table для вычисления двух ключевых признаков:
- Оценка релевантности окружающего текста к каждому изображению на основе логического расстояния (Relatedness).
- Классификация документа (наличие Image Gallery) на основе анализа равномерности распределения изображений.
Сохранение данных: Результаты сохраняются в индексе. Изображениям из галерей может быть присвоен иной ranking value.

RANKING – Ранжирование

На этапе ранжирования (особенно в Image Search) Search Component использует вычисленную степень связи (Relatedness) как сигнал релевантности изображения запросу.

Входные данные:

HTML-документ.
HTML-теги, определяющие структуру (особенно таблицы <table> и разделители <p>, <br>, <hr>).

Выходные данные:

Связи между текстовыми фрагментами и изображениями с весовыми коэффициентами, основанными на расстоянии в Token Table.
Метка о наличии/отсутствии Image Gallery.

На что влияет

Image SEO: Напрямую влияет на то, как изображения ранжируются в поиске по картинкам, так как определяет, какой текст используется в качестве их описания.
Типы контента: Влияет на любые страницы, где есть сочетание текста и изображений: статьи, карточки товаров (E-commerce), рецепты, новости, портфолио.
Структура верстки: Особенно важно для страниц со сложной структурой (много колонок, вложенные элементы, сетки), где определить связь текста и картинки сложнее.

Когда применяется

Алгоритм применяется при каждом индексировании или переиндексировании документа, содержащего изображения.

Триггеры активации (для галереи): Наличие нескольких изображений, демонстрирующих повторяющийся паттерн расположения (высокий Peak Value в гистограмме).
Пороговые значения: Вероятность наличия галереи рассчитывается на основе пикового значения (p). Упоминается конкретная формула: 1 — e^-p/3.
Исключения: Упоминается возможность исключения определенных типов сайтов (например, shopping sites, идентифицированных по ключевым словам «price», «order», «checkout»), или игнорирование изображений, если они не соответствуют критериям размера или разрешения.

Пошаговый алгоритм

Этап 1: Построение Token Table (Пространственная модель)

Получение документа: Система получает входной документ (например, HTML).
Построение Column Tree (Анализ таблиц): Система анализирует табличные структуры в документе (включая вложенные таблицы) и строит Column Tree для определения логической ширины и структуры столбцов. Это первый проход по документу.
Создание Token Table и присвоение координат: Система проходит по документу (второй проход), идентифицирует токены (текст и изображения) и присваивает им координаты (строка, столбец) в Token Table, используя Column Tree. Элементы вне таблиц также структурируются.

Этап 2: Применение Token Table

Процесс А: Оценка релевантности текста к изображению (Claims 36+)

Идентификация пар: Система идентифицирует пары (Текстовый токен, Image Token).
Вычисление расстояния: Для каждой пары вычисляется логическое расстояние на основе их координат в Token Table.
Определение релевантности: Система определяет степень связи (Relatedness) текста и изображения. Меньшее расстояние соответствует большей релевантности.

Процесс Б: Детекция Image Gallery

Сканирование изображений: Система сканирует Token Table на наличие Image Tokens.
Вычисление смещений (h, v): Для каждого изображения определяется расстояние до следующего изображения по горизонтали (h) и вертикали (v). Генерируется пара (h, v).
Построение гистограммы: Создается двухмерная гистограмма частот для всех пар (h, v).
Анализ пикового значения: Определяется пиковое значение (p) в гистограмме.
Расчет вероятности галереи: Вероятность наличия галереи рассчитывается на основе пикового значения (например, по формуле 1 — e^-p/3).

Какие данные и как использует

Данные на входе

Структурные факторы: Критически важные данные. Используются HTML-теги, определяющие визуальную и логическую структуру документа. Особое внимание уделяется табличной верстке (<table>, <tr>, <td>) и разделителям (<p>, <br>, <hr>).
Контентные факторы: Весь текст на странице, который разбивается на Textual Tokens. Также анализируются ключевые слова для определения типа сайта (например, «price», «checkout»).
Мультимедиа факторы: Изображения на странице (Image Tokens). При детекции галерей может учитываться размер (image size) и разрешение (image resolution) изображений.
Ссылочные факторы: Упоминается возможность учета наличия исходящих ссылок с изображения как фактора при классификации галереи.

Какие метрики используются и как они считаются

Logical Spatial Distance (Логическое пространственное расстояние): Расстояние между токенами, вычисленное на основе их координат в Token Table. Используется для оценки релевантности текста к изображению. Патент подчеркивает, что это не расстояние в пикселях.
(h, v) pairs: Метрика смещения между соседними изображениями по горизонтали и вертикали.
Histogram Peak Value (p): Статистическая метрика, показывающая количество изображений с одинаковым смещением (h, v).
Вероятность галереи: Вычисляемая метрика. Приведена формула: 1 — e^-p/3.
Методы анализа: Используется структурный анализ HTML для построения Column Tree и Token Table, а также статистический анализ (гистограмма) для детекции паттернов расположения.

Выводы

Структурная близость = Семантическая связь: Ключевой вывод (Claim 36) заключается в том, что Google активно использует пространственное расположение элементов для определения их взаимосвязи (Relatedness). Текст, расположенный структурно ближе к изображению, имеет больший вес как его описание.
Логическое расстояние важнее визуального: Система измеряет расстояние на основе структуры HTML (Token Table), а не фактическое расстояние в пикселях на экране пользователя. Атрибуты ширины могут игнорироваться.
Token Table как модель восприятия страницы: Система не просто читает код линейно, а строит логическую карту для интерпретации визуальной структуры документа, используя методы (Column Tree) для обработки сложных и вложенных структур.
Галереи определяются по равномерности верстки: Для идентификации Image Gallery система ищет паттерны равномерного распределения (evenly distributed) изображений. Систематическая, повторяющаяся структура является сильным сигналом.
Анализ структуры для оценки контента: Патент подтверждает (Claim 41), что анализ общей структуры страницы (layout) используется для более глубокого анализа ее контента (сегментации), выходящего за рамки только лишь детекции галерей.

Практика

Best practices (это мы делаем)

Размещайте описательный текст максимально близко к изображению: Убедитесь, что заголовки, подписи и основной текст, описывающие изображение, находятся структурно близко к нему в коде. Это минимизирует расстояние в Token Table и увеличивает Relatedness.
Используйте семантическую верстку: Применяйте теги <figure> и <figcaption> для явного связывания изображения и его подписи. Это гарантирует минимальное логическое расстояние между ними.
Обеспечивайте единообразие в галереях и листингах: При создании галерей (товаров, фотографий) используйте идентичную структуру верстки для каждого элемента. Расстояния между блоками должны быть одинаковыми. Это поможет Google корректно идентифицировать галерею и связь элементов внутри каждого блока.
Анализируйте структуру сложных страниц: На страницах с многоколоночной версткой убедитесь, что текст в колонке относится к изображениям в этой же колонке, а не к изображениям в соседних структурных блоках.

Worst practices (это делать не надо)

Структурное разделение связанного контента: Размещение изображения в одном контейнере, а его описания — далеко в другом (например, изображение в основном блоке, а описание далеко внизу страницы или в другой ячейке сложной таблицы). Это увеличивает расстояние в Token Table и снижает релевантность.
Сложные и запутанные табличные макеты: Использование многоуровневых вложенных таблиц для визуального позиционирования может привести к тому, что релевантный текст окажется логически «далеко» от изображения.
Нерегулярная верстка однотипных элементов: Использование разных HTML-структур или разных отступов для однотипных элементов в списке или галерее может помешать системе распознать их как единую группу (Image Gallery).

Стратегическое значение

Патент подтверждает стратегическую важность чистой, семантической и логичной верстки. Структура документа (DOM) напрямую влияет на то, как поисковая система интерпретирует связи между элементами контента. Для Senior SEO это означает, что технический аудит должен включать анализ структуры верстки с точки зрения близости связанных элементов, что критически важно для успеха в Image SEO и для общей оценки качества контента страницы.

Практические примеры

Сценарий: Оптимизация листинга товаров E-commerce

Задача: Улучшить ранжирование изображений товаров в Image Search и гарантировать, что Google правильно ассоциирует название и цену с картинкой.
Анализ (на основе патента): Система будет строить Token Table. Чтобы текст был релевантен картинке, он должен быть близко. Чтобы листинг был распознан как галерея, верстка должна быть равномерной.
Действие: Внедрить стандартизированную верстку для каждой карточки товара. Использовать структуру, где изображение, название и цена находятся в одном родительском контейнере с минимальным количеством промежуточных тегов:
<div class=»product-card»>
<img src=»…»>
<h3>Название товара</h3>
<span>Цена</span>
</div>
Обеспечить одинаковые отступы между карточками в сетке.
Результат: Расстояние между Image Token и Textual Tokens (название, цена) минимально. Google точно ассоциирует их (высокий Relatedness). Равномерность верстки позволяет идентифицировать листинг как Image Gallery.

Вопросы и ответы

Как именно Google определяет, какой текст описывает изображение?

Согласно патенту (Claim 36), система строит структуру данных (Token Table), которая отражает логическое расположение элементов на странице. Затем она вычисляет расстояние между текстом и изображением в этой таблице. Это расстояние используется как мера связанности (Relatedness): чем ближе текст расположен к изображению структурно, тем сильнее он считается связанным с ним.

Что такое «Token Table» и как она строится?

Token Table — это логическая карта визуальной структуры документа. Она строится путем анализа HTML-кода, в первую очередь табличных структур (даже вложенных, для чего используется Column Tree). Всем элементам (токенам текста и изображений) присваиваются координаты (строка, столбец). Эта таблица отражает относительное расположение контента.

Учитывает ли система визуальное расстояние (в пикселях) или только логическое (в структуре HTML)?

Патент фокусируется на логическом расстоянии. Указано, что Token Table представляет «логические» пространственные расстояния, а не точные координаты в Евклидовом пространстве. В одном из вариантов реализации атрибут «width» ячеек может игнорироваться. Это предполагает фокус на структурном расположении в HTML/DOM.

Влияет ли CSS (Flexbox/Grid) на этот анализ, если патент в основном описывает HTML-таблицы?

Патент (с оригинальной подачей в 2004 г.) фокусируется на HTML-таблицах как основном механизме структурирования. Он не описывает обработку современных CSS-макетов. Однако логика анализа пространственной близости является универсальной. Независимо от технологии верстки, важно поддерживать логическую близость связанных элементов в HTML-коде.

Что важнее для Image SEO: alt-текст или окружающий текст?

Оба фактора важны. Alt-текст является прямым атрибутом изображения. Однако патент подчеркивает, что окружающий текст также критичен, и его влияние зависит от расстояния до изображения. Для максимального эффекта необходимо оптимизировать и alt-атрибут, и размещать ключевой описательный текст (например, подписи) в непосредственной близости от изображения.

Как система определяет «Image Gallery»?

Система ищет паттерны равномерного распределения (evenly distributed) изображений. Она вычисляет расстояния (по горизонтали и вертикали) между соседними изображениями в Token Table. Если значительное количество изображений имеет одинаковые расстояния до соседей (высокий пик в гистограмме расстояний), это классифицируется как Image Gallery.

Как влияет наличие галереи на ранжирование?

В патенте указано, что поисковая система может рассматривать изображения, принадлежащие к галереям, как имеющие другое качество (different quality) по сравнению с остальными изображениями, и может обрабатывать их иначе при выдаче результатов. Это может означать применение специфических правил ранжирования.

Стоит ли использовать HTML-таблицы для верстки, чтобы помочь Google?

Нет, использовать таблицы для верстки макета не рекомендуется, это устаревшая практика. Следует использовать современную семантическую верстку (div, figure, figcaption, CSS Flexbox/Grid). Важно поддерживать чистоту кода и логичную структуру DOM, чтобы связанные элементы находились рядом в структуре документа.

Какие факторы могут помешать распознаванию галереи?

Распознаванию помешает нерегулярная структура расположения изображений. Также в патенте упоминаются исключения: система может игнорировать изображения слишком маленького размера или низкого разрешения, или исключать определенные типы сайтов (например, shopping sites, определенные по ключевым словам типа «price» или «checkout»).

Может ли этот механизм использоваться для анализа общей структуры страницы, а не только изображений?

Да. В Claim 41 указано, что созданная модель и координаты могут использоваться для получения аппроксимации макета веб-страницы (layout). Эта информация может применяться для общего анализа контента страницы, например, для сегментации контента.