
Google использует метод анализа визуального макета страницы (Visual Layout), чтобы понять её иерархическую структуру, даже если HTML-код (DOM) не отражает её точно. Система анализирует визуальные разрывы (белое пространство) между блоками контента, чтобы сегментировать страницу и точно связать описательный текст с конкретными объектами, например, отзывы с соответствующими локальными компаниями на странице со списком.
Патент решает проблему неточности анализа структуры документа при использовании методов, основанных только на объектной модели документа (DOM). DOM не всегда соответствует визуальному представлению страницы, которое видит пользователь. Это затрудняет точное сопоставление описательного контента с конкретными объектами на странице, особенно в локальном поиске, где одна страница может содержать отзывы о нескольких разных компаниях (Business Listings). Изобретение направлено на повышение точности сегментации контента для корректного индексирования.
Запатентована система автоматической сегментации документов, основанная на их визуальном макете (Visual Layout), а не на структуре кода. Система анализирует визуальные разрывы (Visual Gaps или белое пространство) на отображаемой странице, чтобы определить иерархическую структуру контента. Это позволяет точно связывать блоки текста (например, заголовки, описания) с конкретными сигналами (например, Geographic Signals).
Система функционирует следующим образом:
Weights). Эти веса количественно оценивают размер визуального разрыва, который элемент создает на странице.Hierarchical Structure. Большие веса (большие разрывы) указывают на более высокие уровни иерархии (например, разделение основных разделов).Высокая. Несмотря на дату подачи (2004 год), принципы визуальной сегментации (иногда называемые VIPS) и анализа отображаемой страницы (рендеринга) являются фундаментальными для современных поисковых систем. Понимание того, как Google интерпретирует визуальную структуру, особенно в эпоху сложных JavaScript и CSS макетов, критически важно для технического SEO и UX.
Патент имеет значительное влияние на SEO (7/10). Он подчеркивает, что визуальное представление и структура контента напрямую влияют на то, как Google понимает и индексирует страницу. Если визуальная структура неоднозначна, Google может некорректно ассоциировать контент. Это критически важно для локального SEO, страниц-агрегаторов, каталогов и любых страниц, перечисляющих несколько сущностей (например, обзоры товаров, списки компаний).
Claim 1 (Независимый пункт): Описывает основной метод сегментации документа.
Geographic Signal в документе.Visual Model документа.Hierarchical Structure документа.Ключевой аспект — использование визуального макета для определения иерархии и возможность связывать обобщающий контент (например, заголовки разделов) с конкретными объектами, расположенными ниже по иерархии.
Claim 2 (Зависимый от 1): Уточняет процесс генерации визуальной модели.
Генерация включает присвоение значений (Weights) элементам документа (например, HTML-тегам), которые контролируют его внешний вид. Эти значения количественно определяют степень, в которой элементы создают визуальные разрывы (Visual Gaps) в отображаемой версии документа.
Claim 4 (Зависимый от 2): Уточняет процесс идентификации иерархической структуры.
Более высокие иерархические уровни документа соответствуют более крупным присвоенным значениям (большим весам/разрывам).
Claim 10 (Независимый пункт): Описывает метод индексирования документа с использованием визуальной сегментации.
Geographic Signals в документе.Visual Layout. Процесс сегментации включает генерацию Visual Model, идентификацию Hierarchical Structure и ассоциацию текста более высокого уровня (header text).Изобретение применяется на этапе анализа и обработки контента для подготовки его к индексации.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Segmentation Component анализирует документ после его рендеринга (или симуляции рендеринга), чтобы понять его структуру.
Visual Model, анализируя Visual Gaps в отображаемой версии документа.Hierarchical Structure для точного извлечения и ассоциации описательного текста с соответствующими Business Listings. Это гарантирует, что отзыв о Ресторане А не будет ошибочно приписан Ресторану Б на той же странице.Входные данные:
Geographic Signals в документе.Weights для элементов разметки (HTML-тегов).Выходные данные:
Hierarchical Structure.Business Listings.Business Listings.Geographic Signals, указывающих на Business Listings.Процесс сегментации документа на основе визуальных разрывов:
Geographic Signals.Weights этим элементам. Веса отражают размер визуального разрыва, создаваемого элементом. Веса могут быть асимметричными. Например, тегу <h2> может быть присвоен вес 50 перед ним и 30 после него, отражая идею, что заголовок сильнее связан с последующим текстом.Business Listing, ассоциируется с ним.Business Listing, также ассоциируется с данным списком.Business Listing (например, как единый комбинированный документ или через специальные поля в индексе).<h1>-<h6>, <hr>, <br>) и то, как они влияют на визуальный макет. Система анализирует отображаемую версию документа.Geographic Signals (адреса, названия компаний, номера телефонов), которые служат анкорями для сегментации.Visual Gaps.<hr> (горизонтальная линия): вес 20 до и после элемента.<h2>: вес 50 до и 30 после элемента.Visual Gaps) и дизайн являются техническими факторами, влияющими на индексацию. Они используются для определения семантических связей и границ между блоками контента.Hierarchical Structure (заголовки, разделы, подразделы) на основе анализа визуальных разрывов и их "веса".<hr>).<br> вместо параграфов или сложных скриптов для управления макетом может привести к непредсказуемым результатам при построении Visual Model.Патент подтверждает стратегическое направление Google на понимание веб-страниц с точки зрения пользователя (UX). Дизайн и качество фронтенд-реализации являются неотъемлемой частью технического SEO, поскольку они напрямую влияют на то, как контент сегментируется и индексируется. Для сайтов в локальном поиске, электронной коммерции и агрегаторов стратегически важно инвестировать в четкую, логичную и визуально понятную структуру страниц.
Сценарий: Оптимизация страницы "Лучшие кафе в районе"
Необходимо структурировать страницу так, чтобы Google точно связал отзывы и категории с каждым кафе.
Кафе А: Отличный кофе, есть веганские опции. Адрес А. Кафе Б: Хорошие завтраки. Адрес Б.Проблема: Google может затрудниться понять границы сегментов и ошибочно связать "веганские опции" с Кафе Б.
<h1>Лучшие кафе в районе X</h1> <h2>Кафе с завтраками</h2> <h3>Кафе Б</h3> <p>Отзыв о завтраках... Адрес Б</p> <!-- Большой визуальный разрыв --> <h2>Специализированные кофейни</h2> <h3>Кафе А</h3> <p>Отличный кофе, есть веганские опции... Адрес А</p>Реализация: Заголовки (H2, H3) и абзацы (P) создают значительные визуальные разрывы (
Visual Gaps). Visual Model. Разрывы вокруг H2 самые большие (высокие Weights), создавая верхний уровень иерархии. Разрывы вокруг H3 меньше, создавая подуровни. Google корректно ассоциирует заголовок "Кафе с завтраками" (верхний уровень) с Кафе Б, а "веганские опции" — только с Кафе А.Означает ли этот патент, что Google полностью игнорирует HTML DOM при анализе структуры?
Нет, не полностью. Однако патент подчеркивает, что Visual Layout может иметь приоритет над DOM, особенно когда структура кода не соответствует визуальному представлению или является неоднозначной. Система использует анализ визуальных разрывов как надежный метод для определения реальной иерархии контента, видимой пользователю.
Как определяются "веса" (Weights) для визуальных разрывов?
Патент предлагает три метода: ручная настройка на основе субъективного анализа, анализ того, как браузеры отображают элементы, или использование машинного обучения на размеченных данных. На практике это означает, что стандартные HTML-элементы (заголовки, абзацы, списки) имеют предопределенные ожидания относительно того, сколько пространства они создают.
Актуален ли этот патент, учитывая современные JavaScript-фреймворки и сложный CSS?
Да, он даже более актуален. Современные фреймворки часто генерируют сложный DOM, который слабо отражает семантическую структуру. В таких случаях анализ финального визуального представления (после рендеринга) становится ключевым способом понять иерархию контента. Это подчеркивает важность корректного рендеринга страницы.
Какова основная область применения этого патента?
Основное применение, описанное в патенте, — это локальный поиск (Local Search). Цель состоит в том, чтобы точно ассоциировать описания и отзывы с конкретными Business Listings на страницах, где перечислено несколько компаний (например, в каталогах или обзорах).
Что значит, что веса могут быть асимметричными (например, для <h2>)?
Это означает, что элемент создает разный размер отступа до и после себя. В патенте приводится пример: <h2> может иметь вес 50 до начала тега и вес 30 после закрытия. Это отражает визуальную логику, что заголовок сильнее отделен от предыдущего контента и теснее связан с текстом, который следует непосредственно за ним.
Как я могу использовать это знание для улучшения структуры моего сайта?
Сосредоточьтесь на визуальной ясности и UX. Используйте достаточное белое пространство и четкую иерархию заголовков для разделения различных тем или сущностей. Убедитесь, что визуально очевидно, какой текст к какому заголовку или объекту относится. Дизайн должен направлять не только пользователя, но и поискового робота.
Влияет ли использование CSS (margin/padding) на эту систему?
Патент фокусируется на HTML-элементах в примерах, но поскольку система анализирует результат рендеринга (Visual Layout), любые средства, создающие визуальные разрывы (включая CSS-отступы), должны учитываться при построении Visual Model. Важен конечный результат – наличие визуального пробела.
Может ли этот механизм использоваться не только для локального поиска?
Да. Хотя патент фокусируется на Geographic Signals, в нем упоминается, что эта техника может применяться к любым типам сигналов. Например, ее можно использовать для определения того, какой текст относится к какому изображению (используя изображения как сигналы).
Может ли этот механизм помочь в идентификации шаблонного (boilerplate) контента?
Да. В патенте упоминается, что идентифицированные иерархические сегменты могут использоваться для определения того, какие части документа более или менее релевантны. Например, навигационный шаблонный текст обычно менее релевантен, чем центральный контент страницы, и визуальная сегментация может помочь их разделить.
Если мой код чистый и семантически верный, но дизайн перегружен и запутан, что произойдет?
Согласно патенту, система может предпочесть запутанный визуальный макет чистому коду для определения структуры. Если дизайн не позволяет четко разделить блоки контента из-за отсутствия визуальных разрывов, система может некорректно сегментировать страницу, что приведет к ошибкам в индексации и потере релевантности.

Семантика и интент
Структура сайта
Техническое SEO

SERP
Семантика и интент

Антиспам
Структура сайта
Индексация

Структура сайта
SERP
Ссылки

Поведенческие сигналы
Персонализация
Семантика и интент

Поведенческие сигналы
SERP

Персонализация
Поведенческие сигналы
SERP

Поведенческие сигналы
SERP

Семантика и интент
Персонализация
Поведенческие сигналы

Ссылки
SERP

Local SEO
Поведенческие сигналы
Свежесть контента

Ссылки
Краулинг
Техническое SEO

Персонализация
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы

Структура сайта
Техническое SEO
Ссылки
