
Google использует механизм "псевдо-рендеринга" для анализа геометрической структуры веб-страницы и её разделения на семантически различные области (чанки), такие как основное содержимое, навигация, футер и реклама. Это позволяет системе определять важность контента и ссылок в зависимости от их расположения на странице.
Патент решает фундаментальную проблему интерпретации веб-документов: несоответствие между синтаксической структурой HTML-кода и визуальной (семантической) структурой отображаемой страницы. HTML-код определяет элементы, но не группирует их явным образом в семантические блоки (например, "основной контент", "боковая панель", "реклама"). Это затрудняет для поисковых систем автоматическое определение важности различных частей страницы и корректную оценку веса контента и ссылок в зависимости от их контекста.
Запатентована система и метод для автоматического разделения структурированного документа (например, HTML) на семантически различные области (semantically distinct regions). Суть изобретения заключается в использовании "псевдо-рендеринга" (pseudo-rendering) для получения геометрических параметров элементов страницы (расположение, размер) и последующей перестройке структуры документа из синтаксической иерархии (Quasi-DOM Tree) в семантическую иерархию (Chunk Tree) на основе этих геометрических данных и эвристических правил.
Система работает следующим образом:
Row & Grid Analysis для выявления периодических или полупериодических структур (списки, сетки товаров).Chunk Tree, где каждый узел (чанк) представляет собой отдельную семантическую область страницы.Высокая. Понимание структуры страницы и выделение основного контента (Main Content) из шаблонных элементов (boilerplate), навигации и рекламы является критически важной задачей для современных поисковых систем. Хотя патент подан в 2004 году, описанные в нем принципы геометрического анализа лежат в основе того, как Google интерпретирует макет страницы, что напрямую влияет на оценку качества контента и релевантности.
Патент имеет критическое значение для SEO (9/10). Он описывает базовый механизм, с помощью которого Google определяет контекст и потенциальную важность контента и ссылок на основе их визуального расположения на странице. Это напрямую влияет на стратегии проектирования макетов страниц (UX/UI), внутренней перелинковки и размещения ключевого контента. Понимание этого механизма необходимо для оптимизации структуры сайта и обеспечения корректной интерпретации назначения различных блоков на странице.
semantically distinct region) на отображаемой странице (например, хедер, футер, основной контент).Quasi-DOM Tree и Chunk Tree.pseudo-rendering.Claim 1 (Независимый пункт): Описывает основной метод разделения структурированного документа.
Quasi-DOM Tree) на основе синтаксических элементов (тегов).pseudo-rendering документа.Chunk Tree) в соответствии с их атрибутами (включая геометрические параметры) и набором предопределенных правил. Правила включают слияние узлов, имеющих близкое расположение в псевдо-рендеринге и/или совместимые атрибуты.Claim 9 (Зависимый): Детализирует процесс слияния узлов (шаг 3 из Claim 1), указывая конкретные действия:
Row and Grid Analysis).Claims 11, 12, 15, 16 (Зависимые): Описывают применение результата сегментации.
Claim 17 (Независимый пункт, система): Описывает систему (Geometry Detector) для разделения документа, включающую модули для выполнения pseudo-rendering, генерации Quasi-DOM Tree и преобразования его в Chunk Tree.
Изобретение применяется на этапе анализа контента после его получения и рендеринга.
CRAWLING – Сканирование и Сбор данных
На этом этапе система получает исходный HTML документ.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. После того как краулер загрузил контент, система выполняет рендеринг (или pseudo-rendering, как описано в патенте). Описанный механизм (Geometry Detector) анализирует результат рендеринга, чтобы понять структуру страницы.
Chunk Tree. Это позволяет извлекать более точные признаки: определение основного контента, классификация ссылок (навигационные, рекламные), идентификация Pseudo-titles и шаблонных элементов (boilerplate).RANKING – Ранжирование
Сам патент не описывает алгоритмы ранжирования, но предоставляет критически важные данные для них. Как указано в Claims 11-16, система использует сегментацию для присвоения различных весов тексту и ссылкам в зависимости от их семантической области. Это напрямую используется алгоритмами ранжирования.
Входные данные:
pseudo-rendering (геометрические параметры элементов).Выходные данные:
Chunk Tree – семантическая структура документа.Geometric Token List – список всех токенов с их расположением и принадлежностью к чанкам.Row and Grid Analysis специально предназначен для их идентификации.Алгоритм применяется во время индексирования для каждой страницы, которая проходит процесс рендеринга. Цель – преобразовать синтаксическую структуру в семантическую перед тем, как извлекать факторы ранжирования.
Процесс работы Geometry Detector по преобразованию документа в Chunk Tree.
Geometric Parameters (координаты, размеры, шрифты) для каждого элемента.Grid Root).Header, LHS_Sidebar, Footer, On-Site Links). На этом этапе также могут идентифицироваться Pseudo-titles.Chunk Tree.Chunk Tree.Система использует комбинацию структурных, геометрических и контентных данных.
Quasi-DOM Tree.Row & Grid Analysis и разметки (Tagging).Pseudo-titles и оценки заметности элемента.Row & Grid Analysis. Рассчитывается как процент совпадающих пар элементов на определенном расстоянии. Пороговые значения используются для определения, формируют ли элементы сетку или список.Pseudo-title. Основываются на размере шрифта, типе шрифта или расположении текста в начале блока.pseudo-rendering), чтобы понять её семантическую структуру. Структура HTML (Quasi-DOM) является лишь отправной точкой и активно перестраивается в Chunk Tree.Row & Grid Analysis. Этот метод устойчив к шуму (полупериодичность) и позволяет группировать схожие элементы (например, товары в категории), даже если HTML-разметка не идеальна.Chunk Tree – это возможность применять различные веса к контенту и ссылкам в зависимости от семантической области, в которой они находятся (явно указано в Claims 11, 12, 15, 16 патента).Geometry Detector корректно сегментировать страницу на чанки.Row & Grid Analysis корректно идентифицирует все элементы как часть единой структуры (Grid Root).Pseudo-titles, что помогает понять тему чанка.Row & Grid Analysis и некорректной сегментации страницы.Footer или Sidebar, приведет к тому, что этот контент получит меньший вес.Этот патент подтверждает, что пользовательский опыт (UX) и дизайн интерфейса (UI) являются факторами, напрямую влияющими на SEO. Google анализирует страницу так, как её видит пользователь (или аппроксимирует это через pseudo-rendering). Стратегия SEO должна включать тесное взаимодействие с дизайнерами и разработчиками для создания макетов, которые не только удобны для пользователей, но и легко интерпретируются алгоритмами геометрического анализа. Приоритет отдается чистоте структуры и четкому выделению основного контента.
Сценарий: Оптимизация страницы категории E-commerce
pseudo-rendering и определяет геометрические параметры.Row & Grid Analysis вычисляет хэш-коды для каждой карточки. Хэш-коды совпадают.Grid Root в Chunk Tree и классифицирует этот блок как основной контент страницы категории. Ссылки внутри этого блока получают соответствующий вес.Row & Grid Analysis может не сработать или разбить сетку на несколько отдельных чанков, что усложнит интерпретацию страницы.Google анализирует только HTML-код или визуальное отображение страницы?
Патент четко указывает, что Google анализирует визуальное отображение, используя pseudo-rendering для получения геометрических параметров элементов. HTML-код (Quasi-DOM Tree) используется как отправная точка, но затем он перестраивается в семантическую структуру (Chunk Tree) на основе того, как элементы расположены на странице визуально.
Что такое "Pseudo-rendering" и чем он отличается от обычного рендеринга?
Pseudo-rendering – это упрощенный процесс определения приблизительного расположения и размеров элементов без полного визуального отображения. Он быстрее и менее ресурсоемок, чем полный рендеринг, выполняемый браузером. Для целей сегментации страницы абсолютная точность не требуется, достаточно приблизительной геометрии.
Как этот патент влияет на вес ссылок и внутреннюю перелинковку?
Влияние критическое. В патенте (Claims 11, 15) прямо говорится, что ссылки в разных семантических областях могут получать разный вес. Это означает, что ссылка в основном контенте (идентифицированном как центральный и важный чанк) передаст больше веса, чем ссылка в футере или боковой панели (идентифицированных как вспомогательные или шаблонные чанки).
Как работает "Row & Grid Analysis" и зачем он нужен?
Это механизм для идентификации списков и сеток (например, товаров в категории). Он сравнивает внутреннюю структуру (через хэш-коды) и геометрическое расположение элементов. Если элементы похожи и расположены периодически или полупериодически, система группирует их в единый семантический блок (Grid Root). Это позволяет Google понять, что эти элементы являются частью одного списка.
Что делать, если JavaScript динамически меняет макет страницы?
Поскольку анализ происходит после рендеринга (или pseudo-rendering), система анализирует финальное состояние страницы после выполнения JavaScript. Важно, чтобы итоговый макет был чистым, структурированным и быстро формировался, чтобы Geometry Detector мог корректно его интерпретировать.
Как система определяет, какой блок является Основным Контентом?
Патент описывает механизм разметки блоков на основе их расположения (Header, Footer, Sidebar). Логично предположить, что блоки, расположенные центрально, занимающие большую площадь и не являющиеся навигацией или рекламой, классифицируются как основной контент. Блоки типа Grid Root часто являются основным контентом.
Что такое "Pseudo-title" и почему это важно?
Pseudo-title – это текст, который система идентифицирует как заголовок для определенного семантического блока (chunk) на основе его визуальной заметности (например, крупный шрифт). Это помогает системе понять тему конкретного блока и может использоваться для генерации сниппетов. Для SEO это подчеркивает важность использования четких и визуально выделенных заголовков.
Как этот патент связан с алгоритмом Page Layout (Above the Fold)?
Этот патент предоставляет необходимую инфраструктуру для работы алгоритма Page Layout. Чтобы оценить, сколько рекламы находится "над сгибом" и насколько доступен основной контент, система сначала должна идентифицировать, где находится основной контент, где реклама, и каковы их геометрические параметры. Chunk Tree предоставляет эти данные.
Связан ли этот патент с обнаружением шаблонного (boilerplate) контента?
Да, напрямую. Одной из основных целей сегментации страницы является отделение уникального контента от повторяющихся шаблонных элементов. Блоки, идентифицированные как футеры, хедеры и боковые панели, часто содержат boilerplate-контент, которому присваивается меньший вес при ранжировании.
Как я могу использовать этот патент для улучшения индексации изображений?
Патент упоминает использование геометрического анализа для Image captioning (создания подписей к изображениям). Система ищет текст, который находится геометрически близко к изображению. Для улучшения индексации изображений размещайте релевантные описания или заголовки в непосредственной визуальной близости от картинки.

Индексация
Техническое SEO
Структура сайта

Индексация
Local SEO
Структура сайта

Структура сайта
Семантика и интент
Техническое SEO

Структура сайта
Техническое SEO
Ссылки

Антиспам
Структура сайта
Индексация

Knowledge Graph
EEAT и качество
Семантика и интент

Поведенческие сигналы
Семантика и интент
SERP

Knowledge Graph
Семантика и интент
EEAT и качество

Поведенческие сигналы
SERP

Персонализация
Семантика и интент
Мультимедиа

Поведенческие сигналы
SERP
EEAT и качество

Семантика и интент
Безопасный поиск
Поведенческие сигналы

SERP
Ссылки
Структура сайта

Мультимедиа
EEAT и качество
Семантика и интент

Семантика и интент
EEAT и качество
SERP
