Как Google определяет основной контент страницы, анализируя визуальную геометрию и расположение элементов после рендеринга

Google анализирует визуальную структуру отрендеренной страницы для идентификации основного контента («Колонки интереса»). Система определяет расположение колонок, исключает выбросы (невидимый или удаленный контент) и вычисляет центральную область. Контент, найденный в этой области, получает повышенный вес при ранжировании, в то время как контент в боковых панелях, футерах и рекламе деприоритизируется.

Описание

Какую задачу решает

Патент решает проблему точной идентификации основного (релевантного) контента на веб-странице среди второстепенных элементов, таких как реклама, навигационные меню, хедеры и футеры (boilerplate-контент). Индексирование страницы на основе этих нерелевантных элементов ухудшает качество поиска, например, страница может быть ошибочно проиндексирована по теме рекламы, а не по ее основному содержанию. Изобретение улучшает способность поисковой системы алгоритмически изолировать основной контент.

Что запатентовано

Запатентована система для определения основного контента страницы (Column of Interest) путем анализа геометрии элементов после рендеринга. Система сегментирует страницу на колонки, используя визуальное расположение (Boundary Information) узлов DOM, и идентифицирует ту колонку (часто центральную), которая содержит основной контент. Этому контенту присваивается более высокий вес (higher weight) при индексации и ранжировании.

Как это работает

Система работает на основе анализа данных рендеринга:

Рендеринг: Страница обрабатывается для получения визуальной структуры (Render Tree).
Анализ геометрии: Система получает узлы рендеринга (Render Nodes), содержащие точную информацию о границах, размерах и координатах (Boundary Information).
Исключение выбросов (Outliers): Элементы, которые не видны пользователю или находятся далеко от основной области контента, исключаются из анализа макета.
Детекция колонок: При обходе дерева система ищет «скачки назад» (Jump-back или Rewind) в вертикальной позиции элементов. Значительное смещение вверх указывает на начало новой колонки.
Идентификация основного контента: Определяется Column of Interest (обычно центральная колонка, рассчитанная после исключения выбросов).
Взвешивание: Контенту внутри Column of Interest присваивается более высокий вес для целей поиска.

Актуальность для SEO

Высокая. Понимание структуры страницы (Page Segmentation) и визуального контекста является фундаментальной задачей современных поисковых систем. С развитием сложных веб-макетов и повсеместным использованием JavaScript, анализ геометрии после рендеринга (например, через Web Rendering Service) критически важен для точного определения основного контента и игнорирования шума.

Важность для SEO

Патент имеет высокое значение для SEO (85/100). Он описывает конкретный механизм, демонстрирующий, что расположение контента на странице напрямую влияет на его вес при ранжировании. Ключевой контент, размещенный вне основного визуального блока (например, в боковой колонке или футере), будет деприоритизирован. Это подчеркивает критическую важность чистого рендеринга и логичной визуальной структуры для эффективного SEO.

Детальный разбор

Термины и определения

Boundary Information (Информация о границах): Геометрические данные, связанные с элементом на отрендеренной странице. Включают координаты расположения (location coordinates), размеры (высота, ширина), информацию о коллизиях (пересечениях) с другими элементами и свободном пространстве (space information).
Column of Interest (COI) (Колонка интереса): Область на странице, идентифицированная алгоритмом как содержащая наиболее релевантный (основной) контент. Контент в этой колонке получает повышенный вес.
DOM Tree Node (Узел дерева DOM): Элемент в объектной модели документа (Document Object Model). Структурная единица веб-страницы.
Jump-back (Скачок назад / Rewind): Событие изменения позиции при обходе элементов. Если система обходит элементы сверху вниз, и следующий элемент оказывается значительно выше (вертикально) предыдущего, это сигнализирует о начале новой колонки.
Outlier (Выброс): Контент, который находится за пределами основной области страницы. Патент (Claim 1) определяет его как контент, который не рендерится как видимый пользователю (user-viewable portion). Также может включать контент, находящийся слишком далеко от основного массива (например, tracking pixels).
Render Node (Узел рендеринга): Элемент в Render Tree, соответствующий DOM Tree Node. Содержит визуальную информацию, включая Boundary Information.
Render Tree (Дерево рендеринга): Иерархическая структура элементов страницы, полученная после процесса рендеринга. Отражает визуальное представление страницы.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации и использования важного контента.

Система получает узлы рендеринга (Render Nodes) для отрендеренной страницы, содержащие информацию о границах (Boundary Information).
Идентифицируются выбросы (Outliers) на основе порогового значения (outlier threshold value). Выброс определяется как контент, который не рендерится в видимой пользователю части страницы. Порог устанавливается на основе того, где расположен наибольший процент контента страницы.
Информация о границах, относящаяся к выбросам, исключается из анализа.
На основе оставшейся Boundary Information система детектирует колонки страницы.
Определяется Column of Interest на основе критериев, связанных с позицией колонки на странице.
Поисковая система при классификации страницы использует контент в Column of Interest иначе, чем контент в других колонках, а именно: присваивает контенту внутри COI вес (weight), который выше, чем вес контента за пределами COI.

Claim 12 (Зависимый от 1): Детализирует механизм обнаружения колонок (Jump-back).

Измеряется разница в пикселях между нижней границей первого элемента и верхней границей второго элемента.
Новая колонка определяется, если эта разница соответствует пороговому значению изменения местоположения (threshold amount of change), т.е. произошел значительный Jump-back.

Claim 9, 10, 11 (Зависимые): Уточняют идентификацию COI.

Column of Interest часто является центральной колонкой (Center Column). Она может быть идентифицирована по предопределенным критериям (пересечение с вертикальными, горизонтальными или диагональными осями страницы) или динамически (путем оценки расположения всех колонок).

Где и как применяется

Изобретение является критически важной частью этапа анализа контента после его получения и рендеринга.

CRAWLING – Сканирование и Сбор данных
На этом этапе происходит загрузка ресурсов (HTML, CSS, JS), необходимых для последующего рендеринга.

INDEXING – Индексирование и извлечение признаков
Основное применение патента происходит здесь:

Рендеринг (WRS): Система рендерит страницу для создания Render Tree и получения Boundary Information.
Сегментация страницы (Page Segmentation) / Анализ макета: Описанный алгоритм анализирует геометрию для разделения страницы на логические блоки (колонки). Происходит исключение Outliers и идентификация Column of Interest.
Извлечение признаков (Feature Extraction): При извлечении текста и других сигналов система применяет дифференцированное взвешивание. Контент из Column of Interest получает повышенный вес.

RANKING – Ранжирование
На этапе ранжирования используются веса, рассчитанные во время индексирования. Страницы, у которых ключевые слова находятся в Column of Interest, получат преимущество перед страницами, где те же слова находятся в боковых панелях или футере.

Входные данные:

DOM Tree страницы.
Render Tree страницы (результат рендеринга).
Boundary Information (координаты, размеры) для каждого Render Node.

Выходные данные:

Сегментированная структура страницы (идентификация колонок).
Идентификация Column of Interest.
Дифференцированные веса для контента в зависимости от его расположения.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на страницы со сложной структурой макета, где основной контент соседствует с рекламой, навигацией и boilerplate (статьи, блоги, новостные сайты, страницы товаров в e-commerce).
Специфические запросы: Влияет на все типы запросов, так как определяет, какой текст на странице является основным для оценки релевантности.

Когда применяется

При каких условиях работает алгоритм: Алгоритм применяется во время индексирования, после того как страница была успешно отрендерена и получена ее визуальная геометрия.
Пороговые значения: Используется threshold amount of change для определения Jump-back и Outlier threshold value для определения границ основного контента.

Пошаговый алгоритм

Рендеринг страницы: Система выполняет рендеринг электронной страницы.
Получение структуры и геометрии: Получается Render Tree. Извлекается Boundary Information (координаты и размеры) для каждого узла (Render Node).
Идентификация и исключение выбросов (Outliers): Анализируется распределение контента. Определяется основная область на основе Outlier Threshold Value (например, где находится наибольший процент контента). Элементы за пределами этой области или невидимые (non user-viewable) элементы исключаются из дальнейшего анализа колонок.
Обход структуры: Система начинает обход Render Nodes (и соответствующих им DOM узлов), обычно предполагая порядок сверху вниз.
Детекция колонок (Jump-back Detection):
1. Система отслеживает вертикальную позицию элементов.
2. Сравнивается нижняя граница текущего элемента с верхней границей следующего элемента.
3. Если следующий элемент находится значительно выше (т.е. произошел «скачок назад» к верху страницы), и разница превышает threshold amount of change, это детектируется как начало новой колонки. (Примечание: изменение позиции между родителем и потомком может не считаться новой колонкой).
Определение границ (Опционально): Патент упоминает, что нижняя граница шапки и верхняя граница футера также могут быть определены на основе позиций элементов до и после Jump-back.
Идентификация Column of Interest: После того как все колонки определены (с учетом исключенных выбросов), система идентифицирует Column of Interest. Обычно это центральная колонка (Center Column), определенная по осям основной области контента (горизонтальной, вертикальной или диагональной).
Применение весов: Контенту, находящемуся внутри границ Column of Interest, присваивается более высокий вес для целей ранжирования и классификации.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на структурных и технических данных, полученных в результате рендеринга.

Технические факторы: DOM структура (используется для порядка обхода и определения отношений родитель-потомок), CSS (косвенно, так как определяет результат рендеринга и геометрию).
Структурные факторы (Геометрия):
- Render Tree: Иерархия визуальных элементов.
- Boundary Information: Ключевые данные для анализа. Включают точные координаты (X, Y), высоту и ширину каждого элемента на отрендеренной странице. Информация о коллизиях и свободном пространстве.

Какие метрики используются и как они считаются

Pixel Difference (Разница в пикселях): Разница между вертикальными координатами последовательных элементов. Используется для детекции Jump-back.
Threshold amount of change (Порог изменения положения): Пороговое значение для Pixel Difference. Может быть предопределенным (например, 200 пикселей) или вычисляться динамически (например, с помощью машинного обучения на основе исторических данных о Jump-back).
Outlier Threshold Value (Пороговое значение выброса): Значение, используемое для определения границ основной области контента. Патент указывает, что оно базируется на том, где расположен наибольший процент контента. Также учитывается видимость элементов (user-viewable).
Weights (Веса контента): Метрики, присваиваемые контенту. Контент в Column of Interest получает повышенный вес. Конкретные формулы не приводятся.

Выводы

Геометрия рендеринга как фактор ранжирования: Патент демонстрирует, что Google использует визуальное расположение (геометрию) элементов, а не только структуру HTML или чистый текст, для определения важности контента. Расположение напрямую влияет на вес (weight) контента.
Критичность Рендеринга (WRS): Для работы этого механизма необходимо, чтобы страница была корректно отрендерена. Ошибки рендеринга или блокировка ресурсов (CSS/JS) могут привести к неправильной идентификации Column of Interest и неверной оценке контента.
Автоматическая сегментация страницы (Jump-back): Описан конкретный алгоритм для разделения страницы на колонки на основе визуального потока. Это позволяет автоматически понижать вес boilerplate, навигации и рекламы.
Приоритет центральной области: Система явно стремится идентифицировать центральную колонку как Column of Interest, предполагая, что там находится основной контент.
Надежность за счет исключения выбросов: Исключение Outliers (невидимых или удаленных элементов) предотвращает ошибки в определении центральной области и защищает от манипуляций с макетом, делая алгоритм более устойчивым.

Практика

Best practices (это мы делаем)

Размещение ключевого контента в основном блоке: Проектируйте макеты так, чтобы основной контент (текст статьи, описание товара) находился в визуально центральной и главной колонке страницы. Это гарантирует, что он будет идентифицирован как Column of Interest и получит максимальный вес.
Обеспечение чистого рендеринга (WRS): Критически важно, чтобы Googlebot мог корректно отрендерить страницу. Проверяйте отображение страниц в инструментах Google (например, URL Inspection в GSC) и не блокируйте доступ к CSS и JS, необходимым для построения макета.
Логичная структура DOM и визуальный поток: Структура DOM должна по возможности соответствовать визуальному потоку. Алгоритм обходит элементы и ищет геометрические сдвиги (Jump-back). Стандартная и чистая верстка облегчает системе корректную сегментацию.
Визуальное отделение основного контента: Используйте дизайн, который четко отделяет основной контент от второстепенных элементов (рекламы, сайдбаров), чтобы алгоритму было проще определить границы Column of Interest.

Worst practices (это делать не надо)

Размещение важного контента в боковых панелях или футере: Контент, размещенный в областях, которые алгоритм идентифицирует как второстепенные колонки (вне COI), получит пониженный вес.
Использование нестандартных или запутанных макетов: Макеты без четкой центральной колонки или макеты, где основной контент визуально смешан с рекламой, могут затруднить идентификацию Column of Interest.
Блокировка ресурсов для рендеринга: Если CSS-файлы, определяющие макет, заблокированы, система не сможет определить геометрию элементов и может неверно оценить важность контента.
Манипуляции с макетом с помощью скрытых элементов: Использование невидимых элементов (Outliers) для размещения ключевых слов или попытки искусственно изменить геометрию страницы неэффективны, так как система обнаруживает и исключает выбросы.

Стратегическое значение

Этот патент подтверждает стратегический курс Google на анализ визуального представления страницы (Page Experience и Page Understanding), а не только ее кода. Сегментация страницы является ключевым элементом индексирования. Для SEO это означает, что UX, дизайн и техническая реализация верстки напрямую влияют на то, как поисковая система интерпретирует важность контента. Рендеринг (WRS) является не просто техническим требованием, а основой для понимания контента.

Практические примеры

Сценарий: Сравнение двух страниц с одинаковым текстом, но разным расположением

Ситуация: Пользователь ищет «лучшие рецепты пасты карбонара». Есть две страницы (A и B) с идентичным набором слов.
Страница A: Фраза «лучшие рецепты пасты карбонара» находится в заголовке статьи в центральной колонке.
Страница B: Та же фраза находится только в блоке «Популярные статьи» в правой боковой колонке. Основной контент страницы посвящен пасте болоньезе.
Применение алгоритма:
1. Google рендерит обе страницы и анализирует геометрию.
2. На странице A алгоритм идентифицирует центральную колонку как Column of Interest. Фраза получает высокий вес.
3. На странице B алгоритм определяет, что правая колонка не является Column of Interest. Фраза получает низкий вес.
Результат: Страница A будет ранжироваться значительно выше по запросу «лучшие рецепты пасты карбонара», чем Страница B, благодаря дифференцированному взвешиванию на основе геометрии элементов.

Вопросы и ответы

Как этот патент связан с рендерингом (WRS) и почему это важно для SEO?

Этот патент полностью зависит от способности Google отрендерить страницу. Алгоритм анализирует не исходный HTML, а геометрию (Boundary Information) элементов после применения CSS и выполнения JS. Если страница не рендерится корректно (например, из-за заблокированных ресурсов или ошибок JS), Google не сможет точно определить расположение контента и может ошибочно идентифицировать основной контент, что негативно скажется на ранжировании.

Что такое «Jump-back» и как он помогает Google понять макет страницы?

Jump-back (скачок назад) — это технический метод для определения колонок. Когда Google обходит элементы страницы (обычно сверху вниз), он ожидает, что каждый следующий элемент будет ниже предыдущего. Если следующий элемент оказывается значительно выше (ближе к верху страницы), это сигнализирует о том, что предыдущая колонка закончилась и началась новая колонка. Это позволяет сегментировать страницу на основе визуального потока.

Что такое «Outliers» (выбросы) и почему Google их исключает?

Outliers — это элементы, находящиеся далеко за пределами основного контента или не предназначенные для просмотра пользователем (например, пиксели отслеживания, скрытые элементы). Если их учитывать при расчете центра страницы, они могут сильно исказить результат. Их исключение позволяет Google сосредоточиться на видимом пользователю контенте и более надежно определить Column of Interest.

Что произойдет, если я размещу ключевой контент в футере или боковой панели?

Согласно патенту, контент вне Column of Interest получает значительно меньший вес при ранжировании. Футеры и боковые панели почти всегда определяются как второстепенные области. Размещение там ключевого контента приведет к его деприоритизации поисковой системой, даже если он релевантен запросу пользователя.

Как Google определяет, какая колонка является «Column of Interest»?

Патент указывает, что это часто центральная колонка. Для ее определения система сначала исключает выбросы (Outliers), чтобы определить границы основной области контента. Затем она вычисляет геометрический центр этой области (горизонтальный, вертикальный или диагональный) и выбирает колонку, которая его пересекает или находится ближе всего к нему.

Влияет ли порядок элементов в DOM на работу этого алгоритма?

Да, влияет. Хотя алгоритм использует визуальную геометрию, он обходит элементы в определенном порядке (обычно связанном с DOM). Если порядок в DOM сильно отличается от визуального порядка (например, из-за сложного CSS позиционирования), это может запутать механизм детекции Jump-back и привести к ошибкам в определении колонок.

Как этот алгоритм работает на мобильных устройствах, где часто используется одноколоночный макет?

В одноколоночном макете алгоритм проще идентифицирует единственную колонку как Column of Interest. Однако механизм исключения Outliers и общие принципы сегментации остаются актуальными для отделения основного контента от шапки, футера и навигационных элементов (boilerplate).

Означает ли этот патент, что семантические теги HTML5 (например, <main>, <article>) игнорируются?

Патент описывает метод, основанный исключительно на геометрии рендеринга, и не упоминает использование семантических тегов. Это предполагает, что визуальное расположение является доминирующим фактором в этом механизме. Хотя Google может использовать семантические теги как дополнительные сигналы, для целей этого патента критична именно геометрия.

Как SEO-специалисту проверить, правильно ли Google определяет Column of Interest на моем сайте?

Прямых инструментов для визуализации COI нет. Однако можно косвенно оценить это, используя инструменты проверки рендеринга (GSC URL Inspection). Необходимо убедиться, что на скриншоте, который видит Googlebot, основной контент расположен в визуально центральной и доминирующей колонке, и что макет не «разваливается».

Если я размещу рекламу внутри основного контента (в центральной колонке), получит ли она также повышенный вес?

Да, согласно патенту, любой контент внутри идентифицированной Column of Interest получает повышенный вес. Это может привести к нежелательному эффекту, если реклама или второстепенные блоки внутри COI начнут размывать основную тематику страницы или перетягивать на себя релевантность.