
Google использует систему для идентификации основного контента веб-страницы путем её разделения на логические разделы на основе визуального макета. Система оценивает характеристики каждого раздела (соотношение ссылок к тексту, количество слов, изображения, расположение) относительно характеристик всей страницы, чтобы выделить наиболее значимый контент и отделить его от навигации и шаблонов.
Изначально патент решает проблему неудобного отображения десктопных версий сайтов на мобильных устройствах, стремясь автоматически показать пользователю основной контент, минуя навигацию и баннеры. В более широком контексте поисковых технологий, изобретение решает фундаментальную задачу: алгоритмически отделить основной контент (Main Content или Highest-ranked content) от вспомогательных и шаблонных элементов страницы (boilerplate, навигация, реклама).
Запатентована система анализа веб-документа, которая разбивает его на логические разделы (sections) на основе визуальной структуры и пространственных отношений элементов (spatial relationships). Система вычисляет характеристики этих разделов и сравнивает их с общими характеристиками страницы (Overall Page Characteristics), чтобы присвоить оценку значимости (score) каждому разделу. Раздел с наивысшей оценкой признается основным контентом.
Система анализирует графическое представление (graphical representation) документа после рендеринга. Разделы определяются по визуальным признакам: пространственным связям, вертикальным сдвигам или смене ориентации макета (например, с горизонтального меню на вертикальную колонку). Для каждого раздела вычисляются метрики (количество слов, ссылок, изображений). Затем эти метрики оцениваются в контексте всей страницы. Например, низкое соотношение ссылок к тексту (Link/Text Ratio) является сильным индикатором основного контента.
Высокая. Понимание структуры страницы (Page Understanding) и выделение основного контента критически важно для современных поисковых систем. Это необходимо для эффективного индексирования и ранжирования, позволяя алгоритмам (например, системам оценки Helpful Content) фокусироваться на релевантном контенте и игнорировать шаблонный "шум".
Патент имеет высокое значение (8/10) для технического и контентного SEO. Он описывает конкретные механизмы, которые Google использует для анализа макета и оценки значимости разных частей страницы. Это напрямую влияет на то, как контент интерпретируется, какие сигналы извлекаются из разных разделов и как вес этих сигналов учитывается при ранжировании.
font), расположение раздела на странице.Main Content.spatial relationships).Claim 1 (Независимый пункт): Описывает основной метод идентификации и отображения контента.
sections) и их последовательности на основе graphical representation.scores) для разделов на основе как минимум трех характеристик из списка (включает: количество/типы элементов, расположение заголовка, количество ссылок/слов, шрифт, расположение раздела).Highest-ranked content (Основной контент) на основе этих оценок.Ядро изобретения — это метод визуальной сегментации страницы и последующая оценка значимости сегментов с использованием набора конкретных характеристик, с целью переформатирования страницы для выделения основного контента.
Claim 5 (Зависимый): Детализирует метод идентификации разделов (пункт 2 из Claim 1).
Разделы определяются путем:
spatial relationship) в графическом представлении.vertical shift) ИЛИ сдвига между вертикальной и горизонтальной конфигурацией.Система использует визуальный анализ макета (рендеринг) для определения логических блоков. Изменение паттерна верстки (например, переход от горизонтального меню к вертикальной колонке статьи) служит для системы сигналом границы раздела.
Claim 7 и 8 (Зависимые): Детализируют механизм оценки (Scoring) (пункт 3 из Claim 1).
Оценка (Score) раздела основывается на сравнении характеристик этого раздела с характеристиками совокупности разделов (plurality of sections).
Значимость раздела определяется не абсолютными значениями его метрик, а в контексте всей страницы. Система сравнивает метрики раздела (например, количество слов) со средними или общими метриками страницы. Это позволяет адаптировать оценку к разным типам документов.
Claim 12 (Зависимый): Уточняет метод идентификации основного контента.
Идентификация Main Content может основываться на информации о предыдущих взаимодействиях пользователей (prior user interactions) с документом.
Система может использовать поведенческие данные как механизм обратной связи. Если пользователи часто покидают автоматически выбранный раздел и переходят в другой, система может скорректировать идентификацию основного контента.
Патент описывает применение технологии в контексте Mobile Search Transcoder Server (уровень представления данных). Однако, описанные методы анализа структуры страницы и идентификации основного контента имеют критическое значение для основных этапов работы поисковой системы.
INDEXING – Индексирование и извлечение признаков
Технология применяется на двух ключевых подэтапах:
graphical representation. Это необходимо для анализа визуальной структуры и пространственных отношений (spatial relationships).Section Detection Module и Main Content Processing Module, используются для разделения страницы на логические блоки. Это позволяет системе: Main Content имеют больший вес.Входные данные:
Выходные данные:
Scores) для каждого раздела.Main Content.Процесс состоит из двух основных этапов: Сегментация и Оценка.
Этап 1: Сегментация страницы (Section Detection)
graphical representation и сегментируется на базовые элементы (Ноды/Компоненты).spatial relationship) – например, выравнивание, вложенность, близость.vertical shift) в позициях компонентов.Sections), и определяется их порядок на странице.Этап 2: Оценка и Выбор Основного Контента (Main Content Processing)
Characteristics): количество слов, ссылок, изображений, расположение заголовков, размер шрифта и т.д.Overall Page Characteristics, например, среднее количество слов на раздел, среднее соотношение ссылок к тексту.Score). Оценка базируется на сравнении характеристик раздела с общими характеристиками страницы. Алгоритм оценки адаптивен и может меняться в зависимости от типа страницы. Link/Text Ratio, много слов (относительно среднего), крупные изображения, заголовок в начале раздела, расположение вверху и слева.Main Content (или несколько разделов, если их оценки высоки).spatial relationships); Вертикальные/горизонтальные конфигурации макета; Размер шрифта (text size/font); Расположение раздела на странице (location), включая видимость без прокрутки (above the fold).Система вычисляет следующие ключевые метрики для оценки разделов:
Link/Text Ratio как детектор навигации: Высокое соотношение ссылок к тексту является сильным индикатором того, что раздел является навигационным, а не основным контентом.Overall Page Characteristics). Алгоритм адаптируется к различным типам сайтов и макетов.Main Content: Патент явно указывает позитивные индикаторы основного контента: низкое Link/Text Ratio, большое количество слов (относительно среднего по странице), наличие и расположение заголовков в начале раздела, а также крупные изображения.Main Content, навигацией, боковыми панелями и футером. Переход от навигационных блоков к контенту должен сопровождаться изменением визуальной конфигурации (например, от горизонтального меню к вертикальной колонке), чтобы помочь системе сегментации.Link/Text Ratio в основном контенте: Убедитесь, что основной контент имеет низкое соотношение ссылок к тексту. Основной объем текста не должен состоять из ссылок. Блоки перелинковки следует размещать отдельно.Main Content.Link/Text Ratio и может привести к ошибочной классификации контентного раздела как навигационного.Патент подтверждает стратегию Google по переходу от анализа "плоского" HTML к глубокому анализу визуального представления и структуры страницы (Visual Understanding / Page Layout Analysis). Это подчеркивает тесную связь между UX, дизайном, качеством верстки и SEO. Для эффективного ранжирования критически важно, чтобы поисковая система могла точно идентифицировать Main Content, так как именно из него извлекаются основные сигналы релевантности и качества.
Сценарий: Улучшение идентификации основного контента для страницы статьи
Link/Text Ratio. Или, если блок достаточно крупный, ошибочно принять его за начало Main Content или значимый навигационный элемент.Link/Text Ratio. Раздел статьи получит высокую оценку благодаря H1 в начале и большому объему текста, что обеспечит корректное извлечение сигналов ранжирования.Как система определяет границы разделов (Sections)?
Система анализирует графическое представление (визуальный макет) страницы после рендеринга и ищет изменения в пространственных отношениях элементов. Ключевыми индикаторами границы являются вертикальный сдвиг (vertical shift) между элементами или смена конфигурации макета (например, окончание горизонтального меню и начало вертикальной колонки). Это означает, что визуальный дизайн и верстка напрямую влияют на сегментацию.
Что такое "Общие характеристики страницы" (Overall Page Characteristics) и зачем они нужны?
Это агрегированные метрики всей страницы, такие как среднее количество слов на раздел или среднее соотношение ссылок к тексту. Они используются как контекст для оценки отдельных разделов. Раздел считается значимым не по абсолютным показателям, а если его характеристики выгодно отличаются от средних по странице (например, слов значительно больше среднего). Это делает алгоритм адаптивным.
Какая метрика является самой важной для определения основного контента согласно патенту?
Патент не выделяет одну метрику, а использует их комбинацию (минимум три) для расчета Score. Однако, низкое соотношение ссылок к тексту (Link/Text Ratio) указано как ключевой позитивный фактор для основного контента и помогает отличить его от навигации. Также критично сравнение количества слов в разделе со средним значением по странице.
Влияет ли расположение контента на его идентификацию как основного?
Да, влияет значительно. Патент указывает, что расположение раздела (location) является одной из характеристик для оценки. Разделы, расположенные выше и левее, получают приоритет. Также негативным фактором является расположение раздела "ниже сгиба" (то есть, если он виден только после прокрутки).
Как наличие изображений влияет на определение основного контента?
Наличие большого количества крупных изображений указано как позитивный фактор, способствующий идентификации раздела как Main Content. Это особенно важно для страниц, где визуальный контент доминирует над текстом, так как алгоритм адаптируется к общим характеристикам страницы.
Как этот патент связан с Core Web Vitals и рендерингом?
Патент напрямую зависит от способности системы рендерить страницу для анализа её графического представления. Технологии, описанные здесь, лежат в основе понимания макета страницы (Page Layout Analysis). Хотя патент фокусируется на идентификации контента, он подтверждает, что Google анализирует визуальную структуру, что также используется для оценки метрик производительности и UX.
Может ли перелинковка в статье помешать Google определить ее как основной контент?
Да, если плотность ссылок слишком высока. Высокий Link/Text Ratio является признаком навигационной секции. Если статья перенасыщена ссылками, система может решить, что эта секция предназначена для навигации, а не является основным содержанием страницы, что негативно скажется на оценке контента.
Что делать, если на странице несколько равнозначных блоков контента (например, на главной странице новостного сайта)?
Патент предусматривает возможность идентификации нескольких разделов как Main Content, если их оценки (Scores) близки или превышают определенный порог. В контексте индексирования все эти блоки, вероятно, будут считаться важными и анализироваться соответствующим образом.
Учитывает ли система семантические HTML5 теги (например, <main>, <article>, <nav>)?
Патент не упоминает конкретные HTML-теги. Описанный метод полагается в первую очередь на анализ визуальной структуры, пространственных отношений и характеристик контента (количество ссылок, слов). Хотя семантические теги полезны и рекомендуются, система, описанная в патенте, способна определять структуру независимо от них, основываясь на рендеринге.
Какое значение имеет этот патент, если Google уже давно использует более продвинутые ML модели?
Этот патент описывает фундаментальный этап предобработки – сегментацию страницы и идентификацию основного контента. Более продвинутые ML и NLP модели применяются уже к извлеченному контенту. Чтобы эти модели работали эффективно и оценивали именно то, что нужно, система должна сначала точно определить, где находится основной контент, и отфильтровать шум. Этот патент описывает, как это достигается.

Индексация
Техническое SEO
Структура сайта

Семантика и интент

Семантика и интент
Структура сайта
Техническое SEO

Семантика и интент
Индексация
Структура сайта

Индексация
Техническое SEO
Структура сайта

SERP
EEAT и качество
Поведенческие сигналы

Персонализация
Поведенческие сигналы
Антиспам

Свежесть контента
Антиспам
Ссылки

Ссылки
Краулинг
Техническое SEO

Local SEO
SERP
Ссылки

Ссылки
Индексация
Краулинг

Ссылки
Антиспам
SERP

Структура сайта
SERP
Ссылки

Поведенческие сигналы

Поведенческие сигналы
Ссылки
SERP
