
Google использует технологию анализа структуры документа (DOM-дерева) для отделения основного содержания страницы от шаблонных элементов (boilerplate) — таких как навигационные меню, футеры, списки ссылок и рекламные блоки. Система анализирует геометрические, структурные и иерархические признаки элементов (например, размер, форму, количество дочерних ссылок, расположение), чтобы классифицировать контент как шаблонный и исключить его при анализе тематики страницы.
Патент решает проблему снижения качества рекомендаций запросов (Query Recommendations), когда система генерации рекомендаций ошибочно анализирует шаблонный контент (boilerplate content) вместо основного содержания страницы. Шаблонный контент (навигация, футеры, реклама, дисклеймеры) не отражает основную тему ресурса, и рекомендации, основанные на нем, бесполезны для пользователя. Цель изобретения — точно идентифицировать и отфильтровать boilerplate content перед применением техник генерации рекомендаций.
Запатентована система и метод обнаружения boilerplate content на стороне клиента (client device), анализируя объектную модель документа (DOM tree) отдельного ресурса. Вместо сравнения множества страниц сайта (серверный подход), система оценивает узлы DOM-дерева на основе предопределенных признаков (predefined traits), характерных для разных типов шаблонов (Anchor Blocks, Anchor Lists, Footers, Ads). Узлам присваивается оценка вероятности (likelihood score), указывающая, насколько они похожи на шаблонный контент.
Система работает на клиентском устройстве (например, через тулбар, плагин или браузер):
DOM tree загруженной веб-страницы.predefined traits, характерным для boilerplate content. Признаки включают размер, форму (соотношение сторон), иерархию (количество и тип дочерних элементов), расположение на странице и характеристики ссылок (например, процент текста, являющегося ссылкой).likelihood score, отражающий вероятность того, что контент является шаблонным.Query Recommendation Engine). Эта система использует оценки для исключения или понижения веса шаблонного контента при определении тематики страницы.Высокая. Понимание структуры страницы и отделение основного контента от boilerplate является фундаментальной задачей для поисковых систем. Хотя патент описывает применение этой технологии конкретно для Query Recommendations на стороне клиента, базовые принципы анализа DOM и идентификации шаблонов по структурным признакам критически важны для индексирования, ранжирования и оценки качества контента в современном поиске.
Патент имеет высокое значение для SEO. Он детально описывает, как Google может идентифицировать структурные элементы страницы (навигацию, футеры, рекламу) без анализа самого текста или сравнения с другими страницами. Это подчеркивает важность чистой семантической верстки и правильного структурирования контента. Понимание этих механизмов позволяет оптимизаторам гарантировать, что поисковая система корректно идентифицирует основное содержание (Main Content) и не придает излишнего веса шаблонным элементам или ссылкам в них.
boilerplate content. Прямоугольная область страницы, включающая множество ссылок, например, навигационные панели, рекламные блоки или блоки связанных статей.boilerplate content. Серия последовательных ссылок, которые появляются внутри другого элемента, например, внутри основного контента.boilerplate content. Одна или несколько строк текста внизу страницы, часто содержащие копирайт или дисклеймер.DOM tree и рассчитывает визуальное представление страницы (например, Trident/MSHTML).boilerplate content. Рассчитывается на основе Predefined Traits.boilerplate content.DOM tree в основном потоке пользовательского интерфейса порциями за определенные промежутки времени, чтобы избежать зависания интерфейса.Claim 1 (Независимый пункт): Описывает основной метод, выполняемый на клиентском устройстве.
DOM tree этого ресурса.predefined traits, характерных для boilerplate content (контента, повторяющегося на нескольких ресурсах сайта).boilerplate content score), связанная с выбранными узлами, корректируется в ответ на обнаружение этих признаков.Query Recommendation Engine. Эта информация включает текстовый контент узлов и идентифицирует скорректированную оценку (adjusted boilerplate content score).Claim 3 (Зависимый от 1): Уточняет механизм корректировки оценки.
Корректировка boilerplate content score включает увеличение или уменьшение оценки на основании определения того, что узлы демонстрируют predefined traits.
Claim 4 (Зависимый от 1): Описывает использование порогового значения.
boilerplate content score предопределенному порогу.Query Recommendation Engine, идентифицируя текстовый контент как boilerplate content.Claims 5-10 (Зависимые): Детализируют признаки для идентификации Anchor Block.
Признаки включают: связь с блочным элементом (division-type, table-type, list-type) (Claim 6); размер области меньше предопределенного количества пикселей (Claim 7); соотношение высоты к ширине (или наоборот) больше предопределенного значения (Claim 8); наличие как минимум предопределенного количества дочерних элементов (Claim 9); процент текста, находящегося внутри элементов ссылок, превышает предопределенный порог (Claim 10).
Claims 11-13 (Зависимые): Детализируют признаки для идентификации Anchor List.
Признаки включают: наличие как минимум предопределенного количества дочерних объектов-ссылок (Claim 12); два или более объекта-ссылки выровнены по левому краю друг относительно друга (Claim 13).
Claims 14-16 (Зависимые): Детализируют признаки для идентификации Footer.
Признаки включают: область расположена в месте, обычно соответствующем низу веб-страницы (Claim 15); родительским узлом является элемент BODY (Claim 16).
Claim 17 (Зависимый от 1): Описывает техническую реализацию для повышения производительности.
Система копирует различные части DOM tree в течение двух или более временных интервалов (time slices), пока не будет получена полная копия. Выбор узлов для анализа происходит из этой копии с использованием фонового потока (background thread).
Изобретение применяется на этапе обработки контента после его загрузки, но до момента использования этого контента для генерации рекомендаций. В контексте стандартной архитектуры поиска, это относится к этапу анализа и извлечения признаков.
INDEXING – Индексирование и извлечение признаков (Indexing & Feature Extraction)
Хотя патент описывает реализацию на стороне клиента (Client-side implementation) для целей Query Recommendations, описанная технология обнаружения boilerplate content по структурным признакам является ключевой частью этапа индексирования в поисковой системе.
DOM tree.DOM tree для классификации различных частей контента. Система идентифицирует boilerplate content (навигацию, футеры, рекламу) и отделяет его от основного содержания (Main Content).Специфика патента (Client-Side):
Патент описывает выполнение этого процесса на Client Device (например, в браузере пользователя с установленным тулбаром или плагином). Это позволяет генерировать релевантные рекомендации на лету, не полагаясь на серверный анализ.
Входные данные:
DOM tree, построенное движком рендеринга (Layout Engine).Predefined Traits для разных типов boilerplate.Выходные данные:
Adjusted boilerplate content score / Likelihood Score) для этих узлов.boilerplate, если оценка превысила порог.Anchor Blocks), списках ссылок (Anchor Lists), футерах (Footers) и рекламных блоках (Ads).Query Recommendation для текущей просматриваемой страницы.DOM tree страницы.Алгоритм состоит из двух основных фаз: подготовка данных (копирование DOM) и анализ данных (обнаружение boilerplate).
Фаза 1: Подготовка данных (DOM Tree Analysis/Copying) (Выполняется в основном потоке UI с квантованием времени)
DOM tree, созданного Layout Engine.DOM tree.Фаза 2: Анализ данных (Boilerplate Detection) (Выполняется в фоновом потоке)
DOM tree (например, в глубину или в ширину).boilerplate (Anchor Block, Anchor List, Footer, Ad). Каждый тест проверяет наличие специфических Predefined Traits.boilerplate рассчитывается Likelihood Score. Оценка увеличивается в зависимости от степени соответствия признакам.Likelihood Score превышает порог (например, 80), контент классифицируется как boilerplate. Может быть выбран тип с наивысшей оценкой.Query Recommendation Engine.Система анализирует исключительно структурные, иерархические и визуальные (геометрические) данные, доступные через DOM. Она не анализирует семантику текста.
Predefined Traits.Likelihood Score превышает порог, контент считается шаблонным.DOM tree для сегментации страницы. Система способна идентифицировать назначение блоков (навигация, футер, реклама, основной контент) на основе их структуры, иерархии и визуальных характеристик, а не только содержания.Predefined Traits), таких как форма блока, плотность ссылок в нем, его расположение. Это отличается от методов, требующих сравнения множества страниц сайта.boilerplate, она классифицирует его по типам: Anchor Blocks (навигация), Anchor Lists (списки ссылок), Footers, Ads. Каждый тип имеет свой набор диагностических признаков.boilerplate content для генерации Query Recommendations. Это подразумевает, что контент, классифицированный как boilerplate, значительно понижается в весе или полностью игнорируется при определении основной тематики страницы.Time Slicing и фоновой обработки для анализа DOM без блокировки интерфейса. Это подчеркивает важность скорости и отзывчивости интерфейса.<nav>, <header>, <main>, <article>, <footer>, <aside>). Хотя система использует эвристики (Predefined Traits), семантическая верстка помогает четко разграничить блоки, уменьшая вероятность ошибки классификации основного контента как boilerplate.Anchor Blocks и не учитывать их текст как основной контент страницы.Anchor Block или Anchor List.Time Slicing для анализа DOM, важность быстрой загрузки и рендеринга страницы остается высокой. Сложный и медленный DOM может затруднить анализ структуры.boilerplate.Anchor Lists и проигнорированы.Этот патент имеет важное стратегическое значение, подтверждая переход от анализа "плоского текста" к анализу структуры документа (DOM). Понимание контента Google напрямую зависит от качества верстки и архитектуры сайта. Стратегия SEO должна включать тесное взаимодействие с фронтенд-разработчиками для обеспечения семантической чистоты и структурной логичности шаблонов. Это гарантирует, что поисковая система фокусируется на основном контенте при оценке релевантности и качества страницы, и корректно интерпретирует служебные блоки (навигация, реклама).
Сценарий: Оптимизация шаблона новостной статьи для корректного определения Main Content
Anchor List (более 3 ссылок, выравнивание по левому краю). Есть риск, что система классифицирует его как boilerplate и проигнорирует эти ссылки или понизит их вес.<aside> или четко отделить его от <article>.boilerplate.Означает ли этот патент, что Google игнорирует текст в навигации и футере при ранжировании?
Да, это весьма вероятно. Цель обнаружения boilerplate content — отфильтровать шум и сфокусироваться на основном содержании страницы. Если система классифицирует блок как навигацию (Anchor Block) или Footer, его содержимое (включая текст ссылок) будет значительно понижено в весе или полностью проигнорировано при определении тематической релевантности страницы.
Как система определяет, является ли блок шаблонным (boilerplate)?
Патент описывает метод, основанный на анализе предопределенных признаков (Predefined Traits) узла в DOM tree. Анализируются размер блока, его форма (соотношение сторон), расположение на странице, количество дочерних элементов (особенно ссылок) и процент текста, который является ссылкой. Система не сравнивает страницу с другими страницами сайта; анализ происходит изолированно.
Какие признаки указывают на навигационный блок (Anchor Block)?
Ключевые признаки: это блочный элемент (DIV, TABLE, LIST); он часто длинный и узкий (например, соотношение сторон > 3:1); содержит мало текста, кроме текста самих ссылок (например, >80% текста внутри ссылок); содержит несколько дочерних элементов. Сочетание этих факторов дает высокую оценку вероятности (Likelihood Score).
Может ли основной контент быть ошибочно принят за boilerplate?
Да, если он обладает признаками boilerplate. Например, если статья состоит в основном из списка ссылок, выровненных по левому краю (признаки Anchor List), или если основной контент размещен в блоке, который структурно и визуально похож на футер. Важно использовать чистую верстку и следить за тем, чтобы основной контент имел достаточно уникального текста.
Влияет ли этот патент на передачу ссылочного веса через меню и футер?
Хотя патент фокусируется на генерации Query Recommendations, технология идентификации boilerplate напрямую влияет на SEO. Ссылки, расположенные в блоках, идентифицированных как boilerplate (особенно футеры и обширные навигационные меню), с высокой вероятностью передают значительно меньше веса (или не передают его вовсе) по сравнению со ссылками в основном контенте.
Патент описывает работу на стороне клиента (Client-side). Применяет ли Google это в своем основном поиске?
Патент действительно описывает реализацию на клиенте (например, для тулбаров). Однако технология идентификации boilerplate по структурным признакам является фундаментальной. Логично предположить, что аналогичные или более продвинутые механизмы используются Googlebot во время рендеринга и индексирования (Server-side) для анализа структуры страниц в основном индексе.
Как использование семантических тегов HTML5 (<nav>, <footer>) влияет на этот алгоритм?
Патент не упоминает конкретные HTML5 теги, полагаясь на эвристические признаки (размер, форма, структура). Однако использование семантических тегов является лучшей практикой, так как это предоставляет явные сигналы о назначении блока, что упрощает работу алгоритмов сегментации и снижает вероятность ошибок при отделении основного контента от boilerplate.
Как система обнаруживает рекламу (Ads)?
Для рекламы используются специфические признаки: ссылки ведут на внешние домены; URL ссылок содержат встроенные URL (embedded URL); URL соответствуют паттернам известных рекламных сетей (например, AdSense); несколько рекламных блоков имеют одинаковый целевой хост. Это позволяет идентифицировать рекламу и исключить её из анализа основного контента.
Что такое "Time Slicing" и зачем это нужно?
Time Slicing (Квантование времени) — это техника, используемая для анализа DOM tree без зависания интерфейса браузера. Поскольку анализ большого DOM может быть ресурсоемким, система копирует DOM по частям в небольшие промежутки времени, позволяя браузеру оставаться отзывчивым. Это подчеркивает важность производительности фронтенда.
Влияет ли язык контента на обнаружение boilerplate?
Нет. Согласно патенту, процесс обнаружения boilerplate основан на структурных, иерархических и геометрических признаках DOM tree, а не на анализе самого текста. Система может одинаково эффективно идентифицировать шаблоны на страницах на английском, китайском или русском языках.

Индексация
Техническое SEO
Структура сайта

Индексация
Техническое SEO
Структура сайта

Семантика и интент
Структура сайта
Техническое SEO

Структура сайта
SERP
Ссылки

Семантика и интент
Индексация
Структура сайта

Персонализация
SERP
Семантика и интент

Поведенческие сигналы
Семантика и интент
SERP

EEAT и качество
Индексация
Семантика и интент

Семантика и интент
Поведенческие сигналы
SERP

Мультиязычность
Поведенческие сигналы

Knowledge Graph
SERP
Семантика и интент

Семантика и интент
Поведенческие сигналы
Knowledge Graph

Поведенческие сигналы
SERP
EEAT и качество

Поведенческие сигналы
Персонализация
Семантика и интент

Knowledge Graph
Семантика и интент
Ссылки
