
Google использует систему для автоматического понимания структуры сайтов с пользовательским контентом (UGC), таких как форумы. Система разделяет страницы на статичные элементы («boilerplate») и динамический контент («posts»), определяет различные типы постов (например, посты модераторов и обычных пользователей) и создает шаблоны для точного извлечения и аннотации ключевых данных: автора, даты и основного текста.
Патент решает проблему сложности автоматического извлечения и характеризации (аннотирования) структурированных данных с сайтов, содержащих пользовательский контент (User-Generated Content, UGC), таких как форумы, блоги и разделы комментариев. Из-за большого разнообразия форматов и структур таких сайтов, а также вариативности внутри одного сайта, поисковым системам сложно автоматически идентифицировать основное содержание (посты) и отличать его от навигации или рекламы, а также извлекать метаданные (автор, дата).
Запатентована система автоматической генерации шаблонов (Site Template) для сайтов с UGC. Система анализирует выборку страниц сайта, разделяет их на статические элементы (Boilerplate) и динамические посты (Posts). Она группирует страницы с похожей структурой и идентифицирует различные типы постов (Post-types) внутри этих групп. Затем система создает шаблоны для каждого типа постов и аннотирует ключевые элементы (например, автор, дата, текст), формируя итоговый шаблон сайта для точного извлечения данных.
Система работает путем анализа структуры страниц (например, HTML/DOM), полученных краулером:
Crawler собирает страницы, а Page Splitter разделяет каждую на Boilerplate (статическая часть) и Posts (повторяющиеся структурированные данные).Boilerplate.Post-types), учитывая, что посты могут выглядеть по-разному (например, у модераторов и обычных пользователей).Boilerplate объединяются в Boilerplate Template. Схожие посты объединяются в Post-type Templates.Post Analyzer анализирует шаблоны постов, используя эвристики (Annotation Criteria), чтобы определить, какие элементы соответствуют тексту, дате или автору.Site Template, который применяется для анализа новых страниц этого сайта.Высокая. Понимание и структурирование UGC остается критически важной задачей для поисковых систем. Автоматическое извлечение основного контента (Main Content Extraction) и удаление шаблонных элементов (Boilerplate Removal) являются фундаментальными для масштабируемого веб-краулинга и индексирования. Точное извлечение авторов и дат напрямую влияет на оценку свежести и авторитетности контента.
Патент имеет высокое значение (8/10) для SEO, особенно для сайтов, основанных на UGC (форумы, сообщества, Q&A). Он описывает инфраструктурный механизм, с помощью которого Google определяет, что является основным контентом (постом), а что — шумом (навигация, реклама). Если структура сайта непостоянна или запутана, система может ошибочно классифицировать контент, что приведет к проблемам с индексацией и оценкой релевантности.
Boilerplate Aggregator (группирует страницы по схожести Boilerplate) и Post-type Aggregator (группирует посты по схожести их типа).UGC.Boilerplate, созданное путем слияния схожих статических частей из группы страниц.Boilerplate Merger и Post-type Merger.Boilerplate и Posts.UGC). Это динамическая, структурированная и повторяющаяся часть страницы (например, сообщение на форуме, комментарий).Annotation Criteria.Boilerplate Template и всех связанных с ним Post-type Templates. Используется для извлечения и анализа контента с других страниц этого сайта.Claim 1 (Независимый пункт): Описывает основной метод генерации шаблона сайта.
Page Splitter) разделяет первую страницу сайта на первый Boilerplate и первые посты, и вторую страницу на второй Boilerplate и вторые посты.Aggregator) ассоциирует первую страницу со второй на основе схожести их Boilerplate (т.е. группирует их).Aggregator) ассоциирует посты с первой и второй страниц с первым типом поста (first post-type), и по крайней мере один пост со второй страницы со вторым типом поста (second post-type).Merger) выполняет слияние: Boilerplate сливаются в Boilerplate Template.First Post-type Template.Second Post-type Template.Boilerplate Template, First Post-type Template и Second Post-type Template в Site Template, ассоциированный с сайтом.Ядро изобретения заключается в автоматическом определении структуры сайта путем последовательной агрегации и слияния как статических (Boilerplate), так и динамических (Posts) элементов, с учетом вариативности типов постов.
Claim 2 (Зависимый от 1): Дополняет процесс функцией анализа и аннотирования.
Система включает Post Analyzer, который анализирует объединенные посты (например, первого типа), извлекает из них элементы и аннотирует эти элементы на основе Annotation Criteria для включения в соответствующий Post-type Template.
Claim 3 (Зависимый от 2): Уточняет критерии аннотирования.
Посты включают UGC, а Annotation Criteria включают метки для текста (text label), автора (author label) и даты (date label).
Изобретение является частью инфраструктуры сбора и первичной обработки данных Google. Оно применяется на ранних этапах поискового конвейера для понимания структуры и контента сайтов.
CRAWLING – Сканирование и Сбор данных
Crawler собирает исходные данные (веб-страницы). Система использует эти данные для генерации шаблона. В дальнейшем сгенерированный шаблон может использоваться на этом этапе или сразу после него для эффективного извлечения UGC.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Описанная система (Template Generator) работает в рамках конвейера индексирования для структурирования неструктурированных данных и извлечения признаков (Feature Extraction).
Boilerplate и Posts.Boilerplate позволяет системе индексирования сосредоточиться на основном контенте (Posts), игнорируя навигацию и рекламу.E-E-A-T и определения сущностей) и дата (важно для определения свежести).Входные данные:
Annotation Criteria (предопределенные схемы аннотирования).Выходные данные:
Site Template (состоящий из Boilerplate Template и Post-type Templates).Site Template.UGC: форумы, треды обсуждений, Q&A сайты, разделы комментариев к статьям, списки отзывов о товарах.UGC (технические вопросы, отзывы, мнения).UGC или повторяющиеся структурированные данные.Site Template происходит периодически (офлайн) на основе выборки страниц или запускается при обнаружении значительных изменений в структуре сайта (редизайн).Site Template происходит при каждом сканировании и индексировании страниц этого сайта.Процесс А: Генерация шаблона сайта (Template Generation)
Crawler.Page Splitter разделяет страницу на Boilerplate (общие части) и Posts (повторяющиеся структуры с разным содержанием), анализируя DOM-дерево.Post-type).Boilerplate. Формируются группы страниц (Page Groups).Boilerplate Merger объединяет Boilerplate всех страниц в группе, формируя единый шаблон.Post-type Merger объединяет сгруппированные посты в обобщенную структуру.Post Analyzer анализирует результат, используя Annotation Criteria. Он проверяет согласованность данных (например, форматы дат) во всех примерах постов, чтобы выбрать наилучший паттерн для идентификации автора, даты, текста.Boilerplate Templates и соответствующих им Post-type Templates в финальный Site Template.Процесс Б: Применение шаблона (Template Application)
Crawler загружает новую страницу сайта.Site Template для идентификации и удаления Boilerplate и для извлечения Posts.Post-type Templates.Патент фокусируется на анализе структуры страниц для извлечения контента.
Boilerplate и Posts, а также для агрегации.Post Analyzer) для аннотирования. Система ищет паттерны в контенте, соответствующие Annotation Criteria (например, форматы дат, имена/никнеймы).Патент не приводит конкретных формул для расчета схожести, но описывает используемые метрики и методы:
Boilerplate) и постов (по Post-type). Эти метрики оценивают структурное сходство между DOM-деревьями или их частями. В патенте упоминается возможность использования техник, основанных на "Tree Edit Distance" (расстояние редактирования дерева) для определения схожести.Post Analyzer для идентификации элементов поста. Система анализирует расположение и паттерн (формат) данных на нескольких страницах. Например, для дат система выбирает наиболее правдоподобный паттерн, проверяя валидность данных (например, отличая MM/DD от DD/MM, найдя примеры с числами больше 12 в первом блоке).UGC без ручной настройки под каждый сайт. Это позволяет Google эффективно индексировать форумы и аналогичные ресурсы.Posts) от статического окружения (Boilerplate). Точность этого разделения напрямую влияет на качество индексации и оценку релевантности.Post-type Templates позволяет точно извлекать данные из всех вариантов.Boilerplate и Posts основана в первую очередь на структурной схожести (HTML/DOM), а не на семантике контента.Boilerplate (навигация, сайдбары) на всех страницах одного типа. Это поможет системе точно определить Boilerplate Template и сгруппировать страницы.<article> для каждого поста), чтобы помочь Page Splitter отделить их от Boilerplate.Post-type Templates.<time> с атрибутом datetime). Размещайте автора и дату в одних и тех же местах внутри структуры поста. Это повысит точность работы Post Analyzer.DiscussionForumPosting, Comment, QAPage) предоставляет прямые сигналы и гарантирует правильную интерпретацию данных, дополняя автоматическое извлечение.Boilerplate на однотипных страницах может помешать системе создать стабильный шаблон.UGC таким образом, что они структурно неотличимы от постов. Это может привести к индексации шума как части UGC.Post-type Template.Патент подчеркивает важность технического SEO и качества веб-разработки для успешной индексации. Google не просто читает текст; он активно анализирует структуру сайта, чтобы понять назначение различных блоков. Для владельцев сайтов с UGC стратегически важно обеспечить техническую возможность для Google легко извлекать и структурировать этот контент. Чистая, консистентная и семантически верная структура напрямую влияет на то, насколько полно и точно пользовательский контент будет представлен в индексе Google.
Сценарий: Оптимизация структуры форума для лучшего извлечения данных
Site Template, сгенерированный Google, неточно определяет границы основного текста и неверно аннотирует дату.<div class="post-content">), а служебные кнопки структурно отделены.<time datetime="..."> с указанием времени в формате ISO 8601.Site Template сможет более точно извлечь и аннотировать текст, автора и дату. Это улучшит качество индексации, позволит лучше оценивать свежесть контента и может привести к более информативным сниппетам в выдаче.Что такое «Boilerplate» и почему его отделение так важно для SEO?
Boilerplate — это повторяющиеся на многих страницах элементы: шапка сайта, навигационное меню, сайдбары, футер, рекламные блоки. Отделение Boilerplate критически важно, так как позволяет поисковой системе идентифицировать основной уникальный контент страницы (в данном патенте — Posts). Если система не сможет этого сделать, она может ошибочно придавать вес тексту из навигации или рекламы при определении релевантности страницы, что ухудшает ранжирование.
Как система определяет, что является постом (Post), а что — статическим контентом (Boilerplate)?
Page Splitter анализирует структуру страницы (DOM-дерево) и сравнивает её со структурами других страниц сайта. Boilerplate определяется как части структуры, которые являются общими или очень похожими на всех анализируемых страницах. Posts определяются как повторяющиеся структурные блоки, количество и содержание которых различается на разных страницах.
Что такое «Post-type» и зачем системе их различать?
Post-type (тип поста) — это различие в структуре или формате постов на одном сайте. Например, пост модератора может иметь дополнительный блок, а пост обычного пользователя — нет; или первый пост темы отличается от ответов. Различение типов позволяет системе создать отдельный точный шаблон (Post-type Template) для каждого варианта, что гарантирует точность извлечения данных независимо от типа поста.
Как система определяет автора и дату, если они не размечены?
Этим занимается Post Analyzer. Он анализирует все примеры постов определенного типа и ищет паттерны, соответствующие Annotation Criteria. Он ищет текстовые блоки, похожие на имена, и числовые блоки, похожие на форматы дат. Система проверяет согласованность этих данных на всем наборе постов (например, валидируя формат даты), чтобы выбрать наиболее вероятную интерпретацию.
Влияет ли описанный в патенте механизм на ранжирование?
Напрямую нет. Это патент об извлечении данных (Extraction) и индексировании (Indexing), а не о ранжировании (Ranking). Однако точное извлечение данных является необходимым условием для качественного ранжирования. Если система не может точно определить текст поста, его автора или дату, то системы ранжирования не получат корректных сигналов (например, свежести, релевантности, E-E-A-T), что косвенно ухудшит позиции сайта.
Что произойдет, если я сделаю редизайн своего форума?
При значительном изменении структуры существующий Site Template перестанет работать корректно. Система Google должна будет обнаружить эти изменения и запустить процесс генерации нового Site Template на основе новой структуры. В этот переходный период точность извлечения данных может снизиться, что потенциально повлияет на индексацию нового контента.
Как обеспечить максимальную точность извлечения данных моим сайтом?
Ключ к точности — консистентность и чистота кода. Убедитесь, что все однотипные страницы имеют идентичный Boilerplate (навигацию, структуру), и что все посты имеют чистую, предсказуемую HTML-структуру с четко выделенными элементами для метаданных (автор, дата) и основного текста. Использование семантической верстки также помогает.
Поможет ли использование микроразметки (Schema.org) этой системе?
Патент описывает метод, который работает без микроразметки, полагаясь на структурный анализ. Однако внедрение микроразметки (например, для Comment или DiscussionForumPosting) предоставляет явные сигналы о том, где находится пост, автор и дата. Это значительно повышает надежность извлечения данных и является рекомендуемой практикой, дополняющей автоматический анализ.
Может ли система ошибочно принять рекламу между постами за UGC?
Да, это возможно, если рекламные блоки структурно похожи на посты и появляются в той же области страницы. Чтобы избежать этого, необходимо убедиться, что верстка рекламных блоков существенно отличается от верстки UGC, и что они четко идентифицируются как не основной контент (например, размещением вне основного потока контента).
Применяется ли эта технология только к форумам?
Нет. Хотя форумы являются основным примером, технология применима к любому сайту, где есть повторяющийся структурированный пользовательский контент. Это включает комментарии к статьям в СМИ, блоги, сайты вопросов и ответов (Q&A) и разделы отзывов о товарах.

Структура сайта
Краулинг

Структура сайта
Индексация

Структура сайта
SERP
Ссылки

Структура сайта
Семантика и интент
Техническое SEO

Индексация
Техническое SEO
Структура сайта

Ссылки
Антиспам
SERP

Поведенческие сигналы
Антиспам
SERP

Персонализация
Поведенческие сигналы
SERP

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы

Ссылки
Мультимедиа
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
Персонализация

Поведенческие сигналы
EEAT и качество

Техническое SEO
SERP
Ссылки

Семантика и интент
Поведенческие сигналы
Персонализация
