
Google использует гибридную систему для извлечения структурированных данных (например, списков эпизодов, треков альбома) с сайтов, даже если они не используют микроразметку. Система сначала применяет эвристики для поиска данных, проверяет их точность путем сравнения с другими источниками, а затем анализирует DOM-дерево сайта, чтобы запомнить шаблон расположения этих данных. Это позволяет Google эффективно извлекать информацию, понимая структуру HTML-шаблонов сайта.
Патент решает проблему масштабного извлечения структурированных данных с множества различных веб-сайтов, которые используют разные форматы и шаблоны для представления одной и той же информации (например, списки эпизодов телешоу, трек-листы музыкальных альбомов). Изобретение направлено на автоматизацию процесса, который ранее часто требовал ручного труда или создания уникальных парсеров (wrappers) для каждого отдельного сайта.
Запатентована система для автоматического извлечения структурированных метаданных, использующая гибридный подход, сочетающий эвристические правила и обучение на основе шаблонов. Система сначала использует эвристики для извлечения списка элементов (Element List), проверяет его достоверность путем кросс-валидации с другими источниками (Hosts), и, в случае успеха, генерирует шаблон (Element List Pattern), основанный на структуре DOM-дерева (DOM tree path) исходного сайта. Этот шаблон затем используется для более эффективного извлечения данных с этого сайта в будущем.
Система работает по принципу итеративного обучения (bootstrapping):
URL pattern), рендерятся и кластеризуются по Хостам и Сущностям (Entity), часто используя анализ тегов <title>.Element List, используя общие эвристические правила (например, поиск списков, анализ размеров шрифта).DOM tree path (путь от корневого узла до узла элемента) и создает специфичный для сайта Element List Pattern.Высокая. Извлечение структурированных данных для наполнения Графа Знаний (Knowledge Graph) и формирования расширенных сниппетов является критически важной задачей для Google. Способность понимать структуру сайта через анализ DOM и автоматически генерировать парсеры остается актуальной, дополняя данные, полученные через Schema.org.
Патент имеет высокое значение для технического и стратегического SEO (85/100). Он показывает, что Google активно пытается понять и запомнить HTML-шаблоны сайта для извлечения данных. Это подчеркивает критическую важность семантически верной, чистой и, главное, последовательной структуры HTML и DOM. Нестабильная структура DOM может препятствовать способности Google эффективно извлекать и верифицировать информацию с сайта.
<html>) до узла, содержащего интересующий элемент (например, <html><body><li><ul><div>). Это основа для генерации шаблонов извлечения.DOM tree path), который система генерирует после успешного извлечения и валидации данных. Используется для будущего извлечения.<title>. Пример: PREFIX(.*)SUFFIX.Element List путем сравнения его со списками для той же сущности, полученными с других хостов. Элементы, присутствующие в нескольких списках, считаются валидными.Claim 1 (Независимый пункт): Описывает основной метод извлечения структурированных метаданных, включающий итеративный процесс обучения шаблонам.
Entity Name Pattern.Element List для сущности с использованием Heuristic Rules.Element List Pattern на основе первого списка и структурированных метаданных первого хоста. Ключевой момент: генерация шаблона включает определение Element Node Pattern, основанного на DOM tree path (путь от корня до элемента).Element List с использованием сгенерированного Element List Pattern.Ядро изобретения заключается в способности системы автоматически обучаться структуре (DOM path) конкретного сайта после того, как данные были успешно извлечены эвристически и подтверждены внешними источниками.
Claim 6 (Зависимый от 1): Уточняет, что извлечение имен сущностей может включать поиск тега <title> в документах.
Claim 9 (Независимый пункт): Описывает систему (аппаратную реализацию), сконфигурированную для выполнения тех же шагов, что и в Claim 1. Это подтверждает описанный выше итеративный процесс обучения на основе DOM.
Изобретение применяется на этапе индексирования для глубокого анализа контента и извлечения фактов.
CRAWLING – Сканирование и Сбор данных
На этом этапе система использует URL Patterns для идентификации и загрузки потенциально релевантных документов с различных хостов.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Процесс включает несколько подэтапов:
Entity Name Patterns (например, анализируя <title>) для идентификации сущностей на страницах.Element Lists.Element List Patterns, специфичные для каждого хоста, для использования при последующем индексировании.Входные данные:
URL Patterns (для поиска страниц).Heuristic Rules.Entity Name Patterns.Выходные данные:
Element Lists (структурированные данные).Element List Patterns (специфичные для хоста шаблоны DOM).<ul>, <ol>, <table>, <div>), даже без микроразметки.URL Pattern или наличия списков).Процесс извлечения структурированных метаданных:
Entity Name Pattern (например, анализируя теги <title>). Документы дополнительно кластеризуются по сущностям.Element List, используя общие эвристические правила.DOM tree path к валидированным элементам и генерирует Element List Pattern, специфичный для данного хоста.Element List, используя ранее сгенерированный Element List Pattern (конкретный путь DOM).Патент фокусируется на структурных и контентных факторах, необходимых для извлечения и кластеризации.
URL Pattern) и для кластеризации документов по хостам.DOM tree path) для генерации шаблонов извлечения.<li>, <div>, <ul>, <ol>) используются как в эвристиках, так и в шаблонах.Entity Name Pattern).Патент не описывает сложных метрик или формул, но опирается на следующие механизмы:
URL Patterns, Entity Name Patterns и Element List Patterns (DOM paths). Это бинарная проверка соответствия структуры или текста шаблону.DOM tree path), чтобы автоматически извлекать структурированные данные.Element List Pattern на основе анализа DOM, любая нестабильность в структуре HTML (например, частые редизайны, динамически изменяющиеся классы или структура верстки) может сломать эти шаблоны и затруднить извлечение данных.<title> явно указан как основной источник для применения Entity Name Pattern и начальной кластеризации контента по сущностям.Element List Pattern.<ul>, <ol>, <table>) для представления списков и таблиц. Это помогает как эвристическим методам, так и анализу DOM-структуры.<title> четко и последовательно идентифицируют основную сущность на странице. Если у вас много страниц о разных сущностях, используйте стабильный формат (например, "Название Сущности – Категория | Бренд"), чтобы облегчить работу Entity Name Pattern.DOM tree path.<div> вместо семантических тегов <li> или <table>.<title> для однотипных страниц затрудняет кластеризацию контента по сущностям.Этот патент подтверждает стратегию Google по извлечению знаний из веба любой ценой, не дожидаясь, пока вебмастера внедрят идеальную микроразметку. Для SEO это означает, что техническое совершенство и последовательность верстки являются не просто рекомендацией, а необходимым условием для эффективного взаимодействия с системами извлечения данных Google. Построение сайта с чистой, логичной и стабильной архитектурой DOM напрямую влияет на то, насколько полно Google сможет понять и использовать контент сайта в Графе Знаний и расширенных результатах поиска.
Сценарий: Оптимизация сайта с обзорами фильмов для извлечения списка актеров.
<div>, а на других через <span> с разной вложенностью.Element List Pattern.<ul class="cast-list">. Тег <title> стандартизирован: "Название фильма (Год) – Актеры и съемочная группа".<title>. (2) Использует эвристику (поиск <ul>) для извлечения списка актеров. (3) Проверяет список через кросс-валидацию с другими сайтами. (4) Генерирует DOM tree path к <ul class="cast-list">. (5) В дальнейшем эффективно извлекает данные об актерах с этого сайта, используя запомненный шаблон.Означает ли этот патент, что можно не использовать микроразметку Schema.org?
Нет, это не означает, что от Schema.org следует отказываться. Микроразметка остается самым прямым и недвусмысленным способом сообщить поисковым системам о ваших структурированных данных. Описанная в патенте система служит дополнением и страховкой, позволяя Google извлекать данные с сайтов, где разметка отсутствует или реализована некорректно. Лучшая стратегия — использовать Schema.org и поддерживать чистую структуру DOM.
Как система определяет, что такое "Сущность" (Entity) на странице?
Патент явно указывает на использование Entity Name Pattern для извлечения имени сущности, часто из тега <title> документа. Система ищет повторяющиеся паттерны в заголовках страниц на одном хосте (например, "Watch [Имя Шоу] Online"), чтобы определить, что является именем сущности, а что — частью шаблона заголовка. Это позволяет кластеризировать контент по сущностям.
Что такое "Эвристические правила" (Heuristic Rules) в контексте этого патента?
Эвристические правила — это набор общих предположений о том, как могут быть представлены данные на веб-странице. Патент упоминает такие примеры, как поиск в объекте типа "list" (<ul>, <ol>), поиск текста с большим размером шрифта вверху страницы или использование предопределенных пользователем (инженером Google) ожидаемых путей DOM. Они используются для первоначального извлечения данных до того, как будет создан точный шаблон.
Как работает генерация шаблона (Element List Pattern)?
После того как система успешно извлекла данные эвристически и подтвердила их точность через кросс-валидацию, она анализирует, где именно эти данные были расположены в документе. Она определяет точный DOM tree path — последовательность HTML-тегов от корневого узла (<html>) до узла, содержащего элемент. Этот путь и становится шаблоном для будущего извлечения данных с этого конкретного хоста.
Как частые редизайны или изменения верстки влияют на эту систему?
Они влияют негативно. Если структура DOM меняется, сгенерированный ранее Element List Pattern становится недействительным. Системе придется вернуться к более медленному и менее точному эвристическому методу извлечения, заново валидировать данные и генерировать новый шаблон. Поддержание стабильной структуры DOM критически важно.
Что происходит, если мои данные уникальны и их нельзя проверить на других сайтах?
Патент основан на кросс-валидации для подтверждения точности данных и генерации шаблонов. Если данные уникальны и не могут быть верифицированы с помощью других источников (Hosts), система может не смочь подтвердить точность эвристического извлечения. В этом случае, согласно патенту, генерация надежного Element List Pattern может не произойти.
Влияет ли использование JavaScript фреймворков (например, React, Vue) на этот механизм?
Да, влияет. Система работает с отрендеренным DOM. Если фреймворк генерирует чистый, семантический и стабильный DOM после рендеринга, система сможет работать эффективно. Однако, если фреймворк создает излишне сложную структуру, использует динамические имена классов или нестабильную вложенность элементов, это затруднит генерацию надежных шаблонов DOM.
Как я могу проверить, понимает ли Google структуру моего DOM?
Хотя мы не можем напрямую увидеть сгенерированные Google шаблоны, можно использовать косвенные признаки. Проверьте, корректно ли Google извлекает информацию для Графа Знаний или расширенных сниппетов с вашего сайта. Также используйте инструменты валидации HTML и анализ структуры DOM в инструментах разработчика, чтобы убедиться в его чистоте, семантичности и отсутствии избыточной сложности.
Какова роль URL Pattern в этом процессе?
URL Pattern используется на начальном этапе для идентификации страниц, которые потенциально содержат искомые структурированные данные. Например, система может использовать паттерн вида http://www.site.com/movies/*/cast, чтобы найти страницы со списком актеров. Это помогает сузить область поиска и повысить эффективность сканирования и индексирования.
Как система обрабатывает сайты на разных языках?
Патент упоминает, что система может хранить несколько веб-страниц на одном или нескольких языках для кросс-валидации. Также указывается, что может использоваться более одного URL pattern, каждый из которых соответствует определенному языку (например, английскому, испанскому). Это предполагает, что система может извлекать и валидировать данные в мультиязычном контексте.

Структура сайта
Краулинг

Структура сайта

Knowledge Graph
Семантика и интент
Структура сайта

Краулинг
Структура сайта

Семантика и интент

Поведенческие сигналы
SERP

Ссылки
Антиспам
Краулинг

Антиспам
SERP
Ссылки

Knowledge Graph
Семантика и интент
EEAT и качество

Структура сайта
Техническое SEO
Ссылки

Персонализация
Поведенческие сигналы
Local SEO

EEAT и качество
Индексация
Семантика и интент

Ссылки
SERP
Свежесть контента

Мультиязычность
Ссылки
SERP

Local SEO
Поведенческие сигналы
