
Патент описывает, как Google автоматически расширяет наборы данных (например, таблицы или списки). Система анализирует существующие сущности и ищет новые похожие элементы в интернете. Для этого используются два ключевых метода: анализ повторяющихся шаблонов веб-страниц (Template Analysis) и извлечение данных из структурированных компонентов (HTML-таблиц и списков) на сайтах.
Патент решает задачу автоматического расширения неполных наборов структурированных данных. Он описывает механизмы, позволяющие системе, имеющей частичный список сущностей (Instances), находить другие релевантные сущности из огромного неструктурированного источника (Unstructured Electronic Document Collection), такого как Интернет. Это реализует задачу, известную в Information Retrieval как Entity Set Expansion, улучшая полноту данных, используемых поисковой системой.
Запатентована система для автоматического расширения существующего структурированного представления данных (Structured Presentation), например, таблицы. Система анализирует характеристики существующих данных (сущности, атрибуты) и ищет в неструктурированном интернете новые релевантные экземпляры. Ключевыми запатентованными методами являются анализ шаблонов документов (Document Templates) и извлечение данных из структурированных компонентов (Structured Components), таких как списки и таблицы на веб-страницах.
Система работает путем анализа исходного набора сущностей (seed set) для понимания контекста и последующего поиска новых сущностей в вебе:
Instances и их Attributes.Template (структура HTML) страницы с известной сущностью. Затем система ищет другие страницы с таким же шаблоном и извлекает из них новые сущности.Structured Components (списки/таблицы) на страницах, содержащие известные сущности, и извлекаются другие сущности из этих же компонентов.Высокая. Технологии извлечения структурированных данных (Information Extraction) и расширения наборов сущностей являются фундаментальными для работы современных поисковых систем. Эти методы лежат в основе построения Knowledge Graph, генерации Knowledge Panels и сравнительных таблиц в результатах поиска. Способность структурировать неструктурированный веб остается ключевым приоритетом.
Патент имеет высокое значение (8/10) для SEO-стратегии. Он описывает конкретные механизмы, с помощью которых Google идентифицирует и извлекает сущности с веб-сайтов. Это подчеркивает критическую важность поддержания консистентных шаблонов страниц (Templates) и использования семантической HTML-разметки (таблиц, списков как Structured Components) для обеспечения точного извлечения информации поисковой системой.
<table>) или список (<ul>, <ol>) внутри веб-страницы.Claim 1 (Независимый пункт): Описывает основной метод расширения структурированного представления.
Structured Presentation.Unstructured Electronic Document Collection для поиска новых релевантных Instances.Ключевая деталь (обязательная часть Claim 1): Процесс добавления включает формулирование предложений (Instance Suggestions). Это формулирование ОБЯЗАТЕЛЬНО использует анализ шаблонов:
Template.Template, но относится к другой (новой) сущности.(Технически, Claim 1 защищает именно метод расширения через анализ шаблонов документов).
Claim 14 (Независимый пункт): Описывает систему с фокусом на взаимодействии с пользователем, но также ОБЯЗАТЕЛЬНО включает механизм Template, аналогичный Claim 1.
Зависимые пункты (например, Claim 3): Уточняют, что сравнение характеристик может также включать идентификацию документов, содержащих Structured Components (таблицы, списки), связанные с исходными сущностями.
Изобретение затрагивает этапы извлечения и структурирования информации.
CRAWLING – Сканирование и Сбор данных
Краулеры собирают сырые данные из Unstructured Electronic Document Collection.
INDEXING – Индексирование и извлечение признаков
Это ключевой этап для применения патента. На этом этапе система:
Document Templates для извлечения данных в масштабе (Wrapper Induction).Structured Components (таблицы, списки) в документах.Instance/Attribute Collection – базу знаний (Knowledge Graph), связывающую сущности и атрибуты, извлеченные из веба.RANKING / METASEARCH
Механизмы извлечения, описанные в патенте, используются Google для генерации ответов и SERP features на лету:
Входные данные:
Structured Presentation (исходный набор сущностей).Unstructured Electronic Document Collection (Веб-контент).Instance/Attribute Collection (Предварительно обработанная база знаний).Выходные данные:
Instance Suggestions (Список предлагаемых новых сущностей).Expanded Structured Presentation (Дополненный набор данных).<table>), списков (<ul>, <ol>) и страниц, использующих консистентные шаблоны (например, карточки товаров, профили).Алгоритмы извлечения применяются постоянно на этапе индексирования для пополнения базы знаний Google. Также они активируются при генерации поисковой выдачи, когда система идентифицирует интент, требующий списка или сравнения сущностей (Entity Set Expansion).
Процесс расширения структурированного представления новыми сущностями.
Structured Presentation (исходные сущности).Метод 1: Анализ Шаблонов (Template Analysis):
Document Template этого документа (анализ HTML-структуры).Метод 2: Анализ Структурированных Компонентов:
Structured Components (таблицы, списки), в которых упоминаются существующие сущности.Category Filter): Отбор кандидатов из той же семантической категории.Related Attribute Filter): Отбор кандидатов, которые характеризуются схожими атрибутами.Related Value Filter): Отбор кандидатов, чьи значения атрибутов попадают в схожий диапазон (требует нормализации единиц измерения).Instance Suggestions и обновляет представление.Патент фокусируется на извлечении данных и использует следующие факторы:
<div>, <h1>, <title>) используются для определения и сравнения Document Template.<table>, <tr>, <td>, <ul>, <ol>, <li> используются для идентификации Structured Components.Instances, Attributes (заголовков) и Values (содержимого).Instance/Attribute Collection (предварительно собранная база знаний).Патент не приводит конкретных формул ранжирования, но описывает качественные метрики и процессы фильтрации:
Structured Component соответствует контексту. Учитывает совпадение известных Instances и Attributes.Template), чтобы понять организацию данных. Этот шаблон используется для масштабного извлечения информации со всех похожих страниц сайта, даже без микроразметки.Structured Components (HTML-таблицы и списки) для идентификации наборов связанных сущностей. Использование семантической верстки облегчает Google извлечение данных.Instance/Attribute Collection (аналог Knowledge Graph), где хранятся извлеченные связи, что позволяет быстро находить похожие сущности без необходимости анализа веба в реальном времени.Template Analysis и облегчает Google извлечение данных со всех страниц этого типа.<table>, <ul>, <ol>, <dl>. Патент прямо указывает на использование этих Structured Components для извлечения связанных сущностей.Attributes и сравнивать Values.Document Template и мешает масштабному извлечению данных.<div> и CSS вместо нативных тегов <table> или <ul>. Это снижает вероятность того, что система распознает контент как Structured Component.Template Extraction, заставляя систему переучиваться и потенциально приводя к потере извлеченных данных.Этот патент иллюстрирует технические основы того, как Google превращает неструктурированный веб в структурированную базу знаний. Для SEO это означает, что оптимизация под извлечение данных (Extraction Optimization) критически важна. Стратегический приоритет должен отдаваться техническому SEO: семантической верстке, консистентности шаблонов и четкой архитектуре сайта. Это необходимые условия для того, чтобы контент был корректно извлечен и использован в Knowledge Graph и структурированных результатах поиска.
Сценарий 1: Оптимизация E-commerce сайта (Template Analysis)
<h1>, цена в предсказуемом элементе (например, <span class="price">), характеристики всегда в списке определений (<dl>).Template Analysis.Сценарий 2: Создание сравнительной статьи (Structured Components Analysis)
<table>), где строки – это названия CRM (Instances), а колонки – их характеристики (Attributes: Цена, Функции, Интеграции).Structured Component, извлекает все упомянутые CRM как набор связанных сущностей и понимает их атрибуты. Это повышает вероятность показа статьи в виде табличного Featured Snippet.Что в контексте этого патента подразумевается под «Шаблоном» (Template) и почему он важен для SEO?
Template — это повторяющаяся структура HTML или DOM страницы. Патент показывает, что Google использует эти шаблоны для массового извлечения данных (Wrapper Induction): если система понимает структуру одной страницы, она может применить это знание ко всем страницам с таким же шаблоном. Для SEO это означает, что абсолютно последовательная HTML-структура однотипных страниц критически важна для корректного извлечения информации.
Что такое «Структурированный компонент» (Structured Component) и как его использовать на сайте?
Structured Component — это блок внутри веб-страницы с явной структурой, например, HTML-таблица (<table>) или список (<ul>, <ol>). Система ищет эти компоненты, чтобы найти связанные элементы. SEO-специалистам следует использовать эти семантические элементы для представления наборов данных или перечисления связанных объектов, вместо того чтобы перечислять их текстом в абзаце.
Заменяет ли этот механизм необходимость внедрения микроразметки Schema.org?
Нет, не заменяет. Schema.org предоставляет явные данные для поисковых систем. Однако этот патент описывает, как Google извлекает данные автоматически, когда разметка отсутствует, некорректна или недостаточна. Лучшая стратегия — комбинировать качественную микроразметку с чистой, консистентной HTML-структурой.
Как система определяет категорию сущностей (например, что это список фильмов, а не городов)?
Система определяет контекст через анализ атрибутов и значений. Если существующие элементы имеют атрибуты «Режиссер» и «Рейтинг», система ищет новые элементы, которые также обладают этими атрибутами (Related Attribute Filter). Это позволяет системе различать разные типы сущностей, даже если они имеют одинаковые названия (например, «Филадельфия» как город и как фильм).
Что такое «Instance/Attribute Collection» и как это связано с Графом Знаний?
Instance/Attribute Collection — это внутренняя база данных, хранящая извлеченные из интернета сущности и их характеристики. Это, по сути, описание механизма построения и использования внутренней базы знаний, которую мы знаем как Граф Знаний (Knowledge Graph). Патент описывает, как эта коллекция пополняется и используется для поиска связанных сущностей.
Как влияют JavaScript-фреймворки и рендеринг на работу этого механизма?
Механизм зависит от анализа DOM после рендеринга. Если JavaScript значительно изменяет структуру страницы или генерирует неконсистентный HTML-код, это может помешать как идентификации шаблона, так и обнаружению структурированных компонентов. Важно убедиться, что финальный отрендеренный HTML является чистым, семантичным и консистентным на разных страницах одного типа.
Как система обрабатывает разные единицы измерения (например, метры и футы)?
Патент явно упоминает, что при сравнении значений атрибутов (Value Similarity) система может конвертировать значения в общую единицу измерения перед сравнением. Это подчеркивает важность указания единиц измерения рядом с числовыми данными на ваших страницах, чтобы облегчить эту конвертацию и сравнение.
Как система обрабатывает ситуацию, когда найдено слишком много или слишком мало новых экземпляров?
Патент описывает итеративный процесс корректировки (Refinement). Если найдено слишком мало совпадений, система может смягчить критерии фильтрации (например, расширить диапазон допустимых значений). Если найдено слишком много совпадений, система ужесточает критерии (например, требует больше совпадений атрибутов).
Может ли система использовать авторитетные источники для определения важных атрибутов?
Да, патент упоминает механизм, при котором система идентифицирует Authoritative Sources (авторитетные источники) для данной темы и анализирует, какие атрибуты они используют для описания сущностей. Эти атрибуты затем используются для более точного поиска и фильтрации новых экземпляров в общей коллекции данных. Это связано с концепцией E-E-A-T.
Какова основная рекомендация для технических SEO-специалистов на основе этого патента?
Основная рекомендация — поддерживать максимальную семантичность верстки и абсолютную консистентность шаблонов. Используйте единые HTML-шаблоны для однотипных страниц и применяйте соответствующие семантические теги (списки, таблицы) для структурирования информации внутри страниц. Это напрямую помогает алгоритмам извлечения данных Google.

Knowledge Graph
Семантика и интент

Структура сайта

Google Shopping
SERP
Индексация

Структура сайта
Краулинг

Семантика и интент
SERP
Индексация

Ссылки
Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы

Ссылки
EEAT и качество
SERP

Мультиязычность
Поведенческие сигналы
SERP

Поведенческие сигналы
Мультимедиа
Семантика и интент

Персонализация
Поведенческие сигналы
Local SEO

Ссылки
SERP

Структура сайта
SERP
Ссылки

Персонализация
Поведенческие сигналы
SERP

EEAT и качество
Поведенческие сигналы
SERP
