
Google использует этот механизм для автоматического определения схемы (набора атрибутов) для любой сущности. Анализируя, как различные веб-страницы описывают набор схожих объектов (например, список фильмов), система выявляет новые релевантные характеристики (например, «Режиссер», «Время выполнения»), извлекая их из таблиц, списков или шаблонов страниц в интернете.
Патент решает проблему сложности ручного определения полной и релевантной схемы (набора атрибутов) для разнообразных наборов сущностей, существующих в интернете. Он автоматизирует процесс обнаружения ключевых характеристик (attributes) для заданного набора элементов (instances), используя коллективный интеллект, содержащийся в неструктурированных веб-документах. Это позволяет системе понять, какие характеристики важны для определенной категории сущностей, без предварительного ручного определения схемы.
Запатентована система для автоматического расширения структурированного набора данных (например, таблицы) путем выявления и добавления новых релевантных атрибутов (например, колонок). Система анализирует существующие элементы (instances) в наборе данных и ищет в интернете (unstructured collection of electronic documents), чтобы обнаружить, как эти элементы описываются на других веб-страницах. Найденные новые характеристики предлагаются как attribute suggestions.
Механизм анализирует характеристики существующего структурированного представления (сущности, атрибуты, значения). Затем он ищет в неструктурированной коллекции документов (интернете) документы, релевантные этим характеристикам. Для выявления новых атрибутов используются несколько стратегий:
Instance/Attribute Collection).Найденные атрибуты добавляются в исходное представление.
Высокая. Понимание сущностей, извлечение фактов и автоматическое обнаружение схемы являются фундаментальными задачами современного поиска (например, для построения Knowledge Graph и формирования структурированных сниппетов). Этот патент описывает базовые техники для извлечения структурированных данных из неструктурированного веба, что критически важно для ответа на запросы пользователей.
Патент имеет значительное влияние на SEO (8/10), особенно в области entity-oriented search и структурирования данных. Он напрямую описывает, как поисковые системы учатся понимать, какие характеристики являются определяющими для любой темы или сущности. Патент подчеркивает критическую важность четкого, структурированного и полного представления информации на веб-страницах, поскольку эти структуры (таблицы, списки, шаблоны) явно используются в качестве целей для извлечения данных.
Claim 1 (Независимый пункт): Описывает основной метод расширения данных.
preexisting structured presentation).new attribute), релевантный существующему представлению.expanded structured presentation).Ключевым элементом Claim 1 является детализация процесса добавления атрибута (шаг 4 выше), который включает:
attribute suggestions).template).Ядро изобретения — это механизм использования существующей структуры и анализа шаблонов в неструктурированных данных для автоматического обнаружения и предложения новых релевантных атрибутов.
Claim 14 (Независимый пункт): Описывает метод с фокусом на механизме предложений.
Этот пункт подчеркивает, что источником атрибутов является именно неструктурированный контент, а процесс может быть полуавтоматическим (с участием пользователя в выборе).
Изобретение в первую очередь относится к этапам сбора и обработки данных для преобразования неструктурированного контента в структурированные знания.
CRAWLING – Сканирование и Сбор данных
Система должна сканировать Unstructured Collection (Интернет) для сбора сырых данных, которые будут анализироваться на наличие атрибутов.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. В процессе индексирования система выполняет глубокий анализ контента для извлечения фактов и структуры.
Instance/Attribute Collection — базы данных, связывающей сущности с обнаруженными атрибутами.QUNDERSTANDING и RANKING
Патент напрямую не описывает применение на этих этапах, но структурированные данные (например, Knowledge Graph), полученные в результате работы этого механизма, оказывают огромное влияние на понимание запросов и ранжирование, позволяя системе лучше понимать семантику контента и интент пользователя.
Входные данные:
Instance/Attribute Collection (если используется).Выходные данные:
New Attribute Suggestions).Instance/Attribute Collection.instances) и необходимо обнаружить релевантные атрибуты для их описания или сравнения. Это может происходить при построении Knowledge Panel, ответе на запрос, подразумевающий сравнение (например, «лучшие гибридные автомобили»), или при автоматическом расширении базы знаний.Описание процесса обнаружения и добавления новых атрибутов (на основе FIG. 9 и 10):
<h5> в повторяющихся блоках <div class="info">, как показано на FIG. 14).Instance/Attribute Collection для поиска атрибутов, которые часто ассоциируются с интересующими сущностями или их атрибутами.Система использует следующие данные для обнаружения новых атрибутов:
<table>, <ul>, <dl>, <div>, <h1>-<h6>) и их взаимное расположение для идентификации структурированных компонентов и извлечения шаблонов страниц. Имена классов CSS также могут использоваться при анализе шаблонов.Instance/Attribute Collection, содержащая ранее извлеченные факты.Патент не приводит конкретных формул, но описывает следующие методы и метрики для анализа и выбора атрибутов:
instances) и атрибутам (attributes).Structured Components (таблицы, списки) и распознавания Templates (шаблонов страниц). Четкая и консистентная HTML-структура значительно облегчает этот процесс.Instance/Attribute Collection, являются частью инфраструктуры для построения и расширения баз знаний, таких как Knowledge Graph.<table> для табличных данных, <dl> (definition lists) для пар атрибут-значение, <ul>/<ol> для списков. Патент явно указывает на извлечение данных из таких компонентов.Template и точное извлечение атрибутов из соответствующих мест на странице.Authoritative Source (упоминается в патенте), так как это может повысить приоритет извлеченных с него данных.Template Extraction).<div> для построения того, что семантически является таблицей или списком, усложняет идентификацию Structured Components.Этот патент подтверждает фундаментальную важность entity-oriented SEO и автоматического извлечения структурированных данных. Он демонстрирует, что Google инвестирует в технологии, позволяющие понимать веб без зависимости от добровольной разметки (хотя разметка помогает). Стратегически, чтобы быть авторитетным источником, сайт должен представлять информацию в наиболее полном и легко извлекаемом формате. Это означает, что техническое SEO, касающееся структуры HTML и консистентности шаблонов, напрямую влияет на способность Google извлекать знания с вашего сайта.
Сценарий: Оптимизация страницы обзора фильма на сайте
Structured Components и анализировать Template страницы, чтобы найти такие атрибуты, как «Режиссер», «Актеры», «Дата выхода», «Время выполнения».<dl>):<dl class="movie-specs"> <dt>Режиссер:</dt><dd>Имя Режиссера</dd> <dt>Время выполнения:</dt><dd>120 мин</dd></dl>class="movie-specs" на всех страницах обзоров). Это повышает шансы на попадание данных в Knowledge Graph или формирование расширенных сниппетов.Что в контексте патента означает «Instance» и «Attribute»?
Instance (Экземпляр) — это конкретная сущность, например, определенная модель автомобиля (Ford Escape Hybrid) или конкретный город (Philadelphia). Attribute (Атрибут) — это характеристика или свойство этой сущности, например, «Расход топлива» для автомобиля или «Население» для города. Патент описывает, как автоматически находить новые атрибуты для заданного набора экземпляров.
Как этот патент связан с микроразметкой Schema.org?
Патент описывает методы, которые позволяют Google обнаруживать атрибуты сущностей без использования микроразметки. Это альтернативный и комплементарный подход. Если Schema.org — это способ явно указать атрибуты, то описанный механизм — это способ автоматически их обнаружить, анализируя структуру и контент веб-страниц. Использование Schema.org помогает, но данный патент показывает, что Google не зависит исключительно от нее.
Что такое «Structured Components» и почему они важны для SEO?
Structured Components — это области на веб-странице, имеющие внутреннюю структуру, такие как HTML-таблицы (<table>), списки (<ul>, <ol>, <dl>) или записи. Они важны, потому что патент явно указывает их как основной источник для извлечения атрибутов. Представление данных в таких компонентах значительно упрощает их распознавание и извлечение поисковой системой.
Как Google идентифицирует «Template» (шаблон) страницы?
Система анализирует HTML-структуру множества страниц (часто с одного домена). Если она обнаруживает повторяющийся макет и расположение элементов (например, определенная последовательность тегов <div>, <h> и классов CSS) используется для описания разных сущностей, она распознает это как Template. Затем она может использовать этот шаблон для точного извлечения атрибутов с аналогичных страниц.
Описывает ли этот патент процесс построения Knowledge Graph?
Да, фундаментально. Knowledge Graph — это база знаний о сущностях и их атрибутах. Этот патент описывает ключевые механизмы того, как эта база знаний автоматически расширяется: как система узнает, что для сущности типа «Фильм» важны атрибуты «Режиссер» и «Время выполнения», анализируя веб-контент. Это процесс обнаружения схемы и извлечения фактов.
Как я могу гарантировать, что Google распознает атрибуты на моем сайте?
Гарантий нет, но можно значительно повысить вероятность. Используйте четкую семантическую HTML-разметку (таблицы, списки определений), поддерживайте консистентность шаблонов страниц для однотипного контента и используйте общепринятые названия для атрибутов. Комплексный подход, сочетающий эти методы с микроразметкой Schema.org, является оптимальным.
Что делать, если моя CMS затрудняет поддержание консистентных шаблонов?
Это является техническим недостатком с точки зрения SEO. Если система не может надежно идентифицировать Template из-за хаотичной или постоянно меняющейся верстки, извлечение атрибутов будет менее эффективным. В долгосрочной перспективе стоит рассмотреть рефакторинг кода или переход на систему, обеспечивающую более чистую и консистентную HTML-структуру.
Что такое «Instance/Attribute Collection»?
Это внутренняя база данных Google (или аналогичной системы), упомянутая в патенте, которая хранит ранее извлеченные ассоциации между сущностями и их атрибутами. Это, по сути, формализованное хранилище фактов, извлеченных из веба, которое используется для быстрого поиска релевантных атрибутов при обработке новых запросов или анализе новых данных.
Означает ли этот патент, что Google предпочитает данные в таблицах?
Да, для определенных типов данных. Таблицы явно упоминаются как Structured Components, из которых легко извлекать атрибуты и значения, поскольку их структура (колонки, строки, заголовки) четко определяет связи между данными. Если информация носит табличный характер (например, спецификации продукта), использование тега <table> является лучшей практикой.
Как это влияет на SEO для E-commerce?
Влияние критическое. Для страниц продуктов жизненно важно, чтобы все спецификации были полными и легко извлекаемыми. Использование консистентных шаблонов и структурированных компонентов (например, таблиц спецификаций) помогает Google точно определить все атрибуты товара (размер, цвет, вес, технические характеристики), что улучшает видимость в поиске и товарных агрегаторах.

Knowledge Graph
Семантика и интент
Структура сайта

Семантика и интент
Knowledge Graph
SERP

Структура сайта

Семантика и интент
Мультимедиа
Индексация

Семантика и интент
Knowledge Graph
Индексация

Local SEO
Поведенческие сигналы
Свежесть контента

Поведенческие сигналы
Персонализация
Local SEO

EEAT и качество
SERP
Поведенческие сигналы

Поведенческие сигналы
Индексация
Семантика и интент

Мультимедиа
Поведенческие сигналы
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
EEAT и качество

Поведенческие сигналы
Мультимедиа
Семантика и интент

SERP
Поведенческие сигналы

Персонализация
Поведенческие сигналы
Антиспам
