Как Google автоматически определяет ключевые характеристики (атрибуты) сущностей, анализируя неструктурированный веб-контент

Google использует этот механизм для автоматического определения схемы (набора атрибутов) для любой сущности. Анализируя, как различные веб-страницы описывают набор схожих объектов (например, список фильмов), система выявляет новые релевантные характеристики (например, «Режиссер», «Время выполнения»), извлекая их из таблиц, списков или шаблонов страниц в интернете.

Описание

Какую задачу решает

Патент решает проблему сложности ручного определения полной и релевантной схемы (набора атрибутов) для разнообразных наборов сущностей, существующих в интернете. Он автоматизирует процесс обнаружения ключевых характеристик (attributes) для заданного набора элементов (instances), используя коллективный интеллект, содержащийся в неструктурированных веб-документах. Это позволяет системе понять, какие характеристики важны для определенной категории сущностей, без предварительного ручного определения схемы.

Что запатентовано

Запатентована система для автоматического расширения структурированного набора данных (например, таблицы) путем выявления и добавления новых релевантных атрибутов (например, колонок). Система анализирует существующие элементы (instances) в наборе данных и ищет в интернете (unstructured collection of electronic documents), чтобы обнаружить, как эти элементы описываются на других веб-страницах. Найденные новые характеристики предлагаются как attribute suggestions.

Как это работает

Механизм анализирует характеристики существующего структурированного представления (сущности, атрибуты, значения). Затем он ищет в неструктурированной коллекции документов (интернете) документы, релевантные этим характеристикам. Для выявления новых атрибутов используются несколько стратегий:

Анализ структурированных компонентов: Поиск таблиц, списков или записей на веб-страницах, которые упоминают те же сущности.
Извлечение шаблонов (Template Extraction): Распознавание повторяющейся структуры HTML (шаблона страницы), используемой сайтом для описания схожих сущностей.
Использование базы знаний: Обращение к предварительно скомпилированной коллекции связей сущность-атрибут (Instance/Attribute Collection).
Категоризация: Определение категории сущностей и предложение атрибутов, общих для этой категории.

Найденные атрибуты добавляются в исходное представление.

Актуальность для SEO

Высокая. Понимание сущностей, извлечение фактов и автоматическое обнаружение схемы являются фундаментальными задачами современного поиска (например, для построения Knowledge Graph и формирования структурированных сниппетов). Этот патент описывает базовые техники для извлечения структурированных данных из неструктурированного веба, что критически важно для ответа на запросы пользователей.

Важность для SEO

Патент имеет значительное влияние на SEO (8/10), особенно в области entity-oriented search и структурирования данных. Он напрямую описывает, как поисковые системы учатся понимать, какие характеристики являются определяющими для любой темы или сущности. Патент подчеркивает критическую важность четкого, структурированного и полного представления информации на веб-страницах, поскольку эти структуры (таблицы, списки, шаблоны) явно используются в качестве целей для извлечения данных.

Детальный разбор

Термины и определения

Attribute (Атрибут): Свойство, особенность или характеристика сущности (например, «Режиссер» для фильма или «Разрешение» для камеры).
Instance (Экземпляр Сущности): Индивидуально идентифицируемая сущность (например, конкретный фильм «Филадельфия» или конкретная модель камеры).
Instance/Attribute Collection (Коллекция Экземпляров/Атрибутов): База данных или хранилище, которое содержит извлеченные из веба ассоциации между сущностями и их атрибутами.
Structured Components (Структурированные компоненты): Части или области электронного документа, которые имеют внутреннюю структуру, такие как таблицы, списки, записи или пары атрибут-значение (например, HTML-таблицы).
Structured Presentation (Структурированное представление): Систематическое расположение информации, соответствующее структурированному дизайну (например, таблица, набор карточек или записей), где связи между сущностями и их атрибутами определяются расположением элементов.
Template (Шаблон): Паттерн или макет для организации контента в подмножестве документов (например, стандартная HTML-структура, используемая сайтом для всех страниц продуктов).
Unstructured Collection of Electronic Documents (Неструктурированная коллекция электронных документов): Набор документов, формат которых не является строго заданным или постоянным для всей коллекции (например, Интернет).
Value (Значение): Конкретные данные для атрибута экземпляра сущности (например, «Джонатан Демме» для атрибута «Режиссер»).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод расширения данных.

Система получает данные, описывающие существующее структурированное представление (preexisting structured presentation).
Система проводит поиск в неструктурированной коллекции документов, сравнивая характеристики существующего представления с контентом документов.
Цель поиска — найти документы, которые идентифицируют новый атрибут (new attribute), релевантный существующему представлению.
В ответ на обнаружение таких документов система добавляет идентификатор нового атрибута к существующему представлению, формируя расширенное представление (expanded structured presentation).
Система выводит инструкции для отображения расширенного представления.

Ключевым элементом Claim 1 является детализация процесса добавления атрибута (шаг 4 выше), который включает:

Формулирование коллекции предложений атрибутов (attribute suggestions).
Это формулирование включает:
- Идентификацию документа, релевантного сущности из существующего представления, который организован в соответствии с шаблоном (template).
- Добавление атрибута, используемого в этом документе (и соответствующего шаблону), в коллекцию предложений.
Предоставление коллекции предложений пользователю.
Получение выбора пользователя.

Ядро изобретения — это механизм использования существующей структуры и анализа шаблонов в неструктурированных данных для автоматического обнаружения и предложения новых релевантных атрибутов.

Claim 14 (Независимый пункт): Описывает метод с фокусом на механизме предложений.

Система формулирует коллекцию предложений атрибутов на основе контента двух или более документов из неструктурированной коллекции.
Система предоставляет эту коллекцию пользователю.
Система получает выбор пользователя.
Система добавляет идентификатор выбранного атрибута в структурированное представление.

Этот пункт подчеркивает, что источником атрибутов является именно неструктурированный контент, а процесс может быть полуавтоматическим (с участием пользователя в выборе).

Где и как применяется

Изобретение в первую очередь относится к этапам сбора и обработки данных для преобразования неструктурированного контента в структурированные знания.

CRAWLING – Сканирование и Сбор данных
Система должна сканировать Unstructured Collection (Интернет) для сбора сырых данных, которые будут анализироваться на наличие атрибутов.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. В процессе индексирования система выполняет глубокий анализ контента для извлечения фактов и структуры.

Извлечение структурированных компонентов: Идентификация таблиц, списков и других структурированных элементов на веб-страницах.
Анализ и извлечение шаблонов (Template Extraction): Распознавание повторяющихся макетов страниц для идентификации того, как атрибуты представлены в HTML.
Построение базы знаний: Создание и обновление Instance/Attribute Collection — базы данных, связывающей сущности с обнаруженными атрибутами.

QUNDERSTANDING и RANKING
Патент напрямую не описывает применение на этих этапах, но структурированные данные (например, Knowledge Graph), полученные в результате работы этого механизма, оказывают огромное влияние на понимание запросов и ранжирование, позволяя системе лучше понимать семантику контента и интент пользователя.

Входные данные:

Существующее структурированное представление (или стартовый запрос, генерирующий его).
Неструктурированная коллекция электронных документов (веб-корпус).
База данных Instance/Attribute Collection (если используется).

Выходные данные:

Коллекция предложений новых атрибутов (New Attribute Suggestions).
Расширенное структурированное представление.
Обновления для Instance/Attribute Collection.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на контент, богатый фактами, спецификациями и сравнениями. Это включает страницы продуктов, обзоры, биографии, описания мест, рецепты и т.д.
Конкретные ниши или тематики: E-commerce, медиа (фильмы, музыка), путешествия, а также любые информационные сайты (справочники, энциклопедии), где преобладают структурированные данные.
Структурные факторы: Влияет на то, как система воспринимает HTML-структуру страницы, отдавая предпочтение контенту, который легко извлечь через анализ шаблонов или структурированных компонентов (таблицы, списки).

Когда применяется

Триггеры активации: Когда система (или пользователь) имеет набор сущностей (instances) и необходимо обнаружить релевантные атрибуты для их описания или сравнения. Это может происходить при построении Knowledge Panel, ответе на запрос, подразумевающий сравнение (например, «лучшие гибридные автомобили»), или при автоматическом расширении базы знаний.
Условия работы: Наличие достаточного количества информации в неструктурированной коллекции, позволяющей идентифицировать структурированные компоненты или шаблоны, связанные с интересующими сущностями.

Пошаговый алгоритм

Описание процесса обнаружения и добавления новых атрибутов (на основе FIG. 9 и 10):

Получение характеристик: Система получает характеристики существующего структурированного представления (идентификаторы сущностей, существующие атрибуты, значения, предполагаемую категорию).
Идентификация релевантных документов: Поиск документов в неструктурированной коллекции, которые релевантны полученным характеристикам (например, содержат упоминания сущностей).
Формулирование предложений атрибутов: Применение одной или нескольких стратегий для извлечения потенциальных новых атрибутов из найденных документов:
- Стратегия А: Анализ структурированных компонентов (FIG. 11): Идентификация таблиц, списков или записей в документах, которые описывают интересующие сущности. Извлечение заголовков или меток из этих компонентов как кандидатов в атрибуты.
- Стратегия Б: Извлечение шаблонов (FIG. 13): Идентификация документов, использующих общий шаблон (Template). Извлечение структуры шаблона и идентификация меток внутри шаблона как кандидатов в атрибуты (например, текст внутри тегов <h5> в повторяющихся блоках <div class=»info»>, как показано на FIG. 14).
- Стратегия В: Использование коллекции знаний (FIG. 17): Обращение к Instance/Attribute Collection для поиска атрибутов, которые часто ассоциируются с интересующими сущностями или их атрибутами.
- Стратегия Г: Категоризация (FIG. 20): Определение категории, к которой принадлежат сущности, и выбор атрибутов, которые часто используются для описания сущностей в этой категории.
Фильтрация и Ранжирование (FIG. 22): Применение фильтров (категориальный фильтр, фильтр по связанным сущностям/атрибутам, фильтр по значениям) для уточнения списка потенциальных атрибутов.
Предоставление предложений: Вывод списка предложенных атрибутов (пользователю или системе).
Выбор и Добавление: Получение выбора атрибутов (автоматически или вручную) и добавление их в структурированное представление (например, добавление новых колонок в таблицу).

Какие данные и как использует

Данные на входе

Система использует следующие данные для обнаружения новых атрибутов:

Контентные факторы: Текст веб-страниц, заголовки, метки и подписи внутри структурированных компонентов (например, заголовки колонок таблиц).
Структурные факторы: HTML-разметка критически важна. Система анализирует теги (<table>, <ul>, <dl>, <div>, <h1>-<h6>) и их взаимное расположение для идентификации структурированных компонентов и извлечения шаблонов страниц. Имена классов CSS также могут использоваться при анализе шаблонов.
Системные данные: Существующие структурированные представления, а также внутренняя база знаний Instance/Attribute Collection, содержащая ранее извлеченные факты.

Какие метрики используются и как они считаются

Патент не приводит конкретных формул, но описывает следующие методы и метрики для анализа и выбора атрибутов:

Релевантность документа: Оценка релевантности веб-страниц интересующим сущностям (instances) и атрибутам (attributes).
Идентификация шаблона (Template Identification): Распознавание повторяющихся HTML-структур на разных страницах (часто с одного источника). Используются методы парсинга HTML для сравнения структуры документов.
Частотность атрибутов (Attribute Commonality): Частота использования атрибута для описания сущностей внутри определенной категории или в релевантных документах.
Авторитетность источников (Authoritative Sources): Идентификация источников, считающихся авторитетными для конкретных сущностей (FIG. 18), для приоритизации атрибутов, извлеченных из них.
Совпадение характеристик: Сравнение атрибутов и значений в существующем представлении с данными, найденными в вебе, для определения контекста и выбора наиболее подходящих новых атрибутов (как показано на FIG. 12 и 21, где выбирается контекст «Фильмы», а не «Города» или «Спортивные команды»).

Выводы

Автоматическое обнаружение схемы: Google активно стремится определить релевантную схему (набор ключевых атрибутов) для любой сущности, анализируя неструктурированный веб. Система не полагается только на ручную разметку (вроде Schema.org), а учится на том, как информация представлена в интернете.
Критичность структуры веб-страницы: Патент явно описывает методы извлечения данных из Structured Components (таблицы, списки) и распознавания Templates (шаблонов страниц). Четкая и консистентная HTML-структура значительно облегчает этот процесс.
Контекст определяется через сравнение: Система определяет правильный контекст сущности (например, является ли «Ягуар» автомобилем или животным), сравнивая существующие атрибуты с теми, что найдены в вебе. Это позволяет выбирать релевантные новые атрибуты.
Коллективный интеллект и полнота данных: То, как веб коллективно описывает сущность, определяет ее атрибуты в глазах системы. Цель системы — найти новые атрибуты, что подразумевает стремление к получению максимально полной информации о сущности.
Инфраструктура извлечения фактов: Описанные механизмы, включая Instance/Attribute Collection, являются частью инфраструктуры для построения и расширения баз знаний, таких как Knowledge Graph.

Практика

Best practices (это мы делаем)

Использование структурированных компонентов для фактов: Представляйте спецификации, факты и ключевые характеристики сущностей с использованием семантически верных HTML-элементов. <table> для табличных данных, <dl> (definition lists) для пар атрибут-значение, <ul>/<ol> для списков. Патент явно указывает на извлечение данных из таких компонентов.
Поддержание консистентных шаблонов страниц (Templates): Используйте единую HTML-структуру и имена классов CSS для однотипных страниц (например, все страницы товаров или все статьи блога). Это облегчает системе распознавание Template и точное извлечение атрибутов из соответствующих мест на странице.
Полнота описания сущностей (Comprehensiveness): Включайте все релевантные атрибуты, которые пользователи и другие авторитетные сайты используют для описания сущности. Если вы продаете камеры, убедитесь, что указаны разрешение, тип сенсора, светосила объектива и т.д. Система ищет эти атрибуты.
Четкие и описательные названия атрибутов: Используйте понятные и общепринятые названия для характеристик (например, «Время работы от аккумулятора», а не «Длительность»). Это помогает системе корректно идентифицировать атрибут при извлечении из структурированных компонентов или шаблонов.
Развитие авторитетности в тематике: Стремитесь к тому, чтобы ваш сайт рассматривался как Authoritative Source (упоминается в патенте), так как это может повысить приоритет извлеченных с него данных.

Worst practices (это делать не надо)

Скрытие спецификаций в неструктурированном тексте: Размещение ключевых атрибутов внутри длинных абзацев прозы или на изображениях затрудняет их извлечение с помощью описанных механизмов.
Непоследовательная HTML-структура: Использование разных макетов или хаотичной HTML-верстки для однотипных страниц препятствует эффективному извлечению шаблонов (Template Extraction).
Использование неясной разметки для таблиц/списков: Использование <div> для построения того, что семантически является таблицей или списком, усложняет идентификацию Structured Components.
Упущение ключевых атрибутов: Отсутствие важных характеристик, определяющих сущность, снижает ценность контента и заставляет Google полагаться на сторонние сайты для получения полной информации.

Стратегическое значение

Этот патент подтверждает фундаментальную важность entity-oriented SEO и автоматического извлечения структурированных данных. Он демонстрирует, что Google инвестирует в технологии, позволяющие понимать веб без зависимости от добровольной разметки (хотя разметка помогает). Стратегически, чтобы быть авторитетным источником, сайт должен представлять информацию в наиболее полном и легко извлекаемом формате. Это означает, что техническое SEO, касающееся структуры HTML и консистентности шаблонов, напрямую влияет на способность Google извлекать знания с вашего сайта.

Практические примеры

Сценарий: Оптимизация страницы обзора фильма на сайте

Анализ (Применение патента): Google хочет узнать ключевые атрибуты фильма. Он будет искать Structured Components и анализировать Template страницы, чтобы найти такие атрибуты, как «Режиссер», «Актеры», «Дата выхода», «Время выполнения».
Действие SEO-специалиста: Вместо того чтобы просто упоминать эти факты в тексте обзора, необходимо создать отдельный блок (например, боковую панель или блок под заголовком). В этом блоке использовать семантическую разметку, например, список определений (<dl>):
<dl class=»movie-specs»>
<dt>Режиссер:</dt><dd>Имя Режиссера</dd>
<dt>Время выполнения:</dt><dd>120 мин</dd>
</dl>
Ожидаемый результат: Система Google с большей вероятностью точно извлечет эти атрибуты, используя методы анализа структурированных компонентов (FIG. 11) или извлечения шаблонов (FIG. 13, благодаря консистентному использованию class=»movie-specs» на всех страницах обзоров). Это повышает шансы на попадание данных в Knowledge Graph или формирование расширенных сниппетов.

Вопросы и ответы

Что в контексте патента означает «Instance» и «Attribute»?

Instance (Экземпляр) — это конкретная сущность, например, определенная модель автомобиля (Ford Escape Hybrid) или конкретный город (Philadelphia). Attribute (Атрибут) — это характеристика или свойство этой сущности, например, «Расход топлива» для автомобиля или «Население» для города. Патент описывает, как автоматически находить новые атрибуты для заданного набора экземпляров.

Как этот патент связан с микроразметкой Schema.org?

Патент описывает методы, которые позволяют Google обнаруживать атрибуты сущностей без использования микроразметки. Это альтернативный и комплементарный подход. Если Schema.org — это способ явно указать атрибуты, то описанный механизм — это способ автоматически их обнаружить, анализируя структуру и контент веб-страниц. Использование Schema.org помогает, но данный патент показывает, что Google не зависит исключительно от нее.

Что такое «Structured Components» и почему они важны для SEO?

Structured Components — это области на веб-странице, имеющие внутреннюю структуру, такие как HTML-таблицы (<table>), списки (<ul>, <ol>, <dl>) или записи. Они важны, потому что патент явно указывает их как основной источник для извлечения атрибутов. Представление данных в таких компонентах значительно упрощает их распознавание и извлечение поисковой системой.

Как Google идентифицирует «Template» (шаблон) страницы?

Система анализирует HTML-структуру множества страниц (часто с одного домена). Если она обнаруживает повторяющийся макет и расположение элементов (например, определенная последовательность тегов <div>, <h> и классов CSS) используется для описания разных сущностей, она распознает это как Template. Затем она может использовать этот шаблон для точного извлечения атрибутов с аналогичных страниц.

Описывает ли этот патент процесс построения Knowledge Graph?

Да, фундаментально. Knowledge Graph — это база знаний о сущностях и их атрибутах. Этот патент описывает ключевые механизмы того, как эта база знаний автоматически расширяется: как система узнает, что для сущности типа «Фильм» важны атрибуты «Режиссер» и «Время выполнения», анализируя веб-контент. Это процесс обнаружения схемы и извлечения фактов.

Как я могу гарантировать, что Google распознает атрибуты на моем сайте?

Гарантий нет, но можно значительно повысить вероятность. Используйте четкую семантическую HTML-разметку (таблицы, списки определений), поддерживайте консистентность шаблонов страниц для однотипного контента и используйте общепринятые названия для атрибутов. Комплексный подход, сочетающий эти методы с микроразметкой Schema.org, является оптимальным.

Что делать, если моя CMS затрудняет поддержание консистентных шаблонов?

Это является техническим недостатком с точки зрения SEO. Если система не может надежно идентифицировать Template из-за хаотичной или постоянно меняющейся верстки, извлечение атрибутов будет менее эффективным. В долгосрочной перспективе стоит рассмотреть рефакторинг кода или переход на систему, обеспечивающую более чистую и консистентную HTML-структуру.

Что такое «Instance/Attribute Collection»?

Это внутренняя база данных Google (или аналогичной системы), упомянутая в патенте, которая хранит ранее извлеченные ассоциации между сущностями и их атрибутами. Это, по сути, формализованное хранилище фактов, извлеченных из веба, которое используется для быстрого поиска релевантных атрибутов при обработке новых запросов или анализе новых данных.

Означает ли этот патент, что Google предпочитает данные в таблицах?

Да, для определенных типов данных. Таблицы явно упоминаются как Structured Components, из которых легко извлекать атрибуты и значения, поскольку их структура (колонки, строки, заголовки) четко определяет связи между данными. Если информация носит табличный характер (например, спецификации продукта), использование тега <table> является лучшей практикой.

Как это влияет на SEO для E-commerce?

Влияние критическое. Для страниц продуктов жизненно важно, чтобы все спецификации были полными и легко извлекаемыми. Использование консистентных шаблонов и структурированных компонентов (например, таблиц спецификаций) помогает Google точно определить все атрибуты товара (размер, цвет, вес, технические характеристики), что улучшает видимость в поиске и товарных агрегаторах.