Как Google автоматически расширяет Knowledge Graph, извлекая и классифицируя атрибуты сущностей из запросов и веб-текста

Google использует автоматизированную систему для масштабного расширения своей онтологии (Knowledge Graph). Система анализирует поток поисковых запросов и веб-тексты, используя метод Distant Supervision для изучения шаблонов описания атрибутов. Это позволяет Google извлекать миллионы новых фактов, классифицировать их (например, как числовые или текстовые) и лучше отвечать на длиннохвостые запросы.

Описание

Какую задачу решает

Патент решает проблему ограниченного охвата атрибутов в традиционных онтологиях и базах данных (например, Knowledge Graph). Хотя эти базы данных содержат много сущностей, они часто моделируют лишь небольшое количество их атрибутов (например, только ВВП и Столицу для стран). Это ограничивает способность поисковой системы точно отвечать на long-tail запросы (например, «производство кофе в Бразилии»), извлекать широкий спектр фактов из интернета и понимать семантику веб-таблиц.

Что запатентовано

Запатентована система для автоматического создания масштабной онтологии пар Класс-Атрибут, называемой Best-effort ontology. Ключевым механизмом является использование Distant Supervision (удаленного надзора) для обучения шаблонов извлечения из веб-текста. Процесс инициируется (bootstrapping) с использованием высококачественных данных из потока поисковых запросов (Query Stream) и существующих онтологий, что позволяет значительно масштабировать базу знаний.

Как это работает

Система работает в несколько этапов:

Сбор исходных данных (Seeds): Атрибуты извлекаются из существующих онтологий и Query Stream (анализируя запросы вида «Атрибут Сущности»).
Distant Supervision и Индукция Шаблонов: Система находит предложения в веб-документах, где упоминаются известные пары Сущность-Атрибут. На основе этого она изучает общие текстовые (лексические и синтаксические) шаблоны, которые связывают сущность и атрибут (например, «A of E»).
Извлечение новых атрибутов: Изученные шаблоны применяются ко всему веб-корпусу для извлечения новых фактов.
Улучшение онтологии (Ontology Enhancement): Извлеченные атрибуты очищаются (поиск синонимов, исправлений), классифицируются по типу (например, числовой, текстовый, повествовательный) на основе лингвистических сигналов и прикрепляются к наиболее подходящим классам сущностей (Best Classes) в иерархии.

Актуальность для SEO

Высокая. Автоматическое расширение Knowledge Graph и понимание неструктурированных данных с использованием передовых методов NLP и Information Retrieval являются центральными элементами современного поиска. Методы, описанные в патенте (особенно Distant Supervision и анализ лингвистических сигналов), лежат в основе способности Google понимать семантику контента и отвечать на сложные запросы.

Важность для SEO

Патент имеет высокое стратегическое значение (85/100). Он описывает механизм, с помощью которого Google автоматически узнает, какие атрибуты релевантны для конкретных классов сущностей, и как он извлекает эти атрибуты из контента. Понимание этого процесса критически важно для стратегий, направленных на построение тематического авторитета (Topical Authority) и оптимизацию под Entity-Oriented Search. Чтобы Google признал сайт авторитетным источником, необходимо четко описывать ключевые атрибуты сущностей, используя естественные языковые конструкции, которые система может распознать и извлечь.

Детальный разбор

Термины и определения

Attribute (Атрибут): Бинарное отношение между сущностью и другой сущностью (например, СТОЛИЦА), значением (например, ВВП) или повествованием (например, ИСТОРИЯ).
Best-effort Ontology («Онтология по мере возможности»): Масштабная онтология, созданная автоматически. Она фиксирует атрибуты, которые люди считают релевантными (на основе запросов и текстов), но может не иметь строгого определения для каждого атрибута. Характеризуется широким охватом.
Best Classes (Лучшие классы): Наиболее подходящий уровень в иерархии классов для прикрепления атрибута. Например, «Время работы батареи» лучше прикрепить к «Цифровые камеры», чем к слишком общему «Потребительские товары».
Distant Supervision (Удаленный надзор): Метод машинного обучения. Предполагается, что если известная пара связанных сущностей (или сущность-атрибут) встречается в предложении, то это предложение выражает соответствующее отношение. Используется для автоматической индукции шаблонов извлечения.
Diversity Measure (D) (Мера разнообразия): Метрика, используемая для определения Best Classes. Оценивает разброс в поддержке атрибута среди дочерних классов. Высокое разнообразие означает, что атрибут характерен только для некоторых из них.
Extraction Patterns (Шаблоны извлечения): Лингвистические шаблоны для идентификации атрибутов в тексте. Включают Lexical Patterns (лексические, например, «A of E») и Parse Patterns (синтаксические, основанные на разборе зависимостей).
Ontology Enhancement (Улучшение онтологии): Процесс очистки, классификации и структурирования извлеченных атрибутов.
Pattern Induction (Индукция шаблонов): Процесс автоматического изучения общих шаблонов извлечения на основе конкретных примеров, найденных с помощью Distant Supervision.
Query Stream (Поток запросов): Логи поисковых запросов. Используются как источник часто запрашиваемых атрибутов.
Support Score (S(C,A)) (Оценка поддержки): Метрика, указывающая, насколько сильно атрибут A поддерживается классом C. Рассчитывается, например, на основе количества экземпляров класса C, имеющих атрибут A.
Verb Signatures / Verb Features (Сигнатуры глаголов): Лингвистические признаки, основанные на глаголах, которые встречаются в предложении вместе с атрибутом. Используются для классификации типа атрибута (например, глагол «увеличился» предполагает числовой атрибут).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс генерации онтологии пар Класс-Атрибут с использованием Distant Supervision и индукции шаблонов из текста.

Система получает данные о классах и сущностях.
Система получает начальный набор пар Сущность-Атрибут (семена).
Определяются шаблоны извлечения атрибутов (attribute extraction patterns) из текста документов на основе того, как эти семена встречаются в тексте. Этот процесс включает:
- Идентификацию вхождения сущности и атрибута из пары-семени в одном предложении.
- Генерацию кандидата лексического шаблона (lexical pattern) и шаблона разбора (parse pattern) из этого предложения.
- Ключевой фильтр: Выбор этих кандидатов в качестве шаблонов извлечения ТОЛЬКО если они были сгенерированы с использованием как минимум предопределенного числа уникальных пар Сущность-Атрибут. (Это обеспечивает надежность и обобщенность шаблона).
Применение этих шаблонов извлечения к коллекции документов для определения новых пар Сущность-Атрибут.
На основе извлеченных пар формируется онтология Класс-Атрибут.

Claim 2 и 3 (Зависимые): Уточняют, что начальный набор пар (семена) может быть извлечен из потока поисковых запросов (stream of search queries) путем применения предопределенных шаблонов к этим запросам.

Claim 4 и 5 (Зависимые): Уточняют, что процесс включает классификацию каждого атрибута как неатомарный (non-atomic), числовой (numeric) или атомарно-текстовый (atomic-textual). Классификация выполняется с использованием нескольких классификаторов, обрабатывающих признаки (features), связанные с атрибутом.

Claim 6 (Зависимый): Уточняет, что если классы организованы в иерархию, процесс включает определение одного или нескольких лучших классов сущностей (best entity classes) для каждого атрибута.

Где и как применяется

Изобретение является частью инфраструктуры обработки данных и построения базы знаний Google. Оно работает в фоновом режиме, а не в реальном времени при обработке запроса.

CRAWLING – Сканирование и Сбор данных
Система использует Query Stream (логи запросов) и Web Documents (корпус веб-страниц) в качестве сырья для анализа.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Система выполняет масштабный анализ данных для построения и расширения онтологии (Knowledge Graph).

Взаимодействие с компонентами: Использует существующие онтологии для инициализации и определения классов. Применяет инструменты NLP (парсеры зависимостей, NER и т.д.) для обработки текста.
Процесс: Выполняет Distant Supervision и Pattern Induction для изучения способов выражения фактов в тексте, извлекает новые атрибуты, классифицирует их и привязывает к иерархии классов.
Выходные данные: Расширенная онтология (Ontology) пар Класс-Атрибут.

QUNDERSTANDING – Понимание Запросов
Созданная онтология используется на этом этапе. Знание большого количества атрибутов и их синонимов помогает системе точнее интерпретировать запрос пользователя, распознавая сущности и желаемые атрибуты, особенно в long-tail запросах.

RANKING / METASEARCH – Ранжирование и Метапоиск
Расширенная онтология позволяет системе лучше оценивать полноту контента, понимать семантику таблиц на веб-страницах и предоставлять прямые ответы на запросы (например, в Featured Snippets или Knowledge Panels).

На что влияет

Типы контента и ниши: Влияет на все тематики, богатые фактами и атрибутами (продукты, биографии, локации, компании, YMYL). Особенно сильно влияет на понимание табличных данных на веб-страницах.
Специфические запросы: Наибольшее влияние на информационные long-tail запросы, которые ищут конкретные атрибуты сущностей (например, «время работы батареи камеры X»).

Когда применяется

Временные рамки и частота: Алгоритм работает офлайн в пакетном режиме (batch processing). Он выполняется периодически для обновления и расширения онтологии по мере накопления новых данных в Query Stream и обновления корпуса Web Documents.

Пошаговый алгоритм

Процесс генерации онтологии можно разделить на несколько ключевых фаз.

Фаза 1: Извлечение кандидатов (Seeds) и Подготовка

Извлечение из онтологий: Итерация по свойствам в существующих базах данных.
Извлечение из Query Stream: Применение шаблонов (например, «what is the A of E») к логам запросов. Создание троек (Атрибут, Сущность, Частота).
Подготовка Web Documents: Применение NLP-инструментов (POS-теггинг, парсинг зависимостей, NER, разрешение кореференции) к веб-корпусу.

Фаза 2: Индукция шаблонов (Distant Supervision)

Поиск вхождений: Поиск предложений в веб-корпусе, где известные пары (E, A) из Фазы 1 встречаются вместе.
Генерация шаблонов: Извлечение лексических (Lexical Patterns) и синтаксических (Parse Patterns) шаблонов из этих предложений.
Фильтрация и агрегация: Отбор надежных шаблонов, которые встречаются с достаточным количеством уникальных пар (E, A).

Фаза 3: Извлечение новых атрибутов и Слияние

Применение шаблонов: Применение отобранных шаблонов ко всему веб-корпусу для извлечения новых пар (E, A).
Слияние и группировка: Слияние атрибутов из всех источников и группировка по классам сущностей.

Фаза 4: Улучшение онтологии (Ontology Enhancement)

Очистка: Обнаружение опечаток, синонимов и субатрибутов (например, «Сельское население» является субатрибутом «Население»).
Классификация атрибутов:
- Извлечение признаков (Verb Features): Определение глаголов, с которыми атрибут встречается в тексте (например, атрибут «производство» часто встречается с глаголом «увеличилось»).
- Классификация с помощью ML (например, логистической регрессии) на типы: Числовой (Numeric), Атомарно-текстовый (Atomic-Textual) или Неатомарный (Non-Atomic).
Прикрепление к лучшим классам (Best Classes):
- Расчет поддержки (Support Score S(C,A)) для каждой пары Класс-Атрибут.
- Обход иерархии классов снизу вверх.
- Расчет разнообразия (Diversity Measure D) среди дочерних классов.
- Принятие решения о прикреплении атрибута к текущему классу или подъеме вверх по иерархии на основе порогов поддержки и разнообразия.

Какие данные и как использует

Данные на входе

Система использует три основных источника данных:

Query Stream (Поведенческие факторы): Логи запросов. Используются для идентификации атрибутов, которые интересуют пользователей, и как источник высококачественных семян.
Web Documents (Контентные факторы): Проиндексированные веб-страницы. Используются как источник текста для Distant Supervision, индукции шаблонов и финального извлечения атрибутов. Требуют предварительной NLP-обработки (парсинг зависимостей, NER).
Other Ontology (Структурные данные): Существующие базы знаний. Используются для получения начального набора атрибутов и иерархии классов.

Какие метрики используются и как они считаются

InstanceCount и QueryCount: Количество уникальных сущностей и общее количество запросов для атрибута. Используются для фильтрации шума и расчета поддержки.
Support Score (S(C,A)): Оценка поддержки атрибута классом. Пример формулы для данных из Query Stream: S_query(C, A) = InstanceCount(C, A) / max_A'{InstanceCount(C, A’)}. (Нормализованное количество экземпляров класса C с атрибутом A).
Diversity Measure (D): Мера разнообразия поддержки атрибута среди дочерних классов. Рассчитывается как нормализованная разница между максимальной и средней поддержкой среди дочерних классов.
Пороги θ (theta) и α (alpha): Используются в алгоритме Best Classes. θ – порог для меры разнообразия D; α – фактор для оценки поддержки S(C,A).
Verb Features (Признаки глаголов): Хешированные векторы глаголов, связанных с атрибутом в тексте. Используются как входные данные для классификаторов типов атрибутов.
Порог валидации шаблонов: Минимальное количество уникальных пар (E, A), необходимое для принятия шаблона извлечения.

Выводы

Автоматическое масштабирование Knowledge Graph: Патент описывает механизм, позволяющий Google автоматически расширять свою базу знаний, используя неструктурированные данные из поисковых логов и веб-текста, выходя далеко за рамки ручного курирования.
Distant Supervision как ключевой механизм извлечения: Система учится распознавать факты в тексте, наблюдая за тем, как уже известные факты выражаются на веб-страницах (Pattern Induction). Стиль написания контента напрямую влияет на способность Google извлекать из него информацию.
Важность Query Stream для определения приоритетов: Поисковые запросы являются основным источником для определения того, какие атрибуты действительно важны для пользователей. Система приоритизирует извлечение атрибутов, которые часто ищут.
Лингвистический анализ для классификации атрибутов: Система пытается понять тип атрибута (числовой, текстовый, повествовательный), используя лингвистические сигналы, в частности, связанные глаголы (Verb Signatures). Это позволяет точнее использовать извлеченные данные.
Иерархическая организация знаний: Система оптимизирует хранение знаний, определяя наиболее подходящий уровень в иерархии классов для каждого атрибута (Best Classes), что подчеркивает важность понимания таксономии сущностей.

Практика

Best practices (это мы делаем)

Ориентация на атрибуты сущностей (Entity Attributes): Необходимо определить ключевые атрибуты для сущностей в вашей нише, анализируя поисковые запросы (т.к. Query Stream является источником для системы). Полнота покрытия этих атрибутов критична для Topical Authority.
Использование четких языковых шаблонов: Поскольку система изучает шаблоны извлечения (Pattern Induction) из текста, следует выражать факты, используя ясные и естественные языковые конструкции. Патент приводит примеры эффективных шаблонов:
- «A of E» (например, «Столица Франции»)
- «E’s A» (например, «Население Франции»)
Использование таких конструкций повышает вероятность успешного извлечения атрибутов.
Лингвистическая точность (Verb Signatures): Используйте глаголы, которые соответствуют типу атрибута. Система анализирует глаголы для классификации атрибута. Для числовых атрибутов (цена, вес) используйте глаголы изменения или состояния («цена выросла», «вес составляет»). Для атомарно-текстовых (автор, должность) – соответствующие глаголы («автором является», «директор уволился»).
Использование таблиц и списков: Патент упоминает, что знание атрибутов помогает в распознавании семантики таблиц. Четкое обозначение атрибутов в заголовках колонок таблиц и в списках (DL/DT/DD) помогает Google извлекать структурированные данные.
Построение таксономии и контекста: Помогайте Google понять иерархию сущностей. Четкая структура сайта и контента может помочь системе определить Best Classes для атрибутов, связанных с вашей тематикой.

Worst practices (это делать не надо)

Использование сложных или неоднозначных языковых конструкций: Представление фактической информации в виде сложных предложений или неоднозначных формулировок затрудняет извлечение атрибутов и может привести к игнорированию данных системой Distant Supervision.
Игнорирование Long-Tail атрибутов: Фокус только на основных атрибутах сущностей снижает тематический авторитет и упускает возможность ранжирования по специфическим запросам, которые Google стремится обработать с помощью этой системы.
Неестественное насыщение атрибутами (Attribute Stuffing): Перечисление атрибутов без естественного контекста или грамматической связи с сущностью будет неэффективно, так как система ищет определенные лексические и синтаксические шаблоны, а не просто набор слов.

Стратегическое значение

Этот патент подтверждает стратегическую важность перехода к Entity-Oriented Search. Он детально описывает инфраструктуру, которая позволяет Google строить Knowledge Graph из неструктурированного контента. Для SEO это означает, что долгосрочная стратегия должна быть направлена на то, чтобы сайт стал источником, из которого Google извлекает факты. Это напрямую связано с концепциями E-E-A-T и Topical Authority: авторитетный источник – это тот, который полно и точно описывает атрибуты сущностей в своей области в формате, удобном для машинного извлечения.

Практические примеры

Сценарий: Оптимизация страницы продукта (Цифровая камера) для извлечения атрибутов

Идентификация атрибутов (на основе Query Stream): Анализ запросов показывает, что пользователи ищут «время работы батареи», «размер сенсора», «мегапиксели».
Применение шаблонов (Pattern Induction): Интегрируйте характеристики в текст обзора, используя ясные шаблоны.
- Плохо: Время работы: 5 часов.
- Хорошо (Шаблон «A of E»): «Время работы батареи [Название камеры] составляет 5 часов».
Использование глагольных сигнатур (Verb Signatures): Опишите динамику атрибутов.
- Пример: «По сравнению с предыдущей моделью, время работы батареи увеличилось на 20%». (Глагол «увеличилось» помогает классифицировать атрибут как числовой).
Ожидаемый результат: Google с большей вероятностью извлечет эти атрибуты, поймет релевантность страницы для long-tail запросов и может использовать эти данные в сниппетах или панелях знаний о продукте.

Вопросы и ответы

Что такое «Distant Supervision» и почему это важно для SEO?

Distant Supervision – это метод, с помощью которого Google автоматически учится извлекать факты из текста. Система берет уже известные факты (например, из Knowledge Graph) и ищет, как эти факты упоминаются на веб-страницах, выводя общие лингвистические шаблоны. Для SEO это означает, что Google учится на существующем контенте. Если вы хотите, чтобы Google извлекал факты с вашего сайта, вы должны использовать ясные, естественные и распространенные способы выражения этих фактов в тексте.

Патент говорит об извлечении атрибутов из «Query Stream». Что это значит для сбора семантики?

Это означает, что Google определяет важность атрибутов, анализируя реальные поисковые запросы. Если пользователи часто ищут «время работы батареи камеры X», система помечает «время работы батареи» как важный атрибут для класса «Камеры». При сборе семантического ядра необходимо фокусироваться не только на сущностях, но и на атрибутах, которые пользователи ищут вместе с ними, так как именно их Google будет пытаться извлечь в первую очередь.

Как система определяет тип атрибута (числовой, текстовый) и как это использовать?

Система использует Verb Signatures (Сигнатуры глаголов). Она анализирует, какие глаголы встречаются рядом с атрибутом в предложении. Например, глаголы «увеличился», «снизился», «составляет» указывают на числовой тип. В SEO это можно использовать, обеспечивая правильный контекст: описывая цены или размеры, используйте соответствующие глаголы, чтобы помочь системе правильно интерпретировать данные.

Что такое «Best Classes» и как это влияет на организацию контента?

Best Classes – это определение наиболее подходящего уровня в иерархии классов для атрибута. Например, атрибут «Имеет крылья» лучше подходит для класса «Птицы», а не «Животные» (слишком обще) или «Воробьи» (слишком узко). Это подчеркивает важность четкой таксономии и структуры контента. При проектировании сайта важно группировать сущности логически и освещать атрибуты на соответствующем уровне детализации.

Заменяет ли этот механизм необходимость в разметке Schema.org?

Нет, не заменяет. Этот механизм предназначен для извлечения фактов из неструктурированного текста в масштабах всего интернета, особенно там, где разметка отсутствует. Schema.org остается критически важным инструментом для явного предоставления структурированных данных. Лучшая стратегия – это синергия: использовать Schema.org и одновременно подтверждать эти данные в тексте, используя ясные языковые шаблоны.

Что такое «Best-effort ontology»?

Это онтология, созданная автоматически и в большом масштабе. Она не гарантирует 100% точность или наличие строгого определения для каждого атрибута, но фокусируется на широком охвате. Это подход Google к масштабированию Knowledge Graph: лучше иметь много автоматически извлеченных данных с некоторой погрешностью, чем мало идеально точных данных.

Как этот патент связан с E-E-A-T и Topical Authority?

Связь прямая. Чтобы быть авторитетным источником (Authority), сайт должен полно освещать тему. В контексте этого патента, полнота означает покрытие всех релевантных атрибутов для сущностей в данной тематике. Если система успешно извлекает множество точных атрибутов с вашего сайта, это служит сигналом того, что ваш контент является экспертным и полным, укрепляя Topical Authority и E-E-A-T.

Как система защищается от извлечения ложных фактов или шума?

Патент описывает ключевой механизм фильтрации на этапе индукции шаблонов (Pattern Induction). Система требует, чтобы шаблон подтверждался предопределенным количеством уникальных пар Сущность-Атрибут (Claim 1). Это отсеивает шаблоны, специфичные для одного факта или редких случаев. Кроме того, использование высококачественных исходных данных (из надежных онтологий) для инициализации повышает общую точность.

Как этот патент помогает Google понимать таблицы на веб-страницах?

Патент утверждает, что наличие широкого репозитория атрибутов позволяет лучше восстанавливать семантику таблиц. Система может распознавать имена атрибутов в заголовках колонок и в окружающем тексте, сопоставляя их с уже известными атрибутами в своей онтологии. Это подчеркивает важность использования стандартных названий атрибутов в таблицах на вашем сайте.

Какие NLP технологии критичны для работы этой системы?

Для успешной работы Distant Supervision и Pattern Induction критически важны несколько технологий: теггинг частей речи (POS tagging), парсинг зависимостей (Dependency Parsing) для понимания грамматической структуры предложений, распознавание именованных сущностей (NER) и разрешение кореференции (Coreference Resolution) для точной идентификации упоминаний сущностей в тексте.