Как Google использует машинное обучение для автоматического определения типа сущности (Entity Typing)

Google использует этот механизм для автоматической классификации сущностей в своей базе знаний (Fact Repository/Knowledge Graph). Система анализирует атрибуты, значения и источники фактов, связанных с сущностью, и применяет модели машинного обучения, чтобы определить ее тип (например, «Человек», «Книга» или «Фильм»), если он неизвестен.

Описание

Какую задачу решает

Патент решает проблему неполноты и неоднозначности данных в базе знаний (Fact Repository). При автоматическом извлечении информации из интернета тип сущности (Entity Type) часто неизвестен, отсутствует в источнике или является неоднозначным (например, имя «Билл Клинтон» может относиться к человеку или к книге о нем). Точное знание типа критически важно для валидации фактов (например, атрибут «жанр» применим к книгам) и понимания связей между сущностями (например, атрибут «супруг» подразумевает тип «Человек»).

Что запатентовано

Запатентована система автоматического присвоения типов сущностям, чей тип неизвестен, с использованием машинного обучения. Система строит статистические модели (Entity Type Models), обучаясь на сущностях с уже известными типами. Затем эти модели классифицируют неизвестные сущности, анализируя их признаки (Features), такие как атрибуты, значения фактов и источники данных.

Как это работает

Система функционирует в несколько этапов:

Сбор данных: Факты извлекаются из документов и группируются в объекты в Fact Repository.
Генерация признаков: Для каждого объекта создается Feature Vector (Вектор признаков), описывающий его атрибуты (например, «Дата рождения»), значения и источники.
Построение моделей: На основе объектов с известными типами обучаются Entity Type Models. Используются различные методы ML: бинарные/мультиклассовые классификаторы или генеративные модели (кластеризация).
Классификация: Модели применяются к неизвестным объектам для расчета вероятности или меры сходства с каждым известным типом.
Присвоение типа: Если рассчитанное значение превышает порог и нет конфликтов, объекту присваивается соответствующий Entity Type.

Актуальность для SEO

Высокая. Построение и уточнение Графа Знаний (Knowledge Graph) является фундаментом современного семантического поиска. Автоматическое типирование сущностей (Entity Typing) в масштабах интернета — критически важная задача для организации информации. Описанные в патенте методы ML (классификация, кластеризация, semi-supervised learning) остаются крайне актуальными.

Важность для SEO

Патент имеет высокое стратегическое значение (85/100). Он описывает инфраструктурный механизм, лежащий в основе того, как Google понимает и каталогизирует мир. Корректная классификация ключевых сущностей (авторов, организаций, продуктов) напрямую влияет на оценку E-E-A-T, видимость в поиске и отображение в специальных блоках (например, Knowledge Panels). Если система не сможет правильно классифицировать сущность, это может привести к неправильной интерпретации контента.

Детальный разбор

Термины и определения

Entity Type (Тип сущности): Категория реального объекта или концепции (например, «Человек», «Книга», «Фильм», «Организация»). Цель патента — присвоить этот тип, если он неизвестен.
Fact Repository (Хранилище фактов): База данных, хранящая извлеченные факты и объекты. Функциональный аналог основы Knowledge Graph.
Object (Объект): Набор фактов в хранилище, описывающих одну и ту же сущность. Определяется общим Object ID.
Fact (Факт): Единица информации, состоящая из Атрибута (Attribute, например, «Дата рождения») и Значения (Value, например, «1946 год»).
Feature Vector (Вектор признаков): Структурированное представление фактов объекта. Используется как входные данные для моделей машинного обучения.
Feature (Признак): Элемент данных в векторе признаков. Например, наличие атрибута (a:Attribute), комбинации атрибут-значение (av:Attribute::Value) или источника (s:Source).
Entity Type Model (Модель типа сущности): Статистическая модель (классификатор или генеративная модель), обученная предсказывать тип сущности на основе ее Feature Vector.
Binary/Multi-class Classifier (Бинарный/Мультиклассовый классификатор): Модели ML, определяющие принадлежность к одному конкретному типу (Бинарный) или выбирающие наиболее вероятный тип из множества (Мультиклассовый).
Generative Techniques (Генеративные методы): Методы обучения (включая unsupervised и semi-supervised), такие как кластеризация. Используются для создания прототипов кластеров (Cluster Prototypes).
Importer / Janitor: Системные процессы. Importer извлекает факты из документов. Janitor обрабатывает факты в репозитории (очистка, слияние). Описанный механизм присвоения типов реализован как Janitor.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной компьютеризированный метод присвоения типа сущности объекту с неизвестным типом.

Создание объектов: Система создает множество объектов, используя факты, извлеченные из электронных документов.
Генерация значения: Для объекта с неизвестным типом генерируется значение с помощью Entity Type Model для известного типа.
Основа модели: Эта модель основана на наборе признаков (set of features) множества объектов этого известного типа.
Интерпретация значения: Сгенерированное значение указывает, принадлежит ли неизвестный объект к этому известному типу.
Присвоение типа: Известный тип присваивается объекту, если значение указывает на эту принадлежность.
Сохранение: Объект сохраняется с присвоенным типом.

Ядром изобретения является применение стандартного конвейера машинного обучения (извлечение признаков -> обучение модели -> классификация) к специфической задаче типизации сущностей в базе знаний, построенной на основе данных из интернета.

Где и как применяется

Изобретение применяется на этапе обработки и структурирования данных для наполнения и улучшения качества базы знаний.

CRAWLING – Сканирование и Сбор данных
На этом этапе собираются документы, которые служат источником фактов.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента.

Information Extraction: Importers извлекают факты из документов и формируют первичные объекты.
Data Management & Enrichment: Janitors обрабатывают эти факты (нормализация, слияние). Описанный Entity Type Assignment Engine функционирует как Janitor для классификации объектов в Fact Repository. Сначала генерируются Feature Vectors, затем строятся и применяются Entity Type Models.

RANKING / QUNDERSTANDING
Эти этапы используют результаты работы механизма. Точно типизированные сущности необходимы для глубокого понимания запросов, оценки E-E-A-T и формирования ответов (например, Knowledge Panels).

Входные данные:

Объекты в Fact Repository (часть с известными типами для обучения, часть с неизвестными для классификации).
Факты, связанные с объектами (Атрибуты, Значения, Источники).

Выходные данные:

Объекты с присвоенными типами сущностей.
Возможно, обновленные метрики достоверности (confidence level) для фактов, валидированных благодаря знанию типа.

На что влияет

Все типы сущностей: Механизм универсален и применим к любым сущностям (люди, организации, продукты, места и т.д.).
Точность Knowledge Graph: Критически важен для поддержания качества и связности Графа Знаний.
Разрешение неоднозначности (Disambiguation): Помогает различать сущности с одинаковыми именами (например, «Ягуар» — животное или автомобиль) путем анализа связанных атрибутов.
YMYL и E-E-A-T: Корректное определение типа сущности (например, идентификация автора как «Человека» и определение его профессии) имеет повышенное значение для оценки авторитетности контента.

Когда применяется

Условия активации: Наличие в Fact Repository объектов, для которых Entity Type неизвестен или неоднозначен (confounded).
Частота применения: Это процесс обслуживания хранилища (Indexing). Обучение моделей может происходить периодически (ежедневно, еженедельно) или непрерывно по мере поступления новых данных. Присвоение типов происходит при обработке новых или обновлении существующих объектов.

Пошаговый алгоритм

Процесс состоит из этапов подготовки данных, обучения моделей и их применения.

Идентификация данных: Определение объектов с известными типами (обучающая выборка) и объектов с неизвестными типами (целевая выборка).
Генерация признаков (Feature Generation): Feature Vector Module создает Feature Vectors для всех объектов. Признаки включают:
- Атрибуты (например, a:Birthday).
- Пары Атрибут-Значение (например, av:Height::0). Числовые значения могут быть дискретизированы (binning) — например, рост переводится в порядок величины в метрах.
- Источники фактов (например, s:CIA).
Построение моделей (Model Building): Entity Type Model Module использует обучающую выборку для создания Entity Type Models. Патент описывает три варианта:
- А. Бинарные классификаторы: Для каждого типа строится модель (например, SVM, Stochastic Gradient Descent), определяющая принадлежность к этому типу (Да/Нет).
- Б. Мультиклассовые классификаторы: Строится единая модель (например, Maximum Entropy), классифицирующая объект по всем возможным типам.
- В. Генеративные модели (Кластеризация): Объекты группируются по типам, и для каждой группы создается Cluster Prototype — вектор вероятностей признаков для данного типа.
Уточнение моделей (Опционально): В случае генеративных моделей, прототипы могут быть уточнены с использованием semi-supervised методов (например, Expectation Maximization), привлекая данные объектов с неизвестным типом.
Применение моделей (Inference): Entity Type Assignment Module применяет обученные модели к Feature Vectors неизвестных объектов.
Расчет значений: Генерируются значения (вероятности, меры сходства, confidence values) для различных типов сущностей.
Присвоение типа (Assignment): Выбирается тип с наивысшим значением. Применяются пороги (thresholds) для достоверности и механизмы разрешения конфликтов (если высокие значения получены для несовместимых типов, например, «Книга» и «Человек»).
Обновление хранилища (Storage): Object Update Module сохраняет присвоенный тип в Fact Repository.
Итерация: Процесс может повторяться, используя вновь классифицированные объекты для улучшения моделей.

Какие данные и как использует

Данные на входе

Система использует данные, содержащиеся в фактах, связанных с объектом, для генерации признаков.

Контентные/Структурные факторы (Атрибуты и Значения):
- Attribute: Название атрибута (например, «Birthday», «Author»). Это ключевой сигнал.
- Value: Значение факта. Числовые значения могут быть дискретизированы (binned).
- Аннотации атрибутов: Дополнительная информация об атрибуте (например, тип данных значения).
Технические факторы (Источники):
- Source: Источник факта (URL, веб-сайт) используется как признак.
Системные данные (Метрики):
- Metrics (Confidence, Importance): Могут использоваться для взвешивания признаков.

Какие метрики используются и как они считаются

Формат признаков: Патент приводит примеры:
- a:Attribute (основан на атрибуте).
- av:Attribute::Value (основан на атрибуте и значении).
- s:Source (основан на источнике).
Дискретизация значений (Binning): Преобразование числовых значений в категории для обобщения. Например, рост >1м получает категорию 0, рост <1м получает категорию -1.
Алгоритмы машинного обучения: Патент упоминает широкий спектр:
- Классификаторы: SVM, Neural Networks, Maximum Entropy, Boosting, Bagging, Gradient Descent.
- Генеративные модели: Clustering (k-means), Expectation Maximization (EM).
Выходные метрики:
- Probability values: Вероятность принадлежности объекта к типу (выход классификаторов).
- Similarity values / Distance: Мера схожести или расстояния до прототипа кластера (выход генеративных моделей).
Пороговые значения (Thresholds/Cutoff values): Используются для принятия финального решения о присвоении типа.

Выводы

Автоматизация построения Knowledge Graph: Google активно использует машинное обучение для организации и классификации данных в своем хранилище фактов. Система не полагается только на явные указания типов в источниках (например, Schema.org), а вычисляет их автоматически в масштабе.
Атрибуты как ключевые индикаторы типа: Набор атрибутов, связанных с сущностью, является основным сигналом для определения ее типа. Наличие специфических атрибутов (например, «ISBN» vs «Дата рождения») позволяет моделям различать типы.
Использование контекста (Значения и Источники): Помимо атрибутов, система учитывает значения фактов (в обобщенном виде через Binning) и источники, из которых эти факты были получены, что повышает точность классификации.
Комплексный подход к ML: Патент описывает гибкую архитектуру, использующую как дискриминативные (классификаторы), так и генеративные (кластеризация) модели, а также semi-supervised методы (Expectation Maximization) для улучшения результатов с помощью неразмеченных данных.
Разрешение неоднозначности: Механизм эффективно решает проблему сущностей с одинаковыми именами, анализируя различия в их векторах признаков.

Практика

Best practices (это мы делаем)

Формирование четкого профиля сущности (Entity Definition): Критически важно предоставлять полный и стандартизированный набор атрибутов для вашего типа сущности. Если это компания (Organization) — адрес, отрасль, руководители, дата основания. Если автор (Person) — профессия, образование, список публикаций. Это формирует четкий Feature Vector для классификатора.
Активное использование Schema.org: Микроразметка является основным способом прямой передачи фактов (Атрибут-Значение) в Fact Repository. Используйте наиболее подходящий тип схемы и заполняйте максимальное количество релевантных свойств. Это предоставляет системе высококачественные признаки для Entity Type Assignment Engine.
Обеспечение согласованности данных (Consistency): Факты о ключевых сущностях должны быть согласованы на всех площадках (сайт, социальные сети, каталоги, Викиданные). Согласованные данные укрепляют уверенность классификатора.
Помощь в разрешении неоднозначности: Если имя сущности неоднозначно, предоставляйте сильные контекстные атрибуты и используйте sameAs ссылки на авторитетные источники для закрепления типа и идентичности.

Worst practices (это делать не надо)

Предоставление неоднозначной или смешанной информации: Если профиль сущности содержит атрибуты, характерные для разных, конфликтующих типов, системе будет сложно присвоить точный тип. Избегайте смешивания атрибутов (например, Person и Product) для одной сущности без четкого разделения.
Игнорирование Entity SEO и структурированных данных: Полагаться только на неструктурированный текст и игнорировать микроразметку. Это затрудняет извлечение фактов и заставляет систему угадывать тип с меньшей точностью.
Отсутствие ключевых определяющих атрибутов: Описание сущности без указания базовых атрибутов, определяющих ее тип. Например, описание эксперта без указания его квалификации и опыта.

Стратегическое значение

Патент подтверждает фундаментальную важность Entity-based SEO. Точная классификация сущности — это необходимый шаг для ее полноценного включения в Knowledge Graph и использования в семантическом поиске и системах оценки E-E-A-T. Долгосрочная стратегия должна быть сосредоточена на том, чтобы ключевые сущности были не только распознаны, но и корректно типированы поисковой системой, предоставляя четкие сигналы (Features) для ML-моделей Google.

Практические примеры

Сценарий: Обеспечение правильной классификации автора контента для E-E-A-T

Задача: Убедиться, что Google классифицирует Джона Доу как «Человека» (Author/Expert), а не как общую тему или другую сущность.
Действия (На основе патента): Необходимо предоставить атрибуты, которые сформируют Feature Vector, соответствующий модели эксперта.
- Создать детальную страницу биографии.
- Использовать разметку Person Schema.org.
- Указать атрибуты: jobTitle («Эксперт по питанию»), worksFor (организация), alumniOf (университеты/степени), knowsAbout (темы экспертизы).
Как это работает: Система извлекает эти атрибуты. Feature Vector Джона Доу будет включать признаки вроде a:jobTitle, a:alumniOf.
Результат: Этот вектор признаков с высокой вероятностью совпадет с Entity Type Model для «Person». Это приведет к корректной классификации сущности в Fact Repository и положительно повлияет на оценку E-E-A-T его контента.

Вопросы и ответы

Как этот патент связан с Google Knowledge Graph?

Патент описывает фундаментальный механизм для построения и организации Knowledge Graph (в патенте используется термин Fact Repository). Чтобы Граф Знаний был точным и полезным, сущности в нем должны быть правильно классифицированы (типизированы). Этот патент решает задачу автоматической типизации сущностей в масштабе интернета.

Какие именно признаки (features) Google использует для определения типа сущности?

Патент указывает три основных типа признаков, формирующих Feature Vector: 1) Атрибуты фактов (например, наличие атрибута «Дата рождения» или «ISBN»). 2) Пары Атрибут-Значение (причем значения могут быть обобщены или дискретизированы). 3) Источники, из которых были извлечены факты (URL или сайт). Комбинация этих признаков определяет тип.

Как SEO-специалист может помочь Google правильно классифицировать свои сущности?

Ключевая задача — предоставить четкие, полные и последовательные сигналы. Используйте структурированные данные (Schema.org) для явного указания типа и атрибутов. Убедитесь, что вы предоставляете атрибуты, ожидаемые для данного типа (например, образование и опыт для автора, цена и SKU для продукта). Согласованность информации на вашем сайте и внешних авторитетных ресурсах также критична.

Что произойдет, если Google неправильно классифицирует сущность?

Неправильная классификация может негативно сказаться на видимости и ранжировании. Например, если экспертный автор будет классифицирован неправильно, это может повредить оценке E-E-A-T его контента. Если продукт будет принят за информационную статью, он не будет показан в товарных блоках. Сущность будет обрабатываться с использованием неподходящих алгоритмов.

Может ли сущность иметь несколько типов одновременно?

Да. Патент упоминает, что сущность может иметь один или несколько типов, если они не конфликтуют. Например, объект может быть одновременно классифицирован как «Человек» и «Политик». Однако система учитывает конфликтующие типы: объект не может быть одновременно «Книгой» и «Человеком».

Что такое дискретизация значений (binning) и как она влияет на SEO?

Дискретизация — это преобразование числовых значений в категории для обобщения данных. В примере патента рост человека (>1м) и рост книги (<1м) получают разные категории. Это позволяет модели находить общие паттерны. Для SEO это означает, что предоставление реалистичных и стандартных значений для атрибутов (например, корректных дат, размеров, цен) помогает системе правильно типировать сущность.

Как система обрабатывает сущности с одинаковыми именами (например, «Ягуар» — машина или животное)?

Механизм разрешает неоднозначность, анализируя Feature Vectors. Хотя имена одинаковы, атрибуты будут разными. У животного будут атрибуты «Вид», «Ареал обитания», а у автомобиля — «Производитель», «Скорость». Система сравнит эти векторы с моделями «Животное» и «Автомобиль» и выберет наиболее подходящий тип на основе атрибутов.

Использует ли система только supervised (обучение с учителем) методы?

Патент описывает как supervised методы (классификаторы), так и генеративные методы (кластеризация). Он также упоминает возможность использования semi-supervised (частичное обучение) методов, таких как Expectation Maximization. Это позволяет системе использовать большие объемы неразмеченных данных (объекты с неизвестным типом) для уточнения моделей классификации.

Применяется ли этот алгоритм в реальном времени при обработке запроса?

Нет. Этот процесс является частью этапа индексирования и обслуживания хранилища фактов (описывается как процесс Janitor). Он выполняется офлайн или в фоновом режиме. Во время выполнения запроса Google уже использует предварительно вычисленные и сохраненные типы сущностей.

Как это влияет на E-E-A-T?

Корректная классификация сущностей является основой для оценки E-E-A-T. Чтобы оценить авторитетность автора или организации, Google должен сначала правильно определить их тип. Описанный механизм позволяет системе понять, является ли сущность, стоящая за контентом, квалифицированным источником, что критично для ранжирования YMYL-контента.