Как Google автоматически распознает новые сущности и определяет их класс, анализируя контекст и соседние известные сущности

Google использует систему для автоматического пополнения Графа Знаний. Когда в тексте обнаруживается новая сущность, система анализирует соседние известные сущности и лексический контекст (n-граммы), связывающий их. Комбинируя классы известных сущностей и классы, ассоциированные с контекстом, система вычисляет наиболее вероятный класс для новой сущности и добавляет ее в базу данных.

Описание

Какую задачу решает

Патент решает проблему своевременного и автоматического обновления баз знаний (например, Графа Знаний) информацией о новых сущностях, обнаруженных в неструктурированных документах (веб-страницах). Основная задача — обеспечить актуальность и полноту информации о мире без ручного вмешательства, автоматически определяя класс (тип) и атрибуты новых сущностей (New Entities).

Что запатентовано

Запатентована система для автоматического извлечения и классификации новых сущностей. Система идентифицирует неизвестный термин и определяет его класс (Entity Class), анализируя известные сущности (Known Entities) и лексический контекст (Context/N-grams), расположенные рядом с ним в тексте. Для определения класса используется «Эвристическая композиция» (Heuristic Composite), которая комбинирует оценки уверенности от контекста и известных сущностей.

Как это работает

Механизм работает следующим образом:

Обнаружение кандидата: В документе идентифицируется n-грамма, отсутствующая в текущей базе знаний (Entity Model).
Анализ окружения: Определяются известные сущности и контексты (например, глаголы или фразы), расположенные рядом (proximate) с новой сущностью.
Извлечение классов: Система извлекает классы известных сущностей (из Entity Model) и классы, обычно ассоциируемые с данным контекстом (Context Classes из Context Model).
Вычисление (Heuristic Composite): Оценки ассоциации (Association Scores) для классов из обоих источников комбинируются (например, перемножаются или усредняются) для расчета вероятности.
Классификация и хранение: Новой сущности присваивается класс с наивысшей комбинированной оценкой, и она добавляется в базу знаний.

Актуальность для SEO

Высокая. Автоматическое построение и обновление Графа Знаний является фундаментальным элементом современного поиска (включая применение моделей типа BERT и MUM). Поскольку новая информация и сущности появляются постоянно, эффективное извлечение фактов из неструктурированного текста остается критически важной задачей для Google и основой для оценки E-E-A-T.

Важность для SEO

Патент имеет критическое значение для SEO (90/100), особенно в области Entity-Based SEO. Он описывает фундаментальный механизм того, как Google узнает, чем является новый термин (например, название бренда, продукта или имя эксперта). Понимание этого механизма позволяет разрабатывать стратегии контента, которые обеспечивают быстрое и правильное распознавание и классификацию ключевых сущностей сайта поисковой системой.

Детальный разбор

Термины и определения

Association Score (Оценка ассоциации/уверенности): Числовая метрика, отражающая степень уверенности или связанности между элементами (например, между сущностью и классом). Рассчитывается с учетом частоты совместной встречаемости (co-occurrences), надежности источников (reliability weights), временных факторов (temporal weights) и близости элементов (proximity weights).
Context (Контекст): Лексическая конструкция (n-грамма: фраза, глагол) рядом с сущностью, которая придает ей смысл или указывает на ее отношения. Примеры: «was born on», «is married to».
Context Class (Класс контекста): Класс сущности, который обычно ассоциируется (имеет лексическую связь) с определенным контекстом. Например, контекст «is married to» связан с классом «Person».
Context Model / Context Graph (Модель контекста / Граф контекста): База данных (Context Database), хранящая контексты и связанные с ними Context Classes и Association Scores.
Entity (Сущность): Человек, место, вещь, идея, концепция. Может быть конкретным экземпляром или классом.
Entity Class (Класс сущности): Категоризация или тип сущности (например, «Person», «Baseball Player»).
Entity Model / Knowledge Graph (Модель сущности / Граф знаний): База данных (Entity Database), хранящая сущности, их классы, атрибуты и связи между ними.
Heuristic Composite (Эвристическая композиция): Метод расчета для комбинирования нескольких Association Scores (например, от контекста и известной сущности) для определения итоговой оценки. Может быть произведением, средним, взвешенным средним и т.д.
Known Entity (Известная сущность): Сущность, которая уже присутствует в Entity Model.
New Entity (Новая сущность): Сущность, обнаруженная в документе, которая еще не присутствует в Entity Model.
N-gram (N-грамма): Последовательность из N слов.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод извлечения и хранения информации о сущностях.

Система обнаруживает n-грамму в документе.
Определяется, что это Новая сущность (путем проверки отсутствия в Entity Model).
Обнаруживается Известная сущность, расположенная рядом (позиционно близко — positionally proximate) с новой сущностью в тексте.
Обнаруживается Контекст (лексическое отношение), расположенный рядом как с новой, так и с известной сущностью.
Определяется класс известной сущности (Second Entity Class) и класс, ассоциированный с контекстом (Context Class).
Генерируется класс для новой сущности (First Entity Class) на основе Second Entity Class и Context Class.
В базу данных (Entity Model) добавляется запись, отражающая эту связь, для поддержания актуальности базы для поисковых запросов.
Предоставляется доступ к обновленной модели поисковой системе.

Claim 3 и 4 (Зависимые): Детализируют механизм генерации класса новой сущности.

Класс генерируется на основе Association Scores: (i) оценки связи между известной сущностью и ее классом, и (ii) оценки связи между контекстом и его классом. Эти оценки комбинируются с помощью Heuristic Composite (например, усреднение, взвешенное усреднение или произведение).

Claim 5 (Зависимый): Уточняет, что система также генерирует итоговую Association Score для связи между новой сущностью и ее новым классом, основываясь на исходных оценках.

Claim 7 и 8 (Зависимые): Описывают итеративное улучшение. Система может обнаружить другую известную сущность рядом с новой сущностью (в том же или другом документе) и обновить класс новой сущности на основе класса этой другой известной сущности.

Claim 9 (Зависимый): Система может определять суперклассы (Superclass) для нового класса и обновлять модель, отражая эту иерархию.

Где и как применяется

Изобретение в первую очередь относится к этапу построения и обновления Графа Знаний.

CRAWLING – Сканирование и Сбор данных
Система использует данные, собранные краулерами, в качестве входного материала (документов) для анализа.

INDEXING – Индексирование и извлечение признаков
Основное применение патента. В процессе обработки контента (Feature Extraction) система анализирует неструктурированный текст для извлечения фактов, распознавания новых сущностей, определения их классов и отношений. Это процесс обогащения данных и построения Entity Model и Context Model.

QUNDERSTANDING, RANKING
Эти этапы используют результаты работы системы. Обновленный Граф Знаний (Entity Model) позволяет лучше понимать запросы, содержащие новые сущности, и точнее ранжировать документы, связанные с ними.

Входные данные:

Неструктурированный текст (документы, веб-страницы).
Существующая Entity Model (Граф Знаний).
Существующая Context Model (Граф Контекстов).

Выходные данные:

Обновленная Entity Model (добавлены новые сущности, классы, атрибуты и обновлены Association Scores).

На что влияет

Конкретные типы контента и ниши: Влияет на любой контент, содержащий факты и сущности. Особенно важно для новостного контента, биографий, каталогов продуктов, научных статей — везде, где появляются новые сущности (новые люди, продукты, открытия, концепции).
Специфические запросы: Улучшает ответы на запросы, связанные с сущностями, особенно новыми или развивающимися темами, позволяя поисковой системе быстрее «узнавать» о них.

Когда применяется

Триггеры активации: Алгоритм активируется во время индексации или повторной индексации документа, когда система обнаруживает n-грамму, которая потенциально является сущностью (например, идентифицирована как существительное), но отсутствует в текущей Entity Model.
Временные рамки: Применяется постоянно в процессе обработки потока новых и обновленных документов.

Пошаговый алгоритм

Описание процесса идентификации и классификации новой сущности (на основе FIG. 3-7).

Загрузка и парсинг документа: Документ загружается и разбивается на разделы (например, предложения или абзацы).
Идентификация кандидатов: В тексте выделяются потенциальные сущности (например, с помощью NLP-анализа для определения существительных).
Определение новой сущности: Кандидаты сравниваются с существующей Entity Model. Если кандидат отсутствует, он помечается как Новая сущность.
Анализ окружения: Для новой сущности идентифицируются близлежащие (в пределах заданного порога близости или в том же разделе):
- Известные сущности (присутствующие в Entity Model).
- Контексты (n-граммы, указывающие на отношения).
Извлечение классов и оценок:
- Из Entity Model извлекаются классы Известных сущностей и их Association Scores.
- Из Context Model извлекаются Context Classes (классы, которые обычно принимает данный контекст) и их Association Scores.
Вычисление Heuristic Composite: Для каждого потенциального класса вычисляется комбинированная оценка путем применения оператора (например, произведения или взвешенного среднего) к Association Score от известной сущности и Association Score от контекста.
Определение класса новой сущности: Выбирается класс с наивысшей комбинированной оценкой. Могут применяться пороги для отсечения маловероятных классификаций.
Обновление модели: Новая сущность и ее связь с определенным классом (включая итоговую Association Score) сохраняются в Entity Model.
Итеративное уточнение (Опционально): При обработке последующих документов информация о сущности может быть уточнена (FIG. 8, FIG. 9).

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании структурных и контентных факторов для извлечения информации.

Контентные факторы: Текст документа, n-граммы, представляющие потенциальные сущности и контексты.
Структурные факторы (внутри текста): Позиционная близость (positionally proximate) между новой сущностью, известной сущностью и контекстом в рамках текста (прозы).
Системные данные: Предварительно вычисленные данные из Entity Model (известные сущности, их классы, атрибуты, Association Scores) и Context Model (контексты, их классы, Association Scores).

Какие метрики используются и как они считаются

Association Score (Оценка ассоциации): Ключевая метрика уверенности. В патенте упоминается, что она может рассчитываться на основе частоты совместного появления (co-occurrence) и различных весов:
- Надежности источников (reliability weights).
- Временных весов/свежести (temporal weights).
- Весов популярности (popularity weights).
- Весов близости (proximity weights).
Приведены примеры формул, основанных на условной вероятности или отношении числа совместных появлений к общему числу появлений с учетом весов.
Heuristic Composite (Эвристическая композиция): Комбинированная метрика, рассчитываемая на основе двух или более Association Scores. Патент явно указывает на использование операций: среднее (average), взвешенное среднее (weighted average) или произведение (product).
Пороги близости: Используются для определения того, находятся ли сущности и контекст достаточно близко друг к другу в тексте для установления связи.

Выводы

Автоматическое расширение Графа Знаний: Патент описывает конкретный механизм для автоматического обнаружения и добавления новых сущностей в базу знаний Google без ручного вмешательства, что позволяет системе масштабироваться и адаптироваться к новой информации.
Контекст и совместное появление (Co-occurrence) критичны для классификации. Google определяет тип новой сущности не изолированно, а исключительно на основе того, рядом с какими известными сущностями она появляется и какие лексические паттерны (контексты) их связывают.
Количественный подход к классификации (Heuristic Composite). Классификация основана на комбинировании вероятностей (Association Scores). Система вычисляет уверенность, объединяя сигнал от контекста и сигнал от известных сущностей для разрешения неоднозначностей.
Влияние авторитетности и свежести. При расчете базовых Association Scores могут учитываться reliability weights (надежность источников) и temporal weights (свежесть). Это означает, что информация из авторитетных и свежих источников имеет больший вес.
Динамичность и итеративность. Патент описывает механизм постоянного обновления и уточнения данных по мере обработки новых документов. Классификация сущности может эволюционировать со временем.

Практика

Best practices (это мы делаем)

Обеспечивайте четкую связь новых сущностей с известными. При представлении новой сущности (продукта, сотрудника, услуги) убедитесь, что она упоминается в тексте рядом с уже известными и авторитетными сущностями той же категории. Например, представляя новый смартфон, сравнивайте его с iPhone или Samsung Galaxy.
Используйте точные и недвусмысленные контексты (глаголы и фразы). Выбирайте лексические конструкции, которые имеют сильные и четкие ассоциации с желаемым классом сущности. Вместо «работает с» используйте более точные контексты, такие как «разработал алгоритм для» или «является альтернативой».
Структурируйте контент для легкого извлечения фактов. Пишите четкие предложения, где субъект, предикат (контекст) и объект находятся в непосредственной близости (positional proximity). Это облегчает системе идентификацию всех ключевых компонентов.
Обеспечивайте консистентность упоминаний на авторитетных ресурсах. Поскольку система работает итеративно и может учитывать reliability weights, важно обеспечить последовательное и непротиворечивое упоминание сущностей в правильном контексте, особенно на трастовых внешних площадках (СМИ, отраслевые блоги).

Worst practices (это делать не надо)

Изолированное упоминание сущностей. Создание страниц о сущностях без четких связей с другими известными концепциями или сущностями затрудняет их классификацию, так как отсутствуют данные для расчета Heuristic Composite.
Использование двусмысленного или расплывчатого языка. Применение контекстов, которые могут относиться к слишком широкому спектру классов, снижает уверенность системы (Association Score) в конкретной классификации.
Разделение связанных сущностей в тексте. Размещение связанных сущностей слишком далеко друг от друга (например, в разных абзацах) может помешать системе установить между ними связь из-за требований к близости.

Стратегическое значение

Этот патент подтверждает фундаментальную важность перехода к сущностям и отношениям (Entity-Oriented Search). Он детально описывает механизм автоматизированного извлечения фактов из неструктурированного текста для построения Графа Знаний. Стратегическое значение для SEO заключается в необходимости думать о контенте как об источнике данных для извлечения: текст должен быть не только читабельным, но и легко парситься машиной для идентификации сущностей и контекстов, связывающих их. Это основа для построения E-E-A-T.

Практические примеры

Сценарий: Классификация нового программного продукта «MyNewCRM»

Цель: Чтобы Google быстро классифицировал «MyNewCRM» как CRM-систему.

Выбор известных сущностей: Salesforce, HubSpot, CRM (как концепция).
Выбор контекстов: «интегрируется с», «является альтернативой», «управляет контактами».
Реализация в контенте: Написать пресс-релиз: «Сегодня мы запускаем MyNewCRM (Новая сущность), новую CRM-систему. В отличие от Salesforce (Известная сущность), MyNewCRM предлагает более простую интеграцию. MyNewCRM интегрируется с (Контекст) HubSpot (Известная сущность) для улучшения лидогенерации».
Ожидаемый результат: Система обнаружит «MyNewCRM». Она увидит близость к «Salesforce» и «HubSpot» (Класс: CRM) и контексты («интегрируется с», «является альтернативой»), которые также ассоциируются с этим классом. Heuristic Composite даст высокую оценку для класса «CRM-система», и «MyNewCRM» будет корректно классифицирован.

Вопросы и ответы

Что такое «Heuristic Composite» и почему это важно?

Heuristic Composite — это вычисляемое значение, которое определяет итоговую уверенность системы в классификации новой сущности. Он рассчитывается путем комбинирования (например, перемножения или усреднения) оценок уверенности (Association Scores) от окружающего контекста и известных сущностей. Это важно, потому что именно это значение определяет, как Google классифицирует вашу сущность и насколько он уверен в этой классификации.

Как система определяет, является ли термин новой сущностью?

Система сначала идентифицирует потенциальных кандидатов в тексте (часто путем распознавания существительных или на основе контекстных подсказок). Затем она проверяет, присутствует ли этот кандидат в существующей базе знаний (Entity Model или Граф Знаний). Если кандидат отсутствует в базе, он помечается как New Entity, и запускается процесс его классификации.

Что важнее для классификации новой сущности: контекст или известные сущности рядом?

Важны оба элемента. Система использует комбинацию сигналов через Heuristic Composite. Сильный сигнал от одного может компенсировать более слабый сигнал от другого. Для максимальной эффективности необходимо, чтобы и контекст, и известные сущности указывали на один и тот же класс.

Как этот патент связан с E-E-A-T и авторитетностью источников?

Связь прослеживается через механизм расчета Association Scores. В патенте явно упоминается возможность использования reliability weights (весов надежности) источников при вычислении этих оценок. Это означает, что информация из авторитетных и надежных источников (высокий E-E-A-T) будет иметь больший вес при определении класса новой сущности и формировании связей в Графе Знаний.

Что делать, если Google неправильно классифицировал мою сущность (бренд/продукт)?

Необходимо провести аудит контента, в котором упоминается ваша сущность. Затем нужно скорректировать контент-стратегию, чтобы обеспечить большее количество упоминаний в правильном контексте и в окружении релевантных известных сущностей. Патент предполагает итеративный процесс (FIG. 9), поэтому со временем система переоценит класс и обновит Association Score.

Как ускорить попадание нового бренда в Граф Знаний с помощью этого механизма?

Необходимо обеспечить «засев» информации на авторитетных ресурсах (используя reliability weights), используя максимально четкие лексические контексты, указывающие на тип сущности, и активно формируя совместную встречаемость (co-occurrence) с уже известными сущностями из вашей ниши. Консистентность упоминаний критически важна.

Влияет ли близость терминов в тексте на классификацию?

Да, критически. Патент требует, чтобы Known Entity и Context были расположены рядом (positionally proximate) с New Entity. Кроме того, при расчете Association Scores могут использоваться proximity weights (веса близости), что означает, что чем ближе расположены элементы друг к другу, тем сильнее может быть их влияние на классификацию.

Может ли этот механизм определять атрибуты сущности, а не только ее класс?

Да. Хотя основной фокус патента на определении класса, механизм также может использоваться для определения атрибутов и их значений (FIG. 6). Например, если новая сущность встречается в контексте «имеет размер, похожий на» рядом с известной сущностью «Земля», система может не только классифицировать новую сущность как планету, но и присвоить ей атрибут размера.

Учитывает ли система свежесть информации при классификации?

Да. Патент упоминает возможность использования temporal weights (временных весов) при расчете Association Scores. Это позволяет системе придавать больший вес более свежим документам и ассоциациям, что важно для отслеживания изменений в классификации или атрибутах сущностей с течением времени.

Использует ли система микроразметку (Schema.org) в этом процессе?

Патент описывает извлечение информации из неструктурированного текста (прозы) и не упоминает микроразметку. Это механизм для понимания контента, когда разметка отсутствует или ей нельзя доверять. Однако микроразметка остается лучшим способом явно указать классы и атрибуты сущностей, дополняя этот процесс.