Как Google использует NLP для понимания сравнений сущностей и оценки правдоподобности действий в тексте

Google использует систему автоматизированного понимания текста для решения двух задач. Во-первых, она определяет сходства и различия между сущностями (например, продуктами) на основе их атрибутов и сравнительных сигналов в тексте. Во-вторых, система оценивает вероятность того, что субъект может выполнить описанное действие, сравнивая его со статистической моделью «реальности», построенной на корпусе эталонных текстов, что позволяет выявлять неправдоподобные утверждения.

Описание

Какую задачу решает

Патент решает задачу глубокого семантического анализа текста, выходящего за рамки простого извлечения фактов. Он направлен на две ключевые проблемы:

Понимание сравнений: Как автоматически определить сходства и различия между двумя разными сущностями, описанными в тексте, особенно когда эти отношения выражены косвенно (например, через местоимения или подразумеваемые атрибуты).
Оценка правдоподобности (Performability): Как оценить, является ли действие, приписываемое субъекту в тексте, правдоподобным или возможным, основываясь на статистической модели, извлеченной из эталонного корпуса текстов.

Это улучшает способность поисковой системы отвечать на сложные информационные запросы и точнее интерпретировать контент.

Что запатентовано

Запатентована система автоматизированного понимания прочитанного (Automated Reading Comprehension), которая анализирует сегменты текста для структурирования информации. Система использует передовые методы NLP, такие как разрешение кореференции (co-reference resolution) и дополнение объекта (object completion), для генерации нормализованных утверждений (textual rewrites). Эти утверждения используются для выявления сходств/различий между сущностями и для оценки правдоподобности действий субъектов путем сравнения со статистикой (performability statistics), полученной из анализа больших корпусов текста.

Как это работает

Система работает в двух основных направлениях:

Сравнение сущностей:

Текст обрабатывается Annotator и Entity Identification Engine для выявления сущностей и их атрибутов.
Система нормализует описания, создавая textual rewrites. Например, фраза «У Боба седые волосы, а у Тома нет» преобразуется в «У Боба седые волосы» и «У Тома нет седых волос».
Используются сигналы сравнения/контраста («в отличие от», «однако») и Synonym/Antonym Engine для определения сходств и различий в рамках одного класса атрибутов (attribute class).

Оценка правдоподобности действий:

Subject/Action Identification Engine определяет пары субъект-действие (например, «собака танцевала»).
Performability Statistics Engine заранее анализирует эталонный корпус (например, новости) для создания модели того, какие классы субъектов обычно выполняют какие действия.
Subject/Action Performability Engine сравнивает пару из текста с этой моделью. Если действие маловероятно для данного класса субъекта (например, собака танцует), система может пометить это как «персонификацию» (personification) или неправдоподобное утверждение.

Актуальность для SEO

Высокая. Патент описывает фундаментальные задачи NLP и извлечения знаний, которые лежат в основе современных поисковых технологий Google (BERT, MUM). Понимание нюансов отношений между сущностями и оценка достоверности информации критически важны для построения Knowledge Graph и улучшения качества поиска, особенно в контексте E-E-A-T и борьбы с дезинформацией.

Важность для SEO

Патент имеет высокое стратегическое значение (8/10). Он раскрывает механизмы, с помощью которых Google стремится понимать контент на уровне фактов, отношений и правдоподобности. Это напрямую влияет на то, как следует структурировать контент, особенно сравнительный, и подчеркивает важность точности и ясности изложения для корректной интерпретации текста поисковой системой. Способность системы оценивать «правдоподобность» утверждений также указывает на развитие алгоритмов оценки достоверности контента.

Детальный разбор

Термины и определения

Annotator (Аннотатор): Компонент, который обрабатывает сегмент текста для выявления и аннотирования грамматической информации (части речи, синтаксические связи).
Attribute Class (Класс атрибутов): Категория, к которой принадлежат атрибуты сущностей. Сравнение производится только между атрибутами одного класса (например, цвет волос одной сущности сравнивается с цветом волос другой).
Automated Reading Comprehension (Автоматизированное понимание прочитанного): Способность системы анализировать текст и демонстрировать понимание, например, отвечая на вопросы о нем или структурируя информацию.
Co-reference Resolution (Разрешение кореференции): Процесс определения того, какие слова (например, местоимения «он», «она», «они») относятся к одним и тем же сущностям или субъектам в тексте.
Entity Identification Engine (Механизм идентификации сущностей): Компонент, отвечающий за выявление сущностей и их атрибутов в тексте, используя NLP-техники.
Object Completion (Дополнение объекта): Техника для вывода атрибутов или действий, когда они описаны косвенно. Например, во фразе «У пауков 8 ног, у муравьев 6», система дополняет объект для муравьев: «у муравьев 6 ног».
Performability Statistics (Статистика выполнимости/правдоподобности): Данные, собранные путем анализа эталонного корпуса документов, показывающие, насколько вероятно, что определенный класс субъектов может выполнить определенное действие.
Personification (Персонификация): Индикация того, что нечеловеческому субъекту приписывается действие, которое, согласно Performability Statistics, характерно преимущественно для человека (например, «собака танцевала»).
Reading Comprehension Engine (Механизм понимания прочитанного): Основной компонент, который использует данные от других механизмов для определения сходств и различий между сущностями.
Subject/Action Performability Engine (Механизм оценки правдоподобности действий субъекта): Компонент, который определяет вероятность того, что субъект способен выполнить связанное с ним действие, основываясь на Performability Statistics.
Textual Rewrite (Текстовая перезапись): Нормализованное предложение, которое прямо описывает отношение между сущностью и атрибутом или субъектом и действием. Используется для упрощения сравнения и анализа утверждений.

Ключевые утверждения (Анализ Claims)

Патент разделен на два основных блока утверждений.

Блок 1: Сравнение сущностей (Claims 1, 11, 20)

Claim 1 (Независимый пункт): Описывает метод сравнения сущностей в контексте ответов на вопросы (Reading Comprehension Test).

Система идентифицирует первую и вторую (отличную от первой) сущности в тексте.
Определяется, что атрибут первой сущности и атрибут второй сущности принадлежат к одному Attribute Class.
В ответ на это система предоставляет индикацию того, являются ли эти атрибуты схожими или различными.
Ключевой элемент: Генерируется Textual Rewrite на основе «варианта ответа» (answer choice), который косвенно описывает отношение для второй сущности.

Claim 11 (Независимый пункт): Описывает аналогичный процесс, но генерация Textual Rewrite происходит на основе самого текста, а не варианта ответа.

Идентификация двух различных сущностей.
Определение второго атрибута на основе части текста, которая прямо описывает первый атрибут первой сущности и косвенно — второй атрибут второй сущности (используя Object Completion).
Определение общего Attribute Class.
Предоставление индикации сходства/различия.
Генерация Textual Rewrite, прямо описывающего отношение между второй сущностью и вторым атрибутом.

Блок 2: Оценка правдоподобности действий (Claims 13, 20)

Claim 13 (Независимый пункт, представлен как описание системы): Описывает метод оценки правдоподобности действий.

Система идентифицирует в тексте субъект и действие, выполняемое этим субъектом.
Определяется вероятность того, что это действие выполнимо классом субъектов, к которому принадлежит данный субъект.
Эта вероятность основана на анализе множества эталонных субъектов и действий, найденных в корпусе текстовых документов (corpus of textual documents).
Система предоставляет индикацию этой вероятности.

Claim 19 (Зависимый от 18): Уточняет выбор корпуса для анализа.

Корпус документов для генерации статистики ограничивается документами, которые содержат количество персонифицированных сущностей ниже определенного порога (т.е. используются «реалистичные» тексты для построения базовой модели реальности).

Где и как применяется

Изобретение затрагивает ключевые этапы обработки информации в поисковой системе, связанные с пониманием контента и запросов.

INDEXING – Индексирование и извлечение признаков

Основной этап применения. Система функционирует как сложный механизм извлечения признаков (Feature Extraction).

Анализ контента: Annotator, Entity Identification Engine и Subject/Action Identification Engine анализируют документы для выявления сущностей, атрибутов, субъектов и действий.
Структурирование данных: Reading Comprehension Engine и Subject/Action Performability Engine преобразуют неструктурированный текст в структурированные данные (сравнения, факты, оценки правдоподобности) с помощью Textual Rewrites.
Офлайн-анализ: Performability Statistics Engine анализирует большие корпусы текстов (офлайн) для создания статистических моделей реальности.
Сохранение: Извлеченная информация может аннотировать документы в индексе или пополнять Knowledge Graph (Index 127).

QUNDERSTANDING – Понимание Запросов

Система использует те же NLP-компоненты для анализа запросов пользователя (Real-time Question 142). Она может определить, что запрос ищет сравнение между сущностями (например, «чем отличается А от Б») или запрашивает оценку правдоподобности (например, «может ли X делать Y»).

RANKING – Ранжирование

Ranking Engine (130) может использовать извлеченные данные как сигналы ранжирования. Глубокое понимание отношений между сущностями и способность оценивать правдоподобность утверждений позволяют точнее определять релевантность и качество контента.

METASEARCH – Метапоиск и Смешивание

Система напрямую предназначена для генерации ответов на информационные запросы. Это может использоваться для формирования Featured Snippets или блоков прямых ответов, предоставляя пользователю структурированное сравнение или оценку правдоподобности.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на информационный контент, где важны факты и отношения:
- Сравнительные обзоры продуктов (сравнение атрибутов).
- Научные и новостные статьи (оценка правдоподобности утверждений).
- Биографии и энциклопедические статьи (структурирование фактов о сущностях).
Специфические запросы: Влияет на информационные запросы, требующие синтеза информации (сравнительные, уточняющие).
Оценка достоверности (E-E-A-T): Механизм оценки правдоподобности может использоваться для оценки достоверности контента. Контент, содержащий много «неправдоподобных» утверждений (по сравнению с эталонным корпусом), может быть классифицирован как менее надежный или принадлежащий к определенному жанру (например, фантастика, сатира).

Когда применяется

Аспект 1 (Сравнение):

Триггеры активации: Наличие в тексте нескольких сущностей и сигналов сравнения/контраста («однако», «в отличие от», «оба»). Также активируется при обработке запроса, явно ищущего сравнение.

Аспект 2 (Правдоподобность):

Триггеры активации: Идентификация пар субъект-действие в тексте. Особенно активируется, когда субъект является нечеловеческим, а действие потенциально характерно для человека.
Условия применения: Наличие предварительно рассчитанной модели Performability Statistics, основанной на подходящем эталонном корпусе.

Пошаговый алгоритм

Процесс А: Сравнение сущностей (на основе Claims 1 и 11)

Аннотирование: Сегмент текста обрабатывается Annotator для разметки грамматической структуры.
Идентификация сущностей: Entity Identification Engine идентифицирует первую и вторую сущности в тексте (может быть инициировано вопросом о тексте).
Идентификация атрибутов: Определяются атрибуты этих сущностей. Это включает:
- Разрешение кореференции (Co-reference Resolution) для связи местоимений с сущностями.
- Дополнение объекта (Object Completion), если атрибут второй сущности описан косвенно через атрибут первой.
Генерация Textual Rewrites: Система генерирует нормализованные предложения, прямо описывающие отношения сущность-атрибут для обеих сущностей.
Определение класса атрибутов: Система проверяет, принадлежат ли атрибуты к одному Attribute Class (например, используя Synonym/Antonym Engine или Knowledge Graph).
Сравнение: Reading Comprehension Engine сравнивает Textual Rewrites, учитывая сигналы сравнения/контраста в тексте.
Вывод результата: Предоставляется индикация сходства или различия между атрибутами (и, следовательно, между сущностями).

Процесс Б: Оценка правдоподобности действий (на основе Claim 13)

Этап 1: Офлайн-подготовка модели

Выбор корпуса: Выбирается эталонный корпус документов (например, нехудожественная литература, новости).
Анализ корпуса: Performability Statistics Engine анализирует корпус для идентификации эталонных пар субъект-действие.
Генерация статистики: Рассчитывается Performability Statistics — вероятность выполнения действий различными классами субъектов.

Этап 2: Анализ текста в реальном времени/при индексации

Идентификация пар: Subject/Action Identification Engine идентифицирует пару субъект-действие в анализируемом тексте.
Определение класса субъекта: Определяется класс субъекта (например, человек, животное).
Расчет вероятности: Subject/Action Performability Engine определяет вероятность того, что данный класс субъекта может выполнить это действие, используя Performability Statistics.
Вывод результата: Предоставляется индикация вероятности (правдоподобно/неправдоподобно). Если субъект нечеловеческий и действие маловероятно, может быть выдана индикация Personification.

Какие данные и как использует

Данные на входе

Контентные факторы: Основные данные — это сам текст (Segment of Text). Анализируются слова, грамматика, синтаксис, пунктуация. Особое внимание уделяется:
- Существительным и местоимениям (для идентификации сущностей/субъектов).
- Глаголам (для идентификации действий).
- Прилагательным и наречиям (для идентификации атрибутов).
- Словам-сигналам сравнения и контраста («however», «while», «both», «unlike»).
Системные данные:
- Synonym/Antonym Index (129): Используется для определения синонимов/антонимов атрибутов и действий.
- Performability Statistics: Предварительно рассчитанные статистические модели вероятности выполнения действий.
- Аннотации текста (от Annotator 252): Грамматическая разметка.
Пользовательские факторы (Опционально): Запрос пользователя (Real-time Question 142) может инициировать анализ и определить его фокус.

Какие метрики используются и как они считаются

Патент не приводит конкретных формул, но описывает следующие ключевые метрики и методы:

Attribute Class Membership: Определение принадлежности атрибутов к одному классу. Вероятно, основано на семантической близости в векторном пространстве или связях в Knowledge Graph.
Likelihood of Performability (Вероятность выполнимости): Статистическая вероятность того, что класс субъекта может выполнить действие. Рассчитывается на основе частоты встречаемости пар субъект-действие в эталонном корпусе.
Veracity of Answer Choice (Достоверность варианта ответа): Оценка истинности утверждения путем сравнения Textual Rewrites, сгенерированных из варианта ответа, с Textual Rewrites, сгенерированными из основного текста.
Threshold of Personified Entities (Порог персонифицированных сущностей): Пороговое значение, используемое для фильтрации документов при создании эталонного корпуса (Claim 19).

Выводы

Глубокое понимание отношений между сущностями: Google активно развивает технологии для понимания не только фактов о сущностях, но и того, как они соотносятся друг с другом. Система стремится выявлять сходства и различия на уровне конкретных атрибутов.
Нормализация утверждений через Textual Rewrites: Ключевым механизмом является преобразование сложных или косвенных описаний в простые, прямые утверждения (Textual Rewrites). Это позволяет системе сравнивать факты, даже если они выражены по-разному.
Критичность NLP-техник: Успешная работа системы зависит от точности базовых NLP-процессов, таких как разрешение кореференции (понимание местоимений) и дополнение объекта. Грамматическая и стилистическая ясность текста критична для корректной интерпретации.
Моделирование «Реальности» и оценка правдоподобности: Патент описывает механизм построения статистической модели реальности на основе эталонных текстов (например, новостей). Утверждения в анализируемом контенте могут сравниваться с этой моделью для оценки их правдоподобности (Performability). Это важный шаг к автоматической оценке достоверности контента.
Применение для ответов на запросы: Описанные технологии напрямую поддерживают способность Google давать прямые ответы на сложные информационные и сравнительные запросы (Featured Snippets).

Практика

Best practices (это мы делаем)

Ясность и однозначность изложения: Пишите текст так, чтобы минимизировать двусмысленность. Используйте четкие грамматические конструкции. Это поможет Annotator и механизмам разрешения кореференции правильно связать местоимения и атрибуты с нужными сущностями.
Использование явных сигналов сравнения: При создании сравнительного контента (например, обзоров продуктов) используйте явные слова и фразы для сравнения и контраста («в отличие от», «однако», «аналогично», «оба»). Патент подтверждает, что система ищет эти сигналы.
Структурирование сравнительных данных: Помогайте системе идентифицировать Attribute Class. При сравнении двух продуктов убедитесь, что вы сравниваете сопоставимые характеристики (например, разрешение камеры А с разрешением камеры Б). Таблицы и списки могут помочь в этом.
Фактическая точность и реалистичность (E-E-A-T): Учитывайте, что Google может оценивать правдоподобность утверждений в вашем тексте. В информационном и новостном контенте избегайте утверждений, которые могут быть сочтены статистически неправдоподобными согласно модели Performability Statistics. Это укрепляет достоверность ресурса.
Оптимизация под ответы на сравнительные запросы: Создавайте контент, который четко отвечает на вопросы типа «Чем А отличается от Б?». Убедитесь, что сравнение логично и основано на фактах, изложенных в тексте.

Worst practices (это делать не надо)

Сложные и запутанные предложения: Использование длинных предложений с множеством местоимений и косвенных ссылок увеличивает риск того, что система неправильно выполнит Co-reference Resolution или Object Completion, что приведет к извлечению неверных фактов.
Неявные сравнения без сигналов: Полагаться на то, что пользователь (и Google) самостоятельно сделает выводы из разрозненных фактов. Если сравнение является целью контента, оно должно быть явным.
Гиперболизация и неправдоподобные утверждения в информационном контенте: Представление статистически маловероятных фактов как истины может привести к тому, что система классифицирует контент как недостоверный или «make-believe» (вымысел), что негативно скажется на ранжировании в основном поиске.

Стратегическое значение

Этот патент подтверждает стратегический курс Google на переход от индексирования строк к индексированию фактов и отношений (Things not Strings). Система стремится не просто найти текст, соответствующий запросу, а понять его смысл, структуру и достоверность. Для SEO это означает, что качество контента все больше определяется его семантической точностью, логической структурой и фактической достоверностью. Работа над Topical Authority должна включать не только освещение сущностей, но и четкое описание взаимосвязей и сравнений между ними.

Практические примеры

Сценарий: Оптимизация сравнительного обзора двух смартфонов

Плохая практика (Трудно для анализа):
«У iPhone 15 отличная камера на 48Мп. Он делает яркие снимки. У Samsung S25 тоже хорошая камера. У него 50Мп. Ночью он снимает лучше.»

Проблема: Сравнение неявное, используется местоимение «Он»/«У него», что требует точного разрешения кореференции. Связь «лучше ночью» не структурирована.

Хорошая практика (Оптимизировано согласно патенту):
«Сравним камеры iPhone 15 и Samsung S25. Разрешение основной камеры у iPhone 15 составляет 48Мп, в то время как у Samsung S25 оно немного выше — 50Мп. Оба смартфона делают яркие снимки днем. Однако, в условиях низкой освещенности Samsung S25 показывает лучшие результаты по сравнению с iPhone 15.»

Преимущества:

Сущности четко определены.
Используются явные сигналы контраста («в то время как», «Однако», «по сравнению с»).
Сравниваются атрибуты одного класса (разрешение, качество съемки).
Минимум местоимений, что упрощает анализ.

Вопросы и ответы

Что такое «Textual Rewrite» и почему это важно для SEO?

Textual Rewrite — это процесс, при котором Google нормализует сложные или косвенно выраженные предложения в простые, прямые утверждения. Например, фраза «В отличие от Боба, который любит яблоки, Том их терпеть не может» может быть переписана как «Боб любит яблоки» и «Том не любит яблоки». Для SEO это важно, потому что показывает: Google стремится извлекать четкие факты из текста. Если ваш текст написан запутанно, система может извлечь неверные факты или не извлечь их вовсе.

Что такое «Object Completion» и как его учитывать при написании текстов?

Object Completion (дополнение объекта) — это когда система выводит подразумеваемую информацию. Например, во фразе «У iPhone 15 батарея 4000mAh, а у Samsung 4500mAh», система дополнит объект для Samsung: «У Samsung батарея 4500mAh». При написании текстов нужно следить, чтобы такие сокращенные конструкции были грамматически корректны и однозначны, чтобы система правильно дополнила информацию, а не приписала атрибут не той сущности.

Как патент влияет на создание сравнительных обзоров?

Патент напрямую нацелен на понимание сравнительного контента. Он подтверждает, что Google ищет явные сигналы сравнения и контраста («однако», «в отличие от») и пытается сравнивать атрибуты одного класса. Для успеха сравнительных обзоров критически важно четко структурировать информацию, явно указывать на сходства и различия и использовать соответствующую лексику, чтобы помочь системе корректно интерпретировать сравнение.

Что такое «Performability Statistics» и как это связано с E-E-A-T?

Performability Statistics — это статистическая модель «реальности», которую Google строит, анализируя эталонные корпусы текстов (например, новости). Она показывает, какие действия обычно выполняются какими субъектами. Это напрямую связано с достоверностью (Trust) в E-E-A-T. Если ваш контент содержит утверждения, которые система считает статистически неправдоподобными (например, «кошки умеют читать»), это может снизить оценку достоверности контента или привести к его классификации как вымысла.

Как система определяет, что является «реалистичным» для оценки правдоподобности?

Патент указывает (Claim 19), что для построения модели реальности система выбирает корпус документов с низким уровнем «персонификации». Это означает, что за основу берутся тексты, считающиеся фактическими и реалистичными, например, новостные сводки, научные статьи или энциклопедии. Модель реальности зависит от того, какой корпус выбран в качестве эталона.

Означает ли этот патент, что нельзя использовать метафоры или персонификацию в текстах?

Нет, но он означает, что Google пытается распознать такие приемы. Если система распознает, что субъект «персонифицирован» (например, животное выполняет человеческое действие), она может классифицировать контент как художественный или менее фактический. В информационном контенте, где важна точность, злоупотребление такими приемами может снизить достоверность в глазах системы.

Насколько важна грамматическая правильность текста в контексте этого патента?

Критически важна. Система полагается на точное аннотирование грамматических структур (Annotator) и разрешение кореференции (Co-reference Resolution). Ошибки в согласовании, неправильное использование местоимений или слишком сложные предложения могут привести к тому, что система неправильно свяжет атрибуты с сущностями или действия с субъектами.

Как система определяет, какие атрибуты можно сравнивать?

Система сравнивает атрибуты, принадлежащие к одному Attribute Class. Например, можно сравнить цвет одной машины с цветом другой, но не цвет одной машины с размером двигателя другой. Система определяет принадлежность к классу, вероятно, используя Knowledge Graph или семантический анализ (например, через Synonym/Antonym Engine).

Используется ли эта система для генерации Featured Snippets?

Да, описанные технологии идеально подходят для генерации Featured Snippets, особенно для сравнительных запросов. Способность системы извлекать сходства и различия и представлять их в виде нормализованных утверждений (Textual Rewrites) позволяет формировать четкие и структурированные ответы, которые часто появляются в блоках ответов.

Связан ли этот патент с Knowledge Graph?

Да, очень тесно. Извлечение структурированных данных о сущностях, их атрибутах и отношениях между ними является основной задачей при построении и обновлении Knowledge Graph. Textual Rewrites по сути являются кандидатами на добавление в граф в виде фактов (триплетов), а оценка правдоподобности помогает фильтровать недостоверные данные перед добавлением в граф.