Как Google извлекает атрибуты сущностей из веб-документов для формирования прямых ответов и выделенных сниппетов

Патент описывает, как Google обрабатывает вопросы о сущностях (людях, местах, компаниях). Система распознает сущность в запросе, определяет запрашиваемый атрибут (например, адрес), извлекает значение этого атрибута из результатов поиска и визуально выделяет ответ на странице выдачи. Это может проявляться как блок готового ответа (Featured Snippet) или выделение информации жирным шрифтом в сниппете.

Описание

Какую задачу решает

Патент решает задачу предоставления прямых, точных и визуально заметных ответов на вопросы, касающиеся конкретных атрибутов известных сущностей (например, «Где находится Joe’s Soup Kitchen?»). Система улучшает пользовательский опыт, извлекая необходимую фактическую информацию из корпуса веб-документов и представляя ее непосредственно в SERP, уменьшая необходимость перехода на сторонние сайты.

Что запатентовано

Запатентована система и метод для обработки entity-triggering questions (вопросов о сущностях). Система идентифицирует сущность и запрашиваемый атрибут в вопросе, сопоставляет их с данными в Entity Information Repository (базе данных сущностей) и извлекает значение этого атрибута из набора результатов поиска. Ключевым элементом является механизм генерации инструкций для визуального выделения (emphasis) извлеченного значения в интерфейсе SERP.

Как это работает

Система работает в несколько этапов:

Понимание запроса: Система классифицирует запрос как entity-triggering, идентифицирует имя сущности в тексте и определяет запрашиваемый атрибут (например, «где» указывает на адрес).
Поиск и Анализ: Выполняется поиск. Система анализирует топовые результаты, чтобы идентифицировать релевантные сущности и рассчитать для них Entity Confidence Score.
Извлечение (Extraction): Система извлекает значение запрашиваемого атрибута из сниппетов или контента высокоранжируемых документов.
Генерация и Выделение Ответа: Генерируются инструкции для презентации SERP, которые включают визуальное выделение (emphasis) ответа. Это может быть специальный блок (display box, т.е. Featured Snippet) или форматирование текста в стандартном сниппете.

Актуальность для SEO

Критически высокая. Описанные механизмы являются фундаментом современных функций Google, таких как Featured Snippets, Direct Answers и Панели Знаний. Извлечение атрибутов сущностей и представление ответов непосредственно в SERP является центральным направлением развития поиска, включая голосовой поиск и SGE.

Важность для SEO

Патент имеет критическое значение (90/100) для SEO. Он напрямую описывает механизмы извлечения информации со страниц для формирования ответов в «нулевой позиции» (Position Zero). Понимание этих процессов необходимо для оптимизации контента под извлечение фактов (Fact Extraction) и обеспечения видимости в эпоху семантического поиска. Это напрямую влияет на CTR и брендовую видимость.

Детальный разбор

Термины и определения

Attribute (Атрибут): Характеристика или свойство сущности. Например, «Адрес», «Дата рождения», «Категория».
Display Box (Блок отображения): Специальная область в SERP для представления ответа, часто расположенная над стандартными результатами (например, Featured Snippet или Direct Answer).
Document-entity association repository: Хранилище данных, которое связывает веб-документы с сущностями, идентифицированными в этих документах. Заполняется на этапе индексирования.
Emphasis (Выделение, акцент): Визуальное выделение значения атрибута (ответа) в SERP. Реализуется через display box или изменение форматирования (например, жирный шрифт) в сниппете.
Entity (Сущность): Идентифицируемый объект реального или абстрактного мира (человек, компания, место, фильм и т.д.).
Entity Confidence Score (Оценка уверенности в сущности): Метрика для оценки релевантности сущности данному запросу. Рассчитывается на основе анализа топовых результатов поиска.
Entity Identifier (Идентификатор сущности): Имя или название, используемое для ссылки на сущность (например, «Joe’s Soup Kitchen»).
Entity Information Repository (Репозиторий информации о сущностях): База данных, хранящая структурированную информацию о сущностях, их атрибутах и значениях (аналог Google Knowledge Graph).
Entity-triggering question (Вопрос, триггерящий сущность): Запрос, ответ на который должен включать идентификатор сущности или значение ее атрибута.
Result Score (Оценка результата): Стандартная оценка ранжирования документа в поиске.
Snippet (Сниппет): Фрагмент текста, извлеченный из контента документа, отображаемый в SERP.
Value (Значение): Конкретные данные, связанные с атрибутом (например, «1234 Main St.» для атрибута «Адрес»).

Ключевые утверждения (Анализ Claims)

Важное примечание: Патент US9569487B1 является продолжением (continuation) более ранних заявок. Его Описание (Description) детализирует всю систему ответов (включая скоринг сущностей). Однако, Claims (Формула изобретения) этого конкретного патента сфокусированы на идентификации сущности в запросе и последующем визуальном выделении (Emphasis) ответа в SERP.

Claim 1 (Независимый пункт): Описывает метод генерации и визуального представления ответа на запрос о сущности.

Система получает поисковый запрос.
Определяется набор результатов поиска.
Система идентифицирует имя сущности (name of an entity) непосредственно среди терминов поискового запроса.
Система подтверждает, что в Entity Information Repository есть данные, соответствующие этой сущности.
Используя данные репозитория, система идентифицирует атрибут (attribute) этой сущности.
Система определяет значение (value) этого атрибута, используя набор результатов поиска. Значение должно быть найдено хотя бы в одном конкретном результате поиска.
Система генерирует инструкции для представления SERP, которые включают визуальное выделение (emphasis) найденного значения атрибута для этого конкретного результата поиска.
Инструкции предоставляются пользовательскому устройству.

Ядро изобретения — связывание распознанной в запросе сущности с извлечением ее атрибутов из веб-результатов и последующее визуальное выделение этого значения в сниппете источника.

Claim 3 (Зависимый от 1): Уточняет способ выделения.

Выделение (Emphasis) реализуется путем отображения значения атрибута в display box (блоке отображения) внутри набора результатов поиска. Это описывает механизм Featured Snippet.

Claim 4 и 5 (Зависимые от 3): Уточняют позиционирование.

Display box может быть расположен выше всех результатов (Позиция 0) или ниже одного из результатов.

Claim 6 (Зависимый от 3): Уточняет форматирование.

Блок содержит информацию, отображаемую шрифтом (typeface), отличным от стандартного (например, выделение жирным).

Claim 11 (Зависимый от 6): Уточняет, что еще может быть выделено.

Выделенная информация может включать тип атрибута (type of the attribute). Например, система может выделить не только адрес, но и слова «расположен по адресу».

Где и как применяется

Изобретение интегрирует данные о сущностях на нескольких этапах поисковой архитектуры.

INDEXING – Индексирование и извлечение признаков
На этом этапе работает Document-entity association system. Система анализирует документы, идентифицирует упоминания сущностей (используя Entity Information Repository) и сохраняет эти связи в Document-entity association repository. Это офлайн-процесс предварительного вычисления.

QUNDERSTANDING – Понимание Запросов
Entity-triggering question identification engine анализирует запрос в реальном времени:

Классифицирует запрос как entity-triggering question.
Идентифицирует имя сущности в запросе (Claim 1).
Определяет интент пользователя (какой атрибут запрашивается).

RANKING – Ранжирование
Result identification engine получает стандартный набор результатов поиска (search result set) и их Result Scores.

METASEARCH – Метапоиск и Смешивание (Information Extraction & SERP Generation)
Основной этап применения патента.

Анализ и Скоринг: Candidate entity identification/scoring engines анализируют топ результатов. Используя данные из Document-entity association repository, они идентифицируют релевантные сущности и рассчитывают Entity Confidence Score.
Извлечение Ответа: Система извлекает значение искомого атрибута из контента или сниппетов документов.
Формирование SERP: Answer generation engine генерирует инструкции для отображения финальной выдачи (Claim 1). Применяется визуальный акцент (emphasis) — создание display box или выделение текста в сниппете.

Входные данные:

Запрос пользователя.
Entity Information Repository (Knowledge Graph).
Document-entity association repository (Индекс связей).
Набор веб-результатов (документы, сниппеты, Result Scores).

Выходные данные:

Инструкции для представления SERP с визуально выделенным ответом (значением атрибута).

На что влияет

Специфические запросы: Наибольшее влияние на информационные, фактоидные запросы, содержащие имя известной сущности и вопрос о ее атрибуте («Кто», «Где», «Когда», «Сколько»).
Конкретные типы контента: Влияет на страницы с четкой структурой и фактической информацией — определения, списки, таблицы, разделы FAQ, биографии, карточки продуктов.
Конкретные ниши: Влияет на все тематики с четко определенными сущностями (персоналии, компании, локации, события, научные факты).

Когда применяется

Алгоритм активируется при выполнении строго определенных условий:

Триггер активации: Запрос классифицирован как entity-triggering question.
Условие 1 (по Claim 1): В терминах запроса идентифицировано имя сущности.
Условие 2: Сущность присутствует в Entity Information Repository.
Условие 3: Системе удалось определить запрашиваемый атрибут и найти его значение в результатах поиска с высокой степенью уверенности.

Пошаговый алгоритм

Процесс А: Предварительная обработка (Офлайн / Индексирование)

Идентификация документа.
Анализ и Извлечение: Document-entity association engine анализирует текст документа, ища совпадения с идентификаторами сущностей и их атрибутами из Entity Information Repository.
Сохранение ассоциаций: Связи между документом и идентифицированными сущностями сохраняются в Document-entity association repository.

Процесс Б: Обработка запроса (В реальном времени)

Получение и Классификация Запроса: Система получает вопрос и определяет, является ли он entity-triggering.
Идентификация Сущности и Атрибута: Система идентифицирует имя сущности в запросе и определяет запрашиваемый атрибут (например, «где» -> адрес).
Получение Результатов Поиска: Генерируется набор релевантных документов и их сниппетов.
Идентификация Кандидатов: Анализ топовых документов (используя Document-entity association repository) для выявления связанных сущностей, соответствующих запросу.
Скоринг и Выбор Сущности: Рассчитывается Entity Confidence Score для кандидатов. Учитываются факторы: частота упоминания в топе, Result Scores документов, наличие в сниппетах. Выбирается лучшая сущность.
Извлечение Значения Атрибута: Система ищет значение запрашиваемого атрибута в сниппетах веб-результатов и/или сверяется с Entity Information Repository.
Генерация Ответа и Форматирование (Emphasis): Выбирается лучший ответ (значение атрибута). Генерируются инструкции для отображения SERP:
- Создание display box (Featured Snippet).
- И/ИЛИ применение визуального выделения (например, жирный шрифт) к значению атрибута или его типу в стандартном сниппете.
Вывод SERP пользователю.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст документов и извлеченные сниппеты. Они используются для поиска упоминаний сущностей, идентификации значений атрибутов и выбора фрагмента текста для ответа.
Данные о сущностях (Entity Data):
- Entity Information Repository (Knowledge Graph): Используется для идентификации сущностей, их атрибутов и известных значений.
- Document-entity association repository: Используется для быстрого определения, какие сущности связаны с топовыми результатами поиска.
Системные данные: Result Scores (оценки ранжирования) документов.

Какие метрики используются и как они считаются

Ключевой метрикой, описанной в Description, является Entity Confidence Score. Она используется для выбора наиболее релевантной сущности.

Entity Confidence Score: Рассчитывается на основе следующих факторов:
- Количество и пропорция результатов: Как часто сущность встречается в топовых результатах поиска.
- Наличие в сниппетах: Упоминается ли идентификатор сущности в сниппетах.
- Result Score: Оценка ранжирования документа, в котором найдена сущность (более высокий ранг документа повышает уверенность в сущности).
- Частота в документе: Количество упоминаний сущности в конкретном документе.
- Соответствие запросу: Совпадение идентификатора сущности с терминами запроса.
Детекция спама: Если идентификатор сущности появляется в документе слишком часто (превышает порог), система может посчитать результат спамом и проигнорировать его или снизить его вес при расчете Entity Confidence Score.
Similarity threshold (Порог схожести): Метрика для определения соответствия терминов в документе идентификаторам сущностей или значениям атрибутов (учитывает не только точное совпадение).

Выводы

Механизм формирования Featured Snippets и выделений: Патент детально описывает процесс, лежащий в основе генерации прямых ответов (display box) и визуального выделения (emphasis) информации в сниппетах для запросов о сущностях.
Критичность связи Запрос-Сущность-Атрибут: Ключевым является способность системы распознать entity-triggering question, связать его с конкретной сущностью в Knowledge Graph (Entity Information Repository) и определить искомый атрибут (например, связать «Где?» с «Адрес»).
Комбинированный подход (KG + Web Index): Система не полагается исключительно на Knowledge Graph. Она активно использует веб-результаты и сниппеты для расчета уверенности (Entity Confidence Score) и поиска актуальных значений атрибутов. Ответ часто извлекается из веб-документов.
Важность Entity Confidence Score: Эта метрика определяет, какая сущность будет считаться основной темой ответа. Она напрямую зависит от качества и ранжирования (Result Score) документов, в которых сущность найдена.
Роль ассоциаций Документ-Сущность: Система полагается на предварительно вычисленные связи между документами и сущностями (Document-entity association repository). Если Google не ассоциирует ваш контент с сущностью, он не станет источником ответа.
Защита от манипуляций: Встроенные механизмы детекции спама ограничивают эффективность чрезмерного повторения идентификаторов сущностей в контенте.

Практика

Best practices (это мы делаем)

Обеспечение четкой связи контента с сущностями: Необходимо убедиться, что Google может легко ассоциировать ваш контент с релевантными сущностями. Используйте структурированные данные (Schema.org) и пишите текст так, чтобы он был понятен алгоритмам NLP. Это помогает Google корректно заполнять Document-entity association repository.
Форматирование контента для извлечения фактов (Fact Extraction): Структурируйте контент так, чтобы он содержал четкие и лаконичные ответы на вопросы об атрибутах сущностей. Используйте формат «Вопрос-Ответ», таблицы, списки определений. Убедитесь, что сущность и значение ее атрибута находятся в тесной близости (например, в одном предложении или абзаце).
Использование ясного контекста для атрибутов: Используйте слова, которые система ассоциирует с типами атрибутов (например, «расположен», «основан», «весит»), рядом со значениями. Это увеличивает вероятность корректного извлечения и визуального выделения (emphasis) в сниппете (Claim 11).
Повышение стандартного ранжирования (Result Score): Result Score документа напрямую влияет на Entity Confidence Score и вероятность выбора сниппета. Чем выше ранжируется ваш контент, тем больше шансов, что он станет источником для display box.

Worst practices (это делать не надо)

Предоставление неоднозначной или размытой информации: Если информация об атрибутах сущности неточна, противоречива или спрятана в сложных текстовых конструкциях, система не сможет с уверенностью извлечь значение атрибута.
Переспам сущностями (Entity Stuffing): Избыточное повторение идентификатора сущности неэффективно. Патент явно упоминает механизмы детекции спама, которые могут привести к игнорированию документа при расчете Entity Confidence Score.
Игнорирование сущностной оптимизации: Фокусировка только на ключевых словах без учета того, как контент связан с сущностями в Knowledge Graph, снижает видимость в современных функциях поиска (Featured Snippets, SGE).

Стратегическое значение

Патент подтверждает стратегию Google по переходу от поисковой системы к системе ответов (Answer Engine), основанной на сущностях. Для SEO это означает, что оптимизация под сущности, их атрибуты и связи является критически важной для видимости. Долгосрочная стратегия должна быть направлена на то, чтобы сайт стал авторитетным и легко читаемым источником структурированных фактов о сущностях в своей тематике.

Практические примеры

Сценарий: Оптимизация страницы компании для получения Featured Snippet по запросу об адресе.

Целевой запрос (Entity-triggering question): «Где находится [Название Компании]?»
Идентификация: Сущность – [Название Компании]. Атрибут – Адрес.
Действия по оптимизации контента: На странице «Контакты» разместить текст в оптимальном для извлечения формате. Например: «Главный офис [Название Компании] расположен по адресу: [Полный Адрес]».
Техническая оптимизация: Внедрить разметку Schema.org (LocalBusiness или Organization) с указанием того же адреса в поле address. Это помогает верифицировать данные и укрепить связь страницы с сущностью.
Ожидаемый результат: При достижении высоких позиций, Google использует оптимизированный текст для формирования display box (Featured Snippet), применяя визуальное выделение (emphasis) к адресу и, возможно, к фразе «расположен по адресу».

Вопросы и ответы

Что такое «Entity-triggering question» и как Google их распознает?

Это запрос, на который ожидается фактический ответ о сущности (ее идентификатор или атрибут). Google распознает их, анализируя термины запроса. Наличие слов типа «кто», «где», «когда», «сколько» часто является триггером. И наоборот, наличие слов типа «почему», «объясни» может указывать на то, что запрос требует развернутого ответа и не является entity-triggering.

Что важнее для получения прямого ответа: наличие информации в Knowledge Graph или на моем сайте?

Важна комбинация. Система использует Entity Information Repository (Knowledge Graph) для понимания сущности и ее атрибутов. Однако само значение атрибута (ответ) часто извлекается из результатов веб-поиска (как указано в Claim 1). Ваш сайт должен предоставить четкий и авторитетный ответ в доступном для извлечения виде, чтобы быть выбранным в качестве источника.

Как рассчитывается Entity Confidence Score и как на него повлиять?

Entity Confidence Score определяет уверенность системы в релевантности сущности. Он повышается, если сущность часто встречается в топе выдачи, упоминается в сниппетах и найдена на страницах с высоким Result Score (высоким рангом). Чтобы повлиять на него, нужно повышать общее ранжирование сайта и обеспечивать четкое присутствие сущности на релевантных страницах.

В чем разница между «display box» и «emphasis» в сниппете?

Оба являются формами визуального акцентирования. Display box — это отдельный блок в выдаче (например, Featured Snippet на Позиции 0), содержащий ответ. Emphasis в контексте изменения шрифта (Claim 6) — это выделение (например, жирным шрифтом) ответа непосредственно внутри стандартного сниппета одного из результатов поиска.

Патент упоминает защиту от спама при подсчете упоминаний сущности. Что это значит для SEO?

Это означает, что переспам идентификатором сущности (Entity Stuffing) неэффективен. Если идентификатор повторяется в документе слишком часто, система может посчитать это спамом и проигнорировать документ при оценке сущности или учесть только ограниченное число упоминаний. Фокусируйтесь на естественном и полезном контенте.

Что такое Document-entity association repository и как он формируется?

Это база данных, хранящая связи между веб-страницами и сущностями, которые на них обсуждаются. Она формируется на этапе индексирования (офлайн). Система (Document-entity association engine) анализирует контент документа и сравнивает его с данными в Entity Information Repository, чтобы определить релевантные сущности.

Влияет ли микроразметка (Schema.org) на работу этого алгоритма?

Патент не упоминает микроразметку напрямую. Однако микроразметка помогает поисковым системам лучше понимать сущности и их атрибуты на странице. Логично предположить, что наличие корректной разметки облегчает работу Document-entity association engine и способствует более точному извлечению ответов и наполнению Entity Information Repository.

Может ли система выделить не только сам ответ (значение), но и слова рядом с ним?

Да, Claim 11 прямо указывает, что система может визуально выделять тип атрибута. На практике это может выглядеть как выделение слов-подсказок в сниппете, например, «расположен по адресу: 1234 Main St.», так как эти слова указывают на тип атрибута «адрес».

Должен ли мой сайт высоко ранжироваться, чтобы информация из него была извлечена?

Да, это критически важно. Система анализирует топовый набор результатов поиска. Кроме того, Result Score (ранг) документа напрямую влияет на Entity Confidence Score и выбор сниппета. Чем выше ранжируется документ, тем больше доверия к извлеченным из него данным.

На чем сфокусированы Claims (Формула изобретения) именно этого патента US9569487B1?

Хотя описание патента детализирует весь процесс поиска ответа, Claims этого конкретного патента (‘487) сфокусированы более узко: на идентификации сущности непосредственно в тексте запроса и последующем визуальном выделении (Emphasis) найденного значения атрибута на странице результатов поиска (SERP).