
Патент Google, раскрывающий фундаментальные принципы обработки сущностей. Описано, как Google индексирует контент, распознает именованные сущности (NER) и структурирует данные о них в две категории: общие (Generic Entity Data) и специальные (Special Entity Data). Это дает ключевое понимание архитектуры Knowledge Graph.
Патент решает задачу создания расширяемого фреймворка для добавления интерактивных инструментов (Layers) в программы для чтения электронных книг (eReaders). Основная цель — обогатить статический контент динамической, контекстно-релевантной информацией, в частности, данными об именованных сущностях (Named Entities), таких как люди, места и даты, упомянутых в тексте.
Запатентован фреймворк, который позволяет интерактивным инструментам, называемым Layers (Слои), дополнять контент электронных книг. Ядром изобретения является система идентификации именованных сущностей в тексте, хранения структурированной информации о них (Entity Information) и доставки этой информации пользователю по запросу, привязанному к конкретному фрагменту контента (Content Range).
Система функционирует в двух основных режимах:
NER (Named-Entity Recognition) для идентификации сущностей. Информация об этих сущностях (Entity Data) и их точное местоположение в книге (Entity Instances) сохраняются в репозитории. Данные структурируются на общие (Generic) и специальные (Special).Entity Information для этого фрагмента и отображает её пользователю (например, в виде карты или биографии).Высокая. Хотя патент описывает применение в контексте электронных книг (например, Google Books), описанные технологии распознавания сущностей (NER) и структурированный подход к хранению данных о сущностях (Generic и Special Entity Data) являются фундаментальными для работы современного поиска Google, включая формирование Графа Знаний (Knowledge Graph) и работу ИИ-моделей (BERT, MUM). Понимание этой структуры критически важно.
Патент имеет высокое стратегическое значение для Semantic SEO (8.5/10). Он не описывает алгоритмы ранжирования веб-поиска, но предоставляет детальное описание методологии Google для идентификации, классификации и структурирования данных об именованных сущностях. Эти механизмы лежат в основе того, как Google понимает веб-контент и строит Граф Знаний, что критически важно для оптимизации под семантический поиск и E-E-A-T.
Named Entity. Состоят из Entity Data и одной или нескольких Entity Instances.Generic Entity Data и Special Entity Data.Overview Image), основной URL (Main URL), связанные ссылки и мультимедиа.Content Range) и сам контент (Entity Content).Named Entity.Claim 1 (Независимый пункт): Описывает основной метод предоставления информации о контенте электронной книги на клиентском устройстве.
ebook identifier) с клиентского устройства.ebook-specific set of layers).position range).layer information) клиенту для отображения.Ядром изобретения является архитектура для выборочного предоставления дополнительной, контекстно-зависимой информации, где доступность инструментов зависит от типа контента.
Claim 3 (Зависимый от 1): Детализирует работу, если выбран слой именованных сущностей (named entity layer).
Процесс включает идентификацию именованных сущностей, на которые ссылается активированный контент, и получение соответствующих данных сущности (entity data).
Claim 5 (Зависимый от 3): Определяет структуру данных сущности.
Получение данных сущности включает получение как Generic Entity Data (общих данных), так и Special Entity Data (специальных данных, специфичных для типа сущности). Это критически важный пункт, определяющий структуру онтологии Google для сущностей.
Изобретение затрагивает этап индексирования для извлечения данных и этап обработки запросов пользователя (в контексте приложения для чтения) для предоставления этих данных.
INDEXING – Индексирование и извлечение признаков
Это ключевой этап. Во время индексирования документа выполняется распознавание именованных сущностей (NER). На этом этапе система:
Entity Data (Generic и Special) из центрального корпуса знаний.Entity Instances, фиксируя точное местоположение каждого упоминания.Position Validation Service.Entity Information Repository.RANKING / RETRIEVAL
Система не ранжирует результаты веб-поиска, но извлекает (Retrieval) и предоставляет Layer Data. Когда клиент запрашивает данные для определенного Content Range, система извлекает соответствующую информацию из репозитория.
Входные данные:
Выходные данные:
Entity Information в репозитории.Layer Data (включая Entity Information), передаваемые клиенту.Entity Content).Date Entities), Персоны (Person Entities) и Географические положения (Geographic Location Entities), поддерживая как реальные, так и вымышленные сущности.NER и генерация Entity Information.Процесс А: Индексирование и извлечение сущностей (Offline)
Named Entities.Entity Data.Generic Entity Data и Special Entity Data.Entity Instance с точным местоположением и контекстным текстом (для валидации позиции).Entity Summary Data.Entity Information сохраняется в Entity Information Repository.Процесс Б: Предоставление данных слоя во время выполнения (Runtime)
Layer Data для конкретного Content Range и Layer ID.Entity Information из репозитория.NER. Метаданные изображений и обработка изображений также используются для идентификации сущностей. Используется текст до и после фрагмента (Before Text, After Text) для работы Position Validation Service.Content Range. Версии контента используются для валидации позиций.Entity Data (описаний, ссылок).Патент фокусируется на архитектуре и структуре данных, а не на метриках ранжирования.
Структура данных (Entity Data): Ключевой элемент патента, описывающий схему хранения данных о сущностях.
Generic Entity Data (Общие атрибуты): Special Entity Data (Специфичные атрибуты по типам): Методы анализа (NLP):
NER (Named-Entity Recognition): Используется для извлечения и классификации сущностей во время индексации.Position Validation Service для пересчета позиций при изменении версий контента, используя контекстный текст.NER) является стандартной частью процесса индексирования контента Google. Это базовый механизм для семантического понимания документа.Generic Data (универсальные атрибуты) и Special Data (атрибуты, зависящие от типа). Эта структура с высокой вероятностью отражает архитектуру Графа Знаний.Entity Data, которые переиспользуются между документами) и знание о конкретном её упоминании в контексте (Entity Instance).Generic Entity Data включают Main URL и Related Links, что подтверждает важность связывания контента с авторитетными внешними источниками для верификации сущностей.Position Validation Service указывает на то, что Google имеет надежные механизмы для отслеживания сущностей даже при изменении или переформатировании контента, используя контекстный текст.Хотя патент описывает систему для электронных книг, его механизмы извлечения и структурирования сущностей имеют прямое отношение к тому, как Google анализирует веб-контент для Knowledge Graph и семантического поиска.
Generic и Special Entity Data. Main URL).Special Entity Data. Используйте наиболее специфичные типы (Person, Place, Event) для точной передачи данных.Entity Content), используйте релевантные изображения с оптимизированными метаданными и alt-текстами для подкрепления текстового контента.NER и может привести к неверной идентификации.Entity Data.Main URL) для валидации сущностей.Этот патент подтверждает стратегический приоритет Google на переход от анализа ключевых слов к пониманию сущностей и контекста ("strings to things"). Он детализирует инфраструктуру этого перехода. Долгосрочная SEO-стратегия должна быть сосредоточена на создании семантически богатого контента, который помогает Google заполнять Граф Знаний данными, соответствующими структуре Generic и Special Entity Data.
Сценарий: Оптимизация страницы локального бизнеса (Сущность типа Место/Организация)
Entity Data для бизнеса.Main URL), ссылки на авторитетные каталоги и соцсети (Related Links).LocalBusiness и GeoCoordinates, убедиться в консистентности NAP (Name, Address, Phone) на сайте и во внешних источниках.Entity Data.Применяется ли этот патент к Google Web Search или только к Google Books?
Напрямую патент описывает фреймворк для электронных книг. Однако лежащие в его основе технологии — как Google выполняет NER, как структурирует данные о сущностях (Generic/Special Data) и как обрабатывает контент во время индексации — являются фундаментальными. Высока вероятность, что эти же принципы используются в веб-поиске и для построения Графа Знаний (Knowledge Graph).
Что такое "Generic Entity Data" и как это использовать в SEO?
Generic Entity Data — это стандартный набор атрибутов для любой сущности: описание, изображение, основной URL, связанные ссылки. Для SEO это означает, что для ключевых сущностей на вашей странице вы должны предоставить эти элементы: дать четкое определение, добавить релевантное изображение и сослаться на авторитетные источники (например, официальный сайт или Википедию).
Что такое "Special Entity Data" и как это использовать в SEO?
Special Entity Data — это атрибуты, специфичные для типа сущности (координаты для места, дата рождения для персоны). Это подчеркивает необходимость использования детализированных и наиболее подходящих типов Schema.org (например, использования latitude в GeoCoordinates или birthDate в Person), чтобы передать Google эти специфические данные в структурированном виде.
Когда Google извлекает эти данные о сущностях?
Патент четко указывает, что распознавание именованных сущностей (NER) происходит во время индексации (indexing) контента. Это офлайн-процесс. Это подчеркивает важность доступности и понятности контента при сканировании, так как система должна распознать сущности уже на этом этапе.
Как этот патент связан с разметкой Schema.org?
Schema.org — это способ предоставить Google данные именно в том формате, который описан в патенте. Атрибуты Schema напрямую соответствуют концепциям Generic Entity Data и Special Entity Data. Внедрение Schema помогает Google заполнить свою структуру данных о сущностях, описанную в этом патенте.
Что такое "Entity Instance" и почему это важно?
Entity Instance — это запись о конкретном упоминании сущности в документе, включая его точное местоположение. Это важно, потому что показывает, что Google не просто знает, что сущность упомянута на странице, но и понимает точный контекст и местоположение каждого упоминания, что позволяет анализировать роль сущности в повествовании.
Как Google обрабатывает изменения в контенте, если сущности уже были извлечены?
Патент описывает Position Validation Service. Эта служба использует контекстный текст (текст до и после упоминания сущности) для пересчета точного местоположения сущности, если основной контент был изменен или переформатирован. Это обеспечивает актуальность данных о местоположении сущностей.
Может ли Google распознавать сущности в изображениях, согласно патенту?
Да. Патент упоминает, что Entity Content (контент, ссылающийся на сущность) может быть не только текстом, но и мультимедиа (включая изображения). Система может идентифицировать изображение как ссылку на сущность, основываясь на метаданных и/или обработке самого изображения, что подтверждает важность оптимизации изображений.
Что такое "Entity Summary Data" и как это использовать в SEO?
Это сводные данные обо всех сущностях в документе или разделе. В SEO это можно интерпретировать как важность создания обзорных страниц или резюме, которые агрегируют информацию о ключевых сущностях темы. Это демонстрирует комплексное понимание тематики и помогает в построении Topical Authority.
Как обеспечить максимальную точность распознавания моих сущностей (NER)?
Для максимальной точности необходимо использовать четкие и недвусмысленные названия сущностей (канонические имена), предоставлять достаточный контекст вокруг упоминаний, поддерживать консистентность терминологии на всем сайте и внедрять детальную разметку Schema.org для подкрепления данных, извлекаемых из текста.

Knowledge Graph
Семантика и интент
Поведенческие сигналы

Персонализация
Семантика и интент
Мультимедиа

Семантика и интент
Knowledge Graph
Мультимедиа

Knowledge Graph
Семантика и интент
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
Антиспам
SERP

Антиспам
SERP
Ссылки

Индексация
Поведенческие сигналы

Поведенческие сигналы
Мультимедиа
Семантика и интент

Local SEO
Семантика и интент
Поведенческие сигналы

Персонализация
Ссылки

Антиспам
Ссылки
SERP

Семантика и интент
EEAT и качество
SERP

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
SERP
Поведенческие сигналы
