Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google распознает, структурирует и использует данные о сущностях для глубокого понимания контента

    EXTENSIBLE FRAMEWORK FOR EREADER TOOLS, INCLUDING NAMED ENTITY INFORMATION (Расширяемый фреймворк для инструментов чтения электронных книг, включающий информацию об именованных сущностях)
    • US9069744B2
    • Google LLC
    • 2015-06-30
    • 2012-05-15
    2012 EEAT и качество Knowledge Graph Индексация Патенты Google

    Патент Google, раскрывающий фундаментальные принципы обработки сущностей. Описано, как Google индексирует контент, распознает именованные сущности (NER) и структурирует данные о них в две категории: общие (Generic Entity Data) и специальные (Special Entity Data). Это дает ключевое понимание архитектуры Knowledge Graph.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу создания расширяемого фреймворка для добавления интерактивных инструментов (Layers) в программы для чтения электронных книг (eReaders). Основная цель — обогатить статический контент динамической, контекстно-релевантной информацией, в частности, данными об именованных сущностях (Named Entities), таких как люди, места и даты, упомянутых в тексте.

    Что запатентовано

    Запатентован фреймворк, который позволяет интерактивным инструментам, называемым Layers (Слои), дополнять контент электронных книг. Ядром изобретения является система идентификации именованных сущностей в тексте, хранения структурированной информации о них (Entity Information) и доставки этой информации пользователю по запросу, привязанному к конкретному фрагменту контента (Content Range).

    Как это работает

    Система функционирует в двух основных режимах:

    • Офлайн (Индексирование): Контент книги предварительно анализируется с использованием NER (Named-Entity Recognition) для идентификации сущностей. Информация об этих сущностях (Entity Data) и их точное местоположение в книге (Entity Instances) сохраняются в репозитории. Данные структурируются на общие (Generic) и специальные (Special).
    • Онлайн (Взаимодействие): Когда пользователь взаимодействует с фрагментом контента, система определяет доступные слои. Соответствующий слой активируется, извлекает сохраненную Entity Information для этого фрагмента и отображает ее пользователю (например, в виде карты или биографии).

    Актуальность для SEO

    Высокая. Хотя патент описывает применение в контексте электронных книг (например, Google Books), описанные технологии распознавания сущностей (NER) и структурированный подход к хранению данных о сущностях (Generic и Special Entity Data) являются фундаментальными для работы современного поиска Google, включая формирование Графа Знаний (Knowledge Graph) и работу ИИ-моделей (BERT, MUM). Понимание этой структуры критически важно.

    Важность для SEO

    Патент имеет высокое стратегическое значение для Semantic SEO (8.5/10). Он не описывает алгоритмы ранжирования веб-поиска, но предоставляет детальное описание методологии Google для идентификации, классификации и структурирования данных об именованных сущностях. Эти механизмы лежат в основе того, как Google понимает веб-контент и строит Граф Знаний, что критически важно для оптимизации под семантический поиск и E-E-A-T.

    Детальный разбор

    Термины и определения

    Layer (Слой)
    Интерактивный инструмент или программный модуль, расширяющий функциональность программы чтения (e-reader). Позволяет взаимодействовать с контентом.
    Named Entity (Именованная сущность)
    Конкретный объект или концепция определенного типа (реальный или вымышленный). Примеры: Дата (Date), Человек (Person), Географическое местоположение (Geographic Location).
    NER (Named-Entity Recognition)
    Процесс идентификации фрагментов контента как ссылок на именованные сущности. Выполняется во время индексирования.
    Entity Information (Информация о сущности)
    Структурированные данные, связанные с Named Entity. Состоят из Entity Data и одной или нескольких Entity Instances.
    Entity Data (Данные сущности)
    Описание самой сущности, не зависящее от конкретного документа. Включает Generic Entity Data и Special Entity Data.
    Generic Entity Data (Общие данные сущности)
    Тип данных, общий для всех типов сущностей. Включает: описание, обзорное изображение (Overview Image), основной URL (Main URL), связанные ссылки и мультимедиа.
    Special Entity Data (Специальные данные сущности)
    Тип данных, специфичный для конкретного типа сущности (например, координаты для Места, биография для Человека).
    Entity Instance (Экземпляр сущности)
    Описание конкретного упоминания сущности в документе, включая его точное местоположение (Content Range) и сам контент (Entity Content).
    Entity Content (Контент сущности)
    Фрагмент контента (текст, изображение), который идентифицирован как ссылка на Named Entity.
    Entity Summary Data (Сводные данные о сущностях)
    Обзор нескольких именованных сущностей, упомянутых в одном документе или главе.
    Position Validation Service (Служба валидации позиции)
    Служба, которая пересчитывает местоположение контента и связанных с ним данных слоя при изменении версий документа, используя контекстный текст (до и после фрагмента).

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод предоставления информации о контенте электронной книги на клиентском устройстве.

    1. Система получает идентификатор книги (ebook identifier) с клиентского устройства.
    2. Используя идентификатор, система определяет специфичный для книги набор доступных слоев (ebook-specific set of layers).
    3. Система передает список этих слоев клиенту.
    4. Клиент использует список, чтобы:
      • Идентифицировать активированный пользователем контент и его диапазон (position range).
      • Определить, какие из доступных слоев применимы к типу активированного контента.
      • Запросить у пользователя выбор одного или нескольких слоев.
    5. Система получает от клиента диапазон контента и идентификацию выбранных слоев.
    6. Система идентифицирует и передает соответствующую информацию слоя (layer information) клиенту для отображения.

    Ядром изобретения является архитектура для выборочного предоставления дополнительной, контекстно-зависимой информации, где доступность инструментов зависит от типа контента.

    Claim 3 (Зависимый от 1): Детализирует работу, если выбран слой именованных сущностей (named entity layer).

    Процесс включает идентификацию именованных сущностей, на которые ссылается активированный контент, и получение соответствующих данных сущности (entity data).

    Claim 5 (Зависимый от 3): Определяет структуру данных сущности.

    Получение данных сущности включает получение как Generic Entity Data (общих данных), так и Special Entity Data (специальных данных, специфичных для типа сущности). Это критически важный пункт, определяющий структуру онтологии Google для сущностей.

    Где и как применяется

    Изобретение затрагивает этап индексирования для извлечения данных и этап обработки запросов пользователя (в контексте приложения для чтения) для предоставления этих данных.

    INDEXING – Индексирование и извлечение признаков
    Это ключевой этап. Во время индексирования документа выполняется распознавание именованных сущностей (NER). На этом этапе система:

    1. Идентифицирует ссылки на сущности в контенте (тексте и мультимедиа).
    2. Генерирует или извлекает Entity Data (Generic и Special) из центрального корпуса знаний.
    3. Создает Entity Instances, фиксируя точное местоположение каждого упоминания.
    4. Сохраняет контекстный текст (до и после упоминания) для последующей работы Position Validation Service.
    5. Сохраняет всю информацию в Entity Information Repository.

    RANKING / RETRIEVAL
    Система не ранжирует результаты веб-поиска, но извлекает (Retrieval) и предоставляет Layer Data. Когда клиент запрашивает данные для определенного Content Range, система извлекает соответствующую информацию из репозитория.

    Входные данные:

    • (Индексирование): Необработанный контент документа (текст, мультимедиа), внешние базы знаний.
    • (Runtime): Ebook ID, Content Range (Position Range), Layer ID.

    Выходные данные:

    • (Индексирование): Структурированная Entity Information в репозитории.
    • (Runtime): Layer Data (включая Entity Information), передаваемые клиенту.

    На что влияет

    • Типы контента: Влияет на текстовый контент, а также на изображения и мультимедиа, если они идентифицированы как ссылающиеся на сущности (Entity Content).
    • Форматы контента: Применимо к любым форматам цифровых документов, которые могут быть проиндексированы и обработаны с помощью NER.
    • Специфические сущности: Патент явно выделяет три типа: Даты (Date Entities), Персоны (Person Entities) и Географические положения (Geographic Location Entities), поддерживая как реальные, так и вымышленные сущности.

    Когда применяется

    • На этапе индексирования: Когда документ впервые обрабатывается системой или при его повторном индексировании. На этом этапе выполняется NER и генерация Entity Information.
    • Во время выполнения (Runtime): Когда пользователь взаимодействует с контентом, содержащим распознанные сущности, и активирует соответствующий слой.

    Пошаговый алгоритм

    Процесс А: Индексирование и извлечение сущностей (Offline)

    1. Индексирование контента: Система обрабатывает сырой контент документа.
    2. Распознавание сущностей (NER): Анализ контента для идентификации ссылок на Named Entities.
    3. Извлечение/Генерация данных сущности: Для каждой сущности система извлекает из корпуса знаний или генерирует Entity Data.
    4. Структурирование данных: Данные разделяются на Generic Entity Data и Special Entity Data.
    5. Генерация экземпляров сущности: Для каждого упоминания создается Entity Instance с точным местоположением и контекстным текстом (для валидации позиции).
    6. Генерация сводок: Создаются Entity Summary Data.
    7. Сохранение: Вся Entity Information сохраняется в Entity Information Repository.

    Процесс Б: Предоставление данных слоя во время выполнения (Runtime)

    1. Проверка доступности: Клиент запрашивает список доступных слоев для документа. Сервер определяет и отправляет список.
    2. Активация контента: Пользователь взаимодействует с контентом.
    3. Выбор слоя: Клиент определяет применимые слои на основе типа контента. Пользователь выбирает слой.
    4. Запрос данных: Клиент запрашивает Layer Data для конкретного Content Range и Layer ID.
    5. Извлечение данных: Сервер извлекает соответствующую Entity Information из репозитория.
    6. Передача и Представление: Сервер отправляет данные клиенту, который отображает их в интерфейсе.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст и мультимедийный контент документа. Основной источник для NER. Метаданные изображений и обработка изображений также используются для идентификации сущностей. Используется текст до и после фрагмента (Before Text, After Text) для работы Position Validation Service.
    • Технические факторы: Системные идентификаторы (Volume ID, Page ID) и индикаторы позиций (параграфы, смещения) используются для точного определения Content Range. Версии контента используются для валидации позиций.
    • Внешние данные (Корпус знаний): Базы данных или веб-страницы используются для автоматической генерации Entity Data (описаний, ссылок).

    Какие метрики используются и как они считаются

    Патент фокусируется на архитектуре и структуре данных, а не на метриках ранжирования.

    Структура данных (Entity Data): Ключевой элемент патента, описывающий схему хранения данных о сущностях.

    • Generic Entity Data (Общие атрибуты):
      • Type (Тип)
      • Description (Описание)
      • Overview Image (Обзорное изображение)
      • Main URL (Основной URL)
      • Related Links (Связанные ссылки)
      • Related Multimedia (Связанные мультимедиа)
    • Special Entity Data (Специфичные атрибуты по типам):
      • Date: Год, месяц, день.
      • Person: Каноническое имя, Статус (реальный/вымышленный), Биографическая информация.
      • Geographic Location: Координаты (широта, долгота, высота), Тип объекта, Предпочтительный режим просмотра карты, Статус (реальный/вымышленный).

    Методы анализа (NLP):

    • NER (Named-Entity Recognition): Используется для извлечения и классификации сущностей во время индексации.
    • Выравнивание текста (Text Alignment): Используется Position Validation Service для пересчета позиций при изменении версий контента, используя контекстный текст.

    Выводы

    1. Фундаментальная роль NER в индексировании: Патент демонстрирует, что распознавание именованных сущностей (NER) является стандартной частью процесса индексирования контента Google. Это базовый механизм для семантического понимания документа.
    2. Высокоструктурированная модель данных сущностей (Knowledge Graph): Google использует четкую онтологию для хранения знаний, разделяя данные на Generic Data (универсальные атрибуты) и Special Data (атрибуты, зависящие от типа). Эта структура с высокой вероятностью отражает архитектуру Графа Знаний.
    3. Разделение Сущности и Экземпляра: Google разделяет знание о самой сущности (Entity Data, которые переиспользуются между документами) и знание о конкретном ее упоминании в контексте (Entity Instance).
    4. Глубокое понимание контекста и связей: Система не только идентифицирует сущности, но и анализирует их взаимосвязи в документе (например, какие персонажи взаимодействуют в определенной локации), что отражено в функциональности слоев.
    5. Важность внешних связей (Main URL): Generic Entity Data включают Main URL и Related Links, что подтверждает важность связывания контента с авторитетными внешними источниками для верификации сущностей.
    6. Обработка версионности контента: Наличие Position Validation Service указывает на то, что Google имеет надежные механизмы для отслеживания сущностей даже при изменении или переформатировании контента, используя контекстный текст.

    Практика

    Best practices (это мы делаем)

    Хотя патент описывает систему для электронных книг, его механизмы извлечения и структурирования сущностей имеют прямое отношение к тому, как Google анализирует веб-контент для Knowledge Graph и семантического поиска.

    • Оптимизация под структуру Entity Data: При создании контента структурируйте информацию так, чтобы она соответствовала категориям Generic и Special Entity Data.
      • Generic: Предоставляйте четкие описания, качественные изображения, ссылки на авторитетные источники (Main URL).
      • Special: Для Людей указывайте биографические данные и роль; для Мест — координаты и тип объекта; для Дат/Событий — точные временные рамки.
    • Использование структурированных данных (Schema.org): Активно внедряйте микроразметку, так как ее атрибуты напрямую соответствуют структуре Special Entity Data. Используйте наиболее специфичные типы (Person, Place, Event) для точной передачи данных.
    • Обеспечение ясности для NER (Disambiguation): Используйте канонические, недвусмысленные наименования сущностей. Предоставляйте достаточный контекст при первом упоминании, чтобы облегчить классификацию сущности.
    • Насыщение контента связанными сущностями: Упоминайте связанные сущности в контексте. Патент показывает, что Google анализирует близость и взаимодействие сущностей в тексте. Это укрепляет семантические связи и Topical Authority.
    • Оптимизация изображений как сущностей: Так как система может распознавать сущности в изображениях (Entity Content), используйте релевантные изображения с оптимизированными метаданными и alt-текстами для подкрепления текстового контента.

    Worst practices (это делать не надо)

    • Двусмысленные ссылки на сущности: Использование жаргона, сокращений или неоднозначных терминов без контекста усложняет процесс NER и может привести к неверной идентификации.
    • Изолированное упоминание сущностей: Создание контента, где ключевые сущности упоминаются без описания, атрибутов или связей с другими сущностями. Это затрудняет извлечение полноценных Entity Data.
    • Игнорирование специфических атрибутов: Не предоставлять ключевые данные, которые Google ожидает для типа сущности (например, адрес для локального бизнеса или даты для исторического события).
    • Отсутствие связей с авторитетными источниками: Не предоставлять ссылки на официальные сайты или авторитетные источники (Main URL) для валидации сущностей.

    Стратегическое значение

    Этот патент подтверждает стратегический приоритет Google на переход от анализа ключевых слов к пониманию сущностей и контекста («strings to things»). Он детализирует инфраструктуру этого перехода. Долгосрочная SEO-стратегия должна быть сосредоточена на создании семантически богатого контента, который помогает Google заполнять Граф Знаний данными, соответствующими структуре Generic и Special Entity Data.

    Практические примеры

    Сценарий: Оптимизация страницы локального бизнеса (Сущность типа Место/Организация)

    1. Цель: Обеспечить точное извлечение Entity Data для бизнеса.
    2. Применение Generic Data: Предоставить четкое описание деятельности, качественное изображение (логотип/фасад), указать официальный сайт (Main URL), ссылки на авторитетные каталоги и соцсети (Related Links).
    3. Применение Special Data (Geographic Location): Как указано в патенте, критически важно предоставить точные координаты (широта/долгота) и полный адрес.
    4. Реализация: Внедрить детальную разметку LocalBusiness и GeoCoordinates, убедиться в консистентности NAP (Name, Address, Phone) на сайте и во внешних источниках.
    5. Ожидаемый результат: Улучшение распознавания бизнеса как сущности, корректное извлечение его атрибутов (особенно местоположения), что способствует лучшей видимости в локальном поиске и на Картах, так как данные соответствуют ожидаемой структуре Entity Data.

    Вопросы и ответы

    Применяется ли этот патент к Google Web Search или только к Google Books?

    Напрямую патент описывает фреймворк для электронных книг. Однако лежащие в его основе технологии — как Google выполняет NER, как структурирует данные о сущностях (Generic/Special Data) и как обрабатывает контент во время индексации — являются фундаментальными. Высока вероятность, что эти же принципы используются в веб-поиске и для построения Графа Знаний (Knowledge Graph).

    Что такое «Generic Entity Data» и как это использовать в SEO?

    Generic Entity Data — это стандартный набор атрибутов для любой сущности: описание, изображение, основной URL, связанные ссылки. Для SEO это означает, что для ключевых сущностей на вашей странице вы должны предоставить эти элементы: дать четкое определение, добавить релевантное изображение и сослаться на авторитетные источники (например, официальный сайт или Википедию).

    Что такое «Special Entity Data» и как это использовать в SEO?

    Special Entity Data — это атрибуты, специфичные для типа сущности (координаты для места, дата рождения для персоны). Это подчеркивает необходимость использования детализированных и наиболее подходящих типов Schema.org (например, использования latitude в GeoCoordinates или birthDate в Person), чтобы передать Google эти специфические данные в структурированном виде.

    Когда Google извлекает эти данные о сущностях?

    Патент четко указывает, что распознавание именованных сущностей (NER) происходит во время индексации (indexing) контента. Это офлайн-процесс. Это подчеркивает важность доступности и понятности контента при сканировании, так как система должна распознать сущности уже на этом этапе.

    Как этот патент связан с разметкой Schema.org?

    Schema.org — это способ предоставить Google данные именно в том формате, который описан в патенте. Атрибуты Schema напрямую соответствуют концепциям Generic Entity Data и Special Entity Data. Внедрение Schema помогает Google заполнить свою структуру данных о сущностях, описанную в этом патенте.

    Что такое «Entity Instance» и почему это важно?

    Entity Instance — это запись о конкретном упоминании сущности в документе, включая его точное местоположение. Это важно, потому что показывает, что Google не просто знает, что сущность упомянута на странице, но и понимает точный контекст и местоположение каждого упоминания, что позволяет анализировать роль сущности в повествовании.

    Как Google обрабатывает изменения в контенте, если сущности уже были извлечены?

    Патент описывает Position Validation Service. Эта служба использует контекстный текст (текст до и после упоминания сущности) для пересчета точного местоположения сущности, если основной контент был изменен или переформатирован. Это обеспечивает актуальность данных о местоположении сущностей.

    Может ли Google распознавать сущности в изображениях, согласно патенту?

    Да. Патент упоминает, что Entity Content (контент, ссылающийся на сущность) может быть не только текстом, но и мультимедиа (включая изображения). Система может идентифицировать изображение как ссылку на сущность, основываясь на метаданных и/или обработке самого изображения, что подтверждает важность оптимизации изображений.

    Что такое «Entity Summary Data» и как это использовать в SEO?

    Это сводные данные обо всех сущностях в документе или разделе. В SEO это можно интерпретировать как важность создания обзорных страниц или резюме, которые агрегируют информацию о ключевых сущностях темы. Это демонстрирует комплексное понимание тематики и помогает в построении Topical Authority.

    Как обеспечить максимальную точность распознавания моих сущностей (NER)?

    Для максимальной точности необходимо использовать четкие и недвусмысленные названия сущностей (канонические имена), предоставлять достаточный контекст вокруг упоминаний, поддерживать консистентность терминологии на всем сайте и внедрять детальную разметку Schema.org для подкрепления данных, извлекаемых из текста.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.