
Этот патент описывает инфраструктуру Google для приема оцифрованных книг и журналов. Он определяет «Спецификацию контента» (XML-файл), предоставляемую издателями, которая содержит метаданные, структуру тома и явные инструкции по индексированию (например, гранулярность на уровне страниц или глав). Это позволяет Google точно обрабатывать контент, не полагаясь на эвристический анализ.
Патент решает проблему сложности и низкой точности автоматического определения семантической структуры и метаданных оцифрованных томов (книг, журналов). Использование эвристик или машинного обучения для определения того, является ли отсканированная страница оглавлением, индексом, началом главы или рекламой, часто приводит к ошибкам. Это ухудшает качество индексации, поиска и отображения контента пользователю.
Запатентована система и метод обработки цифровых томов с использованием Content Specification (Спецификации контента), предоставляемой владельцем контента (издателем). Эта спецификация (например, XML-файл) явно определяет структуру тома, его метаданные (ISBN, автор), расположение файлов контента и содержит инструкции по индексированию и отображению. Это позволяет поисковой системе получать достоверную информацию напрямую от источника, минуя эвристический анализ.
Система (Volume Server) получает или сканирует Content Specification от поставщика контента. На основе этой спецификации система определяет, где находятся файлы тома (например, по URL в Structural Tags), и загружает их. Затем она собирает том в правильной последовательности, извлекает метаданные (из Metadata Tags или внешних ONIX-фидов) и выполняет оптическое распознавание текста (OCR). Наконец, контент индексируется в соответствии с инструкциями в Indexing Tags, в частности, с указанной гранулярностью (на уровне страницы, главы или тома).
Высокая для систем агрегации контента, таких как Google Books или Google Scholar. Принципы приема структурированных фидов данных (XML, ONIX) от поставщиков контента остаются фундаментальными для управления большими цифровыми библиотеками и обеспечения точности метаданных и структуры.
Влияние на общие стратегии веб-SEO низкое (3/10). Патент описывает инфраструктуру приема и обработки данных для специализированных цифровых библиотек, а не алгоритмы ранжирования веб-страниц. Однако он критически важен для издателей и авторов, размещающих контент на платформах типа Google Books, подчеркивая необходимость предоставления точных структурированных данных для корректной индексации и отображения их произведений.
Indexing Tags. Может быть на уровне страницы (page level), главы (chapter level) или всего тома (volume level).Granularity Level.sequence number) для сборки тома и семантическую информацию о частях контента (например, «обложка», «оглавление», «глава 1»).Патент содержит несколько независимых пунктов (1, 8, 13, 18), описывающих изобретение как метод, систему, программный продукт и структуру данных. Ядро изобретения сосредоточено на использовании спецификации контента с явными инструкциями по индексированию.
Claim 1, 8, 13 (Система, Метод, Продукт): Описывают процесс включения цифрового тома в библиотеку.
Content Specification для цифрового тома, содержащего текстовые данные.Structural tag, указывающий расположение (location) хотя бы части контента тома.Metadata tag, описывающий том.Indexing tag, определяющий уровень гранулярности (granularity level) для индексации контента.Structural tag.Indexing tag.Ключевым элементом здесь является не просто использование метаданных или структуры, а явное указание инструкций по индексированию (гранулярности) в самой спецификации.
Claim 18 (Структура данных): Описывает саму Content Specification как структуру данных на носителе.
Structural tag с расположением контента, используемым для его получения.Metadata tag, описывающий том.Indexing tag, содержащий инструкции по индексированию текстовых данных, включая указание granularity level.Зависимые пункты (например, 3, 15, 20): Добавляют детали, такие как использование информации о последовательности (sequencing information или sequence number) для сборки тома из отдельных частей контента.
Зависимые пункты (например, 4, 16): Уточняют, что индексирование включает извлечение текста из контента (например, через OCR).
Изобретение описывает инфраструктуру для приема и обработки контента в специализированных цифровых библиотеках, таких как Google Books. Оно не применяется к стандартному веб-поиску.
CRAWLING – Сканирование и Сбор данных
Crawling Module (Модуль сканирования) обнаруживает и извлекает Content Specification у поставщика контента. Затем Content Module (Модуль контента) использует Structural Tags из спецификации для извлечения фактических файлов контента (изображений, PDF) по указанным ссылкам (URL).
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Система обрабатывает спецификацию для извлечения данных:
Metadata Module извлекает метаданные из Metadata Tags и внешних источников (ONIX).Partner Module обрабатывает Partner Tags для определения правил доступа и отображения.Content Module и Processing Module собирают том на основе информации о последовательности в Structural Tags, выполняют OCR и конвертируют форматы.Indexing Module индексирует извлеченный текст и метаданные, строго следуя инструкциям в Indexing Tags, в частности, применяя указанную гранулярность (страница, глава, том).RANKING / (Presentation)
Presentation Module (Модуль представления) использует созданный индекс для поиска релевантного контента в ответ на запросы пользователей. При отображении результатов модуль применяет правила, извлеченные из Partner Tags и Display Tags (например, ограничения просмотра).
Входные данные:
Content Specification (XML-файл).Выходные данные:
Partner Tags могут также определять, будет ли том доступен через общий веб-поиск.Content Specification для одного или нескольких цифровых томов для включения в цифровую библиотеку.Content Specification модулем сканирования или ее прямая загрузка поставщиком контента.Процесс обработки цифрового тома на Volume Server:
Content Specification от поставщика контента.Partner Module определяет идентификатор партнера и извлекает партнерские правила из Partner Tags.Metadata Module извлекает метаданные из Metadata Tags и может запрашивать дополнительные данные из внешних ONIX-фидов или баз данных по ISBN.Indexing Tags (гранулярность).Content Module использует Structural Tags для определения структуры тома и извлечения файлов контента по указанным URL.Processing Module собирает файлы контента в единый том на основе информации о последовательности (sequence number). Выполняется OCR для извлечения текста и, при необходимости, конвертация форматов.Indexing Module индексирует обработанный контент (текст) и метаданные. Индексация выполняется с учетом заданного Granularity Level (страница, глава, том).Volume Storage (Хранилище томов) для последующего доступа через Presentation Module.Система использует данные, явно указанные в Content Specification или извлеченные из файлов, на которые она ссылается.
sequence number) для сборки тома, имена страниц, семантические типы ресурсов (например, frontcover, page, table of contents), указанные в Structural Tags.Metadata Tags.<bm:excludeFromSearch> в примере XML) – все это извлекается из Partner Tags и Display Tags.Патент не описывает метрики ранжирования. Он фокусируется на параметрах обработки и индексирования.
Indexing Tags. Определяет единицу индексации: страница, глава или том.Structural Tags. Может использоваться для придания разного веса при индексировании.Partner Tags, определяющие доступность контента для пользователей.Indexing Tags. Это позволяет оптимизировать поиск для разных типов изданий (например, индексировать кулинарные книги на уровне страниц/рецептов, а учебники — на уровне глав).Partner Tags предоставляют издателям детальный контроль над тем, как, где и кому показывается их контент, включая монетизацию (рекламу) и защиту авторских прав (ограничения просмотра).Эти рекомендации применимы в первую очередь к издателям и авторам, которые предоставляют контент для цифровых библиотек, использующих описанную систему (например, Google Books).
Content Specification была валидной, содержала корректные ссылки на файлы контента и точную структурную информацию (последовательность страниц, обозначение оглавления и т.д.).Metadata Tags, предоставляя ISBN и ссылки на полные ONIX-фиды. Это обеспечивает корректную идентификацию и классификацию тома.Indexing Tags для определения правильного Granularity Level. Если важно, чтобы пользователи могли находить отдельные статьи или рецепты, следует выбирать гранулярность на уровне страницы. Если том представляет собой единое повествование, лучше индексировать на уровне главы или тома.Partner Tags для определения бизнес-правил: настройки рекламы, географические ограничения и процент контента, доступный для предварительного просмотра.sequence number) приведут к ошибкам сборки тома или невозможности его отображения.Патент подчеркивает важность стандартизированных протоколов обмена данными для агрегации контента в больших масштабах. Успех контента на специализированных платформах (Google Books, Google Scholar) напрямую зависит от качества и полноты данных, предоставляемых издателем через эти протоколы. Для SEO-стратегии это подтверждает тренд на использование структурированных данных (аналогично Schema.org для веб-поиска или фидам для Google Merchant Center) для обеспечения корректной интерпретации контента поисковыми системами.
Сценарий 1: Индексирование кулинарной книги
Content Specification издатель использует Indexing Tags, чтобы указать Granularity Level на уровне страницы (page level), так как каждый рецепт занимает одну страницу.Volume Server индексирует каждую страницу отдельно. Поиск по запросу «рецепт яблочного пирога» точно приведет пользователя на соответствующую страницу книги, а не просто на книгу в целом.Сценарий 2: Управление доступом к новому роману
Content Specification издатель использует Partner Tags, чтобы установить максимальный процент просмотра (например, 15%) и указать ссылку на свой веб-сайт для покупки полной версии. Также могут быть использованы теги для исключения финальной главы из предпросмотра.Presentation Module отображает книгу пользователям, но блокирует доступ после достижения лимита в 15% и показывает ссылку для покупки.Описывает ли этот патент, как Google ранжирует сайты в обычном поиске?
Нет. Этот патент описывает инфраструктуру и протокол для приема, обработки и индексирования оцифрованных томов (книг, журналов) в специализированных цифровых библиотеках, таких как Google Books. Он не имеет отношения к алгоритмам ранжирования обычных веб-страниц.
Что такое «Content Specification» и зачем она нужна?
Content Specification — это структурированный файл (обычно XML), который издатель предоставляет Google. Он содержит метаданные книги, ссылки на файлы контента, описание структуры (порядок страниц, оглавление) и инструкции по обработке. Она нужна, чтобы Google мог точно собрать и проиндексировать книгу, не полагаясь на алгоритмическое угадывание структуры, которое часто ошибается.
Что такое гранулярность индексирования (Granularity Level), упоминаемая в патенте?
Гранулярность определяет, какие части книги будут индексироваться как отдельные единицы. Издатель может указать индексирование на уровне страницы, главы или всего тома. Например, для кулинарной книги полезна гранулярность на уровне страницы, чтобы можно было найти отдельный рецепт; для учебника — на уровне главы.
Как этот патент помогает бороться с ошибками при обработке книг?
Он устраняет необходимость использования эвристик для определения семантической информации. Вместо того чтобы алгоритм пытался угадать, где находится оглавление или начинается глава, издатель явно указывает это в Structural Tags спецификации. Это значительно повышает точность обработки и индексации.
Что такое «Partner Tags» и кто может их использовать?
Partner Tags используются поставщиками контента (издателями), у которых есть партнерское соглашение с платформой. Эти теги позволяют детально настроить отображение книги: указать правила доступа, ограничения на просмотр (permissions), географические ограничения, настройки рекламы и ссылки на сайт издателя.
Использует ли система внешние данные для обработки книг?
Да. Metadata Tags могут содержать ISBN или ссылки на внешние ONIX-фиды (стандарт книжной индустрии). Система может использовать эти идентификаторы для получения дополнительных метаданных о книге из внешних баз данных или из самого фида.
Что происходит с файлами контента после получения спецификации?
Система использует URL, указанные в Structural Tags, чтобы скачать файлы контента (изображения страниц, PDF). Затем она собирает их в правильной последовательности, выполняет оптическое распознавание текста (OCR), если это необходимо, и конвертирует в формат, пригодный для хранения и индексирования.
Может ли издатель исключить определенные страницы из поиска?
Да. В патенте упоминается возможность использования тегов (например, в примере XML показан тег <bm:excludeFromSearch>, относящийся к Partner Tags или Display Tags) для предотвращения появления определенных страниц в результатах поиска.
Какое значение этот патент имеет для SEO-специалиста, продвигающего интернет-магазин?
Прямое значение минимально, так как патент касается цифровых книг, а не товаров. Однако он демонстрирует общий принцип: предоставление поисковой системе точных, структурированных данных о контенте (аналогично товарным фидам или Schema.org) позволяет лучше контролировать его индексацию и отображение в специализированных сервисах.
Актуален ли этот механизм сегодня?
Да, принципы, заложенные в этом патенте, остаются высоко актуальными. Агрегация больших объемов контента из разных источников (книги, товары, новости) по-прежнему в значительной степени зависит от получения структурированных фидов данных и спецификаций напрямую от поставщиков контента, так как это гарантирует точность данных.

Индексация

Индексация

SERP
Ссылки

Ссылки
SERP
EEAT и качество

EEAT и качество
SERP
Поведенческие сигналы

Структура сайта
Техническое SEO
Ссылки

Knowledge Graph
SERP
Семантика и интент

Поведенческие сигналы
SERP
Мультимедиа

Семантика и интент
Поведенческие сигналы
SERP

Ссылки
SERP
Поведенческие сигналы

Персонализация
Поведенческие сигналы
SERP

SERP
Поведенческие сигналы
EEAT и качество

Local SEO
Поведенческие сигналы

Поведенческие сигналы
SERP

Knowledge Graph
Семантика и интент
Поведенческие сигналы
