
Google улучшает представление оцифрованных документов (книг, статей), определяя их атрибуты (автор, название) и автоматически выполняя веб-поиск связанной информации (обзоров, биографий). Эта информация затем представляется вместе с исходным документом на «Справочной странице» (Reference Page), иногда путем прямого извлечения данных с релевантных веб-сайтов.
Патент решает проблему недостатка контекстной информации при просмотре оцифрованных версий традиционных печатных изданий (книг, журналов, каталогов), которые часто попадают в индекс через сканирование и OCR. Эти материалы статичны и изолированы от гипертекстовой среды веба. Изобретение направлено на обогащение пользовательского опыта путем автоматического связывания статического документа с динамической, релевантной информацией, доступной в интернете.
Запатентована система для автоматического или интерактивного дополнения информации о документе (например, книге) связанным веб-контентом. Система идентифицирует атрибуты документа (название, автор, тема) и использует их для выполнения вторичных поисковых запросов в интернете (например, поиск обзоров книги). Результаты этих вторичных поисков интегрируются в интерфейс просмотра документа (Reference Page), либо в виде ссылок, либо в виде извлеченной информации (extracted information).
Механизм работает в нескольких режимах:
Reference Page с основной информацией о документе (выдержки, библиография).Reference Page содержит ссылки на связанную информацию (например, «Обзоры»). Если пользователь нажимает на ссылку, система генерирует вторичный запрос (например, Название книги + «обзор») и показывает результаты веб-поиска.Reference Page.Высокая. Патент описывает фундаментальные механизмы работы специализированных вертикалей поиска, таких как Google Books и Google Scholar. Автоматическое обогащение сущностей (книг, авторов, научных работ) информацией из интернета является ключевой частью современных поисковых систем, включая формирование Панелей Знаний (Knowledge Panels).
Влияние на SEO — умеренное (4/10). Патент не описывает алгоритмы ранжирования основного веб-поиска. Однако он критически важен для понимания того, как контент попадает в специализированные вертикали. Если SEO-стратегия включает оптимизацию контента о книгах, авторах или публикациях (например, для сайтов с обзорами, биографиями), этот патент объясняет, как Google находит, ранжирует (используя стандартные сигналы) и отображает этот контент в контексте исходного документа.
Scanned Document.Reference Page.Патент описывает несколько ключевых режимов работы.
Claim 1 (Независимый пункт): Описывает реактивный (интерактивный) метод.
scanned document.Reference Page. Она содержит ссылки, каждая из которых связана со вторым поиском по определенному атрибуту (например, ссылка «Обзоры»).Reference Page.Claim 17 (Независимый пункт): Описывает метод с автоматическим выполнением множества поисков.
Reference Page с ссылкой, связанной с множеством поисков (plurality of searches) по атрибутам.Reference Page с результатами.Claim 20 (Независимый пункт): Описывает метод с извлечением информации.
scanned document и отображает Reference Page с ссылкой на поиск по атрибуту.extract information) из этих веб-документов.Reference Page, включающая эту извлеченную информацию (например, текст обзора, а не ссылку на него).Claims 3 и 4 (Зависимые): Уточняют, что результаты второго поиска ранжируются. Для этого генерируются оценки (scores), которые могут основываться на комбинации IR scores и link-based scores.
Изобретение в первую очередь относится к этапам, связанным с формированием финальной выдачи и интерфейса для специализированных вертикалей поиска (например, Google Books, Google Scholar).
INDEXING – Индексирование и извлечение признаков
На этом этапе система обрабатывает как исходные Documents (сканирует книги, извлекает текст через OCR, идентифицирует Attributes), так и Web Documents (сканирует веб-страницы с обзорами, биографиями).
QUNDERSTANDING – Понимание Запросов
Система должна генерировать вторичные поисковые запросы на основе атрибутов документа. Например, получив атрибуты «Название: 9/11 Report» и «Тип информации: Обзор», система генерирует запрос ["9/11 Report" review].
RANKING – Ранжирование
Ранжирование применяется при выполнении вторичных поисков (например, поиске обзоров). В патенте (Claims 3, 4) явно указано использование стандартных методов ранжирования, включая IR-scores и Link-based scores (ссылочные оценки), для сортировки этих вторичных результатов.
METASEARCH – Метапоиск и Смешивание
Это основной этап применения патента. Система функционирует как метапоисковый движок, который агрегирует информацию из разных источников (оцифрованный документ и результаты вторичного веб-поиска) и смешивает их для создания единой Reference Page.
Входные данные:
Выходные данные:
Reference Page, объединяющая информацию о документе и результаты вторичного веб-поиска (в виде ссылок или извлеченных данных).Reference Page для документа.Процесс А: Реактивное получение связанной информации (на основе Claim 1 и FIG. 3B)
IR score и Link-based score) и отображаются пользователю.Процесс Б: Проактивное получение и извлечение информации (на основе Claim 17, 20 и FIG. 3C/3D)
Reference Page, встраивая в нее либо ссылки на найденные веб-документы, либо непосредственно извлеченную информацию.Система использует следующие типы данных:
Патент не вводит новых метрик ранжирования, но явно указывает (Claims 3, 4 и описание) на использование существующих для оценки результатов вторичного веб-поиска:
IR scores и Link-based scores для финального ранжирования веб-документов, найденных во время вторичного поиска.IR Score) и авторитетность (Link-based Score/PageRank).Reference Page).Практическое применение этого патента актуально для сайтов, контент которых может служить источником связанной информации о книгах, статьях, авторах (сайты отзывов, книжные магазины, энциклопедии, СМИ).
Reference Page.Reference Pages для ваших работ.Reference Pages, используя стандартное ранжирование.Extracted Information.Патент подтверждает стратегию Google по синтезу информации и созданию собственных ответов на базе данных из интернета. Он демонстрирует, как Google использует веб-контент для обогащения сущностей в своих вертикалях. Для SEO-специалистов это подчеркивает важность оптимизации не только для традиционного ранжирования, но и для того, чтобы стать источником данных для Панелей Знаний и специализированных сервисов Google, что требует авторитетности и хорошо структурированного контента.
Сценарий: Оптимизация страницы обзора книги для Google Books
Reference Page).Link-based score), из которых можно извлечь данные (Extracted Information).ratingValue), объект обзора (itemReviewed - Book) и текст обзора (reviewBody).Link-based Score.Reference Page книги.Описывает ли этот патент алгоритмы ранжирования основного веб-поиска?
Нет, патент не описывает, как ранжируются сайты в основном веб-поиске. Он фокусируется на том, как Google находит и представляет связанную информацию в контексте просмотра конкретного документа (например, книги в Google Books). Однако он упоминает, что для ранжирования этой связанной информации используются стандартные метрики, такие как IR Score и Link-based Score (PageRank).
Что такое «Reference Page» (Справочная страница) в контексте патента?
Reference Page — это интерфейс, который Google генерирует для предоставления подробной информации о конкретном документе (книге, статье). Она агрегирует данные из самого документа (выдержки, оглавление) и связанную информацию, найденную в интернете (обзоры, биографию автора). Примером может служить страница конкретной книги в сервисе Google Books.
Как Google определяет, какую связанную информацию искать для документа?
Система идентифицирует атрибуты документа, такие как название, автор, тема, издатель, ISBN. Затем она использует эти атрибуты для генерации вторичных поисковых запросов. Примеры включают поиск обзоров документа, биографии автора, новостных статей, упоминающих документ, или других работ того же автора.
Что означает «Extracted Information» (Извлеченная информация) и почему это важно для SEO?
Это данные, которые Google автоматически извлекает из веб-страниц (например, рейтинг книги, текст обзора) и встраивает непосредственно в свой интерфейс (Reference Page). Для SEO это важно, так как позволяет вашему контенту быть представленным напрямую в сервисах Google. Для этого необходимо облегчить извлечение данных с помощью структурированной разметки и чистой верстки.
Патент упоминает два режима поиска: реактивный и проактивный. В чем разница?
В реактивном режиме (Claim 1) вторичный поиск выполняется только тогда, когда пользователь явно запрашивает информацию (например, нажимает кнопку «Показать обзоры»). В проактивном режиме (описанном в патенте и Claim 17) система может автоматически выполнять вторичные поиски в фоновом режиме при загрузке Reference Page и сразу отображать найденную информацию.
Как я могу повысить вероятность того, что мой сайт будет выбран в качестве источника связанной информации?
Патент указывает, что результаты вторичного поиска ранжируются с использованием стандартных сигналов, включая релевантность (IR Score) и авторитетность (Link-based Score). Поэтому необходимо создавать релевантный контент (например, качественный обзор) и работать над повышением авторитетности вашего сайта и конкретной страницы.
Применяется ли этот патент только к Google Books?
Хотя основные примеры в патенте касаются книг (scanned documents), описанные принципы применимы шире. Этот механизм автоматического обогащения сущностей информацией из веба используется также в Google Scholar (для научных статей) и может лежать в основе сбора данных для Панелей Знаний (Knowledge Panels) о любых сущностях.
Какое значение имеет упоминание «Link-based Score» (PageRank) в этом патенте?
Это подтверждает, что даже для вторичных поисков, выполняемых в рамках специализированных вертикалей, авторитетность источника остается критически важным фактором. Google предпочтет показать обзор с авторитетного сайта (например, New York Times), чем с неизвестного блога, при прочих равных условиях. В патенте прямо цитируется патент PageRank.
Как микроразметка связана с этим патентом?
Хотя патент напрямую не упоминает Schema.org (он был подан до ее широкого распространения), он описывает механизм Information Extraction (Claim 20). Микроразметка является основным инструментом, который помогает поисковым системам точно извлекать данные (рейтинги, обзоры, факты). Использование разметки значительно повышает шансы на успешное применение механизмов, описанных в патенте, к вашему контенту.
Упоминаются ли в патенте рекламные объявления?
Да. В описании патента указано, что Reference Page может также включать рекламные объявления (advertisements). Они могут быть связаны с атрибутами документа (например, реклама продажи этой книги), темой документа, исходным поисковым запросом пользователя или его поведением (историей поиска/просмотров).

SERP
Ссылки

Индексация

Индексация
SERP

Индексация

Ссылки
SERP
EEAT и качество

Мультимедиа
Поведенческие сигналы
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
Персонализация

Мультимедиа
EEAT и качество
Ссылки

Мультимедиа
EEAT и качество
Семантика и интент

Local SEO
SERP
Ссылки

Поведенческие сигналы
SERP

Local SEO
Поведенческие сигналы
Семантика и интент

Персонализация
Поведенческие сигналы
SERP

Поведенческие сигналы
Семантика и интент
SERP
