Как Google проектирует интерфейс для поиска и навигации внутри оцифрованных книг и журналов (Google Books)

Патент Google, описывающий дизайн пользовательского интерфейса для поиска по оцифрованным печатным изданиям (книги, журналы). Он детализирует, как представляются результаты поиска, включая обложки, релевантные выдержки (excerpts), библиографическую информацию и навигацию по страницам, содержащим поисковый запрос.

Описание

Какую задачу решает

Патент решает задачу удобного представления и навигации по контенту оцифрованных печатных документов (книги, журналы, каталоги), которые сложно адаптировать под стандартный формат веб-поиска. Цель — улучшить пользовательский опыт (UX), предоставив быстрый доступ к релевантным фрагментам (excerpts) внутри большого многостраничного документа и обеспечить удобную навигацию между этими фрагментами. Патент не направлен на устранение SEO-манипуляций.

Что запатентовано

Запатентован дизайн пользовательского интерфейса (UI) и методы взаимодействия для поисковой системы, специализирующейся на оцифрованных документах (фактически, Google Books). Основное внимание уделяется структуре представления результатов поиска, а также специализированным интерфейсам: Reference Pages (Справочные страницы) и Excerpt Pages (Страницы выдержек), а также функции отслеживания истории просмотров.

Как это работает

Система получает запрос и идентифицирует релевантные оцифрованные документы. В результатах поиска для каждого документа отображается блок, включающий изображение (например, обложку), текстовую выдержку (excerpt), содержащую запрос, и ссылки на другие релевантные фрагменты внутри этого же документа. При взаимодействии с результатом пользователь переходит на Reference Page (сводная информация о документе, метаданные и примеры выдержек) или Excerpt Page (отображение конкретной страницы документа, часто в виде скана или текста). Интерфейс предоставляет элементы для навигации к следующей или предыдущей странице, содержащей поисковый запрос.

Актуальность для SEO

Средняя (для специализированных вертикалей). Хотя патент опубликован в 2023 году, он является продолжением (continuation) заявки, поданной еще в 2004 году. Он описывает базовую функциональность, которая легла в основу Google Books. Хотя современные интерфейсы эволюционировали, описанные фундаментальные принципы представления и навигации по оцифрованному контенту остаются актуальными и активно защищаются Google.

Важность для SEO

(2/10). Патент имеет минимальное значение для стандартных SEO-стратегий. Он не описывает алгоритмы ранжирования, индексирования, оценки качества или понимания запросов. Он полностью сосредоточен на дизайне пользовательского интерфейса (UI) для специализированной вертикали поиска (Google Books). Он дает понимание того, как контент может быть представлен в этой вертикали, но не предоставляет инструментов для влияния на ранжирование веб-сайтов.

Детальный разбор

Термины и определения

Document (Документ): В контексте патента — оцифрованное печатное издание, такое как книга, журнал, каталог или статья.
Excerpt (Выдержка): Фрагмент текста или изображение страницы документа, который содержит поисковый запрос.
Reference Page (Справочная страница): Пользовательский интерфейс, предоставляющий сводную информацию о документе: синопсис, библиографические данные (bibliographic information), связанные материалы и примеры релевантных выдержек (preview elements).
Excerpt Page (Страница выдержки): Пользовательский интерфейс, отображающий конкретную страницу документа (часто в виде изображения/скана), содержащую поисковый запрос, с элементами навигации.
Preview Element (Элемент предварительного просмотра): Интерактивный элемент на Reference Page, указывающий на excerpt и позволяющий перейти к просмотру фрагмента.
Publication Excerpt: Отображаемая часть документа в графическом интерфейсе (например, на Excerpt Page). Может включать множество изображений страниц (plurality of images) или их текстовый контент (textual content).
Previously Accessed Pages (Ранее посещенные страницы): Функция интерфейса для отслеживания и быстрого доступа к страницам (внутри одного или разных документов), которые пользователь уже просматривал.
OCR (Optical Character Recognition): Оптическое распознавание символов. Упоминается в патенте как технология для преобразования печатных документов в цифровой текстовый формат, пригодный для поиска.

Ключевые утверждения (Анализ Claims)

Анализ основан на независимых пунктах 1, 12 и 16 патента US11803604B2. Это патент на UI/UX, защищающий конкретную последовательность взаимодействия и состав интерфейсов.

Claim 1 (Независимый пункт): Описывает метод предоставления пользовательского интерфейса для поиска по документам (книгам).

Отображение страницы результатов поиска (SERP) с результатом, соответствующим конкретному документу (книге), на основе запроса пользователя.
Получение данных о взаимодействии пользователя с этим результатом.
В ответ на взаимодействие — отображение Reference Page, описывающей документ и содержащей элемент предварительного просмотра (preview element), указывающий на выдержку из документа.
Получение данных о взаимодействии пользователя с preview element.
В ответ на это взаимодействие — отображение графического интерфейса (GUI), включающего выдержку из публикации (publication excerpt).
Эта выдержка состоит из множества изображений (plurality of images), связанных с частью документа, включающей множество страниц (например, изображение первой страницы и изображение второй страницы книги).

Claim 12 и 16 (Независимые пункты): Описывают систему (Claim 12) и компьютерный носитель (Claim 16) для реализации схожего процесса с важными дополнениями.

Фокусируются на переходе от SERP к Reference Page. Уточняется, что Reference Page также может содержать данные о других связанных документах (например, других книгах того же автора).
Затем происходит переход к графическому интерфейсу (GUI).
Этот интерфейс отображает publication excerpt. Уточняется, что он состоит ЛИБО из множества изображений (сканов страниц), ЛИБО из текстового контента (textual content) этих страниц.

Ядро изобретения — это многоступенчатый интерфейс (SERP -> Reference Page -> GUI/Excerpt Page) и вариативность представления контента (текст или сканы), а также включение связанных материалов на уровне интерфейса.

Где и как применяется

Этот патент не описывает стандартные этапы поисковой архитектуры, такие как сканирование или ранжирование. Он фокусируется исключительно на финальном представлении данных пользователю в специализированной вертикали поиска (Google Books).

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка. Документы должны быть отсканированы, текст распознан (с помощью OCR) и проиндексирован. Система должна хранить метаданные и информацию о расположении слов на страницах.

METASEARCH – Метапоиск и Смешивание (Universal Search & Blending)
На этом этапе результаты из специализированного индекса (индекса книг) могут быть интегрированы в основную поисковую выдачу. Патент описывает, как именно выглядит этот результат (Search Result) в интерфейсе.

RERANKING (Финальное представление/UI)
Основное применение патента. Он детально описывает структуру и элементы пользовательского интерфейса (Reference Page, Excerpt Page), который отображается после того, как пользователь взаимодействует с результатом поиска.

Входные данные:

Поисковый запрос пользователя.
Набор идентифицированных релевантных документов (книг).
Метаданные документов (автор, название, библиография, синопсис, обложка).
Сканированные изображения страниц и/или распознанный текст (OCR).
История просмотров пользователя.

Выходные данные:

Сформированный HTML/Интерфейс, представляющий пользователю SERP, Reference Page или Excerpt Page.

На что влияет

Конкретные типы контента: Влияет исключительно на отображение и навигацию по оцифрованным печатным изданиям (книги, журналы, каталоги) в вертикалях типа Google Books. Не оказывает влияния на стандартные веб-страницы.
Определенные форматы контента: Специфичен для многостраничных документов, где требуется реализация навигации внутри самого документа.

Когда применяется

Условия применения: Алгоритмы и интерфейсы применяются, когда поисковая система идентифицирует оцифрованный документ как релевантный запросу пользователя.
Триггеры активации: Решение системы отобразить результат в формате Google Books и последующее взаимодействие пользователя с элементами этого интерфейса.

Пошаговый алгоритм

Описание процесса взаимодействия с интерфейсом:

Получение запроса и идентификация документов: Система получает поисковый запрос и идентифицирует релевантные оцифрованные документы в своем индексе.
Формирование и представление SERP: Система отображает результаты поиска. Для релевантного документа формируется специальный блок, включающий изображение (обложку), релевантную текстовую выдержку (excerpt) с выделением поискового запроса и ссылки на другие страницы внутри документа, где также встречается запрос.
Взаимодействие с результатом: Пользователь кликает на результат поиска.
Представление Reference Page: Система отображает Справочную страницу. Она содержит метаданные документа (автор, издатель, синопсис, связанные документы) и примеры выдержек (preview elements).
Взаимодействие с выдержкой: Пользователь кликает на конкретную выдержку или preview element.
Представление Excerpt Page (GUI): Система отображает Страницу выдержки. Она включает визуальное представление (скан) или текст конкретной страницы (или нескольких смежных страниц) с выделенным поисковым запросом.
Навигация внутри документа: Пользователь использует элементы интерфейса для перехода к следующей или предыдущей странице, содержащей запрос, просмотра всех выдержек или перехода к другим разделам (оглавление, индекс).
Отслеживание (Опционально): Система может отслеживать просмотренные страницы для реализации функции Previously Accessed Pages.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании данных для построения интерфейса, а не для ранжирования.

Контентные факторы: Текст документа (полученный, например, через OCR). Используется для поиска и отображения релевантных выдержек (excerpts).
Структурные факторы: Структура документа — разбивка на страницы, оглавление (Table of Contents), индекс (Index), обложка, страница с копирайтом. Используется для построения навигационных элементов в интерфейсе.
Мультимедиа факторы: Сканированные изображения страниц (используются для отображения на Excerpt Page). Изображение обложки (используется в SERP и на Reference Page).
Метаданные документа (используются в UI): Библиографическая информация (Bibliographic information) (ISBN, издатель, дата публикации, автор, название), синопсис, текст с обложки (Jacket/Flap Description).
Пользовательские факторы: История просмотров страниц пользователем (используется для функции Previously Accessed Pages).

Какие метрики используются и как они считаются

Патент не описывает метрики для ранжирования или оценки качества контента. Он сосредоточен на наличии или отсутствии элементов интерфейса и логике навигации.

В общем описании (не в Claims) упоминается опциональное «scoring» (оценка) идентифицированных документов, которое может быть основано на стандартных методах Information Retrieval (IR) score для сортировки результатов. Однако сам механизм расчета IR score в патенте не детализируется и не является предметом изобретения.

Выводы

Патент чисто инфраструктурный (UI/UX): Патент описывает внутренние процессы Google по созданию пользовательского интерфейса для специализированной вертикали поиска (Google Books) и не содержит прямых рекомендаций для SEO веб-сайтов.
Фокус на навигации внутри документа: Основная цель изобретения — обеспечить удобный способ предварительного просмотра и перемещения между релевантными фрагментами (excerpts) внутри больших оцифрованных документов.
Защита элементов UI и пользовательского флоу: Защищается конкретная последовательность взаимодействия (SERP -> Reference Page -> Excerpt Page) и состав этих интерфейсов, включая отображение контента в виде текста или сканов, а также включение связанных материалов (например, других книг автора).
Разделение типов контента: Патент подтверждает, что Google использует различные подходы к представлению разных типов контента. Интерфейс для книг адаптирован под многостраничный формат и отличается от стандартного веб-поиска.
Улучшение UX при исследовании: Наличие функциональности отслеживания ранее посещенных страниц (Previously Accessed Pages) указывает на стремление улучшить пользовательский опыт при работе с большими объемами текста.

Практика

ВАЖНО: Патент является инфраструктурным (UI/UX) и не дает практических выводов для стандартного SEO продвижения веб-сайтов. Рекомендации ниже применимы только для участников программы Google Books.

Best practices (это мы делаем)

Для издателей и авторов, чей контент размещается в Google Books:

Обеспечение качества метаданных: Поскольку Reference Page активно использует метаданные (автор, название, синопсис, bibliographic information), предоставление полной и точной информации критично для корректного отображения и привлекательности контента в интерфейсе.
Качественные изображения обложек: Изображение обложки используется в SERP и на Reference Page. Предоставление качественных изображений может улучшить CTR.
Четкая структура документа: Наличие логичной структуры у исходного документа (оглавление, индекс) позволяет системе корректно построить навигацию, описанную в патенте.

Worst practices (это делать не надо)

Не применимо. Патент не направлен против каких-либо SEO-тактик, манипуляций или методов оптимизации, так как он не касается алгоритмов ранжирования.

Стратегическое значение

Стратегическое значение для веб-SEO минимально. Патент представляет интерес с точки зрения истории развития поисковых интерфейсов Google и понимания подходов к представлению не-веб контента. Он не влияет на понимание приоритетов Google в ранжировании веб-сайтов и не требует изменений в долгосрочной SEO-стратегии.

Практические примеры

Практических примеров для стандартного SEO нет, так как патент описывает дизайн интерфейса Google, на который SEO-специалист повлиять не может.

Вопросы и ответы

Влияет ли этот патент на ранжирование моего сайта в Google?

Нет. Патент полностью посвящен дизайну пользовательского интерфейса для отображения результатов поиска по оцифрованным книгам и журналам (Google Books). Он не содержит информации об алгоритмах ранжирования веб-сайтов или факторах, влияющих на позиции в основном поиске.

Что такое «Reference Page» и «Excerpt Page»?

Это два типа страниц интерфейса. Reference Page предоставляет общую сводку о документе: метаданные, синопсис, связанные материалы (например, другие книги автора) и примеры текста (превью). Excerpt Page показывает скан или текст конкретной страницы документа, где встречается запрос, и предоставляет инструменты для навигации.

Патент опубликован в 2023 году. Означает ли это, что это новая функция Google?

Не совсем. Хотя этот конкретный патент (US11803604B2) опубликован недавно, он является продолжением (continuation) оригинальной заявки, поданной еще в 2004 году. Он описывает базовую функциональность, которая легла в основу Google Print (ныне Google Books), и Google продолжает защищать этот дизайн.

Описывает ли патент, как Google выбирает, какую именно выдержку (excerpt) показать в результатах поиска?

Нет. Патент упоминает, что документы могут быть оценены (scored) на основе стандартных методов Information Retrieval (IR), но не детализирует алгоритм выбора конкретной выдержки. Он фокусируется на том, как отобразить выдержку в интерфейсе, а не почему она была выбрана.

Что такое функция «Previously Accessed Pages», описанная в патенте?

Это элемент интерфейса, который позволяет пользователю видеть историю страниц, которые он просматривал внутри одной или нескольких книг, и быстро возвращаться к ним. Это функция улучшения пользовательского опыта (UX) при исследовании документов в рамках системы.

Могу ли я оптимизировать свой контент, чтобы он лучше выглядел в интерфейсе, описанном в патенте?

Только если ваш контент — это книга, загруженная в Google Books. В этом случае предоставление точных метаданных (синопсис, библиография) и наличие четкой структуры (оглавление) поможет Google корректно сформировать Reference Page и навигацию. Для стандартных веб-сайтов это не применимо.

Упоминается ли в патенте OCR (оптическое распознавание символов)?

Да, в разделе «Background» (Предпосылки) OCR упоминается как известный метод для преобразования печатного текста в цифровой формат. Наличие OCR является необходимым условием для того, чтобы система, описанная в патенте, могла осуществлять поиск по тексту отсканированных книг.

Интерфейс показывает текст или сканы страниц?

Патент (в частности, Claim 12) описывает оба варианта. Интерфейс (GUI) может отображать publication excerpt либо в виде множества изображений (сканов) страниц документа, либо в виде текстового контента (textual content) этих страниц.

Есть ли в этом патенте информация о том, как Google обрабатывает авторство или E-E-A-T?

Патент упоминает отображение информации об авторе и ссылок на другие документы этого же автора на Reference Page (Claim 12). Однако это касается отображения данных, а не оценки авторитетности автора (E-E-A-T) или использования авторства как фактора ранжирования.

Какова основная ценность этого патента для SEO-специалиста?

Ценность минимальна. Он дает представление о том, как Google проектировал интерфейсы для специализированных вертикалей поиска. Он не содержит информации, полезной для современного SEO продвижения веб-сайтов, но может быть полезен издателям для оптимизации отображения их контента в Google Books.