Как Google проектирует интерфейс и навигацию для поиска внутри оцифрованных документов (Google Books)

USER INTERFACES FOR A DOCUMENT SEARCH ENGINE (Пользовательские интерфейсы для системы поиска документов)

US8364668B2
Google LLC
2004-09-29
2013-01-29

Патент описывает дизайн пользовательского интерфейса для поиска по оцифрованным печатным материалам (книги, журналы). Он включает механизмы отображения результатов с выдержками (excerpts), навигацию к следующим релевантным фрагментам внутри документа (пропуская нерелевантные страницы), агрегацию связанной веб-информации и отслеживание истории просмотров.

Какую проблему решает

Патент решает проблему эффективного представления и навигации внутри объемных оцифрованных документов (например, книг, журналов, каталогов), которые были преобразованы в цифровой формат (упоминается OCR). Задача — предоставить пользователю удобный интерфейс для быстрого доступа к конкретным релевантным фрагментам и обзору содержания, улучшая пользовательский опыт (UX) в специализированных вертикалях поиска (например, Google Books). Патент не направлен на улучшение ранжирования в веб-поиске.

Что запатентовано

Запатентована система и графический пользовательский интерфейс (GUI) для поисковой системы по документам. Изобретение охватывает конкретные форматы отображения результатов поиска (search result), включающие выдержки (excerpts) и ссылки на другие релевантные части документа. Также запатентованы специализированные интерфейсы просмотра: Reference Page (сводная информация и связанные веб-ресурсы) и Excerpt Page (просмотр конкретной страницы с «умной» навигацией по релевантным фрагментам).

Как это работает

Система предоставляет многоуровневый доступ к контенту:

Результаты поиска (SERP): Отображается результат, включающий изображение документа (обложку), выдержку (excerpt) с подсветкой запроса и ссылки на другие страницы документа, содержащие этот запрос.
Reference Page (Справочная страница): Агрегирует информацию о документе: выдержки, синопсис, библиографию и Related Information (связанные веб-документы, например, обзоры).
Excerpt Page (Страница выдержки): Показывает конкретную страницу и предоставляет навигацию для перехода к следующей/предыдущей странице, которая содержит поисковый термин, пропуская нерелевантные страницы.
Отслеживание истории: Система отслеживает Previously Accessed Pages для удобства навигации пользователя.

Актуальность для SEO

Средняя. Патент (подача 2004 г.) описывает фундаментальные элементы интерфейса Google Books. Хотя дизайн эволюционировал, базовая логика представления оцифрованных документов, навигации по релевантным фрагментам (пропуск страниц) и агрегации связанной информации остается актуальной для этого типа вертикального поиска.

Важность для SEO

(1/10) Минимальное/Инфраструктура. Влияние на стандартные SEO-стратегии минимальное. Патент не описывает алгоритмы ранжирования веб-поиска. Он полностью сосредоточен на UI/UX специализированной вертикали (Google Books). Однако он имеет значение для издателей, оптимизирующих контент внутри экосистемы Google Books, поскольку описывает, как именно их контент будет представлен пользователям.

Термины и определения

Document (Документ): Оцифрованный объект, такой как книга, журнал, статья или каталог.
Excerpt (Выдержка, Фрагмент): Часть документа (текст или изображение страницы), которая содержит термин поискового запроса.
Reference Page (Справочная страница): Страница интерфейса, предоставляющая сводную информацию о документе. Включает выдержки, синопсис, библиографические данные и Related information.
Excerpt Page (Страница выдержки): Страница интерфейса, отображающая конкретную страницу документа. Включает навигацию к следующим/предыдущим релевантным фрагментам.
All Excerpts Page (Страница всех выдержек): Страница, отображающая множество релевантных выдержек из документа, в виде текста или миниатюр страниц (thumbnail images).
Previously Accessed Pages (Ранее посещенные страницы): Функция интерфейса, которая отслеживает и отображает страницы, которые пользователь уже просматривал.
Related Information (Связанная информация): Информация о веб-документах, связанных с найденным документом или его автором (например, обзоры, биографии). Отображается на Reference Page.
OCR (Optical Character Recognition): Оптическое распознавание символов. Упоминается как способ создания корпуса документов для поиска.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на элементах пользовательского интерфейса и методах представления результатов.

Claim 1 (Независимый пункт): Описывает основной процесс и структуру интерфейса от SERP до Reference Page.

Система генерирует документ с результатами поиска (search result document).
Для найденного документа результат включает: (i) изображение, (ii) выдержку (excerpt), связанную с запросом, и (iii) несколько ссылок на другие выдержки в этом же документе, связанные с запросом.
Система получает выбор этого документа пользователем.
Система предоставляет Reference Page.
Reference Page включает: (i) несколько изображений выдержек (excerpt images) и (ii) информацию о веб-документах, связанных с этим документом (Related Information).

Claim 9 (Зависимый от 1): Детализирует Excerpt Page.

Система предоставляет Excerpt Page, включающую выдержку страницы (page excerpt) и как минимум одно из: (i) ссылку на следующую/предыдущую релевантную выдержку или (ii) ссылку на все релевантные выдержки в документе.

Claim 17 (Зависимый от 1): Описывает функцию отслеживания истории просмотров.

Система генерирует и предоставляет информацию, связанную с несколькими ранее посещенными страницами (previously accessed pages) этого документа.

Claim 26 (Независимый пункт - Система/GUI): Описывает систему, реализующую GUI с «умной» навигацией по релевантности.

GUI включает страницу документа с поисковым термином и набор ссылок на части документа.
Включает вторую ссылку на следующую или предыдущую страницу, содержащую поисковый термин. Выбор этой ссылки вызывает отображение следующей/предыдущей последовательной страницы, только если она содержит термин; в противном случае отображается непоследовательная страница (пропуск страниц), которая содержит термин.
Включает третью ссылку на все страницы документа, содержащие термин, выбор которой вызывает отображение изображений этих страниц.

Где и как применяется

Изобретение применяется в специализированной поисковой системе (Вертикальный поиск), такой как Google Books, и затрагивает этапы предобработки и представления результатов.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит необходимая предобработка: сканирование, OCR, сегментация на страницы, извлечение текста и структуры (оглавление, индекс). Также может происходить сбор Related Information из интернета.

RANKING – Ранжирование
Система определяет релевантные документы и, возможно, наиболее релевантные страницы внутри документа для использования в качестве excerpts (хотя алгоритмы ранжирования в патенте не описаны).

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование (Уровень Представления)
Основное применение патента. Система формирует пользовательский интерфейс.

Формирование SERP: Создание специализированного сниппета с выдержками и ссылками.
Генерация UI страниц: По запросу генерируются Reference Page, Excerpt Page и т.д.
Интеграция данных: В интерфейс интегрируются текст, изображения, метаданные и внешние данные (Related Information).
Отслеживание сессии: Отслеживание действий пользователя для Previously Accessed Pages.

Входные данные:

Поисковый запрос.
Корпус оцифрованных документов (текст и изображения).
Метаданные документов (автор, название, ISBN, синопсис).
База данных Related Information.
Данные сессии пользователя.

Выходные данные:

Отформатированные страницы интерфейса (SERP, Reference Page, Excerpt Page).

На что влияет

Конкретные типы контента: Влияет исключительно на оцифрованные многостраничные документы (книги, журналы, каталоги). Не влияет на стандартные веб-страницы.
Вертикали поиска: Применяется в Google Books или Google Scholar.

Когда применяется

Условия применения: Алгоритм формирования интерфейса активируется, когда поисковая система идентифицирует релевантные документы в своем специализированном индексе и когда пользователь взаимодействует с этими результатами (просмотр документа, навигация).

Пошаговый алгоритм

Процесс А: Генерация результатов поиска (SERP)

Идентификация документов: Поиск релевантных документов в индексе.
Формирование результата: Для каждого документа генерируется блок результата.
Добавление элементов: Добавляется изображение (обложка) и метаданные.
Извлечение выдержек: Извлекается одна или несколько релевантных excerpts с подсветкой термина.
Добавление навигации: Добавляются ссылки на другие страницы документа, где встречается запрос.
Отображение SERP.

Процесс Б: Взаимодействие с документом (Reference Page)

Получение выбора пользователя: Клик по документу в SERP.
Генерация Reference Page: Система формирует страницу.
Агрегация данных: Собираются синопсис, библиография, Related Information (связанные веб-документы).
Отображение выдержек: Показ нескольких релевантных выдержек (текст или изображения).
Формирование навигации: Добавление ссылок на структурные части (TOC, Index).
Презентация.

Процесс В: Взаимодействие с документом (Excerpt Page)

Переход к конкретной странице.
Генерация Excerpt Page: Отображение текста или изображения страницы с выделением термина.
Формирование специализированной навигации: Добавление ссылок «View Next/Previous Excerpt».
Обработка навигации (Claim 26): При активации навигации система определяет следующую/предыдущую страницу, содержащую термин (пропуская нерелевантные страницы), и отображает ее.
Отслеживание истории: Страница добавляется в список Previously Accessed Pages.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании данных для генерации интерфейса, а не для ранжирования.

Контентные факторы: Полный текст документа (полученный через OCR). Используется для поиска совпадений и генерации excerpts.
Структурные факторы: Данные о структуре документа (номера страниц, оглавление (Table of Contents), индекс (Index), обложка). Используются для навигации.
Мультимедиа факторы: Изображения страниц и обложки. Используются как миниатюры и для отображения на Excerpt Page.
Внешние данные (Web Documents): Информация из интернета (Related Information), такая как обзоры, биографии автора.
Метаданные документа: Библиографическая информация (ISBN, издатель), синопсис, текст с обложки (Jacket/Flap Description).
Пользовательские факторы (Сессия): История просмотра страниц пользователем (для Previously Accessed Pages).

Какие метрики используются и как они считаются

В патенте не указаны метрики или формулы для ранжирования. Он оперирует логическими условиями отображения элементов:

Наличие поискового термина: Ключевое условие для определения excerpt и для работы специализированной навигации (Next/Previous relevant excerpt).
Статус просмотра страницы: Используется для Previously Accessed Pages.

Патент описывает внутренние процессы Google по дизайну UI/UX без прямых рекомендаций для стандартного веб-SEO.
Фокус на Вертикальном Поиске (Google Books): Патент детально описывает архитектуру интерфейса для специализированного поиска по оцифрованным документам.
Навигация по релевантности (Claim 26): Ключевой особенностью является механизм навигации, позволяющий переходить от одного релевантного фрагмента к другому, пропуская страницы, не содержащие поисковый термин («Skip Navigation»).
Агрегация связанной информации (Reference Page): Reference Page служит хабом, соединяющим контент документа с метаданными и связанными веб-ресурсами (Related Information), такими как обзоры и биографии.
Отслеживание сессии (Previously Accessed Pages): Система включает механизмы для отслеживания истории взаимодействия пользователя с документами для улучшения навигации.
Значение для издателей: Хотя патент не влияет на веб-SEO, он важен для издателей в Google Books, подчеркивая важность качества метаданных, структуры и внешних упоминаний для представления их контента.

Best practices (это мы делаем)

Рекомендации применимы исключительно для авторов, издателей и специалистов, оптимизирующих контент для Google Books и аналогичных систем. Для стандартного веб-SEO эти практики не применимы.

Обеспечение качества оцифровки и OCR: Качество исходного материала и точность OCR критичны для того, чтобы система могла найти и корректно отобразить релевантные excerpts.
Предоставление полных метаданных: Необходимо предоставлять точные библиографические данные, качественный синопсис и текст обложки (Jacket/Flap Description). Эта информация формирует Reference Page.
Логичная структура документа: Наличие четкого оглавления (Table of Contents) и индекса (Index) улучшает навигацию, так как система использует эти структурные элементы в интерфейсе.
Стимулирование внешних упоминаний и обзоров: Активность в интернете вокруг книги (обзоры, упоминания, биографии автора) важна, так как эта информация агрегируется в блоке Related Information (Claim 1), повышая авторитетность документа в глазах пользователя.

Worst practices (это делать не надо)

Применимо только к оптимизации в Google Books.

Пренебрежение метаданными: Отсутствие синопсиса или неполные данные ухудшают представление документа на Reference Page.
Сложное форматирование, затрудняющее OCR: Нестандартные шрифты или сложное форматирование могут снизить качество распознавания текста и, как следствие, индексацию и отображение выдержек.

Стратегическое значение

Стратегическое значение для стандартного SEO низкое. Патент демонстрирует подход Google к созданию специализированных интерфейсов для не-веб контента. Он подтверждает важность структурированных данных и качественных метаданных для корректного представления контента в вертикальных поисковых системах. Для издателей этот патент определяет «правила игры» в экосистеме Google Books.

Практические примеры

Практических примеров для применения в работе SEO-специалиста по продвижению веб-сайтов нет, так как патент описывает интерфейс Google Books.

Пример для издателя: Оптимизация представления книги в Google Books

Действие (Метаданные и Структура): Издатель предоставляет Google Books качественный скан книги с детальным оглавлением, предметным указателем (Index), полным синопсисом и библиографией.
Результат (Reference Page и Навигация): При поиске пользователь попадает на информативную Reference Page. Система автоматически генерирует ссылки на TOC и Index, позволяя пользователю быстро оценить содержание.
Действие (Внешняя активность): Книга получает обзоры на авторитетных сайтах и в онлайн-журналах.
Результат (Related Information): На Reference Page блок Related Information автоматически заполняется ссылками на эти внешние обзоры.
Результат (Excerpt Navigation): При поиске по ключевому термину пользователь может использовать кнопки «View Next/Previous Excerpt» для быстрого перемещения между всеми случаями употребления термина, пропуская нерелевантные страницы (согласно Claim 26).

Влияет ли этот патент на ранжирование моего сайта в основном поиске Google?

Нет. Этот патент не описывает алгоритмы ранжирования для веб-поиска. Он полностью сосредоточен на дизайне пользовательского интерфейса и механизмах навигации для специализированной поисковой системы по оцифрованным документам (например, Google Books).

Что такое «Reference Page» и почему она важна для издателей?

Reference Page (Справочная страница) — это сводная страница о документе, агрегирующая метаданные, выдержки и связанную информацию из интернета (Related Information). Она важна для издателей, так как формирует первое впечатление пользователя и может включать ссылки на покупку или внешние обзоры, повышающие доверие.

Как Google собирает «Related Information» о книге?

Патент не детализирует алгоритм сбора, но указывает, что это информация о веб-документах, связанных с книгой или автором (обзоры, биографии, новости). Это подчеркивает важность наличия информации о книге и авторе в интернете за пределами самой системы Google Books.

Что означает функция навигации «Next/Previous Excerpt» (Claim 26)?

Это функция «умной» навигации. Она позволяет пользователю переходить к следующему или предыдущему фрагменту документа, содержащему поисковый термин. Ключевой момент: система пропускает промежуточные страницы, если на них нет этого термина, обеспечивая навигацию по релевантности.

Как оптимизировать книгу для лучшего представления в Google Books согласно этому патенту?

Необходимо сосредоточиться на качестве оцифровки (точный OCR), полноте метаданных (синопсис, библиография), наличии структуры (оглавление, индекс). Также полезно стимулировать появление внешних обзоров для заполнения блока Related Information.

Что такое «All Excerpts Page»?

Это страница, которая собирает множество релевантных выдержек из документа в одном месте. Они могут быть показаны списком текстовых фрагментов или набором миниатюр страниц (thumbnail images), на которых найдены совпадения с запросом.

Отслеживает ли Google, что я читаю, согласно этому патенту?

Да, патент описывает механизм Previously Accessed Pages (Ранее посещенные страницы). Система отслеживает, какие страницы пользователь просматривал (в рамках одного или нескольких документов), и предоставляет интерфейс для быстрого возврата к ним.

Используются ли данные из этого патента для ранжирования в веб-поиске?

Нет. В данном патенте нет информации о том, как описанные механизмы или данные влияют на ранжирование веб-поиска. Патент сфокусирован исключительно на интерфейсе системы поиска документов.

Как система обрабатывает ошибки OCR?

Патент упоминает OCR как метод получения данных, но не описывает механизмы обработки ошибок. Это означает, что низкое качество OCR напрямую ухудшит видимость документа, так как поисковые термины могут быть не распознаны корректно.

Касается ли этот патент сниппетов в обычном веб-поиске?

Нет. Патент описывает excerpts (выдержки) в контексте поиска по оцифрованным книгам, включая специфическую навигацию внутри них. Это отличается от того, как формируются стандартные сниппеты для веб-страниц в основной выдаче Google.

Как Google обогащает оцифрованные документы (например, книги), автоматически находя и встраивая связанный веб-контент

Google улучшает представление оцифрованных документов (книг, статей), определяя их атрибуты (автор, название) и автоматически выполняя веб-поиск связанной информации (обзоров, биографий). Эта информация затем представляется вместе с исходным документом на «Справочной странице» (Reference Page), иногда путем прямого извлечения данных с релевантных веб-сайтов.

US8386453B2
2013-02-26

Индексация
Ссылки
Семантика и интент

Как Google индексирует печатные издания (книги, журналы) и модифицирует рекламу в них для показа в поиске

Патент описывает технологию, лежащую в основе Google Books и Google Scholar. Он раскрывает, как Google сканирует печатные материалы, делает их доступными для поиска наравне с веб-страницами и управляет авторскими правами через протокол разрешений. Ключевой аспект патента — механизмы модификации оригинальной печатной рекламы путем ее замены на обновленную цифровую рекламу или добавления интерактивных гиперссылок.

US9684676B1
2017-06-20

Индексация
SERP

Как Google реализует функцию «Выделить и Искать» с интеллектуальным уточнением запроса на стороне клиента

Патент Google описывает клиентскую технологию, позволяющую пользователю выделить любой элемент на экране (текст или изображение) и мгновенно инициировать поиск. Система автоматически обрабатывает выделенное: применяет OCR к изображениям, дополняет частично выделенные слова и добавляет контекстные слова из окружающего контента для уточнения запроса перед его отправкой в поисковую систему.

US8838562B1
2014-09-16

Семантика и интент

Как Google использует статистический анализ текста для автоматического сопоставления отсканированных книг с библиотечными каталогами (Google Books)

Патент описывает инфраструктурный процесс Google для каталогизации оцифрованных документов (Google Books). Система статистически сравнивает текст книги, полученный через OCR (особенно страницу авторских прав), с базой библиотечных метаданных. Используя вероятностный анализ, который придает больший вес редким терминам, система находит наилучшее совпадение и связывает структурированные данные (автор, название, ISBN) с отсканированным контентом.

US8510312B1
2013-08-13

Индексация

Как Google использует персональные выделения контента и поведение чтения для гиперперсонализации поисковой выдачи

Google отслеживает, какой текст пользователи выделяют на веб-страницах и как они читают контент (включая скорость прокрутки и потенциально отслеживание взгляда). Эта информация используется для глубокой персонализации будущих поисковых запросов: система аннотирует знакомые результаты, использует содержание выделенного текста для подбора другого релевантного контента и автоматически возвращает пользователя к последнему просмотренному фрагменту.

US11514126B2
2022-11-29

Персонализация
Поведенческие сигналы
SERP

Как Google извлекает, обрабатывает и индексирует анкорный текст, контекст и атрибуты входящих ссылок для ранжирования целевых страниц

Фундаментальный патент, описывающий инфраструктуру Google для обработки ссылок. Система извлекает анкорный текст, окружающий контекст и атрибуты форматирования (аннотации) из исходных страниц и инвертирует эти данные в структуру "Sorted Anchor Map". Это позволяет индексировать целевую страницу по тексту ссылок, указывающих на нее, используя эту внешнюю информацию как сигнал релевантности.

US7308643B1
2007-12-11

Ссылки
Индексация
Техническое SEO

Как Google автоматически добавляет текст существующих объявлений к сайтлинкам (Sitelinks) для повышения CTR

Google использует систему для автоматического улучшения сайтлинков в рекламных объявлениях. Система анализирует существующие текстовые объявления (креативы) рекламодателя и определяет их конечные целевые страницы, игнорируя параметры отслеживания. Затем она сопоставляет их с URL сайтлинков и добавляет наиболее релевантный и эффективный текст креатива к сайтлинку для повышения кликабельности (CTR).

US10650066B2
2020-05-12

Ссылки
SERP

Как Google объединяет разные стратегии и поведенческие данные для генерации и выбора лучших альтернативных запросов

Google использует архитектуру, которая одновременно применяет множество стратегий (расширение, уточнение, синтаксис, анализ сессий) для генерации альтернативных запросов. Система оценивает качество этих вариантов с помощью показателей уверенности, основанных на поведении пользователей (например, длительности кликов) и критериях разнообразия. Лучшие альтернативы предлагаются пользователю, часто с превью результатов, чтобы помочь уточнить поиск.

US7565345B2
2009-07-21

Поведенческие сигналы
SERP

Как Google вычисляет оценку качества сайта на основе соотношения брендового интереса и общего поискового трафика

Google использует поведенческие данные для расчета оценки качества сайта (Site Quality Score). Метрика основана на соотношении количества уникальных запросов, направленных конкретно на сайт (брендовый/навигационный интерес), к общему количеству уникальных запросов, которые привели пользователей на этот сайт. Высокий показатель этого соотношения свидетельствует о высоком качестве и авторитетности сайта.

US9031929B1
2015-05-12

Поведенческие сигналы
EEAT и качество

Как Google использует семантические связи внутри контента для переранжирования и повышения разнообразия выдачи

Google использует метод для переоценки и переранжирования поисковой выдачи путем анализа семантических взаимодействий между терминами внутри документов. Система строит графы локальных и глобальных связей, а затем определяет взаимосвязи между самими документами на основе их семантического вклада (даже без гиперссылок). Это позволяет повысить разнообразие выдачи, особенно по неоднозначным запросам.

US7996379B1
2011-08-09

Семантика и интент
Ссылки
SERP

Как Google интегрирует поиск в инструменты создания контента и использует распространение ссылок для расчета репутации автора

Google разработал систему (UDS), интегрирующую поиск в инструменты создания контента (Email, блоги, форумы). Система автоматически уточняет запросы на основе контекста и профилей пользователей. Если автор вставляет ссылку, а читатель кликает по ней, Google использует это взаимодействие для расчета «оценки репутации» автора и как поведенческий сигнал качества контента.

US7844603B2
2010-11-30

Ссылки
Поведенческие сигналы
EEAT и качество

Как Google использует данные о реальных повторных посещениях (Quality Visit Measure) и социальных взаимодействиях для ранжирования локального бизнеса

Google использует данные о физических посещениях пользователей для оценки качества локального бизнеса. Система рассчитывает «Quality Visit Measure», придавая значительно больший вес местам, куда люди возвращаются повторно, приводят друзей или посещают по рекомендации. Этот показатель используется как сильный сигнал качества для ранжирования в локальном поиске и Google Maps, снижая зависимость от онлайн-отзывов.

US10366422B2
2019-07-30

Поведенческие сигналы
Local SEO

Как Google использует анкорный текст входящих ссылок для определения синонимов и псевдонимов сущностей в Knowledge Graph

Google автоматически определяет синонимы и псевдонимы для сущностей (например, людей, компаний) в своем хранилище фактов (Knowledge Graph). Система анализирует анкорный текст ссылок, ведущих на исходные документы, из которых были извлечены факты о сущности. Это позволяет системе понять, что, например, "Биг Блю" и "IBM" относятся к одной и той же компании.

US8738643B1
2014-05-27

Knowledge Graph
Семантика и интент
Ссылки

Как Google персонализирует поисковую выдачу, анализируя историю кликов и поведение пользователя на сайте

Google использует механизм для персонализации поисковой выдачи на основе истории взаимодействия пользователя с результатами поиска. Система отслеживает, какие сайты пользователь выбирает, как долго он на них остается (Dwell Time), частоту и контекст выбора. Основываясь на этих данных, предпочитаемые пользователем ресурсы повышаются в ранжировании при его последующих запросах.

US9037581B1
2015-05-19

Персонализация
Поведенческие сигналы
SERP

Как Google кластеризует похожие страницы, анализируя, куда пользователи переходят дальше (Co-visitation)

Google анализирует навигационные пути пользователей для определения схожести документов. Если после просмотра Страницы А и Страницы Б пользователи часто переходят к одному и тому же набору последующих страниц, Google считает Страницу А и Страницу Б похожими и объединяет их в кластер. Этот механизм позволяет определять тематическую близость на основе поведения пользователей.

US8650196B1
2014-02-11

Поведенческие сигналы
SERP
Семантика и интент