Патент описывает систему создания «Справочной страницы» (Reference Page) для оцифрованных печатных изданий (книг, статей). Когда пользователь находит книгу в поиске, система автоматически выполняет вторичные веб-запросы на основе атрибутов книги (автор, название). Результаты этих запросов (например, биографии автора, рецензии на книгу) агрегируются или извлекаются и отображаются на Справочной странице, предоставляя пользователю контекст из веба.
Описание
Какую задачу решает
Патент решает задачу интеграции оцифрованных печатных материалов (книг, журналов, статей), которые традиционно не являются частью веба, в поисковую экосистему. Проблема заключается в том, что простого отображения текста или отрывка из книги недостаточно для пользователя. Система призвана предоставить богатый контекст вокруг этих документов, используя существующую информацию в интернете, чтобы помочь пользователю лучше понять и оценить найденный материал.
Что запатентовано
Запатентована система и метод автоматического обогащения информации о документе (например, книге) путем выполнения вторичных поисковых запросов, основанных на атрибутах этого документа (Document Attributes). Ядром изобретения является генерация Reference Page (Справочной страницы), которая агрегирует как информацию из самого документа (отрывки, библиографические данные), так и связанную информацию (Related Information), найденную в вебе (например, рецензии, биографии автора).
Как это работает
Механизм работает в несколько этапов:
- Первичный поиск: Пользователь выполняет запрос, и система находит релевантные документы (например, книги).
- Выбор документа: Пользователь выбирает конкретный документ из результатов.
- Генерация Справочной страницы (Reference Page): Система создает страницу, посвященную этому документу.
- Идентификация атрибутов: Система определяет атрибуты документа (название, автор, издатель, дата публикации).
- Вторичные поиски: Система выполняет (автоматически или по запросу пользователя) новые веб-поиски, используя эти атрибуты (например, Название книги + «рецензия»).
- Агрегация и представление: Результаты вторичных поисков (web documents) агрегируются. Система может отображать ссылки на эти результаты или извлекать (extracting information) контент непосредственно из них (например, текст рецензии с Amazon) и отображать его на Справочной странице.
Актуальность для SEO
Средняя. Концептуально патент крайне актуален, так как описывает базовые механизмы обогащения сущностей (в данном случае книг) данными из веба — это основа современных Knowledge Panels. Однако описанные в патенте конкретные реализации пользовательского интерфейса и процессов (датируемые 2004 годом) являются фундаментом для продуктов Google Books и Google Scholar в том виде, в котором они существовали в 2000-х и 2010-х годах. Современные системы ушли далеко вперед в плане сложности извлечения и представления данных.
Важность для SEO
Влияние на общие SEO-стратегии минимальное (3/10). Патент не описывает алгоритмы ранжирования основного веб-поиска. Он описывает инфраструктуру и методы представления данных внутри специализированных вертикалей (Google Books/Scholar). Однако он имеет высокое значение для издателей, авторов и сайтов-рецензентов, поскольку демонстрирует, как Google ищет и использует веб-контент для создания контекста вокруг публикаций. Для этих групп критически важно иметь качественное веб-присутствие (биографии, обзоры), связанное с их печатными работами.
Детальный разбор
Термины и определения
- Document (Документ)
- В контексте патента — традиционное печатное произведение, такое как книга, журнал, каталог, газета, статья. Это основная сущность, для которой генерируется дополнительная информация.
- Web Document (Веб-документ)
- Любой машиночитаемый контент, доступный через сеть (например, веб-страница, сайт, файл, пост в блоге). Используется как источник для получения связанной информации о Document.
- Document Attribute (Атрибут документа)
- Свойство, связанное с документом. Примеры включают название, автора, категорию, издателя, дату публикации, ISBN, ISSN.
- Reference Page (Справочная страница)
- Сгенерированный интерфейс, который предоставляет подробную информацию о выбранном документе. Включает отрывки из документа, библиографические данные и Related Information.
- Related Information (Связанная информация)
- Информация, относящаяся к документу, но полученная из внешних источников (web documents) путем выполнения вторичных поисковых запросов на основе Document Attributes. Примеры: рецензии на книгу, биография автора, новости об авторе.
- Secondary Search (Вторичный поиск)
- Поисковый запрос, выполняемый системой (автоматически или по клику пользователя) для нахождения Related Information. Формируется на основе атрибутов документа (например, «9/11 Report» + «review»).
Ключевые утверждения (Анализ Claims)
Патент является продолжением (continuation) более ранней заявки. Пункты 1-30 отменены (canceled). Анализ основан на действующих пунктах, начиная с 31.
Claim 31 (Независимый пункт): Описывает метод взаимодействия с пользователем для предоставления связанной информации.
- Система получает от клиента выбор результата поиска из набора результатов.
- Система представляет Reference Page для документа, связанного с выбранным результатом.
- Эта Reference Page содержит ссылку (link), связанную с атрибутом (attribute) документа (например, ссылку «Биография автора»).
- Система получает выбор этой ссылки пользователем.
- На основе выбора ссылки система выполняет поиск (вторичный поиск) для идентификации документов на основе этого атрибута.
- Система предоставляет информацию, относящуюся к найденным документам, для отображения на клиенте в виде second reference page (второй справочной страницы).
- Эта вторая страница включает вторую ссылку, связанную с дополнительным поиском (additional search) по этому атрибуту.
Это описывает конкретный вариант реализации, где пользователь должен явно кликнуть на тип связанной информации (например, «Рецензии»), чтобы инициировать вторичный поиск, результаты которого открываются на новой странице.
Claim 35 (Зависимый от 31): Уточняет типы атрибутов. Атрибут соответствует как минимум одному из: название, автор, категория, издатель или дата публикации документа.
Claim 36 (Зависимый от 31): Детализирует процесс предоставления информации на второй справочной странице.
- Генерация оценок (scores) для идентифицированных документов (результатов вторичного поиска).
- Сортировка документов на основе оценок.
- Представление отсортированных документов на второй справочной странице.
Claim 37 (Зависимый от 36): Уточняет механизм скоринга. Оценки генерируются на основе information retrieval scores (IR-оценок) и link-based scores (ссылочных оценок).
Где и как применяется
Изобретение описывает механизмы работы специализированной поисковой вертикали (например, Google Books или Google Scholar) и затрагивает этапы индексирования, ранжирования и, главным образом, метапоиска и представления результатов.
INDEXING – Индексирование и извлечение признаков
На этом этапе система должна проанализировать базу данных документов (книг, статей) и извлечь их ключевые атрибуты (Document Attributes): название, автор, издатель, ISBN/ISSN. Эти данные сохраняются для последующего использования при генерации вторичных запросов.
RANKING – Ранжирование
На этом этапе обрабатывается первичный запрос пользователя и генерируется первый набор результатов, состоящий из документов (книг).
METASEARCH – Метапоиск и Смешивание / RERANKING (Presentation Layer)
Основное применение патента. Когда пользователь взаимодействует с результатом (выбирает книгу), активируется механизм генерации Reference Page.
- Выполнение вторичных поисков: Система выполняет дополнительные поисковые запросы к основному веб-индексу, используя атрибуты документа. Это фактически метапоиск — поиск поверх поиска.
- Смешивание и Извлечение: Система агрегирует результаты вторичных поисков. В зависимости от реализации, она может либо смешать ссылки на эти результаты с информацией о книге, либо извлечь (extract) данные из этих веб-документов для прямого отображения.
- Формирование интерфейса: Генерируется финальная Reference Page.
Входные данные:
- Выбранный пользователем документ (книга, статья).
- Извлеченные атрибуты этого документа (автор, название и т.д.).
- Веб-индекс (для выполнения вторичных поисков).
Выходные данные:
- Reference Page, содержащая информацию о документе и Related Information (в виде ссылок на поиск, списка веб-результатов или извлеченных данных).
На что влияет
- Конкретные типы контента: Влияет исключительно на представление оцифрованных печатных работ: книг, журналов, каталогов, газет, научных статей.
- Специфические запросы: Влияет на запросы, в ответ на которые система возвращает эти типы документов.
- Конкретные ниши или тематики: Наиболее заметно в издательском деле, академических исследованиях и библиотечном секторе.
Когда применяется
- Триггеры активации: Механизм активируется, когда пользователь выбирает результат поиска, идентифицированный как Document (печатное издание), для просмотра подробной информации (Reference Page).
- Условия работы: Вторичные поиски могут выполняться либо автоматически при загрузке Reference Page (для всех атрибутов), либо по требованию, когда пользователь явно запрашивает информацию по конкретному атрибуту (например, кликает на ссылку «Рецензии»).
Пошаговый алгоритм
Патент описывает несколько вариантов реализации процесса.
Общий процесс (Начало):
- Получение запроса и первичный поиск: Система получает запрос от пользователя и идентифицирует релевантные документы (книги).
- Скоринг и представление результатов: Документы оцениваются (например, на основе IR-скора), формируется список результатов.
- Выбор документа: Пользователь выбирает один документ из списка.
Далее процесс разветвляется в зависимости от реализации.
Вариант А: Поиск по требованию (Claims 31+):
- Представление базовой Reference Page: Отображается информация о документе (отрывок, синопсис) и список ссылок на Related Information (например, «Рецензия на документ», «Биография автора»).
- Запрос связанной информации: Пользователь кликает на одну из ссылок (например, «Рецензия»).
- Выполнение вторичного поиска: Система формирует запрос на основе атрибута (например, Название + «рецензия») и выполняет веб-поиск.
- Скоринг веб-документов: Найденные веб-документы оцениваются (используя IR-score и link-based score).
- Представление результатов: Результаты вторичного поиска отображаются пользователю (например, на second reference page).
Вариант Б: Автоматический поиск и агрегация:
- Выполнение вторичных поисков: Сразу после выбора документа система автоматически (возможно, в фоновом режиме) выполняет несколько вторичных поисков по разным атрибутам.
- Представление расширенной Reference Page: Система отображает Reference Page, где вместо ссылок на типы Related Information сразу отображаются топ-результаты выполненных вторичных поисков (например, топ-2 рецензии, топ-2 биографии).
Вариант В: Автоматический поиск и извлечение данных:
- Выполнение вторичных поисков: Аналогично Варианту Б.
- Извлечение информации (Extraction): Система анализирует найденные веб-документы и извлекает из них релевантную информацию (например, извлекает рейтинг и текст обзора с сайта Amazon).
- Генерация и представление Reference Page: Система генерирует Reference Page, отображая извлеченные данные в структурированном виде, а не просто ссылки на веб-документы.
Какие данные и как использует
Данные на входе
Система использует ограниченный набор факторов, фокусируясь на атрибутах документа и стандартных сигналах ранжирования для веб-поиска.
- Структурные факторы (Атрибуты документа): Это ключевые данные для работы системы. Используются:
- Название (Title).
- Автор (Author).
- Издатель (Publisher).
- Дата публикации (Publication Date).
- Категория или тема (Category/Topic).
- ISBN, ISSN.
- Контентные факторы (Для первичного поиска): Текст документа (полученный, например, через OCR) используется для определения релевантности первичному запросу пользователя.
- Ссылочные факторы (Для вторичного поиска): При ранжировании результатов вторичного веб-поиска (например, поиске рецензий) используются ссылочные оценки (link-based scores). Патент явно ссылается на U.S. Pat. No. 6,285,999 (PageRank).
Какие метрики используются и как они считаются
- IR Score (Information Retrieval Score): Используется как для ранжирования первичных результатов (книг), так и для ранжирования вторичных результатов (веб-документов). Рассчитывается на основе стандартных IR-метрик (частота терминов, позиция в документе и т.д.).
- Link-based Score: Используется для ранжирования результатов вторичного веб-поиска.
- Overall Score (Общая оценка для веб-документов): Комбинация IR Score и Link-based Score для определения порядка результатов вторичного поиска.
Выводы
- Обогащение сущностей (Entity Enrichment): Патент описывает ранний механизм обогащения сущностей (в данном случае книг и публикаций) контекстной информацией из веба. Это фундаментальный принцип, который Google применяет повсеместно (например, в Knowledge Panels).
- Автоматизация поиска связанной информации: Система автоматизирует процесс, который пользователь иначе делал бы вручную: берет атрибуты сущности (автор, название) и выполняет серию связанных запросов (биография, рецензии).
- Концепция «Справочной страницы» (Reference Page): Изобретение вводит идею создания специальной целевой страницы для сущности, которая агрегирует информацию из разных источников. Это архитектура продуктов Google Books и Google Scholar.
- Гибкость представления данных: Патент предусматривает три уровня интеграции веб-данных: ссылки на вторичный поиск (по требованию), агрегация результатов вторичного поиска (автоматически) и извлечение данных (Extraction) из результатов для прямого отображения. Последнее особенно важно как предвестник структурированного извлечения данных в поиске.
- Зависимость от качества веб-данных: Эффективность системы напрямую зависит от наличия и качества информации о документе в основном веб-индексе, а также от способности системы ранжировать эту информацию (используя IR и ссылочные сигналы).
Практика
Best practices (это мы делаем)
Хотя патент не направлен на общее SEO, он дает важные инсайты для авторов, издателей и владельцев сайтов, чей контент может быть использован в качестве Related Information.
Для авторов и издателей:
- Обеспечение веб-присутствия для атрибутов: Убедитесь, что для ключевых атрибутов ваших публикаций (авторы, названия) существует качественный, авторитетный контент в вебе. Это включает официальные страницы авторов (например, на сайте университета или издательства), биографии и официальные страницы книг.
- Консистентность атрибутов: Используйте точные и согласованные названия и имена авторов во всех источниках (в самой книге, на сайте издательства, в онлайн-магазинах). Это облегчает системе идентификацию атрибутов и выполнение точных вторичных запросов.
- Стимулирование онлайн-рецензий: Наличие рецензий на авторитетных веб-ресурсах критически важно, так как «Review of the document» является одним из основных типов Related Information, который ищет система.
Для сайтов-рецензентов и информационных ресурсов (например, Amazon, Wikipedia, новостные сайты):
- Оптимизация под извлечение данных (Extraction): Поскольку система может пытаться извлечь данные (например, рейтинги, текст обзора), использование четкой структуры страницы и микроразметки (Schema.org для Review, Book, Person) помогает системе корректно интерпретировать и отображать ваш контент на Reference Page.
- Авторитетность ресурса: Система использует link-based scores для ранжирования результатов вторичного поиска. Повышение авторитетности вашего сайта увеличивает шансы того, что именно ваш контент будет выбран для отображения в Google Books/Scholar.
Worst practices (это делать не надо)
- Изоляция печатных работ от веба: Полагаться только на распространение печатной версии без создания сопутствующего веб-контекста. В этом случае Reference Page будет пустой, лишенной полезной связанной информации.
- Несогласованные метаданные: Публикация противоречивой информации об авторе или названии книги в разных источниках, что затрудняет системе поиск релевантной информации.
- Использование сложных структур для критически важной информации: Размещение биографий или рецензий в форматах, сложных для парсинга и извлечения (например, только в изображениях или за сложным JavaScript), что мешает системе использовать этот контент.
Стратегическое значение
Патент подтверждает долгосрочную стратегию Google по организации информации вокруг сущностей. Он демонстрирует, что уже в 2004 году Google разрабатывал механизмы для интеграции и обогащения различных типов контента. Для SEO-специалистов это подчеркивает важность понимания того, как Google идентифицирует сущности (в данном случае книги и авторов) и связывает с ними информацию из веба. Стратегия оптимизации должна включать не только ранжирование страниц, но и обеспечение видимости и корректности информации о ключевых сущностях бизнеса в сети.
Практические примеры
Сценарий: Оптимизация видимости информации об академической публикации в Google Scholar
- Сущность (Document): Научная статья, опубликованная в журнале и проиндексированная Google Scholar.
- Цель: Убедиться, что при просмотре статьи (на ее Reference Page) отображается актуальная информация об авторе с сайта университета.
- Действия:
- Автор создает подробный профиль на официальном сайте университета (авторитетный домен).
- Профиль содержит биографию, список публикаций и контактную информацию. Используется разметка Schema.org/Person.
- Название статьи и имя автора на сайте университета точно соответствуют данным в публикации.
- Механизм работы (по патенту): Когда пользователь открывает статью в Google Scholar, система выполняет вторичный поиск по атрибуту «Автор» (например, Имя Автора + «биография» или Имя Автора + Название статьи).
- Результат: Благодаря авторитетности домена университета и оптимизации контента, система выбирает профиль автора на сайте университета в качестве основного источника Related Information и отображает его (или извлекает данные из него) при просмотре статьи.
Вопросы и ответы
Описывает ли этот патент алгоритмы ранжирования основного поиска Google?
Нет, этот патент не описывает, как ранжируются обычные веб-сайты. Он сосредоточен на том, как Google генерирует дополнительную информацию для специфического типа контента — оцифрованных печатных изданий (книг, статей). Он описывает инфраструктуру и методы работы вертикалей, таких как Google Books и Google Scholar.
Что такое «Справочная страница» (Reference Page)?
Это специальный интерфейс, который генерируется системой при просмотре подробной информации о конкретном документе (например, книге). Она агрегирует данные из самой книги (отрывки, оглавление, библиографию) и связанную информацию из веба (рецензии, биографию автора), найденную с помощью вторичных поисковых запросов.
Как система решает, какую информацию показать в блоке «Связанная информация» (Related Information)?
Система идентифицирует атрибуты документа (автор, название) и выполняет вторичные веб-поиски (например, Название книги + «рецензия»). Результаты этих поисков ранжируются с использованием стандартных сигналов: IR scores (релевантность контента) и link-based scores (авторитетность источника, PageRank). Лучшие результаты отображаются на Справочной странице.
Может ли система извлекать контент напрямую с моего сайта?
Да. Патент описывает вариант реализации, где система не просто дает ссылки на веб-документы, а извлекает (extracts) информацию из них. Например, она может извлечь рейтинг книги и текст рецензии с вашего сайта и показать их непосредственно в интерфейсе Google Books.
Как SEO-специалист может повлиять на информацию, отображаемую на этих Справочных страницах?
Основной способ влияния — это обеспечение наличия качественного, авторитетного и хорошо структурированного контента в вебе, связанного с атрибутами публикации. Если вы работаете с автором, убедитесь, что его официальная биография хорошо ранжируется по его имени. Если вы публикуете рецензии, используйте микроразметку, чтобы облегчить извлечение данных.
Используются ли эти механизмы в современных Knowledge Panels?
Концептуально — да. Современные Knowledge Panels также являются формой обогащения сущностей данными из веба. Хотя техническая реализация Knowledge Panels гораздо сложнее и основана на Knowledge Graph, базовый принцип, описанный в этом патенте (идентификация сущности -> определение атрибутов -> поиск/извлечение связанной информации), остается тем же.
Почему патент, поданный в 2004 году, опубликован только в 2013?
Патент US20130151497A1 является продолжением (continuation) оригинальной заявки, поданной 30 сентября 2004 года. Патентный процесс может занимать много лет, и заявители часто подают дополнительные заявки для уточнения или расширения объема изобретения на основе оригинального раскрытия.
Влияет ли этот патент на локальный поиск или E-commerce?
Прямого влияния нет, так как патент сфокусирован на печатных изданиях. Однако, если магазин продает книги или связан с издательским делом, механизмы патента будут определять, как информация об этих книгах представляется в соответствующих вертикалях Google.
Должен ли я оптимизировать свой контент специально под Google Books?
Если ваш контент связан с книгами, авторами или академическими публикациями (например, вы ведете блог с рецензиями или являетесь издательством), то да. Ваша цель — стать авторитетным источником Related Information. Это достигается через стандартные SEO-практики: создание качественного контента, повышение авторитетности сайта и использование структурированных данных.
Что важнее для попадания на Reference Page: релевантность или авторитетность сайта?
Важны оба фактора. Патент указывает, что результаты вторичного поиска ранжируются на основе комбинации IR scores (релевантность) и link-based scores (авторитетность). Контент должен быть релевантен атрибуту (например, быть реальной рецензией на книгу), а сайт должен быть достаточно авторитетным, чтобы занять топ позиции в этом вторичном поиске.