Как Google использует цитирования на авторитетных веб-страницах для ранжирования книг в результатах поиска

Google анализирует топовые веб-страницы, ранжирующиеся по запросу, чтобы найти упоминания книг. Система рассчитывает, насколько цитируемые книги релевантны контенту этих страниц (Citation Score) и объединяет это с релевантностью самой страницы запросу (Relevance Score). Это позволяет Google идентифицировать авторитетные книги по теме и подмешивать их в универсальную выдачу, даже если пользователь не искал конкретное название.

Описание

Какую задачу решает

Патент решает проблему идентификации релевантных книг для общих тематических запросов, которые не содержат конкретных названий книг или имен авторов (например, «история сан-франциско»). Цель — предоставить пользователю список полезных и авторитетных книг по интересующей его теме, обогащая поисковую выдачу результатами из вертикали Google Books.

Что запатентовано

Запатентована система и метод для генерации результатов поиска по книгам на основе анализа веб-страниц, ранжирующихся по исходному запросу. Система ищет цитирования книг на этих веб-страницах и использует сложную метрику (Book Score), которая объединяет релевантность веб-страницы запросу и значимость цитирования книги на этой странице (Citation Score), чтобы определить, какие книги следует показать пользователю.

Как это работает

Ключевой механизм работает следующим образом:

Идентификация кандидатов: Система анализирует группу самых высокоранжирующихся веб-страниц по исходному запросу.
Определение «Reference Pages»: Система определяет, является ли веб-страница «страницей-ссылкой» (Reference Page) на конкретную книгу. Для этого рассчитывается Citation Score — мера релевантности метаданных книги контенту самой страницы.
Применение критериев: Страница классифицируется как Reference Page, если Citation Score удовлетворяет определенным критериям (Citation Criterion), например, превышает порог или значительно выше, чем у других книг, упомянутых на той же странице.
Расчет Book Score: Для каждой книги вычисляется Book Score. Он основан на комбинации Relevance Score (насколько страница релевантна запросу) и Citation Score (насколько книга релевантна странице).
Агрегация и Ранжирование: Book Scores агрегируются (если книгу цитируют несколько страниц) и используются для ранжирования книг.
Отображение: Ссылки на топовые книги (Book References) отображаются в результатах поиска, часто в отдельном блоке.

Актуальность для SEO

Высокая. Механизм, описанный в патенте, отражает классический подход Google к Универсальному Поиску (Universal Search) — использование сигналов из основного веб-индекса для ранжирования контента из вертикальных индексов (в данном случае, Google Books). Базовая идея использования цитирований на авторитетных веб-ресурсах для определения авторитетности книг остается фундаментальной и актуальной.

Важность для SEO

Влияние на SEO оценивается как среднее (65/100). Патент имеет критическое значение для SEO специалистов, занимающихся продвижением книг, авторов или издательств (Book SEO). Он раскрывает конкретный механизм, как книги попадают в универсальный поиск по общим запросам. Для большинства вебмастеров прямое влияние минимально, однако патент дает важное понимание того, как Google оценивает значимость цитирований и как релевантность может передаваться от веб-страниц к другим типам контента (сущностям).

Детальный разбор

Термины и определения

Book Metadata (Метаданные книги): Данные о книге (название, автор, ISBN, издатель, краткое содержание), хранящиеся в Library Data Store. Используются для идентификации цитирований и расчета Citation Score.
Book Query Processor (BQP): Компонент поисковой системы, отвечающий за обработку результатов поиска для идентификации и ранжирования релевантных книг.
Book Reference (Ссылка на книгу): Результат поиска, идентифицирующий книгу. Включает метаданные и ссылку на ресурс, где можно прочитать или купить книгу.
Book Score (Оценка книги): Итоговая метрика для ранжирования книги. Рассчитывается на основе комбинации Relevance Score веб-страницы и Citation Score книги на этой странице. Может агрегироваться по нескольким страницам.
Citation Criterion (Критерий цитирования): Набор правил, используемых для определения того, является ли веб-страница значимой ссылкой (Reference Page) на конкретную книгу. Например, Citation Score должен превышать порог или быть значительно выше, чем у других книг на той же странице.
Citation Score (Оценка цитирования): Метрика, измеряющая релевантность метаданных книги контенту веб-страницы, которая ее цитирует. Не зависит от запроса пользователя.
Library Data Store: База данных, хранящая метаданные опубликованных книг.
Reference Page (Страница-ссылка; book-referencing web page): Веб-страница, которая цитирует книгу и удовлетворяет Citation Criterion для этой книги.
Relevance Score (Оценка релевантности): Стандартная оценка поисковой системы, измеряющая релевантность веб-страницы (Reference Page) исходному запросу пользователя.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации и ранжирования книг на основе анализа веб-результатов.

Система получает данные о веб-страницах, релевантных поисковому запросу.
Идентифицируется подмножество этих страниц, которые ссылаются на одну или несколько книг.
Для каждой книги на каждой странице вычисляется Citation Score. Он определяется как «мера релевантности метаданных книги контенту веб-страницы, которая ссылается на книгу».
Одна или несколько веб-страниц классифицируются как «book-referencing web pages» (Reference Pages) на основе Citation Scores.
Книги, на которые ссылаются эти страницы, ранжируются. Процесс ранжирования включает:
- Определение Relevance Score (релевантность страницы запросу).
- Определение Book Score для книги на основе (i) Relevance Score страницы и (ii) Citation Score книги на этой странице.
- Ранжирование книги с использованием Book Score.
Выбирается подмножество ранжированных книг, и информация о них предоставляется для отображения.

Claim 3 (Зависимый): Уточняет, что классификация страницы как Reference Page основана на наличии цитаты и значении Citation Score.

Claim 18 (Зависимый): Уточняет механизм ранжирования, указывая, что Book Score для книги определяется на основе Citation Scores, полученных с нескольких разных веб-страниц. Это подтверждает агрегацию сигналов цитирования.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, используя данные, рассчитанные офлайн, для влияния на финальное формирование выдачи.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит ключевая офлайн-обработка. Система анализирует проиндексированные веб-страницы для обнаружения цитирований книг. Для каждого цитирования вычисляется Citation Score (релевантность метаданных книги контенту страницы). Система определяет, является ли страница Reference Page, применяя Citation Criterion. Эти данные сохраняются в индексе для быстрого доступа.

RANKING – Ранжирование
Основная поисковая система генерирует первичный набор веб-результатов и их Relevance Scores по отношению к запросу. Эти данные служат входом для Book Query Processor.

METASEARCH – Метапоиск и Смешивание
Это основная область применения патента. Book Query Processor работает на этом этапе:

Анализ Топа: Анализируются Топ-N результатов из этапа RANKING (например, Топ-60).
Идентификация Книг: Используя сохраненные данные из INDEXING, система определяет, какие из этих страниц являются Reference Pages.
Расчет Book Score: Вычисляются Book Scores путем комбинации Relevance Score (из RANKING) и Citation Score (из INDEXING).
Ранжирование Книг: Книги ранжируются по агрегированным Book Scores.
Смешивание (Blending): Топовые книги включаются в универсальную выдачу (Universal Search), часто в виде отдельного блока («Book results for…»).

Входные данные:

Исходный запрос пользователя.
Набор ранжированных веб-результатов и их Relevance Scores.
Предварительно рассчитанные данные о Reference Pages и их Citation Scores.
База данных метаданных книг (Library Data Store).

Выходные данные:

Ранжированный список Book References (ссылок на книги).
Финальная страница результатов поиска (SERP), объединяющая веб-результаты и Book References.

На что влияет

Специфические запросы: Наибольшее влияние на широкие информационные и академические запросы (например, история, наука, технологии), где авторитетные книги являются важным источником информации, но пользователи не ищут конкретные названия.
Типы контента: Влияет на видимость книг (Google Books) в основной веб-выдаче. Также влияет на ценность веб-страниц, которые содержат качественные цитирования (например, обзоры, академические статьи, учебные планы).

Когда применяется

Алгоритм применяется в реальном времени при обработке запроса, но полагается на значительный объем предварительных вычислений.

Условия работы: Активируется, когда в Топ-N веб-результатов обнаруживается достаточное количество Reference Pages, ссылающихся на книги с высокими Book Scores.
Фильтрация (Опционально): В описании патента (хотя не в Claims) упоминается возможность фильтрации результатов, если метаданные книги недостаточно пересекаются с терминами запроса (overlapping ratio или relevancy score). Это гарантирует, что показанные книги релевантны запросу напрямую, а не только косвенно через веб-страницы.

Пошаговый алгоритм

Алгоритм состоит из двух основных частей: офлайн-обработка (независимая от запроса) и онлайн-обработка (во время запроса).

Процесс А: Офлайн-обработка (Индексирование)

Обнаружение цитирований: Анализ контента веб-страниц для поиска упоминаний книг (сравнение с Library Data Store).
Расчет Citation Score: Для каждой найденной книги на странице вычисляется Citation Score. Это мера релевантности метаданных книги контенту страницы. (Например, путем выполнения внутреннего запроса метаданными книги к тексту страницы и получения IR-оценки).
Применение Citation Criterion: Определение, удовлетворяет ли Citation Score критериям. Например:
- Превышает ли он установленный порог.
- Является ли он значительно выше (например, в 2 раза или на определенный процент), чем Citation Score любой другой книги на этой же странице (критерий доминирования).
Классификация Reference Page: Если критерий выполнен, страница помечается как Reference Page для этой конкретной книги.
Сохранение данных: Ассоциация между страницей, книгой и Citation Score сохраняется в индексе.

Процесс Б: Онлайн-обработка (Query Time)

Получение первичных результатов: Поисковая система генерирует ранжированный список веб-страниц и их Relevance Scores для запроса.
Выборка Топ-N: Book Query Processor выбирает подмножество самых высокоранжирующихся страниц (например, Топ-60).
Идентификация Reference Pages: Система проверяет (используя офлайн-данные), какие из этих Топ-N страниц являются Reference Pages.
Расчет Book Score: Для каждой книги, на которую ссылаются эти страницы, рассчитывается Book Score. Это функция от Relevance Score страницы и Citation Score книги на этой странице (например, их произведение).
Агрегация Book Score: Если на книгу ссылаются несколько Reference Pages в Топ-N, их Book Scores агрегируются (например, суммируются).
(Опционально) Фильтрация по релевантности запросу: Рассчитывается степень пересечения (overlapping ratio) между метаданными книги и запросом. Результаты могут быть отфильтрованы, если пересечение ниже порога, или этот коэффициент может быть умножен на Book Score.
Ранжирование и выборка: Книги ранжируются по итоговому Book Score. Выбираются Топ-K книг (например, Топ-3).
Генерация и смешивание: Генерируются Book References, которые смешиваются с основными результатами поиска.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании сигналов, извлеченных из веб-страниц, и метаданных книг.

Контентные факторы: Содержимое веб-страниц используется для расчета Citation Score. Система анализирует, насколько контент страницы релевантен метаданным книги.
Метаданные книг: Название, подзаголовок, автор, издатель, краткое содержание (summary). Используются для обнаружения цитирований, расчета Citation Score и опциональной фильтрации по релевантности запросу.
Системные данные (Scores): Relevance Scores веб-страниц (результат работы основных алгоритмов ранжирования, таких как IR-scores, PageRank) используются как компонент Book Score.

Какие метрики используются и как они считаются

Citation Score: Измеряет релевантность метаданных книги контенту страницы. Рассчитывается офлайн. В патенте предложен метод расчета: использовать метаданные книги как запрос к конкретной веб-странице и получить IR-оценку (Information Retrieval score).
Relevance Score: Стандартная оценка релевантности страницы запросу. Рассчитывается онлайн основными системами ранжирования.
Book Score: Комбинированная метрика. Рассчитывается онлайн. Формула: Book Score = F(Relevance Score, Citation Score). Пример реализации: произведение этих двух оценок.
Агрегированный Book Score: Сумма (или другая агрегирующая функция) Book Scores для одной и той же книги с разных Reference Pages.
Overlapping Ratio (Коэффициент пересечения): Опциональная метрика, упомянутая в описании. Измеряет степень пересечения терминов между запросом пользователя и метаданными книги. Используется для фильтрации или как множитель к Book Score.
Citation Criterion Пороги: Пороговые значения для Citation Score (абсолютные или относительные по сравнению с другими книгами на странице), используемые для классификации Reference Pages.

Выводы

Передача релевантности через цитирования: Патент описывает механизм, как релевантность и авторитет передаются от общих веб-страниц к специализированному контенту (книгам). Это двухуровневая система: книга должна быть релевантна странице (высокий Citation Score), а страница — запросу (высокий Relevance Score).
Важность авторитетных источников цитирования: Система анализирует только Топ-N веб-результатов. Это означает, что книги, цитируемые авторитетными, высокоранжирующимися сайтами, имеют значительно больше шансов быть отобранными и получить высокий Book Score.
Значимость контекста цитирования (Citation Score): Простое упоминание книги недостаточно. Citation Score измеряет, насколько страница посвящена этой книге. Это подчеркивает важность глубоких обзоров или детальных обсуждений книги, а не простых библиографических списков.
Критерий уникальности/доминирования (Citation Criterion): Чтобы страница стала Reference Page, книга должна выделяться среди других книг, упомянутых на той же странице. Если страница цитирует 10 книг одинаково, она может не стать Reference Page ни для одной из них.
Офлайн-вычисления для скорости: Расчет Citation Score и идентификация Reference Pages выполняются офлайн во время индексирования, что позволяет системе быстро генерировать результаты во время запроса.

Практика

Best practices (это мы делаем)

Рекомендации в первую очередь актуальны для издателей, авторов и SEO-специалистов, занимающихся продвижением книг (Book SEO).

Стимулирование цитирований на авторитетных ресурсах (Digital PR): Работайте над получением упоминаний и обзоров книг на сайтах, которые уже хорошо ранжируются по целевым тематическим запросам. Авторитетность (и, следовательно, высокий Relevance Score) цитирующего сайта критически важна.
Поощрение создания выделенных страниц (Dedicated Review Pages): Стимулируйте создание страниц, посвященных преимущественно одной книге (например, подробный обзор, разбор глав). Это повышает вероятность выполнения Citation Criterion (книга должна доминировать на странице) и максимизирует Citation Score.
Оптимизация контекста цитирования: При работе с партнерами убедитесь, что контент страницы, цитирующей книгу, максимально релевантен содержанию и метаданным книги. Чем выше релевантность контента страницы к теме книги, тем выше будет Citation Score.
Оптимизация метаданных книги: Убедитесь, что название, подзаголовок и описание книги содержат ключевые слова, по которым пользователи ищут информацию по данной теме. Это необходимо для расчета Citation Score и для прохождения опционального фильтра прямой релевантности (Overlapping Ratio).

Worst practices (это делать не надо)

Спам цитированиями на низкокачественных сайтах: Размещение цитат на сайтах, которые не имеют авторитета или не ранжируются в Топ-N по релевантным запросам, бесполезно, так как система их не учитывает или они дают минимальный Book Score.
Массовые поверхностные упоминания: Включение книги в длинные списки литературы или каталоги, где контент страницы не сфокусирован на книге, не создаст высокий Citation Score и может не удовлетворить Citation Criterion.
Игнорирование метаданных книги: Использование неясных названий книг без четкого описания тематики в метаданных может привести к низким Citation Scores или фильтрации результатов, даже если книгу активно цитируют.

Стратегическое значение

Патент подтверждает стратегию Google по использованию веба как графа цитирований не только для ранжирования веб-страниц (PageRank), но и для оценки авторитетности и релевантности других сущностей, таких как книги (и потенциально, научные статьи, авторы и т.д.). Для SEO это подчеркивает важность построения авторитетности не только через ссылки, но и через значимые упоминания и цитирования на релевантных и авторитетных платформах.

Практические примеры

Сценарий: Продвижение книги по машинному обучению

Целевой запрос: «основы машинного обучения».
Анализ SERP: Определяем, какие сайты ранжируются в Топе (например, Coursera, Wikipedia, блоги известных университетов).
Стратегия: Необходимо добиться, чтобы эти авторитетные сайты упомянули нашу книгу в правильном контексте.
Тактика для высокого Citation Score: Вместо простого добавления книги в список рекомендованной литературы, договариваемся о публикации учебного плана (syllabus) курса на сайте университета, где наша книга указана как основной учебник, и контент страницы детально описывает темы, совпадающие с главами книги.
Результат:
- Сайт университета имеет высокий Relevance Score по запросу.
- Страница syllabus имеет высокий Citation Score, так как ее контент очень релевантен книге.
- Citation Criterion выполнен, так как книга является основным учебником (доминирует на странице).
- Итоговый Book Score высок, и книга появляется в блоке Google Books в выдаче по запросу «основы машинного обучения».

Вопросы и ответы

Что такое Citation Score и почему он важен?

Citation Score — это ключевая метрика в этом патенте. Она измеряет, насколько контент веб-страницы релевантен метаданным книги, которую она цитирует. Это не оценка релевантности запросу. Высокий Citation Score показывает, что страница действительно посвящена обсуждению этой книги, а не просто упоминает ее вскользь.

Как именно рассчитывается Citation Score?

Патент предлагает конкретный метод: система берет метаданные книги (название, автор, описание) и использует их как внутренний запрос, направленный на текст конкретной веб-страницы. Полученная IR-оценка (Information Retrieval score) и становится Citation Score. Это объективная мера релевантности между контентом страницы и книгой.

Влияет ли авторитет (PageRank) сайта на ранжирование книги?

Да, косвенно, но критически. Система анализирует только те веб-страницы, которые попали в Топ-N результатов поиска. Авторитетные сайты имеют больше шансов попасть в Топ и, следовательно, их Relevance Score будет выше. Book Score напрямую зависит от Relevance Score цитирующей страницы.

Что лучше: одна цитата на авторитетном сайте или много цитат на средних сайтах?

Одна цитата на авторитетном сайте, который ранжируется в Топе по целевому запросу, значительно лучше. Цитаты на сайтах, которые не попадают в Топ-N (например, Топ-60), система вообще не рассматривает для генерации блока с книгами по данному конкретному запросу.

Если моя страница цитирует 20 книг в списке литературы, поможет ли это им всем?

Скорее всего, нет. Патент вводит Citation Criterion. Одно из его условий гласит, что Citation Score для книги должен быть значительно выше (например, в 2 раза), чем для других книг на той же странице, чтобы страница стала Reference Page. Страницы с длинными списками литературы менее эффективны, чем страницы, посвященные одной или двум книгам.

Нужно ли оптимизировать метаданные книги (название, описание)?

Да. Метаданные используются для расчета Citation Score. Кроме того, патент упоминает опциональный фильтр (Overlapping Ratio), который проверяет прямое пересечение между терминами запроса и метаданными книги. Если пересечения нет, книга может быть не показана.

Может ли этот механизм использоваться для другого контента, кроме книг?

Да. В патенте упоминается, что механизм применим к другим печатным изданиям, таким как журналы, газеты или периодические издания. Подобная архитектура (использование цитирований в веб-индексе для ранжирования вертикального корпуса) также используется, например, для научных статей (Google Scholar).

Является ли этот процесс частью Индексирования или Ранжирования?

Он затрагивает оба этапа. Расчет Citation Score и идентификация Reference Pages происходят офлайн во время Индексирования, так как они не зависят от запроса. Расчет Book Score и финальное ранжирование книг происходят онлайн во время выполнения запроса, на этапе Метапоиска (Смешивания).

Как вебмастеру оптимизировать свою страницу, чтобы она стала Reference Page?

Если вы хотите, чтобы ваша страница способствовала ранжированию определенной книги, убедитесь, что контент вашей страницы максимально релевантен теме этой книги (для высокого Citation Score). Также сфокусируйтесь на одной основной книге, а не на списке (для выполнения Citation Criterion). И, конечно, ваша страница должна хорошо ранжироваться по целевому запросу.

Нужно ли ставить гиперссылку на книгу, чтобы цитирование было учтено?

Патент не требует наличия гиперссылки. Идентификация книги происходит на основе анализа текста и сравнения его с Book Metadata (название, автор, ISBN). Система ищет упоминание (цитирование) книги в контенте, а не кликабельную ссылку.