Патент описывает интерфейс и методы представления результатов в Google Books. Система организует результаты поиска в соответствии с внутренней структурой книги (главы/разделы) и извлекает ключевые темы (n-gram summary terms). Для определения важности темы вычисляются оценки на уровне раздела (Section Score) и на уровне всей книги (Book Score), используя методы, такие как TF-IDF.
Описание
Какую задачу решает
Патент решает задачу улучшения пользовательского опыта (UX) при поиске информации внутри конкретного оцифрованного книжного ресурса (например, в Google Books). Цель — представить результаты в интуитивно понятном виде, используя внутреннюю структуру книги (главы, разделы), а также предоставить пользователю краткий обзор ключевых тем, обсуждаемых в книге. Патент не направлен на улучшение основного веб-поиска или устранение SEO-манипуляций.
Что запатентовано
Запатентована система представления результатов поиска по книгам (book resources) и метод извлечения ключевых тем. Изобретение включает два основных варианта структурирования выдачи: 1) Организация результатов по разделам книги (section headings) в порядке их следования в источнике. 2) Организация результатов по ключевым темам (n-gram summary terms), извлеченным из текста. Также запатентован метод вычисления важности этих N-грамм.
Как это работает
Механизм работает в нескольких направлениях:
- Структурирование по разделам: При поиске внутри книги система идентифицирует разделы (главы), где найдены совпадения. Результаты группируются под заголовками этих разделов и отображаются в порядке их следования в книге.
- Извлечение N-грамм: N-gram Engine анализирует текст книги, разделенный на секции. Для каждой N-граммы вычисляется Section Score (например, используя TF-IDF). Затем эти оценки агрегируются в Book Score для определения общей важности N-граммы для всей книги с использованием различных формул (например, Bayesian average).
- Представление N-грамм: Высокоранжированные N-граммы могут отображаться как список ключевых тем или использоваться как заголовки в альтернативном представлении результатов.
Актуальность для SEO
Средняя (для Google Books), Низкая (для Web Search). Описанные методы структурирования результатов и извлечения ключевых тем активно используются в интерфейсе Google Books. Методы анализа N-грамм и TF-IDF являются стандартными в Information Retrieval. Для общего веб-поиска этот патент имеет минимальное применение, так как он сфокусирован на навигации и суммаризации внутри одного длинного структурированного документа (книги).
Важность для SEO
Влияние на общие SEO-стратегии минимальное (1/10). Патент описывает интерфейсные решения (UI/UX) и методы суммаризации контента, специфичные исключительно для вертикали Google Books. Он не раскрывает механизмов ранжирования в основном веб-поиске. Практическая ценность для SEO-специалистов, занимающихся продвижением коммерческих или информационных сайтов, отсутствует.
Детальный разбор
Термины и определения
- Book Resource (Книжный ресурс)
- Цифровая или отсканированная версия печатной книги или аналогичной публикации. Текст обычно получен через OCR (оптическое распознавание символов).
- Book Score (Оценка книги)
- Агрегированная метрика, определяющая важность конкретной N-граммы для всей книги. Вычисляется на основе Section Scores.
- N-gram Engine (Движок N-грамм)
- Компонент системы, анализирующий текст книги для определения и ранжирования n-gram summary terms.
- N-gram Summary Terms (Ключевые темы/N-граммы сводки)
- N-граммы, извлеченные из текста книги и ранжированные по Book Score. Используются для суммаризации содержания или как предлагаемые запросы.
- Section Headings (Заголовки разделов)
- Заголовки, соответствующие разделам книги (например, главам). Используются в интерфейсе для группировки результатов поиска.
- Section Score (Оценка раздела)
- Метрика, определяющая важность N-граммы в контексте конкретного раздела. В патенте упоминается использование TF-IDF.
- TF-IDF (Term Frequency-Inverse Document Frequency)
- Статистическая мера для оценки важности термина. В контексте патента, «документами» для расчета IDF выступают разделы книги.
- Tightly Clustered (Плотно кластеризованный)
- Характеристика распределения N-граммы, указывающая на высокую частоту ее появления в коротком фрагменте текста. Может использоваться для повышения Book Score.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод представления результатов поиска, структурированных по разделам книги (UI/UX).
- Система получает запрос на поиск по тексту book resource (полученного из скана печатной книги).
- Генерируется представление результатов поиска.
- Представление включает Section Headings, соответствующие разделам книги, где найдены результаты.
- Ключевой момент: Заголовки представлены в том порядке, в котором разделы следуют в книге.
- Под каждым заголовком отображаются результаты (сниппеты) из этого раздела.
- Каждый результат включает ссылку на изображение отсканированной страницы, где находится текст.
Claim 7 (Зависимый от 5, который зависит от 1): Детализирует процесс генерации и ранжирования N-грамм (упомянутых в Claim 5).
- Вычисление Section Score для N-грамм в каждом разделе, где они встречаются.
- Вычисление Book Score для каждой уникальной N-граммы с использованием ее Section Scores.
- Упорядочивание N-грамм по вычисленному Book Score.
Примечание: В патенте также описан альтернативный вариант реализации, где представление структурируется не по разделам, а по ключевым темам (N-граммам). В этом случае заголовками служат топовые N-граммы (ранжированные по Book Score), а под ними группируются сниппеты, где эти N-граммы встречаются.
Где и как применяется
Изобретение применяется исключительно в рамках вертикали поиска по книгам (Google Books).
CRAWLING – Сканирование и Сбор данных
Система собирает данные путем сканирования печатных книг.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит основная подготовительная работа:
- Обработка: Применение оптического распознавания символов (OCR) для получения текста.
- Структурный анализ: Система анализирует отсканированные страницы для идентификации структуры книги (разделы, главы), например, путем анализа макета страницы, размера и стиля шрифта.
- Вычисление N-грамм (Офлайн): N-gram Engine обрабатывает текст. Вычисляются Section Scores и Book Scores. Эти данные индексируются и сохраняются в Books Collection.
RANKING / METASEARCH / RERANKING (в контексте Google Books UI)
Применение патента происходит во время генерации страницы результатов поиска внутри книги.
- Генерация структурированной выдачи: Система получает результаты поиска и форматирует их представление (UX/UI), используя данные о структуре книги (Claim 1) или данные о ключевых N-граммах.
- Представление ключевых тем: Система извлекает высокоранжированные n-gram summary terms для отображения в интерфейсе.
Входные данные:
- Текст книги, полученный через OCR.
- Данные о структуре книги (разделы, порядок страниц).
- Запрос пользователя (поиск внутри книги).
- Предварительно вычисленные Section Scores и Book Scores.
Выходные данные:
- Страница результатов поиска (SERP) в Google Books, структурированная по главам или по ключевым темам.
- Список n-gram summary terms.
На что влияет
- Конкретные типы контента: Влияет исключительно на книжные ресурсы (Book Resources) — книги, журналы, научные публикации, представленные в Google Books. Не влияет на веб-страницы, товары, локальные страницы и т.д. в основном веб-поиске.
Когда применяется
- Триггеры активации:
- Когда пользователь выполняет поиск внутри конкретной книги (активируется структурирование по разделам).
- Когда система генерирует обзорную страницу или сводку (summary) для книги (отображение списка ключевых тем).
- Условия работы: Наличие доступа к оцифрованному тексту книги и возможность определить ее внутреннюю структуру.
Пошаговый алгоритм
Алгоритм А: Генерация N-gram Summary Terms (Выполняется на этапе индексирования/офлайн)
- Получение текста и структуры: Система получает текст отсканированной книги, разделенный на разделы.
- Вычисление Section Score: Для множества N-грамм в каждом разделе вычисляется Section Score. Используется статистическая мера важности, например, TF-IDF.
- Вычисление Book Score: Для каждой уникальной N-граммы вычисляется Book Score путем агрегации ее Section Scores. Используются различные методы агрегации (сумма, Bayesian average и др.).
- Корректировка Book Score (Опционально): Оценка может быть повышена (boosted), если N-грамма является известной сущностью (например, именем человека или городом) или если она плотно кластеризована в тексте (tightly clustered).
- Ранжирование и предоставление: Система предоставляет список N-грамм, упорядоченный по Book Score.
Алгоритм Б: Представление результатов поиска по разделам (Claim 1, выполняется в ответ на запрос)
- Получение запроса: Система получает запрос на поиск внутри конкретной книги.
- Поиск результатов: Идентифицируются фрагменты текста и страницы, соответствующие запросу.
- Идентификация разделов: Для каждого результата определяется, к какому разделу книги он принадлежит.
- Группировка и сортировка: Результаты группируются по разделам. Разделы сортируются в том порядке, в котором они появляются в книге.
- Генерация представления: Формируется страница выдачи с Section Headings, под которыми отображаются сниппеты и ссылки на отсканированные страницы.
Какие данные и как использует
Данные на входе
- Контентные факторы: Текст книги, полученный через OCR. Анализируются N-граммы (например, до порядка 3 или 4).
- Структурные факторы: Данные о делении книги на разделы (главы). Порядок разделов и страниц.
- Технические факторы (Анализ макета): Для определения структуры книги используются данные о макете страницы, размере и стиле шрифтов (для идентификации заголовков глав при анализе сканов).
Патент не упоминает использование ссылочных, поведенческих, временных или пользовательских факторов.
Какие метрики используются и как они считаются
Система использует двухэтапную оценку для определения важности N-грамм.
- Section Score (Оценка раздела): Мера важности N-граммы в разделе.
Метод расчета: Упоминается TF-IDF. TF(x) * IDF(x).
TF — частота N-граммы в разделе.
IDF рассчитывается на основе числа разделов книги, содержащих N-грамму. Формула: IDF(x) = log( S / |{s: x ∈ s}| ), где S – общее количество разделов в книге, а знаменатель – количество разделов, содержащих N-грамму x. - Book Score (Оценка книги): Мера важности N-граммы для всей книги. Патент предлагает несколько вариантов агрегации Section Scores:
- Сумма: Простая сумма Section Scores (например, сумма TF-IDF оценок).
- На основе ранга: Использование ранга N-граммы в каждом разделе (по Section Score).
- Inverse of Sum of Inverse Scores (Инверсия суммы инверсий): Book Score = K / (Σ (1/score_i)), где K – константа, score_i – оценка в разделе i. (Аналог гармонического среднего).
- Bayesian Average (Байесовское среднее): Book Score = (Cm + Rv) / (m + v). Где C – средний Book Score всех N-грамм, m – среднее количество разделов, в которых встречается N-грамма, R – среднее значение Section Scores для данной N-граммы, v – количество разделов, в которых встречается данная N-грамма.
- Clustering Measure (Плотность кластеризации): Метрика, определяющая, насколько плотно (tightly clustered) N-грамма встречается в тексте. Используется для повышения Book Score.
Выводы
Патент описывает внутренние процессы и интерфейс специализированной системы (Google Books) без прямых рекомендаций для SEO в основном веб-поиске.
- Фокус на UX структурированных документов: Основная цель – улучшение навигации внутри книг за счет использования их внутренней структуры (глав/разделов) для организации результатов поиска.
- Извлечение ключевых тем (N-граммы): Описан детальный механизм извлечения n-gram summary terms. Он основан на классических статистических методах Information Retrieval (TF-IDF).
- Двухуровневая оценка важности: Важность термина определяется сначала на уровне раздела (Section Score), а затем агрегируется на уровне всего документа (Book Score), причем описано несколько сложных методов агрегации (включая Bayesian average).
- Учет контекста (Boosting): Система может корректировать оценки значимости, повышая их для именованных сущностей и для фраз, которые обсуждаются концентрированно в тексте (плотная кластеризация).
- Отсутствие влияния на веб-поиск: Описанные механизмы специфичны для среды Google Books и не применимы напрямую к ранжированию веб-сайтов.
Практика
ВАЖНО: Патент является инфраструктурным и ориентирован на UI/UX Google Books. Практических выводов для стандартного SEO продвижения веб-сайтов нет.
Best practices (это мы делаем)
Для издателей и авторов в Google Books:
- Четкая структура контента: Обеспечивать логичную и четко размеченную структуру книги (главы, разделы). Это помогает системе корректно разделить контент на секции для структурированного отображения результатов и расчета оценок.
- Концентрация на ключевых темах: Чтобы тема была идентифицирована как n-gram summary term, она должна иметь высокий Book Score. Детальное и сфокусированное обсуждение темы в конкретных разделах (плотная кластеризация) может повысить ее оценку.
Концептуальное понимание для Senior SEO:
- Патент представляет академический интерес, демонстрируя, как Google может анализировать длинные документы, разбивая их на разделы и оценивая важность тем локально (Section Score) перед глобальной агрегацией (Book Score). Также подтверждается важность плотности обсуждения темы (кластеризация) как сигнала значимости.
Worst practices (это делать не надо)
Не применимо к общему SEO, так как патент описывает другую систему и не затрагивает борьбу с манипуляциями в веб-поиске.
Стратегическое значение
Стратегическое значение для общего SEO низкое. Патент демонстрирует применение классических методов Information Retrieval (таких как TF-IDF, анализ структуры документа и статистическая агрегация) для суммаризации контента и улучшения навигации внутри специализированной вертикали поиска (Google Books).
Практические примеры
Практических примеров для SEO продвижения веб-сайтов нет, так как патент описывает интерфейс и алгоритмы Google Books.
Вопросы и ответы
Описывает ли этот патент, как Google ранжирует сайты в основном поиске?
Нет. Этот патент строго сфокусирован на вертикали Google Books. Он описывает, как представляются результаты поиска внутри конкретной оцифрованной книги и как система определяет ключевые темы этой книги для суммаризации. Он не имеет отношения к ранжированию веб-сайтов.
Что такое «N-gram Summary Terms»?
Это ключевые темы (фразы), извлеченные из текста книги. Система вычисляет их важность для всей книги (Book Score) и использует их для создания обзора содержания или как предложенные запросы для поиска внутри книги. Это помогает пользователю быстро понять основные темы документа.
Как Google определяет важность темы (N-граммы) в книге?
Используется двухуровневый подход. Сначала вычисляется Section Score (важность темы в рамках раздела), например, с помощью TF-IDF. Затем эти оценки агрегируются в Book Score (важность для всей книги) с использованием различных формул, например, суммы оценок или Bayesian average.
Патент упоминает TF-IDF. Значит ли это, что Google все еще использует TF-IDF для ранжирования?
Патент указывает на использование TF-IDF как метода для вычисления Section Score в контексте Google Books (на 2013 год). Это подтверждает, что TF-IDF используется в Information Retrieval для специфических задач, таких как суммаризация контента. Однако это не дает оснований делать выводы об использовании TF-IDF в качестве основного фактора ранжирования в современном веб-поиске, который полагается на сложные нейросетевые модели.
Что означает, что результаты структурируются по разделам книги?
Это функция интерфейса. Если пользователь ищет термин внутри книги, система сгруппирует найденные сниппеты под заголовками глав, в которых они были найдены. При этом главы будут отображаться в том порядке, в котором они идут в книге, что улучшает навигацию.
Что такое «плотная кластеризация» (tightly clustered) N-грамм и почему это важно?
Это ситуация, когда определенная N-грамма встречается много раз в коротком фрагменте текста. Патент предполагает, что Book Score таких N-грамм может быть повышен, так как это указывает на детальное обсуждение темы, в отличие от случайных упоминаний, распределенных по всей книге.
Как система определяет разделы (главы) книги?
Патент упоминает, что система анализирует отсканированные страницы для идентификации заголовков разделов. Это включает анализ макета страницы (page layout analysis), размера шрифта, стиля и интервалов на странице во время процесса оцифровки и OCR.
Может ли система повышать оценку N-грамм, если они являются сущностями?
Да, в патенте указано, что Book Score может быть повышен (boosted) для N-грамм, которые являются названиями определенных сущностей, например, известных городов или имен известных людей. Это помогает выделить ключевых действующих лиц или места в обзоре книги.
Какая формула для Book Score самая важная из описанных?
Патент перечисляет несколько вариантов агрегации: простая сумма, Bayesian average (Байесовское среднее) и инверсия суммы инверсий (аналог гармонического среднего). В тексте не указано, какой из этих методов является предпочтительным; описаны варианты реализации.
Какова основная ценность этого патента для SEO-специалиста?
Прямой пользы для улучшения позиций сайта в веб-поиске нет. Основная ценность – образовательная. Патент дает представление о подходах Google к анализу длинного структурированного контента и о том, как используются классические IR-метрики (TF-IDF) и контекстные сигналы (кластеризация) для оценки значимости контента на локальном и глобальном уровнях.