
Google использует технологию для автоматического определения оглавления (TOC) в цифровых документах (книгах, PDF). Система извлекает названия разделов из TOC и сопоставляет их с заголовками в основном тексте, используя машинное обучение, анализ шрифта и верстки, а также ограничения порядка. Это позволяет Google понять структуру документа и увеличить вес ранжирования для идентифицированных заголовков разделов.
Патент решает проблему отсутствия структурной и семантической метаинформации в оцифрованных документах (Digital Volumes), таких как сканированные книги или неразмеченные PDF-файлы. Когда документ представляет собой просто последовательность страниц (часто изображений), поисковой системе сложно понять его внутреннюю организацию (главы, разделы). Это ухудшает навигацию для пользователя и снижает способность системы находить и ранжировать релевантные фрагменты контента.
Запатентована система автоматического определения информации о разделах (Section Information). Суть изобретения заключается в использовании машинного обучения для идентификации страниц оглавления (TOC), извлечении из них ссылок на разделы и последующем точном сопоставлении этих ссылок с фактическими заголовками в теле документа. Для выбора наилучших соответствий система учитывает текстовое сходство, визуальное оформление (шрифт, верстка) и строгие ограничения порядка (Ordering Constraints).
Система работает в несколько этапов:
Classifier Module, обученный с помощью машинного обучения, анализирует признаки страниц для выявления оглавления.Match Score. Оценка повышается, если фраза визуально выделена (крупный шрифт, пробелы) (Claim 4).Match Score и удовлетворяет Ordering Constraints (разделы в тексте должны идти в том же порядке, что и в TOC).Высокая. Хотя патент изначально ориентирован на Google Books (подан в 2008), описанные в нем принципы фундаментальны для современного информационного поиска. Понимание внутренней структуры длинных документов критически важно для таких технологий, как Passage Ranking (ранжирование фрагментов). Методы анализа структуры, основанные на визуальной верстке (Claim 4) и использовании заголовков как сигналов ранжирования (Claim 6), остаются крайне актуальными в 2025 году.
Патент имеет значительное влияние на SEO (7.5/10), особенно для длинных форм контента и PDF. Он предоставляет прямое доказательство того, что Google использует визуальные сигналы для идентификации структуры (Claim 4) и использует идентифицированные заголовки разделов (Section Headings) как сигнал ранжирования, присваивая им больший вес (Claim 6). Это подчеркивает критическую важность четкой семантической и визуальной иерархии документа.
TOC pages).Best Matching Phrase.Extracted Phrase.Claim 1 (Независимый пункт): Описывает основной метод определения информации о разделах.
Extracted Phrases) из TOC.Matching Phrases) в теле документа (допускается приблизительное совпадение).Best Matching Phrases). Выбор основан на порядке следования фраз в TOC и в тексте (Ordering Constraints).Section Headings) и их начального местоположения.Claim 3 и 4 (Зависимые): Детализируют механизм расчета Match Scores. Это критически важные пункты для понимания сигналов.
Система рассчитывает Match Scores. Эти оценки основаны на схожести слов (Claim 3). Кроме того, оценки основаны на шрифте или верстке (font or layout) совпадающих фраз в документе (Claim 4). Это подтверждает использование визуальных признаков для идентификации структуры.
Claim 5 (Зависимый): Описывает применение для навигации.
Представление документа пользователю с кликабельными ссылками из TOC к соответствующим заголовкам разделов.
Claim 6 (Зависимый): Описывает критически важное применение для поиска и ранжирования.
Определение результатов поиска по запросу в цифровом томе. Присвоение результатам поиска, содержащим идентифицированные заголовки разделов (Section Headings), большего веса (weighting more heavily), чем другим результатам.
Изобретение применяется преимущественно на этапе индексирования для глубокого анализа структуры документа.
CRAWLING – Сканирование и Сбор данных
Система получает сырые данные цифрового тома (изображения страниц или PDF) и выполняет первичную обработку (OCR) для извлечения текста и данных о верстке.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Система анализирует полученные данные для определения структуры документа:
TOC pages с помощью Classifier Module.Section References из TOC.Word Index основного текста.Matching Phrases в тексте с учетом шрифта и верстки (Claim 4).Best Matching Phrases (структуры разделов).RANKING – Ранжирование
На этом этапе Search Module использует предварительно вычисленную информацию о разделах. При обработке запроса система применяет логику из Claim 6: если результат поиска содержит идентифицированный Section Heading, этому результату присваивается больший вес.
Входные данные:
Выходные данные:
Этап 1: Подготовка данных
OCR для извлечения текста, шрифтов и данных о верстке.TOC pages.TOC pages построчно для извлечения потенциальных Section References. Нормализация фраз (удаление номеров страниц).Этап 2: Поиск и оценка соответствий
Этап 3: Определение структуры
Match Score при соблюдении Ordering Constraints (порядок в тексте должен соответствовать порядку в TOC).Этап 4: Применение (Во время поиска)
Система использует данные, извлеченные из документа (часто с помощью OCR), и фокусируется на следующих факторах:
Section Reference и Section Heading.Ordering Constraints).Match Score).Match Score.Match Distance).weighting... more heavily) к идентифицированным заголовкам разделов при поиске (Claim 6).Section Headings) получают больший вес в результатах поиска. Это подтверждает, что заголовки являются сильным сигналом релевантности.Ordering Constraints играют центральную роль. Система ожидает, что структура документа будет логичной и последовательной.Принципы патента применимы к общей SEO-стратегии, особенно в отношении структуры контента, визуального представления и оптимизации PDF.
Section Headings получают повышенный вес в ранжировании (Claim 6), критически важно использовать заголовки, которые точно отражают содержание раздела и содержат релевантные ключевые фразы.Section Reference) должен точно или очень близко соответствовать тексту фактического заголовка (Section Heading) в теле документа.Match Score и затрудняет идентификацию структуры.Ordering Constraints.Патент подтверждает, что Google не полагается исключительно на семантическую разметку (HTML-теги). Система способна интерпретировать визуальные сигналы для понимания иерархии контента. Это согласуется с развитием алгоритмов анализа макета страницы (Page Layout) и подчеркивает важность качественного UX/UI дизайна и четкой структуры. Понимание структуры также является необходимой предпосылкой для технологий типа Passage Ranking (ранжирования фрагментов).
Сценарий: Оптимизация длинного руководства (Ultimate Guide) на сайте
Match Score (Claim 4).Применим ли этот патент к обычным веб-страницам, или он только для Google Books?
Патент в первую очередь описывает обработку "Цифровых томов" (книг, PDF). Однако базовые технологии — идентификация структуры, распознавание оглавлений и использование заголовков для ранжирования (Claim 6) — являются фундаментальными для информационного поиска. Высока вероятность, что аналогичные механизмы используются Google для анализа структуры длинных веб-страниц и PDF-файлов в основном веб-поиске.
Что означает Claim 6: "присвоение большего веса" заголовкам разделов?
Это прямое подтверждение того, что заголовки являются фактором ранжирования. Если система идентифицировала фразу как заголовок раздела (Section Heading), то при поиске по этой фразе или связанным терминам документ (или данный раздел документа) получит бустинг в ранжировании. Это подчеркивает необходимость использования релевантных и информативных заголовков.
Насколько важна визуальная верстка и размер шрифта?
Они очень важны для идентификации заголовков. Согласно патенту (Claim 4), визуальные признаки (шрифт и верстка) используются при расчете Match Score. Кандидаты на роль заголовка, которые выделены крупным шрифтом и окружены пробелами, получают более высокую оценку. Это говорит о том, что Google учитывает визуальное представление контента при его структурном анализе.
Как Google определяет, что является оглавлением (TOC)?
Система не просто ищет слова "Оглавление". Патент описывает использование сложного Classifier Module, обученного с помощью машинного обучения. Этот классификатор анализирует множество признаков, включая текст, шрифт, верстку и паттерны, характерные для TOC (например, множество строк, заканчивающихся цифрами).
Что такое "Ordering Constraints" и почему они важны?
Ordering Constraints (Ограничения порядка) — это правило, требующее, чтобы заголовки в основном тексте шли в том же порядке, что и ссылки на них в оглавлении. Это позволяет системе выбрать правильные совпадения из множества кандидатов и гарантирует логичность структуры. Для SEO это подчеркивает важность поддержания четкой и последовательной структуры контента.
Нужно ли, чтобы текст в TOC точно совпадал с заголовком раздела?
Желательно стремиться к точному совпадению. Однако система допускает приблизительные совпадения (approximate matches) для обработки опечаток или ошибок OCR. Тем не менее, чем точнее совпадение, тем выше будет Match Score и надежнее идентификация структуры.
Как этот патент связан с Passage Ranking (ранжированием фрагментов)?
Патент напрямую связан с предпосылками для Passage Ranking. Чтобы эффективно ранжировать отдельные фрагменты (пассажи) документа, поисковая система должна сначала понять его структуру и определить границы разделов. Описанный механизм как раз решает эту задачу, идентифицируя разделы и их заголовки.
Что делать, если в документе нет оглавления?
Патент упоминает альтернативный подход для таких случаев. Система может проанализировать статистический профиль всех размеров шрифтов в документе и идентифицировать фразы с необычно большим размером шрифта как потенциальные заголовки разделов. Это еще раз подчеркивает важность визуального оформления.
Влияет ли этот механизм на обработку PDF-файлов?
Да, безусловно. PDF-файлы часто представляют собой "Цифровые тома", которым не хватает структурной метаинформации. Этот патент описывает, как Google анализирует содержимое и верстку PDF (используя OCR при необходимости), чтобы понять его структуру, улучшить навигацию и ранжирование контента из PDF.
Стоит ли использовать анкорные ссылки в оглавлении на веб-странице?
Да. Хотя патент описывает автоматическое создание ссылок после анализа (Claim 5), наличие явных анкорных ссылок на веб-странице предоставляет более четкий и надежный сигнал о связи между пунктом оглавления и соответствующим разделом. Это улучшает UX и помогает поисковым системам понять структуру страницы.

Семантика и интент

Индексация

Семантика и интент
SERP

SERP
Семантика и интент

Мультимедиа
EEAT и качество

Поведенческие сигналы
Семантика и интент
Мультимедиа

Семантика и интент
Поведенческие сигналы

Семантика и интент
Персонализация
Поведенческие сигналы

Семантика и интент
EEAT и качество
SERP

Структура сайта
SERP
Ссылки

Поведенческие сигналы
Семантика и интент
SERP

Семантика и интент
Персонализация
SERP

Мультиязычность
Поведенческие сигналы

Персонализация
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
SERP
