Как Google реконструирует статьи, переходящие с одной страницы на другую в оцифрованных печатных изданиях

Патент Google, описывающий систему для анализа оцифрованных газет и журналов. Система определяет, какие блоки текста на разных страницах принадлежат одной статье. Для этого комбинируются статистический анализ языка (схожесть контента) и анализ макета (визуальные подсказки о продолжении статьи, например, «продолжение на стр. X»).

Описание

Какую задачу решает

Патент решает проблему автоматической реконструкции статей в оцифрованных документах со сложной версткой (газеты, журналы). Основная сложность заключается в корректном определении потока текста, особенно когда статья прерывается на одной странице и продолжается на другой (continuing articles). Традиционные методы, основанные только на геометрии макета, часто не справляются с этой задачей.

Что запатентовано

Запатентована система (Media Material Analyzer) для идентификации частей статей, продолжающихся на разных страницах. Суть изобретения заключается в комбинированном использовании двух типов анализа: language statistics information (лингвистический анализ схожести контента) и continuation transition information (анализ визуальных и структурных подсказок в макете, указывающих на перенос статьи).

Как это работает

Система работает в несколько этапов:

Сегментация: Страницы разделяются на блоки колоночного текста (Block Segments).
Анализ макета: Система анализирует концы (last block) и начала (first block) блоков на разных страницах. Используются обученные классификаторы (например, decision tree) для оценки визуальных подсказок (Continuation Transition Features), таких как фразы о продолжении или стрелки.
Лингвистический анализ: Система вычисляет оценку схожести (Match Score) между блоками на разных страницах на основе совпадения и частотности слов.
Комбинирование: Объединяя вероятности, полученные от визуального и лингвистического анализа, система определяет наиболее вероятное продолжение статьи и реконструирует ее целиком.

Актуальность для SEO

Низкая для веб-поиска. Патент подан в 2006 году и направлен на решение задач, связанных с оцифровкой печатных архивов (например, Google Books). Проблемы сложной газетной верстки и переносов статей с визуальными подсказками не характерны для современных HTML-документов в вебе.

Важность для SEO

Минимальное влияние (1/10). Патент является инфраструктурным и описывает обработку очень специфического типа контента (оцифрованные печатные издания). Он не содержит информации о факторах ранжирования веб-страниц или методах оптимизации сайтов. Для SEO-специалистов, работающих со стандартными веб-сайтами, он не дает практических рекомендаций.

Детальный разбор

Термины и определения

Article Composer (Составитель статей): Компонент системы, который определяет, какие блоки текста принадлежат одной статье.
Block Segments (Блоки-сегменты): Идентифицированные области на странице, содержащие текст.
Columnar Body Text (Колоночный основной текст): Текст, организованный в колонки, типичный для газет и журналов.
Continuation Language Statistics Analyzer (Анализатор языковой статистики продолжений): Компонент, который вычисляет лингвистическое сходство между блоками на разных страницах для поиска продолжений статей.
Continuation Layout Transition Analyzer (Анализатор переходов макета для продолжений): Компонент, который анализирует визуальные элементы макета в местах разрыва статей (переходы между страницами).
Continuation Transition Features (Признаки перехода продолжения): Визуальные или текстовые подсказки в макете, указывающие на продолжение статьи (например, стрелки, линии, фраза «продолжение на стр. X»).
Decision Tree (Дерево решений): Тип классификатора машинного обучения, используемый для предсказания принадлежности блоков к одной статье на основе признаков макета.
First Block (Первый блок): Блок текста, являющийся началом части статьи на странице; потенциальное продолжение статьи с предыдущей страницы.
Language Statistics Information (Информация языковой статистики): Данные о частотности слов и их распределении в тексте. Используются для расчета match score.
Last Block (Последний блок): Блок текста, являющийся концом части статьи на странице; потенциальное начало статьи, которая продолжается на следующей странице.
Match Score (Оценка совпадения): Числовая оценка лингвистического сходства между двумя блоками текста.
Segmenter (Сегментатор): Компонент, который идентифицирует области текста (Block Segments) на странице.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основную систему для анализа многостраничных медиа-материалов.

Система идентифицирует блоки текста (block segments), связанные с колоночным текстом на страницах.
Система определяет, какие из этих блоков принадлежат статье, продолжающейся на нескольких страницах (continuing article).
Определение основано на комбинации language statistics information (лингвистический анализ) и continuation transition information (анализ макета).

Claim 2 (Зависимый от 1): Детализирует анализ макета для конца блока (last block).

Article composer использует continuation layout transition analyzer. Он идентифицирует last block на первой странице, анализирует элементы непосредственно под ним (например, маркеры переноса), классифицирует блок по этим признакам и применяет decision tree для выявления признаков (continuation transition features), указывающих на вероятность продолжения.

Claim 3 (Зависимый от 2): Детализирует анализ языка для конца блока.

Article composer использует continuation language statistics analyzer. Он вычисляет language statistics information для контента на последующих страницах и определяет вероятность того, что last block имеет продолжение, основываясь на схожести контента.

Claim 4 (Зависимый от 3): Добавляет анализ макета для начала блока (first block).

Анализатор макета также идентифицирует first block на следующей странице, анализирует элементы над ним и использует decision tree для определения вероятности того, что этот блок является продолжением.

Claim 6 (Зависимый от 5): Описывает финальное сопоставление пары.

Анализатор идентифицирует пару кандидатов (last block и first block), вычисляет набор continuation transition features для этой пары и применяет decision tree для определения итоговой вероятности того, что они принадлежат одной и той же продолжающейся статье.

Где и как применяется

Патент описывает технологию, применяемую на этапе обработки и структурирования специфического типа контента – оцифрованных печатных изданий.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения изобретения. Система используется для анализа структуры документа (Document Layout Analysis) перед индексацией.

Сегментация: Segmenter анализирует пиксельные данные и OCR-данные для выделения Block Segments.
Реконструкция статей: Article Composer использует лингвистический анализ и анализ макета для связи блоков текста в единые статьи, включая те, что переходят с одной страницы на другую. Это позволяет индексировать статью как единое целое.

Входные данные:

Отсканированные или электронные изображения страниц (газет, журналов).
Данные OCR (текст, распознанный с изображения).
Предварительно обученные модели (Классификаторы, например, Decision Trees).

Выходные данные:

Структурированные данные, представляющие полные статьи, где разрозненные блоки текста логически связаны.

На что влияет

Конкретные типы контента: Влияет исключительно на обработку оцифрованных медиа-материалов со сложной колоночной версткой (газеты, журналы, каталоги, сложные PDF). Не влияет на обработку и ранжирование стандартных веб-страниц (HTML).

Когда применяется

При каких условиях работает алгоритм: Алгоритм применяется во время индексации (обработки) многостраничных оцифрованных документов.
Триггеры активации: Наличие документа с колоночной версткой (columnar body text) и потенциальными разрывами статей между страницами.

Пошаговый алгоритм

Процесс реконструкции продолжающихся статей (Routine 1400):

Сегментация (Предварительный этап): Идентификация block segments колоночного текста на всех страницах документа.
Идентификация потенциальных окончаний (Last Block Analysis):
- Нахождение last block (последнего блока части статьи на странице).
- Идентификация элементов непосредственно под этим блоком (например, текст «продолжение на…», стрелка).
- Применение обученного decision tree для оценки вероятности того, что статья продолжается на другой странице (на основе анализа макета).
Лингвистический анализ окончаний:
- Поиск потенциальных продолжений на последующих страницах.
- Вычисление language statistics score (Match Score) между last block и кандидатами.
- Определение вероятности продолжения на основе лингвистического сходства.
Идентификация потенциальных начал (First Block Analysis):
- Нахождение first block (первого блока части статьи на странице).
- Идентификация элементов непосредственно над этим блоком (например, «продолжение с…»).
- Применение decision tree для оценки вероятности того, что этот блок является продолжением статьи с предыдущей страницы.
Лингвистический анализ начал:
- Поиск потенциальных начал на предыдущих страницах.
- Вычисление language statistics score между first block и кандидатами.
- Определение вероятности на основе лингвистического сходства.
Сопоставление пар и принятие решения:
- Идентификация пар кандидатов (last block и first block на разных страницах).
- Вычисление комбинированного набора continuation transition features для этой пары.
- Применение финального decision tree, учитывающего все данные, для определения итоговой вероятности того, что пара принадлежит одной статье.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст, полученный через OCR. Используются слова, их наличие и частотность.
Технические факторы (Визуальные): Пиксельные данные отсканированных изображений. Используются для первичной сегментации (выделения блоков текста).
Структурные факторы (Макет): Расположение блоков, элементы макета между блоками (пробелы, линии, стрелки). Элементы, указывающие на продолжение (текстовые подсказки, Continuation Transition Features). Размер и стиль шрифта.

Какие метрики используются и как они считаются

Match Score (Оценка совпадения): Метрика лингвистического сходства. Рассчитывается на основе перекрытия слов относительно всего корпуса. Упоминается использование косинусного расстояния (cosine distance) между векторами частотности слов. Приводится пример формулы для расчета вклада слова: log((X/Y)+1), где X – процент слова в блоке, Y – процент слова в корпусе.
Continuation Transition Features (Признаки перехода продолжения): Набор числовых характеристик, описывающих визуальный переход между блоками (например, наличие ключевых слов типа «continued», графических элементов).
Вероятности: Вычисляются на основе Match Score и Training Data, а также являются результатом работы классификаторов.
Алгоритмы машинного обучения: Используются Decision Trees (Деревья решений) в качестве классификаторов. Они обучаются на агрегированных данных (Training Data) для предсказания вероятности продолжения статьи на основе признаков макета.

Выводы

Узкая специализация: Патент описывает узкоспециализированную задачу реконструкции логической структуры контента из фиксированного визуального макета оцифрованных печатных изданий (газет, журналов).
Комбинированный анализ: Ключевой подход заключается в комбинации двух независимых типов анализа: лингвистического (Language Statistics) для оценки тематической близости и визуального/структурного (Layout/Continuation Transition) для анализа верстки.
Использование ML для понимания структуры: Система использует машинное обучение (Decision Trees), обученное на агрегированных данных, чтобы автоматически выводить правила верстки и переходов для конкретных изданий.
Отсутствие значимости для веб-SEO: Патент является инфраструктурным и не дает практических выводов для SEO-специалистов, работающих с веб-сайтами. Описанные проблемы и методы их решения не применимы к стандартному HTML-контенту и не влияют на ранжирование в веб-поиске.

Практика

Best practices (это мы делаем)

Патент скорее инфраструктурный и не дает практических выводов для SEO веб-сайтов. Описанные техники предназначены для анализа оцифрованных печатных изданий.

Если рассматривать SEO для контента в формате PDF (например, для Google Scholar или Google Books):

Поддержание лексической связности: Убедитесь, что части статьи, перенесенные на разные страницы, сохраняют высокую тематическую схожесть. Это обеспечит высокий Match Score и поможет системе связать их.
Использование четких индикаторов переноса: При создании PDF используйте стандартные маркеры переноса (например, «Продолжение на стр. X»). Это поможет Continuation Layout Transition Analyzer корректно идентифицировать связь.

Worst practices (это делать не надо)

Патент не описывает SEO-тактики или манипуляции в контексте веб-поиска, против которых он мог бы быть направлен.

Стратегическое значение

Стратегическое значение для веб-SEO минимально. Патент демонстрирует возможности Google по анализу структуры документа путем комбинирования визуальных и текстовых сигналов для извлечения основного контента. Однако для понимания современных алгоритмов ранжирования или анализа веб-страниц этот патент не актуален.

Практические примеры

Практических примеров для SEO нет, так как патент не применим к продвижению веб-сайтов.

Вопросы и ответы

Описывает ли этот патент, как Google анализирует верстку современных веб-сайтов (HTML)?

Нет. Патент сфокусирован исключительно на анализе оцифрованных печатных изданий (газет, журналов) со сложной колоночной версткой. Методы, описанные для анализа визуальных подсказок о продолжении статьи (например, стрелок или фраз «продолжение на стр. Х»), не актуальны для парсинга и рендеринга HTML-страниц.

Можно ли использовать этот патент для оптимизации многостраничных статей (пагинации) на сайте?

Нет. Патент решает проблему реконструкции статей, которые прерываются и продолжаются на разных страницах без явных электронных ссылок, основываясь на визуальном макете. Стандартная пагинация на сайтах обрабатывается Google иначе, с использованием HTML-ссылок и механизмов каноникализации.

Что такое Language Statistics и Match Score, упомянутые в патенте?

Это метрики для определения тематической близости двух блоков текста. Language Statistics относятся к частотности слов в блоке и корпусе. Match Score рассчитывается на основе этих данных (например, используя косинусное расстояние cosine distance), чтобы показать, насколько похож язык в двух разных блоках.

Использует ли Google эти Match Scores для ранжирования сайтов?

Методы определения тематической близости используются в поиске, но не в том виде, как описано здесь. В данном патенте они используются для конкретной задачи реконструкции статей, а не для определения релевантности страницы запросу пользователя в глобальном веб-поиске.

Патент упоминает машинное обучение и Decision Trees. Значит ли это, что он связан с современными алгоритмами?

Нет. Патент датирован 2006 годом и использует классические методы ML (Decision Trees) для анализа макета газет. Современные системы Google используют гораздо более сложные архитектуры (например, глубокие нейронные сети, Трансформеры) для анализа контента и структуры.

Какова основная ценность этого патента для SEO-специалиста?

Ценность минимальна. Патент представляет академический интерес, показывая, как Google решает сложные проблемы парсинга нестандартного контента путем комбинирования лингвистических и визуальных сигналов. Практических рекомендаций по продвижению сайтов он не содержит.

Относится ли этот патент к анализу PDF-файлов в веб-поиске?

Он может применяться к PDF-файлам, если они представляют собой сканы или электронные версии печатных изданий с газетной версткой. Однако для обычных текстовых PDF-документов с простой структурой эти методы, скорее всего, не используются.

Что такое Continuation Transition Features?

Это характеристики макета в месте разрыва статьи, которые подсказывают, что у статьи есть продолжение. Примеры включают фразы типа «продолжение на…», стрелки, линии, специфический стиль шрифта или отступы в конце блока на одной странице и в начале блока на другой.

Как система учится распознавать эти признаки продолжения?

Система анализирует большой объем страниц (Training Data). Она сопоставляет блоки, которые имеют высокое лингвистическое сходство (Match Score), и изучает, какие визуальные признаки присутствуют в местах их разрыва. На основе этих данных строится классификатор (например, Decision Tree).

На каком этапе поиска работает эта технология?

Эта технология работает на этапе Индексирования (INDEXING), во время предварительной обработки и анализа документов. Цель – преобразовать неструктурированные данные (скан страницы) в структурированное представление (логические статьи) до того, как контент будет добавлен в поисковый индекс.