
Патент описывает инфраструктурный процесс Google для каталогизации оцифрованных документов (Google Books). Система статистически сравнивает текст книги, полученный через OCR (особенно страницу авторских прав), с базой библиотечных метаданных. Используя вероятностный анализ, который придает больший вес редким терминам, система находит наилучшее совпадение и связывает структурированные данные (автор, название, ISBN) с отсканированным контентом.
Патент решает проблему трудоемкого ручного процесса связывания структурированных метаданных (название, автор, издатель, ISBN) с большими объемами оцифрованных печатных материалов (книги, журналы), например, в рамках проекта Google Books. Цель — автоматизировать идентификацию правильной библиографической записи для конкретного отсканированного документа, обеспечивая масштабируемость и устойчивость к ошибкам оптического распознавания текста (OCR).
Запатентована система статистического сопоставления неструктурированного текста, полученного в результате OCR, со структурированными записями метаданных (например, библиотечными каталогами). Ядром изобретения является вероятностная модель для оценки совпадений, которая придает значительно больший вес совпадению редких терминов и фраз. Система оптимизирована для анализа ключевых страниц, таких как страница авторских прав (Copyright Page).
Система работает в несколько этапов:
OCR. Система часто фокусируется на Copyright Page.Metadata Database).p(w)) и в корпусе метаданных (q(w)).Score Upper Bound) и учета только максимальных совпадающих фраз (Maximal Matching Phrases), чтобы избежать двойного учета вложенных фраз.Средняя. Технология является фундаментальной для проектов массовой оцифровки, таких как Google Books и Google Scholar. Хотя методы NLP эволюционировали с 2007 года, описанные в патенте принципы Information Retrieval (статистическая значимость, анализ редкости фраз, схожесть с IDF) остаются крайне актуальными для задач точной идентификации и сопоставления данных в больших масштабах.
Минимальное влияние (Инфраструктура, 2/10). Патент описывает внутренние процессы Google по каталогизации отсканированных книг. Он не имеет прямого отношения к ранжированию веб-страниц в основном поиске и не дает прямых рекомендаций для SEO. Однако он полезен для понимания того, как Google использует статистические методы для анализа текста, определения уникальности контента на основе редкости терминов и связывания неструктурированного контента со структурированными данными.
Metadata Records) о документах, полученных из внешних источников (библиотеки, издатели).p(w) и q(w). Высокий балл указывает на низкую вероятность случайного совпадения.p(w) и предполагая максимальную редкость в базе метаданных. Используется для выбора наиболее информативных фраз (Top-K Optimization).Claim 1 (Независимый пункт): Описывает основной метод автоматической идентификации метаданных.
Scoring). Процесс оценки включает: q(w)): вероятность появления общих фраз в корпусе метаданных.p(w)): вероятность появления общих фраз в корпусе документов.Ядро изобретения — использование статистической значимости терминов одновременно в двух разных коллекциях для надежной идентификации.
Claim 7 (Зависимый от 6): Уточняет метод расчета оценки (Score). Оценка рассчитывается путем суммирования логарифмов рассчитанных вероятностей p(w) и q(w) для каждой совпадающей фразы.
Claim 8 (Зависимый): Вводит концепцию Maximal Matching Phrases. Оценка производится только на основе набора максимальных совпадающих фраз, то есть тех фраз, которые не являются подфразами других совпадающих фраз в этом же наборе.
Claim 12 (Зависимый от 11): Описывает метод оптимизации (Top-K) путем выбора наиболее информативных слов/фраз.
p(w).Score Upper Bound) на основе p(w).Патент описывает инфраструктурный процесс, применяемый для организации специфических корпусов данных, таких как Google Books или Google Scholar.
CRAWLING – Сканирование и Сбор данных
На этом этапе происходит физическое сканирование документов (книг) и выполнение OCR для получения сырого текста. Также собираются данные из внешних источников (библиотек) для Metadata Database.
INDEXING – Индексирование и извлечение признаков
Основное применение патента. Система анализирует сырой текст и выполняет сопоставление (Reconciliation) с базой метаданных. Это процесс обогащения данных (Data Enrichment), который позволяет связать отсканированный контент со структурированными атрибутами (автор, название и т.д.).
Входные данные:
Copyright Page).Metadata Records).Выходные данные:
Metadata Database.Патент чисто технический и описывает внутренние процессы Google без прямых рекомендаций для SEO.
OCR. Он используется для идентификации этого документа и его каталогизации.Этап 1: Подготовка и предварительная обработка
Copyright Page (например, по наличию "ISBN", "Library of Congress" или символа ©).Этап 2: Оптимизация выбора информативных фраз (Top-K Selection) (FIG. 7)
p(w) (редкость в документах) и Score Upper Bound (максимально возможная оценка, предполагая максимальную редкость в метаданных).Score Upper Bound.q(w) (редкость в метаданных), рассчитывает точную оценку S(w).Этап 3: Сопоставление и Оценка (FIG. 8, FIG. 6)
S(M) на основе оставшихся максимальных фраз. Формула:
IDF). Совпадение по редким фразам считается гораздо более надежным индикатором идентичности, чем совпадение по частым словам.OCR) со структурированными данными (библиографические записи).Score Upper Bound для минимизации запросов к базе данных.OCR и не зависит от языка документа.Патент является инфраструктурным и не дает прямых практических выводов для SEO-продвижения стандартных веб-сайтов. Однако он раскрывает важные принципы информационного поиска, полезные для понимания подходов Google к анализу контента.
Statistically Improbable Phrases), которые выделяют ваш контент на фоне остального корпуса интернета.Maximal Matching Phrases показывает важность распознавания полных фраз. Убедитесь, что ключевые сущности (имена, организации) на ваших страницах представлены последовательно и в полной форме.Maximal Phrase, снижая уверенность в идентификации сущности.Патент демонстрирует способность Google к масштабному сопоставлению (Reconciliation) разрозненных и зашумленных наборов данных с использованием статистических методов. Хотя здесь это применяется к книгам, эта же фундаментальная способность используется для понимания сущностей (Entities) и их связей в Knowledge Graph. Это подтверждает стратегическую важность управления данными о сущностях и обеспечения их согласованности.
Практических примеров применения для веб-SEO нет. Патент относится к инфраструктуре Google Books. Ниже приведен пример работы механизма в его контексте.
Сценарий: Сопоставление книги в Google Books
OCR извлекает фразы со страницы авторских прав: "A Walk in the Park", "John Smith", "1999", "ABC Publishing Company".p(w) и q(w)), низкая ценность.p(w) и q(w)), высокая ценность. Система выбирает их как Top-K информативные фразы.S(M), так как вероятность случайного совпадения всех редких фраз крайне мала.Влияет ли этот патент на ранжирование моего сайта в веб-поиске Google?
Нет, этот патент не влияет на ранжирование веб-сайтов. Он описывает внутренний процесс, используемый Google для каталогизации отсканированных физических документов (например, в Google Books). Он предназначен для сопоставления OCR-текста с библиотечными записями, а не для оценки качества или релевантности веб-страниц.
Что такое p(w) и q(w) и почему они важны?
p(w) – это вероятность найти фразу (w) в корпусе документов, а q(w) – вероятность найти ее в корпусе метаданных. Они критически важны для оценки статистической значимости совпадения. Совпадение по редкой фразе (низкие p(w) и q(w)) вносит гораздо больший вклад в общую оценку, чем совпадение по часто встречающемуся слову.
Похож ли описанный метод скоринга на TF-IDF?
Да, концептуально он очень похож. Использование логарифмов вероятностей p(w) и q(w) функционально похоже на компонент IDF (Inverse Document Frequency). Оба метода придают больший вес терминам, которые реже встречаются в корпусе, считая их более информативными для идентификации или ранжирования документа.
Что такое «Максимальные совпадающие фразы» (Maximal Matching Phrases)?
Это техника для предотвращения завышения оценки из-за вложенных совпадений. Например, если совпала фраза "John Wiley & Sons", система учтет вклад только этой длинной фразы и проигнорирует вклад ее подфраз ("John", "Wiley", "John Wiley") для этой же записи. Это обеспечивает более точную оценку релевантности.
Зачем система выбирает только «наиболее информативные» слова (Top-K Optimization)?
Это делается для повышения эффективности и скорости работы в масштабе. Вместо обработки всех слов система определяет, какие слова потенциально внесут наибольший вклад в оценку (самые редкие), используя метрику Score Upper Bound. Обработка только этих ключевых слов (например, Топ-50) позволяет быстро найти лучшее совпадение, экономя вычислительные ресурсы.
Как система справляется с ошибками OCR при сопоставлении?
Система устойчива к ошибкам OCR благодаря статистическому подходу. Она не ищет точного совпадения всего текста, а оценивает совокупность всех совпадающих фраз. Ошибки в некоторых словах компенсируются статистически значимыми совпадениями в других, правильно распознанных фразах документа. Также упоминается возможность учета распространенных замен OCR.
Какую пользу Senior SEO специалист может извлечь из этого патента?
Основная польза — это понимание того, как Google использует статистическую редкость для идентификации контента и сопоставления сущностей (Entity Reconciliation). Это подтверждает стратегическую важность использования уникальных идентификаторов, точных названий сущностей и специфичной терминологии (Статистически Невероятных Фраз) в контенте.
Почему система фокусируется именно на странице авторских прав (Copyright Page)?
Эта страница обычно содержит наиболее плотную и надежную идентификационную информацию о документе, такую как полное название, имя автора, издателя, год публикации, ISBN и данные каталогизации (CIP data). Это делает ее идеальным источником данных для сопоставления с библиотечными записями.
Может ли эта технология использоваться для обнаружения плагиата или нарушения авторских прав в вебе?
В патенте упоминается такая возможность как одно из альтернативных применений. Описанный механизм статистического сопоставления может быть адаптирован для сравнения веб-документов с защищенными авторским правом текстами для выявления значительных совпадений и потенциального нарушения авторских прав.
Подтверждает ли этот патент важность использования Schema.org?
Косвенно, да. Патент решает сложную задачу: извлечение структурированных метаданных из неструктурированного (и зашумленного) текста. Предоставляя Google готовые структурированные данные через Schema.org, мы избавляем поисковую систему от необходимости выполнять подобный сложный анализ для понимания базовых атрибутов страницы или сущности.

Индексация

Индексация
SERP

Индексация
Ссылки
Семантика и интент

Индексация
Техническое SEO

Индексация

Поведенческие сигналы
Ссылки
SERP

Ссылки
EEAT и качество
SERP

Поведенческие сигналы
Персонализация
Семантика и интент

Персонализация
Поведенческие сигналы
SERP

Персонализация
SERP
Семантика и интент

SERP
Персонализация
Поведенческие сигналы

Персонализация
Поведенческие сигналы
SERP

SERP
Поведенческие сигналы
Семантика и интент

SERP
Ссылки
Структура сайта

Семантика и интент
EEAT и качество
Индексация
