
Google использует метод для сравнения изображений текстовых страниц (например, сканов книг или PDF), который не зависит от языка и качества текста. Система определяет положение слов и создает "сигнатуры" на основе углов и расстояний до соседних слов. Это позволяет эффективно находить дубликаты страниц или идентифицировать документ по фотографии, анализируя только его визуальную структуру.
Патент решает проблему надежного сравнения и идентификации изображений текстовых документов. Традиционные методы сопоставления изображений плохо работают с текстом из-за повторяющихся паттернов. Методы, основанные на оптическом распознавании символов (OCR), требуют высокого качества изображения, являются ресурсоемкими и зависят от языка. Изобретение предлагает метод сравнения, основанный исключительно на геометрическом расположении слов, который устойчив к искажениям и не зависит от языка.
Запатентована система для генерации уникальных идентификаторов (signatures) для страниц текста на основе визуального расположения слов, а не их содержания. Для каждого слова на странице создается signature, которая кодирует относительные позиции (углы и расстояния) его ближайших соседей. Страница представляется как набор этих дискретных сигнатур, что позволяет измерять визуальное сходство между двумя изображениями.
Система работает в несколько этапов:
focus word) определяются N ближайших слов (kNNCount).Jaccard similarity).Средняя/Высокая (для обработки документов). Технология актуальна для специфических задач в области анализа изображений документов (Document Image Analysis). Она, вероятно, используется в инфраструктуре Google Books (контроль качества сканирования, дедупликация) и в сервисах типа Google Lens (идентификация документа по фотографии). Она не имеет отношения к основному веб-поиску и ранжированию HTML-контента.
Минимальное влияние (1/10). Патент описывает внутренние процессы Google для обработки и сравнения изображений документов. Он не имеет прямого отношения к SEO для веб-сайтов. Описанные механизмы не используются для ранжирования веб-страниц, анализа качества контента или оценки E-E-A-T в контексте основного веб-поиска.
flipping) дискретного значения угла или "перестановки" (swapping) порядка соседей.Bounding Box недоступны.Claim 1 (Независимый пункт): Описывает основной метод генерации сигнатур и их использования для сравнения страниц.
Focus Word) определяются относительные позиции множества вторых слов (соседей).Signature), описывающее позиции вторых слов относительно первого.measure of similarity) на основе сравнения.Claim 6 (Зависимый от 1): Уточняет, что генерация сигнатуры включает расчет расстояния между первым словом и позициями вторых слов.
Claim 7 (Зависимый от 1): Уточняет, что генерация сигнатуры включает расчет угла между первым словом и позициями вторых слов.
Claim 8 (Зависимый от 7): Детализирует процесс генерации сигнатуры: рассчитанные углы конкатенируются (объединяются), и перед этим они упорядочиваются. (В описании патента уточняется, что упорядочивание основано на расстояниях).
Claim 9 (Зависимый от 7): Детализирует процесс генерации сигнатуры: рассчитанные углы конкатенируются, и перед этим они дискретизируются.
Claim 12 (Зависимый от 1): Указывает, что мера сходства является сходством Жаккара (Jaccard similarity).
Этот патент описывает технологию анализа изображений документов (Document Image Analysis) и не вписывается в стандартную архитектуру веб-поиска (сканирование и ранжирование HTML-страниц). Он применяется в специализированных системах.
INDEXING – Индексирование (Специализированное)
Технология используется на этапе обработки специфических корпусов данных, таких как отсканированные книги (Google Books) или коллекции PDF. Система анализирует изображения страниц (Raw page data) и извлекает визуальные признаки — наборы signatures. Эти данные (Page analysis data) сохраняются в индексе для последующего сравнения.
RANKING / RETRIEVAL (Поиск, Специализированный)
Применяется в сценариях, где требуется сравнение изображений:
signatures для идентификации исходного документа.Входные данные:
bounding boxes из PDF).Выходные данные:
signatures, характеризующий визуальный макет страницы.Similarity measure).OCR).OCR нецелесообразно, невозможно или слишком затратно.Этап А: Генерация набора Signatures для страницы
connected components или путем использования информации о bounding boxes.focus word: kNNCount).kBitPerAngle.signature.ambiguous signatures (где высока вероятность flipping или swapping). Такие сигнатуры могут быть отфильтрованы или для них могут быть сгенерированы дополнительные варианты.signatures из набора для предотвращения ложных срабатываний.signatures для страницы.Этап Б: Сравнение двух страниц (P1 и P2)
Jaccard similarity (Js), как отношение количества совпадающих signatures к общему количеству уникальных signatures в обоих наборах.Патент фокусируется исключительно на визуальных и геометрических данных и намеренно игнорирует содержание текста.
bounding boxes).Патент НЕ использует контентные, ссылочные, поведенческие, временные или любые другие стандартные SEO-факторы.
focus word и его соседями. Расстояние используется для упорядочивания, угол – для формирования сигнатуры.
bounding boxes после выравнивания изображений (Формула 2 в патенте).
ambiguous signatures.
OCR), язык и другие семантические факторы полностью игнорируются.signature путем кодирования упорядоченных и дискретизированных углов между словом и его ближайшими соседями. Это создает устойчивый к искажениям визуальный идентификатор макета.Jaccard similarity позволяет быстро и эффективно сравнивать миллионы изображений документов.Патент является инфраструктурным и описывает технологию анализа изображений документов. Практических выводов и рекомендаций для SEO-специалистов, занимающихся продвижением веб-сайтов (ранжированием в google.com), на основе этого патента нет.
Тактик SEO, которые этот патент делает неэффективными или опасными, нет, так как он не связан с факторами ранжирования веб-поиска и не направлен против манипуляций в нем.
Стратегического значения для SEO веб-сайтов патент не имеет. Он демонстрирует возможности Google в области компьютерного зрения и обработки изображений документов, но эти технологии не пересекаются со стандартными методами поисковой оптимизации HTML-контента и стратегиями построения E-E-A-T.
Практических примеров для SEO нет. Ниже приведен пример использования технологии, описанный в патенте.
Сценарий: Идентификация книги по фотографии страницы
signatures на основе расположения слов и сохраняется в специальном индексе.signatures для этого изображения.signatures в своем индексе и подсчитывает количество совпадений для каждой проиндексированной страницы.Jaccard similarity) с фотографией, идентифицируется как источник. Система возвращает пользователю информацию об этой книге.Влияет ли этот патент на ранжирование моего сайта в Google Поиске?
Нет, этот патент не влияет на ранжирование веб-сайтов. Он описывает технологию компьютерного зрения для сравнения изображений текстовых документов (например, сканов книг или фотографий). Он не связан с анализом контента веб-страниц, ссылок, поведенческих факторов или E-E-A-T в основном поиске Google.
Использует ли Google эту технологию для оценки качества верстки или дизайна HTML-страниц?
В патенте нет информации об этом. Технология разработана для анализа изображений текста с фиксированным расположением слов. Для анализа HTML-страниц Google использует системы рендеринга и алгоритмы оценки макета (Page Layout Algorithms), которые анализируют DOM и CSS, а не метод геометрических сигнатур, описанный здесь.
Что такое "signature" в контексте этого патента?
Signature — это числовое значение, которое кодирует геометрическое расположение ближайших слов вокруг определенного слова (focus word). Оно формируется путем расчета углов до соседних слов, упорядочивания этих слов по расстоянию, огрубления (дискретизации) углов и их объединения в одно значение. Это визуальный отпечаток локальной структуры текста.
Зачем Google сравнивать страницы как картинки, игнорируя текст (OCR)?
Это необходимо, когда распознавание текста (OCR) затруднено, невозможно или нежелательно. Например, при работе с документами на языках, для которых OCR работает плохо, при анализе фотографий низкого качества или для быстрой дедупликации огромного количества сканов (например, в Google Books), где полное распознавание текста было бы слишком ресурсоемким.
Что такое Jaccard Similarity и как оно здесь используется?
Jaccard Similarity — это метрика, измеряющая сходство между двумя наборами данных. В данном патенте каждая страница представлена набором signatures. Сходство Жаккара рассчитывается как количество общих signatures у двух страниц, деленное на общее количество уникальных signatures на обеих страницах. Чем выше значение, тем более похожи макеты страниц.
Применяется ли этот алгоритм в Google Images или Google Lens?
Патент описывает применение для "поиска документа на основе фотографии страницы", что соответствует функциональности Google Lens. Основное применение, также описанное в патенте, это обработка сканов книг (Google Books). Он также может использоваться для поиска визуально похожих документов в Google Images.
Что означает, что технология не зависит от языка?
Это означает, что система не пытается прочитать или понять текст на странице. Она анализирует только геометрические позиции слов как объектов на изображении. Благодаря этому система может одинаково эффективно сравнивать документы на любом языке, не требуя языковых моделей или словарей.
Как система определяет позицию слова?
Система определяет позицию слова как одну точку. Это достигается путем анализа изображения для извлечения "связанных компонентов" (connected components) или путем использования информации об ограничивающем прямоугольнике (bounding box). Затем для этого объекта рассчитывается центральная точка (centroid), которая и используется как позиция слова.
Может ли изменение шрифта или интервалов повлиять на работу этого алгоритма?
Да, может. Поскольку алгоритм основан на точных геометрических позициях, изменение шрифта, размера текста или интервалов изменит относительные расстояния и углы между словами. Это приведет к генерации других signatures. Алгоритм предназначен для поиска идентичных макетов, а не страниц с одинаковым текстом, но разным форматированием.
Имеет ли этот патент отношение к анализу дублированного контента в веб-поиске?
Нет. В веб-поиске дублированный контент определяется на основе анализа текста (например, с помощью шинглов или семантического сходства). Этот патент анализирует дублирование визуального макета изображения документа. Две веб-страницы с идентичным текстом, но разной версткой, не будут считаться дубликатами с точки зрения этого алгоритма.


Мультимедиа
Индексация
EEAT и качество

Мультимедиа
EEAT и качество

Индексация

Мультимедиа
Индексация
Семантика и интент

Антиспам
Ссылки
Семантика и интент

Ссылки
SERP
Техническое SEO

Антиспам
SERP
Ссылки

Семантика и интент
Персонализация
Поведенческие сигналы

Персонализация
Семантика и интент
Поведенческие сигналы

EEAT и качество
Семантика и интент

Ссылки
Мультимедиа
Поведенческие сигналы

Local SEO
Поведенческие сигналы
Семантика и интент

SERP
Семантика и интент
Поведенческие сигналы

Ссылки
SERP
