
Google применяет техники Shingling и Min-Hashing для эффективного сравнения миллионов документов (например, книг или веб-страниц). Система кластеризует похожие документы, а затем детально анализирует сходство на уровне фрагментов, чтобы классифицировать их взаимосвязь: являются ли они идентичными, переформатированными версиями или содержат перекрывающийся текст.
Патент решает вычислительную проблему идентификации похожих, идентичных или частично пересекающихся текстовых томов (Digital Text Volumes, например, оцифрованных книг) в массивном корпусе данных. Прямое сравнение каждого документа и каждой страницы с другими невыполнимо в больших масштабах. Изобретение позволяет эффективно обнаруживать дубликаты, выбирать репрезентативные версии контента, выявлять аномалии и обнаруживать плагиат или пиратство в масштабе всего корпуса.
Запатентована система для эффективной идентификации и классификации взаимосвязей между цифровыми текстовыми томами с использованием методов снижения размерности, в частности Min-Hashing и Shingling. Система сначала сравнивает тома на глобальном уровне для быстрого поиска кластеров похожих документов, а затем выполняет детальный анализ сходства на уровне страниц внутри этих кластеров для точной классификации их взаимосвязи.
Система работает в несколько этапов:
5-word shingles — перекрывающиеся последовательности из 5 слов).reduced feature set) для каждого тома и страницы.Min-Hash values, группируются в кластеры похожих документов.page similarity data).linear page-to-page fit) и корреляция последовательных страниц.Высокая. Хотя патент описывает обработку книг, лежащие в его основе методы, такие как Shingling и Min-Hashing, являются фундаментальными для обнаружения почти дубликатов (near-duplicate detection) в больших масштабах. Эти методы критически важны для управления огромными корпусами данных, включая веб-индекс Google, процессов каноникализации и идентификации плагиата, и остаются актуальными в 2025 году.
(5.5/10). Это инфраструктурный патент, фокусирующийся на управлении большими текстовыми корпусами (например, Google Books), а не на алгоритмах ранжирования. Однако он детально раскрывает фундаментальные механизмы (Min-Hashing, Shingling), которые Google использует для понимания дублирования контента в веб-масштабе. Понимание этих механизмов критически важно для разработки SEO-стратегий, связанных с каноникализацией, синдикацией контента и обеспечением уникальности текстов.
5-word shingles. Используются как базовые признаки (features) документа.Min-Hash values). Этот набор служит «отпечатком» документа или страницы.Min-Hash values.Claim 1 (Независимый пункт): Описывает основной метод идентификации взаимосвязей между цифровыми текстовыми томами.
volume similarity data).page similarity data).linear page-to-page fit).relative consecutive page correlation).Ядро изобретения заключается в многоуровневом подходе (том -> страница) и использовании специфических сигналов для классификации типа взаимосвязи, а не просто факта дублирования.
Claim 2 (Зависимый от 1): Детализирует метод сравнения томов (Шаг 1 из Claim 1), подтверждая использование Min-Hashing.
Shingles).minimum hash value) для каждой функции, чтобы создать сокращенный набор признаков (reduced feature set).Claim 4 (Зависимый от 1): Детализирует метод сравнения страниц (Шаг 3 из Claim 1). Используется тот же процесс Min-Hashing, что и в Claim 2, но применительно к признакам отдельных страниц.
Claim 7 (Зависимый от 1): Детализирует этап классификации (Шаг 5 из Claim 1).
confidence level) для каждого из множества классов. Уровень уверенности указывает на вероятность того, что взаимосвязь описывается данным классом.Изобретение применяется на этапе обработки и организации корпуса данных.
INDEXING – Индексирование и извлечение признаков
Это основная фаза применения патента. Система анализирует сырой контент (цифровые тома) для извлечения признаков (Shingles, Min-Hash values). Происходит сравнение этих признаков для обнаружения дубликатов, кластеризации похожих документов и классификации взаимосвязей между ними. Это помогает в управлении индексом, выборе канонических версий (canonicalization) и идентификации оригинальных источников контента.
Это преимущественно офлайн-процесс или процесс пакетной обработки для управления качеством корпуса, а не процесс ранжирования в реальном времени.
Входные данные:
Digital Text Volumes) — необработанный текст, часто полученный через OCR.Выходные данные:
Processing Data: Репрезентативные признаки (Min-Hash values) для томов и страниц.Classification Data: Данные, описывающие взаимосвязи между парами томов (например, "Том А идентичен Тому Б", "Том С является подмножеством Тома D").Min-Hash values, чтобы считаться похожими.Shingles (например, перекрывающиеся последовательности из 5 слов).Min-Hash values для каждого тома и страницы.Min-Hash values томов индексируются. Система сравнивает тома и идентифицирует те, которые имеют больше порогового количества общих хеш-значений (например, >10%). При этом могут игнорироваться (дисконтироваться) хеши, которые встречаются слишком часто в корпусе (например, более чем в 300 томах). Эти тома группируются в кластеры похожих документов.Min-Hash values страниц. Генерируются оценки сходства для пар страниц (page similarity data).page similarity data для извлечения метрик (сигналов), описывающих паттерны сходства. Ключевые сигналы: Linear page-to-page fit (оценка смещения и множителя пагинации).Relative consecutive page correlation (выявление периодических паттернов совпадения/несовпадения страниц).multi-class classifier), использующего машинное обучение для определения типа взаимосвязи и расчета уровня уверенности (confidence level): Same pagination (Одинаковый текст и пагинация).Different pagination (Одинаковый текст, разная пагинация).Contiguous subset (Один том содержит текст другого как непрерывное подмножество).Overlapping text (Значительное пересечение текста).Патент сосредоточен исключительно на анализе текстового содержания.
5-word shingles).Min-Hash values.offset) и множитель (multiplier). Множитель, близкий к 1, указывает на идентичную пагинацию. Большое смещение может указывать на подмножество.multi-class classifier), обученный с использованием машинного обучения на извлеченных сигналах для определения финальной классификации взаимосвязи и расчета confidence level.Min-Hashing) для эффективного обнаружения почти дубликатов в огромных масштабах. Это позволяет избежать вычислительно затратного прямого сравнения текстов.Shingling означает, что система анализирует последовательность слов для определения сходства. Это делает простые текстовые манипуляции (поверхностный рерайт) малоэффективными, если основная структура фраз сохраняется.Different Pagination (реформатирование) или Contiguous Subset (синдикация/заимствование) критически важны для управления контентом и определения первоисточников.ВАЖНО: Этот патент описывает внутренние процессы Google для управления корпусом оцифрованных книг (Google Books). Однако лежащие в его основе технологии — Shingling и Min-Hashing — являются стандартными техниками для обнаружения дубликатов и широко используются в веб-поиске. Приведенные ниже выводы основаны на понимании этих технологий и их влияния на SEO.
rel="canonical". Google может легко идентифицировать страницы с одинаковым или очень похожим контентом, даже если HTML-разметка или URL отличаются.Contiguous Subset — когда один документ полностью содержится в другом. При синдикации контента критически важно обеспечить четкую атрибуцию и ссылку на оригинал (в идеале через rel=canonical), чтобы помочь поисковой системе правильно определить первоисточник и консолидировать сигналы ранжирования.Shingling (анализ последовательностей слов) для сравнения, необходимо создавать действительно уникальный контент. Избегайте обширного цитирования, шаблонного текста (boilerplate) или копирования структуры предложений из других источников.Min-Hashing. Система идентифицирует такие тексты как очень похожие на оригинал (почти дубликаты).Different Pagination (разное форматирование/пагинация при одинаковом тексте). Изменение HTML-структуры, дизайна или разбиение текста на страницы не помешает Google распознать дубликат.Min-Hashing и выбору только одной канонической версии, что делает эту тактику неэффективной.Патент подтверждает техническую основу способности Google управлять дублированным контентом в веб-масштабе. Он демонстрирует, что Google анализирует сходство на уровне последовательности текста, а не на уровне HTML-кода. Стратегической целью SEO должно быть создание подлинной уникальности или четкое техническое управление дублированием. Попытки обмануть системы обнаружения дубликатов становятся все менее эффективными.
Сценарий: Обнаружение синдицированных статей и каноникализация
5-word shingles. Несмотря на разный HTML, наборы шинглов основного контента идентичны.Min-Hash values для обеих страниц. Поскольку наборы шинглов идентичны, Min-Hash values также будут идентичны (или почти идентичны).Different Pagination, если шаблоны сильно отличаются). Страницы помещаются в один кластер дубликатов.rel="canonical" от Сайта Б к Сайту А), чтобы выбрать одну версию (Сайт А) для показа в результатах поиска.Что такое Shingles (Шинглы) и как они используются?
Шинглы — это перекрывающиеся последовательности слов в тексте. Например, для фразы "быстрая коричневая лиса прыгнула" 3-word шинглы будут: "быстрая коричневая лиса", "коричневая лиса прыгнула". Google использует шинглы как базовые признаки текста. Сравнивая наборы шинглов двух документов, можно определить степень их текстуального сходства, учитывая порядок слов.
Что такое Min-Hashing (Мин-хеширование)?
Это техника, используемая для быстрой и эффективной оценки сходства между двумя большими документами без необходимости их прямого сравнения. Она создает компактный "отпечаток" (Min-Hash values) фиксированного размера для каждого документа. Если отпечатки похожи, то и сами документы, скорее всего, похожи. Это позволяет Google сравнивать миллиарды документов с минимальными вычислительными затратами.
Применяется ли этот патент к веб-поиску или только к Google Books?
Патент описывает применение технологии для корпуса оцифрованных книг (Digital Text Volumes). Однако используемые методы — Shingling и Min-Hashing — являются фундаментальными техниками для обнаружения почти дубликатов в любых больших корпусах данных, включая веб-индекс Google. Поэтому принципы, описанные в патенте, критически важны для понимания того, как Google обрабатывает дублированный контент в вебе.
Как это связано с дублированным контентом и каноникализацией в SEO?
Это напрямую связано с тем, как Google идентифицирует дублированный контент. Если две веб-страницы имеют высокую степень сходства, рассчитанную с помощью Min-Hashing, они будут идентифицированы как дубликаты. Патент описывает механизм обнаружения, а rel="canonical" — это инструмент, который помогает Google выбрать правильную версию из обнаруженного кластера дубликатов.
Может ли Min-Hashing обнаружить "спиннинг" или поверхностный рерайт контента?
Да, в значительной степени. Спиннинг часто сохраняет многие исходные последовательности слов (шинглы), изменяя лишь некоторые слова на синонимы. Если значительная часть шинглов остается неизменной, Min-Hashing покажет высокую степень сходства с оригиналом. Эффективность обнаружения зависит от глубины рерайта.
Может ли система обнаружить дубликат, если я изменю дизайн сайта или HTML-верстку?
Да. Система работает на уровне текста, игнорируя HTML-разметку. В патенте описаны сигналы (например, Linear page-to-page fit), которые помогают идентифицировать контент, имеющий одинаковый текст, но разное форматирование (класс Different Pagination). Изменение дизайна не сделает контент уникальным.
Каково значение классификации "Contiguous Subset" (Непрерывное подмножество)?
Эта классификация означает, что система определила, что текст Документа А полностью содержится внутри Документа Б как непрерывный блок. Это важно для идентификации случаев синдикации контента, плагиата или когда одна статья является частью более крупного сборника. Это помогает в определении первоисточника или наиболее полной версии контента.
Насколько гранулярно сравнение?
Патент описывает двухуровневый подход. Сначала происходит быстрое сравнение на уровне всего документа (Volume level) для выявления кандидатов на сходство. Затем для этих кандидатов проводится детальное сравнение на уровне страниц (Page level) для точной классификации взаимосвязи.
Как Google решает, достаточно ли похожи два документа для более детальной проверки?
Система использует пороговые значения (Thresholds). В патенте упоминается примерный порог в 10% общих Min-Hash values на уровне документа. Также система может игнорировать (дисконтировать) те Min-Hash values, которые встречаются слишком часто во всем корпусе (например, общие фразы или boilerplate), чтобы избежать ложных срабатываний.
Что такое «Linear page-to-page fit» и что он показывает?
Это модель, которая пытается предсказать, как текст одного документа распределен по страницам по сравнению с другим. Она вычисляет «множитель» и «смещение». Если множитель близок к 1 и смещение мало, пагинация идентична. Отклонения помогают понять, как именно изменилось форматирование или является ли один документ частью другого.

Индексация
Ссылки

Индексация
SERP

Индексация

Индексация
Техническое SEO

Мультимедиа
SERP
Индексация

Поведенческие сигналы
SERP

Мультимедиа
EEAT и качество
Ссылки

Поведенческие сигналы
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Семантика и интент
Ссылки
SERP

Поведенческие сигналы
Мультимедиа
SERP

Поведенческие сигналы
EEAT и качество
SERP

Поведенческие сигналы
Ссылки
SERP

EEAT и качество
Семантика и интент
SERP

Антиспам
Ссылки
Техническое SEO
