
Патент описывает эффективные алгоритмы (Shingling) для создания цифровых отпечатков веб-страниц. Разбивая контент на перекрывающиеся последовательности (шинглы) и выбирая репрезентативное подмножество, Google может быстро сравнивать миллиарды документов для выявления дубликатов, почти дубликатов (near-duplicates) и шаблонного контента.
Патент решает фундаментальную проблему масштабируемости при сравнении огромного корпуса документов (например, веб-индекса). Сравнение полных текстов или даже полного набора всех возможных подпоследовательностей (шинглов) требует колоссальных вычислительных ресурсов и хранения избыточной информации. Цель изобретения — предоставить алгоритмы для выбора меньшего, но репрезентативного подмножества шинглов. Это позволяет эффективно определять сходство документов (например, для обнаружения дубликатов), гарантируя при этом consistency (одинаковый выбор шинглов для одинаковых последовательностей) и coverage (каждая часть документа представлена хотя бы одним выбранным шинглом).
Запатентованы методы выбора подпоследовательностей (шинглов) из последовательности токенов (документа) для создания эффективного цифрового отпечатка. Суть изобретения заключается в применении специфических математических критериев отбора к шинглам, чтобы сократить их общее количество, сохраняя при этом возможность точного или приблизительного сравнения документов. Запатентованы три основных алгоритма отбора: на основе экстремальных значений токенов, на основе значений токенов по модулю k и на основе предопределенных групп меньших шинглов.
Система работает в несколько этапов:
токены (слова, символы), и каждому токену присваивается числовое значение (например, хеш или fingerprint).k-tuples или шинглы).Match Rate)).Высокая. Обнаружение дубликатов, почти дубликатов (near-duplicates) и определение сходства контента остаются фундаментальными задачами для поисковых систем. Эффективные алгоритмы шинглирования критически важны для масштабируемости процессов индексации и каноникализации. Хотя могут использоваться и более современные методы (например, нейросетевые эмбеддинги), классические методы шинглирования по-прежнему применяются для быстрого и вычислительно дешевого сравнения контента.
Патент имеет высокое стратегическое значение для SEO (8/10). Он описывает базовую инфраструктуру, которую Google может использовать для обнаружения дублированного, переписанного (spun content) или шаблонного контента. Понимание механизмов шинглирования позволяет SEO-специалистам лучше понять, как Google воспринимает уникальность контента на структурном уровне, и почему важно не только менять слова, но и структуру предложений для создания действительно оригинального контента. Это напрямую влияет на стратегии каноникализации, синдикации и создания контента.
fingerprint) среди токенов внутри одного шингла.Патент описывает три основных алгоритма выбора шинглов. Все они направлены на создание репрезентативного подмножества шинглов для сравнения.
Алгоритм 1: Выбор на основе экстремальных значений (Claims 1, 29)
Claim 1 (Независимый пункт): Описывает метод выбора шинглов с использованием наибольших значений.
токенов (документ) в шинглы длины k.Claim 29 (Независимый пункт): Аналогичен Claim 1, но использует НАИМЕНЬШЕЕ числовое значение в качестве критерия выбора.
Этот метод гарантирует coverage и consistency. Идея в том, что если два документа имеют общую длинную последовательность, они выберут одинаковые шинглы из этой последовательности, так как экстремальные значения будут совпадать.
Алгоритм 2: Выбор на основе значений по модулю k (Claim 9)
Claim 9 (Независимый пункт): Описывает метод выбора на основе соответствия значения и позиции.
шинглы длины k.Этот метод также обеспечивает coverage и consistency, используя другой механизм привязки выбора к содержимому шингла.
Алгоритм 3: Выбор на основе групп меньших шинглов (Claim 15)
Claim 15 (Независимый пункт): Описывает более сложный метод выбора.
шинглы длины k.Этот алгоритм позволяет более тонко настраивать частоту выбора шинглов в зависимости от их содержимого и предопределенных паттернов (Группа S).
Изобретение является частью инфраструктуры обработки и сравнения контента.
CRAWLING – Сканирование и Сбор данных
На этом этапе собирается сырой контент, который затем будет обработан с использованием этих алгоритмов.
INDEXING – Индексирование и извлечение признаков
Основное применение патента. В процессе индексации система должна определить, является ли новый или обновленный контент дубликатом уже существующего.
шинглирования используются для генерации стабильных и эффективных признаков (отпечатков) документа.Match Rate) высока, документы могут быть признаны почти дубликатами (near-duplicates), что влияет на выбор канонической версии.Входные данные:
fingerprints) для каждого токена.Выходные данные:
consistency, шаблонные части документа (меню, футер, сайдбар) будут генерировать одинаковые наборы шинглов на разных страницах.Описание на примере Алгоритма 1 (Экстремальные значения, Claim 1).
токенов (например, слов).fingerprint).шинглы длины k. (Например, при k=5, скользящее окно перемещается по документу).fingerprint) среди его k токенов.Match Rate (например, Коэффициент Жаккара) на основе количества общих и уникальных шинглов в двух подмножествах.Патент фокусируется на обработке последовательностей и не зависит от традиционных SEO-факторов, таких как ссылки или мета-теги. Он использует исключительно контентные данные.
токенов. Важен порядок токенов.fingerprints), присвоенные токенам.Шинглирование является основой для систем обнаружения почти дубликатов (near-duplicate detection).consistency), и что весь контент будет учтен (coverage). Это критически важно для надежной каноникализации.Match Rate, но система не "понимает" смысл через эти алгоритмы.шинглов.шинглы. Убедитесь, что каноникализация настроена правильно, или добавьте достаточно уникальной ценности на страницу, чтобы общий отпечаток отличался.шинглы. Убедитесь, что соотношение уникального контента к шаблонному достаточно велико, чтобы страницы не были классифицированы как почти дубликаты друг друга.шинглы могут остаться неизменными или очень похожими, что приведет к высокому Match Rate.шинглирования, так как они генерируют идентичные последовательности шинглов.Патент подтверждает, что обнаружение дубликатов является критически важной и высоко оптимизированной частью инфраструктуры Google. Для SEO это означает, что попытки манипулировать уникальностью с помощью поверхностных изменений с высокой вероятностью будут неэффективны. Стратегия должна быть направлена на создание действительно оригинального контента с уникальной структурой. Понимание шинглирования также помогает интерпретировать проблемы с индексацией и каноникализацией, когда Google выбирает не ту страницу, которую ожидает владелец сайта.
Сценарий: Оптимизация описания товара в E-commerce
Проблема: Интернет-магазин использует стандартное описание товара от производителя, как и сотни других сайтов. Страница ранжируется плохо.
Применение знаний из патента:
шинглирование (например, с k=8) к описанию товара. Поскольку текст идентичен другим сайтам, сгенерированный набор шинглов также идентичен. Google классифицирует контент как дубликат и выбирает другой сайт в качестве канонического.Match Rate остается высоким. Проблема не решена.Match Rate с оригинальным описанием значительно снижается. Google воспринимает контент как уникальный.Что такое шингл (Shingle) и токен (Token) в контексте этого патента?
Токен — это базовая единица контента, обычно слово или символ. Шингл — это непрерывная последовательность из фиксированного числа (k) токенов, взятых из документа. Например, если k=3, фраза "быстрая коричневая лиса" является шинглом: {"быстрая", "коричневая", "лиса"}.
Зачем Google выбирает только подмножество шинглов, а не использует все?
Использование всех возможных шинглов создает огромный объем данных из-за значительного перекрытия между соседними шинглами. Это неэффективно для хранения и сравнения в масштабах веба. Патент предлагает алгоритмы для выбора меньшего, но репрезентативного подмножества, что значительно ускоряет процесс сравнения документов, сохраняя точность.
Что означают Consistency и Coverage, упомянутые в патенте?
Consistency (Консистентность/Согласованность) гарантирует, что если два документа идентичны или имеют идентичный фрагмент, алгоритм выберет из них одинаковый набор шинглов. Coverage (Покрытие) гарантирует, что каждая часть документа (каждый токен) будет представлена хотя бы в одном выбранном шингле. Оба свойства критичны для надежного обнаружения дубликатов.
Как работает алгоритм выбора на основе "Экстремальных значений"?
Каждому токену присваивается числовое значение (хеш). Алгоритм проверяет каждый шингл и выбирает его, только если наибольшее (или наименьшее) числовое значение в этом шингле принадлежит первому ИЛИ последнему токену шингла. Это способ детерминированного и консистентного отбора.
Обнаруживает ли этот патент семантическое сходство (смысл) или только лексическое (текст)?
Этот патент описывает методы обнаружения лексического сходства. Он проверяет совпадение последовательностей слов (токенов). Он не анализирует смысл текста. Для анализа семантического сходства Google использует другие технологии, такие как нейронные сети и эмбеддинги (BERT, MUM).
Как этот патент влияет на контент-спиннинг (Content Spinning)?
Он делает низкокачественный спиннинг неэффективным. Если при спиннинге сохраняется оригинальная структура предложений и меняются только отдельные слова, многие шинглы могут остаться неизменными или очень похожими. Для создания уникального контента необходимо менять структуру и порядок слов.
Влияет ли длина шингла (k) на обнаружение дубликатов?
Да, очень сильно. Маленькое значение k (например, 2-3) обнаруживает совпадения коротких фраз. Большое значение k (например, 8-10) используется для обнаружения совпадений на уровне целых предложений. Поисковые системы могут использовать разные значения k для разных задач.
Как эти алгоритмы связаны с каноникализацией (rel=canonical)?
Эти алгоритмы являются частью системы, которую Google использует для определения того, являются ли две страницы почти дубликатами. Если Match Rate между двумя страницами очень высок, система кластеризует их вместе и принимает решение о выборе канонической версии, учитывая сигналы вроде rel=canonical, но также и другие факторы.
Может ли изменение шаблонного контента (меню, футер) повлиять на уникальность страницы?
Да. Хотя системы могут пытаться идентифицировать и игнорировать шаблонный контент (boilerplate), он все равно участвует в генерации шинглов. Если на двух страницах уникальный контент минимален, а шаблонный текст значительно отличается, это может повлиять на общую оценку сходства страниц.
Являются ли эти алгоритмы единственным способом, которым Google ищет дубликаты?
Нет. Патент описывает конкретные эффективные алгоритмы шинглирования, поданные в 2008 году. Google использует множество других сигналов и алгоритмов, включая анализ ссылок, поведенческие данные и, вероятно, более современные методы, основанные на машинном обучении, для обнаружения дубликатов и определения качества контента.

Индексация
Ссылки

Индексация
SERP

Индексация

Индексация
Антиспам

Мультимедиа
Индексация

Knowledge Graph
Семантика и интент
Персонализация

EEAT и качество
Семантика и интент
SERP

Семантика и интент
Поведенческие сигналы
Персонализация

Ссылки
SERP
Поведенческие сигналы

SERP
Семантика и интент
EEAT и качество

Персонализация
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
Мультимедиа
SERP

Семантика и интент
SERP
Поведенческие сигналы

Local SEO
Семантика и интент
Поведенческие сигналы

Local SEO
Ссылки
SERP
