
Google использует метод для эффективного обнаружения почти дубликатов документов. Система генерирует компактный цифровой отпечаток (fingerprint) для каждого документа путем выборки перекрывающихся блоков текста (shingling), вычисления контрольных сумм и их сжатия. Сравнивая эти отпечатки с использованием расстояния Хэмминга, Google может быстро определить, являются ли два документа практически идентичными, что критично для каноникализации и экономии ресурсов индекса.
Патент решает проблему эффективного и масштабируемого обнаружения документов, которые являются дубликатами или почти дубликатами (near-duplicates) друг друга в больших корпусах данных, таких как World Wide Web. Это необходимо для поисковых систем, чтобы избежать индексации и хранения избыточного контента, а также для улучшения качества поисковой выдачи за счет предотвращения показа пользователю нескольких идентичных результатов.
Запатентована система и метод генерации компактного представления документа, называемого цифровым отпечатком (fingerprint). Этот отпечаток создается путем выборки перекрывающихся блоков документа (sampling), выбора подмножества этих блоков на основе определенных критериев (например, наименьших значений контрольных сумм) и последующего сжатия (compacting) выбранного подмножества в отпечаток фиксированного размера. Схожесть документов определяется путем сравнения их отпечатков.
Система работает в два основных этапа: генерация отпечатка и обнаружение схожести.
checksum). Затем система выбирает фиксированное количество этих контрольных сумм (например, 128 наименьших значений). Эти выбранные значения хешируются и используются для модификации битов в итоговом отпечатке (путем "переворачивания" битов).Hamming distance) — количество различающихся битов. Если расстояние ниже определенного порога, документы считаются почти дубликатами.Высокая. Обнаружение почти дубликатов является фундаментальной задачей для любой крупной поисковой системы. Методы, основанные на шинглировании (shingling) и генерации локально-чувствительных хешей (Locality-Sensitive Hashing), к которым относится описанный метод (схожий с Min-Hashing и SimHash), активно используются Google для каноникализации, управления краулинговым бюджетом и обеспечения разнообразия выдачи.
Влияние на SEO критически важно (85/100). Хотя это инфраструктурный патент, описанные механизмы лежат в основе того, как Google обрабатывает контент. Понимание этих механизмов необходимо для эффективного управления каноникализацией, синдикацией контента, решением проблем с дублированным контентом (например, из-за параметров URL или шаблонного текста) и понимания того, как Google идентифицирует плагиат или низкокачественный контент-спиннинг.
sampled block) с использованием математической функции или хеш-функции. Используется как идентификатор содержимого блока.Claim 1 (Независимый пункт): Описывает основной метод генерации цифрового отпечатка документа.
sampling) документа.checksum values) из этих блоков.flipping) этого определенного бита количество раз, соответствующее количеству раз, когда это значение контрольной суммы встречается в выбранном подмножестве.Claim 10 (Независимый пункт): Уточняет критерии выбора контрольных сумм, описанные в Claim 1.
smallest) или наибольших (largest) значений контрольных сумм. (Это схоже с реализацией концепции Min-Hashing или Max-Hashing).Claim 6 и 13 (Зависимые): Уточняют, что перед адресацией битов выбранные контрольные суммы хешируются (hashing) до длины, необходимой для индексации отпечатка (например, до 7 бит для 128-битного отпечатка).
Изобретение применяется на ранних этапах обработки контента для эффективного управления ресурсами и качеством индекса.
CRAWLING – Сканирование и Сбор данных
Система может использовать эти отпечатки для оптимизации краулинга. Если вновь обнаруженный URL ведет на контент, чей fingerprint является почти дубликатом уже известного документа, система может принять решение не скачивать или не архивировать новый документ, экономя ресурсы (Crawl Budget).
INDEXING – Индексирование и извлечение признаков
Основное применение. На этом этапе генерируются отпечатки для всех проиндексированных документов. Они используются для:
RERANKING – Переранжирование
Может использоваться для обеспечения разнообразия выдачи (Diversity). Если несколько результатов в топе являются почти дубликатами (на основе сравнения их fingerprints), система может применить твидлеры (Twiddlers) для понижения дубликатов, позволяя показать результаты с других сайтов.
Входные данные:
Выходные данные:
fingerprint фиксированного размера (например, 128 бит).Hamming distance).Hamming distance, при котором документы считаются почти дубликатами. В патенте упоминается пример порога 18 для 128-битного отпечатка. Выбор порога балансирует между ложноположительными (False Positives) и ложноотрицательными (False Negatives) срабатываниями.Алгоритм состоит из двух процессов: Генерация отпечатка и Сравнение.
Процесс А: Генерация цифрового отпечатка (Fingerprint Generation)
Процесс Б: Сравнение отпечатков (Similarity Detection)
Fingerprint A и Fingerprint B.Hamming distance для признания документов почти дубликатами.Hamming distance между отпечатками). Это позволяет алгоритмически принимать решения о каноникализации и дублировании.Патент подтверждает, что обнаружение дубликатов является краеугольным камнем инфраструктуры Google. Стратегически это означает, что инвестиции в создание действительно оригинального и ценного контента являются обязательными. Попытки масштабирования за счет генерации низкокачественных почти дубликатов неэффективны, так как система фильтрует такой контент на этапе индексации. Понимание работы fingerprinting помогает SEO-специалистам точнее диагностировать проблемы с индексацией и каноникализацией.
Сценарий: Управление фасеточной навигацией в интернет-магазине
/shoes/. Пользователи могут фильтровать по цвету и размеру, что генерирует URL: /shoes/?color=black&size=10.Hamming distance.rel="canonical" на странице с параметрами, указывающий на /shoes/. Это помогает Google понять структуру и консолидировать сигналы ранжирования на основной странице категории.Насколько сильно должен измениться контент, чтобы Google перестал считать его почти дубликатом?
Изменение должно быть существенным. Алгоритм основан на выборке множества блоков текста (шингов) по всему документу. Чтобы сгенерировать значительно отличающийся отпечаток, необходимо изменить значительную часть этих блоков. Изменение нескольких предложений, даты публикации или шаблонных элементов (header/footer) практически не повлияет на итоговый fingerprint, так как набор наименьших контрольных сумм останется преимущественно тем же.
Может ли этот алгоритм использоваться для определения первоисточника контента?
Сам по себе этот алгоритм определяет только степень схожести между двумя документами в момент сравнения. Он не определяет, какой из них появился раньше. Однако, он является ключевым инструментом для систем определения первоисточника. Google использует его для идентификации дубликатов, а затем применяет другие сигналы (например, дату первого обнаружения, входящие ссылки, авторитетность сайта) для выбора канонической версии (первоисточника).
Эффективен ли контент-спиннинг против этого метода обнаружения дубликатов?
Против этого метода контент-спиннинг малоэффективен. Спиннинг часто сохраняет структуру документа и многие последовательности слов неизменными. Поскольку алгоритм использует перекрывающиеся блоки (шинги), многие из этих блоков останутся идентичными, что приведет к генерации очень похожих контрольных сумм и, как следствие, похожих отпечатков. Для эффективности требуется глубокий, качественный рерайтинг.
Как этот патент связан с каноникализацией (rel=canonical)?
Этот патент описывает механизм, который Google использует для алгоритмического обнаружения дубликатов. Если система обнаруживает несколько почти дубликатов, она запускает процесс каноникализации, чтобы выбрать один для индекса. Атрибут rel="canonical" является сигналом для этой системы, помогая ей выбрать предпочтительную версию. Если этот сигнал отсутствует, система полагается на другие факторы, но обнаружение дубликатов происходит именно благодаря таким методам, как описанный в патенте.
Влияет ли скорость загрузки или технические аспекты сайта на генерацию отпечатка?
Нет. Генерация отпечатка зависит исключительно от контента (текста) документа после его загрузки и, возможно, рендеринга. Скорость загрузки, код ответа сервера или используемые технологии (до тех пор, пока контент может быть извлечен) не влияют на сам математический процесс создания fingerprint.
Учитывает ли этот алгоритм изображения или видео?
Патент фокусируется на обработке документов (document processing), что в данном контексте подразумевает текстовое содержание. Для обнаружения дубликатов изображений и видео Google использует другие, специализированные алгоритмы анализа визуальных данных, не описанные в этом патенте.
Что означает "переворачивание бита" (bit flipping) в контексте генерации отпечатка?
Это специфический метод сжатия данных, описанный в патенте. После выбора ключевых контрольных сумм и их хеширования, они используются для адресации битов в отпечатке. "Переворачивание" означает изменение значения бита на противоположное (0 на 1, 1 на 0). Если бит адресуется четное количество раз, он вернется к исходному значению; если нечетное — останется измененным. Это создает финальный шаблон отпечатка.
Отличается ли этот метод от стандартного алгоритма SimHash?
Описанный метод имеет отличия от стандартного SimHash, хотя оба служат схожей цели. Стандартный SimHash обычно присваивает веса признакам (шингам), суммирует эти веса побитово и определяет финальный бит по знаку суммы. Описанный в патенте метод использует выборку наименьших/наибольших контрольных сумм (схоже с Min-Hashing) и затем применяет механизм "переворачивания битов" на основе частоты адресации.
Как управлять ситуацией, когда большой объем шаблонного текста (boilerplate) заставляет разные страницы выглядеть как дубликаты?
Необходимо минимизировать объем шаблонного текста и максимизировать объем уникального основного контента. Хотя современные алгоритмы Google умеют определять зоны основного контента, сильное доминирование boilerplate увеличивает риск ошибок классификации. Используйте структурированную разметку и семантическую верстку (например, теги <main>, <aside>), чтобы помочь системам лучше понять структуру страницы.
Может ли использование этого метода привести к потере трафика?
Да, если ваш контент классифицирован как почти дубликат чужого, более авторитетного контента, или если неканонические версии ваших собственных страниц конкурируют с основными версиями. Это может привести к тому, что ваши страницы будут исключены из индекса в пользу канонических версий. Правильное управление уникальностью и каноникализацией необходимо для предотвращения этого.

Краулинг
Индексация

Индексация

Индексация

Индексация
Ссылки

Индексация
Мультимедиа

Персонализация
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
SERP

Ссылки
Структура сайта
Семантика и интент

Local SEO
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы

Мультиязычность
Ссылки
SERP

Семантика и интент
Поведенческие сигналы

Индексация
Поведенческие сигналы

Поведенческие сигналы
Персонализация
Семантика и интент

Семантика и интент
Персонализация
Поведенческие сигналы
