
Google использует механизм для повышения эффективности сканирования интернета. Для каждого документа создается уникальный отпечаток (fingerprint), например, с помощью Simhash. Если новый документ почти идентичен уже просканированному (их отпечатки отличаются минимально), система помечает его как дубликат, игнорирует его исходящие ссылки и может исключить его из дальнейшей обработки, экономя ресурсы.
Патент решает проблему неэффективности веб-краулинга, вызванную огромным количеством почти дублирующегося контента в интернете (зеркала сайтов, разные форматы одного документа, страницы с незначительными изменениями, такими как даты или реклама). Сканирование и обработка дубликатов, а также переход по их исходящим ссылкам, приводит к избыточной трате вычислительных ресурсов, сетевой пропускной способности и ресурсов хранения. Цель — быстро обнаруживать near-duplicate documents на этапе сканирования и игнорировать их.
Запатентована система для эффективного обнаружения почти дубликатов документов в процессе веб-краулинга. Изобретение использует fingerprints (цифровые отпечатки или хеш-значения), обладающие свойством схожести для схожих документов (например, Simhash). Ядром системы является высокоэффективный метод сравнения нового отпечатка с миллиардами существующих, позволяющий быстро находить отпечатки, отличающиеся лишь на небольшое количество битов (малое расстояние Хэмминга), с помощью техники перестановок и таблиц.
Система работает следующим образом:
features) с весами (weights) и генерируется компактный fingerprint (например, Simhash). Схожие документы получают схожие отпечатки.permutations), создавая несколько версий отпечатка с измененным порядком битов.substantially similar). Если разница не превышает порогового значения k битов, документ помечается как near-duplicate.Высокая. Эффективность сканирования и борьба с дублированным контентом остаются критически важными задачами для Google. Описанный механизм, часто ассоциируемый с Simhash (который упоминается в патенте как референс), является фундаментальной технологией для управления масштабом интернета. Учитывая постоянный рост объемов контента, актуальность таких методов только возрастает.
Патент имеет высокое значение (7/10) для технического SEO и управления краулинговым бюджетом. Он не описывает факторы ранжирования, но детально раскрывает механизм, определяющий, будет ли страница обработана и будут ли учтены ее исходящие ссылки. Если страница классифицируется как near-duplicate на этом раннем этапе сканирования, она может быть отброшена, что подчеркивает важность уникальности контента для обеспечения индексации и учета ссылок.
k — максимально допустимое различие для признания документов дубликатами (например, k=3).features) документа в зависимости от их важности (например, слова в заголовке имеют больший вес, чем слова в рекламе).Claim 1 (Независимый пункт): Описывает основной метод обнаружения дубликатов.
fingerprint.sequence of bit positions), а не всего отпечатка.substantially similar к новому отпечатку. Схожесть определяется как отличие не более чем на k битов (где k > 0).near-duplicate.Claim 2 (Зависимый от 1): Детализирует генерацию отпечатка.
Отпечаток генерируется путем извлечения признаков (set of features), присвоения им весов (weight) и вычисления отпечатка на основе этих взвешенных признаков.
Claim 7 (Зависимый от 6 и 1): Описывает механизм эффективного хранения.
Система применяет несколько перестановок (plurality of permutations) к каждому отпечатку. В каждой из нескольких таблиц хранятся отпечатки, обработанные соответствующей перестановкой. Это позволяет реализовать быстрый поиск по части битов (Claim 1).
Claim 8 (Зависимый от 1): Описывает действие при обнаружении дубликата.
Исходящие ссылки (outgoing links) в документе игнорируются, если он идентифицирован как near-duplicate.
Claim 22 (Независимый пункт): Описывает распределенную систему для пакетной обработки (batch mode).
k битов.Изобретение применяется исключительно на этапе сканирования для оптимизации ресурсов.
CRAWLING – Сканирование и Сбор данных
Это основная область применения патента. Система (Web Crawler Engine) использует этот механизм сразу после загрузки документа (fetched) для принятия решения о его дальнейшей обработке.
Fetch Bots загружают документ и передают его в Duplicate Document Detector. Детектор использует Set of Tables (базу отпечатков) для проверки. Результат передается в Content Manager.Content Manager игнорирует его исходящие ссылки. Если нет — извлекает ссылки и добавляет их в очередь сканирования (Address List).INDEXING – Индексирование и извлечение признаков
Патент косвенно влияет на этот этап. Если документ отброшен на этапе CRAWLING как дубликат, он не передается на индексацию. Процесс извлечения признаков (Feature Extraction) и расчет весов, необходимые для генерации fingerprint, также происходят на ранних этапах обработки.
Входные данные:
Set of Tables).k, f, pi, перестановки xi).Выходные данные:
near-duplicate.near-duplicate.Fetch Bot в процессе сканирования (в реальном времени или пакетном режиме).k (расстояние Хэмминга). Если отпечатки отличаются на k битов или меньше, система считает документы дубликатами. В примере патента используется k=3 для 64-битного отпечатка.Процесс обработки нового документа
features).weight) в зависимости от его важности (например, заголовок важнее рекламы).Simhash).near-duplicate, ее исходящие ссылки не будут добавлены в очередь сканирования, и сама страница может быть не передана на индексацию.features) и присваивает им веса (weights). Изменения в важных (с высоким весом) частях документа сильнее изменят fingerprint, чем изменения в менее важных частях (реклама, футер, boilerplate).k (расстояние Хэмминга) определяет строгость определения дубликата. Малое значение k (например, 3 бита из 64) означает, что допускаются лишь очень незначительные различия.near-duplicate страниц приводит к неэффективному сканированию, так как Googlebot загружает страницы, но затем отбрасывает их и не сканирует их ссылки.fingerprint, уникальность должна фокусироваться именно на них.near-duplicate возрастает.fingerprint страницы значительно отличался от оригинала.fingerprints и будут отброшены краулером.Simhash эффективно обнаруживает такие заимствования.Патент подчеркивает стратегическую важность эффективности инфраструктуры Google. Борьба с дубликатами критична для экономии ресурсов. Для SEO-специалистов это означает, что уникальность контента — это не просто фактор ранжирования, а входной билет для прохождения этапа CRAWLING и попадания в INDEXING. Система обнаружения near-duplicate является одним из первых и самых строгих фильтров контента.
Сценарий: Оптимизация страниц товаров в E-commerce
near-duplicate. Их исходящие ссылки (например, на похожие товары) не сканируются.fingerprint каждой страницы отличался более чем на k битов. В противном случае следует использовать rel=canonical на основную версию.Сценарий: Перепечатка пресс-релиза
fingerprint оригинала. При сканировании новостных сайтов система обнаруживает, что их отпечатки идентичны или почти идентичны оригиналу.near-duplicate. Google проигнорирует ссылки с этих страниц и выберет одну версию для дальнейшей обработки.Что такое Simhash в контексте этого патента?
Simhash упоминается как пример хеширующей техники, подходящей для этой задачи. В отличие от криптографических хешей (MD5, SHA-1), где малое изменение документа полностью меняет хеш, Simhash генерирует схожие хеш-значения (fingerprints) для схожих документов. Это позволяет сравнивать отпечатки и быстро определять степень схожести контента по расстоянию Хэмминга.
На каком этапе Google применяет этот механизм: сканирование, индексирование или ранжирование?
Механизм применяется на этапе сканирования (CRAWLING). Патент явно указывает, что цель — повысить эффективность веб-краулера. Когда документ загружен, система сразу проверяет его на дубликаты, чтобы решить, стоит ли обрабатывать его дальше и сканировать его исходящие ссылки.
Что произойдет, если моя страница будет признана почти дубликатом (near-duplicate)?
Согласно патенту, если страница признана near-duplicate, система игнорирует ее исходящие ссылки (они не добавляются в очередь сканирования). Также патент указывает, что сам документ может быть отброшен (discarded), что означает, что он, скорее всего, не будет передан на индексацию.
Как Google определяет, какие части страницы более важны для генерации отпечатка?
Система использует веса (weights) для признаков (features), извлеченных из документа. Признакам из более важных секций (например, заголовок документа) присваивается больший вес, чем признакам из менее важных секций (например, реклама или шаблонные блоки). Признаки с большим весом сильнее влияют на итоговый fingerprint.
Насколько разными должны быть две страницы, чтобы не считаться дубликатами?
Это определяется порогом k (расстояние Хэмминга). Если отпечатки двух документов отличаются более чем на k битов, они считаются уникальными. В примере патента используется k=3 для 64-битного отпечатка, что подразумевает очень высокую степень схожести для классификации в качестве дубликата.
Поможет ли изменение порядка слов или блоков контента сделать страницу уникальной для этой системы?
Это зависит от метода извлечения признаков (features). Если признаки основаны на отдельных словах или коротких n-граммах, изменение порядка блоков может незначительно повлиять на итоговый fingerprint, особенно если общий набор взвешенных признаков останется прежним. Для обеспечения уникальности лучше изменять сам контент, а не только его верстку.
Как этот механизм влияет на краулинговый бюджет?
Он напрямую влияет на него. С одной стороны, он помогает Google экономить глобальные ресурсы. С другой стороны, для владельца сайта наличие дубликатов означает, что краулер тратит бюджет на загрузку страниц, которые затем отбрасываются, вместо того чтобы сканировать уникальный и ценный контент.
Может ли этот механизм ошибочно принять уникальную страницу за дубликат?
Да, это возможно, особенно если уникальная страница содержит большой объем шаблонного контента (boilerplate), который совпадает с другими страницами, а объем уникального контента невелик. В этом случае взвешенные признаки шаблонного контента могут доминировать при генерации fingerprint.
Отличается ли этот механизм от каноникализации через rel=canonical?
Да, это разные механизмы, работающие на разных этапах. rel=canonical — это указание от вебмастера для этапа индексирования. Описанный в патенте механизм — это автоматическое алгоритмическое обнаружение дубликатов на основе анализа контента на этапе сканирования, которое работает независимо от наличия тегов каноникализации.
Что делать, если мне нужно иметь похожие страницы на сайте (например, для разных регионов)?
Необходимо убедиться, что страницы имеют достаточно уникального контента в важных областях, чтобы их fingerprints существенно отличались (больше, чем на k битов). Используйте уникальные тексты, локализованные данные, разные отзывы. Просто замена названия региона в тексте может быть недостаточной для преодоления порога k.

Индексация
SERP

Индексация

Индексация
Техническое SEO

Индексация
Техническое SEO

Индексация

Семантика и интент
SERP
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
SERP

Ссылки
Краулинг
Техническое SEO

Knowledge Graph
SERP
Семантика и интент

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
SERP
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
Мультимедиа
SERP

Поведенческие сигналы
Ссылки
SERP

Персонализация
Семантика и интент
Поведенческие сигналы
