
Google применяет сложный гибридный подход для обнаружения дубликатов и почти дубликатов контента. Система комбинирует каскадное и параллельное применение двух разных алгоритмов (например, Shingling/Broder и SimHash/Charikar), чтобы достичь высокой точности и полноты. Это позволяет эффективно идентифицировать и удалять из индекса страницы с минимальными различиями (порог схожести до 97%), что критически важно для процессов каноникализации.
Патент решает проблему точности и эффективности обнаружения почти дубликатов (near-duplicate documents) в масштабах веба. Существующие алгоритмы (такие как Broder/Shingling и Charikar/SimHash) по отдельности имеют недостатки: они могут давать ложные срабатывания (низкая точность) или пропускать реальные дубликаты (низкая полнота). Особенно сложной задачей является обнаружение дубликатов на одном сайте из-за шаблонного контента (boilerplate text). Цель изобретения — повысить точность и полноту обнаружения для экономии ресурсов индексирования и улучшения качества поиска.
Запатентована гибридная система обнаружения почти дубликатов, которая комбинирует два различных метода анализа схожести. Система использует каскадный подход: первый метод (например, зависящий от порядка слов) генерирует начальный набор кандидатов, а второй метод (например, зависящий от частоты слов) фильтрует этот набор с высоким порогом. Также запатентован механизм повышения полноты (Recall) путем параллельного запуска второго метода на всем наборе данных и объединения результатов.
Система комбинирует каскадный и параллельный подходы:
Shingling). Полученные кандидаты затем проверяются Техникой 2 (например, SimHash) с использованием Порога 1 (например, 96%).UNION). Идентифицированные дубликаты удаляются, а оставшиеся уникальные документы индексируются.Высокая. Обнаружение дубликатов и каноникализация являются фундаментальными задачами для поисковых систем. Описанные методы (Shingling, Min-Hashing, SimHash/Random Projections) являются стандартными техниками Locality-Sensitive Hashing (LSH) и широко используются в индустрии. Принцип комбинирования различных алгоритмов для балансировки точности, полноты и эффективности остается крайне актуальным.
Патент имеет высокое значение для SEO (8.5/10). Он описывает инфраструктурные механизмы, которые напрямую определяют, будет ли контент проиндексирован или классифицирован как дубликат. Понимание этих процессов критически важно для технического SEO (управление фасетной навигацией, параметрами URL) и контент-стратегии (требования к уникальности, синдикация контента). Система определяет основу для каноникализации.
Shingling и Min-Hashing. В патенте характеризуется как order dependent (зависит от порядка токенов) и frequency independent (не зависит от частоты). Использует пересечение множеств (set intersection) и анализирует подмножество токенов.random projections). В патенте характеризуется как order independent (не зависит от порядка) и frequency dependent (зависит от частоты токенов). Оценивает косинусное сходство и анализирует все токены.Minvalues. Последовательности мин-хешей объединяются и хэшируются в одно значение (супершингл) для ускорения сравнения.token sequence bit strings).Claim 1 (Независимый пункт): Описывает полный гибридный процесс обнаружения и удаления дубликатов перед индексированием. Это ключевое утверждение, объединяющее каскад и параллельный процесс.
crawling) и идентифицирует набор документов.token order dependent и token frequency independent) для получения Первого набора почти дубликатов.token order independent и token frequency dependent) с использованием Порога 1 (first threshold value). Результат — Второй набор.second threshold value), который выше Порога 1. Результат — Третий набор.Claim 2 и 3 (Зависимые): Уточняют характеристики техник. Техника 1 использует подмножество токенов (как Minvalues в Broder) и пересечение множеств. Техника 2 использует все токены документа (как в Charikar) и случайные проекции.
Claims 5-7 (Зависимые): Детализируют реализацию Техники 1 (Алгоритм Бродера). Включает Shingling (k=5-10), вычисление Minvalues (m=84) и Supershingles (m'=6). Порог схожести — совпадение как минимум двух супершинглов.
Claims 8-11 (Зависимые): Детализируют реализацию Техники 2 (Алгоритм Чарикара). Включает случайные проекции в b-мерное пространство (b=100-384, например 384).
Claims 14-16 (Зависимые): Устанавливают высокие пороги для Техники 2. Например, 372 из 384 битов (Claim 14), что составляет примерно 97% (Claim 15) или минимум 96% (Claim 16).
Изобретение применяется на ранних этапах обработки контента, связывая сканирование и индексирование.
CRAWLING – Сканирование и Сбор данных
Система собирает документы, которые поступают на вход алгоритма.
INDEXING – Индексирование и извлечение признаков
Основной этап применения. Процесс происходит после сбора контента и токенизации (Pre-indexing operation), но до создания основного поискового индекса (Inverted Index).
boilerplate. URL и изображения также токенизируются.Входные данные: Набор сканированных документов, преобразованных в последовательности токенов.
Выходные данные: Очищенный набор уникальных документов для индексации; Кластеры дубликатов.
same Website), вызванную шаблонным текстом. Гибридный подход повышает точность в этих сценариях.Этап А: Подготовка данных
Этап Б: Выполнение гибридного обнаружения
Этап В: Применение результатов
Система использует две основные метрики схожести:
1. B-similarity (Схожесть по Бродеру / Пересечение множеств):
Supershingles.Precision) и полнотой (Recall).boilerplate text на страницах одного сайта.boilerplate text по отношению к основному контенту. Убедитесь, что уникальный контент доминирует на странице, чтобы избежать ошибочной классификации страниц внутри сайта как дубликатов.rel=canonical), чтобы помочь системе выбрать правильную версию из кластера дубликатов, обнаруженного этим алгоритмом.order independent). Система все равно может признать такие страницы дубликатами.Патент подтверждает стратегический приоритет уникального контента и демонстрирует сложность инфраструктуры Google для поддержания чистоты индекса. Долгосрочная SEO-стратегия должна фокусироваться на создании реальной добавленной ценности. Попытки масштабирования контента через дублирование или поверхностную уникализацию будут алгоритмически пресекаться еще до этапа ранжирования.
Сценарий: Уникализация карточек товаров в E-commerce
Сайт продает модель смартфона в 5 цветах. Изначально создается 5 страниц с идентичным описанием и характеристиками, меняется только цвет и изображение.
rel=canonical на всех вариантах, указывая на основную версию товара.Насколько похожими должны быть страницы, чтобы Google посчитал их дубликатами согласно этому патенту?
Патент указывает на очень высокие пороги схожести. В частности, для второй техники (Charikar/SimHash) упоминается порог около 96-97% (например, 372 совпадающих бита из 384). Это означает, что страницы должны быть практически идентичными по содержанию, чтобы быть классифицированными как дубликаты этим методом.
Поможет ли изменение порядка абзацев или слов сделать контент уникальным?
Скорее всего, нет. Система использует гибридный подход. Изменение порядка слов повлияет на Технику 1 (Shingling), так как она зависит от порядка. Однако Техника 2 (SimHash) не зависит от порядка слов и анализирует общий состав и частоту токенов. Если состав слов останется прежним, Техника 2 все равно обнаружит высокую степень схожести.
Что такое Shingling (Алгоритм Бродера) и как он работает?
Shingling (Техника 1) разбивает текст на короткие перекрывающиеся последовательности слов (шинглы), например, фразы из 8 слов. Затем система сравнивает наборы этих фраз у разных документов. Если значительная часть последовательностей совпадает, документы считаются похожими. Этот метод чувствителен к точному порядку слов.
Что такое Random Projections/SimHash (Алгоритм Чарикара) и как он работает?
SimHash (Техника 2) создает компактную "подпись" (fingerprint) документа на основе всех слов в нем и их частоты, но игнорирует порядок слов. Он оценивает общую тематическую схожесть (косинусное сходство). Если подписи двух документов очень близки (например, на 97%), то и набор слов в документах схож.
Зачем Google комбинирует эти два алгоритма в сложную систему (каскад + параллельный запуск)?
Это делается для достижения баланса между точностью, полнотой и эффективностью. Каскад (Т1 -> Т2) позволяет быстро отсеять кандидатов и точно проверить их, повышая точность. Параллельный запуск (Т2 с высоким порогом) гарантирует, что очевидные дубликаты не будут пропущены, повышая полноту (Recall). Комбинация компенсирует слабости каждого отдельного алгоритма.
Как этот патент помогает бороться с Boilerplate (шаблонным контентом)?
Шаблонный контент (меню, футер) часто приводит к ложным срабатываниям Техники 1 (Shingling). Однако, если основной контент на страницах различается, Техника 2 (SimHash) покажет более низкую общую схожесть. Используя высокий порог для Техники 2, система отфильтровывает пары, которые похожи только из-за шаблонов. Также патент упоминает возможность удаления boilerplate на этапе предобработки.
Как этот патент связан с каноникализацией (rel=canonical)?
Этот патент описывает механизм, с помощью которого Google обнаруживает кластеры дубликатов. После того как дубликаты обнаружены, система каноникализации должна выбрать одну версию для индексации. Использование rel="canonical" является сильным сигналом, помогающим системе выбрать предпочтительную версию из кластера, идентифицированного этим гибридным алгоритмом.
Учитывает ли система изображения при определении дубликатов?
Да, в некоторой степени. Патент упоминает, что URL изображений (в тегах IMG) могут быть преобразованы в токены и использованы в анализе. Если страницы имеют разные изображения с разными URL или именами файлов, это внесет различия в набор токенов и может помочь снизить общий показатель схожести.
Где применяется этот алгоритм в архитектуре поиска?
Он применяется на этапе индексирования (Indexing), сразу после сбора контента (Crawling) и перед его добавлением в основной индекс. Это процесс предобработки и очистки данных, который позволяет поисковой системе не тратить ресурсы на хранение и ранжирование дубликатов.
Влияет ли этот патент на ранжирование?
Напрямую нет, так как это не алгоритм ранжирования. Однако он имеет критическое косвенное влияние: если ваша страница будет признана дубликатом и исключена из индекса (или не выбрана в качестве канонической), она не сможет ранжироваться. Обеспечение уникальности контента является необходимым условием для попадания в индекс.

Индексация
Ссылки

Краулинг
Индексация

Индексация

Индексация
Антиспам

Индексация
SERP

EEAT и качество
Семантика и интент

Поведенческие сигналы
SERP
EEAT и качество

Ссылки
Поведенческие сигналы
SERP

Семантика и интент
Персонализация
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
SERP

Семантика и интент
Структура сайта
Ссылки

Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
SERP
Антиспам

EEAT и качество
Антиспам
SERP

Knowledge Graph
Поведенческие сигналы
Персонализация
