
Google использует эффективный метод (O(n)) для группировки структурно похожих документов на веб-сайте. Система определяет страницы, у которых совпадают наиболее весомые термины (Топ-N), используя метрику Modified TF-IDF, смещенную в сторону шаблонного текста (boilerplate). Затем находится общий шаблон в их URL-адресах. Это позволяет быстро кластеризовать большие объемы контента для анализа структуры сайта и оптимизации индексирования.
Патент решает проблему вычислительной сложности традиционных алгоритмов кластеризации документов (часто требующих времени O(n²)), что делает их непрактичными для обработки данных в масштабах веба. Цель изобретения — предоставить высокоэффективный механизм кластеризации, работающий за линейное время (O(n)), для быстрого группирования схожих документов, что позволяет оптимизировать дальнейшую обработку (например, применяя её к выборке из кластера, а не ко всем документам).
Запатентован метод эффективной кластеризации документов, использующий двухэтапный подход. Система сначала группирует документы, у которых идентичны Топ-N терминов (Top N Terms) по оценке частотности. Для этого используется Modified TF-IDF, смещающий вес в сторону шаблонного контента (boilerplate). Затем для этой группы идентифицируется общий строковый паттерн (Pattern String), основанный на URL. Документы, удовлетворяющие этому паттерну, формируют итоговый кластер.
Система работает в несколько этапов:
Modified TF-IDF. Эта метрика специально разработана для выделения общего шаблонного текста.Top N Terms и их порядок. Система итеративно увеличивает N (начиная с 1 до максимума M), чтобы найти оптимальный баланс между схожестью и размером группы.Pattern String). Для выбора наилучшего шаблона используется принцип минимальной длины описания (Minimum Description Length, MDL).Средняя/Высокая. Эффективная обработка данных остается критически важной задачей. Хотя методы анализа контента эволюционировали с 2008 года (например, в сторону векторных эмбеддингов), базовые принципы быстрой (O(n)) структурной кластеризации на основе частотности терминов и URL-паттернов остаются актуальными для инфраструктурных задач, таких как управление краулинговым бюджетом, анализ структуры сайтов и обнаружение шаблонов (boilerplate detection).
Влияние на SEO умеренное (4/10), преимущественно в области технического SEO. Это инфраструктурный патент, направленный на повышение эффективности индексирования и сканирования, а не на ранжирование. Он не вводит новых сигналов ранжирования. Однако он демонстрирует, как Google структурно анализирует сайты, подчеркивая важность консистентной архитектуры и шаблонов URL для эффективной обработки ресурса.
Pattern String.Top N Terms. Используется как основа для поиска Pattern String.Top N Terms документа. Используется для быстрого сравнения документов при реализации алгоритма.Pattern String. Он балансирует точность шаблона (меньше подстановочных знаков) с его охватом (больше совпадений URL).Modified TF-IDF).Term Frequency Score в документе.Claim 1 (Независимый пункт): Описывает основной метод кластеризации.
Top N Terms (по оценке частоты термина) одинаковы.Pattern String).Document Cluster) как минимум из этого подмножества.Claim 2 и 3 (Зависимые): Уточняют процесс идентификации схожести.
Top N Terms, но и одинаковый порядок этих терминов (по их оценкам). Это строгий критерий структурной схожести.Claim 7 (Зависимый от 1): Уточняет область применения. Набор документов — это документы, принадлежащие одному и тому же веб-сайту.
Claim 8 (Зависимый от 1): Уточняет природу Pattern String. Строка шаблона — это строка, которой удовлетворяют URL (Universal Resource Locators) документов.
Claim 13 (Независимый пункт): Описывает систему, реализующую метод, аналогичный Claim 1, с акцентом на этапы (расчет оценок, идентификация первого подмножества по Top N и порядку, идентификация второго подмножества по Pattern String, формирование кластера).
Изобретение направлено на повышение эффективности внутренних процессов Google на этапах индексирования и сканирования.
INDEXING – Индексирование и извлечение признаков
Основное применение патента. После сканивания система анализирует документы для вычисления Term Frequency Scores и определения Top N Terms. Этот процесс является частью структурного анализа сайта и обнаружения шаблонного контента (boilerplate detection). Цель — сгруппировать похожие страницы до того, как они будут полностью обработаны, что позволяет применять дальнейшую обработку к выборке из кластера или обрабатывать кластер как единое целое.
CRAWLING – Сканирование и Сбор данных
Результаты кластеризации могут влиять на планирование сканирования (Crawl Scheduling). Если система идентифицирует Document Cluster через шаблон URL (Pattern String), она может оптимизировать краулинговый бюджет, например, адаптируя частоту сканирования для всего кластера на основе анализа выборки документов (sampling).
Входные данные:
Выходные данные:
Document Clusters), каждый из которых связан с определенным Pattern String.threshold minimum size, например, 4) имеют идентичные Top N Terms. Итерации ограничены максимальным значением N (параметр M, например, 100) для гарантии эффективности O(n).Процесс А: Группировка документов (Поиск оптимального N)
Modified TF-IDF. Термины в каждом документе сортируются по убыванию оценки.Fingerprint) конкатенации Top N Terms (с учетом порядка). Документы с одинаковыми отпечатками объединяются в Document Groups.threshold minimum size).Процесс Б: Кластеризация на основе групп
Document Group (например, самая большая), сгенерированная в Процессе А.Pattern String. Используется принцип MDL для выбора наилучшего шаблона (баланс точности и охвата).Pattern String. Они формируют Document Cluster.Pattern Matching для формирования финальных кластеров. URL сегментируются по разделителям (например, "/" и "?").Хотя патент является инфраструктурным, он подчеркивает важность технического SEO для эффективного индексирования и сканирования.
URL Pattern Strings, это помогает системе правильно идентифицировать разделы сайта (например, /blog/*, /products/*).Top N Terms (которые часто являются boilerplate из-за Modified TF-IDF) и помогает корректно кластеризовать эти страницы как группу.Pattern Strings. Это усложняет анализ сайта и может привести к неэффективному сканированию.Top N Terms, препятствуя кластеризации.Top N Terms будут состоять только из него. Это увеличивает риск того, что страницы с разным основным содержанием будут считаться почти идентичными.Патент подтверждает критическую важность технического SEO и продуманной архитектуры сайта. Он показывает, что Google анализирует сайты структурно, ища закономерности для оптимизации использования своих вычислительных ресурсов. Стратегически важно проектировать сайты так, чтобы их структура была очевидна алгоритмам кластеризации. Это влияет на то, как быстро и полно Google сможет обработать контент сайта.
Сценарий: Кластеризация страниц товаров в E-commerce
shop.com.Document Group.shop.com/product/item-123shop.com/product/item-456shop.com/product/<>.Является ли этот патент алгоритмом ранжирования?
Нет. Патент описывает инфраструктурный механизм для эффективной кластеризации документов (группировки похожих страниц). Он предназначен для оптимизации внутренних процессов Google, таких как индексирование, анализ структуры сайта и управление сканированием, а не для определения позиции документа в поисковой выдаче.
Как формула Modified TF-IDF, описанная в патенте, отличается от стандартной и почему это важно?
Формула в патенте
Что означает, что алгоритм работает за линейное время O(n)?
Это означает, что время, необходимое для выполнения алгоритма, прямо пропорционально количеству входных документов (n). Это значительно эффективнее традиционных методов (O(n²)), где удвоение количества документов увеличивает время обработки в четыре раза. Эта эффективность критична для работы в масштабах веба.
Как структура URL влияет на этот процесс кластеризации?
Структура URL критически важна на втором этапе. Даже если страницы имеют очень похожий контент (одинаковые Top N Terms), финальный кластер формируется на основе общего URL Pattern String. Чистая, последовательная и иерархическая структура URL помогает алгоритму находить надежные паттерны и правильно кластеризовать разделы сайта.
Важен ли порядок Top N терминов для группировки?
Да, это критически важно согласно Claim 3 патента. Для включения в предварительную группу документы должны иметь не только одинаковые Top N Terms, но и одинаковый порядок этих терминов (т.е. их ранжирование по оценкам должно совпадать). Это обеспечивает высокую точность при идентификации идентичных шаблонов.
Как этот патент связан с обработкой дубликатов или каноникализацией?
Он косвенно поддерживает эти процессы. Кластеризация помогает быстро выявить группы структурно похожих или почти дублирующихся страниц (near-duplicates). Если две страницы имеют идентичные Top N Terms (особенно при высоком N) и попадают в один кластер, это сильный сигнал их схожести, который может использоваться системой каноникализации.
Должен ли я беспокоиться, если на моем сайте много шаблонного текста (boilerplate)?
Важно обеспечить консистентность boilerplate. Поскольку Modified TF-IDF придает большой вес шаблонному тексту, он должен быть одинаковым на однотипных страницах, чтобы способствовать правильной кластеризации. Однако следует также следить, чтобы уникальный контент не терялся на фоне boilerplate, иначе разные страницы могут быть ошибочно восприняты как идентичные.
Что такое Топ-N терминов и как выбирается N?
Топ-N терминов — это N слов или фраз в документе с самыми высокими оценками Modified TF-IDF. Значение N не фиксировано. Система начинает с
Что такое принцип минимальной длины описания (MDL)?
Это метод, используемый для выбора наилучшего шаблона URL (Pattern String). Система ищет баланс: шаблон должен быть достаточно точным (содержать меньше подстановочных знаков * или <>), но при этом охватывать как можно больше URL в группе. MDL помогает выбрать наиболее эффективное и краткое описание раздела сайта.
Что произойдет, если мои страницы имеют похожий контент, но совершенно разные URL?
В рамках этого алгоритма, такие страницы сначала попадут в одну Document Group на основе контента. Однако на этапе поиска Pattern String система не найдет надежного общего шаблона для их URL. В этом случае эффективный кластер сформирован не будет. Это может снизить эффективность обработки вашего сайта, так как страницы будут рассматриваться индивидуально.

Индексация
Антиспам


Knowledge Graph
Семантика и интент
EEAT и качество

Антиспам
Семантика и интент
Мультимедиа

Индексация
Семантика и интент
Структура сайта

Персонализация
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
SERP
Антиспам

Ссылки
Антиспам
SERP

SERP
Поведенческие сигналы

Антиспам
Ссылки
Техническое SEO

Персонализация
Поведенческие сигналы
SERP

Поведенческие сигналы
SERP
EEAT и качество

Семантика и интент
Поведенческие сигналы

Персонализация
Поведенческие сигналы
Local SEO

Семантика и интент
Поведенческие сигналы
Local SEO
