
Google использует механизм кластеризации для организации поисковой выдачи, особенно при неоднозначных запросах. Система анализирует, какие внешние страницы одновременно ссылаются на несколько результатов поиска (со-цитирование). На основе этого вычисляется показатель сходства, который учитывает и нормализует популярность страниц, чтобы точно сгруппировать результаты по конкретным темам (например, отделить «Saturn» как планету от «Saturn» как автомобиль).
Патент решает проблему неоднозначности поисковых запросов (полисемии). Когда запрос имеет несколько значений (например, "Saturn" может означать планету, автомобиль или игровую систему), стандартный поиск возвращает смешанный набор результатов по всем этим темам, что затрудняет навигацию для пользователя. Изобретение призвано автоматически сгруппировать (кластеризовать) результаты поиска по конкретным темам, используя структуру ссылок в интернете, обеспечивая более когерентную выдачу.
Запатентован метод для автоматической кластеризации гиперссылочных документов (например, результатов поиска) на основе анализа ссылочного графа. Основной механизм — это анализ со-цитирования (Co-citation): если на два документа (А и Б) одновременно ссылается много других страниц, то документы А и Б, вероятно, посвящены одной теме. Система использует иерархическую кластеризацию и вводит специфическую метрику сходства (Similarity Measure), которая активно нормализует влияние очень популярных сайтов, чтобы избежать ложных тематических связей.
Система работает следующим образом:
Expanded Search Set).Back Link List), которые ссылаются на два или более документа из этого набора.Similarity Measure между парами документов. Эта метрика увеличивается при высоком Co-citation, но уменьшается (нормализуется), если документы очень популярны (имеют много входящих ссылок), чтобы отфильтровать случайные совпадения.Высокая (концептуально). Патент подан в 2000 году, и конкретные математические методы, вероятно, эволюционировали в сторону машинного обучения и векторных представлений. Однако заложенные в нем принципы остаются фундаментальными. Использование структуры ссылок, концепция "ссылочного соседства" и со-цитирования для определения тематической близости критически важны для понимания того, как Google интерпретирует Topical Authority.
Патент имеет высокое стратегическое значение (8/10). Он демонстрирует, что ссылочный профиль используется не только для передачи авторитета (как в PageRank), но и для определения тематики и контекста документа. Это подчеркивает критическую важность получения ссылок из правильного "тематического соседства" — от страниц-хабов, которые также ссылаются на другие авторитетные ресурсы в вашей нише. Стратегии построения ссылок должны фокусироваться на интеграции сайта в релевантные тематические кластеры ссылочного графа.
Expanded Search Set. Используются для анализа со-цитирования.Co-citation number — это количество документов, которые со-цитируют данную пару.Co-citation и NumBL.Similarity Measure для расчета ожидаемого случайного со-цитирования.Claim 1 (Независимый пункт): Описывает базовый метод кластеризации документов.
Co-citation), и (Б) количества обратных ссылок (NumBL) первого и второго документов.NumBL).Ядро изобретения — это обязательная нормализация (обратная пропорциональность) по популярности. Это предотвращает ситуацию, когда очень популярные, но тематически не связанные сайты кластеризуются вместе из-за случайных общих ссылок.
Claim 4 (Зависимый от 1): Уточняет расчет сходства.
Определение сходства основано на вычитании произведения количества обратных ссылок первого и второго документов из количества документов, ссылающихся на оба.
Это описывает числитель формулы Similarity Measure, где из фактического со-цитирования вычитается ожидаемое случайное со-цитирование.
Claim 13 (Зависимый от 1): Описывает структуру формулы сходства.
Сходство определяется путем деления первого значения (основанного на Co-citation и NumBL) на второе значение (основанное только на NumBL).
Это подтверждает использование сложной дроби, где числитель учитывает скорректированное со-цитирование, а знаменатель используется для нормализации.
Claim 17 (Независимый пункт): Описывает применение метода к группам (иерархическая кластеризация).
Co-citation и NumBL групп.NumBL групп.Это позволяет применять базовый механизм итеративно для построения иерархии кластеров.
Изобретение применяется на финальных этапах обработки запроса для организации выдачи.
INDEXING – Индексирование и извлечение признаков
На этом этапе система анализирует ссылочный граф и рассчитывает данные о входящих ссылках (NumBL) для каждого документа. Патент также упоминает возможность предварительной кластеризации (preclustering) всего интернета офлайн.
RANKING – Ранжирование
На этом этапе генерируется исходный набор результатов поиска (Search Set).
RERANKING – Переранжирование / METASEARCH – Метапоиск и Смешивание
Основное применение патента. После получения исходных результатов система активирует механизм кластеризации:
Expanded Search Set) и извлекается список обратных ссылок (Back Link List).Similarity Measure.Входные данные:
Search Set).NumBL для документов.Выходные данные:
со-цитировании среди результатов поиска. Если ссылок мало, кластеризация на основе ссылок будет неэффективной. Вероятно, активируется, когда система идентифицирует запрос как неоднозначный.Процесс кластеризации результатов поиска:
Search Set.Search Set расширяется за счет документов из ближайшего окружения, формируя Expanded Search Set.Back Link List документов, которые ссылаются на документы в Expanded Search Set.Co-citation number и вычисляется Similarity Measure. Изначально каждый документ считается отдельной группой.Similarity Measure и определяет наиболее схожие пары. Для эффективности одновременно выбирается множество пар.Similarity Measure для новых групп. Для эффективности может использоваться аппроксимация путем суммирования предыдущих показателей Co-citation (как описано в патенте при обсуждении FIG. 17).Патент фокусируется исключительно на использовании структуры ссылок.
Система вычисляет следующие ключевые метрики:
Формула расчета Similarity Measure (A, B) (согласно FIG. 13):
Где:
Интерпретация формулы:
со-цитирований (которое тем выше, чем популярнее страницы А и Б) из фактического количества.Co-citation. Документы, на которые часто ссылаются одни и те же источники, считаются тематически связанными.Similarity Measure, специально разработанную для нейтрализации влияния чрезмерно популярных сайтов. Сходство обратно пропорционально количеству входящих ссылок (NumBL). Это означает, что важна не масса ссылок, а их структура и контекст.со-цитирования.Co-citation.NumBL), поэтому фокус на массе ссылок без учета их структуры неэффективен.Этот патент является одним из фундаментальных документов, объясняющих концепцию Topical Authority с точки зрения ссылочного графа. Он подтверждает, что для Google критически важно, в каком контексте и окружении находится сайт. Долгосрочная SEO-стратегия должна включать построение сильного, тематически сфокусированного ссылочного профиля, который четко позиционирует сайт внутри определенного тематического кластера интернета. Это подтверждает переход от анализа отдельных ссылок к анализу паттернов и структур в ссылочном графе.
Сценарий: Построение Topical Authority для сайта о веганском питании
Similarity Measure) и начинает рассматривать новый сайт как часть авторитетного тематического кластера "Веганское питание".Что такое со-цитирование (Co-citation) простыми словами и почему оно важно для SEO?
Со-цитирование происходит, когда одна страница (Источник) ссылается на две другие страницы (Цель А и Цель Б) одновременно. Согласно патенту, это сильный сигнал того, что Цель А и Цель Б тематически связаны. Для SEO это означает, что получение ссылок с источников, которые также ссылаются на авторитетов в вашей нише, помогает поисковой системе понять тематику вашего сайта и укрепить его Topical Authority.
Как система защищается от влияния очень популярных сайтов вроде Wikipedia или новостных порталов?
Система использует специальную метрику сходства (Similarity Measure), которая нормализует популярность. Сходство рассчитывается как обратно пропорциональное количеству входящих ссылок (NumBL). Если сайт очень популярен, ожидается, что он будет иметь много случайных со-цитирований. Формула вычитает это ожидаемое случайное значение, чтобы популярность не искажала тематическую кластеризацию.
Что такое "Расширенный набор поиска" (Expanded Search Set) и зачем он нужен?
Expanded Search Set — это исходные результаты поиска плюс документы из их ближайшего ссылочного окружения (те, кто ссылается на них, и те, на кого они ссылаются). Это позволяет системе собрать больше данных о ссылочной структуре вокруг результатов поиска. Анализ этого "соседства" дает более точную картину связей и улучшает качество кластеризации.
Использует ли этот алгоритм анализ текста или ключевые слова для кластеризации?
Нет. Данный патент описывает метод, основанный исключительно на анализе структуры ссылок (Link-Based Clustering). Он не использует контент документов для определения тематического сходства. Это позволяет группировать документы, даже если они используют разную терминологию для описания одной и той же темы.
Что означает иерархическая кластеризация в контексте этого патента?
Это итеративный процесс. Сначала каждый документ считается отдельной группой. На каждом шаге система находит две наиболее похожие группы (на основе Similarity Measure) и объединяет их в одну более крупную группу. Процесс повторяется до тех пор, пока сходство между оставшимися группами не станет слишком низким. Это позволяет выявлять сложные тематические связи.
Как этот старый патент (подан в 2000 году) актуален для современного SEO?
Хотя конкретные алгоритмы Google эволюционировали, принципы, заложенные в этом патенте, фундаментальны. Концепция того, что ссылочное окружение и со-цитирование определяют тематический контекст сайта, лежит в основе современного понимания Topical Authority и E-E-A-T. Понимание этих механизмов критически важно для разработки эффективных стратегий линкбилдинга.
Могут ли исходящие ссылки с моего сайта помочь в кластеризации?
Да. Патент упоминает (FIG 6A/6B), что прямая ссылка со страницы А на страницу Б может рассматриваться как форма со-цитирования (страница А со-цитирует саму себя и страницу Б). Размещение исходящих ссылок на авторитетные, тематически релевантные ресурсы может помочь определить контекст вашей страницы и способствовать её правильной интеграции в тематический кластер.
Что важнее: получить ссылку с очень авторитетного сайта (например, BBC) или с менее авторитетного, но тематически сфокусированного хаба?
Для целей тематической кластеризации более ценной может быть ссылка с тематического хаба, который активно со-цитирует другие ресурсы в вашей нише. Ссылка с BBC даст авторитет, но если она находится в статье, не связанной с вашей тематикой и не со-цитирующей других игроков рынка, она мало поможет в определении вашей тематической принадлежности через этот механизм.
Как система определяет, когда остановить процесс кластеризации?
Процесс останавливается, когда метрика сходства (Similarity Measure) между любыми двумя оставшимися группами падает ниже определенного порога (например, становится отрицательной). По мере того как группы становятся больше, их популярность (NumBL) растет, и формула сходства начинает сильнее "штрафовать" за это, что естественным образом приводит к остановке процесса.
Что такое "preclustering" (предварительная кластеризация), упомянутая в патенте?
Это офлайн-процесс, при котором Google может заранее проанализировать весь интернет и сгруппировать связанные страницы в предварительные кластеры. При получении запроса система может кластеризовать не отдельные документы, а эти предварительные кластеры. Это значительно ускоряет обработку запроса в реальном времени, хотя и может несколько снизить точность.

Ссылки
SERP
Поведенческие сигналы

Ссылки
SERP

Поведенческие сигналы
SERP
Семантика и интент

Семантика и интент

Поведенческие сигналы
Семантика и интент
Мультимедиа

Семантика и интент
Поведенческие сигналы

Ссылки
Мультимедиа
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
Персонализация

EEAT и качество
Поведенческие сигналы

SERP
Поведенческие сигналы
Семантика и интент

Поведенческие сигналы
SERP

Семантика и интент
Техническое SEO
EEAT и качество

Поведенческие сигналы
SERP

Антиспам
Ссылки
SERP

Персонализация
Поведенческие сигналы
Семантика и интент
