
Google может группировать результаты поиска, анализируя, как документы ссылаются друг на друга. Система оценивает силу связи между документами, проверяя контекстуальную близость общих цитирований. Ссылки, расположенные в одном предложении (co-citation) или абзаце, имеют значительно больший вес, чем ссылки, просто присутствующие в документе. Это позволяет формировать точные тематические кластеры, отсеивая группы со слабыми связями.
Патент решает проблему организации большого набора результатов поиска в когерентные и логически связанные группы (кластеры). Стандартная выдача ранжируется по релевантности запросу, но не учитывает взаимосвязи между самими результатами. Это усложняет навигацию, особенно в научных или технических областях, где результаты могут относиться к разным подтемам или методологиям. Изобретение предлагает метод выявления доминирующих кластеров (dominant clusters) на основе анализа структуры цитирования.
Запатентована система кластеризации документов, использующая паттерны цитирования (citation patterns) для определения силы связи между документами. Ключевая инновация заключается в многоуровневом анализе перекрытия цитирований (overlapping citations) на разных уровнях специфичности: весь документ, абзац, конкретная фраза (co-citation). Система придает значительно больший вес более специфичным (контекстуально близким) совпадениям.
Система работает следующим образом:
Weighted Citation Overlap Score). Оценка выше, если общие цитаты находятся в одном предложении или абзаце, и ниже, если они просто присутствуют в документе.Factor Analysis, например, PCA) для группировки документов на основе этих оценок.Dominant Clusters. Кластеры, основанные только на слабых связях (только уровень документа), пенализируются.Средняя. Патент подан в 2003 году. Описанные методы анализа цитирований критически важны для систем типа Google Scholar или поиска по патентам. Хотя современные методы кластеризации в основном веб-поиске больше полагаются на NLP и векторные представления, фундаментальный принцип патента — контекстуальная близость определяет силу связи — остается высоко актуальным и применяется при анализе ссылок и сущностей.
Влияние на SEO умеренное (6/10). Патент не описывает алгоритмы ранжирования, а фокусируется на организации результатов после ранжирования, особенно в специализированных корпусах (например, научные статьи). Однако он дает критически важное понимание того, как Google оценивает связи: близость расположения ссылок (в одном абзаце/предложении) значительно важнее, чем просто факт их наличия в документе.
Document-level (Уровень документа): Цитата существует где-либо в документе (например, в библиографии). Наименее специфичный уровень.Paragraph-level (Уровень абзаца): Цитата существует в рамках конкретного абзаца.Citation-level (Co-citation / Уровень цитирования): Цитаты на несколько документов встречаются в одной фразе или одном экземпляре цитирования (например, [1, 2, 3]). Наиболее специфичный уровень.Claim 1 (Независимый пункт): Определяет основной метод кластеризации документов.
Document-level).Paragraph-level).citation overlap score для пары.Ядро изобретения — это использование многоуровневого анализа специфичности и явная пенализация кластеров, основанных на слабых, неконтекстных связях. Это гарантирует, что доминирующие кластеры будут основаны на сильных контекстуальных связях.
Claim 2 (Зависимый от 1): Расширяет анализ, включая третий, еще более специфичный структурный уровень (например, Citation-level).
Claim 7 (Зависимый от 6): Определяет механизм взвешивания. Пересекающиеся цитаты, найденные на более специфичном структурном уровне, получают больший вес, чем цитаты, найденные на менее специфичном уровне.
Claim 8 (Зависимый от 1): Указывает, что Factor Analysis используется как метод определения кластеров на основе результатов сравнения.
Изобретение применяется на финальных этапах обработки поискового запроса для организации уже отобранных результатов.
INDEXING – Индексирование и извлечение признаков
На этом этапе система должна извлечь из документов не только контент, но и цитаты (ссылки) вместе с их точным структурным местоположением (абзац, предложение). Эти данные необходимы для последующего анализа.
RANKING – Ранжирование
Генерируется первоначальный набор результатов поиска. Из этого набора выбирается подмножество (например, Топ-200 документов) для последующей кластеризации.
RERANKING – Переранжирование / METASEARCH – Метапоиск и Смешивание
Это основной этап применения патента. Это не переранжирование в классическом смысле, а организация (кластеризация) результатов перед показом пользователю.
selected search result documents).Clustering Module) анализирует документы. Citations Locator находит ссылки. Document Pair Comparator вычисляет Weighted Citation Overlap Scores. Factor Analyzer определяет кластеры. Cluster Ranking Module ранжирует их и применяет пенализацию.scientific documents). Он менее применим к общему веб-контенту или e-commerce.Document-level).Paragraph-level).Citation-level / Co-citation).Weighted Citation Overlap Score для пары. Веса назначаются в пользу большей специфичности (Co-citation > Абзац > Документ).Factor Analysis (например, PCA или PFA) к матрице оценок перекрытия для выявления потенциальных кластеров.Патент фокусируется исключительно на анализе структуры цитирования.
Другие факторы (контентные, поведенческие и т.д.) в патенте не упоминаются как входные данные для этого механизма.
Citation Overlap Levels: Количественная мера общих цитирований на разных уровнях структуры (Document, Paragraph, Citation).Weighted Citation Overlap Score: Комбинированная оценка для пары документов. Рассчитывается путем суммирования перекрытий на разных уровнях с применением весовых коэффициентов. Патент утверждает, что более специфичные уровни имеют больший вес.Cluster Score (Оценка кластера): Метрика для ранжирования кластеров. Может быть средним значением Weighted Citation Overlap Score для всех пар документов в кластере.Penalization (Пенализация): Корректировка Cluster Score. Оценка снижается для кластеров, где документы связаны только на самом общем уровне (Document-level).Factor Analysis (PCA/PFA) используется для выполнения кластеризации.Co-citation) весят больше, чем в одном абзаце, которые, в свою очередь, весят больше, чем ссылки, просто присутствующие где-то в документе (например, в библиографии).Хотя патент сфокусирован на цитированиях (например, в Google Scholar), его принципы можно обобщить для стандартного SEO:
Paragraph-level) или даже предложении (Co-citation). Это усиливает семантическую связь между страницами.Document-level).Paragraph-level) между цитатами/ссылками.Патент подтверждает фундаментальный принцип информационного поиска: контекст и структура имеют решающее значение. Для Google важно не только то, на кого вы ссылаетесь (или кто ссылается на вас), но и *как* и *где* это происходит. Близость элементов (ссылок, сущностей, терминов) является ключевым фактором для определения силы их связи. Это подчеркивает важность качественного копирайтинга и логичной структуры контента, где ссылки являются органичной частью повествования.
Сценарий: Оптимизация внутренней перелинковки в статье.
Document-level).Paragraph-level overlap). Еще лучше, разместить их в одном предложении: "Эффективное управление Crawl Budget невозможно без регулярного Анализа логов сервера." (Co-citation).Описывает ли этот патент алгоритм ранжирования?
Нет, напрямую он не описывает, как Google определяет релевантность документа запросу. Он описывает механизм, который применяется *после* ранжирования для организации (кластеризации) уже отобранных результатов в логические группы на основе анализа того, как эти документы цитируют друг друга.
Что такое "уровни общности цитирования" (Citation Generality)?
Это разные структурные уровни контекста, в котором могут пересекаться цитаты. Патент выделяет три примера: Document-level (самый слабый – цитаты просто есть где-то в документе), Paragraph-level (средний – цитаты находятся в одном абзаце) и Citation-level или Co-citation (самый сильный – цитаты находятся в одной фразе или предложении).
Как вес уровня цитирования влияет на результат?
Чем специфичнее уровень (т.е. чем ближе расположены цитаты), тем больший вес он получает. Пересечение на уровне Co-citation считается гораздо более сильным сигналом связи между документами, чем пересечение на уровне всего документа. Кластеры, основанные на сильных связях, считаются более качественными.
Что означает "пенализация кластеров", упомянутая в Claim 1?
Это критически важный механизм обеспечения качества. Если документы в кластере связаны между собой только на самом общем уровне (Document-level), например, у них просто совпадают пункты в библиографии, но в тексте они обсуждаются в разном контексте, оценка такого кластера искусственно занижается. Это позволяет отсеивать группы со слабыми связями.
Актуален ли этот патент, учитывая его давность (подача в 2003 году)?
Хотя конкретная реализация, вероятно, эволюционировала, фундаментальный принцип, заложенный в патенте, высоко актуален. Принцип гласит, что контекстуальная близость элементов (ссылок, сущностей, терминов) является ключевым фактором для определения силы их связи. Сам механизм анализа цитирований активно используется в Google Scholar.
Применим ли этот патент только к академическим статьям?
Патент упоминает, что он особенно подходит для научных документов (scientific documents). Однако описанные принципы анализа ссылок и их близости могут быть обобщены и применены к любому типу веб-документов, использующих гиперссылки для связи контента.
Как SEO-специалист может использовать знание о Co-citation на практике?
При создании контента следует размещать ссылки на связанные темы (внутренние или внешние) максимально близко друг к другу, в идеале — в одном предложении или абзаце. Это помогает поисковой системе понять контекст ссылки и укрепить семантическую связь между страницами.
Что такое факторный анализ (Factor Analysis) в контексте этого патента?
Это статистический метод (например, PCA или PFA), который система использует для анализа матрицы оценок сходства между всеми парами документов. Он позволяет выявить скрытые структуры и сгруппировать документы с наиболее сильными взаимосвязями в кластеры.
Влияет ли этот механизм на внутреннюю перелинковку?
Да, принципы патента напрямую применимы к стратегии внутренней перелинковки. Размещение ссылок на страницы одного тематического хаба в тесной близости друг к другу (в одном абзаце) усилит их взаимосвязь и поможет Google лучше понять структуру вашего сайта и авторитетность кластера.
Заменяет ли этот механизм анализ анкорного текста?
Нет, он дополняет его. Анализ анкорного текста помогает понять, о чем цитируемая страница. Анализ близости цитирования (описанный в патенте) помогает понять силу связи и контекст, в котором эта ссылка используется, а также отношения между несколькими ссылками, расположенными рядом.

Ссылки
SERP

Ссылки
SERP
Поведенческие сигналы

EEAT и качество
Свежесть контента
Семантика и интент

Индексация
Техническое SEO

Семантика и интент
SERP
Поведенческие сигналы

Мультимедиа
EEAT и качество
Ссылки

SERP
Поведенческие сигналы

EEAT и качество
Антиспам
Ссылки

Персонализация
Поведенческие сигналы
Local SEO

Поведенческие сигналы
Семантика и интент
Антиспам

Семантика и интент
EEAT и качество
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Индексация
Техническое SEO
Структура сайта

Семантика и интент
Персонализация
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
Персонализация
