
Google анализирует структуру ссылок для поиска сайтов, связанных с выбранным документом и находящихся на том же уровне обобщения (например, конкурентов). Система определяет, на какие еще сайты ссылаются источники, цитирующие исходный документ (co-citation). Для повышения точности вес ссылок нормализуется: снижается влияние множественных ссылок с одного хоста и ссылок со страниц-каталогов (хабов).
Патент решает задачу автоматического поиска гиперссылочных документов (веб-страниц), которые не просто тематически связаны с выбранным документом, но и находятся на «том же уровне обобщения» (same level of generality). Традиционный текстовый поиск часто не справляется с задачей поиска прямых аналогов или конкурентов (например, найти другие крупные газеты при просмотре сайта NY Times). Изобретение предлагает метод, основанный исключительно на анализе структуры ссылок (link-based analysis), устраняя необходимость ручной категоризации и фильтруя шум от внутренних ссылок и страниц-агрегаторов.
Запатентована техника поиска связанных документов с использованием анализа сопутствующих ссылок (co-citation). Система анализирует ссылочное окружение: определяются страницы, ссылающиеся на исходный документ (Backlink Set), а затем изучается, на какие еще документы они ссылаются (Forwardlink Set). Ключевой инновацией является механизм нормализации веса этих ссылок: вес снижается, если в Backlink Set много страниц с одного хоста (нормализация по хосту) или если ссылающаяся страница содержит слишком много исходящих ссылок (нормализация по количеству ссылок).
Механизм основан на предположении, что если документ C часто цитирует документы A и B вместе, то A и B связаны.
Backlink Set: Находятся страницы, ссылающиеся на выбранный документ.Forwardlink Set: Идентифицируются страницы (кандидаты), на которые ссылаются документы из Backlink Set.Backlink Set присутствует несколько страниц с одного и того же хоста. Это снижает влияние внутренних ссылок.Высокая. Принципы анализа сопутствующих ссылок (co-citation), разнообразия хостов (host diversity) и нормализации веса ссылок остаются фундаментальными концепциями в информационном поиске. Хотя конкретные формулы, описанные в этом патенте (подан в 2000 г.), вероятно, эволюционировали в более сложные ML-модели и векторные представления, базовая логика использования ссылочного графа для кластеризации сайтов и понимания их взаимоотношений крайне актуальна.
(7/10). Патент имеет высокое стратегическое значение для формирования ссылочной стратегии. Он демонстрирует, как Google использует структуру ссылок не только для оценки авторитетности (как в PageRank), но и для определения тематической близости и идентификации конкурентов. Это подчеркивает критическую важность получения ссылок из релевантного ссылочного окружения (Link Neighborhoods) и подтверждает ценность разнообразия доноров.
Backlink Set. Это кандидаты на звание связанных страниц.Host Diversity).Claim 1 (Независимый пункт): Описывает основной метод генерации списка связанных документов с двумя ключевыми механизмами нормализации.
Backlink Set) и второй набор (Forwardlink Set).predetermined amount). Например, 1/(Links+K).Score) на основе суммы весов указывающих на него ссылок.Claim 8 (Независимый пункт): Описывает метод, включающий нормализацию (как в Claim 1) и дополнительный шаг проверки на симметричность.
Claim 10 (Зависимый от 8 и 9): Детализирует обработку несимметричных результатов с использованием фильтрации по популярности.
Документ из списка несимметричных результатов удаляется, если он присутствует в Popular List. Это позволяет отфильтровать глобально популярные сайты.
Claim 13 и 18 (Независимые пункты): Фокусируются конкретно на механизме нормализации по количеству ссылок (без обязательного упоминания нормализации по хосту), подчеркивая важность деления веса на количество ссылок плюс константа.
Изобретение затрагивает этапы индексирования (для подготовки данных) и ранжирования/метапоиска (как специализированная функция).
CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает сырые данные о структуре ссылок в сети.
INDEXING – Индексирование и извлечение признаков
Основная подготовительная работа происходит здесь (описано как «Preprocessing of Web»).
Forwardlink Sets) и обратных ссылок (Backlink Sets) для каждой страницы.Popular List: Система анализирует частоту встречаемости страниц в списках связанных страниц и генерирует глобальный Popular List.RANKING / METASEARCH – Ранжирование / Метапоиск
Алгоритм не является частью основного ранжирования для произвольных запросов. Он представляет собой специализированную функцию (например, оператор related: или функция, упоминаемая в патенте как GoogleScout), которая активируется по запросу пользователя для конкретного URL.
Входные данные:
Backlink Set для выбранного документа и Forwardlink Sets для документов в Backlink Set.Backlink Set.Popular List.Выходные данные:
random sampling) из Backlink Set (например, 10 000 ссылок) для повышения эффективности. Для страниц с малым количеством обратных ссылок упоминается использование «ссылки на себя» (self link) для улучшения результатов.Процесс А: Предварительная обработка (Офлайн / Indexing)
Forwardlink и Backlink Sets для всего набора документов.Popular List: Анализ всех рассчитанных списков и идентификация веб-страниц, которые встречаются в них наиболее часто.Процесс Б: Генерация списка связанных страниц (Runtime или Офлайн)
Backlink Set: Извлечение набора обратных ссылок для выбранной страницы. При необходимости применяется выборка.Forwardlink Set: Определение набора страниц (кандидатов), на которые ссылаются страницы из Backlink Set.Backlink Set: Backlink Set есть несколько страниц с одного хоста, уменьшить значение ссылки (например, разделить на количество страниц с этого хоста).Forwardlink Set суммируются значения всех указывающих на нее ссылок.Процесс В: Отображение списка (Runtime / Фильтрация)
Symmetric List и Unsymmetric List.Symmetric List. Затем отображаются результаты из Unsymmetric List, при условии, что их нет в глобальном Popular List.Патент полностью основан на анализе структуры ссылок и не использует контентные, поведенческие или временные факторы (хотя упоминает возможность комбинирования с text-based similarity).
Backlink Set), исходящие ссылки (для Forwardlink Set) и общее количество исходящих ссылок на странице-доноре (для нормализации).Backlink Set для выполнения нормализации по хосту.Система использует несколько ключевых метрик для взвешивания:
Backlink Set. Vhost=H1Backlink Set.co-citation). Связанность определяется не прямыми ссылками между сайтами А и Б, а тем фактом, что третья сторона (С) ссылается и на А, и на Б.co-citation.Патент подчеркивает, что анализ ссылочного графа является многогранным процессом, выходящим за рамки простого подсчета авторитетности (PageRank). Для Senior SEO-специалистов важно понимать, что ссылочная стратегия должна не только повышать рейтинг, но и правильно позиционировать сайт в тематическом и конкурентном ландшафте. Механизмы co-citation лежат в основе того, как Google может кластеризировать сайты и понимать отношения между сущностями без анализа текста.
Сценарий: Позиционирование нового сайта интернет-магазина электроники
Backlink Set конкурентов и обнаруживает, что авторитетные обзорные сайты (TechRadar.com, CNET.com) часто ссылаются на них в своих статьях.Backlink Set NewStore.com входят TechRadar и CNET. Анализируя их Forwardlink Set, система видит BestBuy и Amazon и присваивает им высокие оценки связанности с NewStore.com, тем самым правильно классифицируя новый сайт как игрока этого рынка.Чем этот алгоритм отличается от PageRank?
PageRank измеряет глобальную авторитетность страницы на основе входящих ссылок. Этот алгоритм измеряет связанность (relatedness) и находит страницы на «том же уровне обобщения» с помощью анализа сопутствующих ссылок (co-citation analysis). Он анализирует, на что еще ссылаются ваши доноры, и использует сложные механизмы нормализации веса для повышения точности.
Что такое анализ сопутствующих ссылок (co-citation) в контексте этого патента?
Co-citation происходит, когда третья страница ссылается на две разные страницы. Если страница С ссылается на страницу А (выбранная страница) и страницу Б (кандидат), то А и Б считаются сопутствующими. Чем больше общих доноров у А и Б, и чем выше вес этих ссылок после нормализации, тем более связанными они считаются системой.
Почему Google снижает вес ссылок, если на странице-доноре их много (Link Count Normalization)?
Это делается для нормализации влияния разных типов страниц. Страницы с большим количеством ссылок (например, каталоги) не должны иметь больше влияния, чем страницы с небольшим количеством сфокусированных ссылок (например, статьи). Снижение веса (например, по формуле 1/(Links+K)) гарантирует, что все страницы-доноры имеют примерно равное совокупное влияние.
Что означает нормализация по хосту (Host Normalization) и почему она важна для SEO?
Нормализация по хосту означает, что если несколько страниц с одного домена ссылаются на ваш сайт, их совокупное влияние ограничивается (например, вес их исходящих ссылок делится на количество этих страниц). Это подчеркивает критическую важность разнообразия доменов (Host Diversity) в стратегии линкбилдинга и снижает влияние внутренних ссылок на этот анализ.
Что такое «симметрично связанные» сайты и почему они приоритетны?
Связь симметрична, если сайт А считается связанным с сайтом Б, И при выполнении анализа для сайта Б он считается связанным с сайтом А. Система отдает приоритет таким связям, так как они считаются более надежными индикаторами того, что сайты действительно находятся на одном уровне обобщения (например, являются прямыми конкурентами).
Использует ли этот алгоритм анализ текста или анкоров?
Нет. Согласно патенту, этот метод основан исключительно на анализе структуры ссылок (Link-based Analysis). Он не анализирует содержание страниц или текст анкоров для определения связанности. Это позволяет находить связанные ресурсы даже при отсутствии общих ключевых слов.
Как я могу использовать принципы этого патента для улучшения SEO моего сайта?
Ключевая стратегия — это построение ссылочного профиля, который отражает профили лидеров вашей ниши. Необходимо активно искать возможности для получения ссылок со страниц, которые уже ссылаются на ваших конкурентов (Hub-страницы). Это поможет системе через механизм co-citation правильно кластеризировать ваш сайт.
Какова ценность ссылок из каталогов согласно этому патенту?
Ценность таких ссылок значительно снижается. Поскольку каталоги содержат множество исходящих ссылок, вес каждой отдельной ссылки будет минимальным из-за нормализации по количеству ссылок (Link Count Normalization). Фокус следует сместить на получение ссылок с тематических страниц с умеренным количеством исходящих ссылок.
Актуален ли этот патент, если Google сейчас использует нейронные сети и векторные вложения?
Да, принципы актуальны. Хотя современные методы (векторные вложения) могут более сложно определять связанность на основе контента и контекста, структура ссылок остается мощным сигналом. Фундаментальные концепции, такие как co-citation и нормализация веса, по-прежнему являются важными элементами анализа ссылочного графа и могут использоваться как признаки в современных ML-моделях.
Что такое «Popular List» и как он используется?
Это список глобально популярных сайтов, которые очень часто появляются в списках связанных страниц по всей сети. Система использует этот список для фильтрации результатов: если сайт связан несимметрично и при этом находится в Popular List, он, скорее всего, будет удален из финального списка, чтобы предоставить пользователю более специфичные результаты.

Ссылки
SERP
Поведенческие сигналы

Ссылки
Антиспам
EEAT и качество

Ссылки
SERP

Ссылки
SERP

Индексация
Краулинг
Техническое SEO

Ссылки
Мультимедиа
Поведенческие сигналы

Мультиязычность
Ссылки
SERP

Персонализация
Поведенческие сигналы
SERP

Поведенческие сигналы
Семантика и интент
Мультимедиа

Поведенческие сигналы
Семантика и интент
Структура сайта

Персонализация
Семантика и интент
Мультимедиа

Поведенческие сигналы
EEAT и качество
SERP

Персонализация
Индексация
Поведенческие сигналы

Поведенческие сигналы
SERP

Антиспам
Ссылки
SERP
