Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как поисковые системы могут учитывать битые ссылки и «висячие узлы» при расчете PageRank

    SYSTEM AND METHOD FOR RANKING NODES IN A NETWORK (Система и метод ранжирования узлов в сети)
    • US7251654B2
    • Google LLC
    • 2007-07-31
    • 2004-05-15
    2004 Индексация Патенты Google Ссылки Техническое SEO

    Анализ патента (IBM), описывающего модификации алгоритмов типа PageRank для более точной оценки качества страниц. Система предлагает методы для ранжирования «висячих узлов» (страниц без исходящих ссылок или несканируемых страниц) и механизмы для пессимизации страниц, которые ссылаются на «штрафные узлы» (например, страницы с ошибкой 404).

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает две ключевые проблемы в традиционных алгоритмах ранжирования на основе анализа графов (таких как PageRank):

    1. Ранжирование «висячих узлов» (Dangling Nodes): Стандартные методы неэффективно обрабатывают узлы без исходящих ссылок или узлы, которые еще не были просканированы (например, PDF-файлы, новые страницы, страницы за robots.txt). Патент предлагает метод для точного расчета их ранга, что также важно для приоритизации сканирования.
    2. Обработка «штрафных узлов» (Penalty Nodes): Традиционные алгоритмы не учитывают статус исходящих ссылок. Если страница ссылается на несуществующие ресурсы (например, ошибки 404/500), это свидетельствует о низком качестве или заброшенности источника («link rot»). Патент вводит механизмы для снижения ранга страниц, ссылающихся на такие «штрафные узлы».

    Что запатентовано

    Запатентована система модификации алгоритмов анализа ссылок. Для обработки Dangling Nodes вводится концепция Virtual Node (Виртуального узла), который агрегирует ссылки на висячие узлы, позволяя эффективно рассчитать их индивидуальный ранг. Для обработки Penalty Nodes предложено несколько механизмов (Push-back, Self-loop, Jump-weighting, Rank Redistribution), которые снижают итоговый рейтинг страниц (Penalized Nodes), ссылающихся на «плохие» или битые ссылки.

    Как это работает

    Механизм работает в двух направлениях:

    • Для висячих узлов (Dangling Nodes): Все ссылки, указывающие на висячие узлы, временно перенаправляются на единый Virtual Node. Рассчитывается ранг для основного графа и этого виртуального узла. Затем ранг виртуального узла используется для вычисления индивидуальных рангов висячих узлов.
    • Для штрафных узлов (Penalty Nodes): Система идентифицирует страницы (Penalized Nodes), ссылающиеся на штрафные узлы (например, 404). Вычисляется Penalty Fraction (доля битых ссылок). Применяется один из механизмов пессимизации. Например, механизм Push-back возвращает часть ранга от Penalized Node обратно тем страницам (Contributing Nodes), которые на него ссылались, тем самым снижая его собственный итоговый балл.

    Актуальность для SEO

    Средняя/Высокая. Концепции, заложенные в патенте, крайне актуальны: эффективное управление краулинговым бюджетом и оценка качества исходящих ссылок являются важными задачами для поисковых систем. Хотя конкретные математические реализации, описанные в патенте (поданном IBM в 2004 году), могли быть заменены более сложными моделями, базовый принцип оценки источника ссылки по статусу ее цели остается фундаментальным.

    Важность для SEO

    Влияние на SEO значительно (7/10). Патент предоставляет четкий фреймворк, показывающий, как техническое состояние сайта, в частности наличие битых исходящих ссылок (link rot), может напрямую влиять на расчет его авторитетности (например, PageRank). Он подчеркивает важность регулярного аудита и исправления исходящих ссылок, а также дает понимание того, как поисковые системы могут оценивать и приоритизировать сканирование нового или нетекстового контента.

    Детальный разбор

    Термины и определения

    Contributing Node/Page (Вносящий вклад узел/Страница-донор)
    Страница, которая передает ранг (авторитетность) другой странице по ссылке.
    Dangling Node/Page (Висячий узел)
    Узел (страница), не имеющий исходящих ссылок, или чьи исходящие ссылки недоступны для процессора ранжирования (например, еще не просканированные страницы, PDF-файлы, страницы за robots.txt или требующие аутентификации).
    Jump-weighting Processor (Процессор взвешивания прыжков)
    Механизм пессимизации. Снижает вероятность того, что страница с битыми ссылками получит ранг через случайный прыжок (teleportation) во время расчета ранга.
    Penalty Fraction (Доля штрафа)
    Доля исходящих ссылок на странице, которые ведут на Penalty Nodes, по отношению к общему количеству исходящих ссылок.
    Penalty Node/Page (Штрафной узел/страница)
    Узел, который негативно характеризует ссылающиеся на него страницы. В контексте веба это страницы, возвращающие ошибки (400-class, например 404, 403; и 500-class), неразрешимые DNS и т.д.
    Penalized Node/Page (Пессимизируемый/Штрафуемый узел)
    Страница, содержащая одну или несколько ссылок на Penalty Nodes.
    Push-back Processor (Процессор возврата)
    Механизм пессимизации. Возвращает часть ранга, полученного Penalized Node, обратно к Contributing Nodes, пропорционально Penalty Fraction.
    Rank Redistribution Processor (Процессор перераспределения ранга)
    Механизм пессимизации, использующий чередование прямых и обратных шагов в алгоритме ранжирования. При обнаружении Penalty Node ранг перенаправляется в Virtual Node, а не возвращается источнику ссылки.
    Self-loop Processor (Процессор самоцитирования)
    Механизм пессимизации. Добавляет к каждому узлу ссылку на самого себя (self-loop). Вероятность перехода по этой ссылке (и сохранения ранга) обратно пропорциональна Penalty Fraction узла.
    Virtual Node (Виртуальный узел)
    Искусственный узел, используемый для агрегации ссылок, ведущих к Dangling Nodes, что позволяет эффективно рассчитать их ранг. Также используется для перераспределения ранга при случайных прыжках (teleportation).

    Ключевые утверждения (Анализ Claims)

    Патент охватывает два основных изобретения: метод ранжирования висячих узлов и метод пессимизации за ссылки на штрафные узлы.

    Claim 1 (Независимый пункт): Описывает метод ранжирования Dangling Nodes.

    1. Идентификация висячих узлов среди множества просканированных узлов.
    2. Идентификация исходящих ссылок с просканированных узлов на висячие узлы.
    3. Трактовка этих исходящих ссылок как виртуальных ссылок на единый Virtual Node.
    4. Расчет первого ранга для просканированных узлов и второго ранга для Virtual Node.
    5. Расчет третьего ранга для индивидуальных висячих узлов на основе первого и второго рангов.

    Ядро изобретения для эффективного расчета ранга несканируемых или тупиковых страниц. Вместо того чтобы обрабатывать миллионы висячих узлов по отдельности, система агрегирует их в один виртуальный узел, проводит расчеты на уменьшенном графе (reduced eigen-system), а затем выводит индивидуальные ранги.

    Claim 4 и 5 (Зависимые): Вводят концепцию идентификации Penalized Nodes (узлов, имеющих исходящие ссылки на Penalty Nodes) и утверждают, что их нормальные ранги должны быть уменьшены.

    Claims 6-13 (Зависимые от 5): Детализируют конкретные методы уменьшения ранга.

    • Claims 6 и 7 (Метод Push-back): Ранг возвращается от штрафуемого узла к вносящим вклад узлам на основе Penalty Fraction и вклада донора (Rank Contribution).
    • Claims 8 и 9 (Метод Self-loop): Вероятность следования по петле самоцитирования определяется Penalty Fraction. Если петля не пройдена, ранг передается Virtual Node; если пройдена – ранг сохраняется у Penalized Node.
    • Claims 10 и 11 (Метод Jump-weighting): Вероятность (jump probability) случайного прыжка на штрафуемый узел снижается на основе Penalty Fraction.
    • Claims 12 и 13 (Метод Rank Redistribution): Использует прямые и обратные шаги. Если при обходе графа достигается Penalty Node, происходит прыжок на Virtual Node. Если достигается обычный висячий узел, его ранг распределяется обратно по входящим ссылкам.

    Ядро второго изобретения – это система активной пессимизации страниц, основанная на качестве или статусе (например, коде ответа HTTP) их исходящих ссылок.

    Где и как применяется

    Изобретение применяется на нескольких этапах поисковой архитектуры, в основном связанных с обработкой ссылочного графа и расчетом авторитетности.

    CRAWLING – Сканирование и Сбор данных
    На этом этапе собираются данные для идентификации Penalty Nodes (коды ответа HTTP 4xx/5xx) и Dangling Nodes. Описанный метод ранжирования Dangling Nodes (которые часто являются еще не просканированными URL) напрямую используется для приоритизации сканирования (Crawl Scheduling), позволяя сосредоточить ресурсы на тех несканированных страницах, которые имеют наивысший предполагаемый ранг.

    INDEXING – Индексирование и извлечение признаков (Link Analysis)
    Основное применение. Происходит построение ссылочного графа. Узлы классифицируются. Во время итеративного расчета глобальных метрик авторитетности (таких как PageRank) применяются описанные механизмы: использование Virtual Node для обработки Dangling Nodes и применение одного или нескольких механизмов пессимизации (Push-back, Self-loop и т.д.) для корректировки рангов Penalized Nodes.

    RANKING – Ранжирование
    Рассчитанные на этапе индексирования ранги (скорректированные с учетом висячих узлов и штрафов за битые ссылки) используются как один из сигналов ранжирования.

    Входные данные:

    • Структура ссылочного графа (узлы и связи).
    • Статусы узлов (просканирован/не просканирован).
    • Коды ответа HTTP или другие индикаторы ошибок для идентификации Penalty Nodes.

    Выходные данные:

    • Скорректированные оценки ранжирования (например, модифицированный PageRank) для всех узлов.
    • Приоритезированный список URL для сканирования.

    На что влияет

    • Конкретные типы контента: Влияет на ранжирование нетекстового контента, такого как PDF, PostScript файлы, которые часто являются Dangling Nodes. Также сильно влияет на HTML-страницы, выступающие в роли хабов или каталогов, где качество исходящих ссылок критично.
    • Техническое состояние сайтов: Влияет на сайты с большим количеством битых исходящих ссылок (например, заброшенные сайты, старые архивы, немодерируемые каталоги).
    • Конкретные ниши или тематики: Наибольшее влияние оказывается на разделы веба с высоким уровнем «гниения ссылок» (link rot), где страницы часто удаляются, а ссылки на них не обновляются.

    Когда применяется

    • Условия работы алгоритма: Алгоритм применяется во время глобального пересчета метрик авторитетности на основе ссылочного графа.
    • Триггеры активации (Dangling Nodes): Наличие в графе узлов, на которые есть ссылки, но которые сами не имеют исходящих ссылок или не были просканированы.
    • Триггеры активации (Penalty Nodes): Наличие у страницы исходящих ссылок, ведущих на идентифицированные Penalty Nodes (например, страницы с ошибкой 404). Степень пессимизации зависит от Penalty Fraction.

    Пошаговый алгоритм

    Процесс А: Ранжирование висячих узлов (Dangling Nodes)

    1. Идентификация: Определить множество висячих узлов (D) и множество просканированных/связанных узлов (C) в графе.
    2. Виртуализация: Все исходящие ссылки из узлов C, которые указывали на узлы D, перенаправить на единый Virtual Node (z).
    3. Расчет основного ранга: Вычислить ранги для модифицированного графа (узлы C + узел z). Это делается с использованием стандартных итеративных методов (например, Power Iteration) для решения уменьшенной системы (reduced eigen-system). На этом этапе могут применяться механизмы пессимизации (см. Процесс Б).
    4. Расчет ранга висячих узлов: После того как ранги узлов C и z стабилизировались, вычислить индивидуальные ранги для каждого узла в D в один шаг, основываясь на ранге, который они получают от узлов C (как описано в уравнении 12 патента).

    Процесс Б: Пессимизация (на примере Push-back)

    1. Идентификация штрафных узлов: Определить Penalty Nodes (например, по коду 404/500).
    2. Идентификация штрафуемых узлов: Определить Penalized Nodes (страницы, ссылающиеся на Penalty Nodes).
    3. Расчет доли штрафа: Для каждого Penalized Node вычислить Penalty Fraction (βi) (доля плохих ссылок).
    4. Анализ вклада (во время итерации Процесса А.3): Определить, какой вклад в ранг Penalized Node внес каждый Contributing Node (донор).
    5. Возврат ранга (Push-back): Вернуть часть ранга от Penalized Node обратно к Contributing Nodes. Объем возвращаемого ранга определяется Penalty Fraction (βi). Penalized Node сохраняет только часть (1-βi) своего ранга.

    Какие данные и как использует

    Данные на входе

    Патент фокусируется на структуре графа и статусе узлов.

    • Ссылочные факторы: Структура графа (входящие и исходящие ссылки). Наличие или отсутствие исходящих ссылок критично для идентификации Dangling Nodes. Количество исходящих ссылок (out-degree).
    • Технические факторы: Используются для идентификации Penalty Nodes и Dangling Nodes:
      • Коды ответа HTTP (упоминаются 400-class, например 404, 403; и 500-class).
      • Ошибки DNS (невозможность разрешить имя сервера).
      • Ограничения robots.txt.
      • Требования аутентификации.
    • Контентные факторы: Упоминаются мета-теги, запрещающие следовать по ссылкам, что может превратить узел в Dangling Node.

    Какие метрики используются и как они считаются

    • Ranking Score (Оценка ранжирования): Основная вычисляемая метрика (аналог PageRank). Рассчитывается итеративно.
    • Penalty Fraction (Доля штрафа, βi): Ключевая метрика для пессимизации. Рассчитывается как отношение количества «плохих» исходящих ссылок (bi) к общему числу исходящих ссылок (gi + bi) для узла i. Формула: βi = bi / (gi + bi).
    • Self-loop probability (Вероятность самоцитирования, γi): В методе Self-loop, вероятность сохранения ранга узлом. Может рассчитываться как доля хороших ссылок: γi = gi / (bi + gi). Чем больше плохих ссылок (bi), тем ниже вероятность.
    • Jump-weight (Вес прыжка): В методе Jump-weighting, вес, определяющий вероятность получения ранга через телепортацию. Для пессимизируемых узлов он снижается пропорционально Penalty Fraction.
    • Математический аппарат: Алгоритмы основаны на матричной алгебре. Граф представляется в виде стохастической матрицы. Ранги вычисляются путем нахождения главного собственного вектора матрицы (например, методом степенных итераций). Механизмы пессимизации (например, Push-back) реализуются через модификацию матриц, сохраняя при этом стохастические свойства системы.

    Выводы

    1. Качество исходящих ссылок влияет на ранг источника: Патент предоставляет конкретные и математически обоснованные механизмы для пессимизации страницы на основе того, куда она ссылается. Ссылки на ошибки (404/500 и т.д.) могут напрямую снижать авторитетность ссылающейся страницы.
    2. «Гниение ссылок» (Link Rot) наказуемо: Система явно дискриминирует страницы, которые не поддерживаются в актуальном состоянии, что проявляется в большом количестве битых ссылок (высокий Penalty Fraction). Это делает техническое здоровье сайта фактором ранжирования.
    3. Разнообразие стратегий пессимизации: Предложено несколько методов штрафования: возврат веса донорам (Push-back), снижение удержания ранга (Self-loop), снижение вероятности получения ранга через случайные переходы (Jump-weighting). Это указывает на высокую важность этой проблемы.
    4. Эффективная оценка несканируемого контента: Механизм Virtual Node позволяет поисковой системе оценивать важность страниц, которые еще не просканированы или не могут быть просканированы (Dangling Nodes).
    5. Приоритезация сканирования: Возможность рассчитывать потенциальный ранг для Dangling Nodes критически важна для управления краулинговым бюджетом и приоритизации посещения наиболее авторитетных из них.

    Практика

    Best practices (это мы делаем)

    • Регулярный аудит и исправление битых исходящих ссылок: Это критически важно. Патент явно использует ошибки 404/5xx как триггер для снижения ранга. Поддержание чистоты исходящих ссылок напрямую защищает авторитетность страницы от потерь через механизмы типа Push-back или Self-loop.
    • Мониторинг технического состояния сайтов-акцепторов: Необходимо убедиться, что сайты, на которые вы ссылаетесь, доступны и не возвращают ошибок. Ссылка на сайт с проблемами конфигурации (ошибки 500) также может привести к пессимизации.
    • Оптимизация нетекстового контента (PDF, документы): Поскольку такие документы часто являются Dangling Nodes, их ранг полностью зависит от входящих ссылок. Необходимо обеспечить сильную внутреннюю перелинковку и внешние ссылки на важные документы, чтобы максимизировать их ранг.
    • Использование авторитетности для приоритизации сканирования: Если у сайта есть проблемы с краулинговым бюджетом, следует сосредоточить внутренние ссылки на новых или важных страницах. Механизм ранжирования Dangling Nodes позволит поисковой системе увидеть потенциальную важность этих страниц до сканирования и приоритизировать их.

    Worst practices (это делать не надо)

    • Игнорирование «гниения ссылок» (Link Rot): Допущение большого количества битых исходящих ссылок на сайте. Это сигнализирует о заброшенности ресурса и активирует механизмы пессимизации, описанные в патенте.
    • Непроверенное размещение исходящих ссылок: Размещение ссылок без проверки их доступности и кода ответа сервера. Ссылки на страницы, требующие аутентификации (403 Forbidden), или несуществующие страницы (404 Not Found) учитываются как Penalty Nodes.
    • Предположение, что исходящие ссылки не влияют на ранг источника: Мнение, что исходящие ссылки только передают вес, но не влияют на оценку самой ссылающейся страницы. Патент опровергает это, вводя прямую зависимость ранга от качества акцепторов.

    Стратегическое значение

    Патент подтверждает, что анализ ссылок выходит далеко за рамки простого подсчета и оценки авторитетности доноров. Поисковые системы оценивают ответственность и качество работы вебмастера, что выражается в техническом состоянии сайта и актуальности его контента и ссылок. Стратегия SEO должна включать процессы поддержания гигиены ссылочного профиля, причем не только входящего, но и исходящего. Техническое здоровье сайта и его поддержка в актуальном состоянии являются важными факторами авторитетности.

    Практические примеры

    Сценарий: Технический SEO-аудит для предотвращения пессимизации за битые ссылки

    1. Инструмент: Используется краулер (например, Screaming Frog или Sitebulb) для сканирования сайта.
    2. Сбор данных: Краулер проверяет статус-коды всех исходящих ссылок на сайте.
    3. Анализ (Применение логики патента): Идентифицируется страница-хаб, например, статья «10 лучших инструментов для SEO». У нее 10 исходящих ссылок. Аудит показывает, что 4 из них возвращают 404 (Penalty Nodes).
    4. Расчет метрики: Penalty Fraction для этой страницы составляет 4/10 = 0.4 (40%).
    5. Оценка риска: Согласно механизму Push-back, до 40% ранга, который эта страница должна была получить от входящих ссылок, может быть «возвращено» обратно донорам. Согласно механизму Self-loop, способность страницы удерживать ранг снижается на 40%.
    6. Действие: Необходимо срочно обновить 4 битые ссылки на актуальные ресурсы или удалить их.
    7. Ожидаемый результат: Снижение Penalty Fraction до 0, что позволяет странице полностью аккумулировать и удерживать передаваемый ей ранг.

    Вопросы и ответы

    Насколько сильно битые исходящие ссылки могут повлиять на ранжирование моей страницы?

    Влияние может быть значительным. Патент предлагает рассчитывать Penalty Fraction – долю битых ссылок от общего числа исходящих. В некоторых механизмах (например, Push-back или Self-loop) эта доля напрямую определяет, какая часть ранга будет изъята или потеряна страницей. Если 50% ваших исходящих ссылок битые, вы рискуете потерять до 50% потенциального ранга.

    Какие именно ссылки считаются «штрафными» (Penalty Nodes)?

    Патент явно упоминает ссылки, возвращающие ошибки 400-класса (например, 404 Not Found, 403 Forbidden) и 500-класса (ошибки сервера). Также упоминаются ссылки на серверы, которые не могут быть разрешены через DNS, или имеют проблемы с маршрутизацией. По сути, любая недоступная ссылка считается штрафной.

    Что такое «Висячий узел» (Dangling Node) и почему он важен?

    Dangling Node – это страница без исходящих ссылок (например, PDF-файл) или страница, которая еще не была просканирована или заблокирована. Они важны, потому что они аккумулируют ранг, но не передают его дальше по ссылкам. Патент предлагает эффективный способ расчета их ранга (через Virtual Node), что помогает поисковым системам понять их важность и лучше приоритизировать сканирование.

    Как этот патент влияет на ранжирование PDF-файлов?

    PDF-файлы часто являются Dangling Nodes. Патент описывает, как их ранг вычисляется на основе входящих ссылок, агрегированных через Virtual Node. Это подчеркивает, что для хорошего ранжирования PDF необходимо обеспечить на них сильные и качественные входящие ссылки, так как это основной источник их авторитетности в данной модели.

    Чем отличаются четыре метода пессимизации (Push-back, Self-loop, Jump-weighting, Rank Redistribution)?

    Они отличаются механизмом снижения ранга. Push-back возвращает ранг донорам. Self-loop снижает способность страницы сохранять собственный ранг. Jump-weighting уменьшает вероятность получения ранга через случайные прыжки (teleportation). Rank Redistribution изменяет модель обхода графа, предотвращая возврат ранга от битых ссылок. Все они используют Penalty Fraction как основу для расчета штрафа.

    Стоит ли удалять все исходящие ссылки, чтобы избежать риска пессимизации?

    Нет. Удаление всех ссылок превратит вашу страницу в Dangling Node. Хотя это устранит риск пессимизации за Penalty Nodes, это также лишит страницу возможности выступать в роли авторитетного хаба и передавать ранг релевантным ресурсам, что является нормальной функцией качественного веб-ресурса. Лучшая стратегия – ссылаться на качественные ресурсы и следить за актуальностью ссылок.

    Как система определяет, является ли страница заброшенной?

    Патент предполагает, что наличие битых ссылок (broken links) является индикатором того, что страница больше не поддерживается, устарела или была плохо составлена автором. Чем выше Penalty Fraction, тем сильнее сигнал о заброшенности или низком качестве страницы.

    Применяется ли этот механизм только к внешним ссылкам или к внутренним тоже?

    Патент описывает общий метод ранжирования узлов в сети и не делает различий между внутренними и внешними ссылками. Битые внутренние ссылки также являются Penalty Nodes и негативно влияют на расчет рангов страниц, которые на них ссылаются, а также ухудшают пользовательский опыт и затрудняют сканирование.

    Это патент IBM. Использует ли Google эти механизмы?

    Хотя это патент IBM (подан в 2004 году), он описывает фундаментальные проблемы и решения в области анализа ссылок (PageRank), которые актуальны для любой поисковой системы, включая Google. Google, несомненно, имеет собственные механизмы для оценки качества исходящих ссылок и обработки битых ссылок. Концепции, описанные здесь, дают ценное представление о том, как эти проблемы могут решаться алгоритмически.

    Влияют ли ссылки, закрытые в nofollow, на расчет Penalty Fraction?

    Патент упоминает, что URL может стать Dangling Node, если он имеет мета-тег, запрашивающий не следовать по ссылкам. Хотя патент явно не детализирует обработку атрибута nofollow при расчете Penalty Fraction, основная логика алгоритмов типа PageRank обычно исключает nofollow-ссылки из передачи ранга. Логично предположить, что они также не будут учитываться при расчете штрафов, связанных с передачей ранга, но могут учитываться другими системами качества.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.