Как Google использует атрибуты ссылок (например, nofollow) для управления передачей ссылочного веса

Патент Google, описывающий механизм, позволяющий вебмастерам встраивать инструкции непосредственно в HTML-код ссылок. Эти инструкции сообщают поисковой системе, как обрабатывать конкретную ссылку, например, блокировать ее учет или изменять ее вес при расчете ранжирования (PageRank). Этот патент является основой для атрибутов rel=»nofollow», rel=»sponsored» и rel=»ugc».

Описание

Какую задачу решает

Патент решает проблему ограниченности стандартных HTML-тегов ссылок (<A>), которые традиционно указывали только целевой URL, но не позволяли издателю выразить свое мнение о целевом контенте или указать относительную важность ссылки. Это ограничивало способность поисковых систем различать типы ссылок (например, редакционные, спамные, рекламные) и корректно распределять ссылочный вес. Изобретение позволяет издателям передавать дополнительную информацию о ссылках непосредственно поисковому краулеру.

Что запатентовано

Запатентован метод обработки документов краулером поисковой системы, который интерпретирует встроенные в ссылки «информационные пары» (Information Pairs). Эти пары состоят из параметра и значения (например, linkweight=0.5 или rel=nofollow). Система использует эти данные для выбора метода обработки целевого контента, в частности, для корректировки веса (Weight) ссылки или блокировки ее обработки.

Как это работает

Механизм работает на этапе сканирования и индексирования:

Обнаружение: Краулер получает документ и находит встроенный тег ссылки (Link Tag).
Извлечение данных: Система извлекает не только целевой URL (Location Value), но и любые связанные с ним Information Pairs. Эти пары могут находиться как внутри самого тега ссылки, так и в окружающем его теге.
Интерпретация: Система анализирует параметры и значения в парах.
Выбор метода обработки: На основе полученных данных выбирается способ обработки ссылки. Например, инструкция может указывать на необходимость «блокировки обработки» (Block Processing) или «корректировки веса» (Adjust a Weight).
Применение: Система корректирует вес, связанный с этой ссылкой. Этот вес затем используется при вычислении Document Ranking Values (например, PageRank) для целевого документа.

Актуальность для SEO

Критически высокая. Этот патент, первоначально поданный в 2005 году, описывает фундаментальный механизм, который лег в основу атрибута rel=»nofollow», представленного в том же году. В 2019 году Google расширил эту концепцию, введя атрибуты rel=»sponsored» и rel=»ugc», что полностью соответствует описанной в патенте системе использования Information Pairs для классификации и различной обработки ссылок. Это основа современного технического SEO и управления ссылочным профилем.

Важность для SEO

Патент имеет критическое значение (95/100) для SEO. Он описывает техническую реализацию того, как издатели могут напрямую влиять на поток ссылочного веса со своего сайта. Понимание этого механизма необходимо для корректного управления исходящими ссылками, разметки рекламы, пользовательского контента и предотвращения передачи веса некачественным ресурсам. Это базовый инструмент контроля индексации и ранжирования.

Детальный разбор

Термины и определения

Link Tag (Тег ссылки): Улучшенный анкорный тег (например, HTML-тег <A>), который помимо целевого адреса может содержать дополнительную информацию о ссылке.
Information Pair (Информационная пара): Структура данных внутри Link Tag или окружающего его тега, состоящая из параметра (Parameter) и соответствующего значения (Value). Пример: rel=»nofollow» или linkweight=»0.5″.
Parameter (Параметр): Определяет измерение или тип дополнительной информации, передаваемой о ссылке (например, «offensive», «funny», «linkweight», «rel»).
Value (Значение): Конкретное значение параметра (например, «very», «somewhat», «0.5», «nofollow»).
Location Value (Значение местоположения): Целевой адрес контента или документа, на который указывает ссылка (например, URL в атрибуте HREF).
Weight (Вес): Числовое значение, связанное с Link Tag, которое определяет относительную важность ссылки. Этот вес может быть скорректирован на основе Information Pairs.
Document Ranking Values (Значения ранжирования документа): Метрики, определяющие важность документа (например, PageRank), которые вычисляются с учетом весов (Weights) входящих ссылок.
Block Processing (Блокировка обработки): Один из методов обработки, при котором система может отказаться от сканирования или индексирования контента, связанного с Link Tag, или присвоить ссылке нулевой вес.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обработки документов поисковым краулером.

Система получает документ через краулер.
В документе есть встроенный «первый тег ссылки» (first link tag).
Этот тег включает «значение местоположения» (location value, т.е. URL) и одну или более «информационных пар» (information pairs), которые отличаются от URL. Каждая пара имеет параметр и значение.
Система выбирает метод обработки контента, на который указывает URL, основываясь на этих информационных парах.
Система получает (скачивает) целевой контент.
Система обрабатывает полученный контент в соответствии с выбранным методом.

Ядро изобретения — способность краулера считывать атрибуты ссылки (информационные пары) и изменять логику обработки целевого URL на их основе.

Claim 2 (Зависимый): Уточняет местоположение информационных пар.

Информационная пара может находиться не в самом теге ссылки, а во «втором теге» (second tag), который включает (окружает) первый тег ссылки.
Обработка контента происходит в соответствии со значением параметра во втором теге.

Это позволяет применять правила к группам ссылок, не модифицируя каждую ссылку по отдельности (например, блок комментариев, помеченный как UGC).

Claim 3 (Зависимый): Уточняет один из методов обработки.

Метод обработки включает «корректировку веса» (adjusting a weight), указанного в информационной паре тега ссылки.

Это прямой механизм влияния на передачу ссылочного веса (PageRank).

Claim 4 (Зависимый от 3): Связывает корректировку веса с ранжированием.

Система вычисляет одно или более «значений ранжирования документа» (document ranking values) для целевых документов.
Вычисление производится в соответствии с весом, указанным в теге ссылки.

Подтверждает, что эти встроенные инструкции напрямую влияют на расчет метрик ранжирования.

Где и как применяется

Изобретение применяется на ранних этапах работы поисковой системы, затрагивая сбор данных и их первичную обработку.

CRAWLING – Сканирование и Сбор данных

На этом этапе краулер (Web Crawler) получает документ и анализирует его содержимое. Link Tag Management Module внутри краулера или связанного с ним сервера обработки контента (Content Processing Servers) отвечает за интерпретацию Information Pairs.

Входные данные: Скачанный документ (HTML/XML).
Процесс: Извлечение ссылок и их атрибутов. Если Information Pair указывает на блокировку (например, nofollow), краулер может принять решение не добавлять URL в очередь на сканирование или пометить его соответствующим образом.

INDEXING – Индексирование и извлечение признаков (Анализ ссылок)

Это ключевой этап применения патента. При построении карты ссылок (Link Maps) система учитывает скорректированные веса.

Входные данные: Извлеченные ссылки и их Information Pairs.
Процесс: Content Processing Management Module и Weight Generator определяют итоговый вес (Weight) для каждой ссылки. Если вес скорректирован (например, уменьшен или обнулен), это фиксируется в карте ссылок.
Выходные данные: Link Maps с аннотированными и взвешенными связями.

RANKING – Ранжирование

На этапе расчета глобальных метрик ранжирования (например, PageRank) генератор ранжирования (Document Ranking Generator) использует Link Maps, созданные на этапе индексирования. Скорректированные веса напрямую влияют на итоговые Document Ranking Values.

На что влияет

Ссылочные факторы: Патент напрямую влияет на интерпретацию и вес исходящих ссылок. Это затрагивает все типы контента и все типы сайтов, которые размещают ссылки.
Управление краулинговым бюджетом: Инструкции блокировки могут использоваться для предотвращения сканирования определенных разделов или внешних сайтов.

Когда применяется

Условия применения: Алгоритм применяется каждый раз, когда краулер обрабатывает документ, содержащий Link Tag с одной или более Information Pairs.
Триггеры активации: Наличие распознаваемого параметра (например, «rel», «linkweight») в теге ссылки или в окружающем теге.

Пошаговый алгоритм

Процесс обработки ссылок краулером:

Идентификация и получение документа: Краулер идентифицирует набор документов для сканирования и получает конкретный документ.
Парсинг и обнаружение ссылок: Документ анализируется для поиска встроенных Link Tags (например, анкорных тегов).
Извлечение атрибутов (Information Pairs): Для каждого Link Tag система извлекает Location Value (URL) и ищет Information Pairs. Проверяется как сам тег, так и окружающие его теги (Nesting).
(Опционально) Расшифровка: Если значение в Information Pair зашифровано, система извлекает ключ дешифровки, связанный с издателем или документом, и расшифровывает значение.
Выбор метода обработки: На основе анализа Information Pairs система выбирает метод обработки ссылки и целевого контента.
- Вариант А (Блокировка): Если пара указывает на блокировку (например, rel=nofollow), система может заблокировать дальнейшую обработку контента, связанного с этим тегом (например, не сканировать URL или присвоить нулевой вес).
- Вариант Б (Корректировка веса): Если пара указывает на изменение важности (например, linkweight=0.5, rel=sponsored), система корректирует Weight, связанный с этим Link Tag.
Построение карты ссылок: Ссылка и ее скорректированный вес передаются для построения Link Maps.
Вычисление ранжирования: Document Ranking Values (например, PageRank) для целевых документов вычисляются с учетом скорректированных весов.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на данных, содержащихся в HTML/XML структуре документа.

Структурные факторы:
- Теги ссылок (Link Tags): Основной источник данных (например, тег <A>).
- Атрибуты ссылок (Information Pairs): Параметры и значения внутри тегов (например, атрибут rel и его значения nofollow, sponsored, ugc; или гипотетические атрибуты типа linkweight).
- Вложенность тегов: Система анализирует теги, окружающие ссылку, на наличие Information Pairs, которые могут модифицировать обработку вложенных ссылок.
Системные данные (для шифрования):
- Ключи дешифровки (Decryption Keys): Если издатель использует шифрование значений, система использует базу данных ключей (Decryption Key Database) для их расшифровки.

Какие метрики используются и как они считаются

Weight (Вес ссылки): Метрика, определяющая вклад конкретной ссылки в ранжирование целевого документа. Патент описывает механизм для корректировки (Adjust) этого веса на основе инструкций издателя. Конкретные формулы расчета базового веса не приводятся, но указано, что он используется для расчета Document Ranking Values.
Document Ranking Values: Итоговые метрики ранжирования документа (например, PageRank). Они вычисляются с использованием скорректированных весов ссылок.

Выводы

Основа для Nofollow и других атрибутов: Этот патент является техническим обоснованием для rel=»nofollow», rel=»sponsored» и rel=»ugc». Он подтверждает, что Google создал стандартизированный механизм (Information Pairs) для получения инструкций от вебмастеров о том, как интерпретировать ссылки.
Контроль над передачей ссылочного веса: Ключевой вывод — издатели имеют прямой контроль над тем, передает ли ссылка вес (Weight) или нет. Система спроектирована так, чтобы корректировать Document Ranking Values на основе этих инструкций.
Два основных режима обработки: Патент четко выделяет два результата интерпретации инструкций: блокировка обработки (Block Processing) и корректировка веса (Adjust a Weight). Nofollow исторически соответствовал блокировке или присвоению нулевого веса.
Учет групповых инструкций (Nesting): Система может применять инструкции не только к отдельной ссылке, но и к группам ссылок, если инструкция указана в окружающем теге. Это важно для разметки целых блоков, таких как комментарии или футеры.
Потенциал для расширения: Хотя на практике используются в основном атрибуты rel, патент описывает более широкие возможности, включая передачу мнений («offensive», «funny») и прямую числовую корректировку веса (linkweight=0.5). Это показывает гибкость системы Google в интерпретации ссылок.
Шифрование инструкций: Патент предусматривает возможность шифрования значений атрибутов, хотя эта функция не получила публичного распространения в SEO.

Практика

Best practices (это мы делаем)

Корректное использование атрибутов REL: Применяйте специфические атрибуты в соответствии с рекомендациями Google, так как этот патент подтверждает, что система технически способна обрабатывать их по-разному:
- rel=»sponsored»: Для платных и рекламных ссылок.
- rel=»ugc»: Для ссылок в пользовательском контенте (комментарии, посты на форумах).
- rel=»nofollow»: Для случаев, когда вы не хотите передавать ранжирующие сигналы и ни один из вышеперечисленных атрибутов не подходит.
Аудит исходящих ссылок: Регулярно проверяйте исходящие ссылки на некачественные или нерелевантные ресурсы и используйте rel=»nofollow» для предотвращения передачи им веса.
Групповая разметка UGC-контента: Для платформ с большим объемом пользовательского контента реализуйте автоматическое добавление rel=»ugc» ко всем ссылкам в соответствующих блоках. Патент подтверждает, что инструкции могут применяться на уровне окружающего тега, что упрощает реализацию.
Управление внутренними ссылками: Хотя использование nofollow для внутренних ссылок (PageRank Sculpting) в настоящее время считается устаревшей практикой, патент технически позволяет это делать. Однако для управления индексацией лучше использовать robots.txt и мета-теги.

Worst practices (это делать не надо)

Игнорирование разметки платных ссылок: Размещение платных ссылок без атрибута rel=»sponsored» или rel=»nofollow» является нарушением рекомендаций Google и создает риски санкций, так как система ожидает получить эти инструкции согласно патенту.
Избыточное использование Nofollow (Скульптурирование): Попытки манипулировать распределением внутреннего веса с помощью массового применения nofollow неэффективны. Вес не перераспределяется на другие ссылки, а «сгорает».
Применение Nofollow к полезным редакционным ссылкам: Не стоит закрывать через nofollow ссылки на авторитетные источники, если они размещены редакционно и полезны пользователю.

Стратегическое значение

Этот патент имеет фундаментальное стратегическое значение. Он знаменует переход от эпохи, когда все ссылки обрабатывались одинаково, к эпохе, когда контекст и назначение ссылки имеют решающее значение. Стратегия управления ссылками (как входящими, так и исходящими) должна строиться на понимании того, что Google активно использует атрибуты ссылок для классификации связей между документами. Это не просто технический нюанс, а ключевой элемент взаимодействия между издателями и поисковой системой.

Практические примеры

Сценарий 1: Разметка блока комментариев на сайте

Задача: Предотвратить передачу веса по ссылкам, которые оставляют пользователи в комментариях.
Реализация (на основе патента): Система управления контентом (CMS) должна гарантировать, что все ссылки в блоке комментариев содержат Information Pair, указывающий на пользовательский контент.
Код: <div class=»comments»> … <a href=»http://example.com» rel=»ugc»>User Link</a> … </div>
Результат: Краулер Google идентифицирует rel=»ugc» и выбирает метод обработки, который корректирует вес (Weight) этой ссылки, минимизируя ее влияние на ранжирование целевого сайта.

Сценарий 2: Размещение рекламного баннера со ссылкой

Задача: Разместить платную ссылку в соответствии с правилами Google.
Реализация: Необходимо использовать Information Pair, указывающий на рекламный характер ссылки.
Код: <a href=»http://advertiser.com» rel=»sponsored»>Buy Now</a>
Результат: Краулер идентифицирует rel=»sponsored» и обрабатывает ссылку как рекламную, не передавая редакционный ссылочный вес.

Вопросы и ответы

Является ли этот патент доказательством существования «PageRank Sculpting» (Скульптурирования PageRank)?

Патент описывает техническую возможность корректировать вес (Weight) отдельных ссылок, что и является механизмом скульптурирования. Однако, хотя механизм существует, его эффективность для манипулирования внутренним PageRank изменилась с годами. Раньше закрытие ссылки через nofollow позволяло перераспределить ее вес на другие ссылки на странице. Сейчас Google изменил логику: вес, который должен был уйти по nofollow-ссылке, просто «сгорает», а не перераспределяется. Поэтому, хотя механизм из патента работает, использовать его для внутреннего скульптурирования не рекомендуется.

Что такое «Information Pair» в контексте реального SEO?

В практическом SEO Information Pair — это атрибут ссылки и его значение. Наиболее распространенный пример: атрибут rel (Параметр) и его значение nofollow, sponsored или ugc (Значение). Патент описывает это в общих терминах, позволяя Google вводить любые параметры и значения в будущем.

Патент упоминает возможность указания числового веса, например, linkweight=0.5. Используется ли это сейчас?

Нет, публично Google не поддерживает атрибут linkweight или аналогичные способы прямой числовой корректировки веса ссылок вебмастерами. Патент описывает потенциальные возможности системы, но на практике Google ограничился использованием категориальных атрибутов (nofollow, sponsored, ugc) для управления весом.

Что означает «Block Processing» (Блокировка обработки) в патенте?

Block Processing означает, что система может принять решение не обрабатывать контент, связанный со ссылкой. На практике это может выражаться в двух вещах: 1) Ссылка не используется для расчета ранжирования (вес равен нулю); 2) Краулер может принять решение не переходить по этой ссылке для обнаружения нового контента. Изначально nofollow работал именно так.

Патент говорит, что инструкция может быть в окружающем теге (Claim 2). Как это использовать?

Это позволяет применять правила к группам ссылок. Например, если бы существовал HTML-механизм для пометки целого <div> как ugc, все ссылки внутри него автоматически обрабатывались бы соответствующим образом, без необходимости добавлять атрибут к каждой отдельной ссылке. Хотя сейчас это обычно реализуется через добавление атрибутов на стороне сервера, патент предусматривает возможность интерпретации структуры документа для групповой обработки.

Зачем в патенте описано шифрование значений атрибутов?

Шифрование позволило бы издателям передавать информацию о ссылках исключительно определенной поисковой системе (которая владеет ключом дешифровки), скрывая ее от других краулеров или пользователей. Например, издатель мог бы сообщить Google свое мнение о ссылке, не делая его публичным. На практике эта возможность не используется в SEO.

Влияет ли использование атрибутов nofollow/ugc/sponsored на ранжирование моего сайта?

Прямого положительного влияния на ранжирование вашего сайта это не оказывает. Однако корректное использование этих атрибутов, особенно sponsored для платных ссылок, защищает ваш сайт от санкций за продажу ссылок, передающих PageRank. Кроме того, использование ugc или nofollow для некачественных исходящих ссылок может улучшить общее восприятие качества вашего сайта поисковой системой.

Как Google обрабатывает ссылки, если атрибут rel не указан?

Если атрибут rel отсутствует, ссылка обрабатывается стандартным образом. Система предполагает, что это редакционная ссылка, и она участвует в расчете Document Ranking Values (передает PageRank) и используется для обнаружения нового контента. Это состояние по умолчанию.

Может ли Google игнорировать инструкции, указанные в атрибутах ссылок?

Патент описывает, как система считывает инструкции и выбирает метод обработки на их основе. Однако современные заявления Google указывают, что атрибуты nofollow, sponsored и ugc теперь рассматриваются как «подсказки» (hints), а не строгие директивы. Это означает, что в большинстве случаев Google будет следовать инструкции, но оставляет за собой право использовать ссылку для ранжирования или краулинга, если сочтет это необходимым.

Учитывая, что патент подан давно (2005), актуален ли он для современных алгоритмов машинного обучения?

Да, он абсолютно актуален. Хотя методы расчета базового веса ссылок усложнились и включают машинное обучение, механизм получения явных инструкций от издателей (Information Pairs) остается неизменным. Эти инструкции служат важными признаками (features) для алгоритмов машинного обучения при классификации ссылок и определении их влияния на ранжирование.