Как Google может рассчитывать авторитетность страниц на основе их кратчайшего расстояния до доверенных "Seed" сайтов

Google патентует метод ранжирования, альтернативный классическому PageRank, который трансформирует расчет авторитетности в задачу поиска кратчайшего пути в веб-графе. Система определяет набор доверенных «Seed» сайтов и измеряет расстояние от них до всех остальных страниц. Чем короче расстояние до нескольких (k) ближайших Seed-сайтов, тем выше ранг страницы. Длина ссылки при этом увеличивается, если у исходной страницы много исходящих ссылок.

Описание

Какую задачу решает

Патент решает две ключевые проблемы, связанные с расчетом авторитетности страниц, подобных PageRank:

Уязвимость к манипуляциям: Классический PageRank может быть завышен с помощью таких техник, как «link farms» (ссылочные фермы) или создание циклических ссылок (loops).
Вычислительная сложность масштабирования доверия: Попытки сделать PageRank более устойчивым путем расчета его только от набора доверенных («trusted» или «seed») страниц сталкиваются с высокой вычислительной сложностью. Если рассчитывать PageRank итеративно для каждого seed-сайта отдельно, сложность растет линейно с увеличением числа seed-сайтов, что ограничивает их практическое использование.

Изобретение предлагает метод, который позволяет использовать большой и разнообразный набор seed-страниц для расчета авторитетности, устойчивой к спаму, при этом значительно снижая вычислительную сложность.

Что запатентовано

Запатентована система ранжирования страниц, которая трансформирует задачу расчета авторитетности в задачу поиска кратчайшего пути (shortest path problem) в веб-графе. Вместо расчета итеративного потока ранга (как в PageRank), система присваивает каждой ссылке «длину» (length или cost) и рассчитывает ранг страницы на основе ее кратчайшего расстояния до набора предварительно определенных Seed Pages. Ключевая особенность — ранг определяется не по абсолютно кратчайшему пути, а по расстоянию до k-го ближайшего seed-сайта (k-th shortest distance), что повышает устойчивость к манипуляциям.

Как это работает

Система работает следующим образом:

Определение Seed-набора: Выбирается набор высококачественных, доверенных страниц (Seed Pages).
Присвоение «Длины» ссылкам: Каждой ссылке в веб-графе присваивается длина. Длина ссылки увеличивается, если у исходной страницы много исходящих ссылок (высокий out-degree). Например, используется формула, включающая логарифм исходящих ссылок: Length = α + log(Out-Degree).
Расчет Кратчайших Расстояний: Используя алгоритмы обхода графа, система вычисляет кратчайшие расстояния от набора Seed Pages до каждой страницы в индексе.
Определение Ранга (k-th shortest distance): Для каждой страницы система находит k ближайших seed-страниц. Итоговое расстояние (Distance Score) определяется как расстояние до k-го ближайшего seed-сайта.
Финальный Ранкинг: Ranking Score вычисляется на основе Distance Score. Чем короче расстояние, тем выше ранг (например, Rank = e^(-Distance)).

Актуальность для SEO

Высокая. Идеи, заложенные в этом патенте (и его предшественнике от 2006 года), описывают фундаментальный подход к оценке авторитетности и доверия (Trust) на основе близости к доверенным источникам. Концепция распространения доверия от избранного набора сайтов и пессимизация ссылок с сайтов с высоким out-degree остаются крайне актуальными для борьбы со ссылочным спамом и оценки E-E-A-T. Этот механизм предлагает эффективный способ масштабирования сигналов доверия в поиске.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (8/10). Он описывает конкретный механизм, как Google может оценивать авторитетность сайта не по общему количеству ссылок, а по качеству ссылочного пути от авторитетных источников. Это подчеркивает критическую важность получения ссылок с сайтов, которые сами находятся «близко» к доверенным Seed-сайтам, и снижает ценность ссылок с ресурсов с большим количеством исходящих ссылок (например, немодерируемых каталогов или ссылочных бирж).

Детальный разбор

Термины и определения

Seed Pages (Начальные / Seed-страницы): Набор предварительно выбранных высококачественных, доверенных страниц, которые служат источниками авторитетности в графе. Они используются как отправные точки для расчета расстояний.
Link-graph (Граф ссылок): Структура данных, представляющая веб-страницы как узлы и гиперссылки между ними как направленные ребра.
Length (Длина ссылки): Значение (стоимость или вес), присваиваемое каждой ссылке в графе. Используется для расчета расстояния. В данном патенте длина зависит от свойств ссылки и свойств исходной страницы, в частности, от ее Out-degree.
Out-degree (|q|_out): Количество исходящих ссылок со страницы q.
Shortest Distance (Кратчайшее расстояние): Минимальная сумма длин ссылок вдоль пути от одной страницы до другой.
k-th Shortest Distance (k-е кратчайшее расстояние): Механизм для определения итогового расстояния до страницы. Система находит расстояния от всех seed-страниц до целевой страницы и выбирает k-е наименьшее значение. Это обеспечивает устойчивость, требуя близости к нескольким источникам.
Damping Factor (d) (Коэффициент затухания): Коэффициент (от 0 до 1), используемый в расчетах типа PageRank для моделирования вероятности того, что пользователь продолжит переходить по ссылкам. Используется при определении базовой длины ссылки (α = -log(d)).
Reduced Link-Graph (Сокращенный граф ссылок): Подграф оригинального графа, состоящий только из тех ссылок, которые участвуют в k кратчайших путях от seed-страниц до всех остальных страниц.

Ключевые утверждения (Анализ Claims)

Патент US9953049B1 является продолжением (continuation) более ранней заявки (2006 года) и фокусируется на конкретных аспектах метода ранжирования на основе расстояний.

Claim 1 (Независимый пункт): Описывает основной метод ранжирования.

Система получает набор страниц для ранжирования и набор из n Seed Pages (n > 1).
Система получает доступ к длинам (lengths), присвоенным ссылкам между страницами.
Для каждой страницы выполняется:
- Идентификация k-го ближайшего seed-сайта (k-th closest seed page) на основе длин ссылок (k > 1 и k < n).
- Определение кратчайшего расстояния от этого k-го ближайшего seed-сайта до целевой страницы.
- Определение Ranking Score для страницы на основе этого расстояния. Этот скор является мерой относительного качества страницы.

Ядро изобретения заключается в использовании именно k-го кратчайшего расстояния (где k больше 1) для определения ранга, а не просто самого короткого расстояния. Это требует, чтобы страница была близка к нескольким разным seed-сайтам для получения высокого ранга.

Зависимые пункты (Claims 2-6, 11): Детализируют, как определяется длина ссылки.

Длина ссылки определяется на основе функции от количества исходящих ссылок (Out-degree) исходной страницы (Claim 2).
Эта функция является монотонно не убывающей: чем больше исходящих ссылок у источника, тем больше длина (стоимость) каждой из этих ссылок (Claim 3).
Приводится конкретная формула для расчета длины (Claim 4): добавление терма (α + log(|q|_out)), где α — неотрицательное значение, а |q|_out — количество исходящих ссылок источника q.
α может быть определена как -log(d), где d — Damping Factor (Claim 5).
Длина также может зависеть от веса самой ссылки (Claim 6).

Зависимые пункты (Claims 8-10): Детализируют процесс расчета расстояния и ранга.

Seed-страницам могут быть присвоены веса (W_i), которые трансформируются в начальное расстояние (d_i = -log(W_i)) (Claim 8). Это позволяет делать одни seed-сайты более влиятельными, чем другие.
Ranking Score может быть пропорционален e^(-D(p)), где D(p) — это k-е кратчайшее расстояние (Claim 10).

Где и как применяется

Изобретение применяется на этапе индексирования и ранжирования для расчета статических (не зависящих от запроса) сигналов авторитетности страниц.

CRAWLING – Сканирование и Сбор данных
Результаты этого ранжирования (Ranking Scores на основе расстояний) могут использоваться для приоритизации сканирования (Crawl Scheduling), отдавая предпочтение страницам, находящимся ближе к Seed Pages.

INDEXING – Индексирование и извлечение признаков
Основное применение. Система анализирует весь веб-граф (или значительную его часть).

Анализ Ссылок: Извлекается структура графа и рассчитывается Out-degree для всех страниц.
Расчет Длин: Каждой ссылке присваивается длина на основе Out-degree источника.
Вычисление Расстояний: Производится расчет кратчайших расстояний от Seed Pages. Это масштабная офлайн-операция по обработке графа.
Расчет Ranking Score: Вычисляется k-th shortest distance и трансформируется в Ranking Score. Этот скор сохраняется в индексе как сигнал качества/авторитетности страницы.

RANKING – Ранжирование
На этом этапе рассчитанный Ranking Score используется как один из факторов ранжирования (L2/L3) для сортировки документов, релевантных запросу пользователя.

Входные данные:

Полный или частичный граф веб-ссылок.
Набор Seed Pages (и их опциональные веса).
Значение параметра k.
Параметры для функции расчета длины (например, Damping Factor d).

Выходные данные:

Ranking Score (на основе расстояния) для каждой достижимой страницы в графе.
(Опционально) Reduced Link-Graph, показывающий пути распространения авторитетности.

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние оказывается на контент, авторитетность которого сильно зависит от ссылок, особенно в YMYL-тематиках. Механизм продвигает страницы, которые имеют подтвержденную связь с признанными авторитетами в своей области.
Ссылочный профиль: Алгоритм радикально меняет восприятие ссылочного профиля. Ценность ссылки определяется не только авторитетностью донора, но и его «близостью» к Seed-сайтам и количеством его собственных исходящих ссылок.

Когда применяется

Триггеры активации: Алгоритм применяется глобально ко всему веб-графу для расчета статического показателя авторитетности. Он не зависит от конкретного запроса пользователя.
Временные рамки и частота применения: Расчет является ресурсоемким и выполняется периодически в офлайн-режиме во время глобального пересчета индексов и ссылочных факторов (аналогично пересчету PageRank).

Пошаговый алгоритм

Этап 1: Подготовка данных и инициализация

Выбор Seed-набора: Идентифицировать набор Seed Pages (S). Присвоить им начальные веса (W_i) или начальные расстояния (d_i = -log(W_i)). По умолчанию d_i = 0.
Анализ Графа: Для каждой страницы q в графе рассчитать количество исходящих ссылок (Out-degree, |q|_out).
Расчет Длин Ссылок: Для каждой ссылки q→p рассчитать ее длину L(q→p). Например, используя формулу: L(q→p) = α + log(|q|_out) (где α = -log(d)).

Этап 2: Расчет Кратчайших Расстояний (Graph Traversal)

Инициализация Расстояний: Для всех страниц p установить начальное расстояние D(p) = ∞. Для Seed-страниц установить D(s_i) = d_i.
Обход Графа: Используя алгоритм поиска кратчайшего пути (например, модифицированный алгоритм Дейкстры), итеративно обновить расстояния для всех страниц. На каждой итерации для страницы p и ее входящей ссылки q→p проверяется условие: если D(q) + L(q→p) < D(p), то D(p) обновляется. Процесс продолжается до стабилизации расстояний.

Этап 3: Определение Ранга (Пост-обработка)

Сбор Расстояний: Для каждой страницы p собрать все рассчитанные кратчайшие расстояния от разных seed-страниц {D_1(p), D_2(p), …, D_n(p)}.
Выбор k-го Кратчайшего Расстояния: Отсортировать этот набор расстояний и выбрать k-е наименьшее значение. Это и будет итоговым Distance Score для страницы p.
Трансформация в Ranking Score: Преобразовать Distance Score в финальный Ranking Score. Например, по формуле R(p) = e^(-Distance Score).
Сохранение Результатов: Сохранить Ranking Score в индексе для использования во время ранжирования.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на структуре веб-графа и свойствах ссылок.

Ссылочные факторы: Критически важные данные.
- Структура входящих и исходящих ссылок между страницами.
- Out-degree (количество исходящих ссылок) каждой страницы. Это ключевой параметр для расчета длины ссылки.
- (Опционально) Свойства самой ссылки (properties of the links), которые могут влиять на ее вес (w(q→p)), например, позиция, шрифт (упомянуто в описании патента).
Системные данные:
- Набор идентифицированных Seed Pages.

Контентные, поведенческие, технические или временные факторы в расчете этого конкретного Ranking Score не используются.

Какие метрики используются и как они считаются

Length (Длина ссылки L(q→p)): Рассчитывается для каждой ссылки. Формула (в упрощенном виде, без веса ссылки): L(q→p) = α + log(|q|_out). Где α — базовая стоимость перехода (зависит от Damping Factor), |q|_out — количество исходящих ссылок страницы q.
Shortest Distance (Кратчайшее расстояние D_i(p)): Сумма длин ссылок вдоль кратчайшего пути от seed-страницы s_i до страницы p.
k-th Shortest Distance (Distance Score): Итоговая метрика расстояния для страницы p. Выбирается как k-е минимальное значение среди всех D_i(p).
Ranking Score (R(p)): Финальная оценка авторитетности. Рассчитывается как функция от Distance Score, например: R(p) = e^(-Distance Score).
Seed Weight (W_i) и Initial Distance (d_i): Используются для приоритизации seed-страниц. d_i = -log(W_i).

Выводы

Авторитетность как Близость к Доверенным Источникам: Патент формализует концепцию «TrustRank» через измерение расстояния. Авторитетность страницы определяется ее близостью к набору доверенных Seed Pages. Чем короче путь, тем выше ранг.
Пенализация за Высокий Out-Degree: Ключевой механизм — это определение «длины» ссылки. Длина увеличивается с ростом количества исходящих ссылок у источника (log(|q|_out)). Это означает, что ссылки со страниц с большим количеством исходящих ссылок (например, каталогов или спам-страниц) имеют большую стоимость (длину), что увеличивает расстояние до целевой страницы.
Устойчивость через K-е Кратчайшее Расстояние: Использование k-th shortest distance (где k > 1) является защитным механизмом против манипуляций. Чтобы получить высокий ранг, недостаточно быть близко к одному seed-сайту; необходимо иметь короткие пути до нескольких (k) разных источников доверия.
Эффективное Масштабирование Доверия: Трансформация задачи ранжирования в задачу поиска кратчайшего пути позволяет использовать эффективные алгоритмы обхода графов и одновременно учитывать большой набор Seed Pages, что было вычислительно сложно при итеративном подходе.
Относительность Авторитетности: Ранг страницы зависит от выбора Seed Pages. Если seed-набор смещен в сторону определенной тематики или региона, это повлияет на расчет авторитетности во всем графе.

Практика

Best practices (это мы делаем)

Стратегический линкбилдинг (Proximity to Authority): Сосредоточьтесь на получении ссылок с сайтов, которые сами обладают высоким авторитетом и, предположительно, находятся близко к Seed Pages. Качество пути от авторитета до вашего сайта важнее общего количества ссылок.
Анализ Исходящих Ссылок Доноров: При оценке потенциального донора анализируйте не только его авторитетность, но и количество исходящих ссылок на странице (и сайте в целом). Ссылки с заспамленных страниц (высокий Out-degree) будут иметь большую «длину» и дадут меньший эффект согласно этому алгоритму.
Построение Широкой Авторитетности (Multi-Seed Strategy): Стремитесь получать ссылки из разных авторитетных источников и кластеров. Поскольку используется k-th shortest distance, наличие коротких путей к нескольким разным seed-сайтам критично для высокого ранжирования.
Развитие Сайта как Авторитетного Хаба: Создавайте качественный контент, на который будут ссылаться другие авторитетные ресурсы. Это сокращает расстояние до Seed Pages и повышает ваш собственный Ranking Score.

Worst practices (это делать не надо)

Массовая закупка ссылок с низкокачественных ресурсов: Покупка ссылок с сайтов, созданных для продажи ссылок (MFA, PBN низкого качества), неэффективна. Такие сайты обычно далеки от Seed Pages и часто имеют высокий Out-degree, что увеличивает длину ссылок.
Участие в Схемах Обмена Ссылками и Link Farms: Эти схемы создают искусственные пути и часто характеризуются высоким Out-degree. Алгоритм специально разработан для борьбы с такими манипуляциями.
Игнорирование Качества Исходящих Ссылок: Размещение большого количества нерелевантных или низкокачественных исходящих ссылок на вашем собственном сайте увеличивает ваш Out-degree, что может снизить ценность (увеличить длину) исходящих ссылок для акцепторов.

Стратегическое значение

Этот патент подтверждает стратегию Google по использованию концепции доверия (Trust) для оценки качества и борьбы со спамом. Он предоставляет математическую модель для измерения «степеней разделения» между вашим сайтом и наиболее авторитетными ресурсами в сети. Для долгосрочной SEO-стратегии это означает, что построение реальной авторитетности и получение признания (в виде ссылок) от уже признанных лидеров мнений и организаций является наиболее надежным путем к высоким позициям. Технический линкбилдинг уступает место стратегическому построению связей с авторитетами.

Практические примеры

Сценарий: Оценка ценности ссылки для медицинского сайта

Ситуация: Вы продвигаете медицинский сайт и можете получить ссылку с двух ресурсов: Сайт А — популярный блог о здоровье с умеренным количеством исходящих ссылок; Сайт Б — общий каталог сайтов, где ссылка будет стоять рядом с сотнями других ссылок.
Анализ по патенту:
- Предположим, что авторитетные медицинские организации (например, WHO, NHS) являются Seed Pages.
- Сайт А, вероятно, имеет более короткие пути до этих Seed-сайтов, чем Сайт Б.
- У Сайта Б очень высокий Out-degree. Согласно формуле L = α + log(|q|_out), длина ссылки с Сайта Б будет значительно больше, чем длина ссылки с Сайта А.
Действие: Приоритизировать получение ссылки с Сайта А.
Ожидаемый результат: Ссылка с Сайта А значительно эффективнее сократит расстояние до Seed Pages и сильнее повысит Ranking Score вашего сайта по сравнению со ссылкой с Сайта Б.

Сценарий: Повышение устойчивости ранжирования (Использование K)

Ситуация: Ваш сайт имеет очень сильную ссылку из одного авторитетного источника (например, крупного университета), но слабо связан с другими авторитетами в нише.
Анализ по патенту: Система ищет k-th shortest distance. Если k=3, а у вас только один короткий путь, то итоговый Distance Score будет определяться расстоянием до 3-го ближайшего seed-сайта, которое может быть большим.
Действие: Диверсифицировать линкбилдинг, стремясь получить ссылки из нескольких разных авторитетных кластеров (например, профильные СМИ, государственные сайты, другие университеты).
Ожидаемый результат: Сокращение расстояния до нескольких seed-сайтов уменьшит k-th shortest distance и повысит общий Ranking Score.

Вопросы и ответы

Что такое «Seed Pages» и можем ли мы узнать, какие сайты входят в этот набор?

Seed Pages — это набор вручную отобранных, высококачественных и доверенных сайтов, которые служат эталоном авторитетности. В патенте в качестве примеров хороших seed-сайтов упоминаются Google Directory (сейчас не существует) и The New York Times, так как они надежны, разнообразны и имеют хорошую связность. Точный список Seed-сайтов Google не раскрывает, но можно предположить, что это крупнейшие СМИ, правительственные ресурсы, ведущие университеты и глобальные организации (например, WHO, Wikipedia).

Как именно количество исходящих ссылок (Out-degree) влияет на ценность ссылки?

Влияние логарифмическое. Согласно патенту, длина ссылки увеличивается пропорционально логарифму количества исходящих ссылок. Это означает, что разница между 5 и 10 ссылками на странице значительна, но разница между 500 и 1000 ссылками менее критична, хотя обе последние ссылки будут иметь большую «длину» (низкую ценность). Основной вывод: чем меньше исходящих ссылок на странице, тем ценнее каждая из них.

В чем разница между этим алгоритмом и классическим PageRank?

В классическом PageRank ранг распределяется итеративно по всему графу, и авторитетность определяется суммой полученного ранга от всех входящих ссылок. В данном алгоритме авторитетность определяется кратчайшим расстоянием до доверенных Seed Pages. Кроме того, этот алгоритм использует механизм k-th shortest distance для повышения устойчивости к спаму, в отличие от стандартного PageRank.

Что означает параметр ‘k’ (k-th shortest distance) и почему он важен?

Параметр ‘k’ определяет, сколько независимых коротких путей до разных Seed Pages необходимо иметь странице для получения высокого ранга. Если k=5, то ранг страницы будет определяться расстоянием до 5-го ближайшего seed-сайта. Это важно для защиты от манипуляций: спамеру придется скомпрометировать или создать искусственно короткие пути от k разных авторитетных источников, что значительно сложнее, чем от одного.

Как этот патент влияет на стратегию линкбилдинга?

Он смещает фокус с количества ссылок на качество и структуру ссылочного графа. Основная цель — минимизировать «ссылочное расстояние» до авторитетов. Это означает, что получение одной ссылки с сайта, который сам находится в одном клике от Seed-сайта, может быть ценнее, чем сотни ссылок с сайтов, находящихся далеко в графе.

Влияет ли этот алгоритм на внутреннюю перелинковку?

Да, принципы применимы и к внутренней структуре сайта. Если главная страница сайта имеет наименьшее расстояние до Seed Pages, то внутренние страницы должны иметь короткие пути до главной страницы. При этом следует избегать создания страниц с чрезмерно большим количеством исходящих внутренних ссылок (например, огромных HTML-карт сайта), так как это увеличит «длину» этих ссылок.

Может ли сайт с меньшим количеством ссылок ранжироваться выше сайта с большим количеством ссылок по этому алгоритму?

Абсолютно. Если сайт А имеет 10 ссылок, но все они идут короткими путями от нескольких Seed Pages, а сайт Б имеет 1000 ссылок с ресурсов, которые находятся далеко от Seed Pages или имеют огромный Out-degree, то сайт А получит значительно более высокий Ranking Score по этому алгоритму.

Учитывает ли алгоритм тематику или релевантность ссылок?

В базовой модели, описанной в патенте, тематика напрямую не учитывается; алгоритм основан на структуре графа и Out-degree. Однако, выбор Seed Pages может быть тематическим. Кроме того, в патенте упоминается возможность присвоения весов (w(q→p)) отдельным ссылкам на основе их свойств (например, позиция, шрифт), что может косвенно коррелировать с релевантностью или качеством ссылки.

Что такое «Reduced Link-Graph»?

Это подграф, который включает только те ссылки, которые фактически участвуют в формировании k кратчайших путей от Seed Pages до всех остальных страниц. Анализ этого графа позволяет понять, через какие именно узлы (сайты) распространяется авторитетность в сети, и помогает идентифицировать ключевые хабы и проводники доверия.

Является ли этот алгоритм заменой PageRank или дополнением?

Патент позиционирует этот метод как способ расчета метрики качества страницы, аналогичной PageRank, но более устойчивой к манипуляциям и вычислительно эффективной при использовании большого количества источников доверия. На практике он, скорее всего, используется как один из важных сигналов авторитетности (Trust/Authority) в дополнение к другим ссылочным и контентным факторам.

Как Google может рассчитывать авторитетность страниц на основе их кратчайшего расстояния до доверенных «Seed» сайтов