Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google может рассчитывать авторитетность страниц на основе их кратчайшего расстояния до доверенных «Seed» сайтов

    PRODUCING A RANKING FOR PAGES USING DISTANCES IN A WEB-LINK GRAPH (Создание рейтинга страниц с использованием расстояний в графе веб-ссылок)
    • US9953049B1
    • Google LLC
    • 2018-04-24
    • 2006-10-12
    2006 Антиспам Патенты Google Ссылки

    Google патентует метод ранжирования, альтернативный классическому PageRank, который трансформирует расчет авторитетности в задачу поиска кратчайшего пути в веб-графе. Система определяет набор доверенных «Seed» сайтов и измеряет расстояние от них до всех остальных страниц. Чем короче расстояние до нескольких (k) ближайших Seed-сайтов, тем выше ранг страницы. Длина ссылки при этом увеличивается, если у исходной страницы много исходящих ссылок.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает две ключевые проблемы, связанные с расчетом авторитетности страниц, подобных PageRank:

    1. Уязвимость к манипуляциям: Классический PageRank может быть завышен с помощью таких техник, как «link farms» (ссылочные фермы) или создание циклических ссылок (loops).
    2. Вычислительная сложность масштабирования доверия: Попытки сделать PageRank более устойчивым путем расчета его только от набора доверенных («trusted» или «seed») страниц сталкиваются с высокой вычислительной сложностью. Если рассчитывать PageRank итеративно для каждого seed-сайта отдельно, сложность растет линейно с увеличением числа seed-сайтов, что ограничивает их практическое использование.

    Изобретение предлагает метод, который позволяет использовать большой и разнообразный набор seed-страниц для расчета авторитетности, устойчивой к спаму, при этом значительно снижая вычислительную сложность.

    Что запатентовано

    Запатентована система ранжирования страниц, которая трансформирует задачу расчета авторитетности в задачу поиска кратчайшего пути (shortest path problem) в веб-графе. Вместо расчета итеративного потока ранга (как в PageRank), система присваивает каждой ссылке «длину» (length или cost) и рассчитывает ранг страницы на основе ее кратчайшего расстояния до набора предварительно определенных Seed Pages. Ключевая особенность — ранг определяется не по абсолютно кратчайшему пути, а по расстоянию до k-го ближайшего seed-сайта (k-th shortest distance), что повышает устойчивость к манипуляциям.

    Как это работает

    Система работает следующим образом:

    • Определение Seed-набора: Выбирается набор высококачественных, доверенных страниц (Seed Pages).
    • Присвоение «Длины» ссылкам: Каждой ссылке в веб-графе присваивается длина. Длина ссылки увеличивается, если у исходной страницы много исходящих ссылок (высокий out-degree). Например, используется формула, включающая логарифм исходящих ссылок: Length = α + log(Out-Degree).
    • Расчет Кратчайших Расстояний: Используя алгоритмы обхода графа, система вычисляет кратчайшие расстояния от набора Seed Pages до каждой страницы в индексе.
    • Определение Ранга (k-th shortest distance): Для каждой страницы система находит k ближайших seed-страниц. Итоговое расстояние (Distance Score) определяется как расстояние до k-го ближайшего seed-сайта.
    • Финальный Ранкинг: Ranking Score вычисляется на основе Distance Score. Чем короче расстояние, тем выше ранг (например, Rank = e^(-Distance)).

    Актуальность для SEO

    Высокая. Идеи, заложенные в этом патенте (и его предшественнике от 2006 года), описывают фундаментальный подход к оценке авторитетности и доверия (Trust) на основе близости к доверенным источникам. Концепция распространения доверия от избранного набора сайтов и пессимизация ссылок с сайтов с высоким out-degree остаются крайне актуальными для борьбы со ссылочным спамом и оценки E-E-A-T. Этот механизм предлагает эффективный способ масштабирования сигналов доверия в поиске.

    Важность для SEO

    Патент имеет высокое стратегическое значение для SEO (8/10). Он описывает конкретный механизм, как Google может оценивать авторитетность сайта не по общему количеству ссылок, а по качеству ссылочного пути от авторитетных источников. Это подчеркивает критическую важность получения ссылок с сайтов, которые сами находятся «близко» к доверенным Seed-сайтам, и снижает ценность ссылок с ресурсов с большим количеством исходящих ссылок (например, немодерируемых каталогов или ссылочных бирж).

    Детальный разбор

    Термины и определения

    Seed Pages (Начальные / Seed-страницы)
    Набор предварительно выбранных высококачественных, доверенных страниц, которые служат источниками авторитетности в графе. Они используются как отправные точки для расчета расстояний.
    Link-graph (Граф ссылок)
    Структура данных, представляющая веб-страницы как узлы и гиперссылки между ними как направленные ребра.
    Length (Длина ссылки)
    Значение (стоимость или вес), присваиваемое каждой ссылке в графе. Используется для расчета расстояния. В данном патенте длина зависит от свойств ссылки и свойств исходной страницы, в частности, от ее Out-degree.
    Out-degree (|q|_out)
    Количество исходящих ссылок со страницы q.
    Shortest Distance (Кратчайшее расстояние)
    Минимальная сумма длин ссылок вдоль пути от одной страницы до другой.
    k-th Shortest Distance (k-е кратчайшее расстояние)
    Механизм для определения итогового расстояния до страницы. Система находит расстояния от всех seed-страниц до целевой страницы и выбирает k-е наименьшее значение. Это обеспечивает устойчивость, требуя близости к нескольким источникам.
    Damping Factor (d) (Коэффициент затухания)
    Коэффициент (от 0 до 1), используемый в расчетах типа PageRank для моделирования вероятности того, что пользователь продолжит переходить по ссылкам. Используется при определении базовой длины ссылки (α = -log(d)).
    Reduced Link-Graph (Сокращенный граф ссылок)
    Подграф оригинального графа, состоящий только из тех ссылок, которые участвуют в k кратчайших путях от seed-страниц до всех остальных страниц.

    Ключевые утверждения (Анализ Claims)

    Патент US9953049B1 является продолжением (continuation) более ранней заявки (2006 года) и фокусируется на конкретных аспектах метода ранжирования на основе расстояний.

    Claim 1 (Независимый пункт): Описывает основной метод ранжирования.

    1. Система получает набор страниц для ранжирования и набор из n Seed Pages (n > 1).
    2. Система получает доступ к длинам (lengths), присвоенным ссылкам между страницами.
    3. Для каждой страницы выполняется:
      • Идентификация k-го ближайшего seed-сайта (k-th closest seed page) на основе длин ссылок (k > 1 и k < n).
      • Определение кратчайшего расстояния от этого k-го ближайшего seed-сайта до целевой страницы.
      • Определение Ranking Score для страницы на основе этого расстояния. Этот скор является мерой относительного качества страницы.

    Ядро изобретения заключается в использовании именно k-го кратчайшего расстояния (где k больше 1) для определения ранга, а не просто самого короткого расстояния. Это требует, чтобы страница была близка к нескольким разным seed-сайтам для получения высокого ранга.

    Зависимые пункты (Claims 2-6, 11): Детализируют, как определяется длина ссылки.

    • Длина ссылки определяется на основе функции от количества исходящих ссылок (Out-degree) исходной страницы (Claim 2).
    • Эта функция является монотонно не убывающей: чем больше исходящих ссылок у источника, тем больше длина (стоимость) каждой из этих ссылок (Claim 3).
    • Приводится конкретная формула для расчета длины (Claim 4): добавление терма (α + log(|q|_out)), где α — неотрицательное значение, а |q|_out — количество исходящих ссылок источника q.
    • α может быть определена как -log(d), где d — Damping Factor (Claim 5).
    • Длина также может зависеть от веса самой ссылки (Claim 6).

    Зависимые пункты (Claims 8-10): Детализируют процесс расчета расстояния и ранга.

    • Seed-страницам могут быть присвоены веса (W_i), которые трансформируются в начальное расстояние (d_i = -log(W_i)) (Claim 8). Это позволяет делать одни seed-сайты более влиятельными, чем другие.
    • Ranking Score может быть пропорционален e^(-D(p)), где D(p) — это k-е кратчайшее расстояние (Claim 10).

    Где и как применяется

    Изобретение применяется на этапе индексирования и ранжирования для расчета статических (не зависящих от запроса) сигналов авторитетности страниц.

    CRAWLING – Сканирование и Сбор данных
    Результаты этого ранжирования (Ranking Scores на основе расстояний) могут использоваться для приоритизации сканирования (Crawl Scheduling), отдавая предпочтение страницам, находящимся ближе к Seed Pages.

    INDEXING – Индексирование и извлечение признаков
    Основное применение. Система анализирует весь веб-граф (или значительную его часть).

    1. Анализ Ссылок: Извлекается структура графа и рассчитывается Out-degree для всех страниц.
    2. Расчет Длин: Каждой ссылке присваивается длина на основе Out-degree источника.
    3. Вычисление Расстояний: Производится расчет кратчайших расстояний от Seed Pages. Это масштабная офлайн-операция по обработке графа.
    4. Расчет Ranking Score: Вычисляется k-th shortest distance и трансформируется в Ranking Score. Этот скор сохраняется в индексе как сигнал качества/авторитетности страницы.

    RANKING – Ранжирование
    На этом этапе рассчитанный Ranking Score используется как один из факторов ранжирования (L2/L3) для сортировки документов, релевантных запросу пользователя.

    Входные данные:

    • Полный или частичный граф веб-ссылок.
    • Набор Seed Pages (и их опциональные веса).
    • Значение параметра k.
    • Параметры для функции расчета длины (например, Damping Factor d).

    Выходные данные:

    • Ranking Score (на основе расстояния) для каждой достижимой страницы в графе.
    • (Опционально) Reduced Link-Graph, показывающий пути распространения авторитетности.

    На что влияет

    • Конкретные типы контента и ниши: Наибольшее влияние оказывается на контент, авторитетность которого сильно зависит от ссылок, особенно в YMYL-тематиках. Механизм продвигает страницы, которые имеют подтвержденную связь с признанными авторитетами в своей области.
    • Ссылочный профиль: Алгоритм радикально меняет восприятие ссылочного профиля. Ценность ссылки определяется не только авторитетностью донора, но и его «близостью» к Seed-сайтам и количеством его собственных исходящих ссылок.

    Когда применяется

    • Триггеры активации: Алгоритм применяется глобально ко всему веб-графу для расчета статического показателя авторитетности. Он не зависит от конкретного запроса пользователя.
    • Временные рамки и частота применения: Расчет является ресурсоемким и выполняется периодически в офлайн-режиме во время глобального пересчета индексов и ссылочных факторов (аналогично пересчету PageRank).

    Пошаговый алгоритм

    Этап 1: Подготовка данных и инициализация

    1. Выбор Seed-набора: Идентифицировать набор Seed Pages (S). Присвоить им начальные веса (W_i) или начальные расстояния (d_i = -log(W_i)). По умолчанию d_i = 0.
    2. Анализ Графа: Для каждой страницы q в графе рассчитать количество исходящих ссылок (Out-degree, |q|_out).
    3. Расчет Длин Ссылок: Для каждой ссылки q→p рассчитать ее длину L(q→p). Например, используя формулу: L(q→p) = α + log(|q|_out) (где α = -log(d)).

    Этап 2: Расчет Кратчайших Расстояний (Graph Traversal)

    1. Инициализация Расстояний: Для всех страниц p установить начальное расстояние D(p) = ∞. Для Seed-страниц установить D(s_i) = d_i.
    2. Обход Графа: Используя алгоритм поиска кратчайшего пути (например, модифицированный алгоритм Дейкстры), итеративно обновить расстояния для всех страниц. На каждой итерации для страницы p и ее входящей ссылки q→p проверяется условие: если D(q) + L(q→p) < D(p), то D(p) обновляется. Процесс продолжается до стабилизации расстояний.

    Этап 3: Определение Ранга (Пост-обработка)

    1. Сбор Расстояний: Для каждой страницы p собрать все рассчитанные кратчайшие расстояния от разных seed-страниц {D_1(p), D_2(p), …, D_n(p)}.
    2. Выбор k-го Кратчайшего Расстояния: Отсортировать этот набор расстояний и выбрать k-е наименьшее значение. Это и будет итоговым Distance Score для страницы p.
    3. Трансформация в Ranking Score: Преобразовать Distance Score в финальный Ranking Score. Например, по формуле R(p) = e^(-Distance Score).
    4. Сохранение Результатов: Сохранить Ranking Score в индексе для использования во время ранжирования.

    Какие данные и как использует

    Данные на входе

    Патент фокусируется исключительно на структуре веб-графа и свойствах ссылок.

    • Ссылочные факторы: Критически важные данные.
      • Структура входящих и исходящих ссылок между страницами.
      • Out-degree (количество исходящих ссылок) каждой страницы. Это ключевой параметр для расчета длины ссылки.
      • (Опционально) Свойства самой ссылки (properties of the links), которые могут влиять на ее вес (w(q→p)), например, позиция, шрифт (упомянуто в описании патента).
    • Системные данные:
      • Набор идентифицированных Seed Pages.

    Контентные, поведенческие, технические или временные факторы в расчете этого конкретного Ranking Score не используются.

    Какие метрики используются и как они считаются

    • Length (Длина ссылки L(q→p)): Рассчитывается для каждой ссылки. Формула (в упрощенном виде, без веса ссылки): L(q→p) = α + log(|q|_out). Где α — базовая стоимость перехода (зависит от Damping Factor), |q|_out — количество исходящих ссылок страницы q.
    • Shortest Distance (Кратчайшее расстояние D_i(p)): Сумма длин ссылок вдоль кратчайшего пути от seed-страницы s_i до страницы p.
    • k-th Shortest Distance (Distance Score): Итоговая метрика расстояния для страницы p. Выбирается как k-е минимальное значение среди всех D_i(p).
    • Ranking Score (R(p)): Финальная оценка авторитетности. Рассчитывается как функция от Distance Score, например: R(p) = e^(-Distance Score).
    • Seed Weight (W_i) и Initial Distance (d_i): Используются для приоритизации seed-страниц. d_i = -log(W_i).

    Выводы

    1. Авторитетность как Близость к Доверенным Источникам: Патент формализует концепцию «TrustRank» через измерение расстояния. Авторитетность страницы определяется ее близостью к набору доверенных Seed Pages. Чем короче путь, тем выше ранг.
    2. Пенализация за Высокий Out-Degree: Ключевой механизм — это определение «длины» ссылки. Длина увеличивается с ростом количества исходящих ссылок у источника (log(|q|_out)). Это означает, что ссылки со страниц с большим количеством исходящих ссылок (например, каталогов или спам-страниц) имеют большую стоимость (длину), что увеличивает расстояние до целевой страницы.
    3. Устойчивость через K-е Кратчайшее Расстояние: Использование k-th shortest distance (где k > 1) является защитным механизмом против манипуляций. Чтобы получить высокий ранг, недостаточно быть близко к одному seed-сайту; необходимо иметь короткие пути до нескольких (k) разных источников доверия.
    4. Эффективное Масштабирование Доверия: Трансформация задачи ранжирования в задачу поиска кратчайшего пути позволяет использовать эффективные алгоритмы обхода графов и одновременно учитывать большой набор Seed Pages, что было вычислительно сложно при итеративном подходе.
    5. Относительность Авторитетности: Ранг страницы зависит от выбора Seed Pages. Если seed-набор смещен в сторону определенной тематики или региона, это повлияет на расчет авторитетности во всем графе.

    Практика

    Best practices (это мы делаем)

    • Стратегический линкбилдинг (Proximity to Authority): Сосредоточьтесь на получении ссылок с сайтов, которые сами обладают высоким авторитетом и, предположительно, находятся близко к Seed Pages. Качество пути от авторитета до вашего сайта важнее общего количества ссылок.
    • Анализ Исходящих Ссылок Доноров: При оценке потенциального донора анализируйте не только его авторитетность, но и количество исходящих ссылок на странице (и сайте в целом). Ссылки с заспамленных страниц (высокий Out-degree) будут иметь большую «длину» и дадут меньший эффект согласно этому алгоритму.
    • Построение Широкой Авторитетности (Multi-Seed Strategy): Стремитесь получать ссылки из разных авторитетных источников и кластеров. Поскольку используется k-th shortest distance, наличие коротких путей к нескольким разным seed-сайтам критично для высокого ранжирования.
    • Развитие Сайта как Авторитетного Хаба: Создавайте качественный контент, на который будут ссылаться другие авторитетные ресурсы. Это сокращает расстояние до Seed Pages и повышает ваш собственный Ranking Score.

    Worst practices (это делать не надо)

    • Массовая закупка ссылок с низкокачественных ресурсов: Покупка ссылок с сайтов, созданных для продажи ссылок (MFA, PBN низкого качества), неэффективна. Такие сайты обычно далеки от Seed Pages и часто имеют высокий Out-degree, что увеличивает длину ссылок.
    • Участие в Схемах Обмена Ссылками и Link Farms: Эти схемы создают искусственные пути и часто характеризуются высоким Out-degree. Алгоритм специально разработан для борьбы с такими манипуляциями.
    • Игнорирование Качества Исходящих Ссылок: Размещение большого количества нерелевантных или низкокачественных исходящих ссылок на вашем собственном сайте увеличивает ваш Out-degree, что может снизить ценность (увеличить длину) исходящих ссылок для акцепторов.

    Стратегическое значение

    Этот патент подтверждает стратегию Google по использованию концепции доверия (Trust) для оценки качества и борьбы со спамом. Он предоставляет математическую модель для измерения «степеней разделения» между вашим сайтом и наиболее авторитетными ресурсами в сети. Для долгосрочной SEO-стратегии это означает, что построение реальной авторитетности и получение признания (в виде ссылок) от уже признанных лидеров мнений и организаций является наиболее надежным путем к высоким позициям. Технический линкбилдинг уступает место стратегическому построению связей с авторитетами.

    Практические примеры

    Сценарий: Оценка ценности ссылки для медицинского сайта

    1. Ситуация: Вы продвигаете медицинский сайт и можете получить ссылку с двух ресурсов: Сайт А — популярный блог о здоровье с умеренным количеством исходящих ссылок; Сайт Б — общий каталог сайтов, где ссылка будет стоять рядом с сотнями других ссылок.
    2. Анализ по патенту:
      • Предположим, что авторитетные медицинские организации (например, WHO, NHS) являются Seed Pages.
      • Сайт А, вероятно, имеет более короткие пути до этих Seed-сайтов, чем Сайт Б.
      • У Сайта Б очень высокий Out-degree. Согласно формуле L = α + log(|q|_out), длина ссылки с Сайта Б будет значительно больше, чем длина ссылки с Сайта А.
    3. Действие: Приоритизировать получение ссылки с Сайта А.
    4. Ожидаемый результат: Ссылка с Сайта А значительно эффективнее сократит расстояние до Seed Pages и сильнее повысит Ranking Score вашего сайта по сравнению со ссылкой с Сайта Б.

    Сценарий: Повышение устойчивости ранжирования (Использование K)

    1. Ситуация: Ваш сайт имеет очень сильную ссылку из одного авторитетного источника (например, крупного университета), но слабо связан с другими авторитетами в нише.
    2. Анализ по патенту: Система ищет k-th shortest distance. Если k=3, а у вас только один короткий путь, то итоговый Distance Score будет определяться расстоянием до 3-го ближайшего seed-сайта, которое может быть большим.
    3. Действие: Диверсифицировать линкбилдинг, стремясь получить ссылки из нескольких разных авторитетных кластеров (например, профильные СМИ, государственные сайты, другие университеты).
    4. Ожидаемый результат: Сокращение расстояния до нескольких seed-сайтов уменьшит k-th shortest distance и повысит общий Ranking Score.

    Вопросы и ответы

    Что такое «Seed Pages» и можем ли мы узнать, какие сайты входят в этот набор?

    Seed Pages — это набор вручную отобранных, высококачественных и доверенных сайтов, которые служат эталоном авторитетности. В патенте в качестве примеров хороших seed-сайтов упоминаются Google Directory (сейчас не существует) и The New York Times, так как они надежны, разнообразны и имеют хорошую связность. Точный список Seed-сайтов Google не раскрывает, но можно предположить, что это крупнейшие СМИ, правительственные ресурсы, ведущие университеты и глобальные организации (например, WHO, Wikipedia).

    Как именно количество исходящих ссылок (Out-degree) влияет на ценность ссылки?

    Влияние логарифмическое. Согласно патенту, длина ссылки увеличивается пропорционально логарифму количества исходящих ссылок. Это означает, что разница между 5 и 10 ссылками на странице значительна, но разница между 500 и 1000 ссылками менее критична, хотя обе последние ссылки будут иметь большую «длину» (низкую ценность). Основной вывод: чем меньше исходящих ссылок на странице, тем ценнее каждая из них.

    В чем разница между этим алгоритмом и классическим PageRank?

    В классическом PageRank ранг распределяется итеративно по всему графу, и авторитетность определяется суммой полученного ранга от всех входящих ссылок. В данном алгоритме авторитетность определяется кратчайшим расстоянием до доверенных Seed Pages. Кроме того, этот алгоритм использует механизм k-th shortest distance для повышения устойчивости к спаму, в отличие от стандартного PageRank.

    Что означает параметр ‘k’ (k-th shortest distance) и почему он важен?

    Параметр ‘k’ определяет, сколько независимых коротких путей до разных Seed Pages необходимо иметь странице для получения высокого ранга. Если k=5, то ранг страницы будет определяться расстоянием до 5-го ближайшего seed-сайта. Это важно для защиты от манипуляций: спамеру придется скомпрометировать или создать искусственно короткие пути от k разных авторитетных источников, что значительно сложнее, чем от одного.

    Как этот патент влияет на стратегию линкбилдинга?

    Он смещает фокус с количества ссылок на качество и структуру ссылочного графа. Основная цель — минимизировать «ссылочное расстояние» до авторитетов. Это означает, что получение одной ссылки с сайта, который сам находится в одном клике от Seed-сайта, может быть ценнее, чем сотни ссылок с сайтов, находящихся далеко в графе.

    Влияет ли этот алгоритм на внутреннюю перелинковку?

    Да, принципы применимы и к внутренней структуре сайта. Если главная страница сайта имеет наименьшее расстояние до Seed Pages, то внутренние страницы должны иметь короткие пути до главной страницы. При этом следует избегать создания страниц с чрезмерно большим количеством исходящих внутренних ссылок (например, огромных HTML-карт сайта), так как это увеличит «длину» этих ссылок.

    Может ли сайт с меньшим количеством ссылок ранжироваться выше сайта с большим количеством ссылок по этому алгоритму?

    Абсолютно. Если сайт А имеет 10 ссылок, но все они идут короткими путями от нескольких Seed Pages, а сайт Б имеет 1000 ссылок с ресурсов, которые находятся далеко от Seed Pages или имеют огромный Out-degree, то сайт А получит значительно более высокий Ranking Score по этому алгоритму.

    Учитывает ли алгоритм тематику или релевантность ссылок?

    В базовой модели, описанной в патенте, тематика напрямую не учитывается; алгоритм основан на структуре графа и Out-degree. Однако, выбор Seed Pages может быть тематическим. Кроме того, в патенте упоминается возможность присвоения весов (w(q→p)) отдельным ссылкам на основе их свойств (например, позиция, шрифт), что может косвенно коррелировать с релевантностью или качеством ссылки.

    Что такое «Reduced Link-Graph»?

    Это подграф, который включает только те ссылки, которые фактически участвуют в формировании k кратчайших путей от Seed Pages до всех остальных страниц. Анализ этого графа позволяет понять, через какие именно узлы (сайты) распространяется авторитетность в сети, и помогает идентифицировать ключевые хабы и проводники доверия.

    Является ли этот алгоритм заменой PageRank или дополнением?

    Патент позиционирует этот метод как способ расчета метрики качества страницы, аналогичной PageRank, но более устойчивой к манипуляциям и вычислительно эффективной при использовании большого количества источников доверия. На практике он, скорее всего, используется как один из важных сигналов авторитетности (Trust/Authority) в дополнение к другим ссылочным и контентным факторам.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.