Фундаментальный патент Ларри Пейджа, описывающий алгоритм PageRank. Он определяет, как Google вычисляет важность страницы рекурсивно, на основе важности и количества исходящих ссылок цитирующих ее документов. Патент также защищает использование анкорного текста и околоссылочного текста как ключевых сигналов релевантности целевой страницы в поиске.
Описание
Какую задачу решает
Патент решает проблему объективной оценки качества и важности документов в гипертекстовых средах (например, в Вебе), где качество контента экстремально варьируется. Традиционные методы, основанные на анализе контента или простом подсчете цитирований (citation counting), были неэффективны, уязвимы для спама и не учитывали авторитетность источника цитирования. Также решается задача повышения релевантности поиска за счет использования внешних описаний документа (анкорного текста).
Что запатентовано
Запатентована система оценки важности документов в связанной базе данных (PageRank). Важность документа определяется рекурсивно: она зависит от важности ссылающихся на него документов, при этом вес каждой ссылки нормализуется по количеству исходящих ссылок на странице-доноре. Кроме того, в данной версии патента защищается метод определения релевантности документа на основе anchor text и текста в непосредственной близости (immediate vicinity) от ссылок, ведущих на этот документ.
Как это работает
Система работает в двух ключевых направлениях:
- Расчет PageRank: Используется итеративный алгоритм, моделирующий поведение случайного пользователя (random surfer). Ранг страницы распределяется поровну между ее исходящими ссылками. Итоговый ранг страницы — это сумма рангов, полученных от входящих ссылок, скорректированная на коэффициент затухания (damping factor или alpha), который моделирует вероятность случайного перехода. Процесс повторяется до достижения стабильного состояния (steady-state probability).
- Применение в поиске: Система ищет совпадения запроса не только в контенте страниц, но и в anchor text входящих ссылок. Если анкорный текст соответствует запросу, целевая страница считается релевантной. Финальная выдача ранжируется с учетом рассчитанных оценок PageRank и текстовой релевантности.
Актуальность для SEO
Критически высокая. Алгоритм PageRank и использование анкорного текста являются фундаментальными основами поиска Google. Хотя современные алгоритмы значительно сложнее, базовая концепция передачи авторитетности через ссылки и значимость анкоров, описанная в этом патенте, остается ядром системы ранжирования в 2025 году.
Важность для SEO
10/10 (Критическое влияние). Этот патент определил направление развития SEO-индустрии. Он формирует основу для всех стратегий линкбилдинга и оптимизации внутреннего ссылочного веса. Патент объясняет, почему ссылка с авторитетного сайта ценнее множества ссылок с некачественных ресурсов, почему важен анкорный текст и почему необходимо учитывать нормализацию по исходящим ссылкам донора.
Детальный разбор
Термины и определения
- Anchor Text (Анкорный текст)
- Текст ссылки. Используется системой как описание целевой страницы для определения ее релевантности.
- Backlink (Обратная ссылка)
- Входящая ссылка на документ.
- Damping Factor (Коэффициент затухания, alpha, α)
- Вероятность того, что случайный пользователь перейдет на случайную страницу вместо перехода по ссылке. Обычно около 0.15 (15%). Предотвращает накопление ранга в циклических структурах и обеспечивает сходимость алгоритма.
- Forward Link (Прямая ссылка)
- Исходящая ссылка из документа.
- Linked Database (Связанная база данных)
- База данных документов с взаимными цитированиями (например, Веб). Представляется в виде направленного графа.
- PageRank (Ранг страницы, Importance Rank)
- Объективная мера важности (авторитетности) документа, рассчитываемая на основе структуры ссылок.
- Random Surfer Model (Модель случайного пользователя)
- Модель поведения пользователя, используемая для математического обоснования PageRank.
- Steady-state probability (Стационарное распределение вероятностей, p∞)
- Конечный результат итеративного расчета PageRank, когда значения рангов стабилизируются. Является главным собственным вектором (principal eigenvector) нормализованной матрицы ссылок.
- Text in the immediate vicinity (Текст в непосредственной близости)
- Текст, окружающий анкорный текст ссылки (околоссылочный текст). Используется для определения релевантности целевой страницы.
Ключевые утверждения (Анализ Claims)
Данный патент (US8725726B1) является продолжением оригинальной заявки на PageRank. Его Claims фокусируются на применении ссылочных данных (анкоров и рангов) в контексте поиска.
Claim 1 (Независимый пункт): Описывает метод использования анкорного текста для определения релевантности.
- Система получает поисковый запрос.
- Идентифицируется множество документов (Набор А), содержащих термин запроса.
- В документе из Набора А идентифицируется anchor text, соответствующий термину запроса.
- Этот anchor text является ссылкой на второй документ (Документ Б), который НЕ входит в Набор А (т.е. может не содержать термина запроса).
- Система генерирует список результатов, включающий Документ Б.
Система использует anchor text как описание целевой страницы. Это позволяет ранжировать документы по запросам, которых нет в их контенте, если на них ссылаются с релевантными анкорами.
Claim 12 (Независимый пункт): Расширяет Claim 1, включая околоссылочный текст.
- Процесс аналогичен Claim 1, но совпадение с запросом ищется либо в anchor text, либо в тексте в непосредственной близости (text in an immediate vicinity) от anchor text.
Релевантность целевой страницы определяется не только анкором, но и контекстом, в котором размещена ссылка. Это подчеркивает важность тематического окружения ссылки.
Claim 3 и 13 (Зависимые пункты): Описывают процесс расчета оценок (PageRank) и ранжирования.
- Документам присваивается начальная оценка (initial score).
- Выполняется итеративный процесс для генерации финальной оценки. Оценка документа генерируется на основе оценок документов, которые на него ссылаются.
- Список документов ранжируется на основе финальных оценок.
Это описание итеративного процесса PageRank: важность документа определяется важностью ссылающихся на него документов. Финальный результат поиска сортируется с использованием этих оценок авторитетности.
Claim 7 и 17 (Зависимые пункты): Уточняют взвешивание ссылок.
- Оценки основаны на оценках ссылающихся документов и весах (weights), присвоенных ссылкам.
- Вес может базироваться на «мере важности» (measure of importance) ссылки (Claim 7) или на сервере/домене источника (Claim 17).
Ссылки не рассматриваются как равные. В спецификации патента «мера важности» связана с нормализацией по исходящим ссылкам, но также допускаются вариации взвешивания по видимости ссылки или ее происхождению (для борьбы со спамом).
Где и как применяется
Изобретение применяется на нескольких ключевых этапах поисковой архитектуры.
CRAWLING – Сканирование и Сбор данных
Система собирает данные о структуре гиперссылок (граф веба) и извлекает anchor text и околоссылочный текст.
INDEXING – Индексирование и извлечение признаков
Это основной этап для расчета PageRank.
- Построение графа: Строится направленный граф ссылок.
- Итеративный расчет PageRank: Система выполняет офлайн (в пакетном режиме) расчет PageRank для всех документов в индексе. Этот процесс выполняется периодически.
- Индексирование анкоров: Anchor text и околоссылочный текст ассоциируются с целевыми документами и добавляются в индекс (анкорный индекс).
RANKING – Ранжирование
На этом этапе используются предварительно рассчитанные данные.
- Отбор кандидатов (Retrieval): Система использует как контентный, так и анкорный индекс для поиска документов, соответствующих запросу (согласно Claims 1 и 12).
- Ранжирование (Scoring): Рассчитанные значения PageRank используются как один из ключевых сигналов авторитетности для сортировки отобранных кандидатов.
На что влияет
- Все типы контента и ниши: PageRank является универсальным сигналом авторитетности, применяемым ко всему индексу, независимо от тематики. Анализ анкорного текста также универсален и позволяет ранжировать даже нетекстовый контент (изображения, программы).
- Специфические запросы: Особенно сильно влияет на конкурентные запросы, где требуется сильный сигнал авторитетности для дифференциации результатов.
Когда применяется
- Расчет PageRank: Выполняется периодически в офлайн-режиме для всего графа веба.
- Использование PageRank и Anchor Text: Применяется в реальном времени при обработке каждого поискового запроса для определения релевантности кандидатов и их ранжирования.
Пошаговый алгоритм
Алгоритм состоит из двух основных процессов.
Процесс А: Итеративный расчет PageRank (Офлайн)
- Инициализация: Всем документам (N) присваивается начальный ранг (например, равномерное распределение 1/N).
- Подготовка графа: Обработка «висячих узлов» (страниц без исходящих ссылок), например, путем их временного удаления, чтобы они не поглощали ранг.
- Итерация: Запуск цикла расчета новых значений ранга. Для каждой страницы A ранг рассчитывается по формуле: r(A) = α/N + (1-α) * Σ (r(Bi)/|Bi|).
- (1-α): Вероятность перехода по ссылке (обычно ~0.85).
- r(Bi)/|Bi|: Часть ранга, передаваемая от донора Bi, деленная на общее количество исходящих ссылок донора (нормализация).
- α/N: Вероятность случайного перехода на страницу A (влияние damping factor).
- Нормализация: Сумма рангов всех страниц приводится к 1 после каждой итерации.
- Проверка сходимости: Процесс повторяется до стабилизации значений рангов (достижения steady-state probability).
- Завершение: Возвращение «висячих узлов» и финальный расчет их рангов.
Процесс Б: Применение в поиске (Реальное время)
- Получение запроса.
- Поиск совпадений в контенте: Идентификация документов, содержащих термины запроса.
- Поиск совпадений в анкорах: Идентификация документов, на которые ведут ссылки с anchor text или околоссылочным текстом, соответствующим запросу (даже если сами документы не содержат этих терминов).
- Объединение результатов: Формирование единого набора кандидатов.
- Ранжирование: Сортировка кандидатов с использованием комбинации сигналов, включая PageRank и сигналы текстовой/анкорной релевантности.
Какие данные и как использует
Данные на входе
Патент фокусируется на использовании структуры связей и текста, ассоциированного с ними.
- Ссылочные факторы (Ключевые данные):
- Структура графа: Входящие (backlinks) и исходящие (forward links) ссылки.
- Anchor text: Текст ссылок.
- Околоссылочный текст (Text in the immediate vicinity): Контекст вокруг ссылки.
- Технические и Структурные факторы (Варианты реализации): В патенте упоминаются возможности взвешивания ссылок на основе:
- Домена/Сервера: Ссылки с разных доменов могут весить больше внутренних.
- Позиции ссылки: Ссылки выше на странице могут весить больше.
- Оформления ссылки: Ссылки с крупным шрифтом могут весить больше.
- Временные факторы (Варианты реализации):
- Дата обновления страницы: Ссылкам с недавно обновленных страниц может придаваться больший вес.
- Пользовательские факторы (Варианты реализации):
- Закладки пользователя: Могут использоваться для персонализации PageRank путем корректировки начального распределения рангов.
Какие метрики используются и как они считаются
- PageRank (r): Основная метрика важности. Рассчитывается итеративно.
- Формула расчета: r(A) = α/N + (1-α) * Σ (r(Bi)/|Bi|).
- Нормализация исходящих ссылок (|Bi|): Количество исходящих ссылок донора. Определяет долю передаваемого ранга.
- Damping Factor (α): Константа (обычно ~0.15), используемая для моделирования случайных переходов.
- Математическая модель: Расчет соответствует нахождению главного собственного вектора (principal eigenvector) матрицы вероятностей переходов.
Выводы
- Авторитетность рекурсивна: Ключевая инновация PageRank — важность страницы определяется важностью ссылающихся на нее страниц, а не просто их количеством. Качество ссылок имеет приоритет над количеством.
- Нормализация критична (Link Equity Flow): Ранг страницы-донора делится поровну между всеми исходящими ссылками. Это означает, что ссылка со страницы с небольшим количеством исходящих ссылок передает значительно больше веса, чем со страницы с сотнями ссылок (при равном PageRank доноров).
- Damping Factor и затухание авторитета: Коэффициент затухания (α) гарантирует, что авторитет не передается полностью, а уменьшается с каждым переходом. Это подчеркивает важность получения прямых ссылок от авторитетных источников.
- Anchor Text как внешний сигнал релевантности: Патент юридически защищает использование anchor text и околоссылочного текста для определения релевантности целевой страницы. Анкоры являются мощнейшим сигналом, так как представляют собой внешнюю оценку содержания страницы.
- Предпосылки к взвешиванию ссылок (Reasonable Surfer): Хотя базовая модель предполагает равное деление веса, в патенте упоминаются варианты взвешивания ссылок на основе их видимости, расположения и источника, что закладывает основу для более сложных моделей учета ссылок.
Практика
Best practices (это мы делаем)
- Приоритет качества доноров в линкбилдинге: Сосредоточьтесь на получении ссылок с сайтов с высоким PageRank (авторитетных ресурсов). Качество источника ссылки первично.
- Анализ исходящих ссылок донора: При оценке донора учитывайте количество других исходящих ссылок на странице. Чем их меньше, тем больший вес (Link Equity) получит ваша ссылка благодаря механизму нормализации.
- Оптимизация Anchor Text: Используйте релевантный и описательный anchor text для внешних и внутренних ссылок. Это напрямую влияет на ранжирование целевой страницы по запросам в анкоре (Claim 1).
- Оптимизация околоссылочного текста: Убедитесь, что контент вокруг ссылки (immediate vicinity) тематически релевантен. Это усиливает сигнал релевантности, передаваемый ссылкой (Claim 12).
- Стратегическая внутренняя перелинковка (Скульптинг PageRank): Эффективно распределяйте внутренний PageRank. Направляйте вес от авторитетных страниц сайта (например, главной) на приоритетные для продвижения страницы, контролируя количество исходящих ссылок на страницах-донорах.
Worst practices (это делать не надо)
- Массовая закупка низкокачественных ссылок: Эта тактика неэффективна, так как доноры имеют низкий PageRank и передают минимальный авторитет.
- Размещение в каталогах и на страницах с сотнями исходящих ссылок: Получение ссылок с таких страниц практически не передает PageRank из-за сильного размытия веса (нормализации).
- Создание «ссылочных ферм» (Link Farms): Попытки манипулировать рангом через замкнутые группы сайтов. Damping factor снижает эффективность циркуляции ранга в таких системах. Также патент упоминает возможность понижения веса локальных (внутренних) ссылок.
- Игнорирование анкорного листа: Использование только безанкорных или неинформативных анкоров («тут», «подробнее») упускает возможность передать сильный сигнал релевантности.
Стратегическое значение
Этот патент является фундаментом современного SEO и определяет стратегический вектор развития поиска: от анализа содержания к анализу авторитетности через связи. Он заложил основу для оценки авторитетности сайтов (E-E-A-T в современной интерпретации) через анализ ссылочного графа. Долгосрочная SEO-стратегия должна быть направлена на построение ссылочного профиля, который максимизирует входящий поток PageRank от качественных источников.
Практические примеры
Сценарий 1: Оценка потенциальной ссылки
- Ситуация: Есть возможность получить ссылку из статьи на сайте A или из каталога на сайте B.
- Анализ по патенту:
- Сайт A (статья): Высокий предполагаемый PageRank. В статье всего 5 исходящих ссылок. Ссылка будет с релевантным анкором и окружением.
- Сайт B (каталог): Средний PageRank. На странице 200 исходящих ссылок. Анкор стандартный.
- Применение: Ссылка с сайта A значительно приоритетнее. Она передаст 1/5 ранга страницы A (значительный вес) и даст сильный анкорный/контекстный сигнал. Ссылка с сайта B передаст только 1/200 ранга страницы B (минимальный вес).
Сценарий 2: Оптимизация внутренней перелинковки для Ecommerce
- Ситуация: Главная страница магазина имеет высокий PageRank и 150 ссылок. Страница приоритетной категории находится глубоко в структуре.
- Действие по патенту: Сократить количество ссылок на главной странице до 75 (оптимизация меню, удаление второстепенных блоков). Разместить прямую ссылку на приоритетную категорию на главной странице с оптимизированным анкором.
- Ожидаемый результат: Доля PageRank, передаваемая каждой ссылке с главной, удваивается. Приоритетная категория получает прямой поток авторитета и сильный сигнал релевантности, улучшая свои позиции в поиске.
Вопросы и ответы
В чем ключевая инновация PageRank по сравнению с простым подсчетом ссылок?
Простой подсчет считает все ссылки равными. PageRank вводит рекурсивное определение важности: ссылка с авторитетного источника весит больше, чем ссылка с неавторитетного. Таким образом, PageRank измеряет не количество ссылок, а их совокупную авторитетность, делая качество донора критически важным фактором.
Как количество исходящих ссылок на странице влияет на передаваемый вес (Link Equity)?
Влияние обратно пропорциональное. Ранг страницы-донора делится поровну между всеми исходящими ссылками (нормализация). Если на странице 10 ссылок, каждая передает 1/10 ранга. Если 100 ссылок, то только 1/100. Для SEO это означает, что ссылки со страниц с небольшим количеством других исходящих ссылок значительно ценнее.
Что такое Damping Factor (коэффициент затухания) и как он влияет на SEO?
Damping Factor (обычно α=0.15) моделирует вероятность случайного перехода пользователя на любую страницу. Это означает, что по ссылкам передается только около 85% (1-α) PageRank страницы. Для SEO это важно, так как авторитет «затухает» с каждым кликом. Важно получать ссылки от авторитетных ресурсов напрямую, а не через цепочку посредников.
Может ли страница ранжироваться по запросу, которого нет в ее тексте?
Да, и этот патент (Claims 1 и 12) описывает этот механизм. Если anchor text или околоссылочный текст входящей ссылки соответствует запросу, система может посчитать целевую страницу релевантной. Это подчеркивает критическую важность использования релевантных анкоров во внешнем и внутреннем линкбилдинге.
Учитывается ли околоссылочный текст при определении релевантности?
Да, это явно указано в Claim 12. Текст в непосредственной близости (immediate vicinity) от анкора используется как сигнал релевантности для страницы-акцептора. Это подчеркивает важность создания релевантного тематического контекста вокруг размещаемых ссылок.
Все ли ссылки на странице передают одинаковый вес?
В базовой модели PageRank вес делится поровну. Однако в спецификации патента упоминаются варианты придания большего веса более заметным ссылкам (расположенным выше, выделенным шрифтом). Это заложило основу для более поздних концепций (например, Reasonable Surfer Model), предполагающих, что вес зависит от вероятности клика.
Предлагает ли патент способы борьбы со ссылочным спамом?
Да. Сам механизм PageRank устойчив к спаму, так как требует ссылок с авторитетных ресурсов. Кроме того, в патенте предлагаются модификации, такие как придание меньшего веса внутренним ссылкам (в пределах одного сервера или домена) по сравнению с внешними, так как внешними ссылками сложнее манипулировать.
Что такое «висячие узлы» (Dangling Nodes) и как они влияют на PageRank?
Это страницы без исходящих ссылок. В базовой модели они «поглощают» входящий ранг, не передавая его дальше (потеря ссылочного веса). Алгоритм обрабатывает это либо путем временного удаления таких узлов из расчета, либо за счет Damping Factor, который перераспределяет ранг обратно в систему через случайные переходы.
Описывает ли этот патент персонализированные результаты поиска?
Да, патент закладывает основу для персонализации (Personalized PageRank). В описании предлагается изменять начальное распределение рангов (initial vector), присваивая более высокую начальную важность закладкам пользователя или его домашней странице. Это позволяет адаптировать расчет авторитетности под интересы пользователя.
Актуален ли описанный алгоритм PageRank сегодня?
Принципы, заложенные в этом патенте, абсолютно актуальны и составляют ядро алгоритмов ранжирования Google. Хотя современная реализация стала значительно сложнее и интегрирована с системами машинного обучения, базовая концепция передачи авторитета через ссылки, нормализация веса и использование анкорного текста остаются фундаментальными для SEO.