Как поисковые системы могут использовать реальные клики по ссылкам вместо модели случайного серфера для расчета PageRank

Патент описывает модификацию алгоритма PageRank. Вместо предположения, что все ссылки на странице имеют равную вероятность клика (модель случайного серфера), система измеряет реальное поведение пользователей. Вес ссылки определяется фактической частотой ее использования, что снижает эффективность ссылок, по которым никто не кликает.

Описание

Какую задачу решает

Патент решает проблему неточности «модели случайного серфера» (random surfer model) в классическом алгоритме PageRank. Классическая модель предполагает, что пользователь с равной вероятностью перейдет по любой ссылке на странице (равномерное распределение вероятности). Это не соответствует реальности, так как пользователи предпочитают одни ссылки другим. Изобретение предлагает учитывать фактическое поведение пользователей для более точной оценки важности ссылок и передачи веса.

Что запатентовано

Запатентован метод расчета ранга страницы (модифицированный PageRank), который использует данные о реальных кликах пользователей по ссылкам. Система заменяет теоретическую равномерную вероятность клика (1/L) на измеримую дискретную вероятность (Pij), основанную на собранной статистике. Вес, передаваемый по ссылке, определяется не фактом ее наличия, а вероятностью того, что пользователь по ней перейдет.

Как это работает

Система работает следующим образом:

Сбор данных: Переходы пользователей между страницами отслеживаются, например, с помощью браузерных расширений (Browser Extensions) на стороне клиента.
Подсчет и хранение: Для каждой ссылки на каждой странице ведется счетчик кликов (Vij). Патент предлагает хранить эти данные в децентрализованной P2P-сети с использованием Distributed Hash Table (DHT), хотя упоминаются и централизованные системы.
Расчет вероятности: Вероятность перехода (Pij) рассчитывается как отношение кликов по конкретной ссылке к общему числу кликов по всем исходящим ссылкам на этой странице (Vj).
Модификация PageRank: Рассчитанные вероятности Pij подставляются в формулу PageRank.

Актуальность для SEO

Высокая (Концептуально). Концепция использования поведенческих данных для оценки ссылок (отход от модели случайного серфера) крайне актуальна в 2025 году. Однако описанная техническая реализация (сбор через сторонние расширения и хранение в P2P/DHT) отличается от централизованной инфраструктуры крупных поисковых систем, которые используют собственные источники данных (например, браузеры). Примечание: это не патент Google.

Важность для SEO

Значительное влияние (85/100). Этот патент описывает механизм, который радикально меняет подход к оценке ссылок. Если поисковая система использует подобный подход, ценность приобретают только те ссылки, которые реально генерируют трафик. Ссылки, по которым никто не кликает (например, в футере), перестают передавать значительный вес, независимо от авторитетности донора.

Детальный разбор

Термины и определения

Browser Extension (Браузерное расширение): Клиентское ПО, предлагаемое в патенте для мониторинга кликов пользователя по ссылкам.
Damping factor (d) (Коэффициент затухания): Вероятность того, что пользователь продолжит кликать по ссылкам на текущей странице, а не перейдет на случайную страницу в сети.
Distributed Hash Table (DHT) (Распределенная хеш-таблица): Метод для децентрализованного хранения данных (счетчиков кликов) в P2P-сети. Используется для определения узла, ответственного за хранение данных конкретного URL.
DHT.put / DHT.get: Операции для хранения и извлечения данных в DHT. DHT.put используется для отправки запроса на увеличение счетчика.
Pij (Вероятность перехода): Дискретная вероятность того, что пользователь перейдет по ссылке на страницу i, находясь на странице j. Ключевое нововведение, заменяющее равномерную вероятность.
Random Surfer Model (Модель случайного серфера): Основа классического PageRank. Предполагает, что пользователь выбирает любую ссылку на странице с равной вероятностью (1/L).
Vij (Счетчик кликов): Количество раз, когда пользователи перешли по ссылке на страницу i со страницы j.
Vj (Общее число кликов): Сумма всех кликов по всем исходящим ссылкам на странице j.

Ключевые утверждения (Анализ Claims)

Примечание: В данном документе Claims 1-9 отменены (canceled). Анализ основан на Claims 10-29.

Claim 10 (Независимый пункт): Описывает инфраструктурный метод сбора и хранения данных о кликах в P2P сети.

Предоставление документа со ссылками клиенту. Значения (счетчики) для ссылок хранятся в памяти устройств в peer-to-peer network.
Определение выбора (клика) первой ссылки.
Определение хеша адреса (URL), связанного с этой ссылкой.
Определение устройства в сети, которое хранит счетчик для этой ссылки, на основе хеша адреса.
Отправка сообщения этому устройству для увеличения значения (счетчика), чтобы отслеживать количество выборов ссылки.

Это описание механизма распределенного сбора поведенческих данных. Система использует хеширование URL для определения места хранения счетчика в P2P сети.

Claim 11, 12, 13 (Зависимые пункты): Детализируют механизм хранения и обновления.

Пространство адресов разделяется с помощью Distributed Hash Table (DHT) (Claim 11).
Сообщение для обновления счетчика является distributed hash table put message (Claim 12).
Это сообщение содержит хеш адреса и инструкцию для увеличения значения счетчика (Claim 13).

Claims 14, 15, 16 (Зависимые пункты): Связывают механизм сбора данных с ранжированием.

Система вычисляет оценку (score) для целевого документа на основе собранного количества кликов (Claim 14).
Для этого сначала определяется вероятность выбора этой ссылки относительно других ссылок на странице (Claim 15).
Итоговая оценка для целевого документа вычисляется на основе этой определенной вероятности (Claim 16).

Эти пункты подтверждают цель изобретения: данные о кликах (Vij) используются для расчета вероятностей переходов (Pij), которые применяются для расчета оценки ранжирования (модифицированного PageRank).

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, фокусируясь на сборе поведенческих данных и расчете глобальных сигналов авторитетности.

CRAWLING (Data Acquisition) – Сбор данных
Патент вводит механизм сбора данных, отличный от традиционного краулинга: мониторинг поведения пользователей на стороне клиента (например, с помощью Browser Extensions) для сбора данных о реальных переходах по ссылкам.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит агрегация поведенческих данных (счетчиков кликов Vij), собранных из внешних источников, и расчет ключевого признака — вероятности клика (Pij). Также здесь происходит итеративный расчет модифицированного PageRank для всего индекса на основе этих вероятностей.

RANKING – Ранжирование
Предварительно рассчитанные значения модифицированного PageRank используются как один из ключевых сигналов авторитетности (наряду с другими сигналами) для сортировки документов в ответ на запрос пользователя.

Входные данные:

Структура ссылочного графа (URL и связи между ними).
Потоковые данные о кликах (URL источника, URL цели) от клиентских приложений.

Выходные данные:

Таблица вероятностей перехода по ссылкам (Pij).
Значения модифицированного PageRank для каждой страницы.

На что влияет

Оценка качества ссылок: Кардинально меняет оценку эффективности внутренних и внешних ссылок. Сильно понижает ценность ссылок, которые существуют формально, но не генерируют трафик (сквозные футерные ссылки, ссылки в невидимых блоках).
Структура сайта и UX: Вес ссылок в навигационном меню, футере и основном контенте будет сильно дифференцирован, так как их фактическая кликабельность (и, следовательно, Pij) существенно различается.
Все типы контента: Поскольку PageRank является глобальным сигналом, механизм влияет на ранжирование всех документов в индексе.

Когда применяется

Сбор данных: Происходит непрерывно по мере того, как пользователи перемещаются по сети.
Обновление счетчиков: Происходит в реальном времени при каждом клике через механизм сообщений (например, DHT.put).
Расчет PageRank: Происходит периодически (в офлайн-режиме или инкрементально) для всего индекса, так как это ресурсоемкий итеративный процесс.

Пошаговый алгоритм

Этап 1: Сбор и хранение данных (Непрерывно / Реальное время)

Пользователь кликает на ссылку со страницы j на страницу i.
Клиентское ПО (Browser extension) фиксирует этот переход (источник pgj, цель pgi).
Система определяет место хранения счетчика Vij. Если используется DHT, вычисляется хеш URL и запрос маршрутизируется на ответственный узел P2P-сети.
Система отправляет запрос (например, DHT.put) на обновление счетчика Vij. Пример из патента: DHT.put(hash(URL(pgj)), «INC(URL(pgi),1)»).

Этап 2: Агрегация и расчет вероятностей (Периодически / Офлайн)

Система собирает все счетчики Vij для страницы j.
Рассчитывается общее количество кликов Vj по всем исходящим ссылкам со страницы j (Vj = Σi Vij).
Для каждой исходящей ссылки рассчитывается фактическая вероятность перехода Pij (Pij = Vij / Vj).

Этап 3: Расчет модифицированного PageRank (Периодически / Офлайн)

Запуск итеративного расчета PageRank. На каждом шаге ранг страницы пересчитывается по модифицированной формуле: PR(pgi) = (1-d)/N + d * Σj (PR(pgj) * Pij). (Где d – Damping factor, N – общее количество страниц).
Процесс повторяется до достижения сходимости значений.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Ключевые данные патента.
- Количество кликов (Vij) по конкретной ссылке на странице.
- Общее количество кликов (Vj) по всем исходящим ссылкам на странице.
Ссылочные факторы: Факт наличия ссылки между страницей-источником и страницей-целью. Необходимы для построения графа, по которому рассчитывается PageRank.
Технические факторы: URL источника (упоминается HTTP Referer) и URL цели, используемые для идентификации переходов.

Какие метрики используются и как они считаются

Вероятность перехода (Pij): Метрика, определяющая, насколько вероятно, что пользователь выберет конкретную ссылку на странице. Заменяет модель случайного серфера.
- Формула: Pij = Vij / Vj.
Модифицированный PageRank (PR(pgi)): Итоговая оценка важности страницы, рассчитанная на основе фактических переходов. Вес, передаваемый от страницы j к странице i, теперь равен PR(pgj) * Pij.
- Формула: PR(pgi) = (1-d)/N + d * Σj (PR(pgj) * Pij).
Методы вычислений: Используется стандартный итеративный алгоритм расчета PageRank. Для инфраструктуры сбора данных предлагается использовать Distributed Hash Table (DHT) в P2P сети.

Выводы

Фундаментальный отход от модели «Случайного Серфера»: Патент предлагает критическое изменение в расчете PageRank, заменяя теоретическую (равномерную) вероятность перехода по ссылке на фактическую (Pij), основанную на реальном поведении пользователей.
Ценность ссылки напрямую зависит от трафика по ней: Вес, передаваемый по ссылке (link equity), определяется тем, сколько раз по ней кликают. Ссылка, по которой не кликают (Pij=0), не передает вес, даже если она расположена на очень авторитетной странице.
Критическая важность расположения и заметности ссылок (SEO+UX): Положение, видимость, контекст и анкорный текст ссылки напрямую влияют на вероятность клика (Pij) и, следовательно, на передаваемый ссылочный вес. Это тесно связывает SEO и UX/UI.
Прямая интеграция поведенческих факторов в ссылочное ранжирование: Это конкретный механизм того, как данные о трафике и кликах могут быть интегрированы в ядро алгоритма оценки авторитетности.
Контекст реализации: Хотя концепция крайне важна, предложенная инфраструктура (сбор через сторонние расширения и хранение в P2P/DHT) является специфичной для патента и отличается от того, как крупные поисковые системы (например, Google) собирают и обрабатывают данные.

Практика

Best practices (это мы делаем)

Оптимизация внутренней перелинковки для реальных переходов: Размещать внутренние ссылки так, чтобы они были максимально полезны пользователю и стимулировали переходы. Использовать заметные контекстные ссылки в основном контенте и эффективные блоки навигации. Ссылки должны помогать пользователю решать его задачу, а не просто существовать для SEO.
Анализ карты кликов и UX: Использовать инструменты веб-аналитики (карты кликов), чтобы понять, какие элементы навигации и ссылки реально используются. Оптимизировать их расположение и оформление для увеличения Pij.
Качественный линкбилдинг, ориентированный на трафик: При получении внешних ссылок стратегически важно, чтобы они размещались на релевантных страницах с реальной аудиторией и в таком контексте (основной контент), который стимулирует переход на ваш сайт. Ссылки, генерирующие реферальный трафик, будут передавать максимальный вес.
Оптимизация анкоров и околоссылочного текста: Текст ссылки и ее окружение должны быть релевантными и мотивировать пользователя совершить клик, что напрямую влияет на вероятность Pij.

Worst practices (это делать не надо)

Массовая закупка ссылок на биржах/агрегаторах: Ссылки со страниц, которые никто не посещает, или расположенные в блоках, которые никто не видит, не будут передавать вес согласно этой модели.
Злоупотребление сквозными ссылками в футере/сайдбаре: Если по этим ссылкам редко кликают относительно других ссылок на странице, они становятся практически бесполезными для передачи PageRank.
Скрытие ссылок или маскировка: Ссылки, которые не предназначены для кликов реальными пользователями, не работают в этой модели.
Игнорирование юзабилити и дизайна навигации: Плохая навигация и незаметные ссылки приводят к низким значениям Pij для важных страниц, что снижает эффективность передачи внутреннего веса.

Стратегическое значение

Патент подтверждает критическую важность интеграции SEO и UX/UI. Стратегия ранжирования смещается от формального наличия ссылок к их фактической полезности и использованию. Это делает многие традиционные, манипулятивные методы линкбилдинга неэффективными и подчеркивает необходимость построения ссылочного профиля (внутреннего и внешнего), который реально взаимодействует с аудиторией. Концепция, которую можно назвать «TrafficRank», становится более актуальной, чем классический PageRank.

Практические примеры

Сценарий: Сравнение эффективности бэклинков в модели User Driven Ranking

Ситуация: Получены две обратные ссылки:

Ссылка А: С авторитетного новостного сайта (Высокий PR), но в блоке «Партнеры» в футере.
Ссылка Б: С тематического блога (Средний PR), но в основном тексте популярной статьи как рекомендация.

Анализ по классической модели (Random Surfer): Ссылка А передает больший вес из-за высокой авторитетности донора, так как вероятность клика считается равномерной.

Анализ по модели из патента (User Driven):

Сбор данных: Система измеряет клики.
Расчет для Ссылки А: Получает Vij=5 кликов. Общее число исходящих кликов на странице Vj=10000. Вероятность Pij = 5 / 10000 = 0.0005.
Расчет для Ссылки Б: Получает Vij=500 кликов. Общее число исходящих кликов на странице Vj=2000. Вероятность Pij = 500 / 2000 = 0.25.
Результат: Ссылка Б передаст значительно больший вес, так как ее фактическая вероятность использования (Pij) в 500 раз выше, что может компенсировать меньшую общую авторитетность донора (PR(pgj)).

Вопросы и ответы

Чем описанный алгоритм отличается от классического PageRank?

Классический PageRank использует модель «случайного серфера», предполагая, что любая ссылка на странице имеет равную вероятность клика (1/L). Описанный патент заменяет это предположение фактическими данными о поведении пользователей. Вес распределяется пропорционально тому, как часто пользователи реально кликают по каждой ссылке (вероятность Pij).

Означает ли это, что ссылка, по которой никто не кликает, вообще не передает вес?

Да, согласно формуле в этой модели. Если счетчик кликов Vij для ссылки равен нулю, то вероятность перехода Pij также равна нулю. При подстановке нуля в формулу PageRank, эта ссылка не будет участвовать в передаче веса от страницы-донора к странице-акцептору.

Как система собирает данные о кликах пользователей?

В патенте предлагается использовать клиентские приложения, в частности Browser Extensions (браузерные расширения), установленные у пользователей. Когда пользователь переходит по ссылке, расширение фиксирует это событие и отправляет данные для обновления счетчика кликов.

Является ли этот патент доказательством того, что Google использует именно этот механизм?

Нет. Этот патент подан не Google. Хотя Google может применять схожие концепции (использование поведенческих данных), конкретная реализация, описанная здесь (особенно P2P/DHT инфраструктура и сбор через сторонние расширения), скорее всего, отличается от технологий Google, которые используют централизованные системы и собственные источники данных (например, Chrome).

Как это влияет на ценность ссылок из футера или сайдбара?

Ценность таких ссылок значительно снижается. Поскольку пользователи обычно реже кликают по ссылкам в футере или перегруженных сайдбарах по сравнению со ссылками в основном контенте, их вероятность Pij будет низкой. Следовательно, они будут передавать минимальный вес.

Как оптимизировать внутреннюю перелинковку с учетом этого патента?

Фокус смещается на юзабилити и генерацию внутренних переходов. Ссылки должны быть заметными, контекстуальными и расположенными там, где пользователь ожидает их увидеть. Необходимо анализировать карты кликов и оптимизировать навигацию, чтобы увеличить Pij для важных страниц.

Как меняется стратегия линкбилдинга (получения внешних ссылок)?

Приоритетом становится получение ссылок, которые генерируют реальный реферальный трафик. Ссылки с авторитетных, но не посещаемых страниц, или ссылки, спрятанные в невидимых блоках, теряют ценность. Качественный outreach и контент-маркетинг, направленные на вовлечение аудитории, становятся ключевыми стратегиями.

Влияет ли дизайн и расположение ссылки на передаваемый вес?

Да, косвенно, но очень сильно. Дизайн и расположение влияют на заметность ссылки и вероятность того, что пользователь по ней кликнет (CTR ссылки). Чем выше кликабельность, тем выше вероятность Pij и тем больше веса передаст ссылка. Поэтому оптимизация UX/UI становится важной частью SEO.

Что важнее в этой модели: авторитетность донора или кликабельность ссылки?

Оба фактора важны, так как они перемножаются в формуле: PR(pgj) * Pij. Высокоавторитетный донор с низкой кликабельностью ссылки может передать меньше веса, чем среднеавторитетный донор с очень высокой кликабельностью ссылки. Идеальная ссылка – это кликабельная ссылка с авторитетного ресурса.

Если на странице всего одна исходящая ссылка, получит ли она 100% веса?

Да. Если на странице j есть только одна ссылка на страницу i, то количество кликов по ней Vij будет равно общему количеству кликов Vj. Следовательно, вероятность Pij будет равна 1 (или 100%). В этом случае страница-донор передаст максимально возможный вес через эту ссылку (с учетом коэффициента затухания d).