
Патент описывает инфраструктуру Google для распределенного вычисления кратчайших путей в огромных графах, таких как веб-граф. Система позволяет эффективно и отказоустойчиво рассчитывать расстояние от любого узла до ближайших авторитетных «Seed Nodes». Это foundational технология, которая делает возможным применение алгоритмов ранжирования, основанных на анализе ссылочного графа и распространении авторитетности (например, типа TrustRank) в масштабах всего интернета.
Патент решает фундаментальную инфраструктурную проблему: как эффективно вычислять кратчайшие пути (shortest paths) в экстремально больших направленных графах (с триллионами ребер), таких как граф веб-ссылок. Стандартные алгоритмы (например, Dijkstra или Bellman-Ford) плохо масштабируются и неэффективны в распределенной среде. Система должна обрабатывать граф, который не помещается в оперативную память одного сервера, и быть устойчивой к сбоям оборудования, которые неизбежны при использовании тысяч компьютеров.
Запатентована система для масштабируемого и отказоустойчивого расчета расстояний в графе. Изобретение описывает распределенную архитектуру, которая разделяет граф на сегменты (shards) и обрабатывает их параллельно на множестве серверов. Система предназначена для нахождения n кратчайших путей от набора предопределенных авторитетных узлов (Seed Nodes) до каждого узла в графе. Это инфраструктурное решение, позволяющее Google применять сложные алгоритмы анализа ссылок в масштабах всего веба.
Система работает путем распределения вычислений:
shards, каждый из которых назначается отдельному серверу (shard server).Link Table) хранится на диске, так как слишком велика для оперативной памяти. Текущие рассчитанные расстояния (Distance Table) хранятся в RAM для быстрого доступа.Seed Nodes. Если сервер находит более короткий путь к Seed Node для своего узла, он помечает его как «грязный» (dirty).distance updates) серверам, владеющим узлами, на которые ссылается обновленный узел. Это вызывает каскад обновлений по всему графу.Adaptive Propagation Threshold) для уменьшения сетевого трафика и количества избыточных обновлений.checkpoints) в распределенной файловой системе (например, GFS). В случае сбоя сервер восстанавливается из последней контрольной точки и запрашивает пропущенные обновления у других серверов.Высокая. Хотя патент подан в 2009 году, описанные в нем проблемы масштабирования и отказоустойчивости при анализе графов остаются центральными для поисковых систем. Веб-граф постоянно растет, и потребность в эффективной инфраструктуре для расчета ссылочных метрик (таких как PageRank или метрики, основанные на близости к авторитетным источникам) критически важна. Описанная архитектура является foundational для современных распределенных систем обработки графов.
Патент имеет высокое стратегическое значение для SEO, хотя и является инфраструктурным. Он не описывает алгоритм ранжирования, но описывает систему, которая делает возможным применение алгоритмов, основанных на близости к доверенным источникам (например, типа TrustRank), в масштабах всего интернета. Понимание этого патента подтверждает, что Google обладает технической возможностью эффективно рассчитывать, насколько «далеко» (по ссылкам) находится любой сайт от набора самых авторитетных ресурсов. Это подчеркивает критическую важность качества ссылочного профиля и близости к доверенным источникам.
shard server в надежном хранилище (например, GFS). Представляет собой инкрементальный снимок состояния вычислений (изменения в Distance Table и Leaf Table) на определенный момент времени. Используется для восстановления состояния сервера после сбоя.Distance Table, указывающий, что информация о ближайшем расстоянии для узла изменилась (найден более короткий путь) и это изменение необходимо распространить на узлы, связанные исходящими ссылками.shard server. Для каждого узла в шарде она содержит n пар (Seed Node, расстояние), представляющих текущую лучшую информацию о n ближайших Seed Nodes и расстояниях до них.checkpoints.Distance Table, но предназначенная для «листьев» — узлов без исходящих ссылок (или узлов, чьи исходящие ссылки неизвестны системе). Поскольку листья не распространяют обновления, для них не нужно хранить Dirty Bit. Может храниться частично в RAM и частично на диске.shard server. Представляет собой часть графа ссылок, назначенную данному шарду. Содержит информацию об исходящих ссылках для каждого узла.Link Table, Distance Table и Leaf Table, а также за обмен обновлениями с другими серверами.Патент фокусируется на инфраструктуре и методологии распределенных вычислений, а не на использовании результатов в ранжировании.
Claim 1 (Независимый пункт, Система): Описывает основную архитектуру системы.
Link Table).Distance Table) рассчитывается параллельно для каждого ресурса в каждом шарде с использованием вычисления ближайшего Seed Node (nearest seed computation) на сервере, которому назначен шард, с использованием данных о ссылках.Claim 9 (Независимый пункт, Метод): Описывает метод, соответствующий системе в Claim 1.
Distance Table для ресурсов в каждом шарде с помощью nearest seed computation на назначенном сервере.Claim 4 и 12 (Зависимые): Детализируют процесс вычисления Distance Table.
Вычисление включает определение n ближайших Seed Nodes к узлу, представляющему веб-ресурс, и соответствующих расстояний от узла до каждого из этих n ближайших Seed Nodes. n — это заранее определенное небольшое положительное целое число (например, в Claim 5 и 13 указано, что n может быть равно трем). Данные, идентифицирующие n ближайших Seed Nodes и расстояния, сохраняются в Distance Table.
Claim 8 и 16 (Зависимые): Детализируют механизм параллельного вычисления.
На каждом сервере генерируется начальная Distance Table. Затем сервер получает от других серверов данные о расстояниях от Seed Nodes до ресурсов в своем шарде. Начальная Distance Table обновляется с использованием этих полученных данных.
Изобретение относится к этапу обработки данных для подготовки сигналов ранжирования. Это инфраструктурная система, обеспечивающая работу других алгоритмов.
INDEXING – Индексирование и извлечение признаков
Основное применение патента. Система используется для анализа графа ссылок и вычисления статических (не зависящих от запроса) сигналов авторитетности или качества, основанных на структуре графа.
Seed Nodes. Эти расстояния затем могут использоваться как признаки (сигналы) качества или авторитетности для этапа RANKING (как указано в Claim 2).Взаимодействие компонентов:
Master Server) и множества Shard Servers.Shard Servers взаимодействуют друг с другом для обмена обновлениями расстояний (distance updates).GFS) для чтения исходного графа и записи/чтения checkpoints.Входные данные:
Seed Nodes.Выходные данные:
Merged Distance Table) — фактически или виртуально объединенные Distance Tables и Leaf Tables всех шардов. Для каждого узла в графе эта таблица содержит идентификаторы n ближайших Seed Nodes и расстояния до них.Ключевые технические особенности:
checkpoints и механизм восстановления после сбоев без необходимости перезапуска всего вычисления.Adaptive Propagation Threshold для управления сетевым трафиком и техники оптимизации дискового ввода/вывода для доступа к Link Table.Патент описывает инфраструктуру, поэтому он влияет на все типы контента, запросов и тематик, где применяются алгоритмы ранжирования, использующие анализ графа ссылок и распространение авторитетности.
YMYL-тематиках, где сигналы доверия и авторитетности критичны.weighted directed graph).Процесс работы распределенной системы вычисления кратчайших путей.
Этап 1: Инициализация и Подготовка
Shard Server копирует свою часть графа (Link Table) из GFS на локальные диски. Данные реплицируются на несколько дисков для отказоустойчивости и балансировки нагрузки.Distance Table и Leaf Table для своих узлов.Seed Nodes. Для Seed Nodes, находящихся в их шарде, они инициализируют расстояния (возможно, с учетом веса Seed Node) и помечают их как dirty для начала распространения.Этап 2: Итеративное вычисление и распространение (Параллельный процесс на каждом сервере)
Distance Table в поисках «грязных» записей (dirty entries), которые удовлетворяют текущему Adaptive Propagation Threshold (т.е. расстояние достаточно мало для распространения).Link Table (на диске), чтобы определить исходящие ссылки и целевые узлы.Seed Node (расстояние до текущего узла + вес ссылки).Seed Node, новое расстояние) отправляются на серверы, владеющие целевыми узлами. После отправки запись в Distance Table помечается как «чистая» (clean).Seed Node в Distance Table или Leaf Table. dirty (для Distance Table).Adaptive Propagation Threshold для поддержания заданной частоты распространения обновлений.Этап 3: Отказоустойчивость и Контрольные точки
checkpoints (изменения в Distance Table и Leaf Table с момента последнего сохранения) в GFS.checkpoints и отправляет «Hello» сообщения другим серверам с временной меткой последней контрольной точки.Этап 4: Завершение вычисления
Shard Servers (количество принятых обновлений, наличие «грязных» записей).checkpoints.checkpoints и файлы листьев объединяются (фактически или виртуально) для формирования итоговой Merged Distance Table.Патент фокусируется исключительно на инфраструктуре для обработки графовых данных.
weighted digraph), что подразумевает использование весов ссылок (weights assigned to the edges) при расчете расстояний.Seed Nodes. Идентификаторы ресурсов (URL clusters), где кластеры URL, ведущих на одну страницу, обрабатываются как один узел.В патенте не упоминается использование контентных, технических, поведенческих, временных или других факторов для расчета расстояний, хотя они могут использоваться для определения весов ссылок или выбора Seed Nodes на предварительном этапе.
Seed Node до целевого узла.n (например, 3) Seed Nodes с наименьшим Shortest Path Distance.Adaptive Propagation Threshold (например, поддержание частоты на уровне 1 из 6 обновлений).Seed Nodes), в масштабах всего веба.Seed Nodes — заранее отобранных авторитетных сайтов. Расчеты фокусируются на том, насколько короток путь от этих сайтов до всех остальных ресурсов в интернете.Adaptive Propagation Threshold, чтобы сделать анализ графа быстрым и ресурсоэффективным, позволяя чаще обновлять ссылочные метрики.Хотя патент инфраструктурный, он подтверждает важность стратегий, основанных на понимании распространения авторитетности от доверенных источников.
Seed Nodes. Качество ссылочного окружения (link neighborhood) имеет решающее значение.Seed Node или ресурс, близкий к ним. Это достигается за счет высокого качества контента, экспертности и сильных сигналов доверия.Seed Nodes или близких к ним) получают ссылки конкуренты. Это помогает определить ключевые источники авторитетности в нише.Seed Nodes (спам, PBN низкого качества, ссылочные биржи), неэффективно. Описанная система позволяет Google точно рассчитать это расстояние для каждого сайта.Seed Nodes.Этот патент имеет важное стратегическое значение, так как он описывает движок, который позволяет Google анализировать доверие и авторитетность в масштабах всего интернета. Он подтверждает, что модель распространения авторитетности от набора доверенных сайтов (Seed Nodes) является важной частью инфраструктуры Google. Для долгосрочной SEO-стратегии это означает, что построение качественного ссылочного профиля, основанного на связях с авторитетными и релевантными источниками, является фундаментальным требованием.
Сценарий: Оценка качества донора ссылки с использованием концепции Seed Nodes
Seed Nodes? Если нет, получает ли он ссылки от сайтов, которые ссылаются на Seed Nodes (расстояние 2)?Seed Nodes. Например, ссылка с локального новостного сайта, на который ссылается крупное федеральное издание (потенциальный Seed Node), будет значительно ценнее, чем ссылка с форума, который находится в 5-6 кликах от любого авторитетного ресурса. Описанная в патенте система позволяет Google рассчитать эти расстояния точно и эффективно.Описывает ли этот патент алгоритм TrustRank?
Патент не использует термин TrustRank и не описывает конкретный алгоритм ранжирования. Он описывает инфраструктуру (Scalable System) для вычисления кратчайших путей от Seed Nodes до всех остальных узлов графа. Алгоритмы типа TrustRank используют эти расстояния для оценки авторитетности или качества страницы. Таким образом, этот патент описывает технологию, которая делает возможным применение TrustRank или аналогичных алгоритмов в масштабах Google.
Что такое «Seed Nodes» и как они выбираются?
Seed Nodes — это предварительно выбранные узлы в графе, которые считаются авторитетными или надежными. Патент не детализирует критерии выбора, но упоминает, что они могут быть выбраны на основе надежности, разнообразия тематики или других характеристик, частично или полностью вручную. На практике это обычно самые авторитетные сайты в интернете (например, крупные СМИ, правительственные сайты, университеты).
Говорится ли в патенте, что близость к Seed Nodes улучшает ранжирование?
Напрямую нет, так как это инфраструктурный патент. Однако в разделе «Background» патент ссылается на другую заявку Google (Ser. No. 11/546,755), которая называется «Method and apparatus for producing a ranking for pages using distances in a web-link graph». Кроме того, Claim 2 данного патента упоминает ранжирование веб-ресурсов на основе этого вычисления. Это подтверждает, что целью создания данной инфраструктуры является использование рассчитанных расстояний для ранжирования.
Учитывает ли система вес ссылок или только количество кликов?
Система спроектирована для работы с взвешенными направленными графами (weighted digraph). Это означает, что она учитывает вес (или длину) каждого ребра (ссылки) при расчете кратчайшего пути. Таким образом, учитывается не просто количество кликов, а сумма весов ссылок на пути от Seed Node.
Что означает «n ближайших Seed Nodes»? Почему не один?
Система находит n (например, 3) ближайших Seed Nodes для каждого узла. Использование нескольких ближайших Seed Nodes делает оценку авторитетности более надежной и устойчивой к манипуляциям. Это позволяет оценить авторитетность узла в контексте различных кластеров доверия в интернете.
Что такое «Adaptive Propagation Threshold» и как это влияет на SEO?
Это механизм оптимизации внутри системы Google, который снижает нагрузку на сеть, не распространяя все обновления сразу, а приоритизируя самые короткие расстояния. На SEO это напрямую не влияет, но это позволяет Google выполнять вычисления быстрее и эффективнее, что может приводить к более частым обновлениям ссылочных метрик в индексе.
Насколько важна отказоустойчивость (Fault Tolerance) в этом патенте?
Она критически важна. Анализ всего веб-графа занимает много времени и ресурсов. Механизмы Checkpointing и восстановления позволяют системе пережить сбои отдельных серверов без необходимости перезапуска всего глобального вычисления. Это гарантирует, что ссылочные метрики будут рассчитаны надежно.
Как этот патент связан с PageRank?
Это разные типы анализа графа. PageRank рассчитывает вероятность попадания на узел при случайном блуждании по графу. Эта система рассчитывает кратчайшее расстояние до конкретных авторитетных узлов (Seed Nodes). Оба являются методами оценки авторитетности на основе ссылок, но используют разные математические модели. Описанная инфраструктура потенциально может использоваться и для других графовых вычислений.
Если я получу ссылку с очень авторитетного сайта (Seed Node), гарантирует ли это высокие позиции?
Это значительно уменьшит расстояние до Seed Node, что является сильным сигналом авторитетности. Однако ранжирование зависит от сотен факторов, включая релевантность запросу, качество контента и намерение пользователя. Близость к Seed Node — это важный, но не единственный фактор успеха.
Как SEO-специалисту использовать информацию из этого патента на практике?
Необходимо сместить фокус с количества ссылок на их качество и структуру связей. Стратегия линкбилдинга должна быть направлена на сокращение дистанции до авторитетных источников в вашей нише. Получение ссылок от сайтов, которые сами имеют сильные связи с доверенными ресурсами, должно быть приоритетом.

EEAT и качество
Ссылки

Ссылки
EEAT и качество
Антиспам

Knowledge Graph
Индексация
Local SEO

Структура сайта
Техническое SEO
SERP

Knowledge Graph
Свежесть контента
Семантика и интент

Ссылки
Индексация
Поведенческие сигналы

Ссылки
Индексация
Техническое SEO

Поведенческие сигналы
SERP

Local SEO
Семантика и интент
Поведенческие сигналы

Персонализация
Поведенческие сигналы
SERP

EEAT и качество
Поведенческие сигналы
SERP

Семантика и интент
Персонализация
Поведенческие сигналы

Семантика и интент
SERP
Ссылки

Семантика и интент
Структура сайта
Ссылки

Персонализация
Поведенческие сигналы
SERP
