Как Google рассчитывает авторитетность и ранжирует сайты, вычисляя кратчайшие пути до доверенных источников (Seeds) в Веб-графе

Google использует масштабируемую распределенную систему для анализа огромных графов, таких как Веб-граф (триллионы связей). Система вычисляет кратчайшие пути от каждого узла (сайта) до набора предопределенных авторитетных источников («Seeds»). Эти расстояния используются для расчета метрик авторитетности и ранжирования сайтов: чем ближе сайт к доверенным источникам, тем выше его предполагаемое качество.

Описание

Какую задачу решает

Патент решает фундаментальную инфраструктурную проблему: неспособность традиционных алгоритмов поиска кратчайшего пути (например, Dijkstra или Bellman-Ford) масштабироваться для анализа графов экстремально большого размера (триллионы ребер), таких как Веб-граф. Он предлагает распределенную, отказоустойчивую систему, которая позволяет Google вычислять критически важные графовые метрики (например, авторитетность, TrustRank или аналогичные метрики близости) в масштабах всего интернета, преодолевая ограничения памяти и надежности оборудования.

Что запатентовано

Запатентована система и метод для распределенного параллельного вычисления кратчайших путей от каждого узла в огромном ориентированном графе до n ближайших «исходных узлов» (Seeds). Система распределяет граф по тысячам серверов (шардов). Ключевая инновация заключается в оптимизации доступа к данным: состояние вычислений (Distance Table) хранится в RAM, а структура графа (Link Table) на диске, причем обе таблицы идентично отсортированы для минимизации задержек дискового ввода-вывода.

Как это работает

Система работает итеративно:

Шардинг: Граф разделяется на части (шарды), каждая из которых назначается серверу.
Инициализация: Определяется набор Seeds (доверенных/авторитетных узлов).
Итеративное обновление: Серверы обновляют известные им расстояния до Seeds для своих узлов. Если найден более короткий путь, узел помечается как «грязный» (dirty).
Оптимизация доступа (I/O): Система последовательно сканирует «грязные» узлы в Distance Table (RAM) и эффективно (последовательным чтением с опережением) извлекает их исходящие ребра из Link Table (на диске).
Распространение (Propagation): Обновленная информация распространяется на соседние узлы (distance updates). Используется Adaptive Propagation Threshold для управления нагрузкой.
Отказоустойчивость: Используется механизм checkpointing для восстановления после сбоев.
Результат: Для каждого узла известны n ближайших Seeds и расстояния до них, которые используются для ранжирования.

Актуальность для SEO

Высокая. Анализ графовых структур (Веб-граф, Knowledge Graph) остается центральным элементом поисковых систем. Потребность в масштабируемой, распределенной инфраструктуре для вычисления графовых метрик (авторитетности, семантической близости) критически важна для Google. Описанные принципы лежат в основе современных систем обработки больших данных.

Важность для SEO

Патент имеет значительное влияние на понимание SEO (8/10). Хотя он описывает инфраструктуру, цель этой инфраструктуры критически важна: вычисление метрик на основе графов для ранжирования. Патент прямо указывает, что результат вычислений (расстояния до ближайших Seeds) используется для ранжирования узлов, и что меньшее расстояние указывает на более высокое качество. Это подтверждает стратегическую важность структуры Веб-графа и концепции близости к авторитетным источникам (например, TrustRank).

Детальный разбор

Термины и определения

Adaptive Propagation Threshold (Адаптивный порог распространения): Динамически изменяемое значение расстояния. Сервер распространяет обновления (distance updates) только в том случае, если новое расстояние меньше этого порога. Используется для управления нагрузкой и пропускной способностью сети.
Checkpoint (Контрольная точка): Инкрементальный снимок состояния вычислений на сервере, сохраняемый в надежном хранилище (например, GFS). Используется для быстрого восстановления системы в случае сбоя сервера.
Dirty Bit / Dirty Node (Грязный бит / Грязный узел): Флаг в Distance Table, указывающий, что информация о расстоянии для данного узла и Seed изменилась (найден более короткий путь) и должна быть распространена на соседние узлы.
Distance Table (Таблица расстояний): Структура данных, хранящаяся в оперативной памяти (RAM) сервера. Для каждого узла содержит n пар (Seed, расстояние), представляющих наилучшую известную информацию о ближайших Seeds. Отсортирована по идентификатору узла.
Leaf Table (Таблица листьев): Таблица для узлов без исходящих связей (Leaf Nodes). Хранится частично в RAM и периодически сбрасывается на диск.
Link Table (Таблица ссылок): Структура данных, хранящаяся на диске (Mass Storage). Представляет структуру графа для шарда: для каждого узла содержит список его исходящих ребер и целевых узлов. Отсортирована по идентификатору узла идентично Distance Table.
Seed Node (Исходный узел, Сид): Предопределенный узел графа, выбранный на основе его важности или характеристик (например, авторитетный сайт). Цель системы — найти кратчайшие пути от всех узлов до этих Seeds.
Shard (Шард): Подмножество узлов графа, назначенное одному серверу (Shard Server) для обработки.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обновления узлов в процессе вычисления ближайших Seeds на одном сервере.

Поддержание Distance Table в RAM и Link Table на диске. Ключевое требование: обе таблицы должны быть отсортированы идентично по идентификатору узла.
Идентификация «грязных» узлов (dirty nodes) в Distance Table, чьи расстояния находятся в пределах порогового значения (threshold distance).
Поиск этих «грязных» узлов в Link Table для получения информации об их исходящих ребрах и целевых узлах.
Распространение обновлений (propagating updates) информации о ближайших Seeds на другие серверы, которые владеют этими целевыми узлами.

Ядром изобретения является способ организации и доступа к данным (одинаковая сортировка таблиц в RAM и на диске), который позволяет эффективно обрабатывать обновления в распределенной среде, минимизируя задержки произвольного доступа к диску.

Claim 6 (Независимый пункт): Описывает систему, реализующую метод из Claim 1 в распределенной среде.

Система состоит из нескольких серверов, каждый с Link Table (на диске) и Distance Table (в RAM), отсортированными по идентификатору узла.
В совокупности Link Tables содержат полное представление ориентированного графа, причем каждый узел назначен ровно одному серверу.
Каждый сервер параллельно выполняет свою часть распределенного вычисления (идентификация грязных узлов, поиск в Link Table, распространение обновлений).

Claim 10 (Независимый пункт): Фокусируется на аспекте эффективности доступа к данным (I/O Optimization).

Поддержание файла графа (Link Table) на диске и Distance Table в RAM, отсортированных одинаково.
Сканирование Distance Table в порядке сортировки для идентификации «грязных» узлов.
Поиск этих узлов в файле графа по мере сканирования Distance Table, что позволяет читать данные с диска в порядке «опережающего просмотра» (look ahead order) от начала до конца.

Этот пункт защищает конкретную оптимизацию: преобразование потенциально случайных обращений к диску в эффективные последовательные чтения.

Где и как применяется

Изобретение описывает инфраструктуру для офлайн-обработки больших графов и вычисления статических признаков.

CRAWLING – Сканирование и Сбор данных
Система использует данные, собранные на этом этапе (структура графа, например, Веб-графа), в качестве входных данных для Link Tables.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Описанная система используется для анализа графа и вычисления статических (не зависящих от запроса) признаков для каждого узла. В контексте Веб-графа это вычисление метрик авторитетности (например, TrustRank).

Входные данные: Структура ориентированного графа (Link Table), список Seeds.
Процесс: Распределенное вычисление кратчайших путей.
Выходные данные: Distance Table, содержащая для каждого узла расстояния до n ближайших Seeds.

RANKING – Ранжирование
Сама система не участвует в ранжировании в реальном времени. Однако результаты ее работы используются на этапе ранжирования в качестве сигналов. Патент прямо указывает: «В некоторых реализациях одним из применений результатов является ранжирование узлов (ranking nodes), где более короткое расстояние до n-го ближайшего сида указывает на более высокое качество». Также упоминается, что финальный этап слияния может вычислять node ranking на основе трех ближайших найденных Seeds и их расстояний.

На что влияет

Типы контента и ниши: Влияет на все типы контента и ниши, где используются графовые метрики авторитетности. Особенно сильно влияние в тематиках, где авторитетность и доверие критичны (например, YMYL), и где структура ссылок является сильным сигналом.
Веб-граф (Link Graph): Основной объект анализа. Система позволяет эффективно обрабатывать связи между сайтами для определения их относительной важности и доверия.
Knowledge Graph: Принципы также могут применяться для анализа связей между сущностями в Knowledge Graph для определения семантической близости.

Когда применяется

Временные рамки: Это система периодической пакетной обработки (offline batch processing). Она не работает в реальном времени при обработке запроса пользователя.
Частота применения: Вычисления запускаются периодически для обновления глобальных графовых метрик, когда структура графа значительно изменилась (обновление индекса ссылок).
Условия работы: Система предназначена для работы в распределенной среде с тысячами компьютеров, где сбои оборудования являются нормой (используется checkpointing для восстановления).

Пошаговый алгоритм

Этап 1: Инициализация и распределение данных

Шардинг графа: Огромный граф делится на шарды. Узлы распределяются по серверам.
Загрузка данных: Каждый сервер копирует свою часть графа (Link Table) на локальные диски.
Инициализация структур: На каждом сервере создается Distance Table (в RAM). Обе таблицы (Link и Distance) сортируются одинаково по идентификатору узла.
Определение Seeds: Загружается список предопределенных Seeds. Они инициируют первую волну обновлений.

Этап 2: Итеративное вычисление (параллельно на всех серверах)

Цикл продолжается до тех пор, пока расстояния не стабилизируются.

Подпроцесс А: Обработка входящих обновлений

Получение обновления: Сервер получает Distance Update (Узел N, Seed S, Расстояние D) от другого сервера.
Сравнение и Обновление: Если D короче, чем текущие известные расстояния для узла N, Distance Table (или Leaf Table) обновляется.
Установка Dirty Bit: Узел N помечается как «грязный» (dirty).

Подпроцесс Б: Распространение исходящих обновлений

Сканирование Distance Table: Сервер последовательно сканирует Distance Table в поисках «грязных» узлов.
Фильтрация по порогу: Применяется Adaptive Propagation Threshold. Обрабатываются только узлы, чье расстояние меньше порога.
Оптимизированный поиск (Look-ahead): Идентификаторы «грязных» узлов помещаются в очередь для поиска в Link Table на диске (последовательное чтение с опережением).
Получение исходящих ребер: Из Link Table извлекаются целевые узлы (соседи).
Генерация и Отправка обновлений: Для каждого соседа вычисляется новое потенциальное расстояние, и Distance Updates отправляются соответствующим серверам. Исходный узел помечается как «чистый» (clean).

Этап 3: Обеспечение отказоустойчивости

Асинхронное сохранение: Серверы периодически и независимо друг от друга сохраняют свое инкрементальное состояние (Checkpoints) в распределенную файловую систему (GFS).
Восстановление: В случае сбоя сервер восстанавливает состояние из последней контрольной точки (Timestamp T) и запрашивает у других серверов обновления, подтвержденные после времени T.

Этап 4: Завершение и слияние

Определение завершения: Мастер-сервер отслеживает активность. Когда все узлы «чистые» и нет активных обновлений, вычисление завершается.
Финальное слияние: Distance Tables и Leaf Tables со всех серверов объединяются в единую таблицу результатов (Merged Distance Table).
Расчет ранга: На основе финальных расстояний до n ближайших Seeds может быть вычислен node ranking (ранг узла).

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на обработке графовых структур.

Ссылочные/Структурные факторы (Структура графа): Основные входные данные. Система использует ориентированный граф, состоящий из узлов (Nodes) и ребер (Edges). Анализируется топология графа.
Веса ребер (Edge Weights): Система может обрабатывать взвешенные графы (weighted digraph), где каждое ребро имеет вес (расстояние). Это может соответствовать качеству, типу ссылки или семантической связи.
Системные данные (Seeds): Список предопределенных исходных узлов (Seeds). В контексте Веб-графа это доверенные или авторитетные сайты.

Другие факторы (контентные, поведенческие и т.д.) в этом патенте не упоминаются.

Какие метрики используются и как они считаются

Shortest Path Distance (Расстояние кратчайшего пути): Основная вычисляемая метрика. Представляет собой сумму весов ребер на кратчайшем пути от узла до Seed.
n Nearest Seeds (n Ближайших сидов): Система хранит не одно, а n (в патенте упоминаются примеры 1 или 3) кратчайших расстояний для каждого узла.
Node Ranking (Ранг узла): Патент явно упоминает, что финальный результат используется для расчета ранга узла, основанного на расстояниях до ближайших Seeds. Указано, что меньшее расстояние соответствует более высокому качеству. Также упоминается, что для расчета ранга может использоваться расстояние до третьего ближайшего Seed.
Adaptive Propagation Threshold: Внутренняя метрика системы для управления нагрузкой. Динамически корректируется для поддержания заданного соотношения распространяемых обновлений.

Выводы

Инфраструктура для расчета авторитетности: Патент описывает масштабируемый движок, который позволяет Google проводить анализ Веб-графа в глобальном масштабе. Это инфраструктура, необходимая для вычисления метрик, основанных на близости узлов, таких как вариации TrustRank.
Критичность концепции «Seeds»: Вычисления основаны на предопределенном наборе доверенных или авторитетных источников (Seeds). Позиция сайта в графе оценивается относительно этих источников.
Ранжирование на основе близости: Патент прямо связывает результат вычислений с ранжированием. Чем короче путь до авторитетных Seeds, тем выше качество и потенциальный ранг узла.
Важность нескольких источников (N Nearest Seeds): Система отслеживает несколько (например, 3) ближайших Seeds. Ранжирование может учитывать расстояние до n-го сида (например, третьего), что делает оценку более устойчивой к манипуляциям.
Оптимизация и масштабируемость: Ключевое техническое достижение — оптимизация дискового ввода/вывода через синхронизированную сортировку данных в RAM и на диске. Это позволяет Google обрабатывать триллионы связей эффективно и регулярно.
Графовые метрики вычисляются офлайн: Описанный процесс является пакетным (batch processing) и выполняется периодически. Изменения в ссылочном профиле повлияют на графовые метрики только после завершения следующего цикла вычислений.

Практика

Best practices (это мы делаем)

Минимизация «ссылочного расстояния» до авторитетов: Стратегия линкбилдинга должна фокусироваться на сокращении пути до авторитетных Seeds. Получение ссылок с сайтов, которые сами находятся близко (в 1-2 шагах) от общепризнанных авторитетов (университеты, правительство, крупные СМИ, лидеры индустрии), является приоритетом.
Фокус на качестве и авторитетности ссылок (Link Quality over Quantity): Качество донора (его близость к Seeds) напрямую влияет на то, насколько он сокращает «ссылочное расстояние». Авторитетность и доверие донора критически важны.
Анализ ссылочного окружения (Link Neighborhood): Анализируйте не только прямых доноров, но и их ссылочный профиль. Доноры, имеющие входящие ссылки от авторитетных ресурсов, передают больше доверия (Trust).
Оптимизация внутренней архитектуры сайта: Внутренняя перелинковка должна обеспечивать короткие пути от страниц входа авторитетности (например, главная страница или страницы, получившие сильные внешние ссылки) до всех важных страниц сайта для эффективного распределения веса.

Worst practices (это делать не надо)

Использование изолированных ссылочных схем (PBN, Спам): Построение ссылок из сетей, которые не имеют связей с авторитетными источниками. Такие ресурсы будут иметь очень большие расстояния до Seeds, и ссылки с них будут неэффективны для повышения графовых метрик доверия.
Игнорирование структуры графа: Концентрация только на количестве ссылок без учета топологии Веб-графа. Система оценивает кратчайшие пути и структуру связей, а не просто количество входящих ребер.
Недооценка весов ребер: Система поддерживает взвешенные графы. Манипулятивные или низкокачественные ссылки могут иметь высокий вес (большое расстояние), что увеличит общую длину пути до Seeds.

Стратегическое значение

Патент подтверждает стратегическую важность структуры Веб-графа и концепции «потока доверия/авторитетности», основанной на близости к доверенным источникам. Он демонстрирует, что Google обладает мощной инфраструктурой для регулярного и эффективного анализа этих связей в масштабах всего интернета. Для SEO это означает, что структурное положение сайта в Веб-графе (кто ссылается на вас и кто ссылается на них) остается критически важным фактором ранжирования и подтверждает важность E-E-A-T, подкрепленного ссылками.

Практические примеры

Сценарий: Оптимизация ссылочного профиля для сокращения расстояния до Seeds

Задача: Повысить авторитетность медицинского сайта (YMYL).

Идентификация потенциальных Seeds: Определить наиболее авторитетные ресурсы в нише (например, WHO, NCBI, ведущие университеты и клиники).
Анализ текущего профиля: Изучить существующие ссылки.
Пример А (Плохо): Большинство ссылок идет с форумов и блогов низкого качества. Цепочка: WHO -> Новостной сайт -> Блог -> Форум -> Ваш сайт. Расстояние до Seed большое.
Пример Б (Хорошо): Есть ссылки с профильных медицинских изданий и исследовательских организаций. Цепочка: NCBI -> Исследовательская организация -> Ваш сайт. Расстояние до Seed короткое.
Стратегия линкбилдинга: Сфокусироваться на получении ссылок от узлов, которые находятся в 1-2 шагах от идентифицированных Seeds. Например, публиковать исследования, которые цитируются университетами или профильными СМИ.
Ожидаемый результат: Сокращение кратчайшего пути до авторитетных Seeds в Веб-графе приведет к улучшению графовых метрик авторитетности (TrustRank) и, как следствие, к улучшению ранжирования.

Вопросы и ответы

Что такое «Seeds» (Исходные узлы) в контексте этого патента и как они связаны с SEO?

Seeds — это предопределенные узлы в графе, которые служат отправными точками для вычисления расстояний. В контексте Веб-графа Seeds обычно представляют собой набор высокоавторитетных, доверенных сайтов (например, правительственные ресурсы, крупные университеты, известные бренды). Система вычисляет, насколько «далеко» ваш сайт находится от этих доверенных источников по ссылочным связям.

Как результаты работы этой системы используются в ранжировании?

Патент прямо заявляет, что вычисленные расстояния до ближайших Seeds используются для расчета ранга узла (node ranking) и что меньшее расстояние указывает на более высокое качество. Чем короче путь от вашего сайта до авторитетных Seeds, тем выше будет ваша метрика авторитетности, используемая в ранжировании (например, TrustRank).

Что означает упоминание о ранжировании по третьему ближайшему Seed?

Патент упоминает, что для расчета ранга может использоваться расстояние до третьего (а не первого) ближайшего Seed. Это может быть механизмом защиты от манипуляций, так как сложнее обеспечить близость сразу к нескольким независимым авторитетным источникам, чем к одному. Это подчеркивает важность разнообразия авторитетных ссылок.

Как этот патент влияет на стратегии линкбилдинга (Tier 1, Tier 2, Tier 3)?

Он подтверждает важность многоуровневого линкбилдинга с акцентом на качество на всех уровнях. Цель — сократить расстояние до Seeds. Ссылка Tier 1 с авторитетного сайта (близкого к Seed) идеальна. Ссылки Tier 2/3 полезны, если они усиливают авторитетность ваших доноров Tier 1, но построение Tier 2/3 из спамных ресурсов, удаленных от авторитетов, не поможет сократить расстояние.

Является ли этот алгоритм заменой PageRank?

Нет, это инфраструктура для вычисления графовых метрик, в частности, кратчайших путей. PageRank — это другой тип графового анализа (анализ собственного вектора). Описанная инфраструктура больше подходит для алгоритмов типа TrustRank или вычисления тематической близости, где измеряется расстояние до конкретных Seeds.

Работает ли эта система в реальном времени?

Нет. Это система пакетной обработки (batch processing) для анализа огромных графов офлайн. Она запускается периодически для обновления глобальных метрик авторитетности. Изменения в ссылочном профиле будут учтены только после завершения следующего цикла вычислений, а не мгновенно.

Влияет ли вес ссылки (например, nofollow, анкорный текст) на расчет кратчайшего пути?

Да, патент упоминает возможность использования взвешенных графов (weighted digraph), где ребра (ссылки) имеют разный вес. Это позволяет предположить, что разные типы ссылок могут иметь разную «стоимость» прохождения. Например, качественная редакционная ссылка может иметь меньший вес (короче расстояние), чем ссылка в футере или спамная ссылка.

Насколько важна оптимизация дискового ввода, описанная в патенте?

Она критически важна для масштабируемости. Веб-граф слишком велик для хранения в оперативной памяти. Оптимизация доступа к диску (преобразование случайных чтений в последовательные за счет одинаковой сортировки данных в RAM и на диске) позволяет Google обрабатывать триллионы ссылок за разумное время.

Применяется ли этот алгоритм к внутренним ссылкам сайта?

Да, механизм универсален и может применяться к любому графу. Веб-граф включает внутренние ссылки. Эффективная внутренняя перелинковка сокращает кратчайшие пути внутри сайта, позволяя авторитетности, полученной от внешних источников (близости к Seeds), лучше распределяться до ключевых страниц.

Какова связь этого патента с E-E-A-T?

Патент предоставляет инфраструктурную основу для измерения Авторитетности (Authoritativeness) и Доверия (Trustworthiness) в масштабах всего веба. Он описывает механизм, как Google может количественно оценить авторитетность сайта, измеряя его близость к признанным авторитетным источникам (Seed Nodes) через ссылки. Это графовое измерение E-E-A-T.