Патент описывает инфраструктуру Google для распределенного вычисления кратчайших путей в веб-графе (триллионы связей). Система определяет расстояние от миллиардов веб-страниц до заранее выбранного набора авторитетных сайтов («Seeds»). Эти вычисления обеспечивают масштабируемый расчет метрик авторитетности для ранжирования страниц.
Описание
Какую задачу решает
Патент решает проблему вычисления кратчайших путей (shortest paths) в экстремально больших взвешенных направленных графах (large weighted digraph), таких как веб-граф, содержащий триллионы ребер. Традиционные алгоритмы (например, Dijkstra или Bellman-Ford) не масштабируются, неэффективны в параллельной среде и неустойчивы к неизбежным сбоям оборудования при таких объемах данных. Эта система предоставляет инфраструктуру для поддержки алгоритмов ранжирования, использующих анализ ссылочной структуры, в частности, для вычисления расстояний от страниц до набора авторитетных сайтов (Seeds).
Что запатентовано
Запатентована масштабируемая и отказоустойчивая распределенная система для определения n ближайших Seed-узлов (где n – небольшое целое число больше единицы, например, три) для каждого узла в огромном веб-графе. Система разделяет граф на части (shards), обрабатывает их параллельно на тысячах серверов и использует механизмы оптимизации вычислений и инкрементальных чекпоинтов (checkpoints) для эффективного восстановления после сбоев.
Как это работает
Веб-граф делится на shards, каждый назначается отдельному серверу (shard server). Сервер поддерживает Distance Table (в оперативной памяти) для хранения ближайших Seeds и Link Table (на диске) для хранения структуры графа. Серверы итеративно вычисляют расстояния, обмениваясь сообщениями об обновлениях (distance update messages). Если найден более короткий путь до Seed, таблица обновляется, и изменение распространяется соседям. Для оптимизации трафика используются адаптивные пороги распространения (Adaptive Propagation Threshold), а для отказоустойчивости – асинхронная запись чекпоинтов в распределенную файловую систему (например, GFS).
Актуальность для SEO
Высокая. Анализ ссылочного графа и вычисление метрик авторитетности остаются фундаментальными задачами в поиске. Потребность в масштабируемых и отказоустойчивых вычислениях на графах постоянно растет с увеличением размера интернета. Описанная инфраструктура критически важна для расчета глобальных сигналов ранжирования (подобных TrustRank) в масштабах всего веба.
Важность для SEO
Патент имеет важное инфраструктурное значение (6/10). Он не описывает сам алгоритм ранжирования, но детально раскрывает, как Google технически реализует вычисление расстояний до Seed-сайтов в глобальном масштабе. Это подтверждает, что метрики, основанные на кратчайших путях до авторитетных источников, являются неотъемлемой частью системы. Хотя патент не дает прямых тактических SEO-рекомендаций, он подчеркивает стратегическую важность получения коротких ссылочных путей от доверенных ресурсов.
Детальный разбор
Термины и определения
- Adaptive Propagation Threshold (Адаптивный порог распространения)
- Механизм оптимизации. Сервер генерирует Distance Update Message, только если расстояние в сообщении меньше этого порога. Порог динамически корректируется для управления нагрузкой и уменьшения числа избыточных обновлений.
- Checkpoint (Чекпоинт)
- Файл, сохраняемый Shard Server, который представляет инкрементальное состояние его вычислений (Distance Table и Leaf Table) на определенный момент времени. Используется для восстановления после сбоев.
- Digraph / Directed Graph (Направленный граф)
- Представление сети веб-ссылок, где узлы – это веб-ресурсы, а направленные ребра – ссылки. Может быть взвешенным (weighted).
- Dirty Bit (Бит изменения)
- Флаг в Distance Table, указывающий, что информация о расстоянии для данного узла и Seed была обновлена и должна быть распространена (propagated) на узлы, на которые ведут исходящие ссылки.
- Distance Table (Таблица расстояний)
- Таблица, хранящаяся в оперативной памяти (RAM) сервера. Для каждого узла в шарде она содержит n пар (Seed, расстояние), представляющих лучшие известные расстояния до n ближайших Seeds.
- Distance Update Message (Сообщение об обновлении расстояния)
- Сообщение, которым обмениваются серверы. Содержит идентификатор целевого узла, идентификатор Seed и расстояние между ними.
- GFS (Global File System)
- Распределенная файловая система для хранения больших объемов данных (исходного графа и чекпоинтов).
- Leaf Table (Таблица листьев)
- Таблица для узлов-листьев (без известных исходящих ссылок). Частично хранится в RAM и периодически сбрасывается (flushed) на диск.
- Link Table / Link Map (Таблица ссылок)
- Таблица, хранящаяся на диске сервера. Представляет часть ссылочного графа для данного шарда (исходящие ссылки узлов).
- Seeds (Сиды, Эталонные узлы)
- Предварительно выбранный набор узлов в графе, часто характеризующихся надежностью или высоким качеством. Цель системы – найти кратчайшие пути до этих узлов.
- Shard (Шард)
- Часть (подмножество) графа, назначенная для обработки конкретному серверу.
- Shard Server / Peer Server (Сервер шарда)
- Сервер в распределенной системе, отвечающий за обработку назначенного ему шарда.
Ключевые утверждения (Анализ Claims)
Патент фокусируется на инфраструктуре и методологии распределенных вычислений.
Claim 1 (Независимый пункт): Описывает основную конфигурацию и задачу распределенной системы.
- Система состоит из нескольких компьютерных серверов.
- Направленный граф (directed graph), представляющий веб-ресурсы и ссылки, делится на шарды (shards). Некоторые узлы графа обозначены как Seeds.
- Каждый шард назначается соответствующему серверу.
- Каждый сервер определяет для каждого узла в своем шарде:
- n ближайших Seeds (n nearest seeds).
- Соответствующие расстояния до этих n ближайших Seeds.
- Ключевое условие: n – это положительное целое число больше единицы (n > 1).
Ядром изобретения является метод масштабирования вычисления нескольких (n>1) кратчайших путей до эталонных узлов (Seeds) в условиях огромного размера графа (веб-скейл) путем его разделения на шарды и обеспечения отказоустойчивости.
Claim 2 (Зависимый от 1): Утверждает, что система выполняет ранжирование (ranking) веб-ресурсов на основе вычисленных расстояний.
Claim 3 (Зависимый от 1): Уточняет, что значение n может быть равно трем.
Где и как применяется
Изобретение применяется на этапе предварительной обработки данных для вычисления статических признаков ранжирования.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Система выполняет масштабный анализ всего веб-графа, собранного на этапе CRAWLING. Это пакетный (batch) процесс, который вычисляет метрики авторитетности (расстояния до Seeds) для миллиардов страниц. Вычисления производятся распределенно на множестве Shard Servers. Результаты (Distance Tables и Leaf Tables) сохраняются и впоследствии используются как статические сигналы.
RANKING – Ранжирование
На этапе ранжирования используются предварительно вычисленные расстояния до Seeds как один из сигналов для определения качества и авторитетности страницы.
Входные данные:
- Полный веб-граф (узлы и ребра/ссылки).
- Веса ребер (система поддерживает weighted directed graphs).
- Список Seed-узлов.
Выходные данные:
- Объединенная таблица расстояний (Merged Distance Table), содержащая для каждого узла в графе n ближайших Seeds и расстояния до них.
На что влияет
- Типы контента и запросы: Влияет на все типы контента и запросы универсально, так как вычисляемые метрики являются глобальными сигналами авторитетности или качества страницы, не зависящими от запроса.
- Ниши или тематики: Метрики расстояния до авторитетных Seeds могут иметь больший вес в YMYL-тематиках, где надежность источника критична.
Когда применяется
- Временные рамки и частота применения: Алгоритм применяется периодически для обновления метрик авторитетности всего индекса (офлайн или в режиме near-realtime). Это ресурсоемкий процесс анализа всего графа, а не процесс, выполняемый в реальном времени при обработке запроса пользователя.
Пошаговый алгоритм
Процесс работы распределенной системы:
Этап 1: Подготовка и Инициализация
- Разделение и назначение: Граф делится на шарды. Каждый шард назначается Shard Server.
- Локализация данных: Серверы копируют свои части графа (Link Map) из GFS на локальные диски для оптимизации доступа к данным.
- Инициализация таблиц: Инициализируются Distance Tables (в RAM) и Leaf Tables.
- Начальное распространение: Серверы считывают файл Seeds и начинают распространение обновлений от Seeds, используя их начальные веса (если применимо).
Этап 2: Итеративное вычисление (Основной цикл)
Серверы параллельно выполняют следующие действия:
- Прием обновлений: Сервер получает Distance Update Message.
- Проверка и Обновление таблиц: Определяется, содержит ли сообщение более короткое расстояние до Seed. Если да, Distance Table (или Leaf Table) обновляется. Запись в Distance Table помечается как измененная (dirty).
- Сканирование и Фильтрация: Сервер сканирует Distance Table в поисках dirty записей. Применяется Adaptive Propagation Threshold: обрабатываются только записи, расстояние в которых ниже текущего порога.
- Извлечение ссылок: Для выбранных записей из Link Table (на диске) извлекаются исходящие ссылки. (Используются отдельные I/O потоки для оптимизации чтения).
- Распространение обновлений: Генерируются новые Distance Update Messages и отправляются серверам, владеющим целевыми узлами. Обработанные записи помечаются как чистые (clean).
Этап 3: Управление и Отказоустойчивость
- Адаптация порогов: Adaptive Propagation Threshold динамически корректируется для поддержания заданного уровня активности (Propagation Ratio) и оптимизации нагрузки.
- Checkpointing: Периодически и асинхронно серверы сохраняют инкрементальные чекпоинты своего состояния в GFS.
- Восстановление (При сбое): Сбойный сервер перезапускается, загружает последнюю валидную контрольную точку и запрашивает у других серверов пропущенные обновления.
Этап 4: Завершение
- Мониторинг: Мастер-сервер отслеживает активность всех Shard Servers (количество принятых обновлений).
- Определение конвергенции: Когда система достигает стабильного состояния (обновления прекращаются, нет dirty записей), мастер инициирует завершение.
- Финальное слияние: Чекпоинты и файлы листьев всех серверов объединяются для формирования итоговой Merged Distance Table.
Какие данные и как использует
Данные на входе
- Ссылочные факторы: Критически важные данные. Используется полная структура ссылочного графа. Система поддерживает взвешенные графы (weighted digraph), что подразумевает использование весов (значимости/длины) ссылок для расчета расстояний.
- Системные данные: Список предопределенных Seed-узлов. Также могут использоваться начальные веса самих Seeds.
Какие метрики используются и как они считаются
- Distance (Расстояние): Длина кратчайшего пути от узла до Seed. Рассчитывается итеративно путем суммирования весов ребер на пути.
- n nearest seeds (n ближайших сидов): Набор из n (например, 3) Seeds с наименьшими значениями Distance до данного узла.
- Adaptive Propagation Threshold (Адаптивный порог распространения): Динамически вычисляемый порог расстояния. Используется для оптимизации пропускной способности и скорости вычислений.
- Propagation Ratio (Коэффициент распространения): Метрика для управления Adaptive Propagation Threshold (например, 1 к 6).
Выводы
- Инфраструктурный фокус: Патент описывает исключительно внутреннюю инфраструктуру Google для анализа ссылочного графа. Он не содержит информации о том, как выбираются Seeds, как определяются веса ссылок или как именно расстояние влияет на ранжирование. Прямых тактических рекомендаций для SEO в нем нет.
- Подтверждение важности концепции «Ближайших Сидов»: Система специально разработана для эффективного вычисления n-Nearest Seeds в масштабах всего веба. Это подтверждает, что концепция использования расстояния до авторитетных источников (подобная TrustRank) является важной частью архитектуры поиска Google.
- Расчет нескольких путей (n>1): Система вычисляет расстояния до нескольких (например, трех) ближайших Seeds. В патенте упоминается, что ранжирование может использовать расстояние до n-го ближайшего сида.
- Поддержка взвешенных графов: Система работает с weighted directed graphs, что означает, что Google учитывает не просто количество кликов, а сумму весов ссылок на пути. Не все ссылки равны при расчете расстояний.
- Масштаб и надежность вычислений: Патент демонстрирует способность Google обрабатывать триллионы связей с высокой эффективностью и отказоустойчивостью (за счет Checkpointing и распределенной архитектуры), что необходимо для регулярного обновления глобальных метрик.
Практика
Патент является инфраструктурным и не дает прямых практических выводов для конкретных SEO-тактик. Однако он предоставляет важное стратегическое понимание возможностей и приоритетов Google.
Best practices (это мы делаем)
- Идентификация и анализ «Seeds» в нише: Необходимо определить сайты, которые с высокой вероятностью функционируют как Seeds в вашей тематике (например, правительственные сайты, университеты, ведущие отраслевые организации).
- Стратегическое сокращение ссылочного пути до «Seeds»: Ключевая задача линкбилдинга – минимизировать длину пути от Seed-сайтов до вашего ресурса. Прямые ссылки от Seeds или от сайтов, находящихся близко к ним, наиболее ценны. Описанная система способна точно вычислить эти расстояния.
- Повышение разнообразия авторитетных путей: Поскольку система вычисляет n ближайших Seeds, важно обеспечить наличие коротких путей до нескольких различных авторитетных источников, а не полагаться на один путь.
- Учет весов ссылок: Помните, что система поддерживает взвешенные графы. Стремитесь получать ссылки, которые с большей вероятностью имеют высокий вес (например, редакционные ссылки с авторитетных страниц), так как они сильнее сокращают расчетное расстояние.
Worst practices (это делать не надо)
- Ссылочная изоляция и PBN: Создание искусственных ссылочных структур или PBN, изолированных от основного авторитетного ядра интернета. Если сайт находится далеко от авторитетных Seeds в графе, расстояние будет большим, что негативно скажется на метриках авторитетности.
- Игнорирование качества доноров: Фокус на количестве ссылок без учета авторитетности домена-донора. Система измеряет пути именно до качественных эталонных сайтов.
Стратегическое значение
Патент подтверждает, что авторитетность, измеряемая через топологию ссылочных связей с доверенными источниками (Seeds), является фундаментальным и масштабно вычисляемым элементом архитектуры Google. Долгосрочная SEO-стратегия должна быть направлена на интеграцию сайта в авторитетные кластеры веб-графа и построение E-E-A-T.
Практические примеры
Сценарий: Повышение авторитетности сайта в финансовой нише (YMYL).
- Анализ: Идентификация вероятных Seeds: сайты Центробанка, Минфина, крупные экономические ВУЗы, ведущие деловые СМИ (например, Bloomberg, Reuters).
- Стратегия: Разработка контент-плана и PR-активности, нацеленной на получение прямых ссылок с этих ресурсов или с ресурсов, которые напрямую ссылаются на них (сокращение дистанции).
- Тактика: Публикация уникального исследования, которое может заинтересовать деловые СМИ. Проведение мероприятия совместно с ВУЗом для получения ссылки с сайта университета.
- Ожидаемый результат: Сокращение дистанции до Seeds. Система, описанная в патенте, вычислит новые, более короткие пути, что приведет к улучшению метрик авторитетности сайта.
Вопросы и ответы
Что такое «Seed»-сайты и как Google их выбирает?
Seeds – это предварительно выбранный набор узлов в веб-графе, которые считаются авторитетными или надежными. Патент не описывает методику выбора Seeds, он принимает их список как входные данные. В тексте упоминается, что они могут быть выбраны на основе надежности или разнообразия тематик. На практике это сайты с максимальным уровнем доверия.
Система вычисляет расстояние до одного или нескольких «Seeds»?
Система специально разработана для вычисления расстояний до n ближайших Seeds, где n больше единицы (в патенте упоминается пример n=3). Это ключевая особенность. Ранжирование может зависеть не только от ближайшего Seed, но и от расстояния до n-го ближайшего.
Учитывает ли система вес ссылок при расчете расстояния?
Да. В патенте явно указано, что система работает с взвешенными направленными графами (weighted digraph). Это означает, что ссылки имеют разный вес, и расстояние – это сумма весов ребер на кратчайшем пути, а не просто количество кликов. Более «сильные» ссылки сокращают расстояние эффективнее.
Как этот патент связан с PageRank или TrustRank?
Этот патент описывает инфраструктуру, необходимую для реализации алгоритмов типа TrustRank, которые измеряют доверие на основе близости к доверенным источникам. Патент не описывает сам TrustRank или PageRank, но предоставляет масштабируемый механизм для получения необходимых данных (расстояний до Seeds).
Это алгоритм ранжирования в реальном времени?
Нет. Это система для предварительного вычисления признаков на этапе индексирования. Она выполняет сложный анализ всего веб-графа для расчета статических метрик авторитетности. Эти метрики затем сохраняются в индексе и используются на этапе ранжирования как один из множества сигналов.
Что такое Adaptive Propagation Threshold и как он влияет на вычисления?
Adaptive Propagation Threshold – это механизм оптимизации. Он ограничивает распространение обновлений только теми случаями, когда найденное расстояние меньше определенного порога. Это позволяет системе сначала сосредоточиться на поиске самых коротких путей и снижает нагрузку на сеть, ускоряя общую сходимость алгоритма.
Какое практическое значение для SEO имеет эта инфраструктура?
Практическое значение состоит в подтверждении того, что близость к авторитетным источникам в ссылочном графе критически важна и точно измеряется Google в глобальном масштабе. SEO-специалистам необходимо фокусироваться на получении качественных ссылок, которые сокращают количество кликов (или суммарный вес пути) от Seed-сайтов до продвигаемого ресурса.
Что такое Шардинг (Sharding) и как он влияет на мой сайт?
Шардинг – это разделение всего ссылочного графа на более мелкие части (шарды) для распределения нагрузки между множеством серверов. Это технический прием для масштабирования вычислений. На SEO вашего сайта он никак не влияет; это внутренняя деталь реализации Google.
Что происходит, если сайт не имеет ссылочных путей до Seed-сайтов?
Если пути отсутствуют или они очень длинные (состоят из множества слабых ссылок), система зафиксирует большие значения расстояний до Seeds. Это приведет к низкой оценке авторитетности сайта по данному фактору, что затруднит ранжирование, особенно в конкурентных и YMYL-тематиках.
Насколько большим является граф, который обрабатывает эта система?
В патенте подчеркивается, что система предназначена для обработки экстремально больших графов, содержащих сотни миллиардов узлов и триллионы (10^12) ребер. Это соответствует масштабам всего индексируемого интернета.