Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google масштабируемо вычисляет расстояние от любой страницы до авторитетных «Seed»-сайтов в веб-графе

    SCALABLE SYSTEM FOR DETERMINING SHORT PATHS WITHIN WEB LINK NETWORK (Масштабируемая система для определения кратчайших путей в сети веб-ссылок)
    • US9400849B1
    • Google LLC
    • 2016-07-26
    • 2009-08-07
    2009 Антиспам Индексация Патенты Google Ссылки

    Патент описывает инфраструктуру Google для распределенного вычисления кратчайших путей в веб-графе (триллионы связей). Система определяет расстояние от миллиардов веб-страниц до заранее выбранного набора авторитетных сайтов («Seeds»). Эти вычисления обеспечивают масштабируемый расчет метрик авторитетности для ранжирования страниц.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему вычисления кратчайших путей (shortest paths) в экстремально больших взвешенных направленных графах (large weighted digraph), таких как веб-граф, содержащий триллионы ребер. Традиционные алгоритмы (например, Dijkstra или Bellman-Ford) не масштабируются, неэффективны в параллельной среде и неустойчивы к неизбежным сбоям оборудования при таких объемах данных. Эта система предоставляет инфраструктуру для поддержки алгоритмов ранжирования, использующих анализ ссылочной структуры, в частности, для вычисления расстояний от страниц до набора авторитетных сайтов (Seeds).

    Что запатентовано

    Запатентована масштабируемая и отказоустойчивая распределенная система для определения n ближайших Seed-узлов (где n – небольшое целое число больше единицы, например, три) для каждого узла в огромном веб-графе. Система разделяет граф на части (shards), обрабатывает их параллельно на тысячах серверов и использует механизмы оптимизации вычислений и инкрементальных чекпоинтов (checkpoints) для эффективного восстановления после сбоев.

    Как это работает

    Веб-граф делится на shards, каждый назначается отдельному серверу (shard server). Сервер поддерживает Distance Table (в оперативной памяти) для хранения ближайших Seeds и Link Table (на диске) для хранения структуры графа. Серверы итеративно вычисляют расстояния, обмениваясь сообщениями об обновлениях (distance update messages). Если найден более короткий путь до Seed, таблица обновляется, и изменение распространяется соседям. Для оптимизации трафика используются адаптивные пороги распространения (Adaptive Propagation Threshold), а для отказоустойчивости – асинхронная запись чекпоинтов в распределенную файловую систему (например, GFS).

    Актуальность для SEO

    Высокая. Анализ ссылочного графа и вычисление метрик авторитетности остаются фундаментальными задачами в поиске. Потребность в масштабируемых и отказоустойчивых вычислениях на графах постоянно растет с увеличением размера интернета. Описанная инфраструктура критически важна для расчета глобальных сигналов ранжирования (подобных TrustRank) в масштабах всего веба.

    Важность для SEO

    Патент имеет важное инфраструктурное значение (6/10). Он не описывает сам алгоритм ранжирования, но детально раскрывает, как Google технически реализует вычисление расстояний до Seed-сайтов в глобальном масштабе. Это подтверждает, что метрики, основанные на кратчайших путях до авторитетных источников, являются неотъемлемой частью системы. Хотя патент не дает прямых тактических SEO-рекомендаций, он подчеркивает стратегическую важность получения коротких ссылочных путей от доверенных ресурсов.

    Детальный разбор

    Термины и определения

    Adaptive Propagation Threshold (Адаптивный порог распространения)
    Механизм оптимизации. Сервер генерирует Distance Update Message, только если расстояние в сообщении меньше этого порога. Порог динамически корректируется для управления нагрузкой и уменьшения числа избыточных обновлений.
    Checkpoint (Чекпоинт)
    Файл, сохраняемый Shard Server, который представляет инкрементальное состояние его вычислений (Distance Table и Leaf Table) на определенный момент времени. Используется для восстановления после сбоев.
    Digraph / Directed Graph (Направленный граф)
    Представление сети веб-ссылок, где узлы – это веб-ресурсы, а направленные ребра – ссылки. Может быть взвешенным (weighted).
    Dirty Bit (Бит изменения)
    Флаг в Distance Table, указывающий, что информация о расстоянии для данного узла и Seed была обновлена и должна быть распространена (propagated) на узлы, на которые ведут исходящие ссылки.
    Distance Table (Таблица расстояний)
    Таблица, хранящаяся в оперативной памяти (RAM) сервера. Для каждого узла в шарде она содержит n пар (Seed, расстояние), представляющих лучшие известные расстояния до n ближайших Seeds.
    Distance Update Message (Сообщение об обновлении расстояния)
    Сообщение, которым обмениваются серверы. Содержит идентификатор целевого узла, идентификатор Seed и расстояние между ними.
    GFS (Global File System)
    Распределенная файловая система для хранения больших объемов данных (исходного графа и чекпоинтов).
    Leaf Table (Таблица листьев)
    Таблица для узлов-листьев (без известных исходящих ссылок). Частично хранится в RAM и периодически сбрасывается (flushed) на диск.
    Link Table / Link Map (Таблица ссылок)
    Таблица, хранящаяся на диске сервера. Представляет часть ссылочного графа для данного шарда (исходящие ссылки узлов).
    Seeds (Сиды, Эталонные узлы)
    Предварительно выбранный набор узлов в графе, часто характеризующихся надежностью или высоким качеством. Цель системы – найти кратчайшие пути до этих узлов.
    Shard (Шард)
    Часть (подмножество) графа, назначенная для обработки конкретному серверу.
    Shard Server / Peer Server (Сервер шарда)
    Сервер в распределенной системе, отвечающий за обработку назначенного ему шарда.

    Ключевые утверждения (Анализ Claims)

    Патент фокусируется на инфраструктуре и методологии распределенных вычислений.

    Claim 1 (Независимый пункт): Описывает основную конфигурацию и задачу распределенной системы.

    1. Система состоит из нескольких компьютерных серверов.
    2. Направленный граф (directed graph), представляющий веб-ресурсы и ссылки, делится на шарды (shards). Некоторые узлы графа обозначены как Seeds.
    3. Каждый шард назначается соответствующему серверу.
    4. Каждый сервер определяет для каждого узла в своем шарде:
      • n ближайших Seeds (n nearest seeds).
      • Соответствующие расстояния до этих n ближайших Seeds.
    5. Ключевое условие: n – это положительное целое число больше единицы (n > 1).

    Ядром изобретения является метод масштабирования вычисления нескольких (n>1) кратчайших путей до эталонных узлов (Seeds) в условиях огромного размера графа (веб-скейл) путем его разделения на шарды и обеспечения отказоустойчивости.

    Claim 2 (Зависимый от 1): Утверждает, что система выполняет ранжирование (ranking) веб-ресурсов на основе вычисленных расстояний.

    Claim 3 (Зависимый от 1): Уточняет, что значение n может быть равно трем.

    Где и как применяется

    Изобретение применяется на этапе предварительной обработки данных для вычисления статических признаков ранжирования.

    INDEXING – Индексирование и извлечение признаков
    Это основной этап применения патента. Система выполняет масштабный анализ всего веб-графа, собранного на этапе CRAWLING. Это пакетный (batch) процесс, который вычисляет метрики авторитетности (расстояния до Seeds) для миллиардов страниц. Вычисления производятся распределенно на множестве Shard Servers. Результаты (Distance Tables и Leaf Tables) сохраняются и впоследствии используются как статические сигналы.

    RANKING – Ранжирование
    На этапе ранжирования используются предварительно вычисленные расстояния до Seeds как один из сигналов для определения качества и авторитетности страницы.

    Входные данные:

    • Полный веб-граф (узлы и ребра/ссылки).
    • Веса ребер (система поддерживает weighted directed graphs).
    • Список Seed-узлов.

    Выходные данные:

    • Объединенная таблица расстояний (Merged Distance Table), содержащая для каждого узла в графе n ближайших Seeds и расстояния до них.

    На что влияет

    • Типы контента и запросы: Влияет на все типы контента и запросы универсально, так как вычисляемые метрики являются глобальными сигналами авторитетности или качества страницы, не зависящими от запроса.
    • Ниши или тематики: Метрики расстояния до авторитетных Seeds могут иметь больший вес в YMYL-тематиках, где надежность источника критична.

    Когда применяется

    • Временные рамки и частота применения: Алгоритм применяется периодически для обновления метрик авторитетности всего индекса (офлайн или в режиме near-realtime). Это ресурсоемкий процесс анализа всего графа, а не процесс, выполняемый в реальном времени при обработке запроса пользователя.

    Пошаговый алгоритм

    Процесс работы распределенной системы:

    Этап 1: Подготовка и Инициализация

    1. Разделение и назначение: Граф делится на шарды. Каждый шард назначается Shard Server.
    2. Локализация данных: Серверы копируют свои части графа (Link Map) из GFS на локальные диски для оптимизации доступа к данным.
    3. Инициализация таблиц: Инициализируются Distance Tables (в RAM) и Leaf Tables.
    4. Начальное распространение: Серверы считывают файл Seeds и начинают распространение обновлений от Seeds, используя их начальные веса (если применимо).

    Этап 2: Итеративное вычисление (Основной цикл)

    Серверы параллельно выполняют следующие действия:

    1. Прием обновлений: Сервер получает Distance Update Message.
    2. Проверка и Обновление таблиц: Определяется, содержит ли сообщение более короткое расстояние до Seed. Если да, Distance Table (или Leaf Table) обновляется. Запись в Distance Table помечается как измененная (dirty).
    3. Сканирование и Фильтрация: Сервер сканирует Distance Table в поисках dirty записей. Применяется Adaptive Propagation Threshold: обрабатываются только записи, расстояние в которых ниже текущего порога.
    4. Извлечение ссылок: Для выбранных записей из Link Table (на диске) извлекаются исходящие ссылки. (Используются отдельные I/O потоки для оптимизации чтения).
    5. Распространение обновлений: Генерируются новые Distance Update Messages и отправляются серверам, владеющим целевыми узлами. Обработанные записи помечаются как чистые (clean).

    Этап 3: Управление и Отказоустойчивость

    1. Адаптация порогов: Adaptive Propagation Threshold динамически корректируется для поддержания заданного уровня активности (Propagation Ratio) и оптимизации нагрузки.
    2. Checkpointing: Периодически и асинхронно серверы сохраняют инкрементальные чекпоинты своего состояния в GFS.
    3. Восстановление (При сбое): Сбойный сервер перезапускается, загружает последнюю валидную контрольную точку и запрашивает у других серверов пропущенные обновления.

    Этап 4: Завершение

    1. Мониторинг: Мастер-сервер отслеживает активность всех Shard Servers (количество принятых обновлений).
    2. Определение конвергенции: Когда система достигает стабильного состояния (обновления прекращаются, нет dirty записей), мастер инициирует завершение.
    3. Финальное слияние: Чекпоинты и файлы листьев всех серверов объединяются для формирования итоговой Merged Distance Table.

    Какие данные и как использует

    Данные на входе

    • Ссылочные факторы: Критически важные данные. Используется полная структура ссылочного графа. Система поддерживает взвешенные графы (weighted digraph), что подразумевает использование весов (значимости/длины) ссылок для расчета расстояний.
    • Системные данные: Список предопределенных Seed-узлов. Также могут использоваться начальные веса самих Seeds.

    Какие метрики используются и как они считаются

    • Distance (Расстояние): Длина кратчайшего пути от узла до Seed. Рассчитывается итеративно путем суммирования весов ребер на пути.
    • n nearest seeds (n ближайших сидов): Набор из n (например, 3) Seeds с наименьшими значениями Distance до данного узла.
    • Adaptive Propagation Threshold (Адаптивный порог распространения): Динамически вычисляемый порог расстояния. Используется для оптимизации пропускной способности и скорости вычислений.
    • Propagation Ratio (Коэффициент распространения): Метрика для управления Adaptive Propagation Threshold (например, 1 к 6).

    Выводы

    1. Инфраструктурный фокус: Патент описывает исключительно внутреннюю инфраструктуру Google для анализа ссылочного графа. Он не содержит информации о том, как выбираются Seeds, как определяются веса ссылок или как именно расстояние влияет на ранжирование. Прямых тактических рекомендаций для SEO в нем нет.
    2. Подтверждение важности концепции «Ближайших Сидов»: Система специально разработана для эффективного вычисления n-Nearest Seeds в масштабах всего веба. Это подтверждает, что концепция использования расстояния до авторитетных источников (подобная TrustRank) является важной частью архитектуры поиска Google.
    3. Расчет нескольких путей (n>1): Система вычисляет расстояния до нескольких (например, трех) ближайших Seeds. В патенте упоминается, что ранжирование может использовать расстояние до n-го ближайшего сида.
    4. Поддержка взвешенных графов: Система работает с weighted directed graphs, что означает, что Google учитывает не просто количество кликов, а сумму весов ссылок на пути. Не все ссылки равны при расчете расстояний.
    5. Масштаб и надежность вычислений: Патент демонстрирует способность Google обрабатывать триллионы связей с высокой эффективностью и отказоустойчивостью (за счет Checkpointing и распределенной архитектуры), что необходимо для регулярного обновления глобальных метрик.

    Практика

    Патент является инфраструктурным и не дает прямых практических выводов для конкретных SEO-тактик. Однако он предоставляет важное стратегическое понимание возможностей и приоритетов Google.

    Best practices (это мы делаем)

    • Идентификация и анализ «Seeds» в нише: Необходимо определить сайты, которые с высокой вероятностью функционируют как Seeds в вашей тематике (например, правительственные сайты, университеты, ведущие отраслевые организации).
    • Стратегическое сокращение ссылочного пути до «Seeds»: Ключевая задача линкбилдинга – минимизировать длину пути от Seed-сайтов до вашего ресурса. Прямые ссылки от Seeds или от сайтов, находящихся близко к ним, наиболее ценны. Описанная система способна точно вычислить эти расстояния.
    • Повышение разнообразия авторитетных путей: Поскольку система вычисляет n ближайших Seeds, важно обеспечить наличие коротких путей до нескольких различных авторитетных источников, а не полагаться на один путь.
    • Учет весов ссылок: Помните, что система поддерживает взвешенные графы. Стремитесь получать ссылки, которые с большей вероятностью имеют высокий вес (например, редакционные ссылки с авторитетных страниц), так как они сильнее сокращают расчетное расстояние.

    Worst practices (это делать не надо)

    • Ссылочная изоляция и PBN: Создание искусственных ссылочных структур или PBN, изолированных от основного авторитетного ядра интернета. Если сайт находится далеко от авторитетных Seeds в графе, расстояние будет большим, что негативно скажется на метриках авторитетности.
    • Игнорирование качества доноров: Фокус на количестве ссылок без учета авторитетности домена-донора. Система измеряет пути именно до качественных эталонных сайтов.

    Стратегическое значение

    Патент подтверждает, что авторитетность, измеряемая через топологию ссылочных связей с доверенными источниками (Seeds), является фундаментальным и масштабно вычисляемым элементом архитектуры Google. Долгосрочная SEO-стратегия должна быть направлена на интеграцию сайта в авторитетные кластеры веб-графа и построение E-E-A-T.

    Практические примеры

    Сценарий: Повышение авторитетности сайта в финансовой нише (YMYL).

    1. Анализ: Идентификация вероятных Seeds: сайты Центробанка, Минфина, крупные экономические ВУЗы, ведущие деловые СМИ (например, Bloomberg, Reuters).
    2. Стратегия: Разработка контент-плана и PR-активности, нацеленной на получение прямых ссылок с этих ресурсов или с ресурсов, которые напрямую ссылаются на них (сокращение дистанции).
    3. Тактика: Публикация уникального исследования, которое может заинтересовать деловые СМИ. Проведение мероприятия совместно с ВУЗом для получения ссылки с сайта университета.
    4. Ожидаемый результат: Сокращение дистанции до Seeds. Система, описанная в патенте, вычислит новые, более короткие пути, что приведет к улучшению метрик авторитетности сайта.

    Вопросы и ответы

    Что такое «Seed»-сайты и как Google их выбирает?

    Seeds – это предварительно выбранный набор узлов в веб-графе, которые считаются авторитетными или надежными. Патент не описывает методику выбора Seeds, он принимает их список как входные данные. В тексте упоминается, что они могут быть выбраны на основе надежности или разнообразия тематик. На практике это сайты с максимальным уровнем доверия.

    Система вычисляет расстояние до одного или нескольких «Seeds»?

    Система специально разработана для вычисления расстояний до n ближайших Seeds, где n больше единицы (в патенте упоминается пример n=3). Это ключевая особенность. Ранжирование может зависеть не только от ближайшего Seed, но и от расстояния до n-го ближайшего.

    Учитывает ли система вес ссылок при расчете расстояния?

    Да. В патенте явно указано, что система работает с взвешенными направленными графами (weighted digraph). Это означает, что ссылки имеют разный вес, и расстояние – это сумма весов ребер на кратчайшем пути, а не просто количество кликов. Более «сильные» ссылки сокращают расстояние эффективнее.

    Как этот патент связан с PageRank или TrustRank?

    Этот патент описывает инфраструктуру, необходимую для реализации алгоритмов типа TrustRank, которые измеряют доверие на основе близости к доверенным источникам. Патент не описывает сам TrustRank или PageRank, но предоставляет масштабируемый механизм для получения необходимых данных (расстояний до Seeds).

    Это алгоритм ранжирования в реальном времени?

    Нет. Это система для предварительного вычисления признаков на этапе индексирования. Она выполняет сложный анализ всего веб-графа для расчета статических метрик авторитетности. Эти метрики затем сохраняются в индексе и используются на этапе ранжирования как один из множества сигналов.

    Что такое Adaptive Propagation Threshold и как он влияет на вычисления?

    Adaptive Propagation Threshold – это механизм оптимизации. Он ограничивает распространение обновлений только теми случаями, когда найденное расстояние меньше определенного порога. Это позволяет системе сначала сосредоточиться на поиске самых коротких путей и снижает нагрузку на сеть, ускоряя общую сходимость алгоритма.

    Какое практическое значение для SEO имеет эта инфраструктура?

    Практическое значение состоит в подтверждении того, что близость к авторитетным источникам в ссылочном графе критически важна и точно измеряется Google в глобальном масштабе. SEO-специалистам необходимо фокусироваться на получении качественных ссылок, которые сокращают количество кликов (или суммарный вес пути) от Seed-сайтов до продвигаемого ресурса.

    Что такое Шардинг (Sharding) и как он влияет на мой сайт?

    Шардинг – это разделение всего ссылочного графа на более мелкие части (шарды) для распределения нагрузки между множеством серверов. Это технический прием для масштабирования вычислений. На SEO вашего сайта он никак не влияет; это внутренняя деталь реализации Google.

    Что происходит, если сайт не имеет ссылочных путей до Seed-сайтов?

    Если пути отсутствуют или они очень длинные (состоят из множества слабых ссылок), система зафиксирует большие значения расстояний до Seeds. Это приведет к низкой оценке авторитетности сайта по данному фактору, что затруднит ранжирование, особенно в конкурентных и YMYL-тематиках.

    Насколько большим является граф, который обрабатывает эта система?

    В патенте подчеркивается, что система предназначена для обработки экстремально больших графов, содержащих сотни миллиардов узлов и триллионы (10^12) ребер. Это соответствует масштабам всего индексируемого интернета.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.