Как Google масштабирует расчет кратчайших путей в графе ссылок от авторитетных сайтов («Seed Nodes»)

SCALABLE SYSTEM FOR DETERMINING SHORT PATHS WITHIN WEB LINK NETWORK (Масштабируемая система для определения кратчайших путей в сети веб-ссылок)

US8825646B1
Google LLC
2009-08-07
2014-09-02

Ссылки

Патент описывает инфраструктуру Google для распределенного вычисления кратчайших путей в огромных графах, таких как веб-граф. Система позволяет эффективно и отказоустойчиво рассчитывать расстояние от любого узла до ближайших авторитетных «Seed Nodes». Это foundational технология, которая делает возможным применение алгоритмов ранжирования, основанных на анализе ссылочного графа и распространении авторитетности (например, типа TrustRank) в масштабах всего интернета.

Какую проблему решает

Патент решает фундаментальную инфраструктурную проблему: как эффективно вычислять кратчайшие пути (shortest paths) в экстремально больших направленных графах (с триллионами ребер), таких как граф веб-ссылок. Стандартные алгоритмы (например, Dijkstra или Bellman-Ford) плохо масштабируются и неэффективны в распределенной среде. Система должна обрабатывать граф, который не помещается в оперативную память одного сервера, и быть устойчивой к сбоям оборудования, которые неизбежны при использовании тысяч компьютеров.

Что запатентовано

Запатентована система для масштабируемого и отказоустойчивого расчета расстояний в графе. Изобретение описывает распределенную архитектуру, которая разделяет граф на сегменты (shards) и обрабатывает их параллельно на множестве серверов. Система предназначена для нахождения n кратчайших путей от набора предопределенных авторитетных узлов (Seed Nodes) до каждого узла в графе. Это инфраструктурное решение, позволяющее Google применять сложные алгоритмы анализа ссылок в масштабах всего веба.

Как это работает

Система работает путем распределения вычислений:

Шардинг: Граф веб-ссылок делится на shards, каждый из которых назначается отдельному серверу (shard server).
Локальное хранение: Структура графа (Link Table) хранится на диске, так как слишком велика для оперативной памяти. Текущие рассчитанные расстояния (Distance Table) хранятся в RAM для быстрого доступа.
Параллельное вычисление: Серверы итеративно вычисляют расстояния до ближайших Seed Nodes. Если сервер находит более короткий путь к Seed Node для своего узла, он помечает его как «грязный» (dirty).
Распространение обновлений: Сервер рассылает обновления (distance updates) серверам, владеющим узлами, на которые ссылается обновленный узел. Это вызывает каскад обновлений по всему графу.
Оптимизация: Используются механизмы для оптимизации дискового ввода/вывода и адаптивные пороги распространения (Adaptive Propagation Threshold) для уменьшения сетевого трафика и количества избыточных обновлений.
Отказоустойчивость: Серверы асинхронно и независимо сохраняют инкрементальные контрольные точки (checkpoints) в распределенной файловой системе (например, GFS). В случае сбоя сервер восстанавливается из последней контрольной точки и запрашивает пропущенные обновления у других серверов.

Актуальность для SEO

Высокая. Хотя патент подан в 2009 году, описанные в нем проблемы масштабирования и отказоустойчивости при анализе графов остаются центральными для поисковых систем. Веб-граф постоянно растет, и потребность в эффективной инфраструктуре для расчета ссылочных метрик (таких как PageRank или метрики, основанные на близости к авторитетным источникам) критически важна. Описанная архитектура является foundational для современных распределенных систем обработки графов.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO, хотя и является инфраструктурным. Он не описывает алгоритм ранжирования, но описывает систему, которая делает возможным применение алгоритмов, основанных на близости к доверенным источникам (например, типа TrustRank), в масштабах всего интернета. Понимание этого патента подтверждает, что Google обладает технической возможностью эффективно рассчитывать, насколько «далеко» (по ссылкам) находится любой сайт от набора самых авторитетных ресурсов. Это подчеркивает критическую важность качества ссылочного профиля и близости к доверенным источникам.

Термины и определения

Adaptive Propagation Threshold (Адаптивный порог распространения): Механизм оптимизации. Пороговое значение расстояния, используемое сервером для определения того, какие обновления следует распространять. Распространяются только обновления с расстоянием меньше порога. Порог динамически адаптируется для управления пропускной способностью сети и уменьшения количества избыточных обновлений.
Checkpoint (Контрольная точка): Файл, сохраняемый shard server в надежном хранилище (например, GFS). Представляет собой инкрементальный снимок состояния вычислений (изменения в Distance Table и Leaf Table) на определенный момент времени. Используется для восстановления состояния сервера после сбоя.
Dirty Bit («Грязный» бит): Флаг в Distance Table, указывающий, что информация о ближайшем расстоянии для узла изменилась (найден более короткий путь) и это изменение необходимо распространить на узлы, связанные исходящими ссылками.
Distance Table (Таблица расстояний): Структура данных, хранящаяся в оперативной памяти shard server. Для каждого узла в шарде она содержит n пар (Seed Node, расстояние), представляющих текущую лучшую информацию о n ближайших Seed Nodes и расстояниях до них.
GFS (Google File System): Распределенная глобальная файловая система, используемая для хранения исходного графа ссылок и checkpoints.
Leaf Table (Таблица листьев): Структура данных, аналогичная Distance Table, но предназначенная для «листьев» — узлов без исходящих ссылок (или узлов, чьи исходящие ссылки неизвестны системе). Поскольку листья не распространяют обновления, для них не нужно хранить Dirty Bit. Может храниться частично в RAM и частично на диске.
Link Table (Таблица ссылок): Структура данных, хранящаяся на диске shard server. Представляет собой часть графа ссылок, назначенную данному шарду. Содержит информацию об исходящих ссылках для каждого узла.
Seed Node (Начальный узел, «Семя»): Веб-ресурс (узел в графе), предварительно выбранный на основе определенных характеристик (например, надежность, авторитетность). Цель системы — вычислить расстояния от этих узлов до всех остальных узлов графа.
Shard (Шард, Сегмент): Часть графа веб-ссылок, назначенная одному серверу для обработки.
Shard Server (Сервер шарда): Сервер, отвечающий за обработку назначенного ему шарда, хранение соответствующих Link Table, Distance Table и Leaf Table, а также за обмен обновлениями с другими серверами.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на инфраструктуре и методологии распределенных вычислений, а не на использовании результатов в ранжировании.

Claim 1 (Независимый пункт, Система): Описывает основную архитектуру системы.

Система состоит из множества серверов.
Направленный граф (веб-ресурсы и ссылки) делится на шарды. Каждый шард представляет собой часть графа.
Каждый шард назначается соответствующему серверу. Сервер получает данные, описывающие ссылки для ресурсов в этом шарде (Link Table).
Таблица расстояний (Distance Table) рассчитывается параллельно для каждого ресурса в каждом шарде с использованием вычисления ближайшего Seed Node (nearest seed computation) на сервере, которому назначен шард, с использованием данных о ссылках.

Claim 9 (Независимый пункт, Метод): Описывает метод, соответствующий системе в Claim 1.

Разделение направленного графа на шарды.
Назначение каждого шарда и соответствующих данных о ссылках соответствующему серверу.
Параллельное вычисление Distance Table для ресурсов в каждом шарде с помощью nearest seed computation на назначенном сервере.

Claim 4 и 12 (Зависимые): Детализируют процесс вычисления Distance Table.

Вычисление включает определение n ближайших Seed Nodes к узлу, представляющему веб-ресурс, и соответствующих расстояний от узла до каждого из этих n ближайших Seed Nodes. n — это заранее определенное небольшое положительное целое число (например, в Claim 5 и 13 указано, что n может быть равно трем). Данные, идентифицирующие n ближайших Seed Nodes и расстояния, сохраняются в Distance Table.

Claim 8 и 16 (Зависимые): Детализируют механизм параллельного вычисления.

На каждом сервере генерируется начальная Distance Table. Затем сервер получает от других серверов данные о расстояниях от Seed Nodes до ресурсов в своем шарде. Начальная Distance Table обновляется с использованием этих полученных данных.

Где и как применяется

Изобретение относится к этапу обработки данных для подготовки сигналов ранжирования. Это инфраструктурная система, обеспечивающая работу других алгоритмов.

INDEXING – Индексирование и извлечение признаков
Основное применение патента. Система используется для анализа графа ссылок и вычисления статических (не зависящих от запроса) сигналов авторитетности или качества, основанных на структуре графа.

Анализ ссылок: Система обрабатывает весь граф веб-ссылок (полученный на этапе CRAWLING).
Вычисление признаков (Feature Extraction): Основная задача — вычислить расстояние от каждого узла до ближайших Seed Nodes. Эти расстояния затем могут использоваться как признаки (сигналы) качества или авторитетности для этапа RANKING (как указано в Claim 2).

Взаимодействие компонентов:

Система состоит из Мастер-сервера (Master Server) и множества Shard Servers.
Shard Servers взаимодействуют друг с другом для обмена обновлениями расстояний (distance updates).
Все серверы взаимодействуют с распределенной файловой системой (GFS) для чтения исходного графа и записи/чтения checkpoints.

Входные данные:

Направленный граф веб-ссылок (может быть взвешенным).
Список идентификаторов Seed Nodes.

Выходные данные:

Объединенная таблица расстояний (Merged Distance Table) — фактически или виртуально объединенные Distance Tables и Leaf Tables всех шардов. Для каждого узла в графе эта таблица содержит идентификаторы n ближайших Seed Nodes и расстояния до них.

Ключевые технические особенности:

Масштабируемость: Способность обрабатывать графы с триллионами ребер за счет шардинга и распределения данных на дисках.
Отказоустойчивость: Асинхронное инкрементальное создание checkpoints и механизм восстановления после сбоев без необходимости перезапуска всего вычисления.
Оптимизация производительности: Использование Adaptive Propagation Threshold для управления сетевым трафиком и техники оптимизации дискового ввода/вывода для доступа к Link Table.

На что влияет

Патент описывает инфраструктуру, поэтому он влияет на все типы контента, запросов и тематик, где применяются алгоритмы ранжирования, использующие анализ графа ссылок и распространение авторитетности.

Все типы контента и ниши: Влияет на расчет авторитетности страниц и сайтов в любой тематике. Особенно важно в конкурентных и YMYL-тематиках, где сигналы доверия и авторитетности критичны.
Взвешенные ссылки: Система поддерживает взвешенные графы, что означает, что не все ссылки могут иметь одинаковый вес при расчете расстояний (как указано в описании, система может работать с weighted directed graph).

Когда применяется

Условия применения: Применяется, когда необходимо рассчитать метрики на основе графа ссылок для всего индекса.
Частота применения: Это пакетный (batch) процесс, который запускается периодически для обновления ссылочных метрик по мере изменения веб-графа (появления новых ссылок, удаления старых, изменения весов).

Пошаговый алгоритм

Процесс работы распределенной системы вычисления кратчайших путей.

Этап 1: Инициализация и Подготовка

Шардинг графа: Исходный граф ссылок делится на шарды (например, с помощью хеширования идентификаторов узлов или с учетом доменной информации).
Распределение данных: Каждый Shard Server копирует свою часть графа (Link Table) из GFS на локальные диски. Данные реплицируются на несколько дисков для отказоустойчивости и балансировки нагрузки.
Инициализация таблиц: Каждый сервер создает в оперативной памяти Distance Table и Leaf Table для своих узлов.
Обработка Seed Nodes: Серверы читают список Seed Nodes. Для Seed Nodes, находящихся в их шарде, они инициализируют расстояния (возможно, с учетом веса Seed Node) и помечают их как dirty для начала распространения.

Этап 2: Итеративное вычисление и распространение (Параллельный процесс на каждом сервере)

Сканирование и Поиск: Рабочие потоки сканируют Distance Table в поисках «грязных» записей (dirty entries), которые удовлетворяют текущему Adaptive Propagation Threshold (т.е. расстояние достаточно мало для распространения).
Доступ к Link Table: Для найденных «грязных» узлов система выполняет поиск в Link Table (на диске), чтобы определить исходящие ссылки и целевые узлы.
Генерация обновлений: Для каждого целевого узла рассчитывается новое расстояние до Seed Node (расстояние до текущего узла + вес ссылки).
Отправка обновлений: Обновления (идентификатор целевого узла, идентификатор Seed Node, новое расстояние) отправляются на серверы, владеющие целевыми узлами. После отправки запись в Distance Table помечается как «чистая» (clean).
Получение обновлений: Сервер получает обновления от других серверов.
Обработка обновлений: Сервер проверяет, является ли полученное расстояние более коротким, чем текущее известное расстояние до данного Seed Node в Distance Table или Leaf Table.
- Если ДА: Таблица обновляется новым расстоянием, и запись помечается как dirty (для Distance Table).
- Если НЕТ: Обновление игнорируется.
Адаптация порога: Сервер динамически корректирует Adaptive Propagation Threshold для поддержания заданной частоты распространения обновлений.

Этап 3: Отказоустойчивость и Контрольные точки

Создание Checkpoints: Периодически или при низкой активности каждый сервер асинхронно сохраняет инкрементальные checkpoints (изменения в Distance Table и Leaf Table с момента последнего сохранения) в GFS.
Восстановление после сбоя: В случае сбоя сервер перезапускается, загружает свое состояние из последних валидных checkpoints и отправляет «Hello» сообщения другим серверам с временной меткой последней контрольной точки.
Отправка пропущенных обновлений: Другие серверы отправляют восстановленному серверу все обновления, которые были подтверждены им после указанной временной метки.

Этап 4: Завершение вычисления

Мониторинг состояния: Мастер-сервер отслеживает состояние всех Shard Servers (количество принятых обновлений, наличие «грязных» записей).
Определение завершения: Когда состояние всех серверов стабилизируется (нет новых обновлений и «грязных» записей), мастер-сервер инициирует завершение (используя протокол, аналогичный двухфазной фиксации, для обработки состояний гонки).
Финальная запись: Серверы записывают финальные checkpoints.
Объединение результатов: Все checkpoints и файлы листьев объединяются (фактически или виртуально) для формирования итоговой Merged Distance Table.

Какие данные и как использует

Патент фокусируется исключительно на инфраструктуре для обработки графовых данных.

Данные на входе

Ссылочные факторы: Ключевые данные. Используется топология графа (кто на кого ссылается). Система поддерживает взвешенные графы (weighted digraph), что подразумевает использование весов ссылок (weights assigned to the edges) при расчете расстояний.
Системные данные: Список предопределенных Seed Nodes. Идентификаторы ресурсов (URL clusters), где кластеры URL, ведущих на одну страницу, обрабатываются как один узел.

В патенте не упоминается использование контентных, технических, поведенческих, временных или других факторов для расчета расстояний, хотя они могут использоваться для определения весов ссылок или выбора Seed Nodes на предварительном этапе.

Какие метрики используются и как они считаются

Shortest Path Distance (Расстояние кратчайшего пути): Основная вычисляемая метрика. Рассчитывается как сумма весов ребер на пути от Seed Node до целевого узла.
N Nearest Seeds (N ближайших Seed Nodes): Для каждого узла система идентифицирует n (например, 3) Seed Nodes с наименьшим Shortest Path Distance.
Propagation Ratio (Частота распространения): Внутренняя метрика системы, используемая для динамической настройки Adaptive Propagation Threshold (например, поддержание частоты на уровне 1 из 6 обновлений).

Инфраструктура для алгоритмов типа TrustRank: Патент не описывает алгоритмы ранжирования, но предоставляет необходимую масштабируемую и отказоустойчивую инфраструктуру для их работы. Он подтверждает способность Google выполнять сложные вычисления на графе ссылок, такие как определение близости к авторитетным источникам (Seed Nodes), в масштабах всего веба.
Критичность Seed Nodes: Система построена вокруг концепции Seed Nodes — заранее отобранных авторитетных сайтов. Расчеты фокусируются на том, насколько короток путь от этих сайтов до всех остальных ресурсов в интернете.
Поддержка взвешенных графов: Система может работать с взвешенными направленными графами. Это означает, что при расчете расстояний учитывается не только количество кликов (ссылок), но и вес каждой ссылки. Не все ссылки вносят одинаковый вклад в расстояние.
Масштаб и сложность анализа ссылок: Патент подчеркивает огромные вычислительные ресурсы, которые Google вкладывает в анализ ссылочного графа. Система спроектирована для работы с триллионами ребер и тысячами серверов, что указывает на критическую важность ссылочных сигналов для поиска.
Эффективность и оптимизация: Google активно оптимизирует процесс вычислений с помощью таких техник, как Adaptive Propagation Threshold, чтобы сделать анализ графа быстрым и ресурсоэффективным, позволяя чаще обновлять ссылочные метрики.

Best practices (это мы делаем)

Хотя патент инфраструктурный, он подтверждает важность стратегий, основанных на понимании распространения авторитетности от доверенных источников.

Фокус на качестве ссылок и близости к Seed Nodes: Необходимо стремиться к получению ссылок с сайтов, которые сами находятся на коротком расстоянии от авторитетных Seed Nodes. Качество ссылочного окружения (link neighborhood) имеет решающее значение.
Построение авторитетности (E-E-A-T): Работайте над тем, чтобы ваш сайт сам мог рассматриваться как потенциальный Seed Node или ресурс, близкий к ним. Это достигается за счет высокого качества контента, экспертности и сильных сигналов доверия.
Анализ ссылочного профиля конкурентов: Анализируйте, из каких авторитетных источников (потенциальных Seed Nodes или близких к ним) получают ссылки конкуренты. Это помогает определить ключевые источники авторитетности в нише.
Приоритезация ссылок с высоким весом: Поскольку система поддерживает взвешенные графы, следует фокусироваться на получении ссылок, которые с высокой вероятностью имеют большой вес (например, релевантные, видимые ссылки с авторитетных страниц).

Worst practices (это делать не надо)

Массовая закупка низкокачественных ссылок: Построение ссылочного профиля на основе сайтов, находящихся «далеко» от Seed Nodes (спам, PBN низкого качества, ссылочные биржи), неэффективно. Описанная система позволяет Google точно рассчитать это расстояние для каждого сайта.
Игнорирование веса ссылок: Предположение, что все ссылки одинаковы. Система учитывает веса, поэтому ссылки, которые могут быть классифицированы как низкокачественные или нерелевантные, могут иметь минимальный вес или увеличивать расстояние (если вес интерпретируется как стоимость).
Изоляция от авторитетных ресурсов: Создание контента, который не привлекает естественных ссылок из авторитетного ссылочного окружения, приводит к увеличению расстояния до Seed Nodes.

Стратегическое значение

Этот патент имеет важное стратегическое значение, так как он описывает движок, который позволяет Google анализировать доверие и авторитетность в масштабах всего интернета. Он подтверждает, что модель распространения авторитетности от набора доверенных сайтов (Seed Nodes) является важной частью инфраструктуры Google. Для долгосрочной SEO-стратегии это означает, что построение качественного ссылочного профиля, основанного на связях с авторитетными и релевантными источниками, является фундаментальным требованием.

Практические примеры

Сценарий: Оценка качества донора ссылки с использованием концепции Seed Nodes

Идентификация потенциальных Seed Nodes в нише: Определите самые авторитетные и доверенные ресурсы в вашей тематике (например, ведущие университеты, государственные организации, главные новостные издания, общепризнанные экспертные сайты).
Анализ донора: Оцените ссылочный профиль потенциального донора ссылки. Получает ли он прямые ссылки от идентифицированных Seed Nodes? Если нет, получает ли он ссылки от сайтов, которые ссылаются на Seed Nodes (расстояние 2)?
Принятие решения: Приоритезируйте получение ссылки с донора, который имеет более короткий путь к Seed Nodes. Например, ссылка с локального новостного сайта, на который ссылается крупное федеральное издание (потенциальный Seed Node), будет значительно ценнее, чем ссылка с форума, который находится в 5-6 кликах от любого авторитетного ресурса. Описанная в патенте система позволяет Google рассчитать эти расстояния точно и эффективно.

Описывает ли этот патент алгоритм TrustRank?

Патент не использует термин TrustRank и не описывает конкретный алгоритм ранжирования. Он описывает инфраструктуру (Scalable System) для вычисления кратчайших путей от Seed Nodes до всех остальных узлов графа. Алгоритмы типа TrustRank используют эти расстояния для оценки авторитетности или качества страницы. Таким образом, этот патент описывает технологию, которая делает возможным применение TrustRank или аналогичных алгоритмов в масштабах Google.

Что такое «Seed Nodes» и как они выбираются?

Seed Nodes — это предварительно выбранные узлы в графе, которые считаются авторитетными или надежными. Патент не детализирует критерии выбора, но упоминает, что они могут быть выбраны на основе надежности, разнообразия тематики или других характеристик, частично или полностью вручную. На практике это обычно самые авторитетные сайты в интернете (например, крупные СМИ, правительственные сайты, университеты).

Говорится ли в патенте, что близость к Seed Nodes улучшает ранжирование?

Напрямую нет, так как это инфраструктурный патент. Однако в разделе «Background» патент ссылается на другую заявку Google (Ser. No. 11/546,755), которая называется «Method and apparatus for producing a ranking for pages using distances in a web-link graph». Кроме того, Claim 2 данного патента упоминает ранжирование веб-ресурсов на основе этого вычисления. Это подтверждает, что целью создания данной инфраструктуры является использование рассчитанных расстояний для ранжирования.

Учитывает ли система вес ссылок или только количество кликов?

Система спроектирована для работы с взвешенными направленными графами (weighted digraph). Это означает, что она учитывает вес (или длину) каждого ребра (ссылки) при расчете кратчайшего пути. Таким образом, учитывается не просто количество кликов, а сумма весов ссылок на пути от Seed Node.

Что означает «n ближайших Seed Nodes»? Почему не один?

Система находит n (например, 3) ближайших Seed Nodes для каждого узла. Использование нескольких ближайших Seed Nodes делает оценку авторитетности более надежной и устойчивой к манипуляциям. Это позволяет оценить авторитетность узла в контексте различных кластеров доверия в интернете.

Что такое «Adaptive Propagation Threshold» и как это влияет на SEO?

Это механизм оптимизации внутри системы Google, который снижает нагрузку на сеть, не распространяя все обновления сразу, а приоритизируя самые короткие расстояния. На SEO это напрямую не влияет, но это позволяет Google выполнять вычисления быстрее и эффективнее, что может приводить к более частым обновлениям ссылочных метрик в индексе.

Насколько важна отказоустойчивость (Fault Tolerance) в этом патенте?

Она критически важна. Анализ всего веб-графа занимает много времени и ресурсов. Механизмы Checkpointing и восстановления позволяют системе пережить сбои отдельных серверов без необходимости перезапуска всего глобального вычисления. Это гарантирует, что ссылочные метрики будут рассчитаны надежно.

Как этот патент связан с PageRank?

Это разные типы анализа графа. PageRank рассчитывает вероятность попадания на узел при случайном блуждании по графу. Эта система рассчитывает кратчайшее расстояние до конкретных авторитетных узлов (Seed Nodes). Оба являются методами оценки авторитетности на основе ссылок, но используют разные математические модели. Описанная инфраструктура потенциально может использоваться и для других графовых вычислений.

Если я получу ссылку с очень авторитетного сайта (Seed Node), гарантирует ли это высокие позиции?

Это значительно уменьшит расстояние до Seed Node, что является сильным сигналом авторитетности. Однако ранжирование зависит от сотен факторов, включая релевантность запросу, качество контента и намерение пользователя. Близость к Seed Node — это важный, но не единственный фактор успеха.

Как SEO-специалисту использовать информацию из этого патента на практике?

Необходимо сместить фокус с количества ссылок на их качество и структуру связей. Стратегия линкбилдинга должна быть направлена на сокращение дистанции до авторитетных источников в вашей нише. Получение ссылок от сайтов, которые сами имеют сильные связи с доверенными ресурсами, должно быть приоритетом.

Как Google рассчитывает авторитетность и ранжирует сайты, вычисляя кратчайшие пути до доверенных источников (Seeds) в Веб-графе

Google использует масштабируемую распределенную систему для анализа огромных графов, таких как Веб-граф (триллионы связей). Система вычисляет кратчайшие пути от каждого узла (сайта) до набора предопределенных авторитетных источников («Seeds»). Эти расстояния используются для расчета метрик авторитетности и ранжирования сайтов: чем ближе сайт к доверенным источникам, тем выше его предполагаемое качество.

US8631094B1
2014-01-14

EEAT и качество
Ссылки

Как Google рассчитывает авторитетность страниц на основе их близости к доверенным сайтам-источникам (Seed Sites)

Google использует метод ранжирования страниц, основанный на измерении «расстояния» в ссылочном графе от набора доверенных исходных сайтов (Seed Sites) до целевой страницы. Чем короче путь от доверенных источников до страницы, тем выше ее рейтинг авторитетности. Длина ссылки увеличивается (а ее ценность падает), если исходная страница имеет большое количество исходящих ссылок. Этот механизм позволяет эффективно рассчитывать показатели доверия (Trust) в масштабах всего веба.

US9165040B1
2015-10-20

Ссылки
EEAT и качество
Антиспам

Как Google использует двухмерный индекс и пре-компьютерные пути для ультрабыстрого поиска в Knowledge Graph

Google использует специализированную архитектуру индекса для Knowledge Graph, отличную от веб-индекса. Патент описывает двумерную структуру индекса, которая позволяет обрабатывать сложные запросы к графу (связи сущностей, диапазоны, геолокация) с очень низкой задержкой. Система интегрирует текстовый поиск с графом, предварительно вычисляет сложные пути и использует специальные структуры для оптимизации локального и диапазонного поиска.

US9576007B1
2017-02-21

Knowledge Graph
Индексация
Local SEO

Как Google анализирует структуру URL и сигналы качества для выбора Sitelinks (Primary Resources)

Google использует алгоритм для идентификации наиболее важных страниц сайта (Primary Resources), которые затем отображаются как Sitelinks в поисковой выдаче. Система строит иерархическую модель сайта на основе структуры URL (а не ссылок) и оценивает каждую страницу по нескольким критериям: глубина в иерархии, количество дочерних страниц, количество внешних и внутренних ссылок, PageRank и качество контента. Этот метод позволяет выбирать Sitelinks даже без данных о трафике.

US20150199357A1
2015-07-16

Структура сайта
Техническое SEO
SERP

Как Google эффективно обновляет Граф Знаний в реальном времени при изменении фактов

Патент Google описывает инфраструктурный механизм для поддержания актуальности Графа Знаний. Когда в базу добавляется или удаляется факт (связь между сущностями), система мгновенно определяет, какие сохраненные запросы (коллекции) затронуты, и эффективно пересчитывает результаты, минимизируя нагрузку на базу данных.

US9626407B2
2017-04-18

Knowledge Graph
Свежесть контента
Семантика и интент

Как Google использует машинное обучение и данные о длительности сессий для выявления битых Deep Links в мобильных приложениях

Google использует систему машинного обучения для анализа того, как долго пользователи взаимодействуют с контентом в приложении после перехода по Deep Link (Presentation Duration). Анализируя распределение этих временных интервалов, система классифицирует ссылку как рабочую или битую без необходимости прямого сканирования контента. Это позволяет Google удалять неработающие ссылки из индекса.

US10628511B2
2020-04-21

Ссылки
Индексация
Поведенческие сигналы

Как Google извлекает, обрабатывает и индексирует анкорный текст, контекст и атрибуты входящих ссылок для ранжирования целевых страниц

Фундаментальный патент, описывающий инфраструктуру Google для обработки ссылок. Система извлекает анкорный текст, окружающий контекст и атрибуты форматирования (аннотации) из исходных страниц и инвертирует эти данные в структуру "Sorted Anchor Map". Это позволяет индексировать целевую страницу по тексту ссылок, указывающих на нее, используя эту внешнюю информацию как сигнал релевантности.

US7308643B1
2007-12-11

Ссылки
Индексация
Техническое SEO

Как Google переносит вес поведенческих сигналов (кликов) между связанными запросами для улучшения ранжирования

Google улучшает ранжирование по редким или новым запросам, для которых недостаточно собственных данных, используя поведенческие сигналы (Clickthrough Data) из связанных запросов. Если пользователи часто вводят запросы последовательно, система идентифицирует связь и переносит данные о кликах с одного запроса на другой, позволяя документам с высоким engagement ранжироваться выше по всему кластеру.

US7505964B2
2009-03-17

Поведенческие сигналы
SERP

Как Google определяет ключевую тематику зданий и адресов, используя клики пользователей для показа релевантной рекламы

Google использует этот механизм для понимания основного назначения физического местоположения (адреса или здания). Система анализирует все бизнесы в этой локации и определяет, какие поисковые запросы чаще всего приводят к кликам по их листингам. Самый популярный запрос используется как доминирующее ключевое слово для выбора релевантной рекламы, когда пользователи ищут этот адрес или взаимодействуют с ним на Картах или в Street View.

US20120278171A1
2012-11-01

Local SEO
Семантика и интент
Поведенческие сигналы

Как Google использует историю поиска и браузинга пользователя для персонализации и изменения результатов выдачи

Google записывает историю поиска и просмотров пользователя для последующей персонализации выдачи. Система может повышать в ранжировании ранее посещенные сайты, добавлять в текущую выдачу релевантные результаты из прошлых похожих запросов, а также понижать сайты, которые пользователь ранее видел, но проигнорировал. Патент также описывает создание "предпочитаемых локаций" на основе частоты посещений и времени пребывания на сайте.

US9256685B2
2016-02-09

Персонализация
Поведенческие сигналы
SERP

Как Google ранжирует сущности (например, фильмы или книги), используя популярность связанных веб-страниц и поисковых запросов в качестве прокси-сигнала

Google использует механизм для определения популярности контентных сущностей (таких как фильмы, телешоу, книги), когда прямые данные о потреблении недоступны. Система идентифицирует авторитетные «эталонные веб-страницы» (например, страницы Википедии) и связанные поисковые запросы. Затем она измеряет популярность сущности, анализируя объем трафика на эти эталонные страницы и частоту связанных запросов в поиске, используя эти данные как прокси-сигнал для ранжирования сущности.

US9098551B1
2015-08-04

EEAT и качество
Поведенческие сигналы
SERP

Как Google предсказывает намерения пользователя и выполняет поиск до ввода запроса (Predictive Search)

Google использует механизм для прогнозирования тем, интересующих пользователя в конкретный момент времени, основываясь на его истории и контексте. При обнаружении сигнала о намерении начать поиск (например, открытие страницы поиска), система проактивно выполняет запрос по предсказанной теме и мгновенно показывает результаты или перенаправляет пользователя на релевантный ресурс.

US8510285B1
2013-08-13

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google использовал специальные токены в запросе (например, «+») для прямой навигации на верифицированные социальные страницы в обход SERP

Google может интерпретировать специальные токены в поисковом запросе (например, «+») как намерение пользователя найти официальную социальную страницу сущности. Если система идентифицирует верифицированный профиль, соответствующий запросу с высокой степенью уверенности, она может перенаправить пользователя прямо на эту страницу, минуя стандартную поисковую выдачу.

US9275421B2
2016-03-01

Семантика и интент
SERP
Ссылки

Как Google использует структуру сайта и анкорные тексты для извлечения Сущностей из шумных заголовков (Title)

Google использует метод для точного определения основного объекта (Сущности) веб-страницы, когда заголовок (Title) содержит лишнюю информацию (брендинг, рубрики). Система анализирует заголовки похожих страниц на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Выявляя повторяющиеся шаблоны (префиксы и суффиксы) в заголовках, Google отделяет название Сущности от шума.

US7590628B2
2009-09-15

Семантика и интент
Структура сайта
Ссылки

Как Google персонализирует поисковую выдачу, анализируя историю кликов и поведение пользователя на сайте

Google использует механизм для персонализации поисковой выдачи на основе истории взаимодействия пользователя с результатами поиска. Система отслеживает, какие сайты пользователь выбирает, как долго он на них остается (Dwell Time), частоту и контекст выбора. Основываясь на этих данных, предпочитаемые пользователем ресурсы повышаются в ранжировании при его последующих запросах.

US9037581B1
2015-05-19

Персонализация
Поведенческие сигналы
SERP