Как Google рассчитывает авторитетность и ранжирует сайты, вычисляя кратчайшие пути до доверенных источников (Seeds) в Веб-графе

DISTRIBUTED PARALLEL DETERMINATION OF SINGLE AND MULTIPLE SOURCE SHORTEST PATHS IN LARGE DIRECTED GRAPHS (Распределенное параллельное определение кратчайших путей от одного или нескольких источников в больших ориентированных графах)

US8631094B1
Google LLC
2009-08-07
2014-01-14

Google использует масштабируемую распределенную систему для анализа огромных графов, таких как Веб-граф (триллионы связей). Система вычисляет кратчайшие пути от каждого узла (сайта) до набора предопределенных авторитетных источников («Seeds»). Эти расстояния используются для расчета метрик авторитетности и ранжирования сайтов: чем ближе сайт к доверенным источникам, тем выше его предполагаемое качество.

Какую проблему решает

Патент решает фундаментальную инфраструктурную проблему: неспособность традиционных алгоритмов поиска кратчайшего пути (например, Dijkstra или Bellman-Ford) масштабироваться для анализа графов экстремально большого размера (триллионы ребер), таких как Веб-граф. Он предлагает распределенную, отказоустойчивую систему, которая позволяет Google вычислять критически важные графовые метрики (например, авторитетность, TrustRank или аналогичные метрики близости) в масштабах всего интернета, преодолевая ограничения памяти и надежности оборудования.

Что запатентовано

Запатентована система и метод для распределенного параллельного вычисления кратчайших путей от каждого узла в огромном ориентированном графе до n ближайших «исходных узлов» (Seeds). Система распределяет граф по тысячам серверов (шардов). Ключевая инновация заключается в оптимизации доступа к данным: состояние вычислений (Distance Table) хранится в RAM, а структура графа (Link Table) на диске, причем обе таблицы идентично отсортированы для минимизации задержек дискового ввода-вывода.

Как это работает

Система работает итеративно:

Шардинг: Граф разделяется на части (шарды), каждая из которых назначается серверу.
Инициализация: Определяется набор Seeds (доверенных/авторитетных узлов).
Итеративное обновление: Серверы обновляют известные им расстояния до Seeds для своих узлов. Если найден более короткий путь, узел помечается как «грязный» (dirty).
Оптимизация доступа (I/O): Система последовательно сканирует «грязные» узлы в Distance Table (RAM) и эффективно (последовательным чтением с опережением) извлекает их исходящие ребра из Link Table (на диске).
Распространение (Propagation): Обновленная информация распространяется на соседние узлы (distance updates). Используется Adaptive Propagation Threshold для управления нагрузкой.
Отказоустойчивость: Используется механизм checkpointing для восстановления после сбоев.
Результат: Для каждого узла известны n ближайших Seeds и расстояния до них, которые используются для ранжирования.

Актуальность для SEO

Высокая. Анализ графовых структур (Веб-граф, Knowledge Graph) остается центральным элементом поисковых систем. Потребность в масштабируемой, распределенной инфраструктуре для вычисления графовых метрик (авторитетности, семантической близости) критически важна для Google. Описанные принципы лежат в основе современных систем обработки больших данных.

Важность для SEO

Патент имеет значительное влияние на понимание SEO (8/10). Хотя он описывает инфраструктуру, цель этой инфраструктуры критически важна: вычисление метрик на основе графов для ранжирования. Патент прямо указывает, что результат вычислений (расстояния до ближайших Seeds) используется для ранжирования узлов, и что меньшее расстояние указывает на более высокое качество. Это подтверждает стратегическую важность структуры Веб-графа и концепции близости к авторитетным источникам (например, TrustRank).

Термины и определения

Adaptive Propagation Threshold (Адаптивный порог распространения): Динамически изменяемое значение расстояния. Сервер распространяет обновления (distance updates) только в том случае, если новое расстояние меньше этого порога. Используется для управления нагрузкой и пропускной способностью сети.
Checkpoint (Контрольная точка): Инкрементальный снимок состояния вычислений на сервере, сохраняемый в надежном хранилище (например, GFS). Используется для быстрого восстановления системы в случае сбоя сервера.
Dirty Bit / Dirty Node (Грязный бит / Грязный узел): Флаг в Distance Table, указывающий, что информация о расстоянии для данного узла и Seed изменилась (найден более короткий путь) и должна быть распространена на соседние узлы.
Distance Table (Таблица расстояний): Структура данных, хранящаяся в оперативной памяти (RAM) сервера. Для каждого узла содержит n пар (Seed, расстояние), представляющих наилучшую известную информацию о ближайших Seeds. Отсортирована по идентификатору узла.
Leaf Table (Таблица листьев): Таблица для узлов без исходящих связей (Leaf Nodes). Хранится частично в RAM и периодически сбрасывается на диск.
Link Table (Таблица ссылок): Структура данных, хранящаяся на диске (Mass Storage). Представляет структуру графа для шарда: для каждого узла содержит список его исходящих ребер и целевых узлов. Отсортирована по идентификатору узла идентично Distance Table.
Seed Node (Исходный узел, Сид): Предопределенный узел графа, выбранный на основе его важности или характеристик (например, авторитетный сайт). Цель системы — найти кратчайшие пути от всех узлов до этих Seeds.
Shard (Шард): Подмножество узлов графа, назначенное одному серверу (Shard Server) для обработки.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обновления узлов в процессе вычисления ближайших Seeds на одном сервере.

Поддержание Distance Table в RAM и Link Table на диске. Ключевое требование: обе таблицы должны быть отсортированы идентично по идентификатору узла.
Идентификация «грязных» узлов (dirty nodes) в Distance Table, чьи расстояния находятся в пределах порогового значения (threshold distance).
Поиск этих «грязных» узлов в Link Table для получения информации об их исходящих ребрах и целевых узлах.
Распространение обновлений (propagating updates) информации о ближайших Seeds на другие серверы, которые владеют этими целевыми узлами.

Ядром изобретения является способ организации и доступа к данным (одинаковая сортировка таблиц в RAM и на диске), который позволяет эффективно обрабатывать обновления в распределенной среде, минимизируя задержки произвольного доступа к диску.

Claim 6 (Независимый пункт): Описывает систему, реализующую метод из Claim 1 в распределенной среде.

Система состоит из нескольких серверов, каждый с Link Table (на диске) и Distance Table (в RAM), отсортированными по идентификатору узла.
В совокупности Link Tables содержат полное представление ориентированного графа, причем каждый узел назначен ровно одному серверу.
Каждый сервер параллельно выполняет свою часть распределенного вычисления (идентификация грязных узлов, поиск в Link Table, распространение обновлений).

Claim 10 (Независимый пункт): Фокусируется на аспекте эффективности доступа к данным (I/O Optimization).

Поддержание файла графа (Link Table) на диске и Distance Table в RAM, отсортированных одинаково.
Сканирование Distance Table в порядке сортировки для идентификации «грязных» узлов.
Поиск этих узлов в файле графа по мере сканирования Distance Table, что позволяет читать данные с диска в порядке «опережающего просмотра» (look ahead order) от начала до конца.

Этот пункт защищает конкретную оптимизацию: преобразование потенциально случайных обращений к диску в эффективные последовательные чтения.

Где и как применяется

Изобретение описывает инфраструктуру для офлайн-обработки больших графов и вычисления статических признаков.

CRAWLING – Сканирование и Сбор данных
Система использует данные, собранные на этом этапе (структура графа, например, Веб-графа), в качестве входных данных для Link Tables.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Описанная система используется для анализа графа и вычисления статических (не зависящих от запроса) признаков для каждого узла. В контексте Веб-графа это вычисление метрик авторитетности (например, TrustRank).

Входные данные: Структура ориентированного графа (Link Table), список Seeds.
Процесс: Распределенное вычисление кратчайших путей.
Выходные данные: Distance Table, содержащая для каждого узла расстояния до n ближайших Seeds.

RANKING – Ранжирование
Сама система не участвует в ранжировании в реальном времени. Однако результаты ее работы используются на этапе ранжирования в качестве сигналов. Патент прямо указывает: «В некоторых реализациях одним из применений результатов является ранжирование узлов (ranking nodes), где более короткое расстояние до n-го ближайшего сида указывает на более высокое качество». Также упоминается, что финальный этап слияния может вычислять node ranking на основе трех ближайших найденных Seeds и их расстояний.

На что влияет

Типы контента и ниши: Влияет на все типы контента и ниши, где используются графовые метрики авторитетности. Особенно сильно влияние в тематиках, где авторитетность и доверие критичны (например, YMYL), и где структура ссылок является сильным сигналом.
Веб-граф (Link Graph): Основной объект анализа. Система позволяет эффективно обрабатывать связи между сайтами для определения их относительной важности и доверия.
Knowledge Graph: Принципы также могут применяться для анализа связей между сущностями в Knowledge Graph для определения семантической близости.

Когда применяется

Временные рамки: Это система периодической пакетной обработки (offline batch processing). Она не работает в реальном времени при обработке запроса пользователя.
Частота применения: Вычисления запускаются периодически для обновления глобальных графовых метрик, когда структура графа значительно изменилась (обновление индекса ссылок).
Условия работы: Система предназначена для работы в распределенной среде с тысячами компьютеров, где сбои оборудования являются нормой (используется checkpointing для восстановления).

Пошаговый алгоритм

Этап 1: Инициализация и распределение данных

Шардинг графа: Огромный граф делится на шарды. Узлы распределяются по серверам.
Загрузка данных: Каждый сервер копирует свою часть графа (Link Table) на локальные диски.
Инициализация структур: На каждом сервере создается Distance Table (в RAM). Обе таблицы (Link и Distance) сортируются одинаково по идентификатору узла.
Определение Seeds: Загружается список предопределенных Seeds. Они инициируют первую волну обновлений.

Этап 2: Итеративное вычисление (параллельно на всех серверах)

Цикл продолжается до тех пор, пока расстояния не стабилизируются.

Подпроцесс А: Обработка входящих обновлений

Получение обновления: Сервер получает Distance Update (Узел N, Seed S, Расстояние D) от другого сервера.
Сравнение и Обновление: Если D короче, чем текущие известные расстояния для узла N, Distance Table (или Leaf Table) обновляется.
Установка Dirty Bit: Узел N помечается как «грязный» (dirty).

Подпроцесс Б: Распространение исходящих обновлений

Сканирование Distance Table: Сервер последовательно сканирует Distance Table в поисках «грязных» узлов.
Фильтрация по порогу: Применяется Adaptive Propagation Threshold. Обрабатываются только узлы, чье расстояние меньше порога.
Оптимизированный поиск (Look-ahead): Идентификаторы «грязных» узлов помещаются в очередь для поиска в Link Table на диске (последовательное чтение с опережением).
Получение исходящих ребер: Из Link Table извлекаются целевые узлы (соседи).
Генерация и Отправка обновлений: Для каждого соседа вычисляется новое потенциальное расстояние, и Distance Updates отправляются соответствующим серверам. Исходный узел помечается как «чистый» (clean).

Этап 3: Обеспечение отказоустойчивости

Асинхронное сохранение: Серверы периодически и независимо друг от друга сохраняют свое инкрементальное состояние (Checkpoints) в распределенную файловую систему (GFS).
Восстановление: В случае сбоя сервер восстанавливает состояние из последней контрольной точки (Timestamp T) и запрашивает у других серверов обновления, подтвержденные после времени T.

Этап 4: Завершение и слияние

Определение завершения: Мастер-сервер отслеживает активность. Когда все узлы «чистые» и нет активных обновлений, вычисление завершается.
Финальное слияние: Distance Tables и Leaf Tables со всех серверов объединяются в единую таблицу результатов (Merged Distance Table).
Расчет ранга: На основе финальных расстояний до n ближайших Seeds может быть вычислен node ranking (ранг узла).

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на обработке графовых структур.

Ссылочные/Структурные факторы (Структура графа): Основные входные данные. Система использует ориентированный граф, состоящий из узлов (Nodes) и ребер (Edges). Анализируется топология графа.
Веса ребер (Edge Weights): Система может обрабатывать взвешенные графы (weighted digraph), где каждое ребро имеет вес (расстояние). Это может соответствовать качеству, типу ссылки или семантической связи.
Системные данные (Seeds): Список предопределенных исходных узлов (Seeds). В контексте Веб-графа это доверенные или авторитетные сайты.

Другие факторы (контентные, поведенческие и т.д.) в этом патенте не упоминаются.

Какие метрики используются и как они считаются

Shortest Path Distance (Расстояние кратчайшего пути): Основная вычисляемая метрика. Представляет собой сумму весов ребер на кратчайшем пути от узла до Seed.
n Nearest Seeds (n Ближайших сидов): Система хранит не одно, а n (в патенте упоминаются примеры 1 или 3) кратчайших расстояний для каждого узла.
Node Ranking (Ранг узла): Патент явно упоминает, что финальный результат используется для расчета ранга узла, основанного на расстояниях до ближайших Seeds. Указано, что меньшее расстояние соответствует более высокому качеству. Также упоминается, что для расчета ранга может использоваться расстояние до третьего ближайшего Seed.
Adaptive Propagation Threshold: Внутренняя метрика системы для управления нагрузкой. Динамически корректируется для поддержания заданного соотношения распространяемых обновлений.

Инфраструктура для расчета авторитетности: Патент описывает масштабируемый движок, который позволяет Google проводить анализ Веб-графа в глобальном масштабе. Это инфраструктура, необходимая для вычисления метрик, основанных на близости узлов, таких как вариации TrustRank.
Критичность концепции «Seeds»: Вычисления основаны на предопределенном наборе доверенных или авторитетных источников (Seeds). Позиция сайта в графе оценивается относительно этих источников.
Ранжирование на основе близости: Патент прямо связывает результат вычислений с ранжированием. Чем короче путь до авторитетных Seeds, тем выше качество и потенциальный ранг узла.
Важность нескольких источников (N Nearest Seeds): Система отслеживает несколько (например, 3) ближайших Seeds. Ранжирование может учитывать расстояние до n-го сида (например, третьего), что делает оценку более устойчивой к манипуляциям.
Оптимизация и масштабируемость: Ключевое техническое достижение — оптимизация дискового ввода/вывода через синхронизированную сортировку данных в RAM и на диске. Это позволяет Google обрабатывать триллионы связей эффективно и регулярно.
Графовые метрики вычисляются офлайн: Описанный процесс является пакетным (batch processing) и выполняется периодически. Изменения в ссылочном профиле повлияют на графовые метрики только после завершения следующего цикла вычислений.

Best practices (это мы делаем)

Минимизация «ссылочного расстояния» до авторитетов: Стратегия линкбилдинга должна фокусироваться на сокращении пути до авторитетных Seeds. Получение ссылок с сайтов, которые сами находятся близко (в 1-2 шагах) от общепризнанных авторитетов (университеты, правительство, крупные СМИ, лидеры индустрии), является приоритетом.
Фокус на качестве и авторитетности ссылок (Link Quality over Quantity): Качество донора (его близость к Seeds) напрямую влияет на то, насколько он сокращает «ссылочное расстояние». Авторитетность и доверие донора критически важны.
Анализ ссылочного окружения (Link Neighborhood): Анализируйте не только прямых доноров, но и их ссылочный профиль. Доноры, имеющие входящие ссылки от авторитетных ресурсов, передают больше доверия (Trust).
Оптимизация внутренней архитектуры сайта: Внутренняя перелинковка должна обеспечивать короткие пути от страниц входа авторитетности (например, главная страница или страницы, получившие сильные внешние ссылки) до всех важных страниц сайта для эффективного распределения веса.

Worst practices (это делать не надо)

Использование изолированных ссылочных схем (PBN, Спам): Построение ссылок из сетей, которые не имеют связей с авторитетными источниками. Такие ресурсы будут иметь очень большие расстояния до Seeds, и ссылки с них будут неэффективны для повышения графовых метрик доверия.
Игнорирование структуры графа: Концентрация только на количестве ссылок без учета топологии Веб-графа. Система оценивает кратчайшие пути и структуру связей, а не просто количество входящих ребер.
Недооценка весов ребер: Система поддерживает взвешенные графы. Манипулятивные или низкокачественные ссылки могут иметь высокий вес (большое расстояние), что увеличит общую длину пути до Seeds.

Стратегическое значение

Патент подтверждает стратегическую важность структуры Веб-графа и концепции «потока доверия/авторитетности», основанной на близости к доверенным источникам. Он демонстрирует, что Google обладает мощной инфраструктурой для регулярного и эффективного анализа этих связей в масштабах всего интернета. Для SEO это означает, что структурное положение сайта в Веб-графе (кто ссылается на вас и кто ссылается на них) остается критически важным фактором ранжирования и подтверждает важность E-E-A-T, подкрепленного ссылками.

Практические примеры

Сценарий: Оптимизация ссылочного профиля для сокращения расстояния до Seeds

Задача: Повысить авторитетность медицинского сайта (YMYL).

Идентификация потенциальных Seeds: Определить наиболее авторитетные ресурсы в нише (например, WHO, NCBI, ведущие университеты и клиники).
Анализ текущего профиля: Изучить существующие ссылки.
Пример А (Плохо): Большинство ссылок идет с форумов и блогов низкого качества. Цепочка: WHO -> Новостной сайт -> Блог -> Форум -> Ваш сайт. Расстояние до Seed большое.
Пример Б (Хорошо): Есть ссылки с профильных медицинских изданий и исследовательских организаций. Цепочка: NCBI -> Исследовательская организация -> Ваш сайт. Расстояние до Seed короткое.
Стратегия линкбилдинга: Сфокусироваться на получении ссылок от узлов, которые находятся в 1-2 шагах от идентифицированных Seeds. Например, публиковать исследования, которые цитируются университетами или профильными СМИ.
Ожидаемый результат: Сокращение кратчайшего пути до авторитетных Seeds в Веб-графе приведет к улучшению графовых метрик авторитетности (TrustRank) и, как следствие, к улучшению ранжирования.

Что такое «Seeds» (Исходные узлы) в контексте этого патента и как они связаны с SEO?

Seeds — это предопределенные узлы в графе, которые служат отправными точками для вычисления расстояний. В контексте Веб-графа Seeds обычно представляют собой набор высокоавторитетных, доверенных сайтов (например, правительственные ресурсы, крупные университеты, известные бренды). Система вычисляет, насколько «далеко» ваш сайт находится от этих доверенных источников по ссылочным связям.

Как результаты работы этой системы используются в ранжировании?

Патент прямо заявляет, что вычисленные расстояния до ближайших Seeds используются для расчета ранга узла (node ranking) и что меньшее расстояние указывает на более высокое качество. Чем короче путь от вашего сайта до авторитетных Seeds, тем выше будет ваша метрика авторитетности, используемая в ранжировании (например, TrustRank).

Что означает упоминание о ранжировании по третьему ближайшему Seed?

Патент упоминает, что для расчета ранга может использоваться расстояние до третьего (а не первого) ближайшего Seed. Это может быть механизмом защиты от манипуляций, так как сложнее обеспечить близость сразу к нескольким независимым авторитетным источникам, чем к одному. Это подчеркивает важность разнообразия авторитетных ссылок.

Как этот патент влияет на стратегии линкбилдинга (Tier 1, Tier 2, Tier 3)?

Он подтверждает важность многоуровневого линкбилдинга с акцентом на качество на всех уровнях. Цель — сократить расстояние до Seeds. Ссылка Tier 1 с авторитетного сайта (близкого к Seed) идеальна. Ссылки Tier 2/3 полезны, если они усиливают авторитетность ваших доноров Tier 1, но построение Tier 2/3 из спамных ресурсов, удаленных от авторитетов, не поможет сократить расстояние.

Является ли этот алгоритм заменой PageRank?

Нет, это инфраструктура для вычисления графовых метрик, в частности, кратчайших путей. PageRank — это другой тип графового анализа (анализ собственного вектора). Описанная инфраструктура больше подходит для алгоритмов типа TrustRank или вычисления тематической близости, где измеряется расстояние до конкретных Seeds.

Работает ли эта система в реальном времени?

Нет. Это система пакетной обработки (batch processing) для анализа огромных графов офлайн. Она запускается периодически для обновления глобальных метрик авторитетности. Изменения в ссылочном профиле будут учтены только после завершения следующего цикла вычислений, а не мгновенно.

Влияет ли вес ссылки (например, nofollow, анкорный текст) на расчет кратчайшего пути?

Да, патент упоминает возможность использования взвешенных графов (weighted digraph), где ребра (ссылки) имеют разный вес. Это позволяет предположить, что разные типы ссылок могут иметь разную "стоимость" прохождения. Например, качественная редакционная ссылка может иметь меньший вес (короче расстояние), чем ссылка в футере или спамная ссылка.

Насколько важна оптимизация дискового ввода, описанная в патенте?

Она критически важна для масштабируемости. Веб-граф слишком велик для хранения в оперативной памяти. Оптимизация доступа к диску (преобразование случайных чтений в последовательные за счет одинаковой сортировки данных в RAM и на диске) позволяет Google обрабатывать триллионы ссылок за разумное время.

Применяется ли этот алгоритм к внутренним ссылкам сайта?

Да, механизм универсален и может применяться к любому графу. Веб-граф включает внутренние ссылки. Эффективная внутренняя перелинковка сокращает кратчайшие пути внутри сайта, позволяя авторитетности, полученной от внешних источников (близости к Seeds), лучше распределяться до ключевых страниц.

Какова связь этого патента с E-E-A-T?

Патент предоставляет инфраструктурную основу для измерения Авторитетности (Authoritativeness) и Доверия (Trustworthiness) в масштабах всего веба. Он описывает механизм, как Google может количественно оценить авторитетность сайта, измеряя его близость к признанным авторитетным источникам (Seed Nodes) через ссылки. Это графовое измерение E-E-A-T.

Как Google масштабирует расчет кратчайших путей в графе ссылок от авторитетных сайтов («Seed Nodes»)

Патент описывает инфраструктуру Google для распределенного вычисления кратчайших путей в огромных графах, таких как веб-граф. Система позволяет эффективно и отказоустойчиво рассчитывать расстояние от любого узла до ближайших авторитетных «Seed Nodes». Это foundational технология, которая делает возможным применение алгоритмов ранжирования, основанных на анализе ссылочного графа и распространении авторитетности (например, типа TrustRank) в масштабах всего интернета.

US8825646B1
2014-09-02

Ссылки

Как Google рассчитывает авторитетность страниц на основе их близости к доверенным сайтам-источникам (Seed Sites)

Google использует метод ранжирования страниц, основанный на измерении «расстояния» в ссылочном графе от набора доверенных исходных сайтов (Seed Sites) до целевой страницы. Чем короче путь от доверенных источников до страницы, тем выше ее рейтинг авторитетности. Длина ссылки увеличивается (а ее ценность падает), если исходная страница имеет большое количество исходящих ссылок. Этот механизм позволяет эффективно рассчитывать показатели доверия (Trust) в масштабах всего веба.

US9165040B1
2015-10-20

Ссылки
EEAT и качество
Антиспам

Как Google определяет связанные сущности, анализируя их совместное появление в списках и корректируя результат с учетом их глобальной популярности

Google использует алгоритм расширения набора сущностей (Set Expansion). Система анализирует списки, в которых исходные сущности (seeds) появляются вместе с другими. Чтобы найти действительно связанные сущности, а не просто популярные, система корректирует оценку, используя «фоновую вероятность» (глобальную популярность). Это позволяет продвигать нишевые, но тесно связанные сущности.

US9477758B1
2016-10-25

Семантика и интент
Knowledge Graph

Как Google анализирует структуру URL и сигналы качества для выбора Sitelinks (Primary Resources)

Google использует алгоритм для идентификации наиболее важных страниц сайта (Primary Resources), которые затем отображаются как Sitelinks в поисковой выдаче. Система строит иерархическую модель сайта на основе структуры URL (а не ссылок) и оценивает каждую страницу по нескольким критериям: глубина в иерархии, количество дочерних страниц, количество внешних и внутренних ссылок, PageRank и качество контента. Этот метод позволяет выбирать Sitelinks даже без данных о трафике.

US20150199357A1
2015-07-16

Структура сайта
Техническое SEO
SERP

Как Google использует сеть доверия между экспертами для расчета Trust Rank и ранжирования контента

Google использует механизм для определения авторитетности контента путем анализа того, какие эксперты (сущности) доверяют друг другу и как они классифицируют (маркируют) контент в интернете. Система рассчитывает «Рейтинг Доверия» (Trust Rank) для каждой сущности и использует его для повышения в выдаче контента, отмеченного доверенными источниками, интегрируя сигналы репутации в алгоритм ранжирования.

US7603350B1
2009-10-13

EEAT и качество
Knowledge Graph
SERP

Как Google использует исторические данные о кликах (CTR) по категориям для определения доминирующего интента неоднозначных запросов

Google анализирует, на какие категории результатов пользователи кликали чаще всего в прошлом (CTR) по неоднозначному запросу (например, "Pool"). Система определяет доминирующие интенты, выявляя резкие перепады в CTR между категориями или используя иерархию категорий, и повышает в ранжировании результаты, соответствующие наиболее популярным интерпретациям.

US8738612B1
2014-05-27

Семантика и интент
Поведенческие сигналы
SERP

Как Google создает мгновенные интерактивные результаты на SERP, предварительно загружая и персонализируя скрытый контент

Google использует механизм для создания интерактивных блоков ответов (Answer Boxes), таких как Погода или Панели Знаний. Система отправляет пользователю не только видимый результат, но и дополнительный скрытый контент («карточки»), выбранный на основе истории взаимодействий пользователя. При взаимодействии с блоком (свайп или клик) дополнительный контент отображается мгновенно, без отправки нового запроса на сервер.

US9274683B2
2016-03-01

SERP
Персонализация
Поведенческие сигналы

Как Google использует историю поиска и ссылки с предпочитаемых пользователем сайтов для персонализации выдачи

Google может персонализировать результаты поиска, используя историю запросов или просмотров пользователя для создания набора предпочтений (Document Bias Set). Если документы из этого набора, особенно те, которые также признаны глобально качественными, ссылаются на результаты поиска, эти результаты переранжируются (повышаются или понижаются) в соответствии с весами предпочтений пользователя.

US8538970B1
2013-09-17

Персонализация
Поведенческие сигналы
SERP

Как Google использует персональное дерево интересов пользователя для определения важности слов в запросе и его переписывания

Google использует иерархический профиль интересов пользователя (Profile Tree), построенный на основе истории поиска и поведения, чтобы определить, какие слова в запросе наиболее важны для конкретного человека. Специфичные интересы (глубокие узлы в дереве) получают больший вес. Это позволяет системе отфильтровать шум в длинных запросах и сгенерировать более точный альтернативный запрос.

US8326861B1
2012-12-04

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google автоматически дополняет запросы пользователя терминами из его недавней истории поиска для уточнения интента

Google использует механизм для улучшения релевантности результатов путем анализа недавней истории поиска пользователя. Если текущий запрос похож на предыдущие, система определяет ключевые контекстные термины, которые часто повторялись в истории (устойчивый интент), но отсутствуют в текущем запросе. Эти термины автоматически добавляются к запросу, чтобы предоставить более точные и персонализированные результаты.

US9449095B1
2016-09-20

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google вычисляет тематический авторитет автора (Author Rank) на основе его вклада в контент

Google патентует систему для количественной оценки экспертности авторов по конкретным темам. Система анализирует документы, определяет их тематику (Topic) и вес этой тематики (Weight), а затем учитывает долю вклада (Authorship Percentage) каждого автора в раскрытие этой темы. На основе этих данных формируется кумулятивный «Сигнал Авторитета» (Authority Signature) автора, позволяющий идентифицировать экспертов в различных областях.

US8458196B1
2013-06-04

EEAT и качество
Семантика и интент

Как Google ранжирует и рекомендует источники контента (каналы, профили) на основе внутренних ссылок, аннотаций и кликов по ним

Google использует механизм для ранжирования и рекомендации источников контента (например, YouTube-каналов или профилей) внутри платформ. Система анализирует, как часто источник упоминается в аннотациях, описаниях и комментариях к контенту, который просматривал пользователь. Ключевым фактором ранжирования является не только количество упоминаний, но и общее число кликов (активаций) по этим ссылкам.

US9235625B2
2016-01-12

Ссылки
Поведенческие сигналы
Мультимедиа

Как Google (YouTube) ранжирует видео, повышая те, которые начинают сессию просмотра и приводят внешний трафик ("Lead Video")

Google использует систему ранжирования для видеоплатформ, которая идентифицирует "ведущее видео" (Lead Video), инициирующее сессию просмотра. Система применяет повышающие коэффициенты (Scaling Factors) ко времени просмотра этого видео. Видео, привлекшие пользователя на платформу из внешних источников (например, из социальных сетей или поиска Google), получают значительно больший коэффициент, чем те, что были найдены через внутренние рекомендации.

US10346417B2
2019-07-09

Мультимедиа
Поведенческие сигналы
SERP

Как Google извлекает сущности из активности пользователя для запуска проактивных (имплицитных) поисковых запросов

Анализ патента Google, описывающего метод идентификации «именованных сущностей» (людей, тем, фраз) путем мониторинга действий пользователя, таких как электронная почта, просмотр веб-страниц и набор текста. Система использует эти сущности для проактивного запуска фоновых поисковых запросов (имплицитных запросов), релевантных текущему контексту пользователя, часто с использованием персонализированных данных.

US9009153B2
2015-04-14

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google собирает и структурирует данные о поведении пользователей в Поиске по картинкам (включая ховеры, клики и 2D-позицию)

Патент Google описывает инфраструктуру для детального сбора данных в Поиске по картинкам. Система фильтрует общие логи, фиксируя не только клики, но и наведение курсора (ховеры), длительность взаимодействия и точное 2D-расположение (строка/столбец) изображения на выдаче. Эти данные агрегируются в Модель Запросов Изображений для оценки релевантности.

US8898150B1
2014-11-25

Поведенческие сигналы
SERP
Мультимедиа