Как Google строит семантический граф авторитетности на основе совместной встречаемости терминов для переранжирования результатов

Google анализирует, как термины взаимодействуют внутри топовых результатов поиска, чтобы построить семантический граф связей. Система обрабатывает документы последовательно, отдавая предпочтение тем, которые вводят более сильные или новые взаимосвязи слов (измеряемые через TDW). Это создает неявный ссылочный граф между документами (даже без гиперссылок), который затем анализируется (подобно PageRank) для переранжирования и повышения разнообразия выдачи.

Описание

Какую задачу решает

Патент решает задачу улучшения качества и разнообразия (diversity) поисковой выдачи, особенно для неоднозначных запросов (ambiguous queries). Он предлагает механизм для выявления семантически авторитетных документов и определения взаимосвязей между ними на основе их содержания, не полагаясь на гиперссылки. Цель — переупорядочить результаты так, чтобы в топе был представлен более широкий спектр информации.

Что запатентовано

Запатентована система переранжирования, которая принимает на вход уже упорядоченный набор документов (initial order). Система анализирует взаимодействие терминов внутри каждого документа (Local Term Relationships) и агрегирует их в глобальную модель (Global Term Relationships). Ключевая особенность — последовательная обработка документов, при которой приоритет отдается документам, вводящим более сильные связи между терминами, чем те, что были найдены в документах, ранжирующихся выше. На основе этого строится граф взаимосвязей документов, и финальная оценка вычисляется через анализ ссылок (например, PageRank).

Как это работает

Система функционирует как алгоритм переранжирования:

Локальный анализ: В каждом документе выявляются ключевые термины и сила связей между ними на основе частоты, позиции и близости (proximity).
Последовательное построение глобального графа: Система обрабатывает документы в их исходном порядке. Связь обновляется в глобальном графе, только если она сильнее, чем связь между теми же терминами, найденная ранее (в документах выше по списку).
Расчет семантического вклада (TDW): Вычисляется Term-Document Weight (TDW), который измеряет, насколько значимую «новую информацию» о семантике термина внес данный документ, основываясь на *приросте* силы связи.
Граф документов: Строится направленный граф (Document Relationship Graph), где связи указывают на документ, внесший больший семантический вклад (больший TDW).
Переранжирование: К графу документов применяется алгоритм анализа ссылок (например, PageRank) для определения новых оценок.

Актуальность для SEO

Высокая. Концепции повышения разнообразия выдачи, анализа семантических связей и близости терминов для определения авторитетности крайне актуальны для современного поиска. Хотя конкретные формулы, описанные в патенте (имеющем приоритет с 2008 г.), могут быть частично устаревшими по сравнению с современными NLP-моделями, лежащие в его основе принципы оценки семантического вклада и построения тематического авторитета остаются фундаментальными.

Важность для SEO

Патент имеет значительное влияние на SEO (7.5/10). Он демонстрирует конкретный механизм, позволяющий оценивать авторитетность на основе контента и семантических связей, независимо от внешних гиперссылок. Это подчеркивает критическую важность структуры контента: близость и ясность изложения взаимосвязей между ключевыми понятиями (терминами и сущностями) напрямую влияют на расчет весов (Local term relationships и TDW) и, следовательно, на итоговое ранжирование.

Детальный разбор

Термины и определения

Document Relationship Graph (Граф взаимосвязей документов): Направленный граф, где узлы представляют документы. Ребра между документами основаны на общих терминах и их семантическом вкладе (TDW). Направление указывает на документ с большим суммарным TDW. Используется для финального расчета оценок.
Edge State Information (Информация о состоянии ребра): Данные, хранящиеся для каждого ребра в Global term relationship graph. Включают векторы, отслеживающие, какой документ внес текущий вес ребра, каков этот вес и каким был предыдущий вес. Критически важны для расчета TDW.
Global Term Relationships (Глобальные взаимосвязи терминов): Агрегированные взаимосвязи терминов для всего набора документов. Представлены в виде графа, который строится последовательно на основе локальных графов и исходного порядка документов.
Initial Order (Исходный порядок): Предварительное ранжирование набора документов (например, результаты поиска), которое определяет последовательность их обработки.
Local Term Relationships (Локальные взаимосвязи терминов): Взаимосвязи (взаимодействия) между парой терминов в пределах одного документа, основанные на близости (proximity), например, появление в одном абзаце.
Term-Document Weight (TDW) (Вес Термин-Документ): Метрика (Equation 4), представляющая новую информацию о семантике термина, содержащуюся в документе. Рассчитывается на основе глобального веса термина и суммы скоростей увеличения (rates of increase) весов ребер, внесенных этим документом.
Term Score (S) (Оценка термина): Метрика (Equation 1) значимости термина в пределах документа. Основана на частоте встречаемости и позиции самого раннего появления (earliest position of occurrence).
Term Weight (T) (Вес термина): Метрика (Equation 3) значимости термина в глобальном контексте. Рассчитывается как сумма весов всех связанных с ним ребер в глобальном графе.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод ранжирования.

Система получает множество документов с исходным порядком (initial order).
Идентифицируются локальные взаимосвязи терминов (local term relationships).
Определяются взаимосвязи *между* документами на основе локальных взаимосвязей И исходного порядка. Это включает последовательный (в соответствии с порядком) перебор документов и добавление узлов (терминов) и ребер (взаимосвязей) в global term relationships graph.
Определяется итоговая оценка для каждого документа на основе этих взаимосвязей между документами.

Claim 4 (Зависимый от 3, 2, 1): Детализирует критически важный механизм обновления глобального графа и роль последовательной обработки.

Первый документ добавляет ребро с первым весом (first magnitude) в глобальный граф.
Выбирается второй документ, находящийся позже в исходном порядке.
Вычисляется второй вес (second magnitude) для той же пары терминов во втором документе.
Если второй вес больше первого, первому ребру в глобальном графе присваивается второй вес.

Глобальный граф строится инкрементально. Документы, расположенные ниже в исходной выдаче, могут повлиять на глобальные веса (и получить за это вознаграждение в виде TDW), только если они демонстрируют *более сильные* взаимосвязи терминов, чем документы, расположенные выше. Это основа для расчета «новизны информации».

Claim 5 (Зависимый от 1): Уточняет, что определение взаимосвязей между документами включает генерацию document relationships graph на основе глобального графа терминов.

Где и как применяется

Изобретение в основном применяется на финальных этапах обработки поисковой выдачи.

INDEXING – Индексирование и извлечение признаков
На этом этапе система извлекает и сохраняет данные, необходимые для работы алгоритма: идентификация терминов (включая named entities), их частота и точное позиционирование (номер предложения, номер абзаца). Также может использоваться TFIDF для фильтрации терминов.

RANKING – Ранжирование
Основная система ранжирования генерирует initial order документов — упорядоченный список результатов (например, Топ-1000), который служит входными данными для описанного процесса.

RERANKING – Переранжирование
Основное применение патента. Система берет результаты этапа RANKING и выполняет сложный анализ для переоценки их порядка и повышения разнообразия.

Анализ контента: Рассчитываются Local term relationships.
Построение семантического графа: Последовательно строится Global term relationships graph и вычисляются Term-Document Weights (TDW).
Построение графа документов: Генерируется Document Relationship Graph.
Пересчет оценок: Применяется анализ ссылок (PageRank) к графу документов.

Входные данные:

Упорядоченный набор документов (initial order).
Содержимое и структура (предложения, абзацы) этих документов.

Выходные данные:

Переупорядоченный набор документов с новыми оценками ранжирования.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на неоднозначные запросы (ambiguous query), где система может помочь разнообразить выдачу, выявляя документы, посвященные разным интерпретациям запроса (например, «Mockingbird» как птица, книга или песня, как указано в патенте). Также влияет на широкие информационные запросы.
Типы контента: Влияет на информационный контент (статьи, лонгриды), богатый семантическими связями, где важны взаимосвязи между концепциями и глубина раскрытия темы.

Когда применяется

Условия применения: Алгоритм применяется к набору документов, уже прошедших первичное ранжирование. В патенте упоминается применение к топовым результатам (например, топ-1000).
Цель применения: Улучшение разнообразия (diversity) и выявление семантически авторитетных документов по различным аспектам запроса.

Пошаговый алгоритм

Процесс переранжирования набора документов.

Этап 1: Подготовка и Локальный анализ

Получение данных: Выбор упорядоченного набора документов (initial order).
Идентификация и Оценка Терминов: В каждом документе:
- Фильтрация терминов (например, по TFIDF).
- Расчет Term Score (S) (Equation 1) на основе частоты и позиции самого раннего вхождения. Бонусы для именованных сущностей.
- Выбор подмножества топовых терминов (например, Топ-20).
Определение Локальных Взаимосвязей: В каждом документе:
- Идентификация взаимодействий между выбранными терминами на основе близости (например, в одном абзаце).
- Построение Local term relationship graph.
- Расчет весов локальных ребер (W) (Equation 2). Вес зависит от оценок терминов (S) и расстояния между ними в предложениях.

Этап 2: Построение Глобального Графа (Последовательный процесс)

Инициализация: Создается пустой Global term relationship graph.
Последовательная обработка: Документы обрабатываются строго согласно initial order (D1, D2, и т.д.).
Обновление графа: Для каждого локального ребра из текущего документа:
- Ребро добавляется в глобальный граф.
- Если ребро уже существует, оно обновляется, *только если* новый вес (W_new) выше текущего глобального веса (W_old).
- При обновлении сохраняется Edge State Information (вектор: <Документ, W_new, W_old>).

Этап 3: Расчет весов и Построение Графа Документов

Расчет Глобальных Весов Терминов (T): Для каждого термина рассчитывается вес T (Equation 3) как сумма весов всех связанных с ним ребер в глобальном графе.
Расчет Term-Document Weight (TDW): Для каждой пары (Термин t, Документ D) рассчитывается TDW (Equation 4). Это произведение T(t) и суммы *скоростей увеличения* весов ребер, внесенных Документом D (используя Edge State Information). Если это первое добавление ребра (W_old=0), скорость рассчитывается как (W_new — 0) / 1.
Построение Графа Документов: Создается Document Relationship Graph.
- Определение ребер: Документы D_A и D_B соединяются, если у них есть общие термины с ненулевым TDW.
- Определение направления: Сравнивается сумма TDW общих терминов для D_A (Z(D_A)) и D_B (Z(D_B)). Ребро направляется к документу с большей суммой.

Этап 4: Финальное Ранжирование

Расчет оценок: Применение алгоритма анализа ссылок (например, PageRank) к Document Relationship Graph.
Переупорядочивание: Документы сортируются на основе новых оценок (или комбинации новых и исходных оценок).

Какие данные и как использует

Данные на входе

Патент фокусируется на анализе контента, структуры документов и системных данных о ранжировании.

Контентные факторы: Текст документа используется для идентификации терминов, их частоты и типа (named entity, proper noun, topic-specific term).
Структурные факторы: Документ анализируется на уровне предложений и абзацев. Эти структурные единицы используются для определения позиции терминов (earliest position of occurrence) и расстояния между ними (proximity).
Системные данные: Initial order документов (исходное ранжирование) критически важен, так как он определяет порядок обработки документов при построении глобального графа и расчете TDW.

Какие метрики используются и как они считаются

Система вычисляет несколько ключевых метрик, для которых в патенте приведены формулы:

Term Score (S) (Equation 1): Оценка важности термина в документе. S = α(number of occurrences) + β / sqrt(earliest position of occurrence). Учитывает частоту и позицию. Предусмотрены бонусы для сущностей.
Local Edge Weight (W) (Equation 2): Вес взаимодействия двух терминов (t1, t2) в документе. Формула учитывает Term Scores (S(t1), S(t2)), их самые ранние позиции (a, b) и расстояние между ними в предложениях (y-x). Чем меньше расстояние, тем выше вес.
Term Weight (T) (Equation 3): Глобальная важность термина. Рассчитывается как сумма текущих весов всех ребер, подключенных к термину в Global term relationship graph.
Term-Document Weight (TDW) (Equation 4): Вклад документа (D1) в понимание термина (t1). TDW(t1→D1) = T(t1) * Σ [ (W_new — W_old) / W_old ]. Учитывает вес термина и сумму скоростей увеличения весов ребер, внесенных документом. Эта метрика вознаграждает новизну и силу связей.
Z(D) Score: Сумма TDW общих терминов между двумя документами. Используется для определения направления ребер в Document Relationship Graph.
Document Score: Итоговая оценка документа, полученная путем применения анализа ссылок (PageRank) к Document Relationship Graph.

Выводы

Семантическая авторитетность вместо гиперссылок: Патент описывает детальный механизм построения графа авторитетности, основанного исключительно на семантических связях внутри контента (неявный ссылочный граф). Это позволяет оценивать авторитетность без учета внешних ссылок.
Вознаграждение за силу и новизну связей (TDW): Ядром изобретения является метрика TDW. Она вознаграждает документы, которые устанавливают *более сильные* взаимосвязи между терминами, чем документы, уже находящиеся выше в выдаче. Простое повторение уже известных связей не дает значительного преимущества.
Критичность структуры и близости терминов: Способ расчета Local term relationships напрямую зависит от того, насколько близко друг к другу расположены связанные термины (расстояние в предложениях/абзацах) и насколько рано они появляются в тексте. Хорошо структурированный контент получает преимущество.
Initial Order имеет значение: Исходное ранжирование определяет базовый уровень весов в глобальном графе. Документы в топе задают контекст, который последующие документы должны превзойти по силе связей, чтобы получить высокий TDW.
Механизм диверсификации: Система способствует разнообразию выдачи по неоднозначным запросам, так как различные аспекты темы формируют разные кластеры взаимосвязей терминов, что приводит к продвижению авторитетов из разных кластеров.

Практика

Best practices (это мы делаем)

Структурируйте контент для максимальной ясности связей (Proximity): Используйте четкую структуру предложений и абзацев. Связанные концепции и сущности должны находиться в тесной близости друг от друга (в одном предложении или соседних предложениях). Это максимизирует Local Edge Weight (W).
Применяйте принцип «Перевернутой пирамиды» (Positioning): Размещайте важные термины в начале документа. Term Score (S) и Local Edge Weight (W) учитывают позицию самого раннего появления термина. Размещение ключевых концепций в начале текста повышает их базовые оценки.
Фокус на взаимосвязях сущностей (Entity Relationships): Поскольку именованные сущности получают бонус к Term Score (S), необходимо четко определять и описывать взаимосвязи между ключевыми сущностями в вашей нише. Документ должен ясно показывать, как связаны сущности А и Б.
Стремитесь к созданию определяющего контента (Definitive Content): Чтобы максимизировать TDW, ваш контент должен устанавливать более сильные и четкие взаимосвязи между терминами, чем у конкурентов в топе. Это требует глубины проработки темы и ясности изложения (Topical Authority).

Worst practices (это делать не надо)

Разделение связанных концепций: Размещение связанных терминов далеко друг от друга (в разных частях документа) ослабляет Local term relationships, так как вес обратно пропорционален расстоянию между терминами.
Беспорядочное перечисление ключевых слов (Keyword Stuffing): Простое наличие терминов недостаточно. Система оценивает *взаимодействие* между ними на основе близости. Термины без четких взаимодействий с другими терминами не сформируют сильных связей.
Поверхностный контент и «Вода»: Контент, который лишь упоминает термины, но не устанавливает между ними сильных связей, или контент с длинными вступлениями, получит низкие локальные веса и низкий Term Score, и, следовательно, низкий TDW.

Стратегическое значение

Этот патент подтверждает стратегию Google по переходу от анализа ключевых слов к пониманию концепций и их взаимосвязей. Он описывает конкретный алгоритм для построения семантического графа авторитетности. Для SEO это означает, что долгосрочная стратегия должна фокусироваться на создании глубокого, хорошо структурированного контента, который четко определяет ландшафт темы и взаимосвязи внутри него. Этот механизм позволяет авторитетному контенту ранжироваться высоко, основываясь на качестве самого контента.

Практические примеры

Сценарий: Оптимизация статьи для повышения семантического вклада (TDW)

Задача: Написать статью о «Влиянии сна на когнитивные функции».

Плохая реализация (Низкий TDW): Термины «сон», «память», «концентрация» разбросаны по тексту. В начале много общих фраз. Связи между терминами слабые.

Хорошая реализация (Высокий TDW):

Начало текста (Высокий Term Score): В первом абзаце (ранняя позиция) четко вводятся основные сущности: «Недостаток сна напрямую влияет на когнитивные функции, такие как консолидация памяти и концентрация внимания».
Близость терминов (Высокий Edge Weight): В основном тексте связанные понятия обсуждаются в тесной связке (малое расстояние). Например: «Во время фазы глубокого сна (NREM) происходит реактивация нейронных связей, что критично для консолидации декларативной памяти». Термины «глубокий сон», «NREM», «консолидация памяти» находятся рядом.
Результат: Система идентифицирует сильные связи между важными терминами. Если эти связи сильнее, чем в других документах выдачи, статья получит высокий TDW. В Document Relationship Graph она получит входящие связи от других документов по этой теме и повысит свой итоговый рейтинг.

Вопросы и ответы

Что такое Term-Document Weight (TDW) и почему это важно?

TDW — это ключевая метрика в патенте, которая измеряет семантический вклад или «новую информацию», которую документ вносит в понимание термина. Она рассчитывается не на основе абсолютной силы связи в документе, а на том, насколько эта связь *сильнее*, чем в документах, ранжированных выше (скорость увеличения веса). Высокий TDW указывает на то, что документ является авторитетным источником для данной семантической связи.

Как изначальный порядок ранжирования (Initial Order) влияет на результат?

Изначальный порядок критически важен. Global term relationship graph строится последовательно сверху вниз. Документы в топе задают базовые веса взаимосвязей. Документ, находящийся ниже, может обновить глобальный вес и получить высокий TDW, только если он демонстрирует *более сильную* взаимосвязь терминов, чем все документы над ним.

Чем описанный механизм отличается от традиционного PageRank?

Традиционный PageRank анализирует граф реальных гиперссылок. Описанный механизм строит Document Relationship Graph — семантический граф, где связи основаны на анализе совместной встречаемости терминов и семантическом вкладе (TDW), а не на гиперссылках. Затем алгоритм типа PageRank применяется уже к этому семантическому графу.

Насколько важна позиция ключевых слов в тексте согласно этому патенту?

Критически важна. Оценка термина (Term Score S) рассчитывается на основе позиции первого упоминания (earliest position of occurrence) — чем раньше термин встречается (меньше номер предложения), тем выше его оценка. Это явно поддерживает использование принципа «перевернутой пирамиды» в копирайтинге.

Как патент учитывает близость (Proximity) терминов?

Близость используется для расчета веса связи (Edge Weight W). В формуле (Equation 2) используется расстояние между терминами в предложениях (y-x). Чем меньше расстояние, тем сильнее связь. Тесное расположение связанных понятий в тексте (в одном предложении или абзаце) является сильным сигналом.

Как этот патент связан с E-E-A-T и авторитетностью?

Этот патент предоставляет конкретный алгоритмический метод для оценки Авторитетности (A в E-E-A-T) на основе самого контента. Документы, которые вносят значительный семантический вклад (высокий TDW) и получают много входящих связей в Document Relationship Graph, признаются авторитетными источниками по данной теме, независимо от внешних ссылок.

Учитывает ли система именованные сущности (Named Entities)?

Да, патент явно упоминает, что при расчете оценки термина (Term Score S) могут добавляться бонусы, если термин является именованной сущностью (named entity), именем собственным или тематическим термином. Это подчеркивает важность работы с сущностями в контенте.

Может ли этот механизм помочь в диверсификации выдачи?

Да, это одна из заявленных целей. Для неоднозначных запросов система может идентифицировать разные кластеры взаимосвязей (например, Ягуар-животное vs Ягуар-автомобиль). Это приведет к формированию разных направлений в Document Relationship Graph и продвижению документов из разных кластеров для обеспечения разнообразия (diversity).

Что такое Edge State Information и как она используется?

Edge State Information — это история изменений веса ребра в глобальном графе. Она хранит данные о том, какой документ вызвал обновление веса, старый вес и новый вес. Эта информация необходима для расчета TDW, так как позволяет измерить скорость увеличения веса ((W_new — W_old)/W_old), что является мерой новизны информации, внесенной документом.

Использует ли этот алгоритм нейронные сети или BERT?

Нет. Патент (с приоритетом от 2008 г.) использует традиционные методы Information Retrieval, основанные на статистическом анализе текста, позициях терминов и анализе графов. Хотя современные NLP-модели решают схожие задачи, они используют более сложные методы. Однако базовые принципы, описанные здесь, остаются актуальными.