Как Google ранжирует сущности (людей, продукты) путем оценки качества ресурсов и их авторитетности внутри кластера сущности

Google группирует ресурсы, относящиеся к одной сущности (человек, продукт, книга), в кластеры. Патент описывает двухуровневую систему ранжирования: сначала ресурсы ранжируются внутри кластера на основе их общего качества (Quality Score) и контекстной авторитетности (Cluster Relation Score). Затем сами кластеры ранжируются в выдаче с учетом качества их ресурсов, релевантности запросу и сигналов персонализации (социальные связи, местоположение).

Описание

Какую задачу решает

Патент решает проблему неоднозначности поисковых запросов, содержащих имена (name context), которые могут относиться к разным сущностям (например, разные люди с именем «John Smith», разные продукты или книги с одинаковым названием). Цель изобретения — сгруппировать ресурсы, относящиеся к одной и той же сущности, в cluster, определить наиболее авторитетные ресурсы внутри этого кластера и ранжировать сами кластеры по релевантности для конкретного пользователя.

Что запатентовано

Запатентована система двухуровневого ранжирования для поиска сущностей. Первый уровень — ранжирование ресурсов внутри кластера. Оно основано на комбинации Quality Score (независимая оценка общего качества ресурса) и Cluster Relation Score (оценка авторитетности ресурса относительно других ресурсов в том же кластере). Второй уровень — ранжирование самих кластеров, которое учитывает внутренние оценки ресурсов, релевантность запросу и факторы персонализации.

Как это работает

Система работает в два основных этапа:

1. Ранжирование внутри кластера (преимущественно офлайн): Ресурсы, относящиеся к одной сущности, группируются. Каждый ресурс получает Quality Score (QS) (на основе возраста, спама, общей авторитетности) и Cluster Relation Score (CRS) (на основе связей внутри кластера, конфликтов). QS и CRS комбинируются в Resource Ranking Score (RRS).

2. Ранжирование кластеров (онлайн): При получении запроса система ранжирует кластеры. Cluster Rank Score рассчитывается на основе RRS ресурсов кластера и их релевантности запросу (Search Score). Эта оценка корректируется с помощью Attribute Scores, учитывающих социальные связи пользователя и его местоположение.

Актуальность для SEO

Высокая. Понимание, кластеризация и ранжирование сущностей (Entity Search) являются фундаментом современного поиска и работы Knowledge Graph. Механизмы оценки контекстной авторитетности (Cluster Relation Score) и агрессивной персонализации, описанные в патенте, остаются крайне актуальными для E-E-A-T и разрешения неоднозначности запросов.

Важность для SEO

Патент имеет высокое стратегическое значение (8.5/10) для Entity SEO, управления репутацией (ORM) и продвижения брендов/персон. Он демонстрирует, что помимо общей авторитетности (Quality Score), критически важна авторитетность внутри экосистемы сущности (Cluster Relation Score). Для занятия высоких позиций ресурс должен быть не только качественным, но и хорошо связанным с другими ресурсами о той же сущности, а фрагментация присутствия (Conflicts) наказывается.

Детальный разбор

Термины и определения

Attribute Score (Оценка атрибутов): Значение, используемое для корректировки ранжирования кластеров. Отражает характеристики кластера и его связь с пользователем, включая совпадение имени, социальные связи, географическую близость.
Baseline Score (Базовая оценка кластера): Предварительная оценка кластера, вычисляемая путем объединения Resource Ranking Scores и Search Scores ресурсов внутри кластера.
Cluster (Кластер): Группа ресурсов (веб-страниц, профилей), которые система идентифицировала как относящиеся к одной и той же сущности (Name Context).
Cluster Rank Score (Оценка ранжирования кластера): Итоговая оценка, определяющая позицию кластера (сущности) в поисковой выдаче. Основана на Baseline Score и Attribute Scores.
Cluster Relation Score (CRS) (Оценка связи с кластером): Метрика, зависимая от других ресурсов в кластере. Указывает на авторитетность ресурса относительно других ресурсов в этом же кластере. Основана на связях (connectivity), конфликтах и распространении качества.
Conflict (Конфликт): Ситуация, когда два или более ресурсов в одном кластере относятся к одному и тому же типу недублируемых ресурсов (например, два официальных профиля одного типа для одного человека). Конфликты могут приводить к пенализации.
Dominant Resource (Доминирующий ресурс): Ресурс, имеющий наивысший Resource Ranking Score в кластере.
Name Context (Контекст имени): Сущность, с которой связан кластер. В патенте упоминаются имена людей, названия книг или продуктов.
Quality Score (QS) (Оценка качества): Метрика, независимая от включения ресурса в кластер. Указывает на общее качество ресурса (возраст, спам-сигналы, общая авторитетность, верификация).
Resource Ranking Score (RRS) (Оценка ранжирования ресурса): Итоговая оценка для ранжирования ресурса внутри кластера. Является комбинацией Quality Score и Cluster Relation Score.
Search Score (SS) (Оценка поиска): Оценка, пропорциональная релевантности ресурса конкретному поисковому запросу (например, стандартный IR-score).

Ключевые утверждения (Анализ Claims)

Ядром изобретения является механизм ранжирования ресурсов внутри кластера, описанный в Claim 1.

Claim 1 (Независимый пункт): Описывает метод ранжирования ресурсов внутри кластера.

Система получает доступ к кластеру ресурсов, связанных с Name Context.
Генерируется Quality Score (QS). Ключевое условие: QS независим от кластера и других ресурсов в нем.
Генерируется Cluster Relation Score (CRS). Ключевое условие: CRS зависит от других ресурсов в кластере и указывает на авторитетность ресурса относительно них.
Генерируется Resource Ranking Score (RRS) на основе QS и CRS.
Ресурсы ранжируются на основе RRS.

Claim 2 (Зависимый): Детализирует факторы для QS: релевантность Name Context, возраст ресурса, авторитетность, оценка спама, количество других кластеров, к которым принадлежит ресурс.

Claims 3 и 4 (Зависимые): Детализируют факторы для CRS. Claim 3 указывает на связность (connectivity) с другими ресурсами в кластере. Claim 4 указывает на конфликты (Conflict) между ресурсами одного типа.

Claim 5 (Зависимый) и Claim 23 (Независимый): Описывают метод расчета RRS с использованием линейной взвешенной регрессии (linear weighted regression). Это аддитивная функция: RRS = (Вес1 * QS) + (Вес2 * CRS).

Claim 6 (Зависимый): Описывает механизм распространения качества (Quality Propagation). CRS ресурса может быть уменьшен или увеличен на основе QS другого, связанного с ним (ссылкой) ресурса в кластере.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, сочетая офлайн-вычисления с онлайн-ранжированием.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит основная офлайн-работа. Система группирует ресурсы в кластеры по сущностям. Для каждого ресурса рассчитываются и сохраняются Quality Score (QS) и Cluster Relation Score (CRS). Они объединяются в Resource Ranking Score (RRS). Таким образом, внутреннее ранжирование кластера готово заранее.

RANKING – Ранжирование
Во время обработки запроса система вычисляет Search Scores (SS) для ресурсов, определяя их релевантность запросу.

RERANKING / METASEARCH – Переранжирование и Смешивание
На этом этапе происходит ранжирование кластеров. Система использует предварительно рассчитанные RRS и рассчитанные в реальном времени SS для вычисления базового рейтинга кластера (Baseline Score). Затем применяются Attribute Scores (персонализация, геолокация) для финальной корректировки порядка кластеров и формирования Cluster Rank Score.

Входные данные:

Индекс с кластерами сущностей и предварительно рассчитанными QS, CRS, RRS.
Поисковый запрос (Name Context).
Данные пользователя (социальный граф, местоположение) для Attribute Scores.

Выходные данные:

Ранжированный список кластеров (сущностей).
Для каждого кластера — ранжированный список его ресурсов.

На что влияет

Специфические запросы: Наибольшее влияние на неоднозначные запросы, связанные с сущностями (имена людей, названия брендов, продуктов, книг).
Конкретные типы контента: Особенно влияет на ранжирование профилей (profile pages), официальных веб-сайтов и биографических страниц.
Конкретные ниши: Критично для управления репутацией (ORM), персонального брендинга, локального SEO и E-commerce.

Когда применяется

Триггеры активации: Когда система идентифицирует в запросе Name Context, который требует активации механизма ранжирования сущностей.
Условия работы: Особенно важен, когда Name Context не уникален и необходимо разрешить неоднозначность (disambiguation), выбрав наиболее релевантную сущность для пользователя.

Пошаговый алгоритм

Процесс А: Ранжирование ресурсов внутри кластера (Офлайн / Индексирование)

Доступ к кластеру: Система получает доступ к кластеру ресурсов сущности.
Генерация Quality Score (QS): Для каждого ресурса вычисляется QS на основе независимых факторов (возраст, спам, глобальная авторитетность, верификация аккаунта, репутация автора).
Генерация Cluster Relation Score (CRS): Для каждого ресурса вычисляется CRS. Этот этап включает:
- Анализ связности (Connectivity): Построение графа авторитетности внутри кластера. Оценка входящих и исходящих ссылок между ресурсами кластера. Учитывается возраст ссылок (старые более надежны) и аутентичность.
- Анализ конфликтов (Conflicts): Идентификация ресурсов одного типа. При наличии конфликта оценки могут быть пенализированы.
- Распространение качества (Quality Propagation): Корректировка CRS ресурса на основе QS связанных с ним ресурсов в кластере (повышение от качественных, понижение от некачественных).
Генерация Resource Ranking Score (RRS): Комбинирование QS и CRS (например, взвешенное суммирование) для получения итоговой оценки.
Ранжирование и выбор доминанта: Ресурсы сортируются по RRS. Ресурс с наивысшим RRS определяется как Dominant Resource.

Процесс Б: Ранжирование кластеров (Онлайн / Во время запроса)

Получение запроса и идентификация кластеров: Система получает запрос с Name Context и отбирает релевантные кластеры.
Получение оценок ресурсов: Для ресурсов извлекаются RRS (из Процесса А) и рассчитываются Search Scores (SS) (релевантность запросу).
Расчет Baseline Score: Комбинирование RRS и SS всех ресурсов кластера для получения базовой оценки. Кластеры с более сильными ресурсами (выше RRS) получают преимущество.
Расчет Attribute Scores: Определение атрибутов кластера и контекста пользователя:
- Социальные связи (Social affiliation) между пользователем и сущностью.
- Географическая близость (Localization).
- Совпадение имени (Name-match) с запросом (включая никнеймы, синонимы).
Расчет Cluster Rank Score: Корректировка Baseline Score с помощью Attribute Scores (повышение или понижение).
Генерация выдачи: Кластеры ранжируются согласно их Cluster Rank Score.

Какие данные и как использует

Данные на входе

Система использует разнообразные данные, разделенные по назначению для разных метрик.

Факторы для Quality Score (Независимые от кластера):

Временные факторы: Возраст ресурса (новые могут иметь более низкую оценку).
Ссылочные факторы: Общая авторитетность ресурса в интернете.
Факторы качества/Спам: Оценка спама (spam score).
Факторы репутации: Верификация ресурса (real resource), репутация автора, наличие авторитетных подписчиков (followers).

Факторы для Cluster Relation Score (Зависимые от кластера):

Ссылочные факторы: Связи (inlinks/outlinks) между ресурсами внутри кластера (connectivity). Аутентифицированные ссылки (authenticated links).
Временные факторы: Возраст ссылок внутри кластера (старые ссылки более надежны).
Структурные факторы: Тип ресурса (используется для обнаружения Conflicts).
Контентные факторы: Наличие общих тем (common topics) между ресурсами в кластере.
Системные данные: Quality Scores других ресурсов в кластере (используются для Quality Propagation).

Факторы для Cluster Rank Score (Ранжирование кластеров):

Контентные факторы: Релевантность ресурсов запросу (Search Score). Сходство имени сущности с запросом.
Географические факторы: Местоположение пользователя и сущности (географическая близость).
Пользовательские факторы (Персонализация): Социальные связи пользователя (друзья, сети, организации) и сущности.

Какие метрики используются и как они считаются

Authority Graph (Граф авторитетности): Используется для расчета CRS. Узлы — ресурсы кластера, ребра — связи между ними.
Quality Propagation (Распространение качества): Механизм, при котором QS одного ресурса влияет на CRS связанного с ним ресурса в кластере.
Conflict Penalization (Пенализация за конфликты): Снижение оценок для ресурсов одного типа в одном кластере.
Linear Weighted Regression (Линейная взвешенная регрессия): Явно указанный метод для расчета Resource Ranking Score: RRS = (Вес1 * QS) + (Вес2 * CRS). Также может использоваться для расчета Cluster Rank Score.

Выводы

Двойная природа авторитетности сущности: Патент формализует разделение между общим качеством ресурса (Quality Score) и его контекстуальной авторитетностью для конкретной сущности (Cluster Relation Score). Для доминирования необходимы оба аспекта.
Критичность экосистемы сущности (CRS): Cluster Relation Score подчеркивает важность связей между ресурсами, относящимися к одной сущности. Авторитетность внутри кластера строится через перелинковку и упоминания внутри экосистемы.
Механизм Quality Propagation: Качество распространяется внутри кластера. Ссылки с высококачественных ресурсов внутри кластера повышают CRS цели, а связь с низкокачественными ресурсами может вредить.
Наказание за фрагментацию (Conflicts): Система активно борется с неоднозначностью и фрагментацией цифрового следа. Наличие дублирующихся ресурсов одного типа (например, несколько профилей) приводит к пенализации.
Агрессивная персонализация ранжирования сущностей: Ранжирование кластеров (сущностей) сильно зависит от Attribute Scores. Социальные связи и географическая близость пользователя к сущности являются мощными факторами повышения рейтинга кластера.
Доминирующий ресурс как цель: Цель системы — выявить Dominant Resource, который наилучшим образом представляет сущность. SEO-стратегия должна быть направлена на превращение ключевого актива в этот доминирующий ресурс.

Практика

Best practices (это мы делаем)

Консолидация присутствия и устранение конфликтов: Активно управляйте представлением сущности (бренда, персоны). Избегайте создания дублирующихся профилей одного типа. Консолидируйте сигналы на одном основном ресурсе для каждого типа контента, чтобы избежать пенализации за Conflicts.
Построение контекстной авторитетности (Intra-Cluster Linking): Работайте над улучшением связей внутри экосистемы сущности. Официальный сайт, верифицированные профили и авторитетные упоминания должны ссылаться друг на друга. Это напрямую увеличивает Cluster Relation Score. Использование schema.org/sameAs может помочь в установлении этих связей.
Использование Quality Propagation: Размещайте ссылки с ваших наиболее авторитетных страниц (высокий QS) на другие ваши ресурсы, связанные с той же сущностью, чтобы повысить их CRS. Убедитесь, что ваши основные ресурсы ссылаются только на качественные связанные активы.
Верификация и глобальное качество (QS): Подтверждайте официальные профили и страницы. Патент упоминает верификацию как фактор повышения Quality Score. Работайте над общими сигналами E-E-A-T.
Оптимизация под персонализацию (Attribute Scores): Для локальных сущностей четко указывайте географическое положение. Развивайте реальные социальные связи и подписную базу. Это повышает Attribute Scores и улучшает ранжирование вашего кластера для связанных пользователей.

Worst practices (это делать не надо)

Фрагментация профилей: Создание множества не связанных между собой или дублирующихся профилей для одной сущности. Это создает Conflicts и размывает контекстную авторитетность.
Изоляция ресурсов: Фокусироваться только на общем качестве (QS) ресурса, игнорируя его связи с другими ресурсами о той же сущности. Изолированный ресурс будет иметь низкий CRS.
Ассоциация с низкокачественным контентом: Размещение ссылок на или получение ссылок от низкокачественных ресурсов (низкий QS), даже если они относятся к вашей сущности. Механизм Quality Propagation может снизить ваш CRS.
Использование только свежих ссылок для манипуляции CRS: Патент указывает, что новые ссылки могут считаться ненадежными. CRS строится на старых, проверенных временем связях внутри кластера.

Стратегическое значение

Этот патент является фундаментальным для понимания Entity SEO и подтверждает переход Google к организации знаний вокруг сущностей (кластеров). Стратегия должна быть направлена на построение целостной, верифицированной и взаимосвязанной экосистемы вокруг сущности. Авторитетность должна демонстрироваться не только в целом на вебе (QS), но и конкретно внутри контекста сущности (CRS). Также патент демонстрирует глубокую интеграцию персонализации в процесс ранжирования сущностей.

Практические примеры

Сценарий 1: Управление репутацией (ORM) для публичной персоны

Ситуация: Клиент — известный музыкант «Alex North». В выдаче также присутствует информация о тезке-политике.
Цель: Обеспечить доминирование кластера музыканта и его официального сайта.
Действия:
- Верифицировать все социальные профили музыканта (повышение QS).
- Удалить старые или фейковые профили на тех же платформах (устранение Conflicts).
- Обеспечить перекрестные ссылки между официальным сайтом, верифицированными профилями и авторитетными музыкальными базами данных (повышение CRS за счет связности и Quality Propagation).
Результат: Официальный сайт становится Dominant Resource. Кластер музыканта получает более высокий Cluster Rank Score, особенно для пользователей, интересующихся музыкой или связанных с ним в соцсетях (Attribute Score).

Сценарий 2: Локальное SEO для распространенного имени

Ситуация: Клиент — врач «John Smith» из Денвера. Запрос «John Smith» показывает известных людей.
Цель: Повысить видимость кластера врача для пользователей из Денвера.
Действия:
- Оптимизировать профиль врача и его сайт, указав четкие географические данные (Денвер).
- Обеспечить связи между сайтом клиники, профилем врача и локальными бизнес-справочниками Денвера (укрепление кластера).
Результат: Когда пользователь из Денвера ищет «John Smith», система определяет географическую близость. Attribute Score за географию значительно увеличивает Cluster Rank Score кластера врача, выводя его выше кластеров глобально известных тезок.

Вопросы и ответы

В чем ключевое различие между Quality Score (QS) и Cluster Relation Score (CRS)?

Quality Score (QS) — это независимая оценка общего качества ресурса (авторитет домена, возраст, спам), которая не учитывает его принадлежность к кластеру. Cluster Relation Score (CRS) — это контекстная оценка, которая измеряет авторитетность ресурса исключительно внутри кластера данной сущности, основываясь на связях с другими ресурсами этой же сущности и отсутствии конфликтов.

Что такое «Конфликт» (Conflict) и как он влияет на SEO?

Конфликт возникает, когда в одном кластере присутствуют два или более ресурсов одного и того же «недублируемого» типа, например, два официальных профиля в одной социальной сети для одного человека. Патент указывает, что наличие конфликта может снижать оценки (QS или CRS) для вовлеченных ресурсов. Для SEO это означает, что фрагментированное или дублирующееся присутствие сущности напрямую вредит ранжированию ее ресурсов.

Как работает механизм распространения качества (Quality Propagation) внутри кластера?

Этот механизм корректирует Cluster Relation Score (CRS) на основе качества (QS) связанных ресурсов внутри кластера. Если Ресурс А ссылается на Ресурс Б (оба в одном кластере), и у Ресурса А высокий QS, то CRS Ресурса Б может повыситься. И наоборот, связь с низкокачественными ресурсами может негативно влиять на CRS. Это подчеркивает важность качества всей экосистемы сущности.

Как SEO-специалист может улучшить Cluster Relation Score (CRS) для сайта клиента?

Основной способ — это улучшение связности (connectivity) внутри кластера. Необходимо, чтобы как можно больше качественных ресурсов, относящихся к той же сущности (официальные профили, СМИ, партнеры), ссылались на сайт клиента. Также важно устранить любые «конфликты» (например, закрыть дублирующиеся сайты/профили), так как они напрямую снижают CRS.

Применяется ли этот патент только к поиску людей?

Нет. Хотя большинство примеров в патенте касаются имен людей (person name context), в описании и Claims указано, что name context может включать также названия книг или продуктов. Это означает, что описанные механизмы ранжирования кластеров и ресурсов применимы к любым сущностям (Entity SEO).

Что такое Доминирующий ресурс (Dominant Resource)?

Это ресурс, который получил наивысший Resource Ranking Score (комбинация QS и CRS) внутри кластера. По сути, это лучший ресурс, представляющий сущность по мнению Google. Целью SEO-стратегии должно быть превращение основного сайта или профиля клиента в Dominant Resource его кластера.

Как патент учитывает персонализацию при ранжировании сущностей?

Персонализация учитывается на этапе ранжирования кластеров через Attribute Scores. Система проверяет наличие социальных связей между пользователем и сущностью кластера (например, общие друзья или подписки), а также географическую близость. Кластеры, более близкие к пользователю социально или географически, получают значительное повышение в ранжировании.

Влияет ли возраст ресурса или ссылок на ранжирование?

Да. Возраст ресурса упоминается как фактор для Quality Score (новые страницы могут иметь более низкий QS). Возраст ссылок учитывается при расчете Cluster Relation Score: старые ссылки считаются более надежными и придают больше авторитетности внутри кластера, чем новые.

Как рассчитывается итоговый Resource Ranking Score (RRS)?

Патент предлагает конкретный метод: линейную взвешенную регрессию. Это означает, что RRS рассчитывается как взвешенная сумма Quality Score и Cluster Relation Score (RRS = QS * Вес1 + CRS * Вес2). Это позволяет системе настраивать важность общего качества по сравнению с контекстной авторитетностью.

Как система ранжирует два кластера (двух разных людей с одинаковым именем), если их ресурсы одинаково релевантны запросу?

В этом случае преимущество получит тот кластер, чьи ресурсы имеют более высокие Resource Ranking Scores (т.е. кластер, который лучше представлен авторитетными и качественными ресурсами). Если и эти показатели равны, система будет использовать Attribute Scores (персонализацию), чтобы определить, какой кластер более релевантен для конкретного пользователя.