Как Google ранжирует сущности (книги, фильмы, людей), анализируя тематичность и авторитетность их упоминаний в вебе

Google использует механизм для оценки значимости конкретных сущностей (например, изданий книг или фильмов). Система анализирует, как эти сущности упоминаются на релевантных веб-страницах, учитывая уверенность распознавания (Confidence) и то, насколько страница посвящена именно этой сущности (Topicality). Эти сигналы агрегируются с учетом авторитетности и релевантности страниц для расчета итоговой оценки сущности, которая затем корректирует ее ранжирование в поиске.

Описание

Какую задачу решает

Патент решает проблему неточного или неполного ранжирования в специализированных корпусах (например, Google Книги, Фильмы). Стандартные алгоритмы могут упускать релевантные Entity Realizations (конкретные воплощения сущностей, например, определенное издание книги), если система не может точно оценить значимость этой сущности в контексте запроса. Изобретение улучшает качество вертикального поиска, используя сигналы из общего веб-индекса для оценки и ранжирования этих специализированных сущностей.

Что запатентовано

Запатентована система для расчета оценки сущности (Reference Score) путем анализа того, как эта сущность упоминается в наборе веб-документов, релевантных запросу. Система использует метрики уверенности (Confidence Score) и тематичности (Topicality Score) упоминаний, а также релевантность и качество самих документов. Эти оценки сложно нормализуются с учетом контекста других сущностей на странице и используются для корректировки ранжирования сущности.

Как это работает

Система функционирует в два этапа: офлайн-подготовка и онлайн-обработка запроса.

Офлайн: Система заранее отбирает подмножество авторитетных веб-ресурсов (Proper Subset), основываясь на их качестве (Quality Score) и том, как они ссылаются на сущности.
Онлайн (Во время запроса):

Определяются веб-ресурсы (часто из Proper Subset), релевантные запросу.
В них анализируются упоминания сущностей с учетом Confidence и Topicality.
Рассчитывается вклад каждого ресурса (Reference Partial Score). Этот вклад нормализуется: если страница упоминает много сущностей, вес каждой снижается.
Оценки агрегируются в финальный Reference Score для сущности.
Результаты вертикального поиска переранжируются с учетом этих оценок.

Актуальность для SEO

Высокая. Понимание сущностей (Knowledge Graph) и использование веба для оценки их авторитетности (E-E-A-T, Topical Authority) являются фундаментом современного поиска. Этот патент описывает конкретный механизм для количественной оценки значимости сущностей на основе контекста и качества их упоминаний в интернете, что остается крайне актуальным.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (85/100). Он раскрывает механизм, как контент и упоминания на веб-страницах напрямую влияют на ранжирование сущностей (продуктов, людей, компаний). Понимание метрик Topicality (тематичность) и Confidence (уверенность), а также механизма нормализации и роли Quality Score источника, критически важно для стратегий Entity SEO, Digital PR и управления репутацией.

Детальный разбор

Термины и определения

Confidence Score (C(p,e)) (Оценка уверенности): Метрика, показывающая уверенность системы в том, что упоминание в ресурсе (p) действительно относится к конкретной реализации сущности (e).
Entity Realization (Реализация сущности) (e): Конкретное воплощение сущности. Например, конкретное издание книги, версия фильма или персона. В патенте часто взаимозаменяемо с Expression.
Expression (Выражение): Специфическая интеллектуальная или художественная форма произведения (Work). Например, английское издание романа «Том Сойер».
First Value (FV(p,e)) (Первое значение): Промежуточное значение, пропорциональное произведению Confidence Score и Topicality Score для упоминания сущности в ресурсе.
Proper Subset (Надлежащее подмножество): Предварительно отобранный (офлайн) набор высококачественных веб-ресурсов, которые авторитетно ссылаются на сущности. Используется для оптимизации анализа.
Quality Score (Оценка качества ресурса): Независимая от запроса мера качества ресурса относительно других ресурсов в корпусе (например, авторитетность сайта). Используется в офлайн-процессе для отбора Proper Subset.
Reference Partial Score (Sp(p,e)) (Первая частичная оценка): Оценка вклада конкретного ресурса (p) в общую релевантность сущности (e). Учитывает релевантность ресурса и нормализуется по всем другим сущностям в ресурсе.
Reference Score (S(e)) (Итоговая оценка сущности): Финальная оценка для реализации сущности (e), полученная путем агрегации всех ее Reference Partial Scores (Sp) со всех релевантных ресурсов.
Relevance Score (R(p)) (Оценка релевантности): Мера релевантности ресурса (p) исходному поисковому запросу (стандартный IR-score).
Resource Partial Score (CT(p)) (Вторая частичная оценка): Сумма First Values (FV) для всех сущностей, упомянутых в ресурсе (p). Используется как фактор нормализации.
Resource Reference Scores: Оценки качества упоминания сущности в контексте ресурса. Включают Confidence Score и Topicality Score.
Topicality Score (T(p,e)) (Оценка тематичности): Метрика, измеряющая тематическую связанность сущности (e) с контентом ресурса (p). Показывает, насколько центральной является сущность для темы документа.

Ключевые утверждения (Анализ Claims)

Патент описывает два основных аспекта: (1) Ранжирование сущностей в ответ на запрос (Онлайн) и (2) Офлайн-процесс отбора корпуса ресурсов.

Аспект 1: Ранжирование сущностей в ответ на запрос (Claims 1-12)

Claim 1 (Независимый пункт): Описывает основной метод ранжирования.

Система получает данные о ресурсах, релевантных запросу, включая их Relevance Scores (R(p)) и Resource Reference Scores для упомянутых сущностей (e).
Для каждого упоминания рассчитывается First Partial Score (Sp(p,e)), используя эти оценки.
Для каждой сущности рассчитывается итоговый Reference Score (S(e)) путем агрегации Sp(p,e).
Порядок поисковых результатов корректируется на основе S(e).

Claim 3 (Зависимый): Детализирует расчет Sp(p,e), вводя нормализацию.

Сначала вычисляется Second Partial Score (CT(p)) для ресурса на основе оценок *всех* сущностей в нем.
Затем Sp(p,e) рассчитывается с использованием оценок конкретной сущности, R(p) и вычисленного CT(p).

Если документ релевантен запросу, но упоминает много разных сущностей (высокий CT(p)), его вклад в оценку каждой отдельной сущности (Sp(p,e)) снижается. Это позволяет распределить релевантность документа между упомянутыми сущностями, отдавая предпочтение тем, которые являются фокусом документа.

Claim 4 (Зависимый): Определяет компоненты и расчет CT(p).

Resource Reference Scores включают Confidence Score (C) и Topicality Score (T).
CT(p) рассчитывается как сумма First Values (FV(p,e)), где FV пропорционально произведению C и T.

Claim 6 и 7 (Зависимые): Детализируют расчет итогового S(e).

S(e) рассчитывается как сумма всех Sp(p,e), умноженная на Relevance Score ресурса, находящегося на N-й позиции в ранжировании (например, 10-й результат). Это нормализует итоговую оценку сущности относительно общего качества веб-выдачи по данному запросу.

Аспект 2: Офлайн-отбор корпуса ресурсов (Описан в патенте, FIG. 5 и 6)

Этот процесс направлен на создание Proper Subset для оптимизации Аспекта 1.

Система анализирует известные Entity Realizations.
Для каждой сущности идентифицируются ресурсы, которые на нее ссылаются.
Ресурсы ранжируются для *каждой* сущности на основе комбинации Quality Score (независимая от запроса авторитетность ресурса) и Resource Reference Scores (C и T).
Для каждой сущности отбираются Топ-N ранжированных ресурсов.
Объединение (Union) всех отобранных ресурсов формирует Proper Subset.

Где и как применяется

Изобретение связывает данные из общего веб-индекса с ранжированием в специализированных (вертикальных) индексах сущностей.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходят ключевые офлайн-процессы (Аспект 2):

Вычисление Quality Scores для веб-ресурсов.
Идентификация сущностей и расчет Confidence Scores и Topicality Scores для упоминаний.
Выполнение процесса отбора Proper Subset – создание оптимизированного корпуса авторитетных ресурсов для анализа сущностей.

RANKING – Ранжирование
На этом этапе (Аспект 1) система выполняет поиск по веб-корпусу (часто ограниченному Proper Subset) для получения релевантных ресурсов и их Relevance Scores (R(p)). Параллельно может выполняться поиск в вертикальном индексе.

RERANKING – Переранжирование / METASEARCH – Метапоиск и Смешивание
Основное применение патента (Аспект 1). Система использует данные этапа RANKING для выполнения расчетов:

Вычисление Resource Partial Scores (CT(p)) для нормализации.
Вычисление Reference Partial Scores (Sp(p,e)).
Агрегация в итоговый Reference Score (S(e)).
Корректировка ранжирования результатов вертикального поиска на основе S(e). Система может также генерировать synthetic search result для сущностей с высоким S(e).

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние на вертикальные поиски: Книги (основной пример), Фильмы, Музыка, Товары, а также ранжирование Персон и Организаций (например, в Knowledge Panels).
Специфические запросы: Запросы, где интент связан с поиском конкретных сущностей.
Тематический авторитет (Topical Authority) и E-E-A-T: Патент предоставляет механизм для количественной оценки авторитетности ресурса по отношению к сущности.

Когда применяется

Условия применения: Алгоритм применяется при поиске в специализированном корпусе или когда система определяет, что общий запрос направлен на поиск сущностей.
Временные рамки: Процесс отбора Proper Subset выполняется офлайн периодически. Расчет Reference Score выполняется онлайн во время обработки запроса.

Пошаговый алгоритм

Процесс А: Офлайн-генерация корпуса (Proper Subset) (Аспект 2)

Сбор данных: Получение списка известных Entity Realizations (e).
Идентификация ресурсов: Для каждой сущности (e) найти ссылающиеся веб-ресурсы (p).
Получение оценок: Для ресурсов получить Quality Score (Q(p)). Для ссылок получить Confidence (C(p,e)) и Topicality (T(p,e)).
Ранжирование ресурсов для сущности: Для каждой сущности (e) рассчитать ранг для ресурсов (p). Ранг пропорционален комбинации Q(p), C(p,e) и/или T(p,e).
Отбор Топ-N: Для каждой сущности выбрать Топ-N ресурсов с наивысшим рангом.
Объединение (Union): Создать Proper Subset, объединив все отобранные ресурсы.

Процесс Б: Обработка запроса и ранжирование сущностей (Аспект 1)

Поиск ресурсов: Получить запрос. Выполнить поиск (часто по Proper Subset). Получить набор релевантных ресурсов (P) и их Relevance Scores (R(p)).
Расчет First Value (FV): Для каждой ссылки на сущность (e) в ресурсе (p) рассчитать FV(p,e) (сила упоминания).
Расчет Resource Partial Score (CT) (Нормализация): Для каждого ресурса (p) рассчитать CT(p) путем суммирования всех FV(p,e) в этом ресурсе.
Расчет Reference Partial Score (Sp): Для каждой ссылки рассчитать Sp(p,e). Это определяет вклад ресурса в оценку сущности с учетом релевантности R(p) и нормализации по CT(p).
Агрегация и расчет Reference Score (S(e)): Для каждой сущности (e) суммировать все ее Sp(p,e). Умножить результат на нормализующий фактор IRw(N) (например, Relevance Score N-го веб-ресурса).
Корректировка Ранжирования: Использовать S(e) для изменения порядка результатов в вертикальном поиске.

Какие данные и как использует

Данные на входе

Контентные и семантические факторы: Текст и структура ресурсов анализируются для расчета Topicality Score (насколько контент сфокусирован на сущности) и Confidence Score (насколько точно распознана сущность).
Факторы качества/авторитетности (Quality Factors): Используется Quality Score — независимая от запроса мера качества ресурса. Применяется в офлайн-процессе для отбора Proper Subset. Это связано с E-E-A-T и PageRank.
Системные данные ранжирования: Relevance Score (R(p)) — оценка релевантности ресурса запросу (IR-score), полученная от основной системы ранжирования. Используется в онлайн-процессе.

Какие метрики используются и как они считаются

Система вычисляет несколько метрик с использованием конкретных формул (k1-k4 – настраиваемые параметры).

1. First Value (FV(p,e)) – Базовая оценка значимости упоминания.

$FV(p,e) = C(p,e) * (T(p,e) + 0.01)$ (Equation 1)

2. Resource Partial Score (CT(p)) – Общая масса всех сущностей в документе (фактор нормализации).

$CT(p) = \sum FV(p,e)$ (для всех e в p) (Equation 2)

3. Reference Partial Score (Sp(p,e)) – Вклад конкретного упоминания в оценку сущности, с учетом релевантности и нормализации.

$Sp(p,e) = (\frac{k1}{R(p)^{k2}} * \frac{FV(p,e)^2}{CT(p)})^{k3}$ (Equation 3/4). Деление на CT(p) означает, что если на странице много других сущностей, вклад в Sp(p,e) уменьшается (эффект разбавления).

4. Reference Score (S(e)) – Финальная оценка сущности.

$S(e) = (\sum Sp(p,e))^{k4} * IRw(10)$ (Equation 5). Где IRw(10) – Relevance Score ресурса на 10-й позиции, используемый для нормализации относительно качества выдачи.

Выводы

Критичность контекста и тематичности (Topicality): Патент явно выделяет Topicality Score как ключевой фактор. Недостаточно просто упомянуть сущность; ресурс должен быть тематически сфокусирован на ней. Google ценит глубокое обсуждение сущности выше, чем случайные упоминания.
Нормализация на уровне документа (Entity Dilution): Механизм расчета CT(p) и его использование в знаменателе при расчете Sp(p,e) реализует эффект «разбавления». Если ресурс упоминает слишком много сущностей, ценность каждого отдельного упоминания снижается.
Важность однозначной идентификации (Confidence): Confidence Score гарантирует, что система корректно распознала сущность. Неоднозначные упоминания имеют низкую ценность.
Двухуровневая оценка качества ресурсов: Качество ресурсов оценивается дважды. Офлайн используется Quality Score (авторитетность) для отбора Proper Subset. Онлайн используется Relevance Score (релевантность запросу) для взвешивания упоминаний.
Кросс-корпусное ранжирование: Основная идея — использовать консенсус и контекст общего веба (авторитетность) для улучшения ранжирования в специализированных индексах (например, Книги, Фильмы).

Практика

Best practices (это мы делаем)

Построение тематического авторитета (Topical Authority) и попадание в Proper Subset: Создавайте контент, глубоко раскрывающий тему сущности, чтобы добиться высокого Topicality Score (T(p,e)). Развивайте общую авторитетность сайта (Quality Score), чтобы увеличить шансы попадания в Proper Subset для ключевых сущностей вашей ниши.
Стратегический Digital PR (Фокус на Topicality): При работе с внешними площадками стремитесь к тому, чтобы ваша сущность (продукт, персона, бренд) была основной темой публикации, а не упоминалась в списке. Это максимизирует Topicality Score и минимизирует эффект нормализации (CT(p)).
Обеспечение четкой идентификации (Confidence): Используйте консистентные данные, уникальные идентификаторы и микроразметку Schema.org для описания сущности, чтобы максимизировать Confidence Score (C(p,e)) и гарантировать корректное распознавание упоминаний.
Фокусировка контента страницы: При продвижении конкретной сущности делайте ее основным фокусом страницы. Избегайте размытия фокуса множеством несвязанных сущностей, так как это увеличит CT(p) и снизит относительный вклад нужной сущности из-за нормализации.

Worst practices (это делать не надо)

Упоминания в длинных списках и каталогах: Упоминание сущности на странице с множеством других сущностей будет иметь минимальный вес из-за механизма нормализации (высокий CT(p) размывает Sp(p,e)).
«Набивка» сущностями (Entity Stuffing): Беспорядочное упоминание множества сущностей на одной странице увеличит CT(p) и снизит Topicality Score для каждой из них.
Массовые упоминания в несвязанном контенте: Размещение упоминаний на страницах, тематически не связанных с сущностью, неэффективно из-за низкого Topicality Score.
Манипуляции на низкокачественных сайтах: Сайты с низким Quality Score, вероятно, не входят в Proper Subset и не будут учитываться при ранжировании сущностей.

Стратегическое значение

Патент подтверждает стратегическую важность Entity-Based SEO и управления репутацией сущности в интернете. Он предоставляет математическую модель для оценки внешних сигналов авторитетности (часть E-E-A-T). Для долгосрочной SEO-стратегии критически важно не просто «строить ссылки», а заниматься цифровым PR: формировать присутствие сущности в релевантном тематическом контексте (высокий Topicality) на авторитетных площадках (высокий Quality Score).

Практические примеры

Сценарий: Сравнение ценности двух разных упоминаний для продукта (Сущность)

Продукт: Робот-пылесос «CleanBot X5».

Упоминание А: Детальный обзор на TechRadar.
Статья: «Обзор CleanBot X5: лучший пылесос для шерсти животных?»

Quality Score (TechRadar): Высокий (входит в Proper Subset).
Confidence (C): Высокий (точное название).
Topicality (T): Очень высокий (вся статья о продукте).
Resource Partial Score (CT): Низкий (упомянуто мало других сущностей).
Результат: Высокий вклад в Reference Score. Упоминание получает большой вес благодаря высокому T и низкому CT.

Упоминание Б: Список на Wired.
Статья: «Топ-50 гаджетов 2025 года». CleanBot X5 на 25 месте.

Quality Score (Wired): Высокий.
Confidence (C): Высокий.
Topicality (T): Низкий (продукту посвящен один абзац).
Resource Partial Score (CT): Очень высокий (упомянуто 50 сущностей).
Результат: Низкий вклад в Reference Score. Упоминание сильно ослаблено низким T и высоким CT (нормализация).

Вывод для SEO: Упоминание А значительно ценнее для продвижения сущности «CleanBot X5», чем упоминание Б.

Вопросы и ответы

Что такое Topicality Score (T(p,e)) и почему он так важен для SEO?

Topicality Score измеряет, насколько тесно сущность связана с содержанием упоминающей ее страницы. Высокий балл означает, что сущность является центральной темой контента. Это критически важно для SEO, потому что патент использует этот показатель как прямой множитель для расчета ценности упоминания. Упоминания с низким Topicality Score (например, мимолетные упоминания вне контекста) дают минимальный вклад в ранжирование сущности.

Как механизм нормализации (CT(p)) влияет на стратегию линкбилдинга и контент-маркетинга?

Resource Partial Score (CT(p)) суммирует вес всех сущностей на странице и используется как знаменатель. Это означает, что если на странице упомянуто много разных сущностей (высокий CT(p)), ценность упоминания для каждой отдельной сущности снижается (эффект разбавления). Это делает стратегии размещения в длинных списках или каталогах менее эффективными. Приоритет следует отдавать получению подробных обзоров или статей, сфокусированных только на вашей сущности.

Что такое «Proper Subset» и как он связан с E-E-A-T?

Proper Subset – это предварительно отобранный набор высококачественных ресурсов, который Google использует для анализа сущностей. Он формируется на основе Quality Score (независимая оценка качества/авторитетности сайта) и того, насколько авторитетно сайт пишет о сущностях. Это напрямую связано с E-E-A-T: только сайты с высоким Quality Score (высоким E-E-A-T) попадают в Proper Subset и влияют на ранжирование сущностей.

Применяется ли этот алгоритм только к Google Books?

Нет. Хотя в патенте в качестве основного примера используются книги (Book Expressions), описанный механизм является общим. В патенте прямо упоминается возможность применения к фильмам, музыке, людям, телевизионным программам. С точки зрения SEO, это применимо к ранжированию любых Entity Realizations, включая бренды, продукты и авторов в Knowledge Graph.

В чем разница между Quality Score (офлайн) и Relevance Score (онлайн)?

Quality Score — это независимая от запроса оценка авторитетности ресурса (например, сигналы E-E-A-T). Он используется в офлайн-процессе для отбора лучших сайтов в Proper Subset. Relevance Score (R(p)) — это оценка того, насколько ресурс релевантен конкретному запросу пользователя в реальном времени (например, IR-score), и он используется для определения веса упоминаний на уже отобранных сайтах.

Как можно повысить Confidence Score (C(p,e)) при оптимизации сайта?

Confidence Score связан с тем, насколько уверенно система распознает упоминание. Для его повышения необходимо устранить неоднозначность: использовать консистентное и полное наименование сущности, предоставлять достаточный контекст и активно использовать структурированные данные (Schema.org) для явного указания на сущность и ее свойства.

Почему в формуле итогового Reference Score используется Relevance Score N-го результата (например, IRw(10))?

Использование Relevance Score ресурса на N-й позиции служит нормализующим и масштабирующим фактором. Это позволяет связать итоговый Reference Score сущности с общей «силой» и конкурентностью веб-выдачи по данному запросу. Это помогает калибровать оценки сущностей так, чтобы их можно было сравнивать с IR-оценками других результатов при финальном ранжировании.

Лучше ли, если сущность упоминается на странице одна или вместе с другими сущностями?

С точки зрения этого алгоритма, значительно лучше, когда сущность является основным фокусом страницы. Если упоминается много других сущностей, общий Resource Partial Score (CT(p)) увеличивается, что приводит к снижению вклада (Sp(p,e)) данной конкретной сущности из-за механизма нормализации.

Если страница не релевантна запросу, но имеет высокое качество и Topicality для моей сущности, будет ли она полезна?

Она будет полезна для укрепления авторитета сущности в целом и для формирования Proper Subset в офлайн-режиме, так как этот процесс использует Quality Score и Topicality. Однако во время выполнения конкретного запроса (онлайн-процесс), если страница имеет низкий Relevance Score (R(p)) к этому запросу, ее вклад в итоговый Reference Score будет минимальным именно для этого запроса.

Как этот патент влияет на традиционный линкбилдинг?

Патент смещает фокус с количества ссылок на качество, контекст и тематичность упоминаний (которые могут быть и без гиперссылок). Он показывает, что для ранжирования сущности критически важны не просто ссылки, а упоминания на авторитетных ресурсах (высокий Quality Score) в строго релевантном контексте (высокий Topicality Score). Это больше похоже на Digital PR, чем на традиционный линкбилдинг.