Как Google ранжирует сущности (книги, фильмы, людей), анализируя тематичность и авторитетность их упоминаний в вебе

RANKING ENTITY REALIZATIONS FOR INFORMATION RETRIEVAL (Ранжирование реализаций сущностей для информационного поиска)

US20150161127A1
Google LLC
2013-02-13
2015-06-11

Google использует механизм для оценки значимости конкретных сущностей (например, изданий книг или фильмов). Система анализирует, как эти сущности упоминаются на релевантных веб-страницах, учитывая уверенность распознавания (Confidence) и то, насколько страница посвящена именно этой сущности (Topicality). Эти сигналы агрегируются с учетом авторитетности и релевантности страниц для расчета итоговой оценки сущности, которая затем корректирует ее ранжирование в поиске.

Какую проблему решает

Патент решает проблему неточного или неполного ранжирования в специализированных корпусах (например, Google Книги, Фильмы). Стандартные алгоритмы могут упускать релевантные Entity Realizations (конкретные воплощения сущностей, например, определенное издание книги), если система не может точно оценить значимость этой сущности в контексте запроса. Изобретение улучшает качество вертикального поиска, используя сигналы из общего веб-индекса для оценки и ранжирования этих специализированных сущностей.

Что запатентовано

Запатентована система для расчета оценки сущности (Reference Score) путем анализа того, как эта сущность упоминается в наборе веб-документов, релевантных запросу. Система использует метрики уверенности (Confidence Score) и тематичности (Topicality Score) упоминаний, а также релевантность и качество самих документов. Эти оценки сложно нормализуются с учетом контекста других сущностей на странице и используются для корректировки ранжирования сущности.

Как это работает

Система функционирует в два этапа: офлайн-подготовка и онлайн-обработка запроса.

Офлайн: Система заранее отбирает подмножество авторитетных веб-ресурсов (Proper Subset), основываясь на их качестве (Quality Score) и том, как они ссылаются на сущности.
Онлайн (Во время запроса):

Определяются веб-ресурсы (часто из Proper Subset), релевантные запросу.
В них анализируются упоминания сущностей с учетом Confidence и Topicality.
Рассчитывается вклад каждого ресурса (Reference Partial Score). Этот вклад нормализуется: если страница упоминает много сущностей, вес каждой снижается.
Оценки агрегируются в финальный Reference Score для сущности.
Результаты вертикального поиска переранжируются с учетом этих оценок.

Актуальность для SEO

Высокая. Понимание сущностей (Knowledge Graph) и использование веба для оценки их авторитетности (E-E-A-T, Topical Authority) являются фундаментом современного поиска. Этот патент описывает конкретный механизм для количественной оценки значимости сущностей на основе контекста и качества их упоминаний в интернете, что остается крайне актуальным.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (85/100). Он раскрывает механизм, как контент и упоминания на веб-страницах напрямую влияют на ранжирование сущностей (продуктов, людей, компаний). Понимание метрик Topicality (тематичность) и Confidence (уверенность), а также механизма нормализации и роли Quality Score источника, критически важно для стратегий Entity SEO, Digital PR и управления репутацией.

Термины и определения

Confidence Score (C(p,e)) (Оценка уверенности): Метрика, показывающая уверенность системы в том, что упоминание в ресурсе (p) действительно относится к конкретной реализации сущности (e).
Entity Realization (Реализация сущности) (e): Конкретное воплощение сущности. Например, конкретное издание книги, версия фильма или персона. В патенте часто взаимозаменяемо с Expression.
Expression (Выражение): Специфическая интеллектуальная или художественная форма произведения (Work). Например, английское издание романа "Том Сойер".
First Value (FV(p,e)) (Первое значение): Промежуточное значение, пропорциональное произведению Confidence Score и Topicality Score для упоминания сущности в ресурсе.
Proper Subset (Надлежащее подмножество): Предварительно отобранный (офлайн) набор высококачественных веб-ресурсов, которые авторитетно ссылаются на сущности. Используется для оптимизации анализа.
Quality Score (Оценка качества ресурса): Независимая от запроса мера качества ресурса относительно других ресурсов в корпусе (например, авторитетность сайта). Используется в офлайн-процессе для отбора Proper Subset.
Reference Partial Score (Sp(p,e)) (Первая частичная оценка): Оценка вклада конкретного ресурса (p) в общую релевантность сущности (e). Учитывает релевантность ресурса и нормализуется по всем другим сущностям в ресурсе.
Reference Score (S(e)) (Итоговая оценка сущности): Финальная оценка для реализации сущности (e), полученная путем агрегации всех ее Reference Partial Scores (Sp) со всех релевантных ресурсов.
Relevance Score (R(p)) (Оценка релевантности): Мера релевантности ресурса (p) исходному поисковому запросу (стандартный IR-score).
Resource Partial Score (CT(p)) (Вторая частичная оценка): Сумма First Values (FV) для всех сущностей, упомянутых в ресурсе (p). Используется как фактор нормализации.
Resource Reference Scores: Оценки качества упоминания сущности в контексте ресурса. Включают Confidence Score и Topicality Score.
Topicality Score (T(p,e)) (Оценка тематичности): Метрика, измеряющая тематическую связанность сущности (e) с контентом ресурса (p). Показывает, насколько центральной является сущность для темы документа.

Ключевые утверждения (Анализ Claims)

Патент описывает два основных аспекта: (1) Ранжирование сущностей в ответ на запрос (Онлайн) и (2) Офлайн-процесс отбора корпуса ресурсов.

Аспект 1: Ранжирование сущностей в ответ на запрос (Claims 1-12)

Claim 1 (Независимый пункт): Описывает основной метод ранжирования.

Система получает данные о ресурсах, релевантных запросу, включая их Relevance Scores (R(p)) и Resource Reference Scores для упомянутых сущностей (e).
Для каждого упоминания рассчитывается First Partial Score (Sp(p,e)), используя эти оценки.
Для каждой сущности рассчитывается итоговый Reference Score (S(e)) путем агрегации Sp(p,e).
Порядок поисковых результатов корректируется на основе S(e).

Claim 3 (Зависимый): Детализирует расчет Sp(p,e), вводя нормализацию.

Сначала вычисляется Second Partial Score (CT(p)) для ресурса на основе оценок *всех* сущностей в нем.
Затем Sp(p,e) рассчитывается с использованием оценок конкретной сущности, R(p) и вычисленного CT(p).

Если документ релевантен запросу, но упоминает много разных сущностей (высокий CT(p)), его вклад в оценку каждой отдельной сущности (Sp(p,e)) снижается. Это позволяет распределить релевантность документа между упомянутыми сущностями, отдавая предпочтение тем, которые являются фокусом документа.

Claim 4 (Зависимый): Определяет компоненты и расчет CT(p).

Resource Reference Scores включают Confidence Score (C) и Topicality Score (T).
CT(p) рассчитывается как сумма First Values (FV(p,e)), где FV пропорционально произведению C и T.

Claim 6 и 7 (Зависимые): Детализируют расчет итогового S(e).

S(e) рассчитывается как сумма всех Sp(p,e), умноженная на Relevance Score ресурса, находящегося на N-й позиции в ранжировании (например, 10-й результат). Это нормализует итоговую оценку сущности относительно общего качества веб-выдачи по данному запросу.

Аспект 2: Офлайн-отбор корпуса ресурсов (Описан в патенте, FIG. 5 и 6)

Этот процесс направлен на создание Proper Subset для оптимизации Аспекта 1.

Система анализирует известные Entity Realizations.
Для каждой сущности идентифицируются ресурсы, которые на нее ссылаются.
Ресурсы ранжируются для *каждой* сущности на основе комбинации Quality Score (независимая от запроса авторитетность ресурса) и Resource Reference Scores (C и T).
Для каждой сущности отбираются Топ-N ранжированных ресурсов.
Объединение (Union) всех отобранных ресурсов формирует Proper Subset.

Где и как применяется

Изобретение связывает данные из общего веб-индекса с ранжированием в специализированных (вертикальных) индексах сущностей.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходят ключевые офлайн-процессы (Аспект 2):

Вычисление Quality Scores для веб-ресурсов.
Идентификация сущностей и расчет Confidence Scores и Topicality Scores для упоминаний.
Выполнение процесса отбора Proper Subset – создание оптимизированного корпуса авторитетных ресурсов для анализа сущностей.

RANKING – Ранжирование
На этом этапе (Аспект 1) система выполняет поиск по веб-корпусу (часто ограниченному Proper Subset) для получения релевантных ресурсов и их Relevance Scores (R(p)). Параллельно может выполняться поиск в вертикальном индексе.

RERANKING – Переранжирование / METASEARCH – Метапоиск и Смешивание
Основное применение патента (Аспект 1). Система использует данные этапа RANKING для выполнения расчетов:

Вычисление Resource Partial Scores (CT(p)) для нормализации.
Вычисление Reference Partial Scores (Sp(p,e)).
Агрегация в итоговый Reference Score (S(e)).
Корректировка ранжирования результатов вертикального поиска на основе S(e). Система может также генерировать synthetic search result для сущностей с высоким S(e).

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние на вертикальные поиски: Книги (основной пример), Фильмы, Музыка, Товары, а также ранжирование Персон и Организаций (например, в Knowledge Panels).
Специфические запросы: Запросы, где интент связан с поиском конкретных сущностей.
Тематический авторитет (Topical Authority) и E-E-A-T: Патент предоставляет механизм для количественной оценки авторитетности ресурса по отношению к сущности.

Когда применяется

Условия применения: Алгоритм применяется при поиске в специализированном корпусе или когда система определяет, что общий запрос направлен на поиск сущностей.
Временные рамки: Процесс отбора Proper Subset выполняется офлайн периодически. Расчет Reference Score выполняется онлайн во время обработки запроса.

Пошаговый алгоритм

Процесс А: Офлайн-генерация корпуса (Proper Subset) (Аспект 2)

Сбор данных: Получение списка известных Entity Realizations (e).
Идентификация ресурсов: Для каждой сущности (e) найти ссылающиеся веб-ресурсы (p).
Получение оценок: Для ресурсов получить Quality Score (Q(p)). Для ссылок получить Confidence (C(p,e)) и Topicality (T(p,e)).
Ранжирование ресурсов для сущности: Для каждой сущности (e) рассчитать ранг для ресурсов (p). Ранг пропорционален комбинации Q(p), C(p,e) и/или T(p,e).
Отбор Топ-N: Для каждой сущности выбрать Топ-N ресурсов с наивысшим рангом.
Объединение (Union): Создать Proper Subset, объединив все отобранные ресурсы.

Процесс Б: Обработка запроса и ранжирование сущностей (Аспект 1)

Поиск ресурсов: Получить запрос. Выполнить поиск (часто по Proper Subset). Получить набор релевантных ресурсов (P) и их Relevance Scores (R(p)).
Расчет First Value (FV): Для каждой ссылки на сущность (e) в ресурсе (p) рассчитать FV(p,e) (сила упоминания).
Расчет Resource Partial Score (CT) (Нормализация): Для каждого ресурса (p) рассчитать CT(p) путем суммирования всех FV(p,e) в этом ресурсе.
Расчет Reference Partial Score (Sp): Для каждой ссылки рассчитать Sp(p,e). Это определяет вклад ресурса в оценку сущности с учетом релевантности R(p) и нормализации по CT(p).
Агрегация и расчет Reference Score (S(e)): Для каждой сущности (e) суммировать все её Sp(p,e). Умножить результат на нормализующий фактор IRw(N) (например, Relevance Score N-го веб-ресурса).
Корректировка Ранжирования: Использовать S(e) для изменения порядка результатов в вертикальном поиске.

Какие данные и как использует

Данные на входе

Контентные и семантические факторы: Текст и структура ресурсов анализируются для расчета Topicality Score (насколько контент сфокусирован на сущности) и Confidence Score (насколько точно распознана сущность).
Факторы качества/авторитетности (Quality Factors): Используется Quality Score — независимая от запроса мера качества ресурса. Применяется в офлайн-процессе для отбора Proper Subset. Это связано с E-E-A-T и PageRank.
Системные данные ранжирования: Relevance Score (R(p)) — оценка релевантности ресурса запросу (IR-score), полученная от основной системы ранжирования. Используется в онлайн-процессе.

Какие метрики используются и как они считаются

Система вычисляет несколько метрик с использованием конкретных формул (k1-k4 – настраиваемые параметры).

1. First Value (FV(p,e)) – Базовая оценка значимости упоминания.

$FV(p,e) = C(p,e) * (T(p,e) + 0.01)$ (Equation 1)

2. Resource Partial Score (CT(p)) – Общая масса всех сущностей в документе (фактор нормализации).

$CT(p) = \sum FV(p,e)$ (для всех e в p) (Equation 2)

3. Reference Partial Score (Sp(p,e)) – Вклад конкретного упоминания в оценку сущности, с учетом релевантности и нормализации.

$Sp(p,e) = (\frac{k1}{R(p)^{k2}} * \frac{FV(p,e)^2}{CT(p)})^{k3}$ (Equation 3/4). Деление на CT(p) означает, что если на странице много других сущностей, вклад в Sp(p,e) уменьшается (эффект разбавления).

4. Reference Score (S(e)) – Финальная оценка сущности.

$S(e) = (\sum Sp(p,e))^{k4} * IRw(10)$ (Equation 5). Где IRw(10) – Relevance Score ресурса на 10-й позиции, используемый для нормализации относительно качества выдачи.

Критичность контекста и тематичности (Topicality): Патент явно выделяет Topicality Score как ключевой фактор. Недостаточно просто упомянуть сущность; ресурс должен быть тематически сфокусирован на ней. Google ценит глубокое обсуждение сущности выше, чем случайные упоминания.
Нормализация на уровне документа (Entity Dilution): Механизм расчета CT(p) и его использование в знаменателе при расчете Sp(p,e) реализует эффект "разбавления". Если ресурс упоминает слишком много сущностей, ценность каждого отдельного упоминания снижается.
Важность однозначной идентификации (Confidence): Confidence Score гарантирует, что система корректно распознала сущность. Неоднозначные упоминания имеют низкую ценность.
Двухуровневая оценка качества ресурсов: Качество ресурсов оценивается дважды. Офлайн используется Quality Score (авторитетность) для отбора Proper Subset. Онлайн используется Relevance Score (релевантность запросу) для взвешивания упоминаний.
Кросс-корпусное ранжирование: Основная идея — использовать консенсус и контекст общего веба (авторитетность) для улучшения ранжирования в специализированных индексах (например, Книги, Фильмы).

Best practices (это мы делаем)

Построение тематического авторитета (Topical Authority) и попадание в Proper Subset: Создавайте контент, глубоко раскрывающий тему сущности, чтобы добиться высокого Topicality Score (T(p,e)). Развивайте общую авторитетность сайта (Quality Score), чтобы увеличить шансы попадания в Proper Subset для ключевых сущностей вашей ниши.
Стратегический Digital PR (Фокус на Topicality): При работе с внешними площадками стремитесь к тому, чтобы ваша сущность (продукт, персона, бренд) была основной темой публикации, а не упоминалась в списке. Это максимизирует Topicality Score и минимизирует эффект нормализации (CT(p)).
Обеспечение четкой идентификации (Confidence): Используйте консистентные данные, уникальные идентификаторы и микроразметку Schema.org для описания сущности, чтобы максимизировать Confidence Score (C(p,e)) и гарантировать корректное распознавание упоминаний.
Фокусировка контента страницы: При продвижении конкретной сущности делайте ее основным фокусом страницы. Избегайте размытия фокуса множеством несвязанных сущностей, так как это увеличит CT(p) и снизит относительный вклад нужной сущности из-за нормализации.

Worst practices (это делать не надо)

Упоминания в длинных списках и каталогах: Упоминание сущности на странице с множеством других сущностей будет иметь минимальный вес из-за механизма нормализации (высокий CT(p) размывает Sp(p,e)).
"Набивка" сущностями (Entity Stuffing): Беспорядочное упоминание множества сущностей на одной странице увеличит CT(p) и снизит Topicality Score для каждой из них.
Массовые упоминания в несвязанном контенте: Размещение упоминаний на страницах, тематически не связанных с сущностью, неэффективно из-за низкого Topicality Score.
Манипуляции на низкокачественных сайтах: Сайты с низким Quality Score, вероятно, не входят в Proper Subset и не будут учитываться при ранжировании сущностей.

Стратегическое значение

Патент подтверждает стратегическую важность Entity-Based SEO и управления репутацией сущности в интернете. Он предоставляет математическую модель для оценки внешних сигналов авторитетности (часть E-E-A-T). Для долгосрочной SEO-стратегии критически важно не просто "строить ссылки", а заниматься цифровым PR: формировать присутствие сущности в релевантном тематическом контексте (высокий Topicality) на авторитетных площадках (высокий Quality Score).

Практические примеры

Сценарий: Сравнение ценности двух разных упоминаний для продукта (Сущность)

Продукт: Робот-пылесос "CleanBot X5".

Упоминание А: Детальный обзор на TechRadar.
Статья: "Обзор CleanBot X5: лучший пылесос для шерсти животных?"

Quality Score (TechRadar): Высокий (входит в Proper Subset).
Confidence (C): Высокий (точное название).
Topicality (T): Очень высокий (вся статья о продукте).
Resource Partial Score (CT): Низкий (упомянуто мало других сущностей).
Результат: Высокий вклад в Reference Score. Упоминание получает большой вес благодаря высокому T и низкому CT.

Упоминание Б: Список на Wired.
Статья: "Топ-50 гаджетов 2025 года". CleanBot X5 на 25 месте.

Quality Score (Wired): Высокий.
Confidence (C): Высокий.
Topicality (T): Низкий (продукту посвящен один абзац).
Resource Partial Score (CT): Очень высокий (упомянуто 50 сущностей).
Результат: Низкий вклад в Reference Score. Упоминание сильно ослаблено низким T и высоким CT (нормализация).

Вывод для SEO: Упоминание А значительно ценнее для продвижения сущности "CleanBot X5", чем упоминание Б.

Что такое Topicality Score (T(p,e)) и почему он так важен для SEO?

Topicality Score измеряет, насколько тесно сущность связана с содержанием упоминающей ее страницы. Высокий балл означает, что сущность является центральной темой контента. Это критически важно для SEO, потому что патент использует этот показатель как прямой множитель для расчета ценности упоминания. Упоминания с низким Topicality Score (например, мимолетные упоминания вне контекста) дают минимальный вклад в ранжирование сущности.

Как механизм нормализации (CT(p)) влияет на стратегию линкбилдинга и контент-маркетинга?

Resource Partial Score (CT(p)) суммирует вес всех сущностей на странице и используется как знаменатель. Это означает, что если на странице упомянуто много разных сущностей (высокий CT(p)), ценность упоминания для каждой отдельной сущности снижается (эффект разбавления). Это делает стратегии размещения в длинных списках или каталогах менее эффективными. Приоритет следует отдавать получению подробных обзоров или статей, сфокусированных только на вашей сущности.

Что такое "Proper Subset" и как он связан с E-E-A-T?

Proper Subset – это предварительно отобранный набор высококачественных ресурсов, который Google использует для анализа сущностей. Он формируется на основе Quality Score (независимая оценка качества/авторитетности сайта) и того, насколько авторитетно сайт пишет о сущностях. Это напрямую связано с E-E-A-T: только сайты с высоким Quality Score (высоким E-E-A-T) попадают в Proper Subset и влияют на ранжирование сущностей.

Применяется ли этот алгоритм только к Google Books?

Нет. Хотя в патенте в качестве основного примера используются книги (Book Expressions), описанный механизм является общим. В патенте прямо упоминается возможность применения к фильмам, музыке, людям, телевизионным программам. С точки зрения SEO, это применимо к ранжированию любых Entity Realizations, включая бренды, продукты и авторов в Knowledge Graph.

В чем разница между Quality Score (офлайн) и Relevance Score (онлайн)?

Quality Score — это независимая от запроса оценка авторитетности ресурса (например, сигналы E-E-A-T). Он используется в офлайн-процессе для отбора лучших сайтов в Proper Subset. Relevance Score (R(p)) — это оценка того, насколько ресурс релевантен конкретному запросу пользователя в реальном времени (например, IR-score), и он используется для определения веса упоминаний на уже отобранных сайтах.

Как можно повысить Confidence Score (C(p,e)) при оптимизации сайта?

Confidence Score связан с тем, насколько уверенно система распознает упоминание. Для его повышения необходимо устранить неоднозначность: использовать консистентное и полное наименование сущности, предоставлять достаточный контекст и активно использовать структурированные данные (Schema.org) для явного указания на сущность и ее свойства.

Почему в формуле итогового Reference Score используется Relevance Score N-го результата (например, IRw(10))?

Использование Relevance Score ресурса на N-й позиции служит нормализующим и масштабирующим фактором. Это позволяет связать итоговый Reference Score сущности с общей "силой" и конкурентностью веб-выдачи по данному запросу. Это помогает калибровать оценки сущностей так, чтобы их можно было сравнивать с IR-оценками других результатов при финальном ранжировании.

Лучше ли, если сущность упоминается на странице одна или вместе с другими сущностями?

С точки зрения этого алгоритма, значительно лучше, когда сущность является основным фокусом страницы. Если упоминается много других сущностей, общий Resource Partial Score (CT(p)) увеличивается, что приводит к снижению вклада (Sp(p,e)) данной конкретной сущности из-за механизма нормализации.

Если страница не релевантна запросу, но имеет высокое качество и Topicality для моей сущности, будет ли она полезна?

Она будет полезна для укрепления авторитета сущности в целом и для формирования Proper Subset в офлайн-режиме, так как этот процесс использует Quality Score и Topicality. Однако во время выполнения конкретного запроса (онлайн-процесс), если страница имеет низкий Relevance Score (R(p)) к этому запросу, ее вклад в итоговый Reference Score будет минимальным именно для этого запроса.

Как этот патент влияет на традиционный линкбилдинг?

Патент смещает фокус с количества ссылок на качество, контекст и тематичность упоминаний (которые могут быть и без гиперссылок). Он показывает, что для ранжирования сущности критически важны не просто ссылки, а упоминания на авторитетных ресурсах (высокий Quality Score) в строго релевантном контексте (высокий Topicality Score). Это больше похоже на Digital PR, чем на традиционный линкбилдинг.

Как Google ранжирует сущности (например, фильмы или книги), используя популярность связанных веб-страниц и поисковых запросов в качестве прокси-сигнала

Google использует механизм для определения популярности контентных сущностей (таких как фильмы, телешоу, книги), когда прямые данные о потреблении недоступны. Система идентифицирует авторитетные «эталонные веб-страницы» (например, страницы Википедии) и связанные поисковые запросы. Затем она измеряет популярность сущности, анализируя объем трафика на эти эталонные страницы и частоту связанных запросов в поиске, используя эти данные как прокси-сигнал для ранжирования сущности.

US9098551B1
2015-08-04

EEAT и качество
Поведенческие сигналы
SERP

Как Google использует цитирования на веб-страницах для ранжирования книг в основной выдаче

Google использует механизм для определения релевантных книг по общим информационным запросам, даже если пользователь не искал книгу специально. Система анализирует, какие книги цитируются на топовых веб-страницах в выдаче. Книги получают оценку, основанную на авторитетности цитирующих страниц и контексте цитирования, и затем подмешиваются в результаты поиска.

US8392429B1
2013-03-05

Ссылки
SERP
EEAT и качество

Как Google определяет и ранжирует наиболее важные факты о сущности на основе совместных упоминаний в интернете

Google использует механизм для определения наиболее важных свойств (фактов) о сущности в контексте ее типа. Система анализирует частоту совместного упоминания (co-occurrence) сущности и связанных с ней сущностей в интернете (Related Entity Score), агрегирует эти данные для каждого свойства (Property Score) и сортирует свойства по важности. Это определяет, какие факты будут показаны первыми в результатах поиска, например, в Панели знаний.

US9256682B1
2016-02-09

Knowledge Graph
Семантика и интент

Как Google определяет, когда показывать обогащенный результат для сущности, и использует консенсус веба для исправления данных

Google использует механизм для определения того, когда запрос явно относится к конкретной сущности (например, книге). Если один результат значительно доминирует над другими по релевантности, система активирует «обогащенный результат». Этот результат агрегирует данные из разных источников (структурированные данные, веб-страницы, каталоги товаров) и использует наиболее популярные варианты данных из интернета для проверки и исправления информации о сущности.

US8577897B2
2013-11-05

SERP
Семантика и интент
EEAT и качество

Как Google использует результаты веб-поиска для выбора правильного ответа на неоднозначные фактические запросы

Google использует этот механизм для разрешения неоднозначности в запросах (например, «возраст Вашингтона»). Система генерирует несколько потенциальных ответов из Knowledge Graph, а затем проверяет, какой из них лучше всего подтверждается топовыми результатами органического поиска. Оценка кандидата зависит от того, насколько часто и уверенно Сущность (Topic) и Ответ (Answer) упоминаются (аннотируются) на страницах в топе выдачи.

US9336269B1
2016-05-10

Семантика и интент
Knowledge Graph
SERP

Как Google находит, фильтрует и подмешивает посты из блогов, релевантные конкретным результатам поиска

Патент описывает систему Google для дополнения стандартных результатов веб-поиска ссылками на релевантные посты в блогах. Система использует многоступенчатую фильтрацию для отсеивания низкокачественных блогов и спама (splogs). Фильтры анализируют количество исходящих ссылок (out-degree), качество входящих ссылок (Link-based score), возраст поста, его длину и расположение ссылок, чтобы гарантировать качество подмешиваемого контента.

US8117195B1
2012-02-14

EEAT и качество
Антиспам
Ссылки

Как Google определяет скрытый интент сессии, используя универсальные уточняющие слова, и переранжирует выдачу

Google идентифицирует универсальные слова-модификаторы (например, «фото», «отзывы», «pdf»), которые пользователи часто добавляют к разным запросам. Если такое слово появляется в сессии, система определяет скрытый интент пользователя. Затем Google переранжирует выдачу, основываясь на том, какие документы исторически предпочитали пользователи с таким же интентом, адаптируя результаты под контекст сессии.

US8868548B2
2014-10-21

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google использует близость цитирований (ссылок) для кластеризации результатов поиска

Google может группировать результаты поиска, анализируя, как документы ссылаются друг на друга. Система оценивает силу связи между документами, проверяя контекстуальную близость общих цитирований. Ссылки, расположенные в одном предложении (co-citation) или абзаце, имеют значительно больший вес, чем ссылки, просто присутствующие в документе. Это позволяет формировать точные тематические кластеры, отсеивая группы со слабыми связями.

US8612411B1
2013-12-17

Ссылки
SERP

Как Google использует данные веб-поиска и клики пользователей для классификации бизнесов и построения иерархии категорий

Google анализирует логи веб-поиска (введенные ключевые слова и последующие клики по результатам), чтобы понять, как пользователи интуитивно классифицируют бизнесы. Эти данные используются для автоматического построения динамической иерархической структуры категорий. Эта структура затем применяется для улучшения точности поиска, в частности, для оптимизации моделей распознавания речи в голосовых системах.

US7840407B2
2010-11-23

Поведенческие сигналы
Семантика и интент
Структура сайта

Как Google алгоритмически вычисляет и ранжирует экспертов по темам на основе анализа их контента

Google использует систему для автоматического определения экспертности авторов (Identities) в конкретных темах (Topics). Система анализирует корпус документов, оценивая, насколько сильно автор связан с документом (Identity Score) и насколько документ релевантен теме (Topic Score). Эти оценки перемножаются и суммируются по всем документам, формируя итоговый рейтинг экспертности автора в данной области.

US8892549B1
2014-11-18

EEAT и качество
Семантика и интент

Как Google группирует похожие запросы и поисковые подсказки, определяя интент пользователя через анализ сессий и кликов

Google использует графовую модель (Марковскую цепь) для кластеризации поисковых подсказок и связанных запросов. Система анализирует, какие запросы пользователи вводят в одной сессии и на какие документы они кликают. Это позволяет сгруппировать запросы, ведущие к схожему контенту, и предложить пользователю разнообразный набор подсказок, отражающих разные интенты.

US8423538B1
2013-04-16

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует «Локальный авторитет» для переранжирования документов на основе их взаимосвязей внутри конкретной выдачи

Google может улучшить ранжирование, анализируя структуру ссылок внутри начального набора результатов поиска. Документы, на которые часто ссылаются другие высокорелевантные документы по этому же запросу («локальные эксперты»), получают повышение. Этот процесс включает строгие фильтры для обеспечения независимости этих ссылок-голосов.

US6526440B1
2003-02-25

Ссылки
Антиспам
SERP

Как Google использует механизм «Pull-Push» для валидации ссылок через трафик и время вовлечения (Dwell Time)

Google использует механизм «Pull-Push» для борьбы с искусственными ссылками, анализируя соотношение между количеством ссылок и реальными кликами по ним. Если ссылки не генерируют пропорциональный трафик (с учетом времени вовлечения), они обесцениваются. Сайты, которые систематически ставят такие ссылки, классифицируются как «неквалифицированные источники», и их исходящие ссылки дисконтируются при ранжировании.

US9558233B1
2017-01-31

Ссылки
Поведенческие сигналы
Антиспам

Как Google использует вовлеченность пользователей на связанных страницах (Reachability Score) для ранжирования основного документа

Google рассчитывает «Оценку Достижимости» (Reachability Score), анализируя, как пользователи взаимодействуют со страницами, на которые ссылается основной документ (внутренние и исходящие ссылки). Если пользователи активно переходят по этим ссылкам (высокий CTR) и проводят время на целевых страницах (высокое время доступа), основной документ получает повышение в ранжировании. Этот механизм измеряет потенциальную глубину и качество пользовательской сессии.

US8307005B1
2012-11-06

Поведенческие сигналы
Ссылки
SERP

Как Google предсказывает ваш следующий запрос на основе контента, который вы просматриваете, и истории поиска других пользователей

Google использует систему контекстной информации, которая анализирует контент на экране пользователя (например, статью или веб-страницу) и предсказывает, что пользователь захочет искать дальше. Система не просто ищет ключевые слова на странице, а использует исторические данные о последовательностях запросов (Query Logs). Она определяет, что другие пользователи искали после того, как вводили запросы, связанные с текущим контентом, и предлагает эти последующие запросы в качестве рекомендаций.

US20210232659A1
2021-07-29

Семантика и интент
Поведенческие сигналы
Персонализация