Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации

RANKING CLUSTERS AND RESOURCES IN A CLUSTER (Ранжирование кластеров и ресурсов в кластере)

US8645393B1
Google LLC
2011-04-15
2014-02-04

Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).

Какую проблему решает

Патент решает проблему неоднозначности (ambiguity) поисковых запросов, содержащих имена собственные (Name Context), такие как имена людей, названия продуктов или книг. Когда одно имя (например, "Джон Смит") относится к разным сущностям, стандартный поиск может возвращать смешанные результаты. Изобретение предлагает механизм для идентификации различных сущностей, группировки связанных с ними ресурсов в кластеры и ранжирования этих кластеров так, чтобы предоставить пользователю наиболее релевантную сущность и ее самые авторитетные ресурсы.

Что запатентовано

Запатентована система двухуровневого ранжирования. На первом уровне она ранжирует ресурсы внутри кластера (группы ресурсов, связанных с конкретной сущностью). Это ранжирование основано как на независимом качестве ресурса (Quality Score), так и на его авторитетности внутри этого конкретного кластера (Cluster Relation Score). На втором уровне система ранжирует сами кластеры, используя комбинацию релевантности ресурсов запросу (Search Score), их внутреннего ранга (Resource Ranking Score) и персонализированных атрибутов (Attribute Scores).

Как это работает

Система работает следующим образом:

Кластеризация: Ресурсы (веб-страницы, профили) группируются в кластеры, каждый из которых представляет отдельный Name Context (сущность).
Ранжирование внутри кластера (Офлайн): Для каждого ресурса вычисляются Quality Score (независимая оценка) и Cluster Relation Score (авторитетность внутри кластера). Они объединяются в Resource Ranking Score.
Ранжирование кластеров (Онлайн): При получении запроса система вычисляет Cluster Rank Score. Он основан на Search Scores (релевантность запросу) и Resource Ranking Scores ресурсов кластера.
Персонализация: Cluster Rank Score корректируется с помощью Attribute Scores, учитывающих социальные связи пользователя, географическую близость и другие факторы.

Актуальность для SEO

Высокая. Устранение неоднозначности сущностей (Entity Disambiguation) и персонализация являются фундаментальными задачами современных поисковых систем. Описанные принципы кластеризации ресурсов вокруг сущностей и использования контекстной авторитетности напрямую связаны с работой Knowledge Graph и принципами E-E-A-T. Использование социальных и географических сигналов для персонализации остается крайне актуальным в 2025 году.

Важность для SEO

Патент имеет высокое значение для SEO, особенно для оптимизации под сущности (Entity SEO), управления репутацией (ORM) и локального поиска. Он демонстрирует, что авторитетность оценивается не только глобально, но и в контексте экосистемы сущности (Cluster Relation Score). Он также предоставляет фреймворк для понимания того, как персонализация (социальная и географическая) может радикально изменить ранжирование сущностей для конкретного пользователя.

Термины и определения

Attribute Score (Оценка атрибута): Значение, используемое для корректировки базовой оценки кластера. Основано на характеристиках кластера или его связи с пользователем (например, социальные связи, географическая близость, точность совпадения имени, размер кластера, разнообразие доменов).
Cluster (Кластер): Группа ресурсов (веб-страницы, профили), которые система определила как относящиеся к одному и тому же Name Context (сущности).
Cluster Rank Score (Оценка ранжирования кластера): Итоговая оценка, определяющая позицию кластера в результатах поиска. Рассчитывается на основе агрегированных оценок ресурсов кластера и скорректирована с помощью Attribute Scores.
Cluster Relation Score (Оценка связи с кластером): Метрика, которая зависит от других ресурсов в кластере и указывает на авторитетность (authority) или связность (connectivity) ресурса по отношению к другим ресурсам в том же кластере. Основана, например, на внутренних ссылках внутри кластера.
Name Context / Person Name Context (Контекст имени): Контекст запроса, который явно или неявно указывает на имя человека, продукта, книги или другой сущности. Используется для идентификации сущности, которую представляет кластер.
Quality Score (Оценка качества ресурса): Метрика качества ресурса, которая рассчитывается независимо от его принадлежности к кластеру. Может включать IR-оценки, сигналы спама, данные о верификации, возраст ресурса, репутацию и штрафы за конфликты.
Resource Ranking Score (Оценка ранжирования ресурса): Оценка, определяющая ранг ресурса внутри кластера относительно других ресурсов в этом же кластере. Основана на комбинации Quality Score и Cluster Relation Score.
Search Score (Оценка поиска): Оценка, указывающая на релевантность ресурса конкретному поисковому запросу (например, стандартная IR-оценка).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс ранжирования кластеров.

Система получает доступ к кластерам, соответствующим разным Name Contexts.
Для ресурсов в кластере получается Search Score (релевантность запросу).
Для ресурсов получается Resource Ranking Score (ранг внутри кластера). Эта оценка частично основана на Cluster Relation Score (авторитет ресурса относительно других ресурсов в кластере).
Генерируется Cluster Rank Score для кластера, основанный как на Search Scores, так и на Resource Ranking Scores.
Кластеры ранжируются в соответствии с их Cluster Rank Score.

Claim 2 (Зависимый от 1): Детализирует расчет Resource Ranking Score (внутреннее ранжирование).

Генерируется Quality Score для ресурса (не зависит от кластера).
Генерируется Cluster Relation Score для ресурса.
Генерируется Resource Ranking Score на основе Quality Score и Cluster Relation Score.

Claim 3 (Зависимый от 1): Вводит использование атрибутов кластера для корректировки ранжирования.

Определяются атрибуты кластера (например, количество ресурсов, происхождение из одного домена, связь с социальной сетью).
Cluster Rank Score генерируется с учетом этих атрибутов.

Claim 5 (Зависимый от 1) и Claim 21 (Независимый): Определяют метод комбинирования оценок для расчета Cluster Rank Score.

Используется линейная взвешенная регрессия (linear weighted regression). Это аддитивная функция, где Search Scores умножаются на первые веса, Resource Ranking Scores умножаются на вторые веса, и полученные значения складываются.

Claim 8 (Зависимый от 1): Описывает механизм персонализации на основе социальных связей.

Идентифицируются социальные связи пользователя, отправившего запрос.
Идентифицируются социальные связи, связанные с кластерами (сущностями).
Определяется совпадение между социальными связями пользователя и кластера.
Значение Cluster Rank Score увеличивается на предопределенную величину на основе этого совпадения.

Где и как применяется

Изобретение описывает сложный процесс, затрагивающий этапы индексирования, ранжирования и переранжирования, с фокусом на обработку сущностей и разрешение неоднозначности.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходят ключевые предварительные вычисления (Офлайн/Пакетная обработка):

Кластеризация: Ресурсы группируются в кластеры на основе общего Name Context.
Расчет Quality Score: Независимая оценка качества ресурсов (спам, верификация, конфликты).
Расчет Cluster Relation Score: Анализ внутренней структуры и связей кластера (Authority Graph) для определения контекстной авторитетности.
Расчет Resource Ranking Score: Объединение QS и CRS для определения внутреннего ранга ресурса. Эти оценки сохраняются в индексе.

QUNDERSTANDING – Понимание Запросов
Система определяет, что запрос содержит Name Context и что этот контекст может быть неоднозначным.

RANKING – Ранжирование
На этапе ранжирования вычисляются стандартные Search Scores (релевантность ресурсов тексту запроса).

RERANKING – Переранжирование / METASEARCH – Метапоиск и Смешивание
Это основной этап применения патента, где происходит ранжирование кластеров (сущностей):

Расчет базовой оценки: Система комбинирует Search Scores (из этапа Ranking) и предварительно рассчитанные Resource Ranking Scores (из этапа Indexing) для получения базовой оценки кластера.
Применение Attribute Scores: Применяются корректировки в реальном времени, включая персонализацию (социальные связи пользователя, его местоположение) для расчета финального Cluster Rank Score.
Формирование SERP: Кластеры ранжируются и представляются пользователю.

На что влияет

Специфические запросы: Наибольшее влияние на неоднозначные запросы (ambiguous queries), содержащие имена людей, названия продуктов, книг, организаций (Entity-seeking queries).
Конкретные типы контента: Влияет на ранжирование профильных страниц (profile pages), официальных сайтов и авторитетных веб-страниц, связанных с сущностями.
Персонализация и локализация: Механизм напрямую влияет на персонализированную выдачу, повышая кластеры, которые социально или географически ближе к пользователю.

Когда применяется

Условия применения: Алгоритм применяется, когда поисковый запрос соответствует Name Context, для которого в индексе существует несколько кластеров (т.е. когда имя неоднозначно).
Триггеры активации: Обнаружение неоднозначности имени в запросе и необходимость организовать результаты по сущностям.

Пошаговый алгоритм

Система состоит из двух основных процессов: ранжирование ресурсов внутри кластера (преимущественно офлайн) и ранжирование кластеров (во время выполнения запроса).

Процесс А: Ранжирование ресурсов внутри кластера (Офлайн/Индексирование)

Доступ к кластеру: Получение доступа к кластеру ресурсов, связанных с определенным Name Context.
Генерация Quality Score: Для каждого ресурса вычисляется Quality Score (независимо от кластера). Учитываются IR-оценки, спам, возраст, верификация и конфликты (пенализация дублей).
Генерация Cluster Relation Score: Для каждого ресурса вычисляется оценка авторитетности внутри кластера. Учитывается граф связей внутри кластера, возраст ссылок, общие темы и распространение качества (quality propagation) между связанными ресурсами.
Генерация Resource Ranking Score: Комбинация Quality Score и Cluster Relation Score (например, с помощью линейной взвешенной регрессии).
Ранжирование ресурсов: Ресурсы в кластере сортируются по Resource Ranking Score.

Процесс Б: Ранжирование кластеров (Во время запроса)

Доступ к кластерам: Идентификация всех кластеров, релевантных поисковому запросу.
Получение оценок: Для каждого ресурса получается Search Score (релевантность запросу) и извлекается предварительно рассчитанный Resource Ranking Score.
Расчет базовой оценки кластера: Для каждого кластера вычисляется базовая оценка путем комбинации Search Scores и Resource Ranking Scores его ресурсов (используя линейную взвешенную регрессию).
Расчет Attribute Scores: Определяются атрибуты кластера и контекст пользователя (социальные связи, геолокация, совпадение имени).
Генерация Cluster Rank Score: Базовая оценка кластера корректируется (увеличивается или уменьшается) с помощью Attribute Scores.
Ранжирование кластеров: Кластеры сортируются в соответствии с их итоговыми Cluster Rank Score.

Какие данные и как использует

Данные на входе

Для расчета Quality Score (Общее качество, независимо от кластера):

Контентные факторы: Стандартные IR-оценки.
Технические/Спам факторы: Оценка спама (spam score), возраст ресурса.
Ссылочные факторы: Общая авторитетность ресурса в вебе.
Факторы репутации и верификации: Верификация профиля, аутентификация автора, качество фолловеров.
Данные о конфликтах: Наличие дублирующихся ресурсов того же типа для той же сущности.

Для расчета Cluster Relation Score (Авторитетность внутри кластера):

Ссылочные факторы (внутри кластера): Граф авторитетности (Authority Graph) внутри кластера. Входящие (inlinks) и исходящие (outlinks) ссылки между ресурсами кластера. Аутентифицированные ссылки.
Временные факторы: Возраст ссылок внутри кластера (старые ссылки более авторитетны).
Контентные факторы: Наличие общих тем (common topics) между ресурсами в кластере.

Для расчета Attribute Scores (Корректировка ранжирования кластера):

Пользовательские факторы: Социальные сети пользователя и его связи (social connection).
Географические факторы: Местоположение пользователя и географическая информация, связанная с сущностью кластера (расстояние).
Лингвистические факторы: Совпадение имени в запросе и имени сущности (синонимы, никнеймы, инициалы).
Структурные факторы кластера: Количество ресурсов в кластере, разнообразие доменов ресурсов.

Какие метрики используются и как они считаются

Resource Ranking Score (RRS): Комбинация Quality Score (QS) и Cluster Relation Score (CRS). Упоминаются методы: Аддитивный, Мультипликативный или Линейная взвешенная регрессия.
Пример линейной регрессии: $RRS = (W1*QS) + (W2*CRS)$ .
Cluster Rank Score (CRS_Cluster): Комбинация Search Scores (SS) и Resource Ranking Scores (RRS) ресурсов в кластере, скорректированная Attribute Scores (AS). Claim 5 и 21 явно упоминают линейную взвешенную регрессию для расчета базовой оценки.
Пример функции для базовой оценки (Baseline Score): $BaselineScore = f(\sum(W1'*SS_i) + \sum(W2'*RRS_i))$ .
Финальная оценка: $CRS_{Cluster} = BaselineScore + AS$ .
Quality Propagation (Распространение качества): Механизм, при котором качество одного ресурса может влиять на Cluster Relation Score другого ресурса в кластере, если они связаны ссылкой.
Штраф за конфликт (Conflict Penalty): Механизм снижения Quality Score для ресурсов, которые дублируют друг друга в рамках одного кластера.

Двухуровневое ранжирование для сущностей: Ключевая идея патента — разделение ранжирования на два уровня: важность ресурса для сущности (внутри кластера, офлайн) и важность сущности для запроса/пользователя (между кластерами, онлайн). Это фундаментальный подход к разрешению неоднозначности.
Контекстная авторитетность (Cluster Relation Score): Вводится понятие авторитетности ресурса не глобально (как PageRank), а конкретно в контексте связанной с ним сущности. Связность между ресурсами об одной и той же сущности критически важна для определения ее главных ресурсов.
Важность верификации и устранения дублей: Quality Score напрямую зависит от верификации профилей и включает механизм штрафования за "конфликты" (дублирующиеся профили). Консолидированное присутствие сущности предпочтительнее фрагментированного.
Персонализация как решающий фактор неоднозначности: Attribute Scores играют критическую роль. Социальные связи и географическая близость могут значительно повысить один кластер над другим, делая выдачу сильно персонализированной для неоднозначных запросов.
Гибкое взвешивание сигналов: Использование линейной взвешенной регрессии позволяет системе гибко настраивать важность различных компонентов (качество, контекстная авторитетность, релевантность запросу) при расчете итоговых оценок.

Best practices (это мы делаем)

Консолидация и верификация сущности (Entity Optimization): Сосредоточьтесь на создании и верификации официальных ресурсов (сайт, ключевые профили) для сущности. Верификация повышает Quality Score. Устраняйте дубликаты, чтобы избежать штрафов за конфликты.
Развитие контекстной авторитетности (Усиление Cluster Relation Score): Обеспечьте сильную перелинковку между всеми официальными ресурсами сущности. Стимулируйте появление ссылок на ваши ключевые ресурсы с других авторитетных сайтов, которые Google также относит к этому кластеру (например, из Википедии, отраслевых СМИ, биографий).
Создание "Dominant Resource": Развивайте один ключевой ресурс (например, официальный сайт), который должен стать доминирующим в кластере благодаря высокому Quality Score и Cluster Relation Score.
Оптимизация под локальный поиск: Для локальных сущностей поддержание точной географической информации критично. Attribute Score, основанный на близости к пользователю, может значительно повысить Cluster Rank Score.
Использование социальных связей: Поддержание активного социального присутствия может способствовать повышению ранжирования кластера для пользователей внутри этой социальной сети или связанных с ней, благодаря персонализации через Attribute Scores.

Worst practices (это делать не надо)

Фрагментация присутствия: Создание множества слабых, не связанных между собой или дублирующихся профилей для одной сущности. Это снижает Quality Score (из-за конфликтов) и размывает Cluster Relation Score.
Игнорирование внутренней связности кластера: Фокусировка только на глобальном построении ссылок без учета того, как ресурсы внутри экосистемы сущности взаимосвязаны. Это приводит к низкому Cluster Relation Score.
Игнорирование персонализации: Оптимизация без учета социальных и географических факторов может привести к потере видимости, так как система активно использует Attribute Scores для переранжирования кластеров под конкретного пользователя.

Стратегическое значение

Патент подтверждает стратегический фокус Google на сущностях (Entity-based SEO) и персонализации выдачи. Он предоставляет механизм для понимания работы Knowledge Graph и разрешения неоднозначности. Долгосрочная SEO-стратегия должна быть направлена на построение целостного, авторитетного и хорошо связанного кластера ресурсов вокруг продвигаемой сущности, а не только на ранжирование отдельных страниц по ключевым словам.

Практические примеры

Сценарий 1: Повышение авторитетности официального сайта бренда (Увеличение Cluster Relation Score)

Цель: Сделать официальный сайт доминирующим ресурсом в кластере бренда.
Действия: Провести кампанию по обновлению ссылок на авторитетных ресурсах, связанных с брендом (Википедия, профили в каталогах, страницы партнеров, ключевые СМИ). Убедиться, что все они ссылаются на каноническую версию официального сайта. Обеспечить перекрестные ссылки между официальным сайтом и верифицированными соцсетями.
Механизм: Увеличение количества и качества входящих ссылок от других ресурсов внутри кластера повышает Cluster Relation Score официального сайта.
Ожидаемый результат: Официальный сайт занимает позицию Доминирующего Ресурса и отображается первым при поиске по имени бренда.

Сценарий 2: Разрешение неоднозначности через локализацию (Local SEO)

Ситуация: Локальный бизнес (например, кафе "Аврора") конкурирует с известной сущностью (крейсер "Аврора").
Цель: Обеспечить видимость кластера кафе для пользователей в его городе.
Действия: Максимально насытить ключевые ресурсы кафе (сайт, Google Business Profile, упоминания в местных СМИ) четкими географическими сигналами.
Механизм: Система использует Attribute Scores, основанные на географической близости. Для пользователей из этого города кластер кафе получит значительное повышение Cluster Rank Score.
Ожидаемый результат: При поиске "Аврора" в целевом городе кластер кафе ранжируется выше кластера крейсера.

В чем ключевое различие между Quality Score и Cluster Relation Score?

Quality Score — это независимая оценка качества ресурса, не зависящая от кластера. Она учитывает глобальные факторы: спам, верификацию, возраст, общую репутацию. Cluster Relation Score — это оценка авторитетности ресурса именно внутри конкретного кластера сущности. Она зависит от связей (ссылок, общих тем) с другими ресурсами в этом же кластере и не учитывает внешние сигналы.

Как Cluster Relation Score отличается от PageRank?

PageRank — это глобальная мера авторитетности ресурса во всем вебе. Cluster Relation Score измеряет авторитетность только в контексте конкретной сущности и основывается на ссылках между ресурсами внутри этого кластера. Ресурс может иметь высокий PageRank, но низкий Cluster Relation Score, если он слабо связан с экосистемой конкретной сущности.

Что такое "конфликты" (conflicts) ресурсов и как они влияют на ранжирование?

Конфликт возникает, когда в кластере присутствует несколько ресурсов одного типа, которые считаются взаимоисключающими для данной сущности (например, несколько "официальных" профилей в одной соцсети). Патент указывает, что система пессимизирует Quality Score конфликтующих ресурсов. SEO-специалистам важно устранять дубликаты и консолидировать присутствие сущности.

Как этот патент влияет на стратегию построения ссылок для Entity SEO?

Он подчеркивает критическую важность получения ссылок с авторитетных ресурсов, которые Google ассоциирует с той же сущностью (входят в тот же кластер). Эти внутренние для кластера ссылки напрямую повышают Cluster Relation Score. Ссылки извне кластера важны для общего Quality Score, но для доминирования внутри кластера нужны контекстные связи.

Насколько сильно социальные связи влияют на ранжирование сущностей?

Влияние значительно, особенно при неоднозначных запросах. Патент описывает (Claim 8), что Cluster Rank Score увеличивается, если обнаружена связь между социальными сетями пользователя и сущности кластера (через Attribute Score). Это означает, что социально связанная с пользователем сущность может ранжироваться выше более известной.

Как используется географическое положение в этом патенте?

Географическое положение используется как Attribute Score для персонализации. Если система определяет, что сущность кластера находится географически близко к пользователю, Cluster Rank Score этого кластера увеличивается. Это критически важно для локальных бизнесов или специалистов, конкурирующих за общее имя.

Применяется ли этот механизм только к именам людей?

Нет. Хотя многие примеры используют Person Name Context, изобретение определяет более широкий термин Name Context, который включает названия книг, продуктов, организаций или других сущностей. Механизм применим для устранения любой неоднозначности имен и названий.

Что такое распространение качества (Quality Propagation)?

Это механизм расчета Cluster Relation Score. Он похож на принцип работы PageRank, но применяется внутри кластера. Если высококачественный ресурс ссылается на другой ресурс в том же кластере, он передает ему часть своего авторитета, повышая его Cluster Relation Score. Это стимулирует создание экосистемы качественных связанных ресурсов вокруг сущности.

Как этот патент связан с Knowledge Graph?

Патент описывает базовые механизмы для работы с сущностями. Кластеры ресурсов можно рассматривать как представление сущностей (Entities) в индексе. Resource Ranking Score определяет, какие источники наиболее авторитетны для этой сущности (например, для отображения в Knowledge Panel), а Cluster Rank Score определяет, какая сущность будет показана при неоднозначном запросе.

Имеет ли значение возраст ресурса или ссылки?

Да. Возраст ресурса упоминается как фактор для Quality Score (новые страницы могут иметь более низкую оценку). Возраст ссылок учитывается в Cluster Relation Score, где старые ссылки считаются более надежными и авторитетными, чем новые.

Как Google использует кластеризацию контента и результаты поиска для определения авторства и формирования профилей сущностей

Google использует механизм для точной ассоциации контента (статей, веб-страниц) с конкретными сущностями (авторами, людьми). Система предварительно группирует похожий контент в кластеры. При запросе имени автора система ранжирует эти кластеры, сравнивая их содержимое с результатами поиска по этому имени. Это позволяет разрешать неоднозначность авторов, формировать точные профили (например, в Google Scholar или Knowledge Graph) и автоматически их обновлять.

US9400789B2
2016-07-26

Knowledge Graph
Семантика и интент
SERP

Как Google идентифицирует и ранжирует людей, связанных с запросом, и различает однофамильцев с помощью контекста

Google использует механизм для определения людей, наиболее релевантных поисковому запросу. Система анализирует контекст вокруг имен в документах, используя «термины классификации» (например, должности, локации, email), чтобы сгруппировать упоминания и различить людей с одинаковыми именами (дисамбигуация). Это позволяет точно идентифицировать сущности и организовать выдачу вокруг них.

US9245022B2
2016-01-26

Семантика и интент
Индексация
SERP

Как Google анализирует историю поисковых запросов для устранения неоднозначности имен и генерации контекстных подсказок

Google использует систему для устранения неоднозначности имен людей. Анализируя исторические данные о том, какие запросы (как включающие имя, так и нет) приводили пользователей на одни и те же ресурсы, система кластеризует различные контексты имени (например, разные люди с одним именем). Для каждого контекста выбирается лучший уточняющий термин, который затем предлагается пользователю в качестве поисковой подсказки.

US9830379B2
2017-11-28

Семантика и интент

Как Google оценивает качество новостных источников, кластеризует статьи и ранжирует новости на основе свежести, оригинальности и авторитетности

Детальный разбор основополагающего патента Google News. Система оценивает источники по скорости реакции на события, оригинальности контента и авторитетности (ссылки, просмотры). Новостные сюжеты (кластеры) ранжируются по свежести и качеству источников. Статьи внутри сюжета сортируются с использованием «Модифицированной оценки свежести», которая дает значительное преимущество авторитетным изданиям.

US7568148B1
2009-07-28

Свежесть контента
EEAT и качество

Как Google использует сущности, онтологии и векторные представления для кластеризации и организации поисковой выдачи

Google использует этот механизм для структурирования поисковой выдачи по широким запросам. Система группирует результаты в кластеры на основе их связи с сущностями из Базы Знаний. Для объединения кластеров используются онтологические связи (иерархия, синонимы) и векторная близость (embedding similarity). Система параллельно тестирует несколько алгоритмов и выбирает наилучшую структуру SERP на основе метрик качества (покрытие, баланс, пересечение, силуэт).

US10496691B1
2019-12-03

SERP
Семантика и интент
Knowledge Graph

Как Google выбирает предлагаемые запросы, анализируя вероятность завершения поиска и коммерческую ценность

Google использует графовую модель для анализа поисковых сессий пользователей. Система определяет, какие уточняющие запросы чаще всего приводят к завершению поиска (становятся «финальным пунктом назначения»). Эти запросы считаются обладающими наибольшей «полезностью» (Utility) и предлагаются пользователю в качестве подсказок или связанных запросов. Система также учитывает коммерческий потенциал этих запросов и может показывать для них релевантные рекламные блоки.

US8751520B1
2014-06-10

SERP
Поведенческие сигналы
Семантика и интент

Как Google игнорирует часто меняющийся контент и ссылки в нем, определяя "временные" блоки шаблона сайта

Google использует механизм для отделения основного контента от динамического шума (реклама, виджеты, дата). Система сравнивает разные версии одной страницы, чтобы найти часто меняющийся контент. Затем она анализирует HTML-структуру (путь) этого контента и статистически определяет, является ли этот структурный блок "временным" для всего сайта. Такой контент игнорируется при индексации и таргетинге рекламы, а ссылки в нем могут не учитываться при расчете PageRank.

US8121991B1
2012-02-21

Индексация
Техническое SEO
Структура сайта

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс

Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.

US8255386B1
2012-08-28

Индексация
Поведенческие сигналы

Как Google использует машинное зрение и исторические клики для определения визуального интента и ранжирования изображений

Google использует систему, которая определяет визуальное значение текстового запроса, анализируя объекты на картинках, которые пользователи выбирали ранее по этому или похожим запросам. Система создает набор «меток контента» (визуальный профиль) для запроса и сравнивает его с объектами, распознанными на изображениях-кандидатах с помощью нейросетей. Это позволяет ранжировать изображения на основе их визуального соответствия интенту пользователя.

US20200159765A1
2020-05-21

Семантика и интент
Мультимедиа
Персонализация

Как Google анализирует распределение качества входящих ссылок для классификации и понижения сайтов в выдаче

Google использует систему для оценки качества ссылочного профиля сайта. Система фильтрует входящие ссылки (удаляя шаблонные и дублирующиеся с одного домена), группирует оставшиеся по качеству источника (например, Vital, Good, Bad) и вычисляет взвешенный «Link Quality Score». Если доля низкокачественных ссылок слишком велика, сайт классифицируется как низкокачественный и понижается в результатах поиска.

US9002832B1
2015-04-07

Ссылки
Антиспам
SERP

Как Google выбирает сущность для Панели Знаний и решает, когда ее показывать, основываясь на топикальности SERP и CTR

Google использует этот механизм для решения двух задач: выбора наиболее релевантной сущности для Панели Знаний при неоднозначном запросе и определения необходимости показа самой панели. Система анализирует, насколько сущности соответствуют контенту топовых результатов поиска (Topicality Score). Показ панели активируется, если у органических результатов низкий CTR (что указывает на неудовлетворенность пользователей) или если у Google достаточно данных для ее заполнения.

US10922326B2
2021-02-16

Knowledge Graph
SERP
Семантика и интент

Как Google использует тематические списки предпочтительных и нежелательных сайтов (Editorial Opinion) для корректировки ранжирования

Google может заранее определять "Темы запросов" (Query Themes) и назначать для них списки "Предпочтительных" (Favored) и "Нежелательных" (Non-Favored) источников. Если запрос пользователя соответствует теме, система корректирует ранжирование: повышает предпочтительные источники и понижает нежелательные, используя "Параметр редакторского мнения" (Editorial Opinion Parameter).

US7096214B1
2006-08-22

EEAT и качество
Антиспам
SERP

Как Google использует персональное дерево интересов пользователя для определения важности слов в запросе и его переписывания

Google использует иерархический профиль интересов пользователя (Profile Tree), построенный на основе истории поиска и поведения, чтобы определить, какие слова в запросе наиболее важны для конкретного человека. Специфичные интересы (глубокие узлы в дереве) получают больший вес. Это позволяет системе отфильтровать шум в длинных запросах и сгенерировать более точный альтернативный запрос.

US8326861B1
2012-12-04

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google определяет ключевые аспекты (фасеты) сущности для организации и диверсификации поисковой выдачи

Google использует систему для автоматической идентификации различных «аспектов» (подтем или фасетов) сущности в запросе. Анализируя логи запросов и базы знаний, система определяет, как пользователи исследуют информацию. Затем эти аспекты ранжируются по популярности и разнообразию и используются для организации результатов поиска в структурированном виде (mashup), облегчая пользователю навигацию и исследование темы.

US8458171B2
2013-06-04

Семантика и интент
SERP
Поведенческие сигналы

Как Google рассчитывает и показывает рейтинг легитимности сайтов и рекламодателей на основе их истории и активности

Google патентует систему для оценки и отображения «Рейтинга Легитимности» источников контента, включая сайты в органической выдаче и рекламодателей. Этот рейтинг основан на объективных данных: как долго источник взаимодействует с Google (история) и насколько активно пользователи с ним взаимодействуют (объем транзакций, клики). Цель — предоставить пользователям надежную информацию для оценки качества и надежности источника.

US7657520B2
2010-02-02

SERP
EEAT и качество
Поведенческие сигналы