Как Google использует кластеризацию контента и результаты поиска для определения авторства и формирования профилей сущностей

Google использует механизм для точной ассоциации контента (статей, веб-страниц) с конкретными сущностями (авторами, людьми). Система предварительно группирует похожий контент в кластеры. При запросе имени автора система ранжирует эти кластеры, сравнивая их содержимое с результатами поиска по этому имени. Это позволяет разрешать неоднозначность авторов, формировать точные профили (например, в Google Scholar или Knowledge Graph) и автоматически их обновлять.

Описание

Какую задачу решает

Патент решает проблему точной и комплексной идентификации ресурсов (например, научных статей, веб-страниц, новостей), связанных с конкретной сущностью (например, автором), в большом корпусе данных. Основная задача — disambiguation (разрешение неоднозначности) сущностей с похожими или одинаковыми именами и автоматизация процесса создания и обновления профилей этих сущностей (например, списка публикаций автора).

Что запатентовано

Запатентована система для ассоциации ресурсов с сущностями, использующая двухэтапный подход. На первом этапе ресурсы кластеризуются офлайн в Resource Groups на основе общих признаков (авторство, цитирования, тематика). На втором этапе, в ответ на запрос о сущности, эти группы ранжируются на основе их совпадения с результатами поиска по этому запросу. Также запатентован метод автоматического обновления профилей сущностей с использованием Correspondence Score.

Как это работает

Система работает следующим образом:

Кластеризация (Офлайн): Система анализирует ресурсы и группирует их в Resource Groups. Каждая группа ассоциируется с именем собственным (например, именем автора). Кластеризация основана на признаках: имена авторов, email, аффилиации, названия, места публикации, цитирования.
Обработка запроса: Поступает запрос, содержащий имя сущности (Entity Query). Система выполняет поиск и получает ранжированный список релевантных ресурсов.
Ранжирование групп: Система сравнивает предварительно созданные Resource Groups с полученным списком результатов поиска. Группы ранжируются выше, если они содержат больше документов из результатов поиска, если эти документы имеют высокий ранг в поиске, и если имя группы совпадает с именем в запросе.
Формирование и обновление профиля: Ранжированные группы могут быть предложены пользователю для подтверждения авторства или использованы для автоматического формирования Profile (коллекции ресурсов сущности). Система также автоматически обновляет существующие профили, если новые кластеры имеют высокий Correspondence Score с профилем.

Актуальность для SEO

Высокая. Точное определение авторства и ассоциация контента с сущностями являются фундаментом для E-E-A-T, работы Knowledge Graph и сервисов типа Google Scholar (изобретатель Anurag Acharya является основателем Google Scholar). Механизмы disambiguation и автоматического связывания контента критически важны в современном поиске, особенно с акцентом на авторитетность авторов.

Важность для SEO

Патент имеет высокое значение (8/10) для стратегий Entity SEO и управления репутацией. Он раскрывает конкретные механизмы, которые Google может использовать для определения того, какой контент принадлежит конкретному автору или организации. Понимание этих механизмов критически важно для обеспечения того, чтобы сигналы E-E-A-T корректно агрегировались вокруг нужной сущности, а не рассеивались между несколькими похожими или ошибочными профилями.

Детальный разбор

Термины и определения

Entity (Сущность): Представляет одного или нескольких людей (конкретного человека, группу людей, компанию, организацию). Может быть как общей (например, «президент США»), так и конкретной (например, «Джордж Вашингтон»).
Resource (Ресурс): Любой тип цифровой информации, доступной по сети (документы, научные статьи, веб-страницы, видео, изображения, книги, патенты, сообщения в социальных сетях и т.д.).
Resource Group / Document Group (Группа ресурсов / Группа документов): Кластер ресурсов, сгруппированных на основе общих признаков (например, предполагаемого авторства). Каждая группа ассоциирована с именем собственным (Proper Name).
Profile (Профиль): Коллекция ресурсов, которая подтверждена (вручную или автоматически) как связанная с конкретной сущностью. Например, список публикаций автора.
Entity Query (Запрос о сущности): Запрос, который идентифицирует как минимум одну сущность, часто по имени собственному. Может включать дополнительную информацию (аффилиацию, email).
Resource Clusterer (Кластеризатор ресурсов): Компонент системы, который анализирует ресурсы в индексной базе и группирует их в Resource Groups.
Correspondence Score (Оценка соответствия): Метрика, определяющая уровень соответствия между ресурсами в Resource Group и ресурсами, уже включенными в Profile. Используется для автоматического обновления профилей.
Name Matching Score (Оценка совпадения имен): Метрика, представляющая сходство между именем, связанным с Resource Group, и именем, указанным в запросе или связанным с Profile.

Ключевые утверждения (Анализ Claims)

Патент содержит несколько групп независимых пунктов, описывающих процесс идентификации информации для добавления в профиль автора.

Claim 1 (Независимый пункт): Описывает метод идентификации информации для профиля автора путем предоставления ранжированных групп документов для выбора автором.

Кластеризация: Множество первых документов кластеризуется в одну или несколько Document Groups. Каждая группа связана с именем автора.
Получение информации и генерация запроса: После кластеризации система получает информацию от автора и генерирует запрос, включающий имя автора и полученную информацию.
Получение результатов поиска: Генерируется список документов, удовлетворяющих запросу, ранжированных по Document Rank.
Ранжирование групп: Document Groups ранжируются на основе того, сколько документов из списка результатов поиска содержится в каждой группе. Предпочтение отдается группам с большим количеством совпадений.
Предоставление данных: Данные, описывающие Document Groups, предоставляются в порядке ранжирования для выбора автором с целью включения в его профиль.

Claim 25 (Независимый пункт): Описывает метод автоматического назначения групп документов профилю автора на основе ранжирования.

Назначение документов в группы: Документы назначаются в Document Groups, каждая из которых связана с именем автора.
Получение ввода и генерация запроса: От пользователя принимается ввод имени автора и дополнительная информация (аффилиации и т.д.). Генерируется запрос.
Получение результатов поиска: Получаются результаты поиска, идентифицирующие документы, удовлетворяющие запросу.
Ранжирование групп: Document Groups ранжируются на основе количества документов из результатов поиска, включенных в каждую группу.
Назначение профилю: Одна или несколько Document Groups назначаются профилю автора на основе этого ранжирования.

Claim 3 и Claim 26 (Зависимые): Детализируют механизм автоматического обновления профиля после его первоначального создания.

После создания профиля (как описано в Claim 1 или 25), система кластеризует новый набор документов. Для каждой новой группы вычисляется Correspondence Score относительно существующего профиля автора. Если этот показатель превышает порог, документы из новой группы добавляются в профиль автора.

Claim 4, 20, 27 (Зависимые): Определяют основу для расчета Correspondence Score.

Оценка основана на: (i) количестве документов, присутствующих и в группе, и в профиле; (ii) количестве документов в группе, которые никогда не были в профиле; (iii) количестве документов в группе, которые были удалены из профиля.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, в основном фокусируясь на обработке данных для построения связей между сущностями и контентом.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит извлечение ключевых признаков из ресурсов, необходимых для кластеризации: имена авторов, аффилиации, email адреса, названия публикаций, данные о цитировании (кто цитирует и кого цитируют). Это Feature Extraction.

(Вне стандартного real-time pipeline) – Офлайн обработка и кластеризация
Система (в частности, Resource Clusterer) использует извлеченные признаки для выполнения кластеризации. Это ресурсоемкий офлайн-процесс, результатом которого являются Resource Groups. Этот процесс может быть частью построения или обновления Knowledge Graph.

QUNDERSTANDING – Понимание Запросов / RANKING – Ранжирование
Когда поступает Entity Query, стандартные механизмы поиска используются для генерации первичного списка ранжированных ресурсов, релевантных запросу.

RERANKING – Переранжирование / Специализированный Поиск
Основное применение патента происходит здесь или в рамках специализированного поискового вертикала (например, Google Scholar, Поиск по Людям). Система использует результаты стандартного ранжирования для оценки и ранжирования предварительно рассчитанных Resource Groups. Это не столько переранжирование существующих результатов, сколько генерация нового типа результата — агрегированного профиля сущности.

Входные данные:

Индексированные ресурсы с извлеченными признаками (авторы, аффилиации, цитаты).
Entity Query (имя, дополнительная информация).
Существующие Profiles (для механизма обновления).

Выходные данные:

Ранжированные Resource Groups, предложенные для ассоциации с сущностью.
Обновленные Profiles сущностей.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на контент, где авторство является ключевым признаком: научные статьи (основной пример в патенте), новостные статьи, книги, патенты, блоги. Также упоминаются ресурсы социальных сетей (фото, видео, посты).
Специфические запросы: Запросы, связанные с именами людей (авторов, экспертов), особенно распространенными именами, где требуется разрешение неоднозначности.
Конкретные ниши или тематики: Академическая сфера, журналистика, YMYL-тематики, где авторитетность автора (E-E-A-T) имеет критическое значение.

Когда применяется

Триггеры активации (Real-time): Получение запроса, который система идентифицирует как поиск сущности (Entity Query), особенно если запрос направлен на создание или подтверждение профиля (например, автор подтверждает свои работы в Google Scholar).
Триггеры активации (Офлайн): Периодическое обновление индекса и появление новых ресурсов запускают процесс перекластеризации и последующего автоматического обновления профилей (Profile Update).
Пороговые значения: Механизм автоматического обновления активируется, только если Correspondence Score между группой и профилем превышает установленный порог.

Пошаговый алгоритм

Процесс А: Кластеризация ресурсов (Офлайн)

Извлечение признаков: Система анализирует ресурсы и извлекает признаки: название, место публикации, имена авторов, email авторов, аффилиации авторов, цитируемые документы, цитирующие документы.
Определение ассоциаций: Анализируются признаки для определения связей между ресурсами.
Кластеризация: Используется алгоритм кластеризации для группировки ресурсов в Resource Groups на основе выявленных ассоциаций. Каждая группа ассоциируется с именем собственным.

Процесс Б: Ранжирование групп по запросу (Real-time или по требованию)

Получение запроса: Система получает Entity Query (например, от автора, желающего создать профиль), включающий имя и, возможно, дополнительную информацию.
Генерация результатов поиска: Система выполняет поиск по запросу и генерирует ранжированный список релевантных ресурсов (Result List).
Сопоставление (Mapping): Система сопоставляет ресурсы из Result List с ресурсами в предварительно созданных Resource Groups.
Расчет оценок для групп: Для каждой группы вычисляется оценка на основе:
- Количества совпадающих ресурсов.
- Ранга совпадающих ресурсов в Result List.
- Name Matching Score (сходство имени группы с именем в запросе).
Ранжирование групп: Resource Groups сортируются по рассчитанным оценкам.
Предоставление результатов: Ранжированные группы предоставляются пользователю (например, для выбора и создания профиля) или используются системой для автоматического назначения профилю.

Процесс В: Автоматическое обновление профиля (Офлайн/Периодически)

Идентификация профиля: Система идентифицирует существующий Profile сущности.
Расчет Correspondence Score: Для новых или обновленных Resource Groups вычисляется Correspondence Score относительно профиля. Расчет учитывает совпадения, новые документы и ранее удаленные документы.
Проверка порога: Система определяет, превышает ли Correspondence Score установленный порог.
Обновление профиля: Если порог превышен, ресурсы из Resource Group добавляются в Profile.

Какие данные и как использует

Данные на входе

Патент явно указывает на использование следующих факторов для кластеризации и ассоциации:

Контентные факторы: Название ресурса (title), место публикации (place of publication).
Ссылочные факторы (Цитирования): Документы, на которые ссылается ресурс (documents referenced by the first documents), и документы, которые ссылаются на ресурс (documents that reference the first documents).
Факторы сущностей (Авторские): Имена собственные авторов (proper names of authors), email адреса авторов (author email addresses), аффилиации авторов (author affiliations).
Поведенческие факторы (Обратная связь): Данные о том, какие ресурсы пользователь вручную добавил или удалил из своего профиля. Это используется для корректировки алгоритма кластеризации.
Данные социальных сетей: Упоминается кластеризация ресурсов из социальных сетей (фото, видео, посты), включая взаимодействия (просмотры, лайки, теги).

Какие метрики используются и как они считаются

Name Matching Score ( $X_4$ ): Оценка сходства имен. Использует эвристики для реструктуризации имен (например, перестановка имени и фамилии, использование инициалов) для поиска наилучшего совпадения. Может рассчитываться как взвешенная сумма совпадений по компонентам имени (фамилия, имя).
Ranking Score (для Resource Groups): Рассчитывается как функция от количества совпадающих ресурсов между группой и результатами поиска, ранга этих ресурсов в поиске и Name Matching Score.
Correspondence Score (CS): Метрика для автоматического обновления профиля. Оценивает соответствие между Resource Group и Profile.
Определяются переменные:
- $X_1$ : Количество ресурсов в группе И в профиле.
- $X_2$ : Количество ресурсов в группе, которые были УДАЛЕНЫ из профиля.
- $X_3$ : Количество ресурсов в группе, которые НИКОГДА не были в профиле.
Пример формулы:
$CS = C_1X_1 — C_2X_2 — C_3X_3$ C2X2−C3X3 (где $C_i$ — константы).
Это показывает, что совпадения ( $X_1$ ) увеличивают оценку, а ранее удаленные ресурсы ( $X_2$ ) сильно ее уменьшают.
Assignment Score (AS): Используется для разрешения конфликтов, если ресурс из профиля встречается в нескольких группах. Ресурс назначается группе, максимизирующей AS. Пример формулы:
$AS = W_1X_4 + W_2X_1 — W_3X_2 — W_4(X_3 — W_5X_4)$ W2X1−W3X2−W4(X3−W5X4) (где $W_i$ — веса).

Выводы

Ассоциация контента с сущностями — это процесс кластеризации: Google не просто ищет упоминания имени. Система активно кластеризует контент в Resource Groups на основе множества сигналов, пытаясь воссоздать корпус работ конкретного автора.
Ключевые сигналы для кластеризации: Для успешной ассоциации контента с автором критически важны не только имена, но и контекстуальные данные: аффилиации, email адреса, а также сеть цитирования (кто ссылается на работу и на кого ссылается автор).
Результаты поиска как валидатор кластеров: Система использует результаты поиска в реальном времени (Result List) для валидации и ранжирования предварительно рассчитанных кластеров. Если кластер содержит много высокоранжирующихся документов по запросу имени автора, этот кластер считается релевантным.
Автоматизация и обратная связь: Система стремится автоматизировать обновление профилей (Profiles) с помощью Correspondence Score, но при этом учитывает историю взаимодействий. Ресурсы, которые автор ранее удалил из профиля ( $X_2$ ), имеют сильный негативный вес, что предотвращает повторное добавление неверного контента.
Важность разрешения неоднозначности (Disambiguation): Весь механизм направлен на то, чтобы отличить одного автора от другого, даже если у них одинаковые имена, используя контекстные сигналы и структуру связей.

Практика

Best practices (это мы делаем)

Обеспечение консистентности данных об авторе (NAP Consistency для людей): Используйте консистентное написание имени автора, его аффилиации (места работы, учебы) и контактной информации (email, профили в соцсетях) во всех публикациях и на всех платформах. Это облегчает системе задачу кластеризации (Resource Clustering).
Использование разметки Schema.org (Author): Тщательно размечайте контент, используя Person, author, affiliation, email, sameAs (для связи с профилями в Knowledge Graph, соцсетях, ORCID). Это предоставляет системе четкие признаки для кластеризации.
Управление цитированием и совместной работой: Поощряйте цитирование ваших работ авторитетными источниками и участвуйте в совместных проектах. Сеть цитирования и соавторства является сильным сигналом для кластеризации и помогает разрешить неоднозначность авторов.
Активное управление профилями сущностей: Если возможно (например, в Google Scholar или через Knowledge Panel), активно управляйте профилем автора. Подтверждайте правильный контент и удаляйте ошибочно ассоциированный. Это дает системе обратную связь, которая учитывается в Correspondence Score (переменная $X_2$ ) при будущих обновлениях.
Создание централизованной страницы автора: Создайте авторитетную страницу автора на сайте (Author Page), которая агрегирует все его работы, аффилиации и связи. Это поможет системе сформировать точный Resource Group.

Worst practices (это делать не надо)

Неконсистентное представление автора: Использование разных вариантов имени (например, John Smith, J. A. Smith, John A. Smith) без явной связи между ними, частая смена аффилиаций без обновления биографии. Это затрудняет кластеризацию и может привести к фрагментации профиля автора.
Игнорирование контекстных сигналов: Публикация контента без указания аффилиации, биографии или связей с предыдущими работами, особенно если у автора распространенное имя.
Попытки манипуляции авторством (Authorship Hijacking): Попытки ассоциировать свой контент с авторитетным автором путем имитации его сигналов. Механизмы кластеризации, учитывающие сеть цитирования и обратную связь от реального автора (Correspondence Score), направлены на борьбу с этим.

Стратегическое значение

Этот патент подчеркивает стратегическую важность управления сущностями (Entity Management) как ключевого компонента SEO, особенно в контексте E-E-A-T. Google стремится понять, кто стоит за контентом, и использует сложные механизмы кластеризации для построения профилей авторов. Для SEO-специалистов это означает, что работа над авторитетностью автора должна включать не только создание качественного контента, но и обеспечение максимальной четкости и консистентности сигналов, позволяющих Google корректно ассоциировать этот контент с автором.

Практические примеры

Сценарий: Разрешение неоднозначности авторов в YMYL-нише (Медицина)

Задача: Обеспечить корректную ассоциацию статей медицинского эксперта Dr. Maria Garcia, работающего в Cleveland Clinic, и отличить ее от другого автора Maria Garcia, работающего в сфере финансов.

Действия (Кластеризация): Во всех статьях Dr. Garcia последовательно указывается ее имя, ученая степень и аффилиация (Cleveland Clinic). Используется разметка Schema.org/author с указанием affiliation.
Действия (Цитирование): Ее медицинские статьи цитируют друг друга и другие работы в области кардиологии.
Результат (Системный процесс): Система Google формирует два отдельных Resource Groups. Группа 1 (Медицина) кластеризуется вокруг имени «Dr. Maria Garcia», аффилиации «Cleveland Clinic» и сети медицинских цитирований. Группа 2 (Финансы) кластеризуется вокруг других сигналов.
Результат (Поиск): При запросе «Dr. Maria Garcia Cardiology», система генерирует Result List, который сильно пересекается с Группой 1. Эта группа получает высокий ранг и используется для формирования Knowledge Panel и ассоциации сигналов E-E-A-T с правильной сущностью.

Вопросы и ответы

Как этот патент связан с E-E-A-T?

Напрямую. E-E-A-T во многом зависит от авторитетности автора контента. Чтобы оценить авторитетность, Google должен сначала точно определить, какой контент принадлежит этому автору. Этот патент описывает механизм, как Google решает задачу ассоциации контента с авторами (сущностями) и разрешения неоднозначности, формируя основу для последующей оценки E-E-A-T.

Какие сигналы наиболее важны для того, чтобы Google правильно связал контент с моим автором?

Патент выделяет несколько ключевых сигналов для кластеризации: консистентное написание имени автора, аффилиации (место работы/учебы), контактные данные (email). Также критически важна сеть цитирования — ссылки на другие работы автора и ссылки авторитетных источников на его работы. Консистентность этих сигналов является решающей.

Что такое Resource Group и чем он отличается от Profile?

Resource Group — это автоматически сгенерированный кластер документов, которые система считает связанными (например, принадлежащими одному автору). Это предположение системы. Profile — это подтвержденная коллекция документов, связанных с сущностью. Профиль может быть создан путем подтверждения одного или нескольких Resource Groups вручную автором или автоматически системой, если уверенность высока.

Как Google решает проблему авторов с одинаковыми именами?

Система использует контекстные сигналы для кластеризации. Если два автора имеют одинаковое имя, но разные аффилиации, разные email, работают в разных тематиках и имеют разные сети цитирования, система сформирует два отдельных Resource Groups. При поиске система выберет ту группу, которая лучше соответствует контексту запроса и результатам поиска.

Как работает механизм автоматического обновления профилей?

Система периодически пересчитывает кластеры (Resource Groups). Затем она вычисляет Correspondence Score между новыми кластерами и существующими профилями. Если оценка высока (много совпадений с текущим профилем и мало контента, который ранее был удален), система автоматически добавляет новый контент из кластера в профиль.

Что произойдет, если я вручную удалю неверно ассоциированную статью из своего профиля (например, в Google Scholar)?

Это действие является важным сигналом обратной связи. В формуле Correspondence Score есть переменная $X_2$ (удаленные ресурсы), которая имеет сильный негативный вес. Это значительно снижает вероятность того, что система автоматически добавит эту статью или похожие статьи из того же кластера обратно в ваш профиль.

Применяется ли этот патент только к научным статьям и Google Scholar?

Нет. Хотя научные статьи являются основным примером в патенте, он определяет «ресурсы» очень широко: веб-страницы, новости, видео, изображения, а также контент из социальных сетей. Механизмы кластеризации и ассоциации могут применяться для построения профилей любых публичных личностей, экспертов или авторов в основном поиске и Knowledge Graph.

Как использование разметки Schema.org помогает этому процессу?

Разметка Schema.org (например, author, affiliation, sameAs) предоставляет системе четкие, структурированные данные о признаках, которые используются на этапе кластеризации (Feature Extraction). Это значительно упрощает системе задачу точного формирования Resource Groups и снижает вероятность ошибок при ассоциации контента.

Может ли этот механизм объяснить, почему мой контент не отображается в Knowledge Panel автора?

Да. Если ваш контент не был корректно кластеризован в Resource Group, связанный с автором, или если этот Resource Group не был ассоциирован с официальным Profile (который питает Knowledge Panel), контент не будет отображаться. Причиной могут быть неконсистентные сигналы авторства или недостаток авторитетных связей (цитирований).

Как система определяет, какой вариант имени использовать для кластера?

Система использует Name Matching Score и эвристики для анализа различных вариантов имен (например, с инициалами или полные имена), встречающихся в документах кластера. Она пытается найти наилучшее совпадение и может нормализовать различные варианты к одному каноническому имени, которое будет ассоциировано с Resource Group.