
Google использует механизм для точной ассоциации контента (статей, веб-страниц) с конкретными сущностями (авторами, людьми). Система предварительно группирует похожий контент в кластеры. При запросе имени автора система ранжирует эти кластеры, сравнивая их содержимое с результатами поиска по этому имени. Это позволяет разрешать неоднозначность авторов, формировать точные профили (например, в Google Scholar или Knowledge Graph) и автоматически их обновлять.
Патент решает проблему точной и комплексной идентификации ресурсов (например, научных статей, веб-страниц, новостей), связанных с конкретной сущностью (например, автором), в большом корпусе данных. Основная задача — disambiguation (разрешение неоднозначности) сущностей с похожими или одинаковыми именами и автоматизация процесса создания и обновления профилей этих сущностей (например, списка публикаций автора).
Запатентована система для ассоциации ресурсов с сущностями, использующая двухэтапный подход. На первом этапе ресурсы кластеризуются офлайн в Resource Groups на основе общих признаков (авторство, цитирования, тематика). На втором этапе, в ответ на запрос о сущности, эти группы ранжируются на основе их совпадения с результатами поиска по этому запросу. Также запатентован метод автоматического обновления профилей сущностей с использованием Correspondence Score.
Система работает следующим образом:
Resource Groups. Каждая группа ассоциируется с именем собственным (например, именем автора). Кластеризация основана на признаках: имена авторов, email, аффилиации, названия, места публикации, цитирования.Entity Query). Система выполняет поиск и получает ранжированный список релевантных ресурсов.Resource Groups с полученным списком результатов поиска. Группы ранжируются выше, если они содержат больше документов из результатов поиска, если эти документы имеют высокий ранг в поиске, и если имя группы совпадает с именем в запросе.Profile (коллекции ресурсов сущности). Система также автоматически обновляет существующие профили, если новые кластеры имеют высокий Correspondence Score с профилем.Высокая. Точное определение авторства и ассоциация контента с сущностями являются фундаментом для E-E-A-T, работы Knowledge Graph и сервисов типа Google Scholar (изобретатель Anurag Acharya является основателем Google Scholar). Механизмы disambiguation и автоматического связывания контента критически важны в современном поиске, особенно с акцентом на авторитетность авторов.
Патент имеет высокое значение (8/10) для стратегий Entity SEO и управления репутацией. Он раскрывает конкретные механизмы, которые Google может использовать для определения того, какой контент принадлежит конкретному автору или организации. Понимание этих механизмов критически важно для обеспечения того, чтобы сигналы E-E-A-T корректно агрегировались вокруг нужной сущности, а не рассеивались между несколькими похожими или ошибочными профилями.
Proper Name).Resource Groups.Resource Group и ресурсами, уже включенными в Profile. Используется для автоматического обновления профилей.Resource Group, и именем, указанным в запросе или связанным с Profile.Патент содержит несколько групп независимых пунктов, описывающих процесс идентификации информации для добавления в профиль автора.
Claim 1 (Независимый пункт): Описывает метод идентификации информации для профиля автора путем предоставления ранжированных групп документов для выбора автором.
Document Groups. Каждая группа связана с именем автора.Document Rank.Document Groups ранжируются на основе того, сколько документов из списка результатов поиска содержится в каждой группе. Предпочтение отдается группам с большим количеством совпадений.Document Groups, предоставляются в порядке ранжирования для выбора автором с целью включения в его профиль.Claim 25 (Независимый пункт): Описывает метод автоматического назначения групп документов профилю автора на основе ранжирования.
Document Groups, каждая из которых связана с именем автора.Document Groups ранжируются на основе количества документов из результатов поиска, включенных в каждую группу.Document Groups назначаются профилю автора на основе этого ранжирования.Claim 3 и Claim 26 (Зависимые): Детализируют механизм автоматического обновления профиля после его первоначального создания.
После создания профиля (как описано в Claim 1 или 25), система кластеризует новый набор документов. Для каждой новой группы вычисляется Correspondence Score относительно существующего профиля автора. Если этот показатель превышает порог, документы из новой группы добавляются в профиль автора.
Claim 4, 20, 27 (Зависимые): Определяют основу для расчета Correspondence Score.
Оценка основана на: (i) количестве документов, присутствующих и в группе, и в профиле; (ii) количестве документов в группе, которые никогда не были в профиле; (iii) количестве документов в группе, которые были удалены из профиля.
Изобретение затрагивает несколько этапов поиска, в основном фокусируясь на обработке данных для построения связей между сущностями и контентом.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит извлечение ключевых признаков из ресурсов, необходимых для кластеризации: имена авторов, аффилиации, email адреса, названия публикаций, данные о цитировании (кто цитирует и кого цитируют). Это Feature Extraction.
(Вне стандартного real-time pipeline) – Офлайн обработка и кластеризация
Система (в частности, Resource Clusterer) использует извлеченные признаки для выполнения кластеризации. Это ресурсоемкий офлайн-процесс, результатом которого являются Resource Groups. Этот процесс может быть частью построения или обновления Knowledge Graph.
QUNDERSTANDING – Понимание Запросов / RANKING – Ранжирование
Когда поступает Entity Query, стандартные механизмы поиска используются для генерации первичного списка ранжированных ресурсов, релевантных запросу.
RERANKING – Переранжирование / Специализированный Поиск
Основное применение патента происходит здесь или в рамках специализированного поискового вертикала (например, Google Scholar, Поиск по Людям). Система использует результаты стандартного ранжирования для оценки и ранжирования предварительно рассчитанных Resource Groups. Это не столько переранжирование существующих результатов, сколько генерация нового типа результата — агрегированного профиля сущности.
Входные данные:
Entity Query (имя, дополнительная информация).Profiles (для механизма обновления).Выходные данные:
Resource Groups, предложенные для ассоциации с сущностью.Profiles сущностей.YMYL-тематики, где авторитетность автора (E-E-A-T) имеет критическое значение.Entity Query), особенно если запрос направлен на создание или подтверждение профиля (например, автор подтверждает свои работы в Google Scholar).Profile Update).Correspondence Score между группой и профилем превышает установленный порог.Процесс А: Кластеризация ресурсов (Офлайн)
Resource Groups на основе выявленных ассоциаций. Каждая группа ассоциируется с именем собственным.Процесс Б: Ранжирование групп по запросу (Real-time или по требованию)
Entity Query (например, от автора, желающего создать профиль), включающий имя и, возможно, дополнительную информацию.Result List).Result List с ресурсами в предварительно созданных Resource Groups.Result List.Name Matching Score (сходство имени группы с именем в запросе).Resource Groups сортируются по рассчитанным оценкам.Процесс В: Автоматическое обновление профиля (Офлайн/Периодически)
Profile сущности.Resource Groups вычисляется Correspondence Score относительно профиля. Расчет учитывает совпадения, новые документы и ранее удаленные документы.Correspondence Score установленный порог.Resource Group добавляются в Profile.Патент явно указывает на использование следующих факторов для кластеризации и ассоциации:
title), место публикации (place of publication).documents referenced by the first documents), и документы, которые ссылаются на ресурс (documents that reference the first documents).proper names of authors), email адреса авторов (author email addresses), аффилиации авторов (author affiliations).Name Matching Score.Resource Group и Profile. Определяются переменные:
Пример формулы:
CS=C1X1−C2X2−C3X3 (где Ci — константы).
Это показывает, что совпадения (X1) увеличивают оценку, а ранее удаленные ресурсы (X2) сильно ее уменьшают.
AS=W1X4+W2X1−W3X2−W4(X3−W5X4) (где Wi — веса).
Resource Groups на основе множества сигналов, пытаясь воссоздать корпус работ конкретного автора.Result List) для валидации и ранжирования предварительно рассчитанных кластеров. Если кластер содержит много высокоранжирующихся документов по запросу имени автора, этот кластер считается релевантным.Profiles) с помощью Correspondence Score, но при этом учитывает историю взаимодействий. Ресурсы, которые автор ранее удалил из профиля (X2), имеют сильный негативный вес, что предотвращает повторное добавление неверного контента.Resource Clustering).Person, author, affiliation, email, sameAs (для связи с профилями в Knowledge Graph, соцсетях, ORCID). Это предоставляет системе четкие признаки для кластеризации.Correspondence Score (переменная X2) при будущих обновлениях.Resource Group.Correspondence Score), направлены на борьбу с этим.Этот патент подчеркивает стратегическую важность управления сущностями (Entity Management) как ключевого компонента SEO, особенно в контексте E-E-A-T. Google стремится понять, кто стоит за контентом, и использует сложные механизмы кластеризации для построения профилей авторов. Для SEO-специалистов это означает, что работа над авторитетностью автора должна включать не только создание качественного контента, но и обеспечение максимальной четкости и консистентности сигналов, позволяющих Google корректно ассоциировать этот контент с автором.
Сценарий: Разрешение неоднозначности авторов в YMYL-нише (Медицина)
Задача: Обеспечить корректную ассоциацию статей медицинского эксперта Dr. Maria Garcia, работающего в Cleveland Clinic, и отличить ее от другого автора Maria Garcia, работающего в сфере финансов.
Schema.org/author с указанием affiliation.Resource Groups. Группа 1 (Медицина) кластеризуется вокруг имени «Dr. Maria Garcia», аффилиации «Cleveland Clinic» и сети медицинских цитирований. Группа 2 (Финансы) кластеризуется вокруг других сигналов.Result List, который сильно пересекается с Группой 1. Эта группа получает высокий ранг и используется для формирования Knowledge Panel и ассоциации сигналов E-E-A-T с правильной сущностью.Как этот патент связан с E-E-A-T?
Напрямую. E-E-A-T во многом зависит от авторитетности автора контента. Чтобы оценить авторитетность, Google должен сначала точно определить, какой контент принадлежит этому автору. Этот патент описывает механизм, как Google решает задачу ассоциации контента с авторами (сущностями) и разрешения неоднозначности, формируя основу для последующей оценки E-E-A-T.
Какие сигналы наиболее важны для того, чтобы Google правильно связал контент с моим автором?
Патент выделяет несколько ключевых сигналов для кластеризации: консистентное написание имени автора, аффилиации (место работы/учебы), контактные данные (email). Также критически важна сеть цитирования — ссылки на другие работы автора и ссылки авторитетных источников на его работы. Консистентность этих сигналов является решающей.
Что такое Resource Group и чем он отличается от Profile?
Resource Group — это автоматически сгенерированный кластер документов, которые система считает связанными (например, принадлежащими одному автору). Это предположение системы. Profile — это подтвержденная коллекция документов, связанных с сущностью. Профиль может быть создан путем подтверждения одного или нескольких Resource Groups вручную автором или автоматически системой, если уверенность высока.
Как Google решает проблему авторов с одинаковыми именами?
Система использует контекстные сигналы для кластеризации. Если два автора имеют одинаковое имя, но разные аффилиации, разные email, работают в разных тематиках и имеют разные сети цитирования, система сформирует два отдельных Resource Groups. При поиске система выберет ту группу, которая лучше соответствует контексту запроса и результатам поиска.
Как работает механизм автоматического обновления профилей?
Система периодически пересчитывает кластеры (Resource Groups). Затем она вычисляет Correspondence Score между новыми кластерами и существующими профилями. Если оценка высока (много совпадений с текущим профилем и мало контента, который ранее был удален), система автоматически добавляет новый контент из кластера в профиль.
Что произойдет, если я вручную удалю неверно ассоциированную статью из своего профиля (например, в Google Scholar)?
Это действие является важным сигналом обратной связи. В формуле Correspondence Score есть переменная X2 (удаленные ресурсы), которая имеет сильный негативный вес. Это значительно снижает вероятность того, что система автоматически добавит эту статью или похожие статьи из того же кластера обратно в ваш профиль.
Применяется ли этот патент только к научным статьям и Google Scholar?
Нет. Хотя научные статьи являются основным примером в патенте, он определяет «ресурсы» очень широко: веб-страницы, новости, видео, изображения, а также контент из социальных сетей. Механизмы кластеризации и ассоциации могут применяться для построения профилей любых публичных личностей, экспертов или авторов в основном поиске и Knowledge Graph.
Как использование разметки Schema.org помогает этому процессу?
Разметка Schema.org (например, author, affiliation, sameAs) предоставляет системе четкие, структурированные данные о признаках, которые используются на этапе кластеризации (Feature Extraction). Это значительно упрощает системе задачу точного формирования Resource Groups и снижает вероятность ошибок при ассоциации контента.
Может ли этот механизм объяснить, почему мой контент не отображается в Knowledge Panel автора?
Да. Если ваш контент не был корректно кластеризован в Resource Group, связанный с автором, или если этот Resource Group не был ассоциирован с официальным Profile (который питает Knowledge Panel), контент не будет отображаться. Причиной могут быть неконсистентные сигналы авторства или недостаток авторитетных связей (цитирований).
Как система определяет, какой вариант имени использовать для кластера?
Система использует Name Matching Score и эвристики для анализа различных вариантов имен (например, с инициалами или полные имена), встречающихся в документах кластера. Она пытается найти наилучшее совпадение и может нормализовать различные варианты к одному каноническому имени, которое будет ассоциировано с Resource Group.

Персонализация
Семантика и интент
SERP

SERP
Семантика и интент
Knowledge Graph

SERP
Семантика и интент
EEAT и качество

Свежесть контента
EEAT и качество

Семантика и интент
Индексация
SERP

Ссылки
Поведенческие сигналы
EEAT и качество

Мультиязычность
Поведенческие сигналы
Персонализация

Семантика и интент
Поведенческие сигналы

Семантика и интент
Персонализация
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
SERP

Поведенческие сигналы
Семантика и интент
Структура сайта

Структура сайта
Техническое SEO
Индексация

Индексация
Ссылки
SERP

Ссылки
SERP
Поведенческие сигналы

EEAT и качество
SERP
Поведенческие сигналы
