Google использует систему для автоматического определения экспертности авторов (Identities) в конкретных темах (Topics). Система анализирует корпус документов, оценивая, насколько сильно автор связан с документом (Identity Score) и насколько документ релевантен теме (Topic Score). Эти оценки перемножаются и суммируются по всем документам, формируя итоговый рейтинг экспертности автора в данной области.
Описание
Какую задачу решает
Патент решает задачу автоматической и объективной идентификации экспертов и ранжирования их уровня знаний в конкретных темах. Он предлагает метод, основанный на анализе фактического вклада авторов в корпус документов, устраняя необходимость полагаться на субъективные или устаревшие профили навыков. Система количественно оценивает экспертизу, учитывая как количество релевантных документов, так и качество вклада автора (например, авторство ценится выше упоминания).
Что запатентовано
Запатентована система и метод для расчета оценок экспертности. Система идентифицирует Identities (экспертов) и Topics (темы) в корпусе документов. Для каждого документа вычисляются две ключевые метрики: Identity Score (степень связи эксперта с документом) и Topic Score (релевантность документа теме). Эти оценки агрегируются по всему корпусу для создания Composite Score, который определяет итоговый рейтинг экспертности конкретной личности в конкретной теме.
Как это работает
Механизм работает в несколько этапов:
- Идентификация: Система определяет Identities (включая псевдонимы, такие как имена и email) и Topics (например, с помощью анализа n-грамм и IDF).
- Оценка Документа: Для каждого документа вычисляется Identity Score (Wi), отражающий уровень вовлеченности автора (авторство, редактирование, упоминание), и Topic Score (Wt), отражающий центральность темы для документа (упоминание в заголовке, URL, тексте).
- Агрегированная Оценка: Вычисляется Aggregate Score для документа путем перемножения Wi и Wt ().
- Композитная Оценка: Composite Score (общий рейтинг экспертности) вычисляется путем суммирования Aggregate Scores по всем документам корпуса для данной пары Автор-Тема.
Актуальность для SEO
Критически высокая. Несмотря на дату подачи (2007 г.), этот патент описывает фундаментальный механизм для алгоритмической оценки Экспертизы (Expertise) в рамках E-E-A-T. Автоматическое определение авторитетности авторов на основе их работ является центральным элементом современных поисковых систем, особенно для ранжирования контента в YMYL-нишах.
Важность для SEO
Патент имеет критическое значение (9/10) для SEO-стратегии. Он предоставляет конкретную математическую модель того, как Google может измерять и ранжировать экспертизу авторов. Это напрямую влияет на контент-стратегию, подчеркивая необходимость создания четких авторских профилей, ясной атрибуции контента и последовательного создания высококачественных публикаций по конкретным темам для повышения авторитетности и видимости в поиске.
Детальный разбор
Термины и определения
- Identity (Идентичность / Автор / Эксперт, i)
- Сущность (человек или организация), которая может обладать экспертизой. Каждая Identity может иметь несколько Aliases.
- Topic (Тема, t)
- Слово или фраза (N-грамма), описывающая релевантную информацию о документе и помогающая отличить его от других. Область экспертизы.
- Identity Score (Оценка Идентичности, )
- Метрика, определяющая степень связи между Identity и конкретным документом. Основана на характере участия (автор, редактор, упоминание), расположении и частоте вхождений.
- Topic Score (Оценка Темы, )
- Метрика, определяющая степень релевантности конкретного документа определенной Topic. Основана на расположении (заголовок, URL, аннотация, текст) и частоте вхождений темы.
- Aggregate Score (Агрегированная оценка, )
- Оценка связи между Identity и Topic на уровне одного документа. Вычисляется как произведение Identity Score и Topic Score ().
- Composite Score (Композитная оценка, )
- Итоговая оценка экспертизы Identity в Topic. Вычисляется как сумма Aggregate Scores по всем документам корпуса.
- Alias (Псевдоним)
- Различные способы обращения к Identity (имя, email, логин, никнейм).
- IDF (Inverse Document Frequency) (Обратная частота документа)
- Статистическая мера, используемая для автоматического выявления потенциальных Topics. Термины с высоким IDF считаются более описательными.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной процесс анализа корпуса и расчета экспертизы (офлайн).
- Идентификация наборов Identities и Topics.
- Обработка каждого документа в корпусе:
- Идентификация вхождений Identities и Topics.
- Определение Identity Score (Wi) для каждой Identity (степень релевантности между Identity и документом).
- Определение Topic Score (Wt) для каждой Topic (степень релевантности между Topic и документом).
- Идентификация комбинаций (пар) Identity-Topic.
- Определение Aggregate Score для документа на основе Wi и Wt для каждой комбинации.
- Агрегация Aggregate Scores по всем документам для определения итогового Composite Score для каждой комбинации Identity-Topic.
Claim 3, 4, 5 (Зависимые): Детализируют расчет Identity Score (Wi).
Wi определяется на основе «признаков ссылки» (features of a reference) на Identity. Эти признаки включают расположение ссылки в документе (например, метаданные автора, тело текста), типографские свойства и частоту ссылок.
Claim 6, 7 (Зависимые): Детализируют расчет Topic Score (Wt).
Wt определяется на основе «признаков вхождения» (features of occurrence) Topic. Эти признаки включают расположение вхождения (например, заголовок, URL) и типографские свойства.
Claim 40 (Зависимый от 1): Ключевое уточнение механизма расчета.
Aggregate Score вычисляется путем перемножения Identity Score и Topic Score. Это устанавливает мультипликативную модель оценки.
Claim 8 и 11 (Независимые пункты): Описывают процесс ответа на запрос (онлайн).
- Claim 8: Если запрос – это Identity, система извлекает связанные Topics и ранжирует их по Composite Score (поиск областей экспертизы человека).
- Claim 11: Если запрос – это Topic, система извлекает связанные Identities и ранжирует их по Composite Score (поиск экспертов по теме).
Где и как применяется
Изобретение охватывает процессы как на этапе индексирования (офлайн-анализ), так и на этапе обработки запросов (онлайн-использование).
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Здесь происходит вся аналитическая работа:
- Распознавание Identities (и их псевдонимов) и Topics (используя IDF).
- Анализ документов: извлечение признаков (местоположение упоминаний, метаданные авторства, история правок).
- Вычисление Identity Scores (Wi) и Topic Scores (Wt) для каждого документа.
- Вычисление и агрегация Composite Scores.
- Результаты (рейтинги экспертизы) сохраняются для последующего использования (например, как аннотации сущностей в Knowledge Graph или отдельном индексе экспертов).
QUNDERSTANDING – Понимание Запросов
Система классифицирует запрос, определяя, соответствует ли он известной Identity или Topic, чтобы активировать поиск по базе экспертизы.
RANKING – Ранжирование / RERANKING – Переранжирование
Рассчитанные Composite Scores могут использоваться как мощный сигнал ранжирования (реализация E-E-A-T). Если для запроса важна экспертность (например, YMYL), система может повышать контент от авторов с высоким Composite Score по релевантной теме.
На что влияет
- Конкретные ниши или тематики: Критически важно в YMYL-тематиках (медицина, финансы, право), а также в академических и технических областях, где подтвержденная экспертиза автора является ключевым сигналом качества.
- Типы контента: Влияет на контент, предполагающий наличие автора-эксперта: статьи, исследования, лонгриды, аналитические обзоры.
- Специфические запросы: Информационные запросы, направленные на получение экспертного мнения или глубоких знаний, а также запросы по поиску экспертов.
Когда применяется
- Временные рамки: Расчет Composite Scores происходит офлайн во время индексирования и обновляется по мере изменения корпуса документов. Использование оценок происходит в реальном времени при обработке запросов.
- Условия применения: Применяется, когда система может идентифицировать авторов (Identities) и связать их с контентом. Используется как сигнал ранжирования, когда алгоритмы определяют важность экспертности для запроса.
Пошаговый алгоритм
Фаза А: Подготовка (Индексирование)
- Распознавание Идентичностей: Сбор данных из репозиториев. Идентификация всех псевдонимов (Aliases) для каждой Identity.
- Распознавание Тем: Анализ корпуса документов. Выделение N-грамм и расчет IDF. Выбор терминов с высокими показателями IDF в качестве Topics.
Фаза Б: Анализ Документа (Индексирование)
- Идентификация и Оценка Идентичностей (Wi): Поиск псевдонимов в документе (текст, метаданные автора, история изменений). Расчет Identity Score (Wi) на основе признаков вхождения. (Например, авторство оценивается выше, чем редактирование или упоминание).
- Идентификация и Оценка Тем (Wt): Поиск Topics в документе (текст, заголовок, URL). Расчет Topic Score (Wt) на основе признаков вхождения. (Например, вхождение в заголовок оценивается выше, чем в тексте).
- Расчет Агрегированной Оценки: Для каждой пары (Identity i, Topic t) в документе вычисляется Aggregate Score по формуле: .
Фаза В: Агрегация (Индексирование)
- Расчет Composite Score: Для каждой пары (Identity i, Topic t) суммируются Aggregate Scores по всем документам корпуса: .
- Хранение: Сохранение Composite Scores в базе данных ассоциаций.
Фаза Г: Поиск (Во время запроса)
- Получение и Классификация Запроса: Определение, является ли запрос Topic или Identity.
- Поиск и Ранжирование: Извлечение связанных сущностей (Авторов для Темы или Тем для Автора) и их ранжирование по убыванию Composite Score.
Какие данные и как использует
Данные на входе
Система активно использует следующие типы данных для расчета оценок:
- Контентные факторы: Заголовок (Title), основной текст (Body), аннотация (Abstract). Вхождения Topics и Identities в заголовках и аннотациях имеют больший вес.
- Технические факторы:
- Метаданные документа: Поля автора (Author), редактора (Editor). Указание Identity как автора дает наивысший вес для Wi.
- Идентификатор расположения (URL): Вхождение Topic в URL учитывается при расчете Wt.
- Структурные и Типографские факторы: Местоположение (location) текста в документе и типографическое форматирование (typographical properties) используются для оценки Wi и Wt.
- Временные факторы: История редактирования и ревизий (Revision history). Используется для расчета Wi на основе количества и размера внесенных изменений.
- Данные о Личностях: Данные из справочников или баз данных, включая псевдонимы (Aliases): полное имя, email, логин, никнейм.
Какие метрики используются и как они считаются
- IDF (Inverse Document Frequency): Используется для определения значимости термина и его выбора в качестве Topic.
- Identity Score (Wi): Рассчитывается путем взвешивания и суммирования вхождений Identity на основе их признаков. Патент приводит иллюстративные примеры весов:
- Метаданные автора: 1.0
- Упоминание в теле рядом с заголовком: 0.6
- Упоминание в теле: 0.25
- История ревизий: вес зависит от количества и размера правок.
- Topic Score (Wt): Рассчитывается путем взвешивания и суммирования вхождений Topic. Иллюстративные примеры весов из патента:
- Заголовок/Метаданные: 1.0
- URL: 0.5
- Тело документа: 0.25
- Aggregate Score: Мультипликативная модель для оценки на уровне документа. Формула: .
- Composite Score: Суммарная оценка экспертности по всему корпусу. Формула: .
Выводы
- Алгоритмическая основа E-E-A-T (Expertise): Патент предоставляет конкретный механизм для количественной оценки экспертизы автора в определенной теме. Composite Score можно рассматривать как измеримую метрику компонента «Expertise» в E-E-A-T.
- Мультипликативная модель (Wi * Wt): Использование умножения критически важно. Высокий рейтинг экспертности требует ОБОИХ компонентов: сильной связи автора с документом (высокий Wi) И высокой релевантности документа теме (высокий Wt). Авторство общей статьи (низкий Wt) или простое упоминание в профильной статье (низкий Wi) дадут низкий результат.
- Иерархия вклада и важность местоположения: Система четко разграничивает типы вклада. Авторство в метаданных имеет наивысший вес. Аналогично, для тем критично расположение в заголовках и URL.
- Экспертиза накапливается через контент: Composite Score является суммой, поэтому для демонстрации высокой экспертизы необходим корпус работ. Чем больше документов связывают Identity с Topic с высокими оценками, тем выше итоговый рейтинг.
- Резолюция сущностей (Aliases): Способность системы объединять различные псевдонимы (имя, email, логин) в единую Identity критически важна для создания полного профиля экспертизы человека.
- Объективность и масштабируемость: Экспертиза выводится автоматически из анализа документов (с использованием IDF для определения тем), что делает систему масштабируемой и менее зависимой от ручной разметки.
Практика
Best practices (это мы делаем)
- Максимизация Identity Score (Wi) через явное авторство: Всегда четко указывайте авторов контента, особенно в YMYL-тематиках. Используйте микроразметку Schema.org (author) и видимые блоки авторства. Указание авторства в метаданных (или эквивалентных зонах) дает наивысший балл для Wi.
- Максимизация Topic Score (Wt) через оптимизацию ключевых зон: Убедитесь, что основная тема (Topic) четко отражена в Title, H1, аннотации и URL. Согласно патенту, эти зоны имеют значительно больший вес при расчете Wt.
- Построение Topical Authority через экспертов: Развивайте конкретных авторов в узких темах. Автор должен последовательно создавать высококачественный, сфокусированный контент по своей специализации. Это увеличивает количество документов с высокими Aggregate Scores, тем самым повышая итоговый Composite Score.
- Консистентная идентификация авторов (Aliases): Используйте единое написание имени автора и связывайте его профили (биография на сайте, соцсети) с помощью разметки sameAs. Это упрощает для Google процесс резолюции сущности и объединения псевдонимов в единую Identity.
- Учет обновлений контента (Revision History): Патент упоминает использование истории ревизий для расчета Wi. Регулярное обновление и редактирование контента экспертом может положительно влиять на его оценку экспертизы.
Worst practices (это делать не надо)
- Анонимный или слабо атрибутированный контент: Публикация контента без указания автора или под общим именем («Администратор») не позволяет рассчитать Wi (Wi≈0) и не способствует накоплению сигналов экспертизы.
- Поверхностный или обобщенный контент: Создание статей, затрагивающих множество тем без глубокого фокуса, приводит к низкому Wt для целевой темы, что минимизирует вклад в Composite Score из-за мультипликативной модели.
- Изолированные упоминания без авторства: Полагаться на то, что простое упоминание имени эксперта в статье значительно повысит его экспертность. Вес таких упоминаний значительно ниже, чем у авторства или редактирования.
- Распыление фокуса авторов: Если эксперт пишет на слишком много не связанных между собой тем, это может помешать достижению высокого Composite Score в приоритетных областях.
Стратегическое значение
Патент подтверждает стратегический приоритет Google на оценку реальной экспертизы авторов как ключевого фактора ранжирования. Он демонстрирует, что E-E-A-T имеет под собой алгоритмическую основу. Долгосрочная SEO-стратегия должна фокусироваться не только на качестве контента, но и на развитии и правильной презентации профиля экспертов, создающих этот контент (Author SEO). Построение авторитета автора (Identity) становится центральной задачей для успеха в авторитетных нишах.
Практические примеры
Сценарий: Построение экспертности финансового аналитика
Цель: Добиться высокого Composite Score для аналитика Джона Смита (Identity) по теме «Инвестиции в ETF» (Topic).
Стратегия А (Эффективная, основанная на патенте):
- Действие: Публикация 10 глубоких аналитических статей. Джон Смит указан как единственный автор в метаданных и Schema.org.
- Расчет (условный): Wi = 1.0 (за авторство).
- Действие: Каждая статья четко сфокусирована на «Инвестициях в ETF», термин присутствует в Title и URL.
- Расчет (условный): Wt = 1.5 (за фокус в Title (1.0) + URL (0.5)).
- Результат: Aggregate Score за статью = 1.0 * 1.5 = 1.5. Composite Score = 10 * 1.5 = 15.0.
Стратегия Б (Неэффективная):
- Действие: Публикация 10 общих статей о финансах, где Джон Смит упоминается в тексте как один из сотрудников.
- Расчет (условный): Wi = 0.25 (за упоминание в теле).
- Действие: Статьи обобщенные, «Инвестиции в ETF» упоминаются мимоходом в тексте.
- Расчет (условный): Wt = 0.25 (за упоминание в теле).
- Результат: Aggregate Score за статью = 0.25 * 0.25 = 0.0625. Composite Score = 10 * 0.0625 = 0.625.
Вывод: Стратегия А значительно эффективнее для построения измеримой экспертности согласно модели патента.
Вопросы и ответы
Как этот патент связан с E-E-A-T?
Этот патент напрямую связан с компонентом «Expertise» (Экспертиза). Он описывает конкретный алгоритмический и масштабируемый метод для количественного измерения того, насколько автор (Identity) является экспертом в определенной теме (Topic), основываясь на его публикациях. Composite Score можно рассматривать как программную оценку уровня экспертизы автора.
Что важнее: Identity Score (Wi) или Topic Score (Wt)?
Оба критически важны из-за мультипликативной модели (). Если один из множителей близок к нулю (например, автор написал статью не по теме (низкий Wt), или эксперт лишь упомянут в профильной статье (низкий Wi)), итоговый вклад в рейтинг экспертности будет минимальным. Необходимо максимизировать оба показателя.
Как рассчитывается Identity Score (Wi) и что дает наибольший вес?
Identity Score (Wi) определяет связь автора с документом. Он рассчитывается на основе признаков упоминания. Наибольший вес дает указание в метаданных автора (Author field). Также учитывается история редактирования (количество и размер правок). Упоминания в теле документа имеют наименьший вес.
Как рассчитывается Topic Score (Wt) и что дает наибольший вес?
Topic Score (Wt) определяет релевантность документа теме. Наибольший вес имеют упоминания темы в заголовке (Title) и метаданных. Упоминания в URL также имеют значительный вес, превышающий вес упоминаний в основном тексте. Также учитываются частота и типографическое форматирование.
Как система справляется с разными написаниями имени автора или псевдонимами?
Система использует концепцию Aliases (псевдонимов). Она идентифицирует различные формы обращения к Личности (имя, email, имя пользователя, никнейм) и объединяет их в единый профиль (Identity). Это позволяет корректно суммировать экспертность, накопленную под разными идентификаторами.
Как система определяет Темы (Topics) для анализа?
Темы определяются автоматически путем анализа корпуса документов. Система выделяет N-граммы (слова и фразы) и рассчитывает для них IDF (Обратную частоту документа). Термины, которые являются достаточно описательными (хорошо характеризуют и различают документы), выбираются в качестве Topics.
Влияет ли обновление или редактирование контента на оценку экспертности?
Да. Патент явно упоминает использование истории ревизий (revision history) при расчете Identity Score. Участие в редактировании документа учитывается, и оценка может зависеть от количества или размера внесенных изменений. Это подчеркивает ценность поддержания актуальности контента экспертами.
Что лучше для демонстрации экспертизы: один большой документ или много небольших?
Важен баланс. Composite Score — это сумма оценок по всем документам, поэтому количество важно. Однако каждый документ должен иметь высокие Identity Score и Topic Score. Много сфокусированных документов с четким авторством увеличат Composite Score эффективнее, чем множество поверхностных статей.
Стоит ли использовать анонимных авторов или общее имя (например, «Редакция»)?
С точки зрения построения экспертности, это неэффективно. Если Identity не может быть четко идентифицирована и связана с документом, Identity Score (Wi) будет низким. Это не позволит накапливать Composite Score и сигнализировать об экспертизе поисковой системе.
Может ли этот механизм применяться к организациям, а не только к людям?
Да. Термин Identity определяется как сущность, которая может включать индивидуумов или организации. Механизм может аналогичным образом рассчитывать экспертизу бренда или компании на основе документов, которые они публикуют или в создании которых участвуют.