Как Google объединяет качество и популярность авторов в единую оценку для фильтрации контента в поиске

Google использует систему машинного обучения для оценки авторов и аккаунтов на онлайн-платформах, объединяя сигналы качества (E-E-A-T) и популярности (взаимодействия пользователей) в единый показатель. Этот показатель используется для определения того, следует ли показывать контент от данного автора в ответ на запрос, причем порог фильтрации динамически повышается для YMYL-тем и трендовых запросов.

Описание

Какую задачу решает

Патент решает проблему эффективной оценки и фильтрации контента, публикуемого через аккаунты на онлайн-платформах (например, в социальных сетях, блогах, UGC-площадках). Традиционные подходы могут фокусироваться либо на качестве (рискуя упустить популярный контент), либо на популярности (рискуя продвигать низкокачественный, но вирусный контент). Изобретение направлено на создание единой метрики для оценки аккаунта автора/публикатора, которая одновременно учитывает оба аспекта, позволяя системе ограничивать распространение (restrict provisioning) контента от низкокачественных и/или непопулярных аккаунтов.

Что запатентовано

Запатентована система для обучения модели машинного обучения (например, регрессионной модели), которая прогнозирует Predicted User Account Measure — единую оценку для аккаунта пользователя. Ключевой особенностью является обучение модели с использованием функции потерь с несколькими целями (multi-objective loss function), которая оптимизируется одновременно по показателям качества (полученным от асессоров) и показателям популярности (полученным из исторических данных). Эта оценка затем используется для жесткой фильтрации контента при обработке поисковых запросов.

Как это работает

Система работает в три основных этапа:

Сбор данных для обучения: Для выборки аккаунтов собираются входные признаки (например, PageRank профиля, статус верификации). Одновременно генерируются метки (ground truth): Quality Measure (на основе оценок живых асессоров) и Popularity Measure (на основе исторических взаимодействий с аккаунтом).
Обучение модели: Модель обучается предсказывать единую оценку, используя функцию потерь, которая штрафует модель за отклонения как от метки качества, так и от метки популярности. Используется взвешивание (Weight) для балансировки этих двух целей, определяемое с помощью оптимизации (например, Pareto optimization).
Применение: Обученная модель используется для расчета Predicted User Account Measure для аккаунтов в офлайн-режиме. При получении запроса система определяет порог (Threshold), который может зависеть от типа запроса (например, его классификации или трендовости). Контент от аккаунтов, чья оценка не удовлетворяет порогу, ограничивается: он либо исключается из корпуса поиска, либо отфильтровывается из результатов.

Актуальность для SEO

Высокая. Оценка авторитетности авторов и источников (E-E-A-T) является краеугольным камнем современных алгоритмов Google. Этот патент описывает конкретный механизм для интеграции сигналов автора/аккаунта в процесс поиска и Дискавери, объединяя качество и популярность. Учитывая фокус на фильтрации контента на основе источника и динамические пороги для разных тем, этот механизм крайне актуален для SEO в 2025 году.

Важность для SEO

Патент имеет критическое значение (90/100) для SEO, особенно для контент-стратегий, связанных с построением авторского авторитета и продвижением в Google News/Discover. Он показывает, что Google может полностью исключить контент из выдачи, если оценка автора/аккаунта ниже динамического порога, независимо от релевантности самого контента. Это подчеркивает необходимость комплексной работы над профилем автора, сочетая экспертность (качество) с измеримой популярностью и вовлеченностью аудитории.

Детальный разбор

Термины и определения

Predicted User Account Measure (Прогнозируемая оценка аккаунта пользователя): Единая оценка, генерируемая обученной моделью для аккаунта пользователя. Отражает одновременно качество и популярность аккаунта.
Quality Measure (Показатель качества): Метка (ground truth) для обучения модели. Генерируется на основе дискретных оценок (discrete quality evaluations) от асессоров (Quality Evaluators или human reviewers), которые оценивают страницу аккаунта.
Popularity Measure (Показатель популярности): Метка (ground truth) для обучения модели. Генерируется на основе исторических данных (historical records) о количестве взаимодействий пользователей со страницей аккаунта (например, логарифм количества посещений).
Multi-Objective Loss (Функция потерь с несколькими целями): Функция потерь, используемая для обучения модели, которая рассчитывается как функция ошибок прогнозирования относительно и Quality Measure, и Popularity Measure.
Weight (Вес, λ): Коэффициент, используемый в функции потерь для балансировки между ошибкой качества и ошибкой популярности. Определяется с помощью оптимизации (например, Pareto optimization или black-box optimizer).
Online Platform (Онлайн-платформа): Система, позволяющая пользователям создавать аккаунты и публиковать контент (например, социальная сеть, микроблогинг, UGC-платформа).
Threshold (Порог): Значение, с которым сравнивается Predicted User Account Measure. Если оценка не удовлетворяет порогу, контент аккаунта ограничивается. Порог может быть динамическим и зависеть от свойств запроса.

Ключевые утверждения (Анализ Claims)

Анализ основан на Claims, представленных в заявке US20250190881A1.

Claim 1 (Независимый пункт): Описывает процесс использования обученной модели для принятия решений о показе контента.

Система идентифицирует аккаунт пользователя на платформе.
Определяются значения признаков (defined features) для этого аккаунта. Явно указано, что признаки включают характеристику, указывающую, верифицирован ли аккаунт (whether the user account is verified).
Эти значения обрабатываются для генерации predicted measure, которая отражает как качество, так и популярность аккаунта.
На основе этой predicted measure система определяет: (i) следует ли отображать (render) контент этого аккаунта в ответ на первый запрос, и (ii) следует ли отображать другой контент этого аккаунта в ответ на второй запрос.

Claim 2 (Зависимый от 1): Уточняет механизм применения оценки.

Predicted measure генерируется до получения запроса (офлайн). Определение того, следует ли отображать контент, включает решение об ограничении (restrict) контента на основе этой оценки и выполнение этого ограничения.

Claims 3 и 4 (Зависимые от 2): Детализируют способы ограничения контента.

Claim 3: Ограничение может включать предотвращение поиска (preventing searching) по контенту данного аккаунта в ответ на запрос. Это означает исключение контента из корпуса поиска.
Claim 4: Ограничение может включать фильтрацию (filtering) контента данного аккаунта из уже найденных результатов.

Claim 5 (Зависимый от 1): Вводит концепцию порога.

Определение того, следует ли отображать контент, включает сравнение predicted measure с порогом (threshold) и принятие решения на основе того, удовлетворяет ли оценка этому порогу.

Claims 6-9 (Зависимые от 5): Вводят динамическое определение порога.

Порог определяется на основе одного или нескольких свойств запроса (Claim 6). Эти свойства могут включать: основную классификацию запроса (primary classification) (Claim 7) и/или географический охват трендовости запроса (geographical extent of trending) (Claim 8).

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, используя данные, рассчитанные при индексировании, для влияния на отбор и ранжирование контента.

INDEXING – Индексирование и извлечение признаков

На этом этапе система собирает признаки, связанные с аккаунтами пользователей (авторами/публикаторами).
Используя обученную модель, система рассчитывает Predicted User Account Measure для аккаунтов в офлайн-режиме (как указано в Claim 2) и сохраняет эту оценку в индексе, ассоциируя ее с аккаунтом.

QUNDERSTANDING – Понимание Запросов

При обработке запроса система анализирует его свойства (классификация, трендовость). Эти данные используются Threshold Engine для определения динамического порога качества, необходимого для данного запроса.

RANKING – Ранжирование (Этап отбора кандидатов / Retrieval)

Механизм может применяться на самом раннем этапе ранжирования для ограничения корпуса поиска. Как описано в Claim 3, система может предотвратить поиск по контенту аккаунтов, чья Predicted User Account Measure не удовлетворяет порогу. Это сокращает объем данных для последующих этапов ранжирования.

RERANKING – Переранжирование / Фильтрация

Если механизм не применялся на этапе Retrieval, он может быть использован для фильтрации результатов. Как описано в Claim 4, система может удалить из набора кандидатов те результаты, которые исходят от аккаунтов с низкой оценкой.
Кроме того, Predicted User Account Measure может использоваться как сигнал для финального ранжирования и определения порядка отображения результатов.

Входные данные:

Значения признаков аккаунта (PageRank профиля, статус верификации, количество взаимодействий и т.д.).
Поисковый запрос и его свойства (классификация, трендовость).
Предварительно рассчитанные Predicted User Account Measures из индекса.

Выходные данные:

Отфильтрованный набор результатов поиска, из которого исключен контент низкокачественных/непопулярных аккаунтов.

На что влияет

Конкретные типы контента: В первую очередь влияет на контент, генерируемый пользователями на онлайн-платформах (посты в блогах, социальных сетях, новости от авторов, UGC).
Специфические запросы: Наибольшее влияние на запросы, где важна авторитетность источника. Система явно указывает на возможность установки более высоких порогов для запросов, классифицированных как «политические» (political) или «новости» (news), по сравнению со «спортивными» (sports) или «еда» (food). Также сильно влияет на трендовые запросы (trending).
Конкретные ниши или тематики: Критическое влияние на YMYL-тематики (здоровье, финансы, новости, политика), где требования к качеству и авторитетности источника повышены.

Когда применяется

Триггеры активации: Алгоритм активируется при обработке поискового запроса или при проактивном предложении контента (например, в лентах рекомендаций или push notification).
Пороговые значения: Применение зависит от сравнения Predicted User Account Measure с порогом. Порог является динамическим:
- Он повышается для чувствительных (YMYL) тематик (на основе классификации запроса).
- Он повышается для запросов с широким географическим охватом тренда (глобальные новости требуют более авторитетных источников, чем локальные события).

Пошаговый алгоритм

Процесс А: Офлайн-расчет оценок аккаунтов

Идентификация аккаунта: Система идентифицирует аккаунт пользователя на онлайн-платформе.
Сбор признаков: Определяются значения входных признаков для аккаунта (верификация, PageRank профиля, тональность контента, качество исходящих ссылок и т.д.).
Расчет оценки: Значения признаков обрабатываются с помощью обученной модели для генерации Predicted User Account Measure.
Индексирование: Оценка сохраняется в индексе и ассоциируется с аккаунтом. (Процесс может повторяться периодически, например, еженедельно).

Процесс Б: Обработка запроса в реальном времени

Получение запроса: Система получает запрос (от пользователя или идентифицирует трендовый запрос).
Анализ запроса: Определяются свойства запроса (например, классификация темы, географический охват тренда).
Определение порога: На основе свойств запроса определяется динамический Threshold.
Отбор контента (Вариант 1 — Ограничение корпуса): Система ограничивает корпус поиска только теми документами, авторы которых имеют Predicted User Account Measure, удовлетворяющую порогу. Затем выполняется поиск по ограниченному корпусу.
Отбор контента (Вариант 2 — Фильтрация): Система выполняет поиск по всему корпусу. Затем из полученных результатов удаляются те, авторы которых имеют оценку, не удовлетворяющую порогу.
Ранжирование и вывод: Оставшиеся результаты ранжируются (при этом Predicted User Account Measure может использоваться как один из сигналов ранжирования) и предоставляются пользователю.

Какие данные и как использует

Данные на входе

Патент явно перечисляет следующие типы данных, используемые в качестве входных признаков (Input Features) для модели:

Ссылочные факторы:
- Pagerank measure для страницы аккаунта (профиля).
- Количество ссылок на страницу аккаунта с внешних доменов (не принадлежащих самой платформе).
- Link quality measure, основанная на качестве контента по ссылкам, которые публикует данный аккаунт (исходящие ссылки).
Поведенческие/Популярность:
- Количество взаимодействий пользователей со страницей аккаунта (например, посещения).
Контентные факторы (Агрегированные):
- Sentiment measure (оценка тональности), основанная на анализе контента, генерируемого аккаунтом (используя sentiment models).
Факторы доверия (Entity/Author):
- Статус аккаунта, присвоенный платформой (например, «verified» или «not verified»). (Явно упомянуто в Claim 1).
Географические/Языковые факторы:
- Основной язык аккаунта (primary language). Упоминается возможность использования разных моделей для разных языков и регионов (locale).

Какие метрики используются и как они считаются

Патент фокусируется на метриках, используемых для обучения модели и ее применения.

Метрики для обучения (Ground Truth):

Quality Measure: Рассчитывается на основе оценок асессоров. Упоминаются методы агрегации: минимум всех оценок, вторая снизу оценка (next-to-minimum) или среднее значение.
Popularity Measure: Рассчитывается на основе количества взаимодействий. Пример формулы: большее из (a) фиксированного значения (например, 1) или (b) логарифма количества взаимодействий за период (например, 3 месяца).

Методы обучения и расчета:

Модель: Упоминается использование regression model (регрессионной модели), которая может включать унивариантные функции для каждого признака. Также упоминаются нейронные сети (feed forward neural network).
Multi-Objective Loss: Функция потерь рассчитывается как взвешенная сумма ошибок по качеству и популярности. Ошибки могут быть Mean Squared Error (MSE).
Формула: λ * MSE(Quality) + (1-λ) * MSE(Popularity), где λ (лямбда) — это Weight.
Оптимизация весов: Вес λ определяется с помощью black box optimization, в частности, упоминается Pareto optimization.

Метрики для применения:

Predicted User Account Measure: Выходное значение обученной модели.
Threshold: Динамический порог, определяемый на основе классификации запроса и/или его трендовости.

Выводы

Единая оценка автора, объединяющая качество и популярность: Google стремится создать единую метрику для оценки аккаунтов (авторов/публикаторов), которая одновременно учитывает и авторитетность/качество (связано с E-E-A-T), и популярность/вовлеченность. Модель обучается балансировать эти цели с помощью multi-objective loss function.
Оценка автора как жесткий фильтр (Gatekeeper): Predicted User Account Measure используется не просто как фактор ранжирования, а как жесткий фильтр. Если оценка аккаунта ниже порога, его контент может быть полностью исключен из выдачи — либо путем исключения из корпуса поиска (preventing searching), либо путем пост-фильтрации (filtering).
Динамические пороги и критичность YMYL: Патент подтверждает применение более строгих стандартов к чувствительным темам. Порог для отображения контента динамически повышается для запросов, классифицированных как «новости» или «политика», а также для глобально трендовых событий. Это требует значительно более высокого уровня авторитетности в YMYL-нишах.
Ключевые сигналы авторитетности аккаунта: Патент явно выделяет конкретные признаки, используемые для оценки аккаунта: статус верификации (Claim 1), PageRank профиля автора, внешние ссылки на профиль, качество исходящих ссылок автора и общая тональность (sentiment) его контента.
Обучение на основе оценок асессоров: Качество (Quality Measure) для обучения модели напрямую зависит от оценок живых асессоров, что подчеркивает важность соответствия критериям, изложенным в Google Quality Rater Guidelines (принципы E-E-A-T).

Практика

Best practices (это мы делаем)

Комплексное развитие авторитета автора (E-E-A-T + Популярность): Необходимо работать не только над экспертностью автора, но и над его измеримой популярностью. Поскольку модель ищет баланс (Quality AND Popularity), авторитетные эксперты должны также демонстрировать вовлеченность аудитории и наличие взаимодействий с их профилем/контентом.
Проработка страницы автора/профиля: Страница автора является ключевой единицей анализа. Необходимо работать над улучшением ее сигналов:
- Получение внешних авторитетных ссылок непосредственно на страницу автора (для повышения ее PageRank).
- Обеспечение положительных сигналов взаимодействия (Popularity) на этой странице.
Получение статуса верификации: Если контент публикуется на платформах, поддерживающих верификацию (социальные сети, авторитетные медиа), необходимо добиваться получения этого статуса, так как он явно указан как входной признак (Claim 1).
Мониторинг качества исходящих ссылок: Поскольку Link quality measure исходящих ссылок автора является признаком, необходимо тщательно следить за тем, на какие источники ссылается автор в своем контенте. Ссылки на авторитетные источники улучшают оценку аккаунта.
Работа над общей тональностью (Sentiment): Анализ тональности контента автора используется как входной сигнал. Следует поддерживать профессиональную и позитивную тональность, которая может положительно повлиять на Sentiment measure.

Worst practices (это делать не надо)

Изоляция экспертности от популярности: Создание высококачественного экспертного контента от имени автора, который не имеет никаких сигналов популярности, взаимодействий или внешних упоминаний. Такая стратегия рискованна, так как Predicted User Account Measure может оказаться ниже порога.
Накрутка популярности при низком качестве: Использование «серых» методов для имитации популярности (боты, накрутки взаимодействий) при отсутствии реального качества и экспертности. Модель обучена выявлять такие дисбалансы, опираясь на Quality Measure от асессоров.
Игнорирование профиля автора: Фокусировка только на качестве контента страницы и игнорирование сигналов, связанных с автором или аккаунтом публикации.
Публикация YMYL-контента без сильного авторитета: Попытки ранжироваться по чувствительным или трендовым запросам (новости, политика, здоровье) без наличия исключительно сильного профиля автора. Динамические пороги в этих нишах будут агрессивно отфильтровывать контент.

Стратегическое значение

Этот патент подтверждает стратегический приоритет Google на оценку источника контента (автора или аккаунта). Он демонстрирует механизм, позволяющий системе полностью блокировать распространение контента от источников, которые не соответствуют одновременно критериям качества и популярности. Для долгосрочной SEO-стратегии это означает, что инвестиции в развитие и продвижение реальных авторов и экспертов (Creator SEO) являются не просто желательными, а необходимыми для обеспечения видимости контента, особенно в конкурентных и YMYL-тематиках.

Практические примеры

Сценарий: Фильтрация контента по запросу о здоровье (YMYL)

Запрос: Пользователь ищет информацию о новом методе лечения (высокий YMYL-потенциал).
Анализ запроса: Система классифицирует запрос как медицинский.
Определение порога: Из-за YMYL-классификации система устанавливает высокий Threshold для Predicted User Account Measure.
Кандидаты:
- Результат А: Статья от известного врача с верифицированным аккаунтом, высоким PageRank профиля и значительной популярностью. Его оценка значительно выше порога.
- Результат Б: Статья на ту же тему от неизвестного блогера. Аккаунт не верифицирован, ссылок на профиль мало, популярность низкая. Его оценка ниже порога.
Фильтрация: Система исключает Результат Б из выдачи (либо не ищет его вообще, либо фильтрует после поиска), даже если текст статьи релевантен запросу.
Результат: Пользователь видит только контент от авторитетных источников (Результат А).

Вопросы и ответы

Как система определяет «Quality Measure» (Показатель качества) для обучения модели?

Согласно патенту, Quality Measure генерируется на основе оценок, полученных от живых асессоров (Quality Evaluators). Асессорам предоставляется страница аккаунта пользователя (например, профиль автора), и они выставляют оценку по заданной шкале. Затем эти оценки агрегируются (например, берется среднее или минимальное значение) для формирования итогового показателя качества, который используется как ground truth для обучения.

Что такое «Popularity Measure» (Показатель популярности) и как он рассчитывается?

Popularity Measure отражает уровень взаимодействия пользователей с аккаунтом. Он рассчитывается на основе исторических данных, таких как количество посещений страницы аккаунта за определенный период (например, 3 месяца). В патенте приводится пример расчета: логарифм от количества взаимодействий. Эта метрика используется как вторая цель (ground truth) при обучении модели.

Что означает «Multi-Objective Loss Function» в контексте этого патента?

Это ключевой элемент обучения модели. Вместо оптимизации только по одной цели (например, только качеству), модель обучается минимизировать ошибки прогнозирования одновременно по двум целям: качеству и популярности. Функция потерь рассчитывается как взвешенная сумма ошибок (например, MSE) для обеих метрик. Это позволяет создать единую оценку (Predicted User Account Measure), отражающую баланс между этими двумя аспектами.

Является ли порог (Threshold) для фильтрации контента одинаковым для всех запросов?

Нет, порог является динамическим. Патент явно указывает (Claims 6-9), что порог определяется на основе свойств запроса. Например, для чувствительных тем («политика», «новости» — YMYL) порог будет выше, чем для развлекательных («спорт», «еда»). Также порог может повышаться для запросов, которые имеют широкий географический охват тренда (глобальные события).

Как именно система использует оценку аккаунта для ограничения контента?

Патент описывает два основных способа (Claims 3 и 4). Первый — это ограничение корпуса поиска (preventing searching): система заранее исключает контент от аккаунтов с низкой оценкой из поиска по данному запросу. Второй — это пост-фильтрация (filtering): система ищет по всему контенту, но затем удаляет из результатов те документы, авторы которых не удовлетворяют порогу.

Какие конкретные признаки используются для расчета оценки аккаунта?

Патент перечисляет несколько примеров входных признаков: PageRank страницы аккаунта, количество внешних ссылок на аккаунт, качество исходящих ссылок (Link quality measure), которые публикует аккаунт, количество взаимодействий с аккаунтом, общая тональность (sentiment measure) контента аккаунта и статус верификации аккаунта (явно упомянут в Claim 1).

Означает ли этот патент, что экспертный контент от непопулярных авторов не будет ранжироваться?

Существует такой риск. Поскольку модель оптимизируется одновременно по качеству и популярности, аккаунт с высоким качеством, но очень низкой популярностью может получить итоговую Predicted User Account Measure ниже порога, особенно в YMYL-тематиках. Это подчеркивает необходимость для экспертов работать и над своей видимостью и вовлеченностью аудитории.

Как этот патент связан с E-E-A-T?

Патент напрямую связан с оценкой Авторитетности и Доверия в рамках E-E-A-T. Quality Measure, основанная на оценках асессоров, по сути является численной интерпретацией E-E-A-T автора. Патент описывает технический механизм того, как эти сигналы, дополненные данными о популярности, используются для фильтрации контента в поиске.

Влияет ли этот механизм только на Поиск или также на Google News и Discover?

Он влияет на все эти поверхности. Патент описывает применение как в ответ на запрос пользователя (Поиск), так и для проактивного предложения контента, например, через push notification на основе трендовых тем (что характерно для Google News и Discover). Учитывая фокус на оценке авторов и аккаунтов, влияние на News и Discover может быть значительным.

Рассчитывается ли оценка аккаунта в реальном времени при запросе?

Нет. Согласно патенту (Claim 2), Predicted User Account Measure рассчитывается заранее (офлайн) и сохраняется в индексе. При обработке запроса система использует эту предварительно рассчитанную оценку и сравнивает ее с динамически определяемым порогом, что обеспечивает быстродействие системы.