Как Google формирует и ранжирует персонализированные потоки контента (например, Google Discover) в реальном времени

Анализ патента Google, описывающего систему генерации персонализированных потоков контента. Система моделирует интересы пользователя на основе его активности в разных сервисах (поиск, видео, социальные сети), индексирует свежий контент в реальном времени и ранжирует его, используя комбинацию глобальной популярности (Global Score) и персональной релевантности (User Score), применяя динамические пороги качества.

Описание

Какую задачу решает

Патент решает проблему информационной перегрузки и сложности обнаружения нового, свежего и релевантного контента в интернете. Цель системы — автоматически генерировать персонализированный поток контента (stream of content) в реальном времени, агрегируя и ранжируя данные из heterogeneous data sources (разнородных источников). Это позволяет пользователям оставаться в курсе интересующих тем без необходимости ручного поиска или управления подписками.

Что запатентовано

Запатентована система и метод для оценки (scoring) и генерации персонализированного потока контента. Ядром изобретения является механизм многоступенчатой оценки, который использует модель интересов пользователя (model), построенную на его кросс-платформенной активности. Система сочетает глобальную популярность контента (Global Score), его персональную релевантность (User Score) и свежесть (используя Real-time index), а также применяет динамические пороги качества для контроля финального потока.

Как это работает

Система функционирует следующим образом:

Моделирование пользователя: Система анализирует активность пользователя (поиск, просмотры, социальные взаимодействия) из разных источников (при условии согласия) и строит модель его интересов.
Индексирование в реальном времени: Свежий контент непрерывно собирается и помещается во временный Real-time index.
Глобальная оценка: Контент получает Global Score, отражающий его популярность и важность, который затем нормализуется.
Персонализированная оценка: При запросе потока система рассчитывает User Score, сравнивая контент с моделью пользователя и учитывая контекст (время, местоположение).
Применение порогов (Thresholds): Контент включается в поток, только если его оценки превышают динамические пороги, зависящие от тематики, объема и качества доступного контента по этой теме.

Актуальность для SEO

Высокая. Описанные механизмы лежат в основе современных рекомендательных систем Google, в частности Google Discover (ранее Google Feed). Генерация персонализированных потоков на основе интересов, а не явных запросов, является ключевым направлением развития дистрибуции контента и крайне актуальна в 2025 году.

Важность для SEO

Патент имеет высокое значение (7.5/10) для оптимизации под рекомендательные системы (Google Discover), но минимальное влияние на традиционное SEO (ранжирование по запросу). Он раскрывает механизмы «беспоискового» трафика. Для видимости в таких потоках критически важны свежесть контента (recency), его виральность или резкий рост популярности (Burstiness), авторитетность источника, а также четкое соответствие интересам пользователя и сущностям (Entities).

Детальный разбор

Термины и определения

Burstiness (Всплеск популярности): Метрика, отражающая резкое увеличение популярности элемента контента в глобальном масштабе.
Collaborative Filtering Engine (Механизм коллаборативной фильтрации): Компонент, генерирующий кандидатов на основе социальной релевантности (например, контент, понравившийся друзьям пользователя или похожим пользователям).
Geo-burstiness (Географический всплеск популярности): Метрика, отражающая резкое увеличение популярности элемента контента в определенной географической области.
Global Score (Глобальная оценка): Независимая от пользователя оценка популярности или важности контента. Включает First Global Score (популярность внутри исходного потока) и Second Global Score (нормализованная оценка по всем потокам). Учитывает качество источника и общую популярность (клики, тренды).
Heterogeneous Data Sources (Гетерогенные источники данных): Разнообразные источники данных для моделирования интересов пользователя: история поиска, развлекательные сервисы (новости, видео, блоги), социальная активность (email, профили, социальный граф) и сторонние сайты.
Mixer (Смеситель): Центральный компонент, который получает кандидатов, сравнивает их с моделью пользователя, рассчитывает оценки и генерирует финальный поток контента.
Model (Модель пользователя): Представление интересов пользователя, сгенерированное на основе логов его активности и явных предпочтений. Используется для прогнозирования релевантности контента.
Real-time Index (Индекс реального времени): Хранилище свежего (fresh) контента, который хранится ограниченное время (например, 15 минут или два часа) и быстро обновляется.
Threshold (Порог): Динамическое пороговое значение, которое должна превысить оценка контента для включения в поток. Пороги зависят от объема и качества доступного контента по конкретной теме.
User Score (Пользовательская оценка): Оценка для пары (пользователь, элемент контента), рассчитываемая на основе модели пользователя. Оценивает вероятность того, что элемент появится в потоке пользователя.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод оценки и выбора контента для потока.

Генерация First Global Score для контента из гетерогенных источников. Эта оценка не зависит от пользователя и указывает на популярность/важность контента внутри исходного потока (source stream).
Генерация Second Global Score путем нормализации первой глобальной оценки между разными потоками.
Определение первого пользователя-кандидата для контента на основе Second Global Score И путем запроса к социальному графу (social graph) с использованием метаданных контента.
Вычисление First User Score для пары пользователь/контент на основе модели (model). Эта оценка определяет вероятность появления контента в потоке пользователя.
Определение, удовлетворяется ли Threshold (порог). Порог основан на объеме и качестве других элементов контента по той же теме.
Принятие решения о показе контента в потоке пользователя на основе First User Score И выполнения условия Threshold.

Ядро изобретения — это многоступенчатое ранжирование, которое требует комбинации глобальной популярности, социальной связи, персонализированной релевантности И преодоления динамического порога, зависящего от конкуренции контента по теме.

Claim 2 (Зависимый): Дополняет Claim 1, описывая определение второго пользователя-кандидата на основе Second Global Score и социальной связи (social connection) этого пользователя с контентом.

Claim 5 и 6 (Зависимые): Уточняют использование коллаборативной фильтрации: система может включать контент из потоков других связанных пользователей, взвешивая его на основе силы взаимодействий между пользователями.

Где и как применяется

Патент описывает инфраструктуру для систем персонализированных рекомендаций контента (например, Google Discover), а не традиционного веб-поиска.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка:

Fetching Unit собирает свежий контент и помещает его в Real-time index.
Из контента извлекаются признаки (сущности, тематика).
Global Scorer рассчитывает независимые от пользователя оценки популярности (Global Scores), включая метрики Burstiness и Geo-burstiness.

QUNDERSTANDING – Понимание Запросов (в данном случае, Понимание Пользователя)
Model Generation Engine анализирует логи активности пользователя из Heterogeneous Data Sources для построения и обновления модели интересов пользователя (User Model). Это формирует понимание того, что интересует пользователя.

RANKING / RERANKING – Ранжирование и Переранжирование
Это основной этап работы системы, выполняемый компонентом Mixer в момент запроса потока.

Отбор кандидатов: Query Generator формирует запросы к индексам (включая Real-time Index и Social Graph) на основе модели пользователя и контекста (время, местоположение).
Ранжирование: User Scorer рассчитывает User Score для каждого кандидата.
Фильтрация (Reranking): Применяются динамические Thresholds для контроля качества и объема. Контент, не прошедший порог по теме, отбрасывается.
Финальная сборка: Final Scorer формирует итоговый поток.

Входные данные:

Модель пользователя (User Model).
Свежий контент из Real-time Index и основных индексов.
Данные из Social Graph.
Предварительно рассчитанные Global Scores и метрики Burstiness.
Контекстные сигналы (местоположение, время).

Выходные данные:

Персонализированный, отсортированный поток контента (Stream of Content).

На что влияет

Типы контента: Влияет на все типы контента в потоке: новости, статьи, видео, посты в блогах. Особенно сильно влияет на свежий и трендовый контент.
Специфические запросы: Применяется для «беззапросного» поиска (Discovery), основанного на интересах, а не на явных запросах.
Географические факторы: Явно учитываются через контекст и метрики типа Geo-burstiness и local_score.

Когда применяется

Условия работы: Алгоритм активируется, когда пользователь загружает или запрашивает персонализированный поток контента. Для полноценной персонализации требуется согласие пользователя на сбор данных.
Триггеры и пороги: Включение элемента контента происходит, если он одновременно является свежим, имеет достаточный Global Score, высокий User Score и преодолевает динамический Threshold для данной темы.

Пошаговый алгоритм

Процесс А: Фоновые процессы (Постоянно/Периодически)

Сбор данных о пользователе: Logging Unit собирает данные об активности пользователя из гетерогенных источников (с согласия пользователя).
Обновление модели: Model Generation Engine обновляет модель интересов пользователя.
Сбор свежего контента: Fetching Unit собирает новый контент и помещает его в Real-time Index.
Глобальное ранжирование: Global Scorer рассчитывает и нормализует Global Score, а также метрики Burstiness.
Пересчет порогов: Система периодически (например, еженощно) пересчитывает динамические Thresholds для разных тем на основе дневной активности.

Процесс Б: Генерация потока (В реальном времени)

Получение запроса и контекста: Система получает запрос на генерацию потока и определяет контекст (местоположение, время).
Генерация запросов кандидатов: Query Generator (внутри Mixer) формирует запросы на основе модели пользователя. Также формируются запросы к Social Graph.
Получение кандидатов: Система получает кандидатов из индексов и от Collaborative Filtering Engine.
Пользовательское ранжирование: User Scorer рассчитывает User Score для каждой пары (пользователь, контент), оценивая вероятность интереса (Pr(item|user)).
Применение порогов: Система проверяет, преодолевает ли контент динамические Thresholds, установленные для данной темы.
Финальное ранжирование: Final Scorer генерирует упорядоченный поток из кандидатов, прошедших пороги.
Генерация объяснений: Entity Annotator генерирует объяснения для показанных элементов (например, «Потому что вы интересовались X»).
Сбор обратной связи: Система получает реакции пользователя для обновления модели.

Какие данные и как использует

Данные на входе

Система использует широкий спектр данных (при условии согласия пользователя):

Поведенческие факторы: История поиска (web, video, news, maps), клики (включая long clicks), история просмотров (например, YouTube), взаимодействие с email, подписки (блоги, гаджеты), социальные взаимодействия (комментарии, репосты).
Временные факторы: Свежесть контента (recency) критически важна для попадания в Real-time Index.
Географические факторы: Местоположение пользователя используется для определения контекста и расчета локальных оценок (local_score, Geo-burstiness).
Пользовательские факторы: Явно указанные интересы, данные профиля.
Социальные факторы: Данные из Social Graph (связи пользователя, активность друзей).
Факторы источника: Ранг источника (rank of the source), количество подписчиков источника.

Какие метрики используются и как они считаются

Global Score (Первый и Второй): Независимая от пользователя оценка популярности. Учитывает качество/ранг источника и глобальную популярность контента (релевантность трендовым запросам, количество кликов). Нормализуется для сравнения контента из разных потоков.
Burstiness / Geo-burstiness: Метрики скорости роста популярности контента (глобально или локально).
User Score: Вероятностная оценка интереса пользователя к контенту Pr(item|user). Рассчитывается на основе совпадения свойств контента (сущности, источник, оценки) и модели пользователя. Упоминается формула: Pr(item|user) = Σ Pr(item|p)Pr(p|user) (где p — свойство).
Thresholds (Пороги): Динамически рассчитываемые значения, которые должны превысить оценки контента. Пороги зависят от темы и конкуренции. Для тем с большим объемом качественного контента порог выше.

Выводы

Фокус на «беспоисковом» обнаружении контента: Патент описывает систему, оптимизированную для проактивной доставки контента (как в Google Discover), которая функционирует отдельно от традиционного поиска по запросам.
Критичность свежести и Real-Time индекса: Использование Real-time Index и метрик Burstiness подчеркивает, что система отдает приоритет свежему и трендовому контенту. Скорость индексации является ключевым фактором.
Многоступенчатое ранжирование: Баланс популярности и персонализации: Успешное ранжирование требует как независимой популярности/качества (Global Score), так и соответствия личным интересам (User Score).
Динамические пороги как фильтр качества и конкуренции: Система использует Thresholds для контроля потока. В насыщенных нишах порог входа выше, что требует исключительно высокого качества или релевантности для попадания в поток.
Глубокое профилирование на основе гетерогенных сигналов: Эффективность системы зависит от анализа поведения пользователя в различных сервисах (поиск, видео, социальные сети), что позволяет строить точные модели интересов.
Важность социальных сигналов: Социальный граф (Social Graph) и коллаборативная фильтрация явно используются для отбора кандидатов, подчеркивая важность социального взаимодействия с контентом.

Практика

Best practices (это мы делаем)

Рекомендации направлены на оптимизацию для Google Discover и аналогичных потоков.

Создание свежего и трендового контента: Оперативно реагируйте на тренды и новости. Использование Real-time Index и метрик Burstiness дает преимущество актуальному контенту. Обеспечьте быструю индексацию (например, через Indexing API или WebSub).
Оптимизация под сущности (Entities) и интересы: Структурируйте контент вокруг четких сущностей и тем. Система использует их для сопоставления контента с моделью интересов пользователя (для расчета User Score).
Фокус на виральности и вовлечении (Global Score): Работайте над повышением авторитетности источника и популярности конкретного контента. Стимулируйте социальное распространение и добивайтесь хороших поведенческих факторов (например, long clicks), так как это влияет на Global Score.
Локализация контента: Создавайте контент, релевантный для конкретных регионов. Метрики Geo-burstiness и local_score помогут продвижению в потоках локальных пользователей.

Worst practices (это делать не надо)

Фокус только на вечнозеленом контенте для потоков: Полагаться исключительно на статический контент неэффективно для потоков, ориентированных на свежесть и Real-time index.
Кликбейт и низкое вовлечение: Контент с низким вовлечением получит низкий Global Score и может не пройти пороги качества (Thresholds), даже при соответствии интересам.
Игнорирование трендов и актуальности: Отсутствие реакции на актуальные события снижает вероятность получения высоких оценок Burstiness и попадания в поток.
Создание контента низкого качества в насыщенных нишах: Механизм динамических Thresholds отфильтрует посредственный контент в темах, где доступно много качественных альтернатив.

Стратегическое значение

Патент подтверждает разделение стратегий SEO для традиционного поиска (Query-based) и для рекомендательных потоков (Interest-based). Этот механизм объясняет, как Google реализует «беспоисковый поиск». Для SEO-специалистов это означает необходимость разработки стратегии, ориентированной на актуальность, виральность, качество источника и четкое позиционирование контента в графе интересов и сущностей.

Практические примеры

Сценарий: Получение трафика из Discover на новостном сайте о технологиях

Событие: Крупная технологическая компания анонсирует новый продукт.
Действие (Свежесть и Скорость): Сайт оперативно публикует новость, обеспечивая ее мгновенное попадание в индекс. Это увеличивает шансы попасть в Real-time index.
Действие (Трендовость и Виральность): Новость активно распространяется в социальных сетях и быстро набирает клики. Система фиксирует высокий Burstiness и повышает Global Score.
Действие (Интересы и Сущности): Статья четко структурирована, упоминает ключевые сущности (компания, продукт). Система сопоставляет ее с моделями пользователей, интересующихся технологиями или этим брендом, рассчитывая высокий User Score.
Результат: Статья преодолевает Thresholds по теме «Технологии» за счет высоких оценок и активно показывается в Google Discover заинтересованным пользователям, генерируя всплеск трафика.

Вопросы и ответы

Описывает ли этот патент алгоритмы ранжирования в основном поиске Google?

Нет, этот патент описывает механизмы для генерации персонализированных потоков контента (Stream of Content), таких как Google Discover. Он фокусируется на ранжировании свежего контента в реальном времени на основе интересов пользователя, а не на ответе на конкретный поисковый запрос в веб-поиске.

Что такое Real-time Index и насколько важна свежесть контента?

Real-time Index — это временное хранилище для очень свежего контента (в патенте упоминаются сроки от 15 минут до 2 часов). Свежесть критически важна для попадания в рекомендательные потоки. Это означает, что скорость публикации и индексации является ключевым фактором успеха, особенно для новостных и трендовых тем.

Что важнее для попадания в поток: Global Score или User Score?

Необходим баланс обоих факторов. Global Score отражает общую популярность и качество контента, а User Score — персональную релевантность. Оба показателя должны быть достаточно высокими, чтобы преодолеть динамические пороги (Thresholds) для включения в поток.

Что такое Burstiness и как это использовать в SEO?

Burstiness — это метрика, измеряющая резкий всплеск популярности контента. Это ключевой сигнал виральности и трендовости. SEO-специалистам следует отслеживать актуальные события и оперативно создавать качественный контент по горячим темам, обеспечивая его быстрое распространение сразу после публикации.

Как работают динамические пороги (Thresholds)?

Пороги определяют минимальный уровень качества/релевантности для включения контента в поток. Они динамически корректируются в зависимости от объема и качества доступного контента по теме. Если тема популярна и контента много, порог повышается, и только лучший контент попадет в поток. Для нишевых тем порог может быть ниже.

Как система определяет интересы пользователя?

Система строит модель пользователя, анализируя его активность в Heterogeneous Data Sources (с его согласия). Сюда входят история поиска, просмотры видео (например, YouTube), чтение новостей, социальные взаимодействия и активность на сторонних сайтах. Система агрегирует эти данные для выявления устойчивых интересов.

Какова роль социальных сигналов в этом патенте?

Социальные сигналы очень важны. Система запрашивает Social Graph для поиска кандидатов и использует Collaborative Filtering Engine. Контент, который понравился друзьям пользователя или людям со схожими интересами, имеет повышенные шансы на показ в потоке.

Учитывает ли система авторитетность источника (E-E-A-T)?

Да, концептуально учитывает. Патент явно упоминает, что при расчете Global Score учитывается качество и ранг источника (rank of the source), а также количество его подписчиков. Авторитетные и надежные источники с большей вероятностью создадут контент, который преодолеет пороги качества.

Как этот патент влияет на стратегию создания контента для Discover?

Стратегия должна фокусироваться на скорости, актуальности, виральности и четком соответствии сущностям (Entities) и интересам аудитории. Необходимо оперативно освещать тренды (для Burstiness), создавать вовлекающий контент (для Global Score) и четко позиционировать его тематически (для User Score).

Как система использует местоположение пользователя?

Местоположение используется для определения контекста и расчета локальной релевантности. Система использует метрики Local Score и Geo-burstiness (резкий рост популярности в конкретном регионе), что критично для локальных новостей и событий.