Анализ патента Google, описывающего систему генерации персонализированных потоков контента. Система моделирует интересы пользователя на основе его активности в разных сервисах (поиск, видео, социальные сети), индексирует свежий контент в реальном времени и ранжирует его, используя комбинацию глобальной популярности (Global Score) и персональной релевантности (User Score), применяя динамические пороги качества.
Описание
Какую задачу решает
Патент решает проблему информационной перегрузки и сложности обнаружения нового, свежего и релевантного контента в интернете. Цель системы — автоматически генерировать персонализированный поток контента (stream of content) в реальном времени, агрегируя и ранжируя данные из heterogeneous data sources (разнородных источников). Это позволяет пользователям оставаться в курсе интересующих тем без необходимости ручного поиска или управления подписками.
Что запатентовано
Запатентована система и метод для оценки (scoring) и генерации персонализированного потока контента. Ядром изобретения является механизм многоступенчатой оценки, который использует модель интересов пользователя (model), построенную на его кросс-платформенной активности. Система сочетает глобальную популярность контента (Global Score), его персональную релевантность (User Score) и свежесть (используя Real-time index), а также применяет динамические пороги качества для контроля финального потока.
Как это работает
Система функционирует следующим образом:
- Моделирование пользователя: Система анализирует активность пользователя (поиск, просмотры, социальные взаимодействия) из разных источников (при условии согласия) и строит модель его интересов.
- Индексирование в реальном времени: Свежий контент непрерывно собирается и помещается во временный Real-time index.
- Глобальная оценка: Контент получает Global Score, отражающий его популярность и важность, который затем нормализуется.
- Персонализированная оценка: При запросе потока система рассчитывает User Score, сравнивая контент с моделью пользователя и учитывая контекст (время, местоположение).
- Применение порогов (Thresholds): Контент включается в поток, только если его оценки превышают динамические пороги, зависящие от тематики, объема и качества доступного контента по этой теме.
Актуальность для SEO
Высокая. Описанные механизмы лежат в основе современных рекомендательных систем Google, в частности Google Discover (ранее Google Feed). Генерация персонализированных потоков на основе интересов, а не явных запросов, является ключевым направлением развития дистрибуции контента и крайне актуальна в 2025 году.
Важность для SEO
Патент имеет высокое значение (7.5/10) для оптимизации под рекомендательные системы (Google Discover), но минимальное влияние на традиционное SEO (ранжирование по запросу). Он раскрывает механизмы «беспоискового» трафика. Для видимости в таких потоках критически важны свежесть контента (recency), его виральность или резкий рост популярности (Burstiness), авторитетность источника, а также четкое соответствие интересам пользователя и сущностям (Entities).
Детальный разбор
Термины и определения
- Burstiness (Всплеск популярности)
- Метрика, отражающая резкое увеличение популярности элемента контента в глобальном масштабе.
- Collaborative Filtering Engine (Механизм коллаборативной фильтрации)
- Компонент, генерирующий кандидатов на основе социальной релевантности (например, контент, понравившийся друзьям пользователя или похожим пользователям).
- Geo-burstiness (Географический всплеск популярности)
- Метрика, отражающая резкое увеличение популярности элемента контента в определенной географической области.
- Global Score (Глобальная оценка)
- Независимая от пользователя оценка популярности или важности контента. Включает First Global Score (популярность внутри исходного потока) и Second Global Score (нормализованная оценка по всем потокам). Учитывает качество источника и общую популярность (клики, тренды).
- Heterogeneous Data Sources (Гетерогенные источники данных)
- Разнообразные источники данных для моделирования интересов пользователя: история поиска, развлекательные сервисы (новости, видео, блоги), социальная активность (email, профили, социальный граф) и сторонние сайты.
- Mixer (Смеситель)
- Центральный компонент, который получает кандидатов, сравнивает их с моделью пользователя, рассчитывает оценки и генерирует финальный поток контента.
- Model (Модель пользователя)
- Представление интересов пользователя, сгенерированное на основе логов его активности и явных предпочтений. Используется для прогнозирования релевантности контента.
- Real-time Index (Индекс реального времени)
- Хранилище свежего (fresh) контента, который хранится ограниченное время (например, 15 минут или два часа) и быстро обновляется.
- Threshold (Порог)
- Динамическое пороговое значение, которое должна превысить оценка контента для включения в поток. Пороги зависят от объема и качества доступного контента по конкретной теме.
- User Score (Пользовательская оценка)
- Оценка для пары (пользователь, элемент контента), рассчитываемая на основе модели пользователя. Оценивает вероятность того, что элемент появится в потоке пользователя.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод оценки и выбора контента для потока.
- Генерация First Global Score для контента из гетерогенных источников. Эта оценка не зависит от пользователя и указывает на популярность/важность контента внутри исходного потока (source stream).
- Генерация Second Global Score путем нормализации первой глобальной оценки между разными потоками.
- Определение первого пользователя-кандидата для контента на основе Second Global Score И путем запроса к социальному графу (social graph) с использованием метаданных контента.
- Вычисление First User Score для пары пользователь/контент на основе модели (model). Эта оценка определяет вероятность появления контента в потоке пользователя.
- Определение, удовлетворяется ли Threshold (порог). Порог основан на объеме и качестве других элементов контента по той же теме.
- Принятие решения о показе контента в потоке пользователя на основе First User Score И выполнения условия Threshold.
Ядро изобретения — это многоступенчатое ранжирование, которое требует комбинации глобальной популярности, социальной связи, персонализированной релевантности И преодоления динамического порога, зависящего от конкуренции контента по теме.
Claim 2 (Зависимый): Дополняет Claim 1, описывая определение второго пользователя-кандидата на основе Second Global Score и социальной связи (social connection) этого пользователя с контентом.
Claim 5 и 6 (Зависимые): Уточняют использование коллаборативной фильтрации: система может включать контент из потоков других связанных пользователей, взвешивая его на основе силы взаимодействий между пользователями.
Где и как применяется
Патент описывает инфраструктуру для систем персонализированных рекомендаций контента (например, Google Discover), а не традиционного веб-поиска.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка:
- Fetching Unit собирает свежий контент и помещает его в Real-time index.
- Из контента извлекаются признаки (сущности, тематика).
- Global Scorer рассчитывает независимые от пользователя оценки популярности (Global Scores), включая метрики Burstiness и Geo-burstiness.
QUNDERSTANDING – Понимание Запросов (в данном случае, Понимание Пользователя)
Model Generation Engine анализирует логи активности пользователя из Heterogeneous Data Sources для построения и обновления модели интересов пользователя (User Model). Это формирует понимание того, что интересует пользователя.
RANKING / RERANKING – Ранжирование и Переранжирование
Это основной этап работы системы, выполняемый компонентом Mixer в момент запроса потока.
- Отбор кандидатов: Query Generator формирует запросы к индексам (включая Real-time Index и Social Graph) на основе модели пользователя и контекста (время, местоположение).
- Ранжирование: User Scorer рассчитывает User Score для каждого кандидата.
- Фильтрация (Reranking): Применяются динамические Thresholds для контроля качества и объема. Контент, не прошедший порог по теме, отбрасывается.
- Финальная сборка: Final Scorer формирует итоговый поток.
Входные данные:
- Модель пользователя (User Model).
- Свежий контент из Real-time Index и основных индексов.
- Данные из Social Graph.
- Предварительно рассчитанные Global Scores и метрики Burstiness.
- Контекстные сигналы (местоположение, время).
Выходные данные:
- Персонализированный, отсортированный поток контента (Stream of Content).
На что влияет
- Типы контента: Влияет на все типы контента в потоке: новости, статьи, видео, посты в блогах. Особенно сильно влияет на свежий и трендовый контент.
- Специфические запросы: Применяется для «беззапросного» поиска (Discovery), основанного на интересах, а не на явных запросах.
- Географические факторы: Явно учитываются через контекст и метрики типа Geo-burstiness и local_score.
Когда применяется
- Условия работы: Алгоритм активируется, когда пользователь загружает или запрашивает персонализированный поток контента. Для полноценной персонализации требуется согласие пользователя на сбор данных.
- Триггеры и пороги: Включение элемента контента происходит, если он одновременно является свежим, имеет достаточный Global Score, высокий User Score и преодолевает динамический Threshold для данной темы.
Пошаговый алгоритм
Процесс А: Фоновые процессы (Постоянно/Периодически)
- Сбор данных о пользователе: Logging Unit собирает данные об активности пользователя из гетерогенных источников (с согласия пользователя).
- Обновление модели: Model Generation Engine обновляет модель интересов пользователя.
- Сбор свежего контента: Fetching Unit собирает новый контент и помещает его в Real-time Index.
- Глобальное ранжирование: Global Scorer рассчитывает и нормализует Global Score, а также метрики Burstiness.
- Пересчет порогов: Система периодически (например, еженощно) пересчитывает динамические Thresholds для разных тем на основе дневной активности.
Процесс Б: Генерация потока (В реальном времени)
- Получение запроса и контекста: Система получает запрос на генерацию потока и определяет контекст (местоположение, время).
- Генерация запросов кандидатов: Query Generator (внутри Mixer) формирует запросы на основе модели пользователя. Также формируются запросы к Social Graph.
- Получение кандидатов: Система получает кандидатов из индексов и от Collaborative Filtering Engine.
- Пользовательское ранжирование: User Scorer рассчитывает User Score для каждой пары (пользователь, контент), оценивая вероятность интереса (Pr(item|user)).
- Применение порогов: Система проверяет, преодолевает ли контент динамические Thresholds, установленные для данной темы.
- Финальное ранжирование: Final Scorer генерирует упорядоченный поток из кандидатов, прошедших пороги.
- Генерация объяснений: Entity Annotator генерирует объяснения для показанных элементов (например, «Потому что вы интересовались X»).
- Сбор обратной связи: Система получает реакции пользователя для обновления модели.
Какие данные и как использует
Данные на входе
Система использует широкий спектр данных (при условии согласия пользователя):
- Поведенческие факторы: История поиска (web, video, news, maps), клики (включая long clicks), история просмотров (например, YouTube), взаимодействие с email, подписки (блоги, гаджеты), социальные взаимодействия (комментарии, репосты).
- Временные факторы: Свежесть контента (recency) критически важна для попадания в Real-time Index.
- Географические факторы: Местоположение пользователя используется для определения контекста и расчета локальных оценок (local_score, Geo-burstiness).
- Пользовательские факторы: Явно указанные интересы, данные профиля.
- Социальные факторы: Данные из Social Graph (связи пользователя, активность друзей).
- Факторы источника: Ранг источника (rank of the source), количество подписчиков источника.
Какие метрики используются и как они считаются
- Global Score (Первый и Второй): Независимая от пользователя оценка популярности. Учитывает качество/ранг источника и глобальную популярность контента (релевантность трендовым запросам, количество кликов). Нормализуется для сравнения контента из разных потоков.
- Burstiness / Geo-burstiness: Метрики скорости роста популярности контента (глобально или локально).
- User Score: Вероятностная оценка интереса пользователя к контенту Pr(item|user). Рассчитывается на основе совпадения свойств контента (сущности, источник, оценки) и модели пользователя. Упоминается формула: Pr(item|user) = Σ Pr(item|p)Pr(p|user) (где p — свойство).
- Thresholds (Пороги): Динамически рассчитываемые значения, которые должны превысить оценки контента. Пороги зависят от темы и конкуренции. Для тем с большим объемом качественного контента порог выше.
Выводы
- Фокус на «беспоисковом» обнаружении контента: Патент описывает систему, оптимизированную для проактивной доставки контента (как в Google Discover), которая функционирует отдельно от традиционного поиска по запросам.
- Критичность свежести и Real-Time индекса: Использование Real-time Index и метрик Burstiness подчеркивает, что система отдает приоритет свежему и трендовому контенту. Скорость индексации является ключевым фактором.
- Многоступенчатое ранжирование: Баланс популярности и персонализации: Успешное ранжирование требует как независимой популярности/качества (Global Score), так и соответствия личным интересам (User Score).
- Динамические пороги как фильтр качества и конкуренции: Система использует Thresholds для контроля потока. В насыщенных нишах порог входа выше, что требует исключительно высокого качества или релевантности для попадания в поток.
- Глубокое профилирование на основе гетерогенных сигналов: Эффективность системы зависит от анализа поведения пользователя в различных сервисах (поиск, видео, социальные сети), что позволяет строить точные модели интересов.
- Важность социальных сигналов: Социальный граф (Social Graph) и коллаборативная фильтрация явно используются для отбора кандидатов, подчеркивая важность социального взаимодействия с контентом.
Практика
Best practices (это мы делаем)
Рекомендации направлены на оптимизацию для Google Discover и аналогичных потоков.
- Создание свежего и трендового контента: Оперативно реагируйте на тренды и новости. Использование Real-time Index и метрик Burstiness дает преимущество актуальному контенту. Обеспечьте быструю индексацию (например, через Indexing API или WebSub).
- Оптимизация под сущности (Entities) и интересы: Структурируйте контент вокруг четких сущностей и тем. Система использует их для сопоставления контента с моделью интересов пользователя (для расчета User Score).
- Фокус на виральности и вовлечении (Global Score): Работайте над повышением авторитетности источника и популярности конкретного контента. Стимулируйте социальное распространение и добивайтесь хороших поведенческих факторов (например, long clicks), так как это влияет на Global Score.
- Локализация контента: Создавайте контент, релевантный для конкретных регионов. Метрики Geo-burstiness и local_score помогут продвижению в потоках локальных пользователей.
Worst practices (это делать не надо)
- Фокус только на вечнозеленом контенте для потоков: Полагаться исключительно на статический контент неэффективно для потоков, ориентированных на свежесть и Real-time index.
- Кликбейт и низкое вовлечение: Контент с низким вовлечением получит низкий Global Score и может не пройти пороги качества (Thresholds), даже при соответствии интересам.
- Игнорирование трендов и актуальности: Отсутствие реакции на актуальные события снижает вероятность получения высоких оценок Burstiness и попадания в поток.
- Создание контента низкого качества в насыщенных нишах: Механизм динамических Thresholds отфильтрует посредственный контент в темах, где доступно много качественных альтернатив.
Стратегическое значение
Патент подтверждает разделение стратегий SEO для традиционного поиска (Query-based) и для рекомендательных потоков (Interest-based). Этот механизм объясняет, как Google реализует «беспоисковый поиск». Для SEO-специалистов это означает необходимость разработки стратегии, ориентированной на актуальность, виральность, качество источника и четкое позиционирование контента в графе интересов и сущностей.
Практические примеры
Сценарий: Получение трафика из Discover на новостном сайте о технологиях
- Событие: Крупная технологическая компания анонсирует новый продукт.
- Действие (Свежесть и Скорость): Сайт оперативно публикует новость, обеспечивая ее мгновенное попадание в индекс. Это увеличивает шансы попасть в Real-time index.
- Действие (Трендовость и Виральность): Новость активно распространяется в социальных сетях и быстро набирает клики. Система фиксирует высокий Burstiness и повышает Global Score.
- Действие (Интересы и Сущности): Статья четко структурирована, упоминает ключевые сущности (компания, продукт). Система сопоставляет ее с моделями пользователей, интересующихся технологиями или этим брендом, рассчитывая высокий User Score.
- Результат: Статья преодолевает Thresholds по теме «Технологии» за счет высоких оценок и активно показывается в Google Discover заинтересованным пользователям, генерируя всплеск трафика.
Вопросы и ответы
Описывает ли этот патент алгоритмы ранжирования в основном поиске Google?
Нет, этот патент описывает механизмы для генерации персонализированных потоков контента (Stream of Content), таких как Google Discover. Он фокусируется на ранжировании свежего контента в реальном времени на основе интересов пользователя, а не на ответе на конкретный поисковый запрос в веб-поиске.
Что такое Real-time Index и насколько важна свежесть контента?
Real-time Index — это временное хранилище для очень свежего контента (в патенте упоминаются сроки от 15 минут до 2 часов). Свежесть критически важна для попадания в рекомендательные потоки. Это означает, что скорость публикации и индексации является ключевым фактором успеха, особенно для новостных и трендовых тем.
Что важнее для попадания в поток: Global Score или User Score?
Необходим баланс обоих факторов. Global Score отражает общую популярность и качество контента, а User Score — персональную релевантность. Оба показателя должны быть достаточно высокими, чтобы преодолеть динамические пороги (Thresholds) для включения в поток.
Что такое Burstiness и как это использовать в SEO?
Burstiness — это метрика, измеряющая резкий всплеск популярности контента. Это ключевой сигнал виральности и трендовости. SEO-специалистам следует отслеживать актуальные события и оперативно создавать качественный контент по горячим темам, обеспечивая его быстрое распространение сразу после публикации.
Как работают динамические пороги (Thresholds)?
Пороги определяют минимальный уровень качества/релевантности для включения контента в поток. Они динамически корректируются в зависимости от объема и качества доступного контента по теме. Если тема популярна и контента много, порог повышается, и только лучший контент попадет в поток. Для нишевых тем порог может быть ниже.
Как система определяет интересы пользователя?
Система строит модель пользователя, анализируя его активность в Heterogeneous Data Sources (с его согласия). Сюда входят история поиска, просмотры видео (например, YouTube), чтение новостей, социальные взаимодействия и активность на сторонних сайтах. Система агрегирует эти данные для выявления устойчивых интересов.
Какова роль социальных сигналов в этом патенте?
Социальные сигналы очень важны. Система запрашивает Social Graph для поиска кандидатов и использует Collaborative Filtering Engine. Контент, который понравился друзьям пользователя или людям со схожими интересами, имеет повышенные шансы на показ в потоке.
Учитывает ли система авторитетность источника (E-E-A-T)?
Да, концептуально учитывает. Патент явно упоминает, что при расчете Global Score учитывается качество и ранг источника (rank of the source), а также количество его подписчиков. Авторитетные и надежные источники с большей вероятностью создадут контент, который преодолеет пороги качества.
Как этот патент влияет на стратегию создания контента для Discover?
Стратегия должна фокусироваться на скорости, актуальности, виральности и четком соответствии сущностям (Entities) и интересам аудитории. Необходимо оперативно освещать тренды (для Burstiness), создавать вовлекающий контент (для Global Score) и четко позиционировать его тематически (для User Score).
Как система использует местоположение пользователя?
Местоположение используется для определения контекста и расчета локальной релевантности. Система использует метрики Local Score и Geo-burstiness (резкий рост популярности в конкретном регионе), что критично для локальных новостей и событий.