Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google формирует и ранжирует персонализированные потоки контента (например, Google Discover) в реальном времени

    SCORING STREAM ITEMS IN REAL TIME (Оценка элементов потока в реальном времени)
    • US9858275B1
    • Google LLC
    • 2018-01-02
    • 2011-04-29
    2011 Патенты Google Персонализация Поведенческие сигналы Свежесть контента

    Анализ патента Google, описывающего систему генерации персонализированных потоков контента. Система моделирует интересы пользователя на основе его активности в разных сервисах (поиск, видео, социальные сети), индексирует свежий контент в реальном времени и ранжирует его, используя комбинацию глобальной популярности (Global Score) и персональной релевантности (User Score), применяя динамические пороги качества.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему информационной перегрузки и сложности обнаружения нового, свежего и релевантного контента в интернете. Цель системы — автоматически генерировать персонализированный поток контента (stream of content) в реальном времени, агрегируя и ранжируя данные из heterogeneous data sources (разнородных источников). Это позволяет пользователям оставаться в курсе интересующих тем без необходимости ручного поиска или управления подписками.

    Что запатентовано

    Запатентована система и метод для оценки (scoring) и генерации персонализированного потока контента. Ядром изобретения является механизм многоступенчатой оценки, который использует модель интересов пользователя (model), построенную на его кросс-платформенной активности. Система сочетает глобальную популярность контента (Global Score), его персональную релевантность (User Score) и свежесть (используя Real-time index), а также применяет динамические пороги качества для контроля финального потока.

    Как это работает

    Система функционирует следующим образом:

    • Моделирование пользователя: Система анализирует активность пользователя (поиск, просмотры, социальные взаимодействия) из разных источников (при условии согласия) и строит модель его интересов.
    • Индексирование в реальном времени: Свежий контент непрерывно собирается и помещается во временный Real-time index.
    • Глобальная оценка: Контент получает Global Score, отражающий его популярность и важность, который затем нормализуется.
    • Персонализированная оценка: При запросе потока система рассчитывает User Score, сравнивая контент с моделью пользователя и учитывая контекст (время, местоположение).
    • Применение порогов (Thresholds): Контент включается в поток, только если его оценки превышают динамические пороги, зависящие от тематики, объема и качества доступного контента по этой теме.

    Актуальность для SEO

    Высокая. Описанные механизмы лежат в основе современных рекомендательных систем Google, в частности Google Discover (ранее Google Feed). Генерация персонализированных потоков на основе интересов, а не явных запросов, является ключевым направлением развития дистрибуции контента и крайне актуальна в 2025 году.

    Важность для SEO

    Патент имеет высокое значение (7.5/10) для оптимизации под рекомендательные системы (Google Discover), но минимальное влияние на традиционное SEO (ранжирование по запросу). Он раскрывает механизмы «беспоискового» трафика. Для видимости в таких потоках критически важны свежесть контента (recency), его виральность или резкий рост популярности (Burstiness), авторитетность источника, а также четкое соответствие интересам пользователя и сущностям (Entities).

    Детальный разбор

    Термины и определения

    Burstiness (Всплеск популярности)
    Метрика, отражающая резкое увеличение популярности элемента контента в глобальном масштабе.
    Collaborative Filtering Engine (Механизм коллаборативной фильтрации)
    Компонент, генерирующий кандидатов на основе социальной релевантности (например, контент, понравившийся друзьям пользователя или похожим пользователям).
    Geo-burstiness (Географический всплеск популярности)
    Метрика, отражающая резкое увеличение популярности элемента контента в определенной географической области.
    Global Score (Глобальная оценка)
    Независимая от пользователя оценка популярности или важности контента. Включает First Global Score (популярность внутри исходного потока) и Second Global Score (нормализованная оценка по всем потокам). Учитывает качество источника и общую популярность (клики, тренды).
    Heterogeneous Data Sources (Гетерогенные источники данных)
    Разнообразные источники данных для моделирования интересов пользователя: история поиска, развлекательные сервисы (новости, видео, блоги), социальная активность (email, профили, социальный граф) и сторонние сайты.
    Mixer (Смеситель)
    Центральный компонент, который получает кандидатов, сравнивает их с моделью пользователя, рассчитывает оценки и генерирует финальный поток контента.
    Model (Модель пользователя)
    Представление интересов пользователя, сгенерированное на основе логов его активности и явных предпочтений. Используется для прогнозирования релевантности контента.
    Real-time Index (Индекс реального времени)
    Хранилище свежего (fresh) контента, который хранится ограниченное время (например, 15 минут или два часа) и быстро обновляется.
    Threshold (Порог)
    Динамическое пороговое значение, которое должна превысить оценка контента для включения в поток. Пороги зависят от объема и качества доступного контента по конкретной теме.
    User Score (Пользовательская оценка)
    Оценка для пары (пользователь, элемент контента), рассчитываемая на основе модели пользователя. Оценивает вероятность того, что элемент появится в потоке пользователя.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод оценки и выбора контента для потока.

    1. Генерация First Global Score для контента из гетерогенных источников. Эта оценка не зависит от пользователя и указывает на популярность/важность контента внутри исходного потока (source stream).
    2. Генерация Second Global Score путем нормализации первой глобальной оценки между разными потоками.
    3. Определение первого пользователя-кандидата для контента на основе Second Global Score И путем запроса к социальному графу (social graph) с использованием метаданных контента.
    4. Вычисление First User Score для пары пользователь/контент на основе модели (model). Эта оценка определяет вероятность появления контента в потоке пользователя.
    5. Определение, удовлетворяется ли Threshold (порог). Порог основан на объеме и качестве других элементов контента по той же теме.
    6. Принятие решения о показе контента в потоке пользователя на основе First User Score И выполнения условия Threshold.

    Ядро изобретения — это многоступенчатое ранжирование, которое требует комбинации глобальной популярности, социальной связи, персонализированной релевантности И преодоления динамического порога, зависящего от конкуренции контента по теме.

    Claim 2 (Зависимый): Дополняет Claim 1, описывая определение второго пользователя-кандидата на основе Second Global Score и социальной связи (social connection) этого пользователя с контентом.

    Claim 5 и 6 (Зависимые): Уточняют использование коллаборативной фильтрации: система может включать контент из потоков других связанных пользователей, взвешивая его на основе силы взаимодействий между пользователями.

    Где и как применяется

    Патент описывает инфраструктуру для систем персонализированных рекомендаций контента (например, Google Discover), а не традиционного веб-поиска.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе происходит предварительная обработка:

    • Fetching Unit собирает свежий контент и помещает его в Real-time index.
    • Из контента извлекаются признаки (сущности, тематика).
    • Global Scorer рассчитывает независимые от пользователя оценки популярности (Global Scores), включая метрики Burstiness и Geo-burstiness.

    QUNDERSTANDING – Понимание Запросов (в данном случае, Понимание Пользователя)
    Model Generation Engine анализирует логи активности пользователя из Heterogeneous Data Sources для построения и обновления модели интересов пользователя (User Model). Это формирует понимание того, что интересует пользователя.

    RANKING / RERANKING – Ранжирование и Переранжирование
    Это основной этап работы системы, выполняемый компонентом Mixer в момент запроса потока.

    1. Отбор кандидатов: Query Generator формирует запросы к индексам (включая Real-time Index и Social Graph) на основе модели пользователя и контекста (время, местоположение).
    2. Ранжирование: User Scorer рассчитывает User Score для каждого кандидата.
    3. Фильтрация (Reranking): Применяются динамические Thresholds для контроля качества и объема. Контент, не прошедший порог по теме, отбрасывается.
    4. Финальная сборка: Final Scorer формирует итоговый поток.

    Входные данные:

    • Модель пользователя (User Model).
    • Свежий контент из Real-time Index и основных индексов.
    • Данные из Social Graph.
    • Предварительно рассчитанные Global Scores и метрики Burstiness.
    • Контекстные сигналы (местоположение, время).

    Выходные данные:

    • Персонализированный, отсортированный поток контента (Stream of Content).

    На что влияет

    • Типы контента: Влияет на все типы контента в потоке: новости, статьи, видео, посты в блогах. Особенно сильно влияет на свежий и трендовый контент.
    • Специфические запросы: Применяется для «беззапросного» поиска (Discovery), основанного на интересах, а не на явных запросах.
    • Географические факторы: Явно учитываются через контекст и метрики типа Geo-burstiness и local_score.

    Когда применяется

    • Условия работы: Алгоритм активируется, когда пользователь загружает или запрашивает персонализированный поток контента. Для полноценной персонализации требуется согласие пользователя на сбор данных.
    • Триггеры и пороги: Включение элемента контента происходит, если он одновременно является свежим, имеет достаточный Global Score, высокий User Score и преодолевает динамический Threshold для данной темы.

    Пошаговый алгоритм

    Процесс А: Фоновые процессы (Постоянно/Периодически)

    1. Сбор данных о пользователе: Logging Unit собирает данные об активности пользователя из гетерогенных источников (с согласия пользователя).
    2. Обновление модели: Model Generation Engine обновляет модель интересов пользователя.
    3. Сбор свежего контента: Fetching Unit собирает новый контент и помещает его в Real-time Index.
    4. Глобальное ранжирование: Global Scorer рассчитывает и нормализует Global Score, а также метрики Burstiness.
    5. Пересчет порогов: Система периодически (например, еженощно) пересчитывает динамические Thresholds для разных тем на основе дневной активности.

    Процесс Б: Генерация потока (В реальном времени)

    1. Получение запроса и контекста: Система получает запрос на генерацию потока и определяет контекст (местоположение, время).
    2. Генерация запросов кандидатов: Query Generator (внутри Mixer) формирует запросы на основе модели пользователя. Также формируются запросы к Social Graph.
    3. Получение кандидатов: Система получает кандидатов из индексов и от Collaborative Filtering Engine.
    4. Пользовательское ранжирование: User Scorer рассчитывает User Score для каждой пары (пользователь, контент), оценивая вероятность интереса (Pr(item|user)).
    5. Применение порогов: Система проверяет, преодолевает ли контент динамические Thresholds, установленные для данной темы.
    6. Финальное ранжирование: Final Scorer генерирует упорядоченный поток из кандидатов, прошедших пороги.
    7. Генерация объяснений: Entity Annotator генерирует объяснения для показанных элементов (например, «Потому что вы интересовались X»).
    8. Сбор обратной связи: Система получает реакции пользователя для обновления модели.

    Какие данные и как использует

    Данные на входе

    Система использует широкий спектр данных (при условии согласия пользователя):

    • Поведенческие факторы: История поиска (web, video, news, maps), клики (включая long clicks), история просмотров (например, YouTube), взаимодействие с email, подписки (блоги, гаджеты), социальные взаимодействия (комментарии, репосты).
    • Временные факторы: Свежесть контента (recency) критически важна для попадания в Real-time Index.
    • Географические факторы: Местоположение пользователя используется для определения контекста и расчета локальных оценок (local_score, Geo-burstiness).
    • Пользовательские факторы: Явно указанные интересы, данные профиля.
    • Социальные факторы: Данные из Social Graph (связи пользователя, активность друзей).
    • Факторы источника: Ранг источника (rank of the source), количество подписчиков источника.

    Какие метрики используются и как они считаются

    • Global Score (Первый и Второй): Независимая от пользователя оценка популярности. Учитывает качество/ранг источника и глобальную популярность контента (релевантность трендовым запросам, количество кликов). Нормализуется для сравнения контента из разных потоков.
    • Burstiness / Geo-burstiness: Метрики скорости роста популярности контента (глобально или локально).
    • User Score: Вероятностная оценка интереса пользователя к контенту Pr(item|user). Рассчитывается на основе совпадения свойств контента (сущности, источник, оценки) и модели пользователя. Упоминается формула: Pr(item|user) = Σ Pr(item|p)Pr(p|user) (где p — свойство).
    • Thresholds (Пороги): Динамически рассчитываемые значения, которые должны превысить оценки контента. Пороги зависят от темы и конкуренции. Для тем с большим объемом качественного контента порог выше.

    Выводы

    1. Фокус на «беспоисковом» обнаружении контента: Патент описывает систему, оптимизированную для проактивной доставки контента (как в Google Discover), которая функционирует отдельно от традиционного поиска по запросам.
    2. Критичность свежести и Real-Time индекса: Использование Real-time Index и метрик Burstiness подчеркивает, что система отдает приоритет свежему и трендовому контенту. Скорость индексации является ключевым фактором.
    3. Многоступенчатое ранжирование: Баланс популярности и персонализации: Успешное ранжирование требует как независимой популярности/качества (Global Score), так и соответствия личным интересам (User Score).
    4. Динамические пороги как фильтр качества и конкуренции: Система использует Thresholds для контроля потока. В насыщенных нишах порог входа выше, что требует исключительно высокого качества или релевантности для попадания в поток.
    5. Глубокое профилирование на основе гетерогенных сигналов: Эффективность системы зависит от анализа поведения пользователя в различных сервисах (поиск, видео, социальные сети), что позволяет строить точные модели интересов.
    6. Важность социальных сигналов: Социальный граф (Social Graph) и коллаборативная фильтрация явно используются для отбора кандидатов, подчеркивая важность социального взаимодействия с контентом.

    Практика

    Best practices (это мы делаем)

    Рекомендации направлены на оптимизацию для Google Discover и аналогичных потоков.

    • Создание свежего и трендового контента: Оперативно реагируйте на тренды и новости. Использование Real-time Index и метрик Burstiness дает преимущество актуальному контенту. Обеспечьте быструю индексацию (например, через Indexing API или WebSub).
    • Оптимизация под сущности (Entities) и интересы: Структурируйте контент вокруг четких сущностей и тем. Система использует их для сопоставления контента с моделью интересов пользователя (для расчета User Score).
    • Фокус на виральности и вовлечении (Global Score): Работайте над повышением авторитетности источника и популярности конкретного контента. Стимулируйте социальное распространение и добивайтесь хороших поведенческих факторов (например, long clicks), так как это влияет на Global Score.
    • Локализация контента: Создавайте контент, релевантный для конкретных регионов. Метрики Geo-burstiness и local_score помогут продвижению в потоках локальных пользователей.

    Worst practices (это делать не надо)

    • Фокус только на вечнозеленом контенте для потоков: Полагаться исключительно на статический контент неэффективно для потоков, ориентированных на свежесть и Real-time index.
    • Кликбейт и низкое вовлечение: Контент с низким вовлечением получит низкий Global Score и может не пройти пороги качества (Thresholds), даже при соответствии интересам.
    • Игнорирование трендов и актуальности: Отсутствие реакции на актуальные события снижает вероятность получения высоких оценок Burstiness и попадания в поток.
    • Создание контента низкого качества в насыщенных нишах: Механизм динамических Thresholds отфильтрует посредственный контент в темах, где доступно много качественных альтернатив.

    Стратегическое значение

    Патент подтверждает разделение стратегий SEO для традиционного поиска (Query-based) и для рекомендательных потоков (Interest-based). Этот механизм объясняет, как Google реализует «беспоисковый поиск». Для SEO-специалистов это означает необходимость разработки стратегии, ориентированной на актуальность, виральность, качество источника и четкое позиционирование контента в графе интересов и сущностей.

    Практические примеры

    Сценарий: Получение трафика из Discover на новостном сайте о технологиях

    1. Событие: Крупная технологическая компания анонсирует новый продукт.
    2. Действие (Свежесть и Скорость): Сайт оперативно публикует новость, обеспечивая ее мгновенное попадание в индекс. Это увеличивает шансы попасть в Real-time index.
    3. Действие (Трендовость и Виральность): Новость активно распространяется в социальных сетях и быстро набирает клики. Система фиксирует высокий Burstiness и повышает Global Score.
    4. Действие (Интересы и Сущности): Статья четко структурирована, упоминает ключевые сущности (компания, продукт). Система сопоставляет ее с моделями пользователей, интересующихся технологиями или этим брендом, рассчитывая высокий User Score.
    5. Результат: Статья преодолевает Thresholds по теме «Технологии» за счет высоких оценок и активно показывается в Google Discover заинтересованным пользователям, генерируя всплеск трафика.

    Вопросы и ответы

    Описывает ли этот патент алгоритмы ранжирования в основном поиске Google?

    Нет, этот патент описывает механизмы для генерации персонализированных потоков контента (Stream of Content), таких как Google Discover. Он фокусируется на ранжировании свежего контента в реальном времени на основе интересов пользователя, а не на ответе на конкретный поисковый запрос в веб-поиске.

    Что такое Real-time Index и насколько важна свежесть контента?

    Real-time Index — это временное хранилище для очень свежего контента (в патенте упоминаются сроки от 15 минут до 2 часов). Свежесть критически важна для попадания в рекомендательные потоки. Это означает, что скорость публикации и индексации является ключевым фактором успеха, особенно для новостных и трендовых тем.

    Что важнее для попадания в поток: Global Score или User Score?

    Необходим баланс обоих факторов. Global Score отражает общую популярность и качество контента, а User Score — персональную релевантность. Оба показателя должны быть достаточно высокими, чтобы преодолеть динамические пороги (Thresholds) для включения в поток.

    Что такое Burstiness и как это использовать в SEO?

    Burstiness — это метрика, измеряющая резкий всплеск популярности контента. Это ключевой сигнал виральности и трендовости. SEO-специалистам следует отслеживать актуальные события и оперативно создавать качественный контент по горячим темам, обеспечивая его быстрое распространение сразу после публикации.

    Как работают динамические пороги (Thresholds)?

    Пороги определяют минимальный уровень качества/релевантности для включения контента в поток. Они динамически корректируются в зависимости от объема и качества доступного контента по теме. Если тема популярна и контента много, порог повышается, и только лучший контент попадет в поток. Для нишевых тем порог может быть ниже.

    Как система определяет интересы пользователя?

    Система строит модель пользователя, анализируя его активность в Heterogeneous Data Sources (с его согласия). Сюда входят история поиска, просмотры видео (например, YouTube), чтение новостей, социальные взаимодействия и активность на сторонних сайтах. Система агрегирует эти данные для выявления устойчивых интересов.

    Какова роль социальных сигналов в этом патенте?

    Социальные сигналы очень важны. Система запрашивает Social Graph для поиска кандидатов и использует Collaborative Filtering Engine. Контент, который понравился друзьям пользователя или людям со схожими интересами, имеет повышенные шансы на показ в потоке.

    Учитывает ли система авторитетность источника (E-E-A-T)?

    Да, концептуально учитывает. Патент явно упоминает, что при расчете Global Score учитывается качество и ранг источника (rank of the source), а также количество его подписчиков. Авторитетные и надежные источники с большей вероятностью создадут контент, который преодолеет пороги качества.

    Как этот патент влияет на стратегию создания контента для Discover?

    Стратегия должна фокусироваться на скорости, актуальности, виральности и четком соответствии сущностям (Entities) и интересам аудитории. Необходимо оперативно освещать тренды (для Burstiness), создавать вовлекающий контент (для Global Score) и четко позиционировать его тематически (для User Score).

    Как система использует местоположение пользователя?

    Местоположение используется для определения контекста и расчета локальной релевантности. Система использует метрики Local Score и Geo-burstiness (резкий рост популярности в конкретном регионе), что критично для локальных новостей и событий.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.