Google использует «восходящий» подход для наполнения лент контента (например, Google Discover). Система заранее генерирует множество запросов по теме и оценивает качество их результатов по метрикам свежести (Velocity), вовлеченности (Feedback), точности (Precision) и охвата (Recall). Только лучшие запросы («High-Quality Queries») используются для наполнения ленты пользователя, гарантируя актуальность и интерес контента.
Описание
Какую задачу решает
Патент решает проблему автоматического создания высококачественных потоков контента (streams of content или лент/фидов) на определенную тему, особенно при использовании больших, шумных и быстро обновляемых источников данных, таких как социальные сети или новостные платформы. Задача — гарантировать, что контент в ленте будет свежим, релевантным и вовлекающим, минимизируя низкокачественный материал.
Что запатентовано
Запатентована система, использующая «восходящий» (bottom-up) подход к генерации лент контента. Вместо прямой оценки всего контента по теме, система сначала генерирует множество кандидатских запросов (candidate queries). Затем она оценивает качество результатов этих запросов по нескольким метрикам (Quality Characteristics). Запросы, чьи результаты стабильно демонстрируют высокое качество (High-Quality Queries), сохраняются и используются для наполнения финальной ленты.
Как это работает
Система работает в два этапа: предварительная обработка (офлайн) и наполнение ленты (онлайн).
- Офлайн: Система собирает данные по теме и генерирует различные запросы (топиковые, сущностные). Каждый запрос выполняется, и его результаты оцениваются по четырем ключевым характеристикам: Precision (точность темы), Velocity (свежесть), Feedback (вовлеченность) и Recall (охват важного контента). Запросы, превышающие пороги качества, помечаются как High-Quality Queries (HQQ).
- Онлайн: Когда пользователь запрашивает ленту (например, открывает Discover), система использует эти заранее идентифицированные HQQ для быстрого получения актуальных результатов и наполнения потока.
Актуальность для SEO
Высокая. С ростом значимости Google Discover и агрегации новостного/социального контента, механизмы автоматического формирования качественных лент критически важны. Описанный подход, фокусирующийся на свежести (Velocity) и вовлеченности (Feedback), точно отражает принципы работы современных рекомендательных систем и лент контента в 2025 году.
Важность для SEO
Патент имеет высокое значение для SEO-стратегий, направленных на Google Discover и Google News. Он не описывает ранжирование в традиционном веб-поиске, но детально раскрывает, как Google определяет качество контента для «потоковых» сервисов. Понимание метрик Velocity, Feedback, Precision и Recall дает конкретные ориентиры для оптимизации контента под эти платформы.
Детальный разбор
Термины и определения
- Bottom-up Approach (Восходящий подход)
- Метод генерации ленты контента, при котором сначала генерируются и оцениваются запросы, и только лучшие из них используются для наполнения ленты. Это контрастирует с «top-down» подходом.
- Content Stream / Stream of Content (Поток контента / Лента)
- Последовательность единиц контента (например, постов, статей, видео), предоставляемая пользователю. Аналог фида (Feed) или ленты новостей/Discover.
- Content Stream Graph (Граф потоков контента)
- Структура данных, где узлы — это ленты контента, а ребра указывают на уровень сходства между ними. Используется для рекомендаций схожих лент.
- Feedback Quality Score (Оценка качества по обратной связи)
- Метрика качества результатов запроса, основанная на количестве взаимодействий (engagements) — лайков, реакций, сохранений — или прочтений (reads), связанных с этими результатами.
- High-Quality Query (HQQ, Высококачественный запрос)
- Кандидатский запрос, результаты которого удовлетворяют заданным порогам качества (по метрикам Precision, Velocity, Feedback, Recall).
- Precision Quality Score (Оценка качества по точности)
- Метрика качества. Рассчитывается как отношение числа результатов, релевантных теме, к общему числу результатов, возвращенных запросом. Измеряет тематическую сфокусированность.
- Quality Characteristics (Характеристики качества)
- Набор метрик, используемых для оценки результатов запроса: Precision, Velocity, Feedback, Recall.
- Recall Quality Score (Оценка качества по полноте/охвату)
- Метрика качества. Рассчитывается как отношение числа «топовых единиц контента» (top content items), попавших в результаты запроса, к общему числу результатов запроса. Измеряет охват наиболее важного контента по теме.
- Top Content Items (Топовые единицы контента)
- Контент, идентифицированный как наиболее важный по теме, часто на основе высокого уровня вовлеченности (engagement count).
- Topical Index / User Index (Тематический / Пользовательский индекс)
- Способы организации данных. Topical Index организует контент по темам, User Index — по профилям пользователей или сущностей (авторов).
- Velocity Quality Score (Оценка качества по скорости/свежести)
- Метрика качества. Основана на количестве результатов, опубликованных в течение недавнего временного окна (например, последний час). Измеряет свежесть.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод наполнения потока контента по теме.
Метод состоит из двух фаз:
Фаза предварительной обработки (Офлайн):
- Система получает данные, относящиеся к теме.
- Query generation module генерирует несколько различных запросов для этой темы.
- Для каждого запроса:
- Получаются результаты поиска.
- Query evaluation module определяет оценки качества (quality scores) для результатов на основе Quality Characteristics.
- На основе этих оценок идентифицируются High-Quality Queries (HQQ).
Фаза реального времени (Онлайн):
- После идентификации HQQ, система получает запрос пользователя на отображение ленты контента.
- Лента наполняется с использованием обновленных результатов поиска (updated search results) для ранее идентифицированных HQQ.
- Лента предоставляется пользователю.
Ядро изобретения — предварительная валидация запросов (а не контента) для последующего быстрого использования в реальном времени.
Claims 5 и 6 (Зависимые): Детализируют критерии идентификации HQQ.
- Claim 5: Запрос признается высококачественным, если оценка хотя бы одной характеристики качества превышает заданный порог.
- Claim 6: Запрос признается высококачественным, если оценки нескольких (или всех) характеристик качества превышают заданные пороги.
Это указывает на гибкость системы в определении строгости оценки качества.
Claims 8, 9, 10, 11 (Зависимые): Определяют конкретные характеристики качества.
- Claim 8: Precision Quality Score (точность темы).
- Claim 9: Velocity Quality Score (свежесть).
- Claim 10: Feedback Quality Score (вовлеченность).
- Claim 11: Recall Quality Score (охват важного контента).
Эти пункты критически важны, так как они точно определяют, что Google считает «качеством» при формировании лент.
Claim 7 (Зависимый): Описывает механизм рекомендаций схожих лент.
Система использует граф (Content Stream Graph), где узлы — это ленты контента, а ребра — уровень их схожести. Анализируя связи текущей ленты, система предоставляет рекомендации схожих лент.
Где и как применяется
Этот патент не относится к традиционной архитектуре веб-поиска. Он описывает систему для генерации потоков контента (Feeds, Streams), таких как Google Discover, Google News или ленты социальных сетей.
INDEXING – Индексирование и извлечение признаков
На этом этапе система индексирует контент (например, новости, посты). Извлекаются и сохраняются данные, необходимые для расчета метрик: время публикации (для Velocity), счетчики взаимодействий (для Feedback и определения Top Content Items), а также тематическая классификация или topicality score (для Precision). Используются специализированные индексы: Topical Index и User Index.
QUNDERSTANDING – Понимание Запросов (Офлайн-анализ)
Основная логика патента реализуется здесь, в офлайн-режиме. Query Generation Unit и Query Evaluation Unit работают для предварительной обработки:
- Генерация кандидатских запросов по разным темам.
- Оценка результатов по метрикам Precision, Velocity, Feedback, Recall.
- Идентификация и сохранение High-Quality Queries для каждой темы.
RANKING / METASEARCH (Генерация Ленты Онлайн)
Когда пользователь запрашивает ленту (например, открывает приложение):
- Система извлекает заранее определенные High-Quality Queries для нужной темы.
- Эти запросы выполняются для получения свежих результатов.
- Результаты используются для наполнения ленты (Populating the stream). Может применяться дополнительное ранжирование внутри ленты (например, по Feedback score).
Входные данные:
- Индексированный контент с метаданными (время, взаимодействия, тема).
- Список тем (seed topics).
- Пользовательский запрос на отображение ленты.
Выходные данные:
- Набор High-Quality Queries для каждой темы (офлайн).
- Сформированная лента контента (онлайн).
На что влияет
- Типы контента: В первую очередь влияет на контент, который потребляется в формате ленты — новости, посты в социальных сетях, блоги, видео.
- Специфические запросы: Механизм ориентирован на тематические (Topic-based) и сущностные (Entity-based) потоки, а не на конкретные пользовательские запросы в поисковой строке.
- Конкретные ниши: Особенно сильно влияет на динамичные ниши, где важна свежесть (Velocity) и вовлеченность (Feedback) — новости, спорт, развлечения, технологии, финансы.
Когда применяется
- Триггеры активации (Офлайн): Периодический запуск процесса оценки качества запросов для поддержания актуальности базы High-Quality Queries.
- Триггеры активации (Онлайн): Когда пользователь открывает приложение или платформу, предназначенную для отображения ленты контента (например, Google Discover, новостной агрегатор).
- Пороговые значения: Алгоритм использует предопределенные минимальные пороги (predetermined minimum threshold) для оценок качества. Запрос становится HQQ, только если его результаты превышают эти пороги.
Пошаговый алгоритм
Процесс состоит из двух основных частей: офлайн-идентификация качественных запросов и онлайн-наполнение ленты.
Часть А: Офлайн-идентификация High-Quality Queries (HQQ)
- Сбор и кластеризация данных: Система получает данные из индексов (Topical Index, User Index) и кластеризует их по темам. Определяются Top Content Items для каждой темы (например, посты с наибольшим количеством взаимодействий).
- Генерация кандидатских запросов: Для определенной темы генерируется множество запросов. Они могут включать топиковые параметры (например, «Financial Markets»), сущностные параметры (например, «Warren Buffet») или их комбинацию.
- Выполнение запросов: Каждый кандидатский запрос выполняется для получения набора результатов.
- Оценка результатов (Query Evaluation): Для каждого набора результатов рассчитываются Quality Scores по четырем характеристикам:
- Расчет Precision: Определение доли результатов, действительно релевантных теме.
- Расчет Velocity: Определение количества результатов, опубликованных недавно (recent time window).
- Расчет Feedback: Агрегация количества взаимодействий (лайки, реакции) с результатами.
- Расчет Recall: Определение того, какая доля Top Content Items по этой теме присутствует в результатах запроса.
- Выбор HQQ: Сравнение рассчитанных оценок с предопределенными порогами. Если оценки превышают пороги (для одной или нескольких метрик, согласно Claims 5 и 6), запрос помечается как High-Quality Query и сохраняется.
Часть Б: Онлайн-наполнение ленты
- Получение запроса на контент: Система получает запрос от пользовательского устройства (например, пользователь открыл ленту).
- Извлечение HQQ: Система находит сохраненные High-Quality Queries, соответствующие теме запроса или интересам пользователя.
- Наполнение ленты: Система выполняет эти HQQ для получения обновленных результатов и использует их для наполнения потока контента. Результаты могут быть упорядочены (например, на основе Feedback score).
- Предоставление ленты: Сформированная лента отправляется на устройство пользователя.
Какие данные и как использует
Данные на входе
Система использует данные, извлеченные из контента (в патенте часто упоминаются посты в социальных сетях), и метаданные, связанные с ними.
- Временные факторы (Критические): Время публикации контента. Критически важно для расчета Velocity.
- Поведенческие/Вовлеченность факторы (Критические): Данные о взаимодействии пользователей с контентом (engagements): лайки (+1s), реакции, сохранения, а также данные о прочтениях (reads). Используются для расчета Feedback и определения Top Content Items (для Recall).
- Контентные/Семантические факторы: Анализ контента для определения его темы (topicality score). Используется для расчета Precision.
- Пользовательские факторы (Авторы/Сущности): Данные об авторах контента (user’s social media profile, entity profiles). Используются для генерации сущностных запросов (entity-based query parameters).
Какие метрики используются и как они считаются
Патент детально описывает четыре ключевые метрики (Quality Characteristics) для оценки результатов запроса:
- Velocity Quality Score (Свежесть):
- Формула (концептуально): Количество результатов запроса, опубликованных в течение недавнего временного окна (например, за последний час).
- Назначение: Гарантирует свежесть контента в ленте.
- Feedback Quality Score (Вовлеченность):
- Формула (концептуально): Агрегированное количество взаимодействий (engagements) и прочтений (reads), связанных с результатами запроса.
- Назначение: Гарантирует, что контент интересен и вовлекает пользователей.
- Precision Quality Score (Точность):
- Формула (концептуально): (Число результатов запроса, релевантных теме) / (Общее число результатов запроса).
- Назначение: Гарантирует, что запрос возвращает тематически сфокусированный контент без шума.
- Recall Quality Score (Охват важного):
- Формула (концептуально): (Число Top Content Items в результатах запроса) / (Общее число результатов запроса). Примечание: Патент определяет это отношение именно к общему числу результатов запроса.
- Назначение: Гарантирует, что запрос охватывает наиболее важный (например, самый популярный) контент по теме.
Пороговые значения: Система использует predetermined minimum thresholds для каждой метрики. Запрос становится High-Quality Query, если его метрики превышают эти пороги.
Выводы
- Фокус на лентах (Discover/News), а не веб-поиске: Этот патент описывает механизмы, специфичные для формирования лент контента. Он объясняет, как Google выбирает лучший способ представления темы в потоке, что отличается от ранжирования 10 синих ссылок.
- Качество определяется через 4 метрики: Для попадания в ленту контент должен соответствовать конкретным критериям:
- Velocity (Свежесть): Контент должен быть новым или актуальным.
- Feedback (Вовлеченность): Контент должен генерировать взаимодействия (лайки, чтения).
- Precision (Точность): Контент должен быть строго по теме.
- Recall (Важность): Контент должен быть среди наиболее важных/популярных материалов по теме (Top Content Items).
- Bottom-Up подход и High-Quality Queries: Google не просто ранжирует контент по теме. Он сначала определяет, какие запросы (топиковые или сущностные) лучше всего представляют эту тему с точки зрения качества результатов, и использует только эти запросы для наполнения ленты.
- Критическая роль вовлеченности и свежести: Метрики Velocity и Feedback являются доминирующими факторами для успеха в лентах. Это подтверждает важность актуальности и способности вызывать реакцию аудитории.
- Важность Сущностей (Entities) и Авторов: Патент явно упоминает использование entity-based query parameters и User Index. Это подтверждает важность авторитетных авторов и сущностей для генерации качественного потока.
- Предварительные вычисления для скорости: Идентификация HQQ происходит заранее (офлайн), что позволяет системе быстро формировать ленту в реальном времени, используя уже проверенные запросы.
Практика
Best practices (это мы делаем)
Рекомендации направлены на оптимизацию под Google Discover и Google News.
- Максимизация Velocity (Свежесть и Тренды): Публикуйте контент оперативно по актуальным темам. Для новостных сайтов скорость публикации критична. Реагируйте на тренды, чтобы максимизировать Velocity Score.
- Стимулирование Feedback (Вовлеченность и Виральность): Создавайте контент, который вызывает реакцию и взаимодействие (лайки, шейры, сохранения). Высокие показатели engagements и reads необходимы для высокого Feedback Score. Это включает привлекательные заголовки, качественные изображения и содержание, стимулирующее дочитывание.
- Создание «Top Content Items» (Recall): Стремитесь создавать лучший и самый популярный контент в своей нише. Если ваш контент становится Top Content Item (наиболее вовлекающим по теме), это повышает Recall Score запросов, которые его включают.
- Обеспечение Precision (Тематическая точность): Контент должен быть четко сфокусирован на основной теме. Это помогает системе правильно классифицировать контент (topicality score) и гарантирует высокий Precision Score.
- Фокус на Сущностях и Авторитетности (User Index): Развивайте авторитетных авторов. Запросы, основанные на сущностях (например, известных авторах или брендах), могут быть классифицированы как High-Quality Queries, если контент этих авторов стабильно показывает высокие метрики качества.
Worst practices (это делать не надо)
- Медленная публикация новостей: Отставание от трендов приведет к низкому Velocity Score, исключая контент из быстро формирующихся лент.
- Кликбейт без вовлечения: Заголовки, которые приводят к быстрым отказам и отсутствию взаимодействий, приведут к низкому Feedback Score, даже если CTR высок.
- Размытие тематики (Off-topic): Публикация контента, слабо связанного с основной темой статьи, снижает Precision Score и ухудшает видимость в тематических потоках.
- Игнорирование поведенческих факторов: Фокус только на ключевых словах или ссылках без учета того, как пользователи взаимодействуют с контентом, неэффективен для систем, использующих Feedback и Recall.
- Фокус только на «вечнозеленом» контенте для лент: Контент без актуальности или трендовости будет иметь низкий Velocity Score и вряд ли попадет в потоки, формируемые по этому алгоритму (если только не имеет экстремально высокий Feedback).
Стратегическое значение
Патент подтверждает, что алгоритмы для Google Discover и Google News фундаментально отличаются от традиционного веб-поиска. Приоритет отдается динамическим сигналам: свежести (Velocity) и вовлеченности/виральности (Feedback). Для успеха в этих каналах необходимо не просто создавать релевантный контент, но и обеспечивать его оперативное появление и высокую вовлеченность аудитории. Стратегия должна быть направлена на построение репутации источника быстрого, точного и интересного контента, интегрируя SEO с SMM.
Практические примеры
Сценарий: Оптимизация статьи для Google Discover по теме «Искусственный Интеллект»
- Анализ тренда (Velocity): SEO-специалист замечает всплеск интереса к новой модели ИИ. Необходимо оперативно (в течение часа) подготовить и опубликовать материал, чтобы максимизировать Velocity Score.
- Фокусировка темы (Precision): Статья должна быть четко посвящена новой модели, а не ИИ в целом. Это гарантирует высокий topicality score для конкретной темы и повышает Precision.
- Оптимизация под вовлечение (Feedback): Используется яркое, уникальное изображение и заголовок, точно отражающий суть. Статья активно распространяется в социальных сетях для получения первых сигналов вовлеченности. В статье используется инфографика для удержания внимания и стимулирования дочитываний (reads).
- Привлечение авторитета (Entities): Статью публикует известный эксперт в области ИИ. Система может использовать сущностный запрос, связанный с этим автором (из User Index), для наполнения ленты.
- Результат: Статья быстро набирает взаимодействия, классифицируется как Top Content Item. Запросы, включающие эту статью, получают высокие оценки по всем четырем метрикам и используются как High-Quality Queries для наполнения ленты Discover.
Вопросы и ответы
Относится ли этот патент к ранжированию в основном поиске Google (10 синих ссылок)?
Нет. Патент сфокусирован на методах наполнения «потоков контента» (streams of content), таких как ленты новостей или Google Discover. Он описывает, как система выбирает лучшие запросы для представления темы в ленте, а не как ранжируются документы в ответ на запрос пользователя в поисковой строке.
Что такое «Bottom-Up» (восходящий) подход в контексте этого патента?
Это означает, что система не определяет напрямую, какой контент включить в ленту. Вместо этого она генерирует множество способов запросить контент по теме (кандидатские запросы), оценивает качество результатов каждого запроса и выбирает лучшие запросы (High-Quality Queries) для наполнения ленты. Качество определяется «снизу вверх» – от результатов к запросам.
Какие четыре метрики качества использует система и какая из них самая важная для SEO?
Система использует Precision (точность темы), Velocity (свежесть), Feedback (вовлеченность) и Recall (охват важного контента). Важность зависит от типа контента: для новостей критична Velocity, для статей в Discover крайне важен Feedback. Все четыре метрики необходимы для стабильного успеха.
Как метрика Feedback (Вовлеченность) влияет на оптимизацию контента?
Feedback Score основан на взаимодействиях (лайки, реакции, сохранения) и прочтениях (reads). Это требует создания контента, который не просто привлекает клик, но и удерживает внимание пользователя, стимулирует дочитывание и вызывает реакцию. Кликбейт, ведущий к отказу, будет иметь низкий Feedback Score.
Что такое «Top Content Items» и почему они важны?
Top Content Items — это наиболее важный или популярный контент по теме, обычно определяемый по высокому уровню вовлеченности (engagement count). Они используются для расчета метрики Recall. Если ваш контент становится Top Content Item, это значительно повышает вероятность его включения в ленты.
Как патент учитывает авторитетность авторов или сайтов (E-E-A-T)?
Патент напрямую не использует термин E-E-A-T, но он упоминает генерацию запросов на основе сущностей (entity-based query parameters) и использование индексов авторов (User Index). Если автор (сущность) стабильно производит контент с высокими показателями Feedback и Precision, запросы, связанные с этим автором, будут классифицированы как High-Quality Queries.
Может ли «вечнозеленый» контент попасть в ленту, сформированную по этому алгоритму?
Это менее вероятно, так как Velocity (свежесть) является ключевой характеристикой качества. Однако, если контент стабильно показывает очень высокий Feedback, или если система решит, что для данной темы Velocity менее важна (согласно Claim 5, где достаточно одной высокой метрики), то он может быть включен. Также регулярные обновления могут помочь поддерживать актуальность.
Происходит ли оценка качества контента в реальном времени, когда пользователь открывает ленту?
Нет. Оценка качества запросов (и, косвенно, контента) происходит заранее, в офлайн-режиме. В реальном времени система использует уже идентифицированные High-Quality Queries для быстрого наполнения ленты актуальными результатами (updated search results). Это значительно снижает задержку при загрузке ленты.
Что такое «Content Stream Graph» и как он используется?
Это структура данных, где узлы представляют собой различные ленты контента (например, «Финансы», «Акции США»), а ребра указывают на степень их схожести (основанную на пересечении контента по теме). Система использует этот граф для рекомендации пользователям схожих лент на основе того, что они просматривают в данный момент.
Что важнее для SEO в контексте этого патента: ссылки или социальные сигналы?
В контексте этого патента социальные сигналы и вовлеченность пользователей имеют первостепенное значение. Метрики Feedback и Recall напрямую зависят от взаимодействий пользователей (лайки, шейры, сохранения). Ссылки в патенте не упоминаются как фактор для оценки качества потокового контента.