Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google News кластеризует новости и ранжирует источники, используя свежесть, оригинальность и авторитетность

    METHODS AND APPARATUS FOR CLUSTERING NEWS ONLINE CONTENT BASED ON CONTENT FRESHNESS AND QUALITY OF CONTENT SOURCE (Методы и аппараты для кластеризации новостного онлайн-контента на основе свежести контента и качества источника контента)
    • US10095752B1
    • Google LLC
    • 2018-10-09
    • 2003-06-30
    2003 EEAT и качество Патенты Google Свежесть контента Ссылки

    Анализ патента, лежащего в основе Google News. Google оценивает качество новостных источников по оригинальности и скорости реакции на события. Статьи группируются в кластеры (сюжеты), которые ранжируются по свежести и авторитетности. Внутри сюжета статьи сортируются по «модифицированной свежести», дающей бонус авторитетным источникам (Golden Sources).

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему информационной перегрузки при поиске новостей. Он направлен на организацию огромного количества статей разного качества от разных источников по одной теме в структурированный вид (кластеры или сюжеты). Задача — помочь пользователю быстро найти наиболее свежие, авторитетные и разнообразные точки зрения на событие, отфильтровав дубликаты, устаревший контент и материалы низкого качества.

    Что запатентовано

    Запатентована система для агрегации и ранжирования новостного контента. Суть изобретения заключается в многоуровневом подходе: оценка качества отдельных источников (Source Score), группировка статей в кластеры (сюжеты) и подкластеры, оценка важности этих кластеров (Cluster Score) и финальное ранжирование статей внутри кластера. Ключевым механизмом является взаимодействие между свежестью контента (Freshness) и качеством источника (Quality of Source) на всех этапах.

    Как это работает

    Система работает в несколько этапов:

    • Оценка Источников: Система постоянно анализирует новостные источники по параметрам оригинальности (публикуют ли уникальный контент или перепечатки), свежести (как часто и как быстро после события публикуют) и общего качества. Источники категоризируются (например, Golden Source).
    • Кластеризация: Статьи группируются в кластеры на основе схожести контента (используя document vectors и named entities). Кластеры могут делиться на подкластеры для выделения разных аспектов сюжета.
    • Оценка Кластеров: Каждый новостной сюжет (кластер) оценивается по важности. Важность определяется свежестью статей в нем, качеством участвующих источников и размером кластера.
    • Ранжирование Статей: Внутри кластера статьи ранжируются. Система рассчитывает оценку свежести и модифицирует ее на основе качества источника (Modified Recency Score). Статьи от авторитетных источников получают бустинг.

    Актуальность для SEO

    Критически высокая. Этот патент (и его предшественники, так как это патент-продолжение) описывает фундаментальные механизмы работы Google News и блока «Главные новости» (Top Stories). Учитывая важность новостного трафика и роль Krishna Bharat (одного из создателей Google News) как изобретателя, описанные принципы оценки свежести, оригинальности и авторитетности источников остаются ядром новостного поиска Google в 2025 году.

    Важность для SEO

    Влияние на SEO для новостных сайтов и контентных проектов, стремящихся попасть в Google News и Top Stories, является критическим (9/10). Патент детально описывает, как Google оценивает качество новостного источника и как эта оценка напрямую влияет на ранжирование контента. Понимание механизмов кластеризации, оценки оригинальности и многогранного определения свежести необходимо для разработки эффективной стратегии новостного SEO.

    Детальный разбор

    Термины и определения

    Canonical Document (Канонический документ)
    Оригинальная версия статьи. Определяется как первая опубликованная версия среди группы идентичных или почти идентичных документов (например, новостей агентств).
    Centroid (Центроид)
    Уникальное описание темы или предмета кластера. Вычисляется путем усреднения векторов документов (Document Vectors) внутри кластера.
    Cluster (Кластер)
    Группа документов, объединенных общей темой или событием. В контексте новостей соответствует новостному сюжету.
    Freshness (Свежесть)
    Многозначный термин.

    1. Для источника: Частота публикаций и скорость реакции на события.
    2. Для документа (согласно Claims): Время между наступлением события и публикацией документа об этом событии.
    3. Для документа (согласно Description): Время с момента публикации до текущего момента (возраст).
    Golden Source (Золотой источник)
    Высшая категория качества для источника, который публикует значительное количество канонических документов. Патент предполагает, что этот статус получают 5-10% источников.
    Modified Recency Score (Модифицированная оценка свежести)
    Оценка свежести документа, скорректированная с учетом качества источника. Golden Sources получают бонус (уменьшение возраста), низкокачественные источники — штраф (увеличение возраста).
    Named Entities (Именованные сущности)
    Имена людей, мест, событий, организаций. В патенте им придается повышенный вес при измерении схожести документов для кластеризации.
    Originality (Оригинальность)
    Параметр оценки источника, измеряющий, как часто источник публикует канонические документы по сравнению с дубликатами или перепечатками.
    Source Score (Оценка источника)
    Метрика, определяющая качество и авторитетность источника новостей. Рассчитывается на основе Originality, Freshness и Quality (авторитетности).
    Sub-cluster (Подкластер)
    Группа документов внутри кластера, имеющих еще большую степень схожести. Может представлять отдельный аспект сюжета или группу почти идентичных статей.

    Ключевые утверждения (Анализ Claims)

    Примечание: Патент US10095752B1 является продолжением (continuation) более ранних заявок. Его описание (Description) содержит детали всей системы, но Claims фокусируются на конкретном аспекте ранжирования.

    Claim 1 (Независимый пункт): Описывает метод ранжирования конкретного онлайн-документа.

    1. Система идентифицирует онлайн-документы.
    2. Вычисляется first score на основе меры свежести (measure of freshness) первого документа.
    3. Ключевое определение Свежести: Мера свежести определяется как количество времени между (1) моментом публикации документа и (2) моментом, когда произошло событие, описанное в документе. (Это оценка скорости реакции источника).
    4. Вычисляется second score на основе количества онлайн-документов, связанных с первым документом (т.е. размер или важность кластера/сюжета).
    5. Документ ранжируется на основе обеих оценок (скорости реакции и важности сюжета).

    Claim 2 и 3 (Зависимые): Уточняют роль центроида.

    Для группы связанных документов вычисляется centroid. Second score также зависит от того, содержит ли заголовок документа слова, совпадающие с центроидом кластера.

    Claim 5 и 6 (Зависимые): Уточняют факторы для second score.

    Second score также может основываться на количестве просмотров (number of views) документа за определенный период или на статистике циркуляции (circulation statistics) источника.

    Где и как применяется

    Изобретение охватывает несколько этапов поисковой архитектуры, применяясь в системах, ориентированных на новостной контент (Google News, Top Stories).

    CRAWLING – Сканирование и Сбор данных
    Система должна быстро обнаруживать и сканировать новостной контент для расчета метрик свежести. Критически важны временные метки публикации.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе происходят ключевые процессы:

    • Оценка Источников (Офлайн/Периодически): Расчет Source Score, определение Originality, категоризация источников (Golden Source).
    • Извлечение признаков: Извлечение Named Entities, генерация Document Vectors. Определение времени события для расчета свежести (согласно Claim 1).
    • Кластеризация: Группировка документов в кластеры и подкластеры. Определение Canonical Documents и дубликатов. Генерация Centroid для кластеров.

    RANKING – Ранжирование (Новостная вертикаль)
    Процесс ранжирования происходит на двух уровнях:

    1. Ранжирование Кластеров (Сюжетов): Определение важности новостного сюжета (Cluster Score) на основе агрегированной свежести, качества источников в кластере и размера кластера.
    2. Ранжирование Документов внутри Кластера: Выбор лучших статей для представления сюжета. Расчет Recency Score и его модификация с помощью Source Quality (Modified Recency Score).

    RERANKING – Переранжирование
    Финальный этап может включать корректировку для разнообразия. Патент описывает механизм сравнения Centroids текущих кластеров с центроидами ранее просмотренных кластеров, чтобы понизить похожие сюжеты и повысить новизну для пользователя.

    На что влияет

    • Конкретные типы контента: В первую очередь влияет на новостные статьи, пресс-релизы, блоги и любой контент, чувствительный ко времени.
    • Специфические запросы: Запросы, связанные с текущими событиями, срочными новостями (breaking news) и темами, которые активно освещаются в СМИ (QDF — Query Deserves Freshness).
    • Конкретные ниши или тематики: Влияет на все новостные вертикали. Патент также отмечает важность географии: локальные источники могут получить приоритет для локальных новостей.

    Когда применяется

    • Триггеры активации: Активируется при обработке контента из источников, идентифицированных как новостные, или когда запрос пользователя имеет новостной интент.
    • Временные рамки: Процессы кластеризации и ранжирования происходят непрерывно в режиме, близком к реальному времени. Оценка качества источников происходит периодически.

    Пошаговый алгоритм

    Алгоритм состоит из нескольких взаимосвязанных процессов.

    Процесс А: Оценка Качества Источника (Source Scoring)

    1. Сбор Документов: Обнаружение документов, опубликованных источником (например, за последний месяц).
    2. Анализ Оригинальности: Сравнение документов с другими источниками для выявления перепечаток. Определение Canonical Documents по самой ранней дате публикации.
    3. Анализ Свежести Источника: Измерение частоты генерации нового контента и средней скорости публикации после наступления события.
    4. Анализ Качества (Авторитетности): Оценка на основе косвенных сигналов (статистика просмотров, количество ссылок на документы источника, circulation statistics).
    5. Расчет Оценки и Категоризация: Присвоение Source Score и помещение источника в категорию (например, Golden Source).

    Процесс Б: Кластеризация Контента

    1. Анализ Контента: Генерация Document Vectors (например, TFIDF), взвешивание терминов (с повышенным весом для Named Entities, заголовков, первых предложений).
    2. Группировка в Кластеры: Использование техник кластеризации для группировки схожих документов в сюжеты.
    3. Уточнение до Подкластеров: Дальнейшее разделение кластеров на подкластеры для выделения разных аспектов сюжета и идентификации дубликатов.
    4. Вычисление Центроидов: Расчет Centroid для каждого кластера.

    Процесс В: Ранжирование Кластеров (Cluster Scoring)

    1. Идентификация Кластеров по Теме/Запросу.
    2. Оценка Свежести Кластера: Расчет взвешенной суммы свежести канонических документов в кластере. Используется система «биннинга» (bins): более свежие документы (например, <60 мин) получают значительно больший вес, чем старые (>24 часов).
    3. Оценка Качества Источников: Учет Source Scores источников в кластере (включая географическую и тематическую релевантность источников).
    4. Оценка Размера и Разнообразия: Учет количества канонических документов и количества подкластеров.
    5. Сортировка: Расчет итогового Cluster Score и сортировка сюжетов.

    Процесс Г: Ранжирование Документов внутри Кластера

    1. Фильтрация: Удаление дубликатов, оставляя только канонические документы.
    2. Оценка Контента: Анализ длины документа, заголовка (длина, отсутствие общих фраз, совпадение с Centroid), жанра.
    3. Расчет Modified Recency Score: Корректировка базовой оценки свежести на основе Source Score. (Например, вычитание X часов из возраста статьи для Golden Source; добавление Y часов для низкокачественного источника).
    4. Сортировка Документов: Сортировка статей по Modified Recency Score.
    5. Выбор Представителей: Выбор лучшего документа из каждого подкластера.
    6. Взвешивание по Размеру Подкластера: Дополнительная модификация оценки на основе количества документов в соответствующем подкластере (более крупные подкластеры получают больший вес).
    7. Отображение: Формирование финального списка.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст документа, заголовки (анализ длины, содержания, совпадения с Centroid), первые предложения, именованные сущности (Named Entities), длина документа, жанр документа.
    • Технические факторы: Временные метки публикации (критичны для всех расчетов Freshness и определения Originality).
    • Временные факторы: Время произошедшего события (для расчета скорости реакции), частота обновления контента источником.
    • Ссылочные факторы: Количество ссылок на документы источника (используется для оценки качества источника).
    • Поведенческие факторы: Количество просмотров (hits/views) документов или конкретного документа (используется для оценки качества источника и ранжирования документа).
    • Внешние данные: Статистика циркуляции (circulation statistics) источника.
    • Географические факторы: Местоположение источника (может влиять на его оценку качества для локальных новостей).

    Какие метрики используются и как они считаются

    • Source Score: Агрегированная метрика качества источника. Взвешенная комбинация Originality, Freshness (источника) и Quality (авторитетности).
    • Originality: Соотношение канонических документов к общему числу опубликованных.
    • Freshness (Много вариантов):
      1. Время между событием и публикацией (Claim 1).
      2. Время с момента публикации до текущего момента (Возраст).
      3. Частота публикаций источника.
    • Cluster Score: Агрегированная метрика важности сюжета. Включает свежесть кластера, качество источников, размер и разнообразие.
    • Свежесть Кластера: Взвешенная сумма свежести документов. Описан механизм бинов (bins) с разными весами для разных временных интервалов (например, <1 часа = вес 24; >24 часов = вес -1).
    • Modified Recency Score: Оценка свежести документа, скорректированная на авторитет. Пример: Возраст статьи минус X часов для Golden Source. Дополнительно корректируется весом подкластера.
    • Схожесть документов: Измеряется с помощью Document Vectors и техник типа TFIDF, с повышенным весом для Named Entities.

    Выводы

    1. Авторитетность источника критична для новостного SEO: Система использует Source Score на всех этапах. Статьи от Golden Sources получают прямое преимущество через Modified Recency Score, которое может компенсировать небольшое отставание по времени публикации.
    2. Многофакторное определение свежести: Freshness определяется не только датой публикации. Патент явно указывает на важность скорости реакции — времени между наступлением события и публикацией статьи (Claim 1). Также учитывается общая частота обновления источника.
    3. Оригинальность как основа авторитетности: Способность источника генерировать Canonical Documents (быть первоисточником) является ключевым фактором для достижения статуса Golden Source. Перепечатка контента агентств снижает оценку Originality.
    4. Кластеризация определяет видимость: Ранжирование происходит внутри кластеров. Если статья не попала в релевантный кластер или кластер имеет низкий Cluster Score, она не получит трафика.
    5. Важность сущностей (Entities) для кластеризации: Named Entities имеют повышенный вес при определении схожести документов. Это подчеркивает важность четкого и последовательного использования сущностей в новостном контенте.
    6. Заголовки должны соответствовать сюжету: Система сравнивает заголовок статьи с Centroid (общей темой кластера). Точное соответствие улучшает ранжирование документа внутри кластера.
    7. Локальная и тематическая авторитетность: Авторитетность источника может быть контекстуальной. Местный источник может получить приоритет при освещении локальных событий, а нишевый — в своей тематике.

    Практика

    Best practices (это мы делаем)

    • Фокус на оригинальном контенте (Canonical Content): Инвестируйте в собственный репортаж, а не в перепечатку новостей агентств. Высокая доля оригинального контента необходима для достижения статуса Golden Source и получения высокого Source Score.
    • Оптимизация скорости публикации (Event-to-Publication Latency): Максимально сокращайте время между событием и публикацией. Скорость реакции на событие является прямым фактором ранжирования (Claim 1) и компонентом оценки источника.
    • Построение авторитетности источника (E-E-A-T): Работайте над внешними сигналами качества (ссылки, просмотры, узнаваемость бренда), так как они используются для расчета Source Score. Высокий авторитет дает бустинг через Modified Recency Score.
    • Насыщение контента сущностями (Named Entities): Четко и полно используйте Named Entities (имена, организации, локации) в тексте и заголовках. Это критично для корректной кластеризации статьи.
    • Оптимизация заголовков под Центроид: Создавайте информативные, конкретные заголовки, содержащие ключевые сущности и отражающие суть события. Избегайте общих фраз типа «Сводка новостей». Совпадение заголовка с Centroid улучшает ранжирование.
    • Техническая оптимизация для быстрого индексирования: Обеспечьте мгновенное обнаружение нового контента (XML Sitemaps для новостей, WebSub) и корректную передачу временных меток публикации.

    Worst practices (это делать не надо)

    • Перепечатка новостей агентств без добавленной ценности: Это снижает оценку Originality источника и уменьшает шансы статьи стать канонической, что негативно влияет на Source Score.
    • Медленная публикация и индексация: Задержки в публикации после события напрямую снижают оценку Freshness. Технические задержки индексации также критичны.
    • Использование общих или кликбейтных заголовков: Заголовки, не содержащие сущностей или не совпадающие с центроидом сюжета, будут ранжироваться хуже. Патент явно упоминает пессимизацию за общие фразы.
    • Низкая частота публикаций: Нерегулярный постинг негативно влияет на оценку Freshness источника.

    Стратегическое значение

    Этот патент детально раскрывает архитектуру и приоритеты Google при обработке новостей. Стратегическое значение заключается в понимании того, что для успеха в Google News и Top Stories скорость, оригинальность и авторитетность являются неразделимыми факторами. Система построена так, чтобы вознаграждать качественную журналистику и оригинальные репортажи. Долгосрочный успех зависит от способности источника стать Golden Source в своей нише.

    Практические примеры

    Сценарий: Ранжирование новостей с использованием Modified Recency Score

    Событие: Произошло в 10:00.

    1. Источник А (Нишевый блог, среднее качество): Публикует новость в 10:05. Базовая свежесть (скорость реакции) = 5 минут.
    2. Источник Б (Крупное СМИ, Golden Source): Публикует новость в 10:15. Базовая свежесть = 15 минут.

    Расчет Modified Recency Score (предположим, что система использует возраст для этого расчета):

    1. Источник А: Возраст 5 мин. Качество среднее. Корректировка: +5 минут (небольшой штраф или отсутствие бонуса). Итого: 10 минут.
    2. Источник Б: Возраст 15 мин. Golden Source. Корректировка: -20 минут (значительный бонус). Итого: -5 минут.

    Результат: Несмотря на то, что Источник Б опубликовал новость на 10 минут позже, он будет ранжироваться выше Источника А, так как его Modified Recency Score лучше благодаря высокому качеству источника.

    Вопросы и ответы

    Как Google определяет, какая статья является оригинальной (Canonical Document)?

    Система сравнивает текст документов от разных источников внутри подкластера. Если тексты практически идентичны, каноническим признается тот, у которого самая ранняя дата публикации. Это подчеркивает важность скорости публикации и корректных временных меток на сайте для того, чтобы считаться первоисточником.

    Что важнее для ранжирования новости: свежесть или авторитетность источника?

    Они тесно взаимосвязаны через механизм Modified Recency Score. Базовая оценка свежести корректируется качеством источника. Высокоавторитетный источник (Golden Source) получает бустинг, что позволяет ему обойти менее авторитетный, но чуть более быстрый источник. В идеале нужно быть и быстрым, и авторитетным.

    Как именно патент предлагает измерять свежесть (Freshness)?

    Патент предлагает несколько способов. Ключевой метод, описанный в Claim 1, — это время между наступлением события и публикацией статьи о нем (скорость реакции). Другие методы включают возраст документа (время с момента публикации) и общую частоту обновления контента на источнике. Все эти аспекты учитываются системой.

    Как повысить оценку качества источника (Source Score) и стать Golden Source?

    Необходимо фокусироваться на трех компонентах: Originality (публиковать уникальный контент, быть первоисточником), Freshness (публиковать часто и быстро реагировать на события) и Quality/Авторитетность (привлекать трафик, ссылки на свои статьи, повышать узнаваемость бренда/circulation). Статус Golden Source присваивается лучшим 5-10% источников.

    Влияет ли использование именованных сущностей (Named Entities) на ранжирование новостей?

    Да, это критически влияет на процесс кластеризации. Патент указывает, что Named Entities получают повышенный вес при измерении схожести документов. Корректное использование сущностей гарантирует, что статья попадет в нужный новостной кластер (сюжет), что является необходимым условием для получения видимости.

    Что такое Центроид (Centroid) и как оптимизировать под него заголовки?

    Centroid — это усредненная тема кластера. Заголовки должны быть информативными и содержать ключевые сущности, совпадающие с этой темой. Патент упоминает, что система сравнивает слова в заголовке с Centroid кластера. Чем лучше совпадение, тем выше ранжируется документ. Следует избегать общих фраз вроде «Сводка новостей».

    Стоит ли перепечатывать новости от крупных агентств (AP, Reuters)?

    Патент указывает, что это негативно влияет на оценку Originality источника. Если источник в основном состоит из перепечаток, он не сможет получить высокий Source Score. Перепечатки допустимы, но они должны быть дополнены значительным объемом оригинального контента, чтобы поддерживать авторитетность.

    Учитывает ли система локальность источника?

    Да. Патент упоминает, что важность источника может зависеть от темы и географии. Для локального события местный новостной источник может получить приоритет (быть временно повышен в категории качества) по сравнению с национальным изданием, даже если его общий Source Score ниже.

    Как система обеспечивает разнообразие выдачи (Diversity)?

    Разнообразие обеспечивается несколькими способами. Во-первых, через механизм подкластеров: система продвигает лучший документ из каждого подкластера (разные аспекты сюжета). Во-вторых, упоминается механизм (FIG. 8), который может понижать кластеры, похожие (по Centroid) на те, что пользователь уже просмотрел, чтобы обеспечить новизну.

    Влияет ли длина статьи или ее жанр на ранжирование?

    Да. Патент упоминает, что при оценке документа внутри кластера учитывается его длина (более длинные статьи могут оцениваться выше) и жанр (например, «op/ed», «news brief»). Система может отдавать предпочтение определенным жанрам в зависимости от контекста или предпочтений пользователя.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.