
Детальный разбор основополагающего патента Google News. Система оценивает источники по скорости реакции на события, оригинальности контента и авторитетности (ссылки, просмотры). Новостные сюжеты (кластеры) ранжируются по свежести и качеству источников. Статьи внутри сюжета сортируются с использованием «Модифицированной оценки свежести», которая дает значительное преимущество авторитетным изданиям.
Патент решает проблему организации и ранжирования огромного объема новостного контента из множества источников разного качества. Задача — помочь пользователю быстро найти сбалансированную, актуальную и высококачественную подборку документов по интересующей теме, отфильтровав дубликаты, устаревший или поверхностный контент, и обеспечив разнообразие точек зрения.
Запатентована комплексная система для агрегации, кластеризации и ранжирования новостного контента. Ядром изобретения является многофакторная модель оценки качества источника (Source Score), основанная на анализе публикуемых им документов. Эта оценка учитывает оригинальность контента (Originality), скорость публикации относительно события (Freshness) и сигналы авторитетности (Quality, например, ссылки и просмотры). Также описаны методы группировки статей в кластеры и алгоритмы ранжирования, где Source Score используется для модификации сигналов свежести.
Система работает в несколько этапов:
Source Score, и источник категоризируется (например, Golden Source).Document Vectors и Named Entities) и группируются в кластеры (сюжеты) по темам, а затем в более узкие суб-кластеры.Modified Recency Score. Эта оценка свежести корректируется качеством источника: статьи от Golden Sources получают значительное преимущество (выглядят «свежее»).Высокая. Этот патент, одним из авторов которого является Кришна Бхарат (создатель Google News), описывает фундаментальную архитектуру новостного поиска. Несмотря на дату подачи (2003 г.), заложенные принципы — оценка оригинальности, скорости публикации (Time-to-Web) и авторитетности источника — остаются ключевыми факторами для ранжирования в Google News и блоках Top Stories в 2025 году. Хотя конкретные методы анализа (например, TFIDF) могли эволюционировать, общая философия сохраняет актуальность.
Патент имеет критическое значение для SEO-стратегии новостных изданий. Он детально описывает, как Google определяет качество источника для новостного контента и как эта оценка напрямую влияет на ранжирование. Понимание механизмов оценки Originality, Freshness и использования этих метрик для бустинга/пессимизации (через Modified Recency Score) является ключом к видимости в Google News и Top Stories.
Document Vectors) документов внутри кластера.Source Score) и/или размера суб-кластера. Используется для финального ранжирования документов внутри кластера.Originality, Freshness и Quality.Хотя патент описывает полную систему кластеризации, все 28 пунктов формулы изобретения (Claims) сосредоточены исключительно на методе оценки источника (Source Scoring).
Claim 1 (Независимый пункт): Описывает основной метод оценки источника.
measures of freshness). Ключевое определение: свежесть основана на определении разницы во времени между моментом наступления событий и временем публикации источником документов, относящихся к этим событиям.measures of quality). Ключевое определение: качество основано как минимум на одном из: (а) количестве просмотров документов за период времени ИЛИ (б) количестве ссылок, указывающих на документы.Source Score) на основе показателей свежести и качества.Claim 5 (Зависимый от 1): Уточняет, что Source Score также основывается на оригинальности (Originality) множества документов.
Claim 6 (Зависимый от 1): Уточняет альтернативный метод расчета свежести. Freshness также может основываться на измерении частоты, с которой источник генерирует канонические документы (canonical document).
Claim 10 (Зависимый от 1): Описывает применение Source Score. Метод включает категоризацию источника на основе полученной оценки.
Claim 25 (Независимый пункт): Описывает аналогичный метод, специфичный для новостных источников, с дополнительным шагом удаления дубликатов перед анализом.
Изобретение описывает систему, которая функционирует преимущественно в рамках специализированного новостного поиска (Google News) и влияет на основной поиск через блок Top Stories.
CRAWLING – Сканирование и Сбор данных
Система должна активно сканировать новостные источники для своевременного обнаружения контента и фиксации времени публикации (timestamp).
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит основная предварительная обработка:
Document Vectors, Named Entities, заголовков. Определение жанра документа.Canonical Document. Расчет центроидов кластеров.Source Score (Freshness, Originality, Quality) и присвоения категории (например, Golden Source). Это включает анализ просмотров и ссылок.RANKING – Ранжирование (Новостная вертикаль)
Это основной этап применения алгоритмов ранжирования, описанных в патенте.
Modified Recency Score.RERANKING – Переранжирование
Применяется для обеспечения разнообразия. Система может понижать кластеры, чьи центроиды похожи на центроиды ранее просмотренных кластеров. Внутри кластера система обеспечивает разнообразие, продвигая лучший документ из каждого суб-кластера.
Патент описывает три основных процесса: Оценка источника, Ранжирование кластеров и Ранжирование документов.
Процесс А: Оценка Источника (Source Scoring)
Canonical Document по самой ранней дате публикации.Source Score. Присвоение источнику категории (например, Golden Source).Процесс Б: Ранжирование Кластеров (Cluster Ranking)
Cluster Score).Процесс В: Ранжирование Документов в Кластере (Document Ranking)
Modified Recency Score. Golden Source получает буст (возраст уменьшается: 10 часов - X), источник низкого качества получает пенальти (возраст увеличивается: 10 часов + Y).Modified Recency Score.Modified Recency Score) из каждого суб-кластера.Modified Recency Score на основе количества документов в суб-кластере (больше документов = выше важность = лучше оценка).Named Entities) (используются с повышенным весом при кластеризации).Quality источника).Quality источника).Freshness, Originality и Quality.Source Quality и размера суб-кластера. . Высокий Source Score уменьшает возраст (улучшает позицию).TFIDF для сравнения Document Vectors. Named Entities, заголовки и начальные предложения имеют повышенный вес.Source Score на основе этих трех факторов. Canonical Documents).Source Score используется для модификации оценки свежести документа (Modified Recency Score). Статья от Golden Source получает значительный буст (ее возраст искусственно уменьшается), а статья от низкокачественного источника пессимизируется. Это позволяет авторитетным источникам опережать менее авторитетные, даже если их статьи опубликованы позже.Canonical Source. Инвестиции в оригинальную журналистику повышают метрику Originality, что ведет к более высокому Source Score и потенциальному статусу Golden Source.Freshness источника и базовую оценку свежести статьи.Quality источника. Необходимо работать над дистрибуцией контента и стимулировать цитирование.Named Entities и ключевых слов, избегая общих фраз.Originality и снижает Source Score. Система идентифицирует такой контент как дубликат.Freshness источника и снижают ранжирование статей.Quality источника, что повлечет за собой пессимизацию статей при ранжировании (ухудшение Modified Recency Score).Патент определяет стратегический ландшафт для SEO в новостной индустрии. Он подтверждает, что для доминирования в Google News и Top Stories необходима комбинация скорости, авторитетности и оригинальности. Система построена так, чтобы алгоритмически вознаграждать качественную журналистику. Стратегия должна быть направлена на создание репутации надежного первоисточника (Golden Source).
Сценарий: Ранжирование двух статей об одном событии с использованием Modified Recency Score
Событие произошло в 12:00.
Golden Source): Авторитетное издание с высоким Source Score. Публикует статью в 12:20 (Возраст 20 минут).Source Score. Публикует заметку в 12:10 (Возраст 10 минут).Процесс ранжирования:
Modified Recency Score = 20 мин - X (буст за качество). Например, 20 - 15 = 5 минут.Modified Recency Score = 10 мин + Y (пессимизация). Например, 10 + 15 = 25 минут.Modified Recency Score. Статья Источника А (5 мин) будет ранжироваться выше статьи Источника Б (25 мин), несмотря на более позднюю публикацию.Как именно измеряется свежесть (Freshness) источника?
Патент описывает два компонента Freshness источника. Первый — это скорость реакции (Time-to-Web): среднее время, которое проходит между наступлением события и публикацией статьи о нем данным источником. Второй — это частота: как часто источник генерирует канонический (оригинальный) контент за определенный период времени. Оба фактора важны для высокого Source Score.
Что такое «Канонический документ» и как он определяется?
Canonical Document — это первая опубликованная версия статьи. Система сравнивает тексты похожих статей, сгруппированных в суб-кластер. Каноническим считается тот, у кого самая ранняя дата публикации (timestamp). Производство канонических документов является основой метрики Originality источника.
Как качество источника влияет на ранжирование отдельной статьи?
Качество источника напрямую модифицирует оценку свежести статьи (Modified Recency Score). Если статья опубликована источником высокого качества (Golden Source), ее оценка свежести улучшается (бонус, возраст уменьшается). Если источником низкого качества — ухудшается (пенальти, возраст увеличивается). Это позволяет авторитетной, но чуть более старой статье обойти более свежую статью с низкокачественного сайта.
Какие внешние сигналы Google использует для оценки качества (Quality) новостного источника?
Патент явно указывает в Claim 1 на два основных сигнала для определения Quality: количество ссылок, указывающих на документы источника, и количество просмотров (views/hits), которые получают документы источника. В описании также упоминаются статистика циркуляции (circulation statistics) и ручная оценка.
Что такое «Golden Source» и как им стать?
Golden Source — это высшая категория качества, присваиваемая источникам с высоким Source Score. Патент предполагает, что эта категория предназначена для источников, которые публикуют «значительное количество канонических документов». Чтобы достичь этого статуса, нужно фокусироваться на оригинальной журналистике, скорости и наращивать авторитетность (ссылки, просмотры).
Имеет ли значение длина статьи для ранжирования в Google News?
Да. При ранжировании документов внутри кластера система анализирует контент, и одним из факторов является длина документа. Патент утверждает, что чем длиннее документ, тем выше он может быть оценен. Это говорит о предпочтении подробных материалов поверхностным заметкам.
Как оптимизировать заголовки новостных статей согласно патенту?
Патент предлагает несколько критериев для оценки заголовков. Хороший заголовок должен быть достаточно длинным, содержать имена собственные (Proper Nouns / Named Entities) и совпадать с центроидом кластера (точно отражать тему сюжета). Следует избегать общих терминов, таких как «Сводка новостей», так как за них предусмотрена пессимизация.
Как система обеспечивает разнообразие мнений в рамках одного новостного сюжета?
Разнообразие достигается за счет разделения кластера на суб-кластеры (Sub-clusters), которые группируют статьи с очень похожей точкой зрения. При отображении результатов система выбирает лучший (с наилучшим Modified Recency Score) документ из каждого суб-кластера. Это гарантирует, что пользователь увидит разные взгляды на событие.
Может ли локальное издание обогнать федеральное в Google News?
Да. Патент указывает, что важность источника может быть повышена в зависимости от его релевантности конкретному сюжету, включая географическую релевантность. Если событие локальное, местное издание, которое быстро и детально его освещает, может получить приоритет над федеральными СМИ в рамках этого новостного кластера.
Если я перепечатываю новости из Reuters или AP, как это повлияет на мой сайт?
Это негативно повлияет на ваш Source Score. Система идентифицирует перепечатки и исключает их при расчете метрики Originality. Источники, состоящие преимущественно из перепечаток, получат низкую оценку качества и, как следствие, их статьи будут пессимизироваться при ранжировании внутри новостных кластеров.

EEAT и качество
Свежесть контента
Семантика и интент

EEAT и качество
Свежесть контента
Семантика и интент

Персонализация
Свежесть контента

Семантика и интент
Свежесть контента
SERP

Мультимедиа
Семантика и интент
SERP

Семантика и интент
Техническое SEO
EEAT и качество

Семантика и интент
EEAT и качество
SERP

SERP
Семантика и интент
EEAT и качество

Ссылки
SERP

Семантика и интент
Поведенческие сигналы
Персонализация

SERP
Поведенческие сигналы

Персонализация
Семантика и интент
Поведенческие сигналы

Local SEO
Поведенческие сигналы

Поведенческие сигналы
EEAT и качество
SERP

EEAT и качество
Поведенческие сигналы
SERP
