
Google анализирует темпоральную последовательность документов (например, новости по одной теме) для выявления нового контента. Система идентифицирует «информационные фрагменты» (сущности, факты) и их взаимодействия. Документы, которые первыми вводят важные фрагменты или значительно дополняют существующие, получают более высокую оценку новизны (Novelty Score) и ранжируются выше, вытесняя вторичный контент.
Патент решает проблему избыточности (redundancy) контента в агрегаторах новостей (например, Google News) или результатах поиска по блогам. Когда множество статей освещают одну и ту же историю, часто повторяется одна и та же информация. Цель изобретения — идентифицировать и повысить в ранжировании те документы, которые вносят новую информацию (novel information) в развивающуюся тему, позволяя пользователям видеть новые факты, а не пересказ уже известных.
Запатентована система для присвоения оценки новизны (Novelty Score) документам в темпорально упорядоченной последовательности. Система анализирует каждый документ для выявления «информационных фрагментов» (Information Nuggets), таких как именованные сущности, и их «взаимодействий» (Interactions). Оценка новизны рассчитывается на основе того, сколько новой и важной информации документ вводит впервые по сравнению с предыдущими документами в последовательности или насколько он улучшает (дополняет) существующую информацию.
Система работает в несколько этапов:
Sequence S) по теме (например, новостной кластер).Information Nuggets (сущности, факты) и Interactions (связи между ними).WTF) и для всей последовательности.Delta Importance) информации в последовательности после появления этого документа.Novelty Score, который используется для их ранжирования в кластере.Высокая. С учетом огромного объема публикуемого контента и скорости распространения новостей, способность Google отличать первоисточники и статьи с добавленной ценностью от вторичного контента критически важна. Этот патент, одним из авторов которого является Krishna Bharat (ключевая фигура в создании Google News), описывает фундаментальный механизм для оценки оригинальности и новизны, что является ключевым компонентом ранжирования в Google News и при обработке запросов, требующих свежести (QDF).
Патент имеет критическое значение (9/10), особенно для новостных сайтов, блогов и любых ресурсов, освещающих трендовые или развивающиеся темы. Он показывает, что простого освещения темы недостаточно; для высокого ранжирования в конкурентной среде необходимо вносить новую фактическую информацию. Это напрямую влияет на контент-стратегию, подчеркивая важность оригинального репортажа, добавления новых сущностей и установления новых связей между фактами.
Named Entities), термины из заголовка или числа.TF-IDF или WTF.Claim 1 (Независимый пункт): Описывает базовый метод обнаружения новизны, фокусируясь на взаимодействиях.
Interactions), которые встречаются в непосредственной близости друг к другу.Novelty Score на основе определенного количества нового контента.Novelty Scores.Claim 5 (Зависимый от 3 и 1): Детализирует расчет важности взаимодействия для документа с использованием WTF.
Важность взаимодействия (i) для документа (A), Ia(i,A), рассчитывается как WTF(i,A). Формула WTF взвешивает вхождения обратно пропорционально квадратному корню из глубины предложения в документе. Это означает, что взаимодействия, упомянутые ранее в тексте, считаются более важными.
Claim 8 (Зависимый от 7 и 1): Определяет один из способов расчета Novelty Score.
Novelty Score рассчитывается путем определения суммы важности Is(i,S) (важность взаимодействия для последовательности) для всех взаимодействий (i), которые данный документ ввел ВПЕРВЫЕ в упорядоченной последовательности.
Claim 12 (Независимый пункт): Описывает метод оценки новизны с фокусом на информационных фрагментах и специфической формуле важности (с учетом Certificate of Correction).
Information Nuggets) в документе.Novelty Score) документу на основе этих значений важности.Изобретение применяется на нескольких этапах обработки поисковых данных, преимущественно в контексте новостного поиска или поиска по блогам.
CRAWLING – Сканирование и Сбор данных
На этом этапе система должна фиксировать точное время публикации (timestamp) документа, что критически важно для построения темпоральной последовательности (Sequence S).
INDEXING – Индексирование и извлечение признаков
Основная часть анализа происходит здесь или в процессе, аналогичном индексированию для специализированных вертикалей (например, Google News).
Information Nuggets (именованные сущности, числа, ключевые фразы) и Interactions (связи между ними).Novelty Score для каждого документа в кластере.RANKING – Ранжирование / RERANKING – Переранжирование
На этапе формирования выдачи (например, внутри новостного блока или в вертикали Google News) Novelty Score используется как ключевой сигнал для ранжирования документов внутри кластера. Документы с более высоким Novelty Score получают приоритет.
Процесс анализа последовательности документов S.
TF-IDF или WTF).Novelty Score. Это может быть выполнено одним из способов или их комбинацией: Delta Importance) или нормализованная разница (Normalized Delta Importance).Novelty Scores.Named Entities), числа и термины в заголовках (title terms).Depth of sentence) в документе используется для взвешивания важности информации (WTF). Информация в начале документа имеет больший вес.timestamp) публикации документа критически важна для определения порядка документов в последовательности и идентификации того, какой документ первым ввел информацию.Система вычисляет несколько ключевых метрик для оценки важности и новизны.
1. Важность для Документа (Na, Ia):
IDF измеряется по последовательности S.2. Важность для Последовательности (Ns, Is):
3. Novelty Score (NOVa):
Рассчитывается как комбинация следующих величин:
Delta Importance) для всех фрагментов/взаимодействий в документе A.Novelty Score.Information Nuggets (именованные сущности, факты, числа). Способность системы распознавать и отслеживать эти фрагменты в потоке документов подчеркивает важность наличия четкой фактической информации в контенте.Interactions) между ней и другими сущностями. Документ, который первым описывает связь между двумя известными фактами, также получает высокий Novelty Score.WTF (Weighted Term Frequency) явно указывает на то, что информация, расположенная ближе к началу документа (меньшая Depth of sentence), имеет больший вес. Это подтверждает важность принципа «перевернутой пирамиды» в журналистике и SEO.Novelty Score по своей природе зависит от времени. Оценка документа зависит от того, что было опубликовано до него. Быть первым критически важно, хотя патент и предусматривает возможность разделения кредита за новизну в течение короткого окна (например, 15 минут).Delta Importance) общего информационного поля.Information Nuggets. Это могут быть новые имена, места, цифры, цитаты или детали, которые отсутствовали в предыдущих публикациях по этой теме.WTF придает больший вес фрагментам, найденным в первых предложениях. Используйте принцип «перевернутой пирамиды».Novelty Score по методу "First Introduction".timestamps) критически важны для правильного позиционирования вашего документа в Temporally Ordered Sequence.Novelty Score.WTF (большая Depth of sentence).Interactions) с другими элементами истории.Этот патент подтверждает стратегию Google по приоритизации оригинальности и глубины контента, особенно в новостном поиске. Для издателей и SEO-специалистов это означает, что инвестиции в качественную журналистику, эксклюзивную информацию и скорость реакции являются ключевыми факторами успеха. Построение авторитета в нише связано не только с качеством сайта (E-E-A-T), но и с его способностью постоянно генерировать новый, фактически ценный контент (высокий Novelty Score).
Сценарий: Освещение запуска нового смартфона
Novelty Score.Novelty Score близок к нулю.Novelty Score, так как ввел новые важные фрагменты.Novelty Score и занимает первое место в новостном кластере.Действия SEO-специалиста для сайта A4: Убедиться, что ключевые новые факты (A19, TSMC, Проблемы с литографией) и их связь расположены в первом или втором предложении статьи для максимизации WTF.
Что такое «Information Nugget» в контексте этого патента?
Это ключевая единица информации в тексте. Патент определяет их как последовательности текста, несущие информацию, и приводит конкретные примеры: именованные сущности (имена людей, организаций, локаций), термины, встречающиеся в заголовке документа, и числа (например, статистика, даты). Для SEO это означает, что наличие и новизна конкретных фактов и сущностей в статье напрямую влияют на ее ранжирование в темпоральных последовательностях.
Что такое «Interaction» и почему это важно?
Interaction — это пара информационных фрагментов, которые встречаются близко друг к другу в тексте (например, в одном предложении). Это отражает связь между сущностями или фактами. Например, в предложении «CEO уволил Директора», «CEO» и «Директор» образуют взаимодействие. Важность этого в том, что система ценит не только новые факты, но и новые связи между фактами. Документ, который первым раскрывает важную связь, получит высокий Novelty Score.
Как метрика WTF (Weighted Term Frequency) влияет на написание текстов?
WTF взвешивает важность информации обратно пропорционально глубине предложения, в котором она находится. Чем раньше фрагмент встречается в тексте, тем выше его вес. Это прямое подтверждение необходимости использовать принцип «перевернутой пирамиды»: самая важная и новая информация должна быть в первых абзацах. Длинные вступления снижают потенциальный Novelty Score.
Как система определяет, какой документ был первым, если два сайта опубликовали новость почти одновременно?
Система использует временные метки (timestamps) для построения темпоральной последовательности. Патент также упоминает механизм для обработки почти одновременных публикаций: вместо того, чтобы отдавать весь кредит за новизну строго первому документу, кредит может быть разделен между всеми документами, опубликованными в течение короткого временного окна (например, T=15 минут) после первого введения информации.
Применяется ли этот патент только к Google News?
Хотя основное применение описано в контексте новостных агрегаторов и блогов, механизмы оценки новизны могут применяться в любом месте, где Google нужно ранжировать темпорально упорядоченный контент. Это может включать основную выдачу по запросам, требующим свежести (QDF), или специальные блоки с актуальной информацией (Top Stories). Если ваш контент конкурирует в трендовой тематике, он, вероятно, оценивается по схожим принципам.
Что важнее для Novelty Score: ввести совершенно новый факт или дополнить существующий?
Патент описывает оба варианта как способы получения высокого Novelty Score. Введение совершенно нового, важного фрагмента (First Introduction) дает значительный прирост. Однако значительное дополнение или уточнение существующей информации (Total Improvement / Delta Importance) также высоко ценится. Выбор стратегии зависит от стадии развития темы: в начале важнее новые факты, позже — глубина и новые связи.
Как рассчитывается важность фрагмента для всей последовательности (Ns)?
Патент предлагает несколько способов, чаще всего это агрегация важности фрагмента по всем документам (Cumulative Na). Например, если фрагмент часто упоминается и всегда в начале статей (высокий WTF), его общая важность Ns будет высокой. Это означает, что первичное введение такого важного фрагмента даст больший Novelty Score, чем введение минорного факта.
Как этот патент связан с E-E-A-T?
Патент напрямую не упоминает E-E-A-T или авторитетность сайта как факторы в расчете Novelty Score; расчет основан на контенте и времени. Однако он тесно связан с понятием экспертизы через фокус на оригинальном контенте. Сайты, которые постоянно генерируют высокий Novelty Score, демонстрируют экспертизу и часто являются первоисточниками (Original Reporting), что способствует укреплению их E-E-A-T сигналов.
Как система обрабатывает числа как Information Nuggets?
Патент указывает, что числа могут быть квантованы (quantized suitably). Это означает, что система может распознавать эквивалентность близких значений. Например, если один источник указывает высоту горы как 29,000 футов, а другой – 29,028 футов, система может определить, что это эквивалентные Information Nuggets, и не будет считать второе значение новым фактом.
Что делать, если моя статья является аналитикой или мнением, а не новостью с новыми фактами?
Если статья не содержит новых фактических Information Nuggets, она, вероятно, получит низкий Novelty Score в рамках этого конкретного алгоритма. Однако это не означает, что она не будет ранжироваться по другим факторам. Для аналитики важно создавать новые Interactions — предлагать новые интерпретации или устанавливать ранее не очевидные связи между известными фактами, что также может быть расценено как новизна.

Свежесть контента
EEAT и качество

Семантика и интент

Персонализация
Поведенческие сигналы
Свежесть контента

Knowledge Graph
Семантика и интент
EEAT и качество

EEAT и качество
Свежесть контента
Семантика и интент

EEAT и качество
Семантика и интент

Персонализация
Семантика и интент
Мультимедиа

Мультимедиа
Поведенческие сигналы
SERP

Ссылки
Поведенческие сигналы
Мультимедиа

Knowledge Graph
Семантика и интент
EEAT и качество

Поведенческие сигналы
Семантика и интент
SERP

Ссылки
SERP
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
SERP

Семантика и интент
EEAT и качество
Индексация

Индексация
Ссылки
Техническое SEO
