Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google создает временные шкалы (Timelines), определяя ключевые события и выбирая лучшие статьи для новостных сюжетов

    AUTOMATED IDENTIFICATION OF NEWS EVENTS (Автоматическая идентификация новостных событий)
    • US8849809B1
    • Google LLC
    • 2014-09-30
    • 2010-03-11
    2010 Патенты Google Свежесть контента Семантика и интент

    Google использует систему для автоматического построения истории развития новостного сюжета. Анализируя объем, качество и динамику публикаций во времени, система определяет отдельные «события» внутри большой темы. Для каждого события выбирается наиболее качественная и репрезентативная статья, формируя временную шкалу (Timeline).

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему переизбытка информации при освещении развивающихся новостных сюжетов. Пользователям сложно понять историю темы из-за большого количества статей с повторяющейся информацией. Традиционная кластеризация по ключевым словам неэффективна для разделения сюжета на отдельные события, так как более поздние статьи часто резюмируют предыдущие. Изобретение направлено на автоматическое выявление значимых событий внутри темы и представление их в виде хронологической сводки.

    Что запатентовано

    Запатентована система автоматической генерации временной шкалы (Timeline) или сводки (Summary) для новостного сюжета. Система анализирует паттерны публикаций во времени (объем и качество), а не только их содержание. Она идентифицирует всплески активности (candidate regions), распределяет между ними желаемое количество событий с помощью адаптивного механизма квот (Quota и Spill) и выбирает наиболее качественную репрезентативную статью для каждого события.

    Как это работает

    Система работает в несколько этапов:

    • Агрегация и Оценка: Статьи по теме группируются. Для каждой рассчитывается Article Score (на основе Content Quality Score и Source Quality Score).
    • Сглаживание (Моментум): Применяется фильтр нижних частот (low-pass filter) для сглаживания оценок во времени. Оценка текущей статьи зависит от оценок предыдущих, создавая эффект «моментума» истории.
    • Идентификация Всплесков: Устанавливается порог (Threshold). Интервалы ниже порога игнорируются, а оставшиеся формируют candidate regions (всплески активности).
    • Распределение Событий: Система определяет желаемое количество событий для сводки и распределяет его между candidate regions пропорционально их значимости, используя механизм Quota и Spill.
    • Сегментация: Регионы с квотой больше 1 разделяются на под-события путем локального повышения порога.
    • Выбор Статей: Для каждого финального события выбирается репрезентативная статья (обычно с наивысшим Article Score, используя кластеризацию для удаления выбросов).
    • Презентация: Формируется временная шкала с выбранными статьями.

    Актуальность для SEO

    Высокая. Организация сложных и развивающихся новостных сюжетов остается ключевой задачей для Google News и блока «Главные новости» (Top Stories). Механизмы, описанные в патенте для идентификации ключевых моментов (Burst Detection) и выбора авторитетных источников для их освещения, напрямую соответствуют современным требованиям к структурированию новостного контента.

    Важность для SEO

    Патент имеет высокое значение (75/100) для новостных сайтов и стратегий News SEO. Он детально описывает механизм отбора статей для максимальной видимости во временных шкалах и новостных сводках. Патент подчеркивает критическую роль качества источника (Source Quality Score), качества контента (Content Quality Score) и последовательности освещения темы (эффект моментума) для выбора статьи в качестве репрезентативной.

    Детальный разбор

    Термины и определения

    Article Score (Оценка статьи)
    Численная метрика качества статьи. Рассчитывается на основе Content Quality Score и Source Quality Score. Скорректирована с помощью low-pass filter.
    Candidate Region (Кандидатный регион)
    Непрерывная последовательность временных интервалов (Time Entries), чьи оценки превышают порог (Threshold). Представляет собой всплеск публикационной активности (потенциальное событие).
    Content Quality Score (Оценка качества контента)
    Метрика, оценивающая качество самой статьи (например, длина, грамматика, спам-сигналы).
    Low-pass filter (Фильтр нижних частот)
    Механизм сглаживания данных, который корректирует оценку текущей статьи на основе оценок предыдущих статей. Создает эффект «моментума» или «импульса» истории.
    Quota (Квота)
    Целое число, представляющее количество событий (слотов в сводке), выделенное для конкретного Candidate Region пропорционально его значимости.
    Scoring Factor (Коэффициент масштабирования)
    Значение, используемое для расчета квот. Рассчитывается как (Желаемое количество регионов) / (Сумма всех оценок временных интервалов).
    Source Quality Score (Оценка качества источника)
    Метрика, оценивающая общий авторитет источника публикации (например, трафик, цитируемость, размер редакции). Может быть специфичной для тематики.
    Spill (Остаток)
    Дробная часть, остающаяся после вычисления Quota. Суммарный остаток перераспределяется между регионами.
    Time Entry (Временной интервал)
    Период времени, в течение которого были опубликованы одна или несколько статей по теме. Имеет ассоциированную оценку (Time Entry Score).

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной процесс автоматической идентификации новостных событий.

    1. Вычисление Article Score для множества статей по теме. Ключевой момент: оценка статьи рассчитывается, в частности, на основе оценки другой статьи, опубликованной до нее (это указывает на применение сглаживающего фильтра / эффекта моментума).
    2. Получение оценок для временных интервалов (Time Entries) на основе комбинации Article Scores.
    3. Идентификация Candidate Regions: последовательностей интервалов, разделенных пробелами, где оценки ниже порога (Threshold).
    4. Выбор множества регионов из кандидатов.
    5. Выбор репрезентативной статьи для каждого выбранного региона.
    6. Предоставление сводки (Summary) темы.

    Claim 3 (Зависимый от 1, неявно в тексте PDF): Уточняет, что Article Score основан как минимум на Content Quality Score и Source Quality Score.

    Claims 5, 6, 7 (Зависимые): Детализируют механизм выбора регионов (Шаг 4 из Claim 1) – систему Quota и Spill.

    • Claim 5: Описывает расчет Scoring Factor и базовое определение Quota (целая часть) и Spill (дробная часть) для каждого региона пропорционально его значимости.
    • Claim 6: Описывает перераспределение суммарного Spill. Остатки добавляются в виде целых единиц к Quota регионов, ранжированных по специальной эвристике.
    • Claim 7: Описывает суб-сегментацию. Если Quota региона больше 1, он разделяется на соответствующее количество подрегионов.

    Claim 9 (Зависимый от 1): Уточняет метод выбора репрезентативной статьи (Шаг 5 из Claim 1). Статьи внутри региона кластеризуются. Выбирается статья с наивысшим Article Score из основного кластера, игнорируя выбросы (outliers). Это гарантирует выбор качественной и репрезентативной статьи.

    Где и как применяется

    Изобретение применяется в системах агрегации и структурирования новостного контента, таких как Google News или блок «Главные новости» (Top Stories).

    INDEXING – Индексирование и извлечение признаков
    На этом этапе собираются статьи и происходит их первичная кластеризация по темам. Рассчитываются и сохраняются ключевые метрики качества: Content Quality Score и Source Quality Score.

    RANKING (Специализированный процесс) / METASEARCH – Метапоиск и Смешивание
    Основное применение патента. Когда система генерирует сводку или временную шкалу для развивающегося сюжета:

    1. Динамическая оценка: Система анализирует временной ряд публикаций. Рассчитываются финальные Article Scores с применением low-pass filter (моментум).
    2. Структурирование: Выполняется алгоритм идентификации и выбора событий (Candidate Regions, Quota и Spill).
    3. Отбор контента: Выбираются репрезентативные статьи на основе качества и кластеризации (Claim 9).
    4. Формирование SERP Feature: Генерируется финальный виджет временной шкалы или структурированной новостной сводки.

    Входные данные:

    • Набор статей, сгруппированных по теме.
    • Время публикации каждой статьи (Timestamps).
    • Предварительные оценки качества контента и источника.

    Выходные данные:

    • Структурированная сводка темы (Timeline).
    • Набор репрезентативных статей для каждого ключевого события.

    На что влияет

    • Конкретные типы контента: Новостные статьи, блог-посты, микроблоги (упоминаются как источники).
    • Специфические запросы: Запросы, связанные с трендовыми темами, развивающимися историями (QDF — Query Deserves Freshness), где важна хронология развития (например, выборы, конференции, происшествия).
    • Конкретные ниши: Все новостные ниши (политика, спорт, технологии, финансы и т.д.).

    Когда применяется

    • Условия работы: Применяется к темам, по которым существует достаточное количество публикаций во времени для идентификации паттернов и всплесков активности.
    • Триггеры активации: Когда система (Google News, Top Stories) определяет, что тема является развивающейся и пользователю будет полезна хронологическая сводка событий.

    Пошаговый алгоритм

    Этап 1: Подготовка и оценка данных (Моментум)

    1. Сбор данных: Агрегация статей по теме.
    2. Расчет базовых Article Scores: Вычисление оценки на основе Content Quality Score и Source Quality Score.
    3. Применение Low-Pass Filter (Сглаживание/Моментум): Система проходит от самой старой статьи к самой новой, корректируя оценки. Формула: adjusted score[i] = score[i] + α * adjusted score[i-1] (где α — коэффициент затухания, например, 0.99).
    4. Расчет Time Entry Scores: Временная шкала делится на интервалы (Time Entries). Для каждого вычисляется оценка (например, сумма скорректированных Article Scores).

    Этап 2: Идентификация и выбор событий (Распределение)

    1. Идентификация Candidate Regions: Установка глобального порога (Threshold). Интервалы ниже порога удаляются. Оставшиеся непрерывные последовательности формируют Candidate Regions (всплески).
    2. Определение желаемого количества событий (N): Расчет целевого количества событий. Пример формулы: 2 * log(number of days) + 1.
    3. Расчет Quota и Spill:
      1. Вычисление Scoring Factor = N / (Сумма всех оценок).
      2. Для каждого региона расчет: Result = Scoring Factor * (Сумма оценок региона).
      3. Определение Quota (целая часть Result) и Spill (дробная часть).
    4. Перераспределение Spill: Суммарный остаток распределяется в виде целых единиц к Quota приоритетных регионов. Приоритет определяется эвристикой ранжирования. Эвристика сравнения регионов p и q: ((p.quota+C)*q.spill) < ((q.quota+C)*p.spill) (где C — константа, например, 0.3).
    5. Суб-сегментация: Для регионов с Quota > 1 выполняется разделение на подрегионы путем локального повышения порога внутри региона.

    Этап 3: Выбор контента и презентация

    1. Кластеризация (Claim 9): Для каждого финального региона статьи кластеризуются для отделения основного массива от выбросов (outliers).
    2. Выбор репрезентативной статьи: Выбирается статья с наивысшим Article Score из основного кластера.
    3. Генерация сводки: Построение временной шкалы (Timeline).

    Какие данные и как использует

    Данные на входе

    Система использует данные для расчета Article Score и построения временной шкалы:

    • Временные факторы: Время публикации каждой статьи критически важно для всего процесса.
    • Контентные факторы (для Content Quality Score): Длина статьи, использование хорошей грамматики, сигналы, указывающие на спам, ссылки между статьями.
    • Факторы качества источника (для Source Quality Score):
      • Сторонние рейтинги и ранги важности источника.
      • Количество публикуемых статей и их средняя длина.
      • Количество оригинальных именованных сущностей (original named entities) – признак оригинальности контента.
      • Объем и география сетевого трафика на сайт источника.
      • Статистика циркуляции (circulation statistics).
      • Размер редакции (staff size).
      • Тематическая авторитетность (оценка может быть специфичной для категории темы).

    Какие метрики используются и как они считаются

    • Article Score: Агрегация Content Quality Score и Source Quality Score.
    • Adjusted Article Score (Скорректированная оценка): Результат применения Low-pass filter. Формула: adjusted score[i] = score[i] + α * adjusted score[i-1].
    • Time Entry Score: Сумма скорректированных Article Scores в интервале.
    • Threshold (Порог): Значение (фиксированное или динамическое) для фильтрации шума и разделения активности на регионы.
    • Desired Number of Regions: Целевое количество событий. Пример формулы: 2 * log(number of days) + 1.
    • Scoring Factor, Quota, Spill: Метрики для пропорционального распределения событий.
    • Эвристика ранжирования Spill: Формула для определения приоритета при распределении остатков: ((p.quota+C)*q.spill) < ((q.quota+C)*p.spill).

    Выводы

    1. События определяются динамикой публикаций, а не только семантикой: Google автоматически сегментирует новостной сюжет на отдельные события, анализируя всплески публикационной активности (Burst Detection) во времени.
    2. Критическая роль качества источника и контента: Source Quality Score и Content Quality Score определяют Article Score. Статья с наивысшим Article Score выбирается для представления события в таймлайне.
    3. Эффект «Моментума» (Low-pass filter) поощряет последовательность: Система учитывает предысторию публикаций (Claim 1). Оценка текущей статьи зависит от оценок предыдущих. Это дает преимущество источникам, которые последовательно и качественно освещают развивающуюся историю, а не публикуют контент изолированно.
    4. Адаптивное распределение значимости (Quota и Spill): Механизм позволяет адаптивно распределять ограниченное пространство в сводке пропорционально значимости каждого всплеска активности. Более крупные всплески могут быть разделены на несколько под-событий.
    5. Система ищет консенсус и отсекает выбросы (Кластеризация): Механизм выбора статьи (Claim 9) включает кластеризацию внутри региона. Система предпочитает статьи из основного кластера (консенсус), игнорируя выбросы (outliers), даже если у них высокий Article Score.

    Практика

    Best practices (это мы делаем)

    • Укрепление Source Quality Score (E-E-A-T): Критически важно работать над сигналами, которые Google использует для оценки качества источника (авторитетность, трафик, размер редакции, оригинальность контента – original named entities). Развивайте тематическую авторитетность (Topical Authority), так как Source Quality Score может быть специфичным для ниши.
    • Последовательное и качественное освещение историй (Leveraging Momentum): Используйте эффект «моментума» (low-pass filter). Источники, которые регулярно и качественно освещают тему с самого начала, увеличивают скорректированные оценки своих последующих статей по этой теме.
    • Обеспечение высокого Content Quality Score: Публикуйте качественные, полные, грамотные материалы. Это напрямую влияет на Article Score.
    • Оперативность и полнота: Необходимо оперативно публиковать контент во время всплеска активности (Candidate Region). Важно быстро предоставить наиболее полный и качественный материал по мере развития события.
    • Соответствие основному нарративу события: Убедитесь, что статья четко освещает суть происходящего. Это повышает вероятность попадания в центральный кластер и снижает риск быть классифицированным как «выброс» (outlier) согласно Claim 9.

    Worst practices (это делать не надо)

    • Непоследовательное освещение (Spiky Coverage): Попытки «запрыгнуть» в популярную тему с единичной статьей менее эффективны из-за low-pass filter, который отдает предпочтение источникам с историей освещения темы.
    • Кликбейт и низкокачественный контент: Статьи с низким Content Quality Score маловероятно будут выбраны для представления события.
    • Медленное реагирование на тренды: Публикация статей после того, как всплеск активности угас, не позволит статье участвовать в отборе для этого события.
    • Игнорирование авторитетности сайта: Фокус только на контенте без работы над общим Source Quality Score снижает конкурентоспособность в новостных сводках.
    • Искажение фактов или фокус на второстепенных деталях: Статьи, которые сильно отличаются от основного потока новостей, рискуют быть классифицированы как выбросы (outliers) и будут исключены из выбора.

    Стратегическое значение

    Патент раскрывает стратегию Google по организации информации вокруг развивающихся тем и приоритизации качества в новостном контексте. Для издателей это означает, что доминирование в Google News и Top Stories требует сочетания трех факторов: высокого качества источника (Авторитетность), высокого качества контента (Качество) и последовательного, своевременного освещения (Консистентность и Скорость). Эффект «моментума» подчеркивает важность долгосрочной стратегии освещения ключевых тем.

    Практические примеры

    Сценарий: Освещение многодневного события (например, запуск космической миссии)

    Цель: Максимизировать присутствие в таймлайне Google.

    1. Подготовка (Создание Моментума): За несколько дней до запуска публикуются качественные превью и аналитика. Это создает начальный «моментум» благодаря low-pass filter.
    2. День Запуска (Крупный всплеск): Происходит мощный всплеск публикаций (большой Candidate Region).
      1. Действие: Оперативно публиковать детальный репортаж о запуске.
      2. Результат: Система присваивает этому пику Quota=3 и делит его на три субрегиона («Подготовка к старту», «Успешный старт», «Выход на орбиту»). Качественная статья издания имеет высокий шанс быть выбранной для одного из них, так как у нее высокий Article Score, усиленный моментумом.
    3. Следующий день (Анализ полета): Активность ниже, но все еще значительная (меньший Candidate Region).
      1. Действие: Опубликовать эксклюзивный комментарий эксперта.
      2. Результат: Благодаря механизму Quota/Spill, этот день также получает представительство (Quota=1). Эксклюзивный материал (высокий Article Score) выбирается как репрезентативная статья для этого этапа.

    Вопросы и ответы

    Что такое эффект «моментума» (low-pass filter) и как он влияет на SEO?

    Это механизм сглаживания (Claim 1), который корректирует оценку статьи с учетом оценок статей, опубликованных ранее (формула: adjusted score[i] = score[i] + α * adjusted score[i-1]). Если статья публикуется в контексте предшествующей высококачественной активности по теме, ее оценка повышается. Для SEO это означает, что последовательное и качественное освещение темы с самого начала увеличивает вес последующих публикаций по этой же теме.

    Является ли скорость публикации самым важным фактором для попадания в таймлайн?

    Нет, это не единственный фактор. Оперативность важна для того, чтобы статья попала в соответствующий временной регион (пик активности). Однако среди всех статей, опубликованных вовремя, система выбирает репрезентативную статью на основе наивысшего Article Score (Качество контента + Качество источника).

    Как определяется Source Quality Score (Оценка качества источника)?

    Патент перечисляет множество сигналов: сторонние рейтинги, объем и география сетевого трафика, статистика тиража (circulation statistics), размер штата редакции (staff size), количество оригинальных именованных сущностей. Также упоминается, что оценка может быть специфичной для тематики (Topical Authority). Это соответствует принципам E-E-A-T для издателей.

    Что такое механизм Quota и Spill и зачем он нужен?

    Это механизм пропорционального распределения. Он гарантирует, что желаемое количество событий в таймлайне распределяется между разными пиками активности справедливо. Quota определяет гарантированное количество событий для крупного пика, а Spill (остатки) перераспределяется, чтобы менее крупные, но значимые события также получили представительство.

    Как Google определяет, является ли моя статья репрезентативной или выбросом (outlier)?

    Патент описывает (Claim 9) кластеризацию статей внутри временного региона. Система группирует похожие статьи и выбирает лучшую статью из центрального (основного) кластера. Статьи, которые сильно отличаются по содержанию от большинства (например, освещают второстепенный аспект), классифицируются как выбросы и игнорируются.

    Как система решает, сколько всего событий показать в Timeline?

    Количество событий (Desired Number of Regions) определяется динамически. Патент предлагает формулу, основанную на продолжительности освещения темы, например: 2 * log(number of days) + 1. Для более длительных сюжетов система покажет больше ключевых событий.

    Применяется ли этот алгоритм только к Google News?

    Хотя это основной кандидат для Google News, описанные механизмы также могут использоваться для генерации блока «Главные новости» (Top Stories) в основной выдаче Google или любых других функций, где требуется представить хронологию развития трендовой темы.

    Что происходит, если в одном временном регионе произошло несколько важных событий одновременно?

    Если регион получает Quota больше 1 (например, 3) из-за высокой активности, система разделит его на 3 субрегиона. Это достигается путем локального повышения порога (Threshold) только для этого региона, пока он не распадется на нужное количество отдельных пиков, каждый из которых будет представлять отдельное событие.

    Влияет ли этот патент на ранжирование вечнозеленого контента?

    Нет. Этот патент специфичен для анализа динамики публикаций во времени и построения хронологии новостных сюжетов. Он не применяется к ранжированию вечнозеленого (evergreen) контента, где временная динамика не является определяющим фактором.

    Как использовать знание этого патента для улучшения стратегии News SEO?

    Необходимо сосредоточиться на четырех направлениях: повышении глобальной авторитетности источника (Source Quality), обеспечении высокого качества статей (Content Quality), оперативном реагировании на события (Скорость) и последовательном освещении ключевых тем с самого начала для использования эффекта «моментума» (Консистентность).

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.