Как Яндекс определяет важность новостей и авторитетность источников для генерации срочных уведомлений

Яндекс патентует метод оценки важности новостных событий для push-уведомлений. Важность рассчитывается как произведение авторитетности источника (Source Weight), определяемой по его реальному трафику (логи браузеров, Метрика, клики из поиска), и свежести публикации (Freshness). Новости кластеризуются по темам, и общая важность события (Importance Rank) определяется суммой оценок статей в кластере, выявляя тренды по концентрации публикаций авторитетных СМИ.

Описание

Какую задачу решает

Патент решает задачу автоматического, быстрого и объективного определения наиболее важных («срочных» или «breaking news») новостных событий в реальном времени для отправки push-уведомлений. Он устраняет недостатки существующих подходов: ручная модерация медленна и субъективна, а методы, основанные на CTR (Click-Through Rate), уязвимы для кликбейта и могут давать неточную оценку реальной важности новости.

Что запатентовано

Запатентована система и метод расчета Оценки Важности (Importance Score) для цифровых новостных элементов и Ранга Важности (Importance Rank) для новостных кластеров (событий). Суть изобретения заключается в формуле, определяющей важность новости как произведение двух факторов: Веса Источника (Source Weight), основанного на размере его аудитории, и функции времени публикации, отражающей свежесть.

Как это работает

Система агрегирует новости из различных источников и группирует их в тематические кластеры. Для каждого источника рассчитывается Вес Источника (Source Weight) на основе данных о его посещаемости (из логов браузера, веб-аналитики или логов поисковой системы). Для каждой новости рассчитывается Оценка Важности (Importance Score): чем авторитетнее источник и чем свежее новость, тем выше оценка. Затем вычисляется Ранг Важности (Importance Rank) для всего кластера путем суммирования оценок входящих в него новостей. Если ранг кластера превышает порог, система выбирает репрезентативную новость и генерирует push-уведомление.

Актуальность для SEO

Высокая. Автоматизированная оценка важности новостей в реальном времени является ключевой функцией новостных агрегаторов (Яндекс.Новости) и рекомендательных систем. Описанные методы использования данных об аудитории (включая Яндекс.Метрику и логи браузеров) для определения авторитетности источника крайне актуальны для понимания принципов работы Яндекса в 2025 году.

Важность для SEO

Влияние на SEO значительно для новостных сайтов и медиа (7/10). Хотя патент описывает систему генерации push-уведомлений, а не ранжирование в основном поиске, он раскрывает критически важные механизмы, которые Яндекс использует для количественной оценки авторитетности новостных источников (Source Weight) и влияния свежести. Понимание того, что авторитетность напрямую зависит от реального охвата и посещаемости, необходимо для разработки SEO-стратегии новостных ресурсов.

Детальный разбор

Термины и определения

Digital News Cluster (Кластер цифровых новостей): Группа цифровых новостных элементов, объединенных одной темой или событием.
F(t) / Publication Time Function (Функция времени публикации / Свежесть): Функция, отражающая актуальность новости. В описании патента указано, что ее значение максимально в момент публикации и уменьшается с течением времени (функция затухания).
Importance Rank (R) (Ранг Важности): Оценка важности всего новостного кластера (события). Рассчитывается как сумма Оценок Важности (Importance Scores) всех новостных элементов, входящих в кластер.
Importance Score (r) (Оценка Важности): Оценка важности отдельного цифрового новостного элемента. Рассчитывается как произведение Веса Источника и Функции Свежести.
News Item Publication Time (t^publ) (Время публикации новости): Момент времени, когда новостной элемент был опубликован источником.
Representative Digital News Item (Репрезентативный новостной элемент): Элемент, выбранный из кластера для использования в push-уведомлении. Выбор основан на свежести, содержании (частота слов, длина текста) и весе источника.
Sampling Time (t⁰) (Время выборки): Текущий момент времени, в который система производит расчет оценок.
Source Weight (W^S) (Вес Источника): Метрика авторитетности и охвата аудитории источника. Определяется на основе количества пользователей, посещающих источник за определенный период, с использованием данных из логов браузеров, систем веб-аналитики (например, Яндекс.Метрика) и логов поисковой системы.
Time Concentration (Временная Концентрация): Плотность публикаций новостных элементов по одной теме на временной шкале. Высокая концентрация сигнализирует о важном событии.
Spike Time (Время Всплеска): Момент времени, когда наблюдается пик публикационной активности (максимальная концентрация) в рамках кластера.

Ключевые утверждения (Анализ Claims)

Ядром изобретения является метод количественной оценки важности новостного события, основанный на агрегировании сигналов авторитетности источников и свежести их публикаций.

Claim 1 (Независимый пункт): Описывает полный процесс работы системы с использованием кластеризации.

Система получает доступ к множеству цифровых новостных элементов.
Генерируется новостной кластер, объединяющий элементы по одной теме.
Для каждого источника определяется количество пользователей, посетивших его за прошедший период. Критически важно: это определение основано на данных логов поисковой системы (search engine log data), указывающих на клики с SERP на источник.
На основе этого количества пользователей определяется Вес Источника (Source Weight).
Для каждого элемента рассчитывается Оценка Важности (Importance Score) на основе времени публикации и Веса Источника.
Рассчитывается Ранг Важности (Importance Rank) для кластера на основе оценок важности входящих в него элементов.
Выбирается репрезентативный элемент из кластера (на основе частоты предопределенных слов и времени публикации).
Если Ранг Важности кластера превышает порог, генерируется и отправляется push-уведомление.

Claim 5 (Зависимый от 1): Определяет формулу расчета Оценки Важности (r).

$$r = W^{S} \cdot F(t)$$

Где $W^{S}$ – Вес Источника, а $F(t)$ – Функция времени публикации (свежести).

Claim 6 (Зависимый от 5): Определяет Функцию времени публикации F(t).

$$F(t) = sigm(t^{0} — t^{publ})$$

Где $sigm$ – сигмовидная функция, $t^{0}$ – время выборки, а $t^{publ}$ – время публикации.

Техническое примечание (Обработка неопределенности): В тексте патента существует потенциальное противоречие. В описании и на схеме (FIG. 3) F(t) представлена как функция затухания (уменьшается по мере увеличения времени с момента публикации). Однако стандартная сигмовидная функция возрастает при увеличении аргумента ($t^{0} — t^{publ}$). Вероятно, в формуле Claim 6 подразумевается обратная зависимость или нестандартная функция затухания. Тем не менее, согласно тексту Claim 6, используется именно эта формула.

Claim 7 (Зависимый от 1): Определяет формулу расчета Ранга Важности (R) для кластера.

Ранг Важности рассчитывается как сумма Оценок Важности всех (m) элементов в кластере:

$$R = \sum_{k=1}^{m} r_{k}$$

Claim 14 (Зависимый от 1): Уточняет, что расчет Оценки Важности также включает анализ концентрации (concentration) публикаций во времени.

Где и как применяется

Патент описывает работу системы агрегации новостей и генерации уведомлений (например, сервис срочных новостей Яндекс.Новости), а не основного алгоритма ранжирования веб-поиска.

CRAWLING – Сканирование и Сбор данных
Компонент Aggregator (Агрегатор) постоянно сканирует цифровые источники новостей. Вероятно, используется Быстроробот (Orange) для обеспечения минимальных задержек. Система может приоритизировать или ограничиваться «надежными» (trustworthy) источниками.

INDEXING – Индексирование и извлечение признаков

Кластеризация: Cluster Manager (Менеджер кластеров) группирует новости по темам/событиям в реальном времени.
Расчет метрик (Офлайн/Периодически): News Analyzer (Анализатор новостей) рассчитывает Source Weight (W^S). Для этого он анализирует внешние данные: логи браузеров, данные Метрики, логи поисковой системы.
Извлечение признаков (Онлайн): Извлечение точного времени публикации (t^publ) для каждой статьи.

RANKING (Ранжирование Важности Новостей)
Анализатор новостей рассчитывает Importance Score (r) для статей и Importance Rank (R) для кластеров в момент выборки (t⁰). Также анализируется динамика публикаций (Time Concentration, Spikes).

Пост-обработка (Генерация Уведомлений)
Компонент Notification Pusher (Отправитель уведомлений) выбирает кластеры, превысившие порог, определяет репрезентативную статью, выполняет дедупликацию и отправляет уведомление.

На что влияет

Конкретные типы контента: Влияет исключительно на цифровой новостной контент (статьи, пресс-релизы, блоги).
Специфические запросы/Тематики: Ориентирован на времязависимые (time-sensitive) события и трендовые темы (QDF — Query Deserves Freshness).
Ниши: Наибольшее влияние оказывается на издателей новостей (СМИ) во всех тематиках.

Когда применяется

Частота применения: Алгоритм работает непрерывно или периодически с высокой частотой (в патенте упоминаются интервалы 15-30 минут) по мере поступления новых данных от краулера.
Триггеры активации: Отправка уведомления инициируется, когда Ранг Важности (R) кластера превышает установленный порог (Importance Rank Threshold).
Пороговые значения: Порог может быть динамическим. В патенте упоминается возможность его определения на основе целевого количества push-уведомлений (например, Топ-5 новостей за период).

Пошаговый алгоритм

Этап 1: Предварительные расчеты (Офлайн/Периодически)

Сбор статистики аудитории: Система анализирует данные из логов браузеров, систем веб-аналитики (Яндекс.Метрика) и логов поисковой системы (клики из SERP) для определения посещаемости каждого источника новостей.
Расчет Веса Источника: На основе собранной статистики для каждого источника определяется его Вес (Source Weight W^S).

Этап 2: Обработка новостного потока (Онлайн/Real-time)

Агрегация новостей: Сбор новых новостных элементов с фиксацией времени публикации (t^publ).
Кластеризация: Группировка новостей по темам.
Расчет Функции Свежести: В момент выборки (t⁰) для каждой новости рассчитывается F(t) (функция затухания актуальности).
Расчет Оценки Важности Статьи: Для каждой статьи рассчитывается Оценка Важности (r) по формуле: $r = W^{S} \cdot F(t)$.
Расчет Ранга Важности Кластера: Для каждого кластера рассчитывается Ранг Важности (R) путем суммирования Оценок Важности (r) всех входящих в него новостей: $R = \sum r_k$. На этом этапе учитывается временная концентрация публикаций.

Этап 3: Генерация уведомлений

Фильтрация по порогу: Отбор кластеров, чей Ранг Важности (R) превышает пороговое значение.
Выбор Репрезентативной Новости: Из отобранных кластеров выбирается лучшая статья для уведомления (на основе свежести, веса источника, анализа заголовка/контента).
Проверка Дубликатов: Проверка, не отправлялось ли уже уведомление по этому событию за последнее время.
Отправка: Генерация и отправка push-уведомления пользователям.

Какие данные и как использует

Данные на входе

Временные факторы: Точное время публикации новости (t^publ). Критически важно для расчета F(t) и анализа концентрации публикаций (Time Concentration, Spike Time).
Поведенческие факторы / Статистика Источника (RUD — Real User Data): Данные для расчета Веса Источника (W^S). Патент явно указывает на использование:
- Логов браузеров (например, Яндекс.Браузер).
- Приложений веб-аналитики, установленных на источнике (например, Яндекс.Метрика).
- Логов поисковой системы (клики с SERP на источник).
Контентные факторы: Текст и заголовки статей. Используются для кластеризации и для выбора репрезентативной статьи (анализ длины текста, частоты слов).
Технические факторы: URL статей (для идентификации и дедупликации).

Какие метрики используются и как они считаются

Система использует четко определенный набор метрик и формул:

Вес Источника (W^S): Количественная оценка авторитетности, основанная на количестве пользователей, посещающих источник за определенный интервал времени.
Функция Времени Публикации (F(t)): Метрика свежести. Описана как функция затухания. Формула, указанная в Claim 6:
$$F(t) = sigm(t^{0} — t^{publ})$$
(Несмотря на отмеченное выше потенциальное противоречие с описанием функции затухания).
Оценка Важности (r): Основная метрика для статьи. Рассчитывается по формуле:
$$r = W^{S} \cdot F(t)$$
Ранг Важности (R): Основная метрика для события (кластера). Рассчитывается по формуле:
$$R = \sum_{k=1}^{m} r_{k}$$
Временная Концентрация и Всплеск (Spike): Анализ плотности публикаций ($N^{\Delta t}$) за период времени ($\Delta t$). Высокая концентрация указывает на важное событие.

Выводы

Формула Важности Новости = Авторитетность × Свежесть: Яндекс использует простую и мощную формулу для количественной оценки важности новостного контента: $r = W^{S} \cdot F(t)$. Оба компонента критичны.
Авторитетность (Source Weight) измеряется реальным трафиком (RUD): Ключевой вывод для SEO — авторитетность новостного источника определяется не ссылками, а фактическим размером аудитории. Яндекс измеряет это напрямую через свои сервисы: логи Браузера, данные Метрики и клики из Поиска. Это практическая реализация E-E-A-T для новостей.
Быстрое устаревание новостей (Свежесть): Использование функции затухания F(t) означает, что ценность новости падает очень быстро. Скорость публикации имеет решающее значение.
Фокус на событии и Концентрации публикаций: Решение о важности принимается на уровне кластера (события). Ранг Важности (R) высок, когда много авторитетных источников публикуют новость в короткий промежуток времени (высокая Time Concentration).
Иммунитет к кликбейту: Система специально разработана для игнорирования CTR при оценке важности, что делает ее устойчивой к манипуляциям через кликбейтные заголовки.

Практика

Best practices (это мы делаем)

Рекомендации критически важны для стратегии в Яндекс.Новостях и общих принципов News SEO.

Наращивание реальной авторитетности и аудитории (Увеличение W^S): Необходимо фокусироваться на росте общей посещаемости и лояльной аудитории. Поскольку Яндекс измеряет W^S через Метрику, логи браузеров и клики с поиска, важно стимулировать использование экосистемы Яндекса и обязательно устанавливать Яндекс.Метрику для предоставления полных данных.
Максимизация скорости публикации (Увеличение F(t)): Скорость реакции на событие критична. Необходимо обеспечить максимально быстрое появление качественного контента на сайте после возникновения инфоповода, так как функция свежести быстро убывает.
Точность временных меток: Убедитесь, что CMS и разметка (например, Schema.org datePublished) передают абсолютно точное время публикации (t^publ). Ошибки во времени напрямую снижают F(t).
Оптимизация контента для репрезентативности: Работайте над качеством заголовков и текста. Поскольку система выбирает репрезентативный элемент из кластера (на основе контента, свежести и веса), качественный материал повышает шансы быть выбранным в качестве основного источника по событию.

Worst practices (это делать не надо)

Ставка на кликбейт для повышения видимости: Патент явно указывает, что система уходит от использования CTR для оценки важности. Кликбейт не поможет увеличить Importance Score.
Медленная публикация: Задержка в публикации контента о важном событии резко снижает F(t), делая даже авторитетный источник (высокий W^S) менее влиятельным в контексте этого события.
Манипуляции со временем публикации: Попытки искусственно «обновить» дату публикации для повышения F(t), вероятно, будут неэффективны, так как система анализирует время первого появления новости и динамику всего кластера.
Игнорирование экосистемы Яндекса (Метрика, Браузер): Отсутствие Яндекс.Метрики или низкая доля пользователей Яндекс.Браузера может привести к недооценке реального размера аудитории и занижению Веса Источника (W^S).

Стратегическое значение

Патент подтверждает стратегический фокус Яндекса на измеримых сигналах авторитетности, основанных на реальном поведении пользователей (RUD). Для новостных ресурсов E-E-A-T в интерпретации Яндекса тесно связан с реальным охватом и посещаемостью ресурса. Это подчеркивает важность построения сильного бренда и лояльной аудитории, а не только традиционных SEO-факторов. Также патент демонстрирует, что для новостного контента скорость является необходимым условием видимости.

Практические примеры

Сценарий: Произошло крупное событие. Система рассчитывает Оценку Важности.

Сайт А (Крупное СМИ): Высокий W^S (например, 100). Публикует новость через 5 минут после события. F(t) близка к максимуму (например, 0.9).

Оценка Важности: $r_A = 100 \cdot 0.9 = 90$.

Сайт Б (Нишевый блог): Низкий W^S (например, 5). Публикует новость через 5 минут после события. F(t) близка к максимуму (0.9).

Оценка Важности: $r_B = 5 \cdot 0.9 = 4.5$.

Сайт В (Крупное СМИ): Высокий W^S (100). Публикует новость через 2 часа после события. F(t) значительно снизилась (например, 0.2).

Оценка Важности: $r_C = 100 \cdot 0.2 = 20$.

Результат:

Ранг Важности Кластера $R = r_A + r_B + r_C + … = 90 + 4.5 + 20 + …$

Сайт А внес наибольший вклад в ранг кластера благодаря комбинации авторитетности и скорости. Сайт Б, несмотря на скорость, имеет низкое влияние из-за низкой авторитетности. Сайт В, несмотря на авторитетность, потерял актуальность из-за медленной реакции.

Вопросы и ответы

Как именно Яндекс рассчитывает «Вес Источника» (Source Weight, W^S)?

Патент дает конкретный ответ: Вес Источника определяется количеством пользователей, посещающих ресурс за определенный промежуток времени. Для сбора этих данных Яндекс использует три источника: логи браузеров (например, Яндекс.Браузер), данные систем веб-аналитики (например, Яндекс.Метрика) и логи поисковой системы (клики с SERP на источник). W^S — это метрика реального трафика и охвата.

Влияет ли этот патент на ранжирование в основном поиске Яндекса (Web Search)?

Напрямую нет. Патент фокусируется на методе определения важности новостей для генерации срочных push-уведомлений. Однако раскрытые механизмы оценки авторитетности источников (Source Weight) и важности событий с высокой вероятностью используются в Яндекс.Новостях, а также могут влиять на ранжирование в основном поиске для запросов, требующих свежести (QDF).

Что важнее для этой системы: авторитетность источника или скорость публикации?

Оба фактора критически важны, так как они перемножаются ($r = W^{S} \cdot F(t)$). Авторитетный источник с большой задержкой получит низкую Оценку Важности, так же как и быстрый, но неавторитетный источник. Необходим баланс обоих компонентов для достижения максимального результата.

Как быстро новость теряет свою важность согласно патенту?

Важность убывает согласно функции F(t), которая описана как функция затухания (и проиллюстрирована как убывающая кривая). Хотя в Claim 6 приведена формула с сигмоидой, которая может вызывать вопросы при стандартной интерпретации, намерение патента ясно: снижение важности происходит нелинейно и достаточно быстро. Для срочных новостей счет идет на минуты и часы.

Почему система использует кластеры, а не просто ранжирует отдельные статьи?

Использование кластеров позволяет оценить важность всего события (Importance Rank R). Важное событие обычно освещается многими авторитетными источниками одновременно. Суммируя оценки ($R = \sum r_k$), система надежно идентифицирует такие события (высокая временная концентрация) и отсеивает менее значимые инфоповоды.

Как система борется с кликбейтом?

В патенте явно указано, что одна из целей — уйти от использования CTR для оценки важности, так как CTR уязвим для кликбейта. Вместо анализа кликов по конкретной статье, система использует объективные факторы: авторитетность источника (W^S), основанную на общем охвате, и время публикации (F(t)).

Что такое «Временная Концентрация» (Time Concentration) и «Всплеск» (Spike)?

Это плотность выхода новостей по одной теме за короткий промежуток времени. Резкий всплеск (Spike) публикаций от разных источников сигнализирует о быстро развивающемся, важном событии. Система анализирует эту динамику, что может усиливать общий Ранг Важности кластера.

Как SEO-специалисту повлиять на Вес Источника (W^S)?

Необходимо работать над ростом общей посещаемости сайта и лояльной аудитории. С технической стороны, критически важно установить Яндекс.Метрику и обеспечить хорошую видимость сайта в поиске Яндекса, чтобы система могла корректно учитывать трафик из всех источников (включая клики с SERP и данные пользователей Яндекс.Браузера).

Что такое «Репрезентативный новостной элемент» и как он выбирается?

Это статья, которая используется для генерации текста и ссылки в push-уведомлении. Патент упоминает, что выбор основывается на свежести статьи, весе источника, анализе заголовка, длине текста или частоте определенных слов в тексте. Предпочтение отдается качественному контенту от авторитетных и быстрых источников.

Имеет ли этот патент значение, если мой сайт не является новостным ресурсом?

Прямое значение минимально, так как система предназначена для новостей. Однако, патент дает ценное представление о том, как Яндекс подходит к оценке авторитетности источников (через реальный трафик и экосистемные данные). Эти инсайты могут быть полезны для понимания общих принципов работы алгоритмов Яндекса, особенно связанных с E-E-A-T.