Как Яндекс определяет важность новостей для Push-уведомлений, используя авторитетность источника (трафик) и свежесть контента

Яндекс патентует метод автоматического выбора «срочных новостей» для отправки Push-уведомлений. Система рассчитывает «Оценку Значимости» новости, комбинируя два ключевых фактора: авторитетность источника (определяемую по объему его трафика, измеренного через сервисы Яндекса) и свежесть публикации (используя функцию затухания важности со временем). Новости кластеризуются, и если суммарная значимость кластера высока, система отправляет уведомление.

Описание

Какую задачу решает

Патент решает задачу автоматического и точного определения важности («срочности») цифровых новостных элементов для системы Push-уведомлений. Он направлен на устранение недостатков существующих подходов: ручной отбор новостей (медленный и субъективный) и отбор на основе CTR (уязвим для кликбейта). Изобретение повышает точность определения важности новостей, используя объективные метрики авторитетности источника и времени публикации.

Что запатентовано

Запатентована система и способ расчета Оценки Значимости (Significance Score) для цифровых новостей. Суть изобретения заключается в определении важности новости на основе двух компонентов: Весового коэффициента источника (Source Weight Coefficient), который отражает его авторитетность и рассчитывается по объему аудитории (трафика), и Функции времени публикации (Time Publication Function), которая моделирует затухание актуальности новости с момента ее выхода.

Как это работает

Система агрегирует новости из различных источников и группирует их в тематические кластеры. Параллельно рассчитывается авторитетность (Весовой коэффициент) каждого источника на основе данных о его посещаемости (например, из логов браузера или Яндекс.Метрики). Для каждой новости в кластере вычисляется индивидуальная Оценка Значимости путем умножения веса источника на функцию свежести. Затем система суммирует оценки всех новостей в кластере, получая Ранг Значимости Кластера (Cluster Significance Rank). Если этот ранг превышает порог, система генерирует и отправляет Push-уведомление.

Актуальность для SEO

Высокая. Автоматическое агрегирование новостей, учет авторитетности источников и критическая важность свежести (time-decay) являются фундаментальными принципами работы современных новостных агрегаторов и систем уведомлений (таких как Яндекс Новости). Описанный механизм объективной оценки важности событий остается крайне актуальным.

Важность для SEO

Влияние на SEO значительно (7/10), особенно для новостных сайтов и контентных проектов. Хотя патент описывает систему Push-уведомлений, а не ранжирование в веб-поиске, он раскрывает ключевые метрики, которые Яндекс использует для оценки новостного контента и авторитетности источников. Он прямо указывает, что авторитетность источника (Весовой коэффициент) измеряется объемом реального трафика, фиксируемого сервисами Яндекса. Это критически важно для стратегий продвижения в Яндекс Новостях и получения видимости по свежим запросам.

Детальный разбор

Термины и определения

Агрегатор (Aggregator): Компонент системы (поисковый робот), который посещает источники цифровых новостей, собирает и индексирует новостные элементы, фиксируя время публикации и источник.
Весовой коэффициент источника (Source Weight Coefficient, $W^S$): Метрика авторитетности источника. Определяется на основе числа пользователей, получающих доступ к источнику за определенный предыдущий интервал времени (объем аудитории/трафика).
Надежный источник (Reliable Source): Источник новостей, который система считает достоверным. Система может ограничивать сбор данных только надежными источниками. Критерием надежности может быть достижение порогового числа пользователей.
Оценка Значимости (Significance Score, $r$): Индивидуальная метрика важности цифрового новостного элемента. Рассчитывается по формуле: $r=W^{S}*F(t)$.
Ранг Значимости Кластера (Cluster Significance Rank, $R$): Суммарная метрика важности новостного события (кластера). Рассчитывается как сумма Оценок Значимости всех новостных элементов, входящих в кластер: $R=\Sigma r_{k}$.
Управляющее устройство кластера (Cluster Manager): Компонент, отвечающий за группировку (кластеризацию) собранных новостных элементов по тематикам.
Функция времени публикации (Time Publication Function, $F(t)$): Функция, моделирующая свежесть новости (time-decay). Она имеет максимальное значение в момент публикации и постепенно снижается со временем. В патенте предлагается использовать сигмовидную функцию.
Концентрация публикации (Publication Concentration): Плотность публикаций новостных элементов по одной теме за определенный период времени. Высокая концентрация увеличивает ранг значимости кластера.

Ключевые утверждения (Анализ Claims)

Патент защищает метод определения важности новостей для генерации уведомлений, основанный на объективных показателях авторитетности и свежести.

Claim 1 (Независимый пункт): Описывает базовый механизм работы системы.

Сервер получает доступ к цифровому новостному элементу, фиксируя время его публикации и источник.
Определяется Весовой коэффициент этого источника.
Вычисляется Оценка Значимости элемента на основе (i) времени публикации и (ii) весового коэффициента источника.
Если Оценка Значимости превышает установленный порог, сервер создает и передает Push-уведомление.

Claim 2 (Зависимый): Расширяет механизм до работы с кластерами новостей (новостными сюжетами).

Сервер создает цифровые новостные кластеры (группируя элементы по теме).
Для каждого элемента вычисляется индивидуальная Оценка Значимости.
Определяется Ранг Значимости Кластера на основе индивидуальных оценок элементов внутри него (суммированием).
Для кластера выбирается один представительный новостной элемент.
Если Ранг Значимости Кластера превышает порог, создается Push-уведомление.

Claim 4 и 5 (Зависимые): Определяют, как рассчитывается авторитетность источника.

Весовой коэффициент источника определяется как число пользователей, получающих доступ к источнику за заранее определенный период времени (Claim 4).
Критически важно: Данные о числе пользователей получаются из: (i) браузерных логов (например, Яндекс.Браузер), (ii) метрик веб-сайта (например, Яндекс.Метрика), или (iii) данных из логов поисковой системы (клики из SERP на источник) (Claim 5).

Claim 7 и 8 (Зависимые): Определяют формулу расчета Оценки Значимости.

Формула расчета (Claim 7): $r=W^{S}*F(t)$, где $W^S$ – Весовой коэффициент источника, $F(t)$ – Функция времени публикации.
Функция времени публикации $F(t)$ определяется как сигмовидная функция от разницы между временем выборки ($t^0$) и временем публикации ($t^{publ}$) (Claim 8): $F(t)=sigm(t^{0}-t^{publ})$. Это математически описывает затухание важности новости.

Claim 9 (Зависимый): Определяет формулу Ранга Значимости Кластера.

Ранг значимости кластера ($R$) определяется как сумма индивидуальных оценок значимости ($r_k$) всех элементов (m) в кластере: $R=\Sigma_{k=1}^{m}r_{k}$.

Где и как применяется

Изобретение описывает работу специализированной системы Push-уведомлений (вероятно, связанной с Яндекс Новостями или Браузером), а не основного веб-поиска. Однако оно задействует базовые компоненты поисковой архитектуры.

CRAWLING – Сканирование и Сбор данных
Компонент Агрегатор выполняет функции поискового робота (аналог быстроробота Orange), непрерывно обходя источники цифровых новостей. Он собирает контент и фиксирует точное время публикации ($t^{publ}$). Система может фокусироваться на Надежных источниках.

INDEXING – Индексирование и извлечение признаков
Управляющее устройство кластера анализирует контент и группирует новости по темам. Параллельно (офлайн или периодически) система анализирует данные о трафике (из логов браузеров, Метрики, логов поиска) для расчета Весового коэффициента ($W^S$) для каждого источника.

RANKING – Ранжирование (Специфическое для уведомлений)
Компонент Анализатор новостей выполняет ранжирование для выбора наиболее важных событий в реальном времени.

Вычисляется Оценка Значимости ($r$) для отдельных элементов с учетом веса источника и свежести.
Вычисляется Ранг Значимости Кластера ($R$).
Кластеры, превысившие пороговое значение $R$, выбираются для уведомления.

Доставка (Вне стандартной архитектуры поиска)
Отправитель пуш-уведомлений выбирает представительные элементы, проверяет историю отправок для дедупликации и передает уведомления пользователям.

На что влияет

Конкретные типы контента: Влияет исключительно на цифровые новостные элементы (статьи, блоги, пресс-релизы).
Специфические запросы: Система работает проактивно (Push), а не в ответ на запрос (Pull). Однако описанные метрики важности ($R$) могут использоваться и в ранжировании новостных вертикалей (Яндекс Новости) или блоков свежего контента в основном поиске по время-зависимым (QDF) запросам.
Ниши и тематики: Влияет на все тематики, где возможно появление срочных новостей. Приоритет получают темы, которые освещаются большим количеством авторитетных источников одновременно (высокая концентрация публикаций).

Когда применяется

Частота применения: Алгоритм работает непрерывно или периодически с высокой частотой. В патенте упоминаются периоды обхода и пересчета кластеров (например, каждые 15, 30 минут или час).
Триггеры активации: Активация происходит, когда Ранг Значимости Кластера ($R$) превышает установленный порог. Это случается при появлении «срочных новостей».
Пороговые значения: Порог ранга значимости может быть динамическим и корректироваться в зависимости от целевого числа Push-уведомлений (например, система стремится отправить Топ-5 новостей).

Пошаговый алгоритм

Процесс А: Офлайн/Периодический расчет Весовых коэффициентов

Сбор данных о трафике: Система собирает статистику посещаемости источников цифровых новостей. Используются данные из браузерных логов, систем аналитики (Яндекс.Метрика) и логов кликов поисковой системы.
Расчет Весового коэффициента ($W^S$): Для каждого источника определяется число пользователей, получивших к нему доступ за предыдущий интервал времени. Это значение используется как $W^S$.
Обновление базы данных: Значения $W^S$ сохраняются и периодически обновляются (например, еженедельно).

Процесс Б: Обработка новостей в реальном времени

Сбор новостей (Crawling): Агрегатор обходит источники и индексирует новые цифровые новостные элементы, фиксируя время публикации ($t^{publ}$).
Кластеризация: Управляющее устройство кластера группирует собранные элементы по темам. Кластеризация периодически повторяется.
Расчет Оценки значимости ($r$): Анализатор новостей для каждого элемента выполняет расчет в текущее время выборки ($t^0$):
1. Определение Функции времени публикации $F(t)$. Например, используется сигмовидная функция: $F(t) = sigm(t^0 — t^{publ})$.
2. Расчет оценки: $r = W^S * F(t)$, где $W^S$ берется из Процесса А.
Расчет Ранга значимости кластера ($R$): Для каждого кластера суммируются оценки значимости всех входящих в него элементов: $R = \sum r_k$. Этот шаг учитывает концентрацию публикаций.
Сравнение с порогом: Ранг кластера ($R$) сравнивается с порогом ранга значимости.
Выбор представителя: Если порог превышен, из кластера выбирается Представительный новостной элемент (например, самый свежий).
Дедупликация: Система проверяет базу данных предыдущих пуш-уведомлений, чтобы избежать повторной отправки в течение порогового интервала времени.
Отправка и Логирование: Если уведомление новое, оно отправляется пользователю, а база данных пуш-уведомлений обновляется.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важны для определения Весового коэффициента источника ($W^S$). Используются данные о посещаемости ресурсов:
- Логи браузеров (например, Яндекс.Браузер).
- Данные систем веб-аналитики, установленных на источнике (например, Яндекс.Метрика).
- Логи поисковой системы (информация о кликах, направленных на источник со страницы результатов поиска).
Временные факторы: Время публикации ($t^{publ}$) новостного элемента. Используется для расчета функции свежести $F(t)$ и анализа концентрации публикаций.
Контентные факторы: Текст и/или заголовок новостного элемента. Используются на этапе кластеризации для определения тематической близости элементов (с использованием методов вроде Bag-of-words, LDA или KNN).
Технические факторы: URL новостного элемента и идентификатор источника. Используются для идентификации и дедупликации.

Какие метрики используются и как они считаются

Система использует четыре ключевые метрики:

Весовой коэффициент источника ($W^S$): Рассчитывается на основе анализа объема аудитории (числа пользователей) источника за предыдущий интервал времени. Источники с большей аудиторией получают больший вес.
Функция времени публикации ($F(t)$): Моделирует затухание актуальности (time-decay). Рассчитывается как функция разницы между текущим временем ($t^0$) и временем публикации ($t^{publ}$). В патенте предложена сигмовидная функция:
$F(t)=sigm(t^{0}-t^{publ})$.
Оценка Значимости ($r$): Индивидуальная оценка новости. Вычисляется как произведение веса источника и функции времени:
$r=W^{S}*F(t)$.
Ранг Значимости Кластера ($R$): Оценка важности новостного сюжета. Вычисляется как сумма индивидуальных оценок всех новостей в кластере:
$R=\Sigma_{k=1}^{m}r_{k}$.
Или в развернутом виде:
$R=\Sigma_{k=1}^{m}(W_{k}^{S}*F_{k}(t))$.

Эта формула позволяет идентифицировать «срочные новости», так как высокое значение $R$ достигается только тогда, когда много источников (высокое m), с высоким авторитетом (высокий $W^S$) опубликовали новость недавно (высокий $F(t)$).

Выводы

Авторитетность источника ($W^S$) измеряется трафиком: Ключевой вывод для SEO — Яндекс определяет авторитетность новостного источника на основе реального объема его аудитории, измеряемого через экосистему Яндекса (Метрика, Браузер, Поиск). Это метрика, основанная на трафике, а не на ссылках.
Важность = Авторитетность * Свежесть: Формула $r=W^{S}*F(t)$ является ядром изобретения. Ни авторитетность, ни свежесть сами по себе не гарантируют высокой оценки; необходима их комбинация.
Свежесть имеет математическую модель затухания: Важность новости снижается со временем по определенной функции (например, сигмовидной). Это подчеркивает критическую важность скорости публикации для новостных ресурсов.
Важность события определяется коллективным вниманием (Velocity/Burstiness): Ранг кластера (R) растет, когда много авторитетных источников публикуют новости по одной теме за короткий период (высокая концентрация публикаций). Это позволяет алгоритмически идентифицировать «срочные новости».
Защита от кликбейта: Система разработана как альтернатива ранжированию по CTR. Использование общего трафика источника ($W^S$) вместо CTR конкретной статьи снижает влияние кликбейтных заголовков на определение важности новости.

Практика

Best practices (это мы делаем)

Эти рекомендации особенно актуальны для новостных сайтов и ресурсов, стремящихся к видимости в Яндекс Новостях и блоках свежего контента.

Максимизация реального трафика и лояльной аудитории: Поскольку Весовой коэффициент ($W^S$) напрямую зависит от объема аудитории, стратегический приоритет — это наращивание реального трафика (прямого, поискового, социального) и формирование ядра постоянных читателей. Это напрямую влияет на авторитетность сайта в глазах Яндекса.
Обеспечение полноты данных для Яндекса: Установите и корректно настройте Яндекс.Метрику. Патент явно указывает ее как один из источников данных для расчета $W^S$. Также полезно стимулировать использование Яндекс.Браузера среди аудитории, так как его логи также используются.
Скорость публикации критична: Необходимо максимально сократить время между наступлением события и публикацией новости. Функция времени публикации ($F(t)$) начинает снижаться сразу после выхода новости. Быстрая публикация максимизирует вклад вашей статьи в Ранг Значимости Кластера.
Техническая оптимизация для быстрого доступа роботов: Обеспечьте быструю и бесперебойную работу сайта и корректную отдачу контента, чтобы Агрегатор мог мгновенно проиндексировать новость и зафиксировать время публикации. Корректно указывайте время публикации в метаданных и микроразметке.
Четкое структурирование новостей: Контент должен быть легко интерпретируем для корректной кластеризации по темам. Заголовки и текст должны четко отражать суть события.

Worst practices (это делать не надо)

Фокус исключительно на кликбейте: Система оценивает важность на основе авторитетности источника ($W^S$), а не CTR. Злоупотребление кликбейтом не поможет сайту с низкой общей посещаемостью попасть в блок важных новостей.
Медленная публикация новостей: Если ресурс публикует новости с большой задержкой, значение $F(t)$ будет низким, и такие публикации не будут считаться значимыми, даже если источник авторитетен.
Игнорирование Яндекс.Метрики: Отсутствие счетчиков Яндекса на сайте может привести к недооценке трафика и, как следствие, занижению Весового коэффициента источника ($W^S$).
Имитация трафика: Попытки искусственно завысить посещаемость для увеличения $W^S$ являются рискованными, так как Яндекс обладает кросс-платформенными данными (Метрика, Браузер, Поиск) для верификации качества трафика.

Стратегическое значение

Патент подтверждает, что Яндекс использует данные о реальном поведении пользователей и трафике для измерения авторитетности ресурсов (по крайней мере, в контексте новостей). Это важный сигнал для SEO-стратегии: долгосрочное развитие качественного ресурса с реальной аудиторией является более надежным путем к высокой видимости, чем манипулятивные тактики. Это подчеркивает важность комплексного подхода к развитию медиаресурса: качество контента, скорость реакции и развитие бренда/аудитории неразрывно связаны с алгоритмической значимостью.

Практические примеры

Сценарий 1: Сравнение двух источников при публикации срочной новости

Происходит важное событие. Два источника публикуют новость.

Источник А: Крупное федеральное СМИ. $W^S = 100$. Публикует через 5 минут после события. $F(t) = 0.9$.
Источник Б: Нишевый блог. $W^S = 5$. Публикует через 1 минуту после события. $F(t) = 0.99$.

Расчет Оценки Значимости (r):

Источник А: $r_A = 100 * 0.9 = 90$.
Источник Б: $r_B = 5 * 0.99 = 4.95$.

Результат: Несмотря на то, что Источник Б опубликовал быстрее, его Оценка Значимости значительно ниже из-за низкого Весового Коэффициента. Система с гораздо большей вероятностью сгенерирует уведомление на основе новости Источника А или выберет его в качестве представительного элемента кластера.

Сценарий 2: Влияние концентрации публикаций (Ранг Кластера)

Сравниваются два новостных события (кластера).

Событие 1: Локальное происшествие. Освещается 3 источниками со средним $W^S=10$ и средним $F(t)=0.8$.
Событие 2: Федеральная новость. Освещается 15 источниками со средним $W^S=50$ и средним $F(t)=0.8$.

Расчет Ранга Значимости (R):

Событие 1: $R_1 ≈ 3 * (10 * 0.8) = 24$.
Событие 2: $R_2 ≈ 15 * (50 * 0.8) = 600$.

Результат: Событие 2 имеет значительно более высокий Ранг Значимости из-за высокой концентрации публикаций от авторитетных источников. Система идентифицирует его как «срочную новость» и отправит пуш-уведомление.

Вопросы и ответы

Как именно Яндекс определяет авторитетность («Весовой коэффициент», $W^S$) новостного источника согласно патенту?

Авторитетность ($W^S$) определяется не ссылками или экспертными оценками, а объемом аудитории источника. Патент прямо указывает, что Весовой коэффициент рассчитывается на основе числа пользователей, посещающих источник за определенный период. Данные для этого берутся из трех источников: браузерные логи (Яндекс.Браузер), системы аналитики (Яндекс.Метрика) и логи кликов из поисковой выдачи Яндекса.

Насколько важна скорость публикации новости?

Скорость публикации критически важна. В патенте используется «Функция времени публикации» ($F(t)$), которая моделирует затухание актуальности новости со временем (time-decay). Значение этой функции максимально в момент публикации и быстро снижается (например, по сигмовидной кривой). Чем быстрее сайт публикует новость, тем выше будет ее итоговая Оценка Значимости.

Влияет ли этот патент на ранжирование в основном веб-поиске Яндекса?

Патент напрямую описывает систему генерации Push-уведомлений, а не ранжирование в веб-поиске. Однако он раскрывает фундаментальные метрики, которые Яндекс использует для оценки новостного контента: авторитетность на основе трафика и математическую модель свежести. Высока вероятность, что эти же метрики используются в ранжировании Яндекс Новостей и при подмешивании свежего контента (QDF) в основную выдачу.

Как система борется с кликбейтом?

Система разработана как альтернатива ранжированию по CTR, которое уязвимо для кликбейта. Вместо того чтобы смотреть на кликабельность конкретной статьи, система смотрит на общую авторитетность (трафик) источника ($W^S$). Предполагается, что источники с большой постоянной аудиторией публикуют более важные новости, чем сайты, заточенные только под сбор ситуативного трафика через кликбейт.

Что такое «Ранг Значимости Кластера» ($R$) и как он рассчитывается?

Ранг Значимости Кластера ($R$) — это мера важности всего новостного сюжета (темы). Он рассчитывается как сумма индивидуальных Оценок Значимости ($r$) всех статей от разных источников, входящих в этот кластер. Высокий ранг достигается, если тему освещает много источников, эти источники авторитетны (высокий $W^S$) и публикации сделаны недавно (высокий $F(t)$).

Нужно ли устанавливать Яндекс.Метрику, чтобы повысить авторитетность сайта?

Да, это настоятельно рекомендуется. Патент явно перечисляет «метрики приложения веб-сайта» (т.е. Яндекс.Метрику) как один из источников данных для расчета Весового коэффициента источника ($W^S$). Предоставление Яндексу полных данных о вашей аудитории через Метрику может способствовать более точному расчету вашей авторитетности.

Что произойдет, если несколько небольших сайтов опубликуют новость, а крупные СМИ ее проигнорируют?

Если новость опубликована только источниками с низким Весовым коэффициентом ($W^S$), их индивидуальные Оценки Значимости ($r$) будут невелики. Следовательно, суммарный Ранг Значимости Кластера ($R$) также будет низким и, скорее всего, не превысит порог для отправки Push-уведомления о «срочной новости». Система отдает приоритет новостям, подтвержденным авторитетными СМИ.

Что такое сигмовидная функция и как она используется в патенте?

Сигмовидная функция (S-образная кривая) используется для моделирования Функции времени публикации ($F(t)$). Она позволяет плавно снижать вес новости со временем. В начале (сразу после публикации) снижение медленное, затем оно ускоряется (точка перегиба), а спустя длительное время вес новости стремится к нулю. Это математическая модель того, как «остывает» интерес к новости.

Как система определяет, что две новости относятся к одному кластеру?

За это отвечает «Управляющее устройство кластера». Оно выполняет кластеризацию путем анализа тела текста и/или заголовка новостного элемента. Для определения тематической близости текстов могут использоваться стандартные методы машинного обучения, упомянутые в патенте (например, модель набора слов, латентное размещение Дирихле или K-ближайшие соседи).

Как система избегает отправки повторных уведомлений об одном и том же событии?

Система поддерживает базу данных предыдущих Push-уведомлений. Перед отправкой нового уведомления она проверяет, был ли представительный новостной элемент (или связанный с ним сюжет) уже передан за определенный пороговый интервал времени. Если да, то уведомление не отправляется повторно, даже если Ранг Значимости кластера остается высоким.