Как Яндекс кластеризует новости, балансируя полноту информации и устраняя дублирование

Яндекс патентует метод кластеризации документов для агрегаторов (например, Яндекс.Новости). Система использует комбинированную метрику, которая балансирует, насколько документы дополняют друг друга (Complementariness), и насколько они повторяют информацию или размывают тему (Dilution). Цель — создать информационно насыщенные кластеры с минимальным количеством документов.

Описание

Какую задачу решает

Патент решает проблему избыточности (redundancy) информации в автоматизированных агрегаторах контента, таких как Яндекс.Новости. Традиционные методы кластеризации часто группируют документы, которые описывают одно и то же событие схожим образом, не предоставляя дополнительной ценности. Это вынуждает пользователя читать повторяющийся контент. Изобретение направлено на создание кластеров, которые максимизируют общий объем уникальной информации по теме, минимизируя при этом количество документов в кластере.

Что запатентовано

Запатентован метод кластеризации, основанный на использовании Combined Metric Parameter (Комбинированный метрический параметр, C). Суть изобретения заключается в принятии решений о слиянии документов или кластеров путем балансировки двух конфликтующих метрик: Complementariness (Степень дополнительности контента, P) и Dilution (Степень размытия контента, R). Объединение происходит только в том случае, если оно улучшает комбинированную метрику C.

Как это работает

Документы преобразуются в векторные представления (Document Vectors). Система итеративно оценивает потенциальные слияния. Метрика P оценивает, насколько документы дополняют друг друга; метрика R оценивает, насколько концентрированной (не размытой) остается тема после слияния. Они объединяются в метрику C (например, по формуле $R^{\alpha} \cdot P$). Алгоритм жадно объединяет элементы (документы или кластеры), которые максимизируют C. Рост кластера останавливается автоматически, когда любое дальнейшее добавление начинает уменьшать C, что указывает на достижение оптимальной информационной плотности.

Актуальность для SEO

Высокая (для агрегаторов контента). Проблема фильтрации дублирующегося контента и эффективной агрегации крайне актуальна. Использование векторных представлений для семантической кластеризации является стандартом, а предложенная функция оптимизации (C) направлена на улучшение пользовательского опыта в таких сервисах, как Яндекс.Новости.

Важность для SEO

Влияние на SEO специфично (4/10). Патент не описывает ранжирование в основном веб-поиске (L1-L4). Однако он критически важен для издателей и новостных сайтов, стремящихся к видимости в Яндекс.Новостях. Он определяет, как статьи группируются в сюжеты и какие из них будут представлены как дополняющие, а какие — как избыточные. Это требует от SEO-специалистов фокусировки на уникальной добавленной ценности контента, а не просто на освещении инфоповода.

Детальный разбор

Термины и определения

Combined Metric Parameter (C) (Комбинированный метрический параметр): Ключевая метрика оценки качества кластера. Балансирует P и R. Используется для принятия решений о слиянии и остановке кластеризации..
Complementariness (First Metric Parameter, P) (Дополнительность): Первый метрический параметр. Метрика, показывающая степень дополнительности контента в кластере. Оценивает, насколько документы похожи и одновременно сколько дополнительной информации они предоставляют друг другу. Измеряет «широту охвата» темы..
Dilution (Second Metric Parameter, R) (Размытие/Концентрация): Второй метрический параметр. Метрика, показывающая степень размытия (или концентрации) контента в кластере. Оценивает, насколько добавление нового документа сделает информацию о теме менее точной или более избыточной. Высокое значение R указывает на низкое размытие (высокую концентрацию)..
Document Vector (Вектор документа): Численное представление документа, сгенерированное на основе его контента (заголовка и/или тела) с использованием NLP-техник (например, word2vec, LDA, или современные эмбеддинги)..
Potential Cluster (Потенциальный кластер): Гипотетический кластер, образованный путем слияния двух элементов (документов или существующих кластеров) в процессе оценки.
Updated Metric Parameter (Обновленный метрический параметр): Значение P, R или C, рассчитанное для Потенциального кластера.

Ключевые утверждения (Анализ Claims)

Ядром изобретения является метод итеративной (агломеративной) кластеризации, управляемый комбинированной метрикой, которая балансирует полноту и избыточность.

Claim 1 (Независимый пункт): Описывает базовый процесс оценки слияния.

Получение двух элементов (документов или кластеров, согласно Claim 12).
Определение для потенциального кластера:
- Обновленного первого параметра (P) – индикатора степени дополнительности (complementariness).
- Обновленного второго параметра (R) – индикатора степени размытия (dilution).
- Обновленного комбинированного параметра (C) на основе P и R.
Генерация кластера на основе этого обновленного параметра C.

Claim 2 (Зависимый от 1): Определяет условие слияния.

Генерация объединенного кластера выполняется только в том случае, если обновленный параметр C потенциального кластера выше, чем исходные параметры C отдельных элементов до слияния.

Claim 4 (Зависимый от 2): Описывает инициализацию алгоритма (Greedy Initialization).

Процесс начинается с вычисления обновленных параметров C для всех возможных пар документов в корпусе. Первый кластер формируется из пары, которая дает наивысший обновленный параметр C.

Claim 5 (Зависимый от 3/4): Описывает итеративный рост кластера (Growth).

Система оценивает добавление оставшихся документов к существующему кластеру. Документ добавляется только в том случае, если результирующий обновленный параметр C выше, чем текущий параметр C кластера.

Claims 6 и 7 (Зависимые от 4/5): Определяют условие остановки (Stop Condition).

Расширение кластера прекращается (кластер закрывается), когда ни один оставшийся документ не может быть добавлен без уменьшения Combined Metric Parameter C.

Claim 13 (Зависимый от 11/12): Уточняет условие объединения кластеров.

Объединение двух существующих кластеров происходит только в том случае, если обновленный параметр C потенциального объединенного кластера выше, чем параметры C обоих исходных кластеров.

Где и как применяется

Патент не применим к стандартным слоям основного веб-поиска Яндекс (CRAWLING, RANKING L1-L4). Он разработан для Сервисов Агрегации Документов, таких как Яндекс.Новости.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит векторизация документов. Система выполняет Vector Generation Procedure для преобразования контента (в частности, заголовков и тела документа) в Document Vectors.

BLENDER – Метапоиск и Смешивание / Пост-обработка (в рамках вертикали Новостей)
Основное применение патента — группировка уже отобранных документов по сюжетам. Clustering Application (126) выполняет описанный алгоритм для организации выдачи новостного сервиса.

Входные данные: Множество цифровых документов (160) и их векторы (220).
Выходные данные: Набор кластеров (190), оптимизированных по информационной плотности (баланс P и R).
Взаимодействие: Результаты передаются News Aggregator Application (122) для отображения пользователю.

На что влияет

Конкретные типы контента и ниши: Влияет исключительно на новостной контент и статьи в агрегаторах. Особенно сильно влияет на тематики с высокой плотностью публикаций об одном событии (политика, спорт, происшествия).
Влияние на выдачу в агрегаторе: Определяет, какие статьи будут сгруппированы вместе, и какие из них могут быть скрыты как избыточные. Система отдает приоритет статьям, которые добавляют уникальную ценность (высокая Complementariness).

Когда применяется

Условия применения: Когда необходимо организовать поток входящих документов из разных источников по темам или событиям.
Частота применения: Алгоритм может выполняться периодически или по мере накопления новых документов в базе данных агрегатора.
Триггеры в процессе работы: Ключевым триггером для слияния является увеличение метрики C. Триггером для остановки роста кластера является ситуация, когда любое дальнейшее добавление документа уменьшает метрику C.

Пошаговый алгоритм

Процесс агломеративной кластеризации корпуса документов.

Этап 1: Подготовка

Векторизация: Генерация Document Vector для каждого документа.
Инициализация метрик: Присвоение начальных значений P, R, C каждому документу (например, P=1, R=0, C=0).

Этап 2: Инициализация кластеризации

Расчет парных взаимодействий: Для каждой возможной пары документов вычисление обновленных метрик P, R и C для потенциального кластера.
Создание первого кластера: Выбор пары документов, дающей максимальное значение обновленной метрики C. Формирование первого кластера. Сохранение этого значения как текущего C кластера.

Этап 3: Итеративный рост кластера

Оценка расширения: Для каждого оставшегося документа расчет обновленного C при его добавлении к текущему кластеру.
Принятие решения (Growth): Если существует документ, добавление которого увеличивает метрику C (Обновленный C > Текущий C), то к кластеру добавляется документ, дающий максимальный прирост C. Этап 3 повторяется.
Завершение кластера (Stop Condition): Если ни один оставшийся документ не увеличивает метрику C, кластер закрывается.

Этап 4: Завершение процесса

Повторение: Этапы 2 и 3 повторяются для оставшихся некластеризованных документов, пока все документы не будут обработаны.
(Опционально) Слияние кластеров: Система может также пытаться объединить существующие кластеры, если C объединенного кластера выше, чем C исходных кластеров (Claim 13).

Какие данные и как использует

Данные на входе

Контентные факторы: Используются исключительно текстовые данные документов. Патент явно упоминает Заголовок (Title 166) и Основное содержание (Body Content 168) как основу для генерации Document Vectors.

Ссылочные, поведенческие или иные факторы в данном алгоритме не используются.

Какие метрики используются и как они считаются

Все метрики основаны на векторных представлениях документов и функции расстояния (близости) между ними $w(d, d’)$.

Методы анализа текста (NLP): Для генерации векторов упомянуты word2vec, doc2vec, GloVe, LDA. (На практике могут использоваться более современные трансформерные модели).
First Metric Parameter (P) — Complementariness: Измеряет среднюю близость документов внутри кластера $D_i$. Рассчитывается по формулам (1) и (2):
$$P(D_{i})=\frac{1}{|D_{i}|}\sum_{d\in D_{i}}P(d)$$, где $$P(d)=\frac{1}{|D_{i}|}\sum_{d_{i}’\in D_{i}}w(d,d_{i}’)$$
Second Metric Parameter (R) — Dilution/Concentration: Измеряет отношение близости документов внутри кластера $D_i$ к их близости ко всем документам в корпусе D. Высокое R = низкое размытие. Рассчитывается по формулам (3) и (4):
$$R(D_{i})=\frac{1}{|D_{i}|}\sum_{d\in D_{i}}R(d)$$, где $$R(d) = \frac{\sum_{d_{i}’\in D_{i}} w(d, d_{i}’)}{\sum_{d’\in D} w(d, d’)}$$
Combined Metric Parameter (C): Комбинированная метрика, определяющая итоговое качество кластера. Вычисляется по формуле (5):
$$C(P(D_{i}),R(D_{i}))=R(D_{i})^{\alpha}\cdot P(D_{i})$$
Где $\alpha$ (Alpha) — константа, регулирующая влияние метрики R (Dilution). Если $\alpha=1$, то P и R имеют равное влияние.

Выводы

Цель — информационная плотность, а не схожесть: Ключевая идея патента — кластеризация должна оптимизировать информационную плотность. Кластер должен содержать минимум документов для полного освещения темы, избегая простого группирования похожих статей.
Двухфакторная модель оценки качества (P и R): Яндекс использует математический баланс между тем, насколько документы дополняют друг друга (Complementariness P) и насколько они сконцентрированы на теме, не размывая ее (Dilution R).
Автоматическое определение оптимального размера кластера: Алгоритм не требует задания количества кластеров. Он использует динамическое условие остановки (прекращение роста метрики C), что позволяет автоматически находить оптимальную точку насыщения информацией.
Специфика применения — Агрегаторы: Патент имеет прямое отношение к работе Яндекс.Новостей и определяет, как формируются новостные сюжеты из множества источников. Он не относится к основному веб-поиску.
Критичность векторных представлений: Эффективность метода полностью зависит от качества Document Vectors, которые должны точно отражать семантику и уникальный информационный вклад контента.

Практика

Важное замечание: Патент описывает внутренние процессы кластеризации в агрегаторах (Яндекс.Новости) и не дает прямых рекомендаций для SEO в основном поиске. Практическое применение ограничено стратегиями для издателей и новостных сайтов.

Best practices (для издателей/новостников)

Создавайте дополнительную ценность (Maximize Complementariness): При освещении события стремитесь предоставить уникальную информацию, детали, эксклюзивные комментарии или аналитику, которых нет у конкурентов. Это увеличивает метрику P и повышает вероятность того, что ваша статья внесет значительный вклад в новостной кластер.
Четкое позиционирование и фокус (Minimize Dilution): Убедитесь, что статья строго сфокусирована на основном событии. Отклонения от темы или излишняя «вода» могут снизить метрику R (увеличить размытие), так как статья будет иметь близость к документам вне целевого кластера.
Оптимизация заголовков: Патент явно упоминает использование заголовков для векторизации. Заголовки должны быть четкими, релевантными и отражать уникальный вклад вашей статьи в освещение события.
Развитие сюжета: Если событие развивается, публикуйте обновления, содержащие существенную новую информацию, а не пересказ уже известного.

Worst practices (для издателей/новостников)

Поверхностный рерайтинг и Churnalism: Создание статей, которые являются близкими копиями или поверхностным рерайтингом материалов информагентств. Алгоритм спроектирован так, чтобы отфильтровывать такой контент, так как он увеличивает Dilution без добавления Complementariness.
Массовая синдикация без изменений: Публикация контента из новостных лент без добавления локального контекста или дополнительной информации.
Смешивание разных инфоповодов: Создание материалов, охватывающих несколько слабо связанных событий, может привести к тому, что статья не будет эффективно кластеризована ни по одному из них.

Стратегическое значение

Патент подтверждает стратегический приоритет Яндекса на предоставление разнообразной и недублирующейся информации в агрегаторах. Для издателей это означает, что конкуренция смещается от скорости публикации к качеству и уникальности журналистики. Система математически поощряет контент, который обогащает информационное поле. Стратегия должна фокусироваться на создании добавленной стоимости.

Практические примеры

Сценарий: Крупное федеральное событие (например, принятие нового закона).

Действие 1 (Плохая практика): Региональный сайт публикует статью с заголовком «В России приняли новый закон о», текст — рерайт ТАСС.

Анализ системы: Вектор статьи очень близок к векторам федеральных СМИ. Complementariness (P) низкая (информация та же), Dilution (R) увеличивается (больше текстов об одном и том же). Комбинированная метрика C при добавлении этой статьи в кластер снижается.
Результат: Статья скрывается в кластере как дубликат или исключается из основного вида.

Действие 2 (Хорошая практика): Региональный сайт публикует статью «Как новый закон о повлияет на жителей: комментарии местного эксперта» с уникальным анализом локальных последствий.

Анализ системы: Вектор статьи близок к теме закона, но отличается от федеральных сообщений. Complementariness (P) высокая (добавлен локальный контекст), Dilution (R) меняется незначительно. Комбинированная метрика C растет.
Результат: Статья включается в кластер как дополняющая основной сюжет и имеет высокие шансы на видимость.

Вопросы и ответы

Влияет ли этот патент на ранжирование в основном органическом поиске Яндекса?

Нет. Патент описывает механизм кластеризации документов внутри специализированных сервисов агрегации, таких как Яндекс.Новости. Он не относится к алгоритмам ранжирования веб-страниц (L1-L4) в основном поиске. Он определяет, как формируются новостные сюжеты, а не как ранжируются сайты в общей выдаче.

Что такое «Complementariness» (P) простыми словами?

Это показатель того, насколько хорошо документы в кластере дополняют друг друга. Если первая статья описывает факт события, а вторая анализирует его последствия, они комплементарны, так как вместе дают более полную картину. Если обе статьи просто констатируют факт одними и теми же словами, их комплементарность низкая, даже если они тематически близки.

Что такое «Dilution» (R) и почему система старается его минимизировать?

Dilution переводится как размытие или разбавление. Метрика R фактически измеряет концентрацию темы. Если в кластер добавляется много повторяющейся информации или контент, отклоняющийся от основной темы, концентрация падает (R снижается). Система стремится поддерживать высокий R, чтобы кластер оставался четким, релевантным и не содержал избыточного контента.

Как рассчитывается ключевая Комбинированная Метрика (C)?

Патент предлагает формулу: $C = R(D_{i})^{\alpha} \cdot P(D_{i})$. Она объединяет Дополнительность (P) и Концентрацию (R). Константа $\alpha$ (альфа) позволяет регулировать баланс: чем выше $\alpha$, тем строже система относится к размытию (R). Эта метрика используется для принятия всех решений о кластеризации.

Как алгоритм определяет, когда кластер «заполнен»?

Алгоритм использует динамическое условие остановки. Он продолжает добавлять документы, пока комбинированная метрика (C) растет. Как только добавление любого из оставшихся документов приводит к снижению C (т.е. ухудшает баланс P и R), кластер считается оптимально заполненным и закрывается (Claims 6, 7).

Что этот патент значит для сайтов, которые занимаются рерайтингом новостей?

Это делает стратегию рерайтинга неэффективной для агрегаторов Яндекса. Алгоритм специально разработан для борьбы с избыточностью. Статьи, повторяющие уже известные факты, ухудшают метрику R без значительного прироста P. Такие статьи будут пессимизироваться или исключаться из видимой части новостного сюжета.

Насколько важны заголовки статей для этого алгоритма?

Заголовки критически важны. Патент прямо указывает, что векторное представление документа (Document Vector), которое является основой для всех вычислений метрик P и R, может генерироваться на основе заголовка. Точный, информативный и уникальный заголовок напрямую влияет на кластеризацию статьи.

Используются ли в этом алгоритме поведенческие факторы или ссылки?

Нет. Согласно патенту, этот механизм кластеризации базируется исключительно на контентном анализе — сравнении векторов документов (Document Vectors). Поведенческие факторы (клики, CTR) или ссылочные данные в расчете метрик P, R и C не участвуют.

Может ли этот алгоритм объединять не только документы, но и уже существующие кластеры?

Да, патент явно указывает (Claim 12), что метод является иерархическим. Система может оценить два существующих кластера и объединить их, если это приведет к увеличению Комбинированной Метрики (C) по сравнению с метриками обоих исходных кластеров (Claim 13).

В патенте упоминаются word2vec и LDA. Использует ли Яндекс современные модели типа YATI/BERT для этой задачи?

В патентах часто приводятся общеизвестные примеры технологий. Упоминание старых моделей не исключает использования современных. На практике для генерации векторов документов (эмбеддингов) логично использовать самые актуальные и мощные языковые модели Яндекса (включая YATI), так как качество векторов критически важно для работы этого алгоритма.