Яндекс использует алгоритм для кластеризации документов (например, новостных статей), освещающих одну тему. Система рассчитывает «Обобщенную Метрику», основанную на том, насколько документы дополняют друг друга (Первая Метрика) и насколько они «разбавляют» тему избыточностью (Вторая Метрика). Кластеры строятся итеративно: добавляются только те документы, которые улучшают этот баланс, обеспечивая пользователям разнообразные точки зрения без чрезмерного дублирования.
Описание
Какую задачу решает
Патент решает проблему избыточности информации в кластерах документов, посвященных одной теме или событию, особенно в контексте агрегаторов новостей (например, Яндекс.Новости). Существующие методы кластеризации часто группируют документы, которые содержат схожую информацию из разных источников, не добавляя ценности. Это приводит к тому, что пользователь тратит время, пропускную способность и ресурсы устройства на чтение повторяющегося контента. Изобретение направлено на повышение эффективности кластеризации, сокращение потерь ресурсов и предоставление пользователю более репрезентативной и разнообразной выборки документов по теме.
Что запатентовано
Запатентована система и способ итеративной кластеризации документов с использованием Обобщенного Параметра Метрики (Generalized Metric Parameter). Суть изобретения заключается в оценке потенциального кластера по двум критериям: степени взаимного дополнения контента (Первая Метрика) и степени разбавления контента (Вторая Метрика),. Кластер формируется или расширяется только в том случае, если объединение документов улучшает Обобщенную Метрику.
Как это работает
Документы сначала преобразуются в векторные представления. Система итеративно пытается объединить документы или уже существующие кластеры. Для каждой потенциальной пары рассчитывается Обновленный Обобщенный Параметр Метрики. Этот параметр вознаграждает добавление дополняющей информации (высокая Первая Метрика) и штрафует за добавление избыточной или неточной информации (низкая Вторая Метрика). Объединение происходит только в том случае, если Обновленный Обобщенный Параметр Метрики выше, чем параметры исходных компонентов. Процесс продолжается до тех пор, пока добавление новых документов не перестанет улучшать метрику.
Актуальность для SEO
Высокая. Кластеризация контента, оптимизация разнообразия выдачи и борьба с дублированием являются центральными задачами современных информационно-поисковых систем, особенно в агрегаторах новостей и системах реального времени. Описанный подход к математической оценке баланса между полнотой и избыточностью актуален.
Важность для SEO
Влияние на SEO значительно (7/10), но специфично. Патент критически важен для новостных изданий и сайтов, участвующих в Яндекс.Новостях или аналогичных агрегаторах. Он определяет механизм, по которому система выбирает, какие статьи будут включены в новостной сюжет (кластер), а какие будут отброшены как избыточные. Для общего SEO патент дает ценное понимание того, как Яндекс математически оценивает уникальность и дополнительную ценность контента по сравнению с уже существующим массивом информации.
Детальный разбор
Термины и определения
- Вектор Документа (Document Vector)
- Численное представление контента документа (заголовка и/или тела) в многомерном пространстве, полученное с помощью методов NLP. Используется для расчета расстояний (сходства) между документами.
- Первый Параметр Метрики (P) (First Metric Parameter)
- Метрика, указывающая на степень взаимного дополнения контента документов в кластере. Оценивает, насколько схожи документы и насколько они дополняют друг друга, измеряя «широту» охвата темы. Высокое значение означает богатый объединенный контент.
- Второй Параметр Метрики (R) (Second Metric Parameter)
- Метрика, указывающая на степень разбавления (Dilution) контента документов в кластере. Измеряет, насколько концентрирован контент и как добавление нового документа влияет на точность информации по теме. Высокое значение означает низкое разбавление (высокую концентрацию темы).
- Обобщенный Параметр Метрики (C) (Generalized Metric Parameter)
- Ключевая метрика кластера, объединяющая Первый и Второй параметры. Используется для принятия решения о формировании или расширении кластера.
- Обновленный Параметр Метрики (Updated Metric Parameter)
- Значение метрики (Первой, Второй или Обобщенной), рассчитанное для потенциального кластера, который может быть сформирован путем объединения двух объектов (документов или кластеров),,.
- Степень Взаимного Дополнения (Mutual Complementation)
- Характеристика контента, показывающая, насколько документы в кластере предоставляют дополнительную информацию по теме. Связана с Первым Параметром Метрики.
- Степень Разбавления (Dilution)
- Характеристика контента, показывающая, насколько добавление документа увеличивает избыточность или уменьшает точность информации в кластере. Связана со Вторым Параметром Метрики.
Ключевые утверждения (Анализ Claims)
Патент защищает метод кластеризации, основанный на оптимизации баланса между полнотой и избыточностью информации.
Claim 1 (Независимый пункт): Описывает базовый механизм кластеризации двух документов.
- Система получает первый и второй документы.
- Для потенциального кластера, содержащего оба документа, рассчитываются:
- Обновленный Первый Параметр Метрики (степень взаимного дополнения).
- Обновленный Второй Параметр Метрики (степень разбавления, характеризуемая уменьшением точности информации).
- Обновленный Обобщенный Параметр Метрики на основе первых двух.
- Кластер формируется на основе Обновленного Обобщенного Параметра Метрики.
Claim 2 (Зависимый от 1): Определяет условие формирования кластера.
Кластер формируется, если Обновленный Обобщенный Параметр Метрики потенциального кластера превышает Обобщенные Параметры Метрики отдельных первого и/или второго документов. Это ключевой момент, определяющий итеративное улучшение качества кластера.
Claim 4, 5, 7 (Зависимые): Описывают итеративный процесс построения кластера из множества документов.
- Рассчитываются метрики для всех возможных пар документов (Claim 4).
- Формируется первый кластер из пары с максимальным Обновленным Обобщенным Параметром Метрики (Claim 4).
- Система пытается добавить оставшиеся документы в этот кластер. Для каждого оставшегося документа рассчитываются обновленные метрики (Claim 5).
- Документ добавляется, только если это увеличивает Обобщенный Параметр Метрики кластера (Claim 5).
- Процесс повторяется до тех пор, пока добавление любого из оставшихся документов не перестанет улучшать метрику. После этого кластер закрывается (Claim 7).
Claim 12 (Зависимый от 1): Уточняет универсальность метода.
Метод применим не только к отдельным документам, но и к объединению уже существующих кластеров. Первый «документ» может быть первым кластером, а второй «документ» — вторым кластером.
Где и как применяется
Изобретение применяется в системах агрегации контента, где необходимо группировать документы по темам или событиям, минимизируя дублирование. В патенте явно упоминается контекст сервисов агрегирования новостей, таких как Yandex.News,.
CRAWLING & DATA ACQUISITION / INDEXING
Алгоритм применяется на этапе обработки собранных данных для их организации перед показом пользователю.
- Сбор данных: База данных новостей наполняется документами из различных источников.
- Индексирование и извлечение признаков (Векторизация): Приложение кластеризации выполняет процедуру формирования векторов для представления контента документов (заголовков и/или тела) в численном виде.
- Кластеризация: Алгоритм кластеризации обрабатывает эти векторы, рассчитывает метрики (Первую, Вторую, Обобщенную) и формирует набор кластеров. Это, вероятно, происходит в офлайн-режиме или в режиме, близком к реальному времени.
Взаимодействие с компонентами:
Система взаимодействует с Базой данных новостей (получает документы, сохраняет кластеры) и Приложением агрегатора новостей (предоставляет сгруппированные данные для показа пользователю).
Данные на входе: Множество цифровых документов, их контент (заголовок, тело).
Данные на выходе: Набор кластеров, где каждый документ ассоциирован с идентификатором кластера.
На что влияет
- Конкретные типы контента: В первую очередь влияет на новостные документы, статьи, посты в блогах и другой контент, поступающий через агрегаторы. Однако технология применима к любым цифровым документам, допускающим объединение.
- Специфические запросы/Ниши: Наибольшее влияние оказывается на популярные темы и события, которые освещаются множеством источников одновременно. Система определяет, какие из этих источников попадут в финальный кластер, а какие будут считаться избыточными.
Когда применяется
- Условия работы: Алгоритм применяется, когда необходимо сгруппировать массив документов, среди которых могут быть материалы, освещающие одно и то же событие.
- Триггеры активации: Кластеризация может выполняться через заданные интервалы времени или после получения заданного количества новых документов в базе данных.
- Пороговые значения (в процессе кластеризации): Ключевым порогом является сравнение метрик. Документ добавляется в кластер (или два кластера объединяются) только при условии, что Обновленный Обобщенный Параметр Метрики превышает текущие Обобщенные Параметры Метрики компонентов,,.
Пошаговый алгоритм
Процесс работы системы кластеризации (на примере формирования кластеров из множества документов):
- Получение данных: Система получает множество документов для кластеризации.
- Векторизация: Для каждого документа формируется векторное представление на основе его контента (заголовка и/или тела).
- Инициализация метрик: Для каждого отдельного документа определяются начальные значения Первого, Второго и Обобщенного параметров метрики (например, P=1, R=0, C=0).
- Расчет парных метрик: Для каждой возможной пары документов рассчитываются Обновленный Первый, Второй и Обобщенный параметры метрики для потенциального кластера, который они могут образовать.
- Формирование первого кластера: Выбирается пара документов, чей Обновленный Обобщенный Параметр Метрики максимален среди всех пар. Формируется первый кластер. Этот максимальный параметр сохраняется как текущий Обобщенный Параметр Метрики кластера.
- Итеративное расширение кластера:
- Система перебирает все оставшиеся (не включенные в кластер) документы.
- Для каждого оставшегося документа рассчитывается Обновленный Обобщенный Параметр Метрики для потенциального кластера, который получится при добавлении этого документа к текущему кластеру.
- Проверка условия: Сравниваются рассчитанные обновленные параметры с текущим параметром кластера.
- Добавление (если условие выполнено): Если есть документы, добавление которых увеличивает метрику, выбирается тот, который дает максимальный прирост. Он добавляется в кластер, и метрика кластера обновляется. Процесс повторяется с шага 6.1.
- Закрытие (если условие не выполнено): Если добавление ни одного из оставшихся документов не увеличивает метрику кластера, кластер считается полным и закрывается,.
- Формирование следующих кластеров: Процесс повторяется с шага 4 для оставшихся документов, не вошедших ни в один кластер, до тех пор, пока все документы не будут обработаны.
Примечание: Патент также описывает аналогичный процесс для объединения уже существующих кластеров, используя ту же логику сравнения метрик-[242].
Какие данные и как использует
Данные на входе
- Контентные факторы: Это основные данные, используемые для кластеризации. Упоминаются заголовок документа и контент тела документа. Они используются для формирования векторов документов.
Какие метрики используются и как они считаются
Система использует векторные представления документов и рассчитывает три ключевые метрики для принятия решений о кластеризации.
- Вектор Документа: Генерируется с использованием методов NLP. В патенте упоминаются word2vec, doc2vec, GloVe, LDA или алгоритмы машинного обучения (например, нейронные сети).
- Функция расстояния (w(d, dᵢ)): Метрика сходства между двумя векторами документов. Используется как базовый элемент для расчета P и R.
- Первый Параметр Метрики (P) – Взаимное Дополнение: Измеряет среднее сходство между документами внутри кластера ($D_{i}$). Чем выше сходство, тем лучше (при условии, что они дополняют друг друга).
Для документа d в кластере $D_{i}$:
$$P(d)=\frac{1}{|D_{i}|}\sum_{d_{i}\in D_{i}}w(d,d_{i})$$
Для всего кластера $D_{i}$ (среднее значение P(d)):
$$P(D_{i})=\frac{1}{|D_{i}|}\sum_{d\in D_{i}}P(d)$$
- Второй Параметр Метрики (R) – Разбавление (Анти-Разбавление): Измеряет концентрацию темы. Это отношение суммы сходств внутри кластера к сумме сходств со всеми документами в наборе (D). Высокое значение R означает, что документы в кластере гораздо ближе друг к другу, чем к документам вне кластера (низкое разбавление).
Для документа d в кластере $D_{i}$:
$$R(d)=\frac{\sum_{d_{i}\epsilon~D_{i}}w(d,d_{i})}{\sum_{d’\epsilon~D}w(d,d’)}$$
Для всего кластера $D_{i}$ (среднее значение R(d)):
$$R(D_{i})=\frac{1}{|D_{i}|}\sum_{d\in D_{i}}R(d)$$
- Обобщенный Параметр Метрики (C): Финальная оценка качества кластера, объединяющая P и R.
$$C(P(D_{i}),R(D_{i}))=R(D_{i})^{\alpha}\cdot P(D_{i})$$
Где $\alpha$ — это константа, определяющая влияние Второго параметра (степени разбавления) на общую оценку. Если $\alpha=1$, то P и R имеют равное влияние.
Выводы
- Баланс полноты и избыточности: Яндекс использует четкую математическую модель для управления кластеризацией контента (например, в Новостях). Система стремится максимизировать информационное покрытие темы (Первая Метрика), одновременно минимизируя дублирование и неточность (Вторая Метрика).
- Итеративное улучшение качества: Кластеризация построена на принципе непрерывного улучшения. Документ добавляется в кластер, только если он повышает Обобщенную Метрику. Если документ добавляет больше избыточности, чем новой информации, он будет исключен из кластера.
- Цель – минимизация усилий пользователя: Конечная цель алгоритма — сформировать кластер так, чтобы пользователю требовалось прочесть минимальное количество документов для получения максимального объема информации по теме.
- Уникальность и дополнительная ценность критичны: Для попадания в кластер (и получения видимости в агрегаторе) контент должен предоставлять дополнительную ценность (высокий P) и не повторять то, что уже есть в кластере (высокий R). Простое переписывание популярных новостей неэффективно.
- Векторный анализ контента: Эффективность системы зависит от качества векторных представлений документов, которые формируются на основе заголовков и/или основного текста.
Практика
Best practices (это мы делаем)
Рекомендации в первую очередь актуальны для новостных сайтов и контентных проектов, участвующих в агрегаторах типа Яндекс.Новости.
- Фокус на уникальных ракурсах и дополнительной информации: При освещении популярных событий стремитесь добавлять уникальную ценность (эксклюзивные комментарии, детали, аналитику), которой нет у конкурентов. Это повышает Первый Параметр Метрики (Взаимное Дополнение) и увеличивает шансы на включение в кластер.
- Глубокая проработка темы: Статьи, которые содержат существенные уникальные детали и глубокий анализ, имеют больше шансов быть расцененными как дополняющие, даже если тема уже освещена другими источниками.
- Оптимизация заголовков для точности: Поскольку вектор документа может формироваться на основе заголовка, он должен максимально точно отражать уникальное содержание статьи, чтобы система корректно оценила его вклад в кластер.
- Развитие новостного сюжета: При появлении новой информации по развивающемуся событию оперативно публикуйте обновления. Новая информация имеет высокую степень взаимного дополнения по отношению к старым данным в кластере.
Worst practices (это делать не надо)
- Рерайтинг пресс-релизов и новостей из лент: Публикация контента, который минимально отличается от первоисточников или статей конкурентов. Такие документы будут иметь низкий вклад в Первый Параметр и будут увеличивать разбавление (снижать Второй Параметр), что приведет к их исключению из кластера.
- Публикация дубликатов или около-дубликатов: Размещение очень похожих статей на своем сайте или через разные каналы дистрибуции. Система выберет только один вариант для кластера.
- Кликбейтные заголовки, не соответствующие содержанию: Если заголовок обещает уникальный ракурс, а текст его не содержит, это может привести к некорректной векторизации и ошибочной оценке метрик, а также негативно повлиять на поведенческие факторы (не рассматриваемые в этом патенте, но важные в целом).
Стратегическое значение
Патент подтверждает стратегический приоритет Яндекса на качество и разнообразие информации, а не на ее количество. В условиях информационного шума системы агрегации вынуждены фильтровать контент не только по релевантности теме, но и по его уникальному вкладу в общее информационное поле. Для SEO-стратегии издателей это означает, что конкуренция смещается от скорости публикации базовых фактов к глубине анализа и эксклюзивности информации. Долгосрочный успех зависит от способности генерировать контент, который система считает «взаимно дополняющим».
Практические примеры
Сценарий: Кластеризация новостей о запуске нового смартфона
Система обрабатывает 4 статьи:
- Статья А: Официальный пресс-релиз (базовые характеристики, дата выхода).
- Статья Б: Новость на сайте X (пересказ пресс-релиза А с минимальными изменениями).
- Статья В: Новость на сайте Y (пересказ пресс-релиза А с минимальными изменениями).
- Статья Г: Обзор на сайте Z (Детальный анализ камеры, эксклюзивные тесты производительности).
Процесс кластеризации:
- Инициализация: Система может начать с кластеризации А и Г, так как они сильно отличаются, но относятся к одной теме. Их Обобщенная Метрика (C) высока (высокое дополнение P, низкое разбавление R).
- Попытка добавить Б: Система рассчитывает обновленную метрику для кластера {А, Г, Б}. Поскольку Б почти повторяет А, прирост P минимален, а R падает (разбавление увеличивается). Обновленная метрика C{А,Г,Б} может оказаться ниже C{А,Г}. Статья Б не добавляется.
- Попытка добавить В: Аналогично Б, статья В не улучшает метрику кластера.
- Результат: Финальный кластер содержит {А, Г}. Пользователь видит базовые факты и глубокий анализ, не тратя время на чтение дубликатов Б и В. Сайты X и Y не получают трафик из этого кластера.
Вопросы и ответы
Какова основная цель этого патента и где он применяется?
Основная цель — повысить качество кластеризации документов за счет минимизации избыточности и максимизации разнообразия информации внутри кластера. Это позволяет пользователю получить полное представление о теме, прочитав меньше документов. Применяется этот механизм в первую очередь в сервисах агрегации контента, таких как Яндекс.Новости, где множество источников освещают одно и то же событие.
Что такое «Первый Параметр Метрики» (Взаимное Дополнение)?
Это показатель того, насколько контент документов в кластере дополняет друг друга. Он измеряет «широту» охвата темы. Если документы содержат уникальные детали или разные точки зрения на одну тему, этот параметр будет высоким. Он рассчитывается на основе среднего сходства между векторами документов внутри кластера (Формулы 1 и 2).
Что такое «Второй Параметр Метрики» (Разбавление)?
Этот параметр измеряет, насколько концентрирована тема внутри кластера и как добавление нового документа влияет на эту концентрацию. Если новый документ слишком похож на уже существующие (избыточен) или отклоняется от основной темы (неточен), он «разбавляет» кластер, и метрика падает. Высокое значение метрики означает низкое разбавление. Он рассчитывается как отношение сходства внутри кластера к сходству со всем набором документов (Формулы 3 и 4).
Как принимается решение о включении документа в кластер?
Решение принимается на основе «Обобщенного Параметра Метрики» (C), который комбинирует Первую (P) и Вторую (R) метрики (Формула 5: $C = R^{\alpha} \cdot P$). Документ добавляется в кластер только в том случае, если его добавление увеличивает Обобщенный Параметр Метрики всего кластера. Если добавление документа снижает метрику (т.е. он добавляет больше избыточности, чем пользы), он исключается.
Влияет ли этот патент на ранжирование в основном поиске Яндекса?
Прямого влияния на ранжирование в основном веб-поиске (L1-L4) патент не описывает. Он сфокусирован на задаче кластеризации схожих документов в агрегаторах. Однако он демонстрирует общий подход Яндекса к оценке уникальности и дополнительной ценности контента, что косвенно связано с алгоритмами борьбы с дубликатами и оценкой качества контента в веб-поиске.
Как этот патент влияет на SEO-стратегию для новостных сайтов?
Стратегия должна сместиться от простого переписывания новостей к созданию уникальной добавленной стоимости. Чтобы попасть в новостной сюжет (кластер) и получить трафик, необходимо публиковать материалы с эксклюзивными деталями, уникальной аналитикой или новыми ракурсами освещения события. Публикация стандартных пресс-релизов или рерайтов становится неэффективной.
Что означает параметр α в формуле Обобщенной Метрики?
Параметр $\alpha$ (альфа) в формуле $C = R^{\alpha} \cdot P$ контролирует влияние Второго Параметра Метрики (R, Разбавление) на общую оценку. Чем выше $\alpha$, тем строже система относится к разбавлению контента и тем важнее минимизация избыточности. Это настраиваемый параметр, позволяющий Яндексу регулировать агрессивность фильтрации дубликатов.
На основе чего строятся векторы документов в этой системе?
В патенте указано, что векторы строятся на основе по меньшей мере части контента документа. Конкретно упоминаются заголовок документа и контент тела документа. Для генерации векторов используются методы NLP, такие как Word Embedding или нейронные сети (хотя в патенте упомянуты устаревшие примеры вроде LDA, на практике, вероятно, используются современные трансформерные модели).
Может ли система объединять уже существующие кластеры?
Да, патент явно описывает, что механизм универсален. Система может оценивать потенциальное объединение двух существующих кластеров точно так же, как и объединение двух документов. Если Обобщенная Метрика объединенного кластера будет выше, чем метрики исходных кластеров, они будут объединены.
Что происходит, если моя статья является полным дубликатом другой статьи?
Если система уже включила оригинальную статью в кластер, попытка добавить ваш дубликат приведет к тому, что Первая Метрика (дополнение) практически не вырастет, а Вторая Метрика (разбавление) упадет. В результате Обобщенная Метрика кластера снизится. Следовательно, ваш дубликат не будет добавлен в кластер и не получит видимости в рамках этого новостного сюжета.