Яндекс использует алгоритм для группировки похожих документов (например, в Яндекс.Новостях), который оценивает качество кластера по двум метрикам: Когезия (насколько документы внутри похожи друг на друга) и Фокус (насколько тема сконцентрирована и не размыта). Документы объединяются только в том случае, если это улучшает общий баланс, что позволяет автоматически определять оптимальный размер и границы тематических групп.
Описание
Какую задачу решает
Патент решает проблему качества кластеризации документов в системах агрегации контента, таких как Yandex.News. Заявленная проблема — избыточность (redundancy): кластеры часто содержат множество документов, описывающих событие схожим образом, что неэффективно для пользователя. Изобретение предлагает метод автоматического создания кластеров, который стремится максимизировать информативность при минимизации количества документов, а также автоматически определяет оптимальное количество и размер кластеров.
Что запатентовано
Запатентован метод и система иерархической агломеративной кластеризации, основанной на Combined Metric Parameter (Комбинированном Метрическом Параметре). Суть изобретения заключается в оценке целесообразности объединения документов или кластеров путем расчета баланса между двумя метриками: First Metric Parameter (P) и Second Metric Parameter (R). Слияние происходит, только если оно улучшает комбинированную метрику (C).
Как это работает
Система преобразует документы (заголовки и/или текст) в Document Vectors. Затем она итеративно оценивает пары для объединения. Для каждой пары рассчитывается Combined Metric Parameter (C). Метрика C является функцией от P (которая, согласно формулам патента, измеряет внутреннюю схожесть или Когезию) и R (которая измеряет тематический Фокус или отсутствие размытия). Система выполняет слияние с наилучшим показателем C, но только если новый C выше, чем у его компонентов. Процесс роста кластера останавливается автоматически, когда дальнейшие добавления перестают улучшать метрику C.
Актуальность для SEO
Высокая. Кластеризация на основе векторных представлений является стандартом индустрии. Описанный механизм автоматического определения границ кластеров через балансировку метрик когезии и фокуса крайне актуален для современных систем агрегации новостей и обработки больших потоков текстовых данных.
Важность для SEO
Среднее влияние (5.5/10). Патент не описывает алгоритмы ранжирования основного веб-поиска. Однако он имеет критическое значение для SEO новостных сайтов и издателей, зависящих от трафика из агрегаторов (например, Яндекс.Новости). Патент описывает механизм группировки статей в сюжеты. Понимание этого механизма необходимо для создания контента, который будет корректно кластеризован: он должен быть строго сфокусирован на теме (высокий R) и семантически близок к ядру события (высокий P).
Детальный разбор
Термины и определения
ВАЖНОЕ ЗАМЕЧАНИЕ: В патенте присутствует терминологическая неоднозначность. Термин «Complementariness» (Дополняемость) используется для Первой метрики (P), а «Dilution» (Размытие) для Второй метрики (R). Однако математические формулы, приведенные в патенте, определяют P как меру средней внутренней схожести (Когезия), а R как меру концентрации темы (Фокус). В анализе мы будем опираться на математическое определение метрик.
- Combined Metric Parameter (C) (Комбинированный Метрический Параметр)
- Ключевая метрика качества кластера. Является функцией от P и R. Используется как критерий принятия решений в алгоритме кластеризации: слияние происходит, если C увеличивается.
- Document Vector (Вектор документа)
- Численное представление (эмбеддинг) документа в многомерном пространстве, сгенерированное на основе его контента (заголовка и/или тела).
- First Metric Parameter (P) (Первый Метрический Параметр)
- Индикатор Degree of Complementariness. Математически определяется как средняя схожесть между документами внутри кластера. Отражает Когезию (Cohesion) кластера. Высокое значение P означает, что документы внутри кластера очень похожи друг на друга.
- Potential Cluster (Потенциальный кластер)
- Гипотетическое объединение двух объектов (документов или кластеров), оцениваемое на целесообразность слияния.
- Second Metric Parameter (R) (Второй Метрический Параметр)
- Индикатор Degree of Dilution (степени размытия). Математически определяется как отношение схожести внутри кластера к общей схожести со всеми документами в наборе. Отражает Фокус (Focus) или Концентрацию темы. Высокое значение R означает низкое размытие (сильный фокус).
Ключевые утверждения (Анализ Claims)
Патент описывает метод иерархической агломеративной кластеризации (HAC) с автоматическим критерием остановки, основанным на оптимизации комплексной метрики C.
Claim 1 (Независимый пункт): Описывает базовый механизм оценки слияния.
- Система получает два объекта (первый и второй документы).
- Для потенциального кластера, образованного их слиянием, рассчитываются:
- Updated First Metric Parameter (P) (оценка когезии).
- Updated Second Metric Parameter (R) (оценка фокуса/размытия).
- Updated Combined Metric Parameter (C) (на основе P и R).
- Генерация кластера основывается на значении C.
Claim 2 (Зависимый от 1): Определяет пороговое условие слияния (Критерий Улучшения).
Слияние выполняется только в том случае, если Updated Combined Metric Parameter (C) потенциального кластера выше, чем исходные комбинированные параметры его компонентов. Слияние должно улучшать качество.
Claim 3 (Зависимый от 2): Описывает инициализацию агломеративного процесса.
Система рассчитывает Updated C для всех возможных пар документов в наборе. Первый кластер формируется из пары с максимальным значением Updated C.
Claim 4 и 5 (Зависимые): Описывают механизм роста кластера и условие остановки.
Система пытается добавить оставшиеся документы к существующему кластеру. Документ добавляется, только если это увеличивает текущий C кластера (Claim 4). Процесс роста повторяется до тех пор, пока добавление любого оставшегося документа не перестанет увеличивать C. В этот момент кластер закрывается (Claim 5).
Claim 15 (Зависимый от 1): Подтверждает иерархическую природу.
Механизм применим не только к отдельным документам, но и к слиянию уже существующих кластеров.
Где и как применяется
Патент не относится к основному конвейеру ранжирования веб-поиска. Он описывает механизм, используемый в сервисах агрегации контента. В тексте явно упоминаются новостные агрегаторы (Yandex.News).
CRAWLING – Сбор данных
Система получает на вход поток документов (новостных статей) из различных источников.
INDEXING – Извлечение признаков и Кластеризация
На этом этапе происходит основная работа алгоритма, которая выполняется асинхронно (офлайн или в режиме, близком к реальному времени).
- Feature Extraction (Векторизация): Компонент Vector Generation Procedure анализирует контент (заголовки, тело) и генерирует Document Vectors (эмбеддинги).
- Clustering: Clustering Algorithm обрабатывает эти векторы, используя описанный иерархический метод для группировки документов в кластеры (сюжеты/темы) на основе метрики C.
- Хранение: Результаты кластеризации сохраняются и используются News Aggregator Application для показа пользователям.
На что влияет
- Конкретные типы контента: Новостные статьи, материалы онлайн-журналов, пресс-релизы и другой контент, обрабатываемый агрегаторами.
- Представление в агрегаторах: Определяет границы новостных сюжетов — какие статьи будут объединены в одну группу, а какие сформируют отдельные кластеры.
Когда применяется
- Триггеры активации: По мере поступления новых документов в базу данных агрегатора или через регулярные интервалы времени.
- Условия слияния: Слияние происходит, только если Combined Metric Parameter (C) улучшается.
- Условия остановки: Рост кластера прекращается, когда C достигает локального максимума (дальнейшие добавления ухудшают качество).
Пошаговый алгоритм
Процесс иерархической агломеративной кластеризации (на основе Method 400 патента).
Этап 1: Подготовка
- Сбор данных: Получение множества документов.
- Векторизация: Генерация Document Vector для каждого документа.
- Инициализация: Присвоение начальных метрик P, R, C каждому документу (например, P=1, R=0, C=0, как предложено в описании).
Этап 2: Формирование Кластеров
- Расчет потенциальных слияний: Для всех возможных пар оставшихся документов рассчитываются Обновленные метрики (Updated P, R, C).
- Первое слияние: Выбирается пара с максимальным Updated C (при условии, что C > 0). Они формируют первый кластер. C сохраняется.
- Рост кластера (Итерация):
- Система оценивает добавление каждого из оставшихся документов к текущему кластеру.
- Рассчитывается Updated C (C_new) для каждого потенциального слияния.
- Если максимальный C_new выше текущего C кластера (C_current), соответствующий документ добавляется. C_current обновляется до C_new.
- Шаг 6 повторяется, пока C_current растет.
- Закрытие кластера: Когда рост невозможен (C не увеличивается), кластер закрывается.
- Повторение: Шаги 4-7 повторяются для оставшихся некластеризованных документов.
Какие данные и как использует
Данные на входе
- Контентные факторы: Исключительно контент документов. Явно указаны Title (заголовок) и Body Content (основное содержание). Эти данные используются для генерации векторов.
Поведенческие, ссылочные или технические факторы в данном патенте не используются.
Какие метрики используются и как они считаются
Система использует Document Vectors, сгенерированные с помощью NLP-моделей (упомянуты word2vec, LDA, нейронные сети), и функцию схожести w(d1, d2) между векторами (предполагается, что большее значение w означает большую схожесть).
1. First Metric Parameter (P) — Когезия (Схожесть)
Измеряет среднюю схожесть документов внутри кластера $D_i$.
Для документа d в кластере $D_i$ (Формула 1):
$$P(d)=\frac{1}{|D_{i}|}\sum_{d_{i}^{\prime}\in D_{i}}w(d,d_{i})$$
Для кластера $D_i$ (Формула 2) это среднее значение P(d):
$$P(D_{i})=\frac{1}{|D_{i}|}\sum_{d\in D_{i}}P(d)$$
2. Second Metric Parameter (R) — Фокус (Отсутствие размытия)
Измеряет отношение внутренней схожести к общей схожести со всеми документами в наборе D.
Для документа d в кластере $D_i$ (Формула 3):
$$R(d) = \frac{\sum_{d_i \in D_i} w(d, d_i)}{\sum_{d’ \in D} w(d, d’)}$$
Для кластера $D_i$ (Формула 4) это среднее значение R(d):
$$R(D_{i})=\frac{1}{|D_{i}|}\sum_{d\in D_{i}}R(d)$$
3. Combined Metric Parameter (C) — Комбинированная Метрика
Определяет общее качество кластера (Формула 5):
$$C(P(D_{i}),R(D_{i}))=R(D_{i})^{\alpha}\cdot P(D_{i})$$
Где $\alpha$ (альфа) — это настраиваемая константа, определяющая вес метрики R (Фокус) в общей оценке. Цель алгоритма — максимизировать C.
Выводы
- Качество кластера = Когезия + Фокус: Ключевая идея патента — формализация оценки качества кластера через две метрики. Кластер должен быть когезивным (документы внутри похожи друг на друга — высокий P) и сфокусированным (документы внутри гораздо ближе друг к другу, чем к документам снаружи — высокий R).
- Автоматическое определение границ кластеров: Алгоритм не требует задания количества кластеров заранее. Он использует иерархический агломеративный подход и останавливает рост кластера, когда Комбинированная Метрика (C) достигает локального максимума.
- Внутренняя амбивалентность терминологии: В патенте есть противоречие. Заявленная цель — борьба с избыточностью и максимизация «Дополняемости» (Complementariness). Однако математическая формула для P измеряет среднюю схожесть (Когезию). Максимизация схожести может противоречить цели минимизации избыточности. При анализе следует опираться на математические операции.
- Фокус на агрегаторах: Механизм разработан специально для задач агрегации контента (Yandex.News) и не описывает ранжирование в основном поиске.
- Зависимость от качества эмбеддингов: Эффективность кластеризации напрямую зависит от качества векторных представлений документов и выбранной функции схожести (w).
Практика
ВАЖНО: Рекомендации применимы в первую очередь для издателей и новостных сайтов, стремящихся к видимости в агрегаторах типа Яндекс.Новости.
Best practices (это мы делаем)
- Сохраняйте строгий фокус на теме (Оптимизация R): Статья должна быть посвящена одному конкретному событию или узкой теме. Избегайте ухода в смежные области или смешивания разных инфоповодов в одном материале. Это повышает метрику R (Фокус), так как статья будет сильно отличаться от документов вне целевого кластера.
- Обеспечивайте семантическую близость к ядру события (Оптимизация P): Используйте точные, релевантные заголовки и терминологию, характерную для освещаемого события. Это гарантирует высокую когезию (P) с другими документами по этой теме, что необходимо для попадания в кластер.
- Пишите четкие и информативные заголовки: Поскольку векторизация часто опирается на заголовки (как указано в патенте), они критически важны для корректного определения семантической близости (P) и фокуса (R) статьи.
- Добавляйте уникальную ценность (Стратегия внутри кластера): Хотя алгоритм кластеризации (по формулам) предпочитает схожесть, для того чтобы выделиться внутри сформированного кластера и стать его «лицом» (что определяется уже другими алгоритмами ранжирования), необходимо добавлять уникальные детали, аналитику или эксклюзивные комментарии.
Worst practices (это делать не надо)
- Публикация статей-сборников («Главное за день»): Материалы, охватывающие несколько разных событий, будут иметь низкий Фокус (R) по отношению к любому конкретному событию. Они плохо кластеризуются, так как одинаково (и слабо) похожи на документы из разных групп.
- Уход от темы и «вода»: Наличие в статье больших блоков текста, нерелевантных основному событию, размывает фокус (снижает R) и может привести к исключению из целевого кластера.
- Слишком креативные или неточные заголовки: Заголовки, которые семантически далеки от сути события, приведут к низкой Когезии (P) с другими релевантными статьями, из-за чего материал не попадет в нужный кластер.
- Чистый рерайтинг без добавления ценности: Хотя такие статьи будут хорошо кластеризованы (высокий P и R), они создают избыточность, заявленную как проблема в патенте. Это повышает риск быть скрытым за более авторитетными или полными источниками внутри кластера.
Стратегическое значение
Патент демонстрирует технический подход Яндекса к автоматической организации информационного потока. Для издателей это подчеркивает необходимость строгого соблюдения тематической релевантности и фокуса для успешной кластеризации в агрегаторах. Система математически оценивает, насколько точно документ соответствует теме и насколько он сконцентрирован на ней. Стратегия должна заключаться в создании максимально сфокусированного контента.
Практические примеры
Сценарий: Выборы в стране X. Формирование кластера о результатах голосования.
Пример 1: Высокая Когезия (P) и Высокий Фокус (R)
- Статьи: «Кандидат А победил на выборах в стране X с 52% голосов» и «Выборы в стране X: Кандидат А одержал победу».
- Результат: Статьи очень похожи (Высокий P) и сильно отличаются от новостей про спорт или погоду (Высокий R). Метрика C высока. Они формируют ядро кластера.
Пример 2: Низкий Фокус (R)
- Статья: «Политика страны X за последние 10 лет и биография Кандидата А».
- Результат: При попытке добавить эту статью к ядру кластера (Пример 1), система видит, что статья затрагивает много смежных тем. Это снижает Фокус (R), так как увеличивается схожесть с документами вне кластера (например, историческими обзорами). Если снижение R перевешивает P, метрика C упадет, и статья не будет добавлена в этот кластер.
Пример 3: Низкая Когезия (P)
- Статья: «Протесты в столице страны X» (если они являются отдельным событием).
- Результат: Статья семантически далека от ядра кластера о результатах выборов. Средняя схожесть (P) будет низкой. Метрика C упадет, и статья не будет добавлена в этот кластер, а сформирует свой собственный.
Вопросы и ответы
Что такое First Metric Parameter (P) и Second Metric Parameter (R) простыми словами?
Основываясь на формулах патента, P — это Когезия (Cohesion): насколько похожи документы внутри кластера друг на друга. Высокий P означает, что все статьи почти об одном и том же. R — это Фокус (Focus) или Концентрация: насколько документы в кластере ближе друг к другу, чем к документам снаружи. Высокий R означает, что тема кластера четко очерчена и не размыта.
Почему в патенте P называется «Complementariness» (Дополняемость), если формула измеряет схожесть (Когезию)?
Это внутренняя неоднозначность патента. Терминология предполагает, что P измеряет новизну или дополнительную информацию, но приведенная математическая формула (Уравнения 1 и 2) измеряет среднюю схожесть. Для точного технического анализа мы должны опираться на формулы. Вероятно, термин «Complementariness» используется в значении того, насколько хорошо документы сочетаются вместе для формирования единой темы.
Как работает Combined Metric Parameter (C)?
C — это итоговая оценка качества кластера, рассчитываемая как $C = R^α \cdot P$. Она балансирует Когезию (P) и Фокус (R). Алгоритм стремится максимизировать C. Слияние документов или кластеров происходит только в том случае, если это увеличивает итоговое значение C. Как только C перестает расти, кластер закрывается.
Влияет ли этот патент на ранжирование в основном поиске Яндекса?
Нет, напрямую не влияет. Патент описывает механизм кластеризации контента для агрегаторов, таких как Яндекс.Новости. Он определяет, как группируются документы по темам, а не то, как они ранжируются в ответ на поисковый запрос пользователя в основном веб-поиске.
Как этот алгоритм борется с дубликатами и рерайтингом, если он максимизирует схожесть (P)?
Это сложный момент, учитывая формулы. Максимизация P и R действительно способствует созданию кластеров из очень похожих документов. Вероятно, борьба с избыточностью (заявленная цель патента) достигается либо за счет тонкой настройки параметра $\alpha$, либо на последующих этапах обработки, например, при выборе «представительного» (главного) документа для показа в кластере.
Какая стратегия лучше для попадания в новостной кластер: написать уникальную статью или статью, похожую на другие?
Исходя из формул, важнее быть похожим на ядро темы (высокий P) и строго сфокусированным (высокий R). Слишком уникальная статья рискует снизить среднюю схожесть (P) и быть исключенной из кластера. Нужно найти баланс: оставаться в рамках темы, но при этом добавлять уникальную ценность, чтобы выделиться при дальнейшем ранжировании внутри кластера.
Насколько важны заголовки для этого алгоритма?
Они критически важны. В патенте указано, что Document Vectors могут генерироваться на основе заголовков. В условиях быстрого новостного потока заголовки часто являются основным источником данных для кластеризации. Они должны быть максимально точными и релевантными событию.
Что означает параметр Альфа (α) в формуле комбинированной метрики?
Альфа (α) в формуле $C = R^α \cdot P$ — это весовой коэффициент, позволяющий настроить баланс между Фокусом (R) и Когезией (P). Увеличивая α, система придает больший вес Фокусу, стремясь к созданию более узких и концентрированных кластеров. Если α=1, обе метрики считаются равнозначными.
Использует ли этот алгоритм поведенческие факторы или авторитетность источников?
Нет. Согласно патенту, этот алгоритм кластеризации основан исключительно на контентном анализе (векторах заголовков и/или тела статьи) и расчете метрик P и R. Авторитетность или клики не упоминаются в этом механизме.
Что произойдет, если моя статья охватывает две разные темы?
Такая статья будет иметь низкий показатель Фокуса (R) по отношению к обеим темам. Она будет одинаково похожа на документы из разных кластеров, что система интерпретирует как «размытие» (Dilution). Скорее всего, она не попадет ни в один из основных кластеров по этим темам, что снизит ее видимость.