Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс определяет первоисточник контента путем анализа тематических кластеров, репутации и паттернов цитирования

    METHOD AND SYSTEM FOR DETERMINING A SOURCE LINK TO A SOURCE OBJECT (Метод и система определения ссылки на исходный объект)
    • US10868872B2
    • Yandex LLC
    • 2020-12-15
    • 2017-03-16
    2020 Topical Authority Качество контента Патенты Яндекс Яндекс Новости

    Яндекс использует машинное обучение для идентификации оригинального источника контента среди множества перепечаток. Система группирует похожие публикации в «тематические кластеры» и анализирует исходящие ссылки внутри них. Оценивая репутацию источников, время публикации и частоту цитирования, система определяет URL первоисточника, даже если он не был проиндексирован ранее.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему идентификации оригинального источника контента (Source Object) в условиях массового перепечатывания и синдикации информации. Когда контент многократно публикуется третьими сторонами, его содержание может искажаться, а атрибуция теряться. Изобретение позволяет поисковой системе точно определить ссылку на первоисточник (Source Link), что критически важно для корректной атрибуции авторитетности и предоставления пользователям доступа к оригинальной информации, особенно в системах агрегации новостей.

    Что запатентовано

    Запатентована система и метод определения ссылки на первоисточник для группы публикаций на одну тему. Суть изобретения заключается в кластеризации публикаций по темам (Theme Clusters), извлечении потенциальных ссылок на источник и использовании модели машинного обучения (Machine Learning Algorithm) для выбора истинного первоисточника. Модель обучается на наборе признаков (Set of Features), включающих репутацию источников, временные метки и частоту цитирования ссылок внутри кластера.

    Как это работает

    Система собирает опубликованные объекты и группирует их в Theme Clusters на основе схожести содержания. Из каждой публикации в кластере извлекаются исходящие ссылки (Potential Source Links). Для каждой такой ссылки в контексте кластера (формируется Link-Cluster Pair) рассчитывается набор признаков, таких как репутация ссылающегося сайта и сайта назначения, разница во времени публикации и частота упоминания этой ссылки в кластере. Модель машинного обучения анализирует эти признаки и определяет Source Link. Важно, что система может определить первоисточник, даже если он ранее не был просканирован краулером.

    Актуальность для SEO

    Высокая. Идентификация первоисточника является фундаментальным элементом оценки достоверности и качества контента (Trustworthiness в контексте E-E-A-T). В условиях быстрого распространения информации и проблем с дезинформацией, описанные механизмы, основанные на анализе графа цитирования и репутации, крайне актуальны для современных поисковых систем и агрегаторов.

    Важность для SEO

    Влияние на SEO значительно (8/10). Этот патент описывает механизм, с помощью которого Яндекс атрибутирует оригинальность контента. Для SEO-специалистов это критически важно: сайты, идентифицированные как первоисточники, вероятно, получают значительное преимущество в ранжировании (особенно в агрегаторах) и консолидируют сигналы авторитетности. Для сайтов, которые перепечатывают контент, патент подчеркивает важность правильной атрибуции (ссылок и упоминаний).

    Детальный разбор

    Термины и определения

    Destination Reputation Feature (Признак репутации назначения)
    Метрика, отражающая репутацию (авторитетность) сайта или источника, на который ведет потенциальная ссылка.
    Link-Cluster Pair (Пара Ссылка-Кластер)
    Структура данных, связывающая извлеченную потенциальную ссылку с тематическим кластером, в котором она была найдена. Используется как основа для расчета признаков.
    Normalized Feature (Нормализованный признак)
    Ключевой признак, рассчитываемый как отношение числа публикаций в кластере, содержащих данную ссылку, к общему числу публикаций в кластере. Отражает частоту цитирования.
    Potential Source Link (Потенциальная ссылка на первоисточник)
    Исходящая ссылка, извлеченная из опубликованного объекта внутри тематического кластера, которая гипотетически может указывать на исходный объект.
    Publication Source Identifier (Идентификатор источника публикации)
    Текстовое наименование сущности, опубликовавшей контент (например, название СМИ, бренда). Используется для анализа текстовых упоминаний.
    Published Object (Опубликованный объект)
    Веб-страница, документ, статья или пост, доступный в сети и собранный краулером.
    Reputation (Репутация)
    Показатель надежности или авторитетности источника публикации (например, аналог PageRank или внутренняя метрика авторитетности).
    Source Link (Ссылка на первоисточник)
    Сетевой адрес (URL) исходного объекта, определенный системой как истинный первоисточник для данного тематического кластера.
    Source Object (Исходный объект / Первоисточник)
    Оригинальная публикация, из которой проистекают последующие опубликованные объекты на ту же тему.
    Theme Cluster (Тематический кластер)
    Группа опубликованных объектов, идентифицированных системой как относящиеся к одной и той же теме или истории.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод определения ссылки на первоисточник.

    1. Сервер получает множество Published Objects из базы краулера.
    2. Объекты анализируются и группируются в Theme Clusters.
    3. Из каждого объекта в кластере извлекаются Potential Source Links.
    4. Генерируются Link-Cluster Pairs.
    5. Для каждой пары генерируется набор признаков (Set of Features). Явно указан ключевой признак: Normalized Feature (нормализованная частота цитирования ссылки внутри кластера).
    6. На основе этого набора признаков определяется истинная Source Link с использованием Machine Learning Algorithm.
    7. Критически важное условие: определение Source Link выполняется без предварительного сохранения Source Object (первоисточника) в базе данных краулера. Это означает, что Яндекс может найти источник, даже если он не был проиндексирован.
    8. Определенная Source Link ассоциируется со всеми объектами в данном Theme Cluster.

    Claim 9 (Зависимый от 1): Детализирует дополнительные признаки, используемые моделью машинного обучения:

    • Временные различия (Difference-in-time feature).
    • Репутация источника, который ссылается (Source reputation feature).
    • Репутация источника, на который ссылаются (Destination reputation feature).
    • Агрегированная репутация всех источников в кластере, которые указывают на эту ссылку (Aggregated reputation feature).
    • Признаки, основанные на присутствии других ссылок в кластере (Difference feature).
    • Признаки, основанные на упоминании идентификатора источника (бренда) в тексте публикаций (Presence, Content, Reference features).

    Claim 8 (Зависимый от 7): Описывает опциональный механизм предварительной фильтрации. Система может рассчитывать количество входящих ссылок на объект *внутри кластера* и выполнять извлечение исходящих ссылок только для объектов, имеющих определенное количество входящих ссылок, фокусируясь на локально авторитетных узлах.

    Где и как применяется

    Изобретение применяется на этапах обработки данных после сканирования и тесно связано с процессами индексации и анализа контента, особенно в контексте новостных агрегаторов.

    CRAWLING – Сканирование и Сбор данных
    Краулер (Crawler application) собирает исходные Published Objects и сохраняет их в базу данных (Crawler database). Это входные данные для системы.

    INDEXING – Индексирование и извлечение признаков
    Основная работа алгоритма происходит на этом слое:

    1. Кластеризация: Модуль кластеризации (Clustering module) анализирует контент (вероятно, с использованием Parser Platform) для создания Theme Clusters.
    2. Извлечение ссылок: Модуль извлечения ссылок (Link extractor module) извлекает Potential Source Links.
    3. Расчет признаков: Система рассчитывает Set of Features для каждой пары Ссылка-Кластер. Это включает обращение к базам данных репутации (статические факторы) и анализ временных меток.
    4. Определение источника: Алгоритм предсказания (Source link prediction algorithm), использующий ML, определяет истинную Source Link.

    BLENDER – Метапоиск и Смешивание
    Результаты работы алгоритма могут использоваться агрегаторами (например, Яндекс.Новости) для отображения ссылки на первоисточник или приоритизации показа самого первоисточника в рамках новостного сюжета.

    На что влияет

    • Конкретные типы контента: Наибольшее влияние оказывается на контент, который часто копируется или освещается другими источниками: новости, пресс-релизы, вирусный контент, исследования.
    • Конкретные ниши или тематики: Критическое влияние в новостных тематиках, финансах (YMYL) и любых быстро меняющихся нишах, где важна атрибуция источника.
    • Особенности: Система специально разработана для идентификации источников, которые могут быть не проиндексированы (например, пост в социальной сети или новый блог), при условии, что на него ссылаются другие проиндексированные ресурсы.

    Когда применяется

    Алгоритм активируется, когда система идентифицирует достаточное количество схожих публикаций для формирования Theme Cluster. Этот процесс выполняется непрерывно или периодически по мере поступления нового контента в индекс, особенно в рамках конвейера обработки новостей (Fresh Profiles).

    Пошаговый алгоритм

    1. Сбор данных (Acquisition): Сервер получает набор просканированных опубликованных объектов из базы данных краулера.
    2. Кластеризация (Clustering): Анализ содержания (заголовков и/или текста) каждого объекта и группировка схожих объектов в Theme Clusters.
    3. Предварительная фильтрация (Optional): Система может рассчитать количество входящих ссылок внутри кластера для каждого объекта. Объекты с количеством входящих ссылок ниже порога могут быть исключены из дальнейшего анализа.
    4. Извлечение ссылок (Extraction): Извлечение всех исходящих ссылок (Potential Source Links) из объектов внутри кластера.
    5. Генерация пар (Pair Generation): Формирование Link-Cluster Pairs для каждой извлеченной ссылки.
    6. Генерация признаков (Feature Generation): Расчет набора признаков для каждой пары. Это включает анализ времени, репутации и частоты цитирования.
    7. Предсказание (Prediction): Использование обученной модели машинного обучения для анализа признаков и определения, какая из потенциальных ссылок является истинной Source Link для данного кластера.
    8. Ассоциация (Association): Связывание идентифицированной Source Link со всеми объектами в Theme Cluster и сохранение результата.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Заголовки и основной текст публикаций используются для формирования Theme Clusters и анализа на предмет наличия идентификаторов источников публикаций (упоминаний брендов).
    • Ссылочные факторы: Исходящие ссылки извлекаются как Potential Source Links. Также могут рассчитываться входящие ссылки строго внутри кластера для фильтрации объектов.
    • Временные факторы: Время публикации каждого объекта используется для расчета временных различий внутри кластера.
    • Факторы авторитетности/Репутации (Внешние данные): Используются предварительно рассчитанные оценки Reputation для источников публикаций (как для ссылающихся сайтов, так и для сайтов назначения).

    Какие метрики используются и как они считаются

    Патент определяет 9 ключевых признаков, которые рассчитываются для каждой Link-Cluster Pair и подаются на вход модели машинного обучения:

    Признаки цитирования и частоты:

    1. Normalized feature (Нормализованный признак): Частота цитирования. Рассчитывается по формуле:
      $$Normalized\ Feature = \frac{\text{Число объектов в кластере, содержащих ссылку}}{\text{Общее число объектов в кластере}}$$
    2. Difference feature (Признак различия): Признак, отражающий наличие других потенциальных ссылок внутри кластера (анализ конкуренции за статус источника).

    Признаки репутации:

    1. Source reputation feature: Репутация сайта, опубликовавшего объект, содержащий данную ссылку (кто ссылается).
    2. Destination reputation feature: Репутация сайта, на который ведет данная ссылка (на кого ссылаются).
    3. Aggregated reputation feature: Суммарная (агрегированная) репутация всех сайтов в кластере, которые содержат именно эту ссылку.

    Временные признаки:

    1. Difference-in-time feature: Разница между временем публикации объекта, содержащего ссылку, и медианным временем публикации других объектов в кластере.

    Признаки текстовых упоминаний (Publication Source Identifier):

    1. Presence feature: Присутствие идентификатора источника (бренда), связанного с данной ссылкой, в контенте объектов кластера.
    2. Content feature: Наличие одного или нескольких идентификаторов источников публикаций в контенте конкретного объекта, связанного с данной парой Ссылка-Кластер.
    3. Reference feature: Признак, отражающий присутствие идентификатора источника, связанного с данной ссылкой, в контенте объектов кластера.

    Выводы

    1. Яндекс определяет оригинальность комплексно: Система не полагается только на время публикации. Решение о первоисточнике принимается ML-моделью на основе комбинации факторов: частоты цитирования, репутации участников и временных меток.
    2. Критическая роль Репутации (Авторитетности): Reputation используется в нескольких ключевых признаках. Авторитетность учитывается как для сайта, который ссылается, так и для сайта, на который ссылаются, а также агрегировано.
    3. Возможность найти неиндексированный источник: Ключевая особенность системы — способность идентифицировать URL первоисточника, даже если он отсутствует в индексе Яндекса (например, пост в социальной сети). Вывод делается на основе анализа ссылок, которые ставят другие проиндексированные сайты.
    4. Консенсус цитирования как сильный сигнал: Normalized Feature (процент сайтов в кластере, ссылающихся на один URL) является мощным индикатором первоисточника.
    5. Учет текстовых упоминаний: Система анализирует не только гиперссылки, но и текстовые упоминания бренда источника (Publication Source Identifier), что позволяет учитывать цитирование без прямой ссылки.

    Практика

    Best practices (это мы делаем)

    • Создание оригинального контента и стимулирование цитирования: Стратегический приоритет — быть первоисточником. Необходимо работать над тем, чтобы другие авторитетные ресурсы ссылались на ваш оригинал. Это напрямую влияет на Normalized Feature и Aggregated Reputation Feature.
    • Повышение общей Репутации сайта (E-E-A-T): Высокий авторитет сайта увеличивает вероятность признания его первоисточником (Destination Reputation) и увеличивает вес его исходящих ссылок при цитировании других материалов (Source Reputation).
    • Четкая атрибуция при перепечатке: Если вы используете чужой контент, всегда ставьте прямую ссылку на Source Object и упоминайте название источника в тексте. Это помогает системе корректно идентифицировать связи и демонстрирует вашу надежность (Trustworthiness).
    • Скорость публикации (для новостей): Для событийного контента важно публиковать информацию оперативно, так как временные признаки (Difference-in-time) учитываются при определении источника.
    • Четкое брендирование: Убедитесь, что ваш бренд легко идентифицируется как Publication Source Identifier для корректного учета текстовых упоминаний (Presence/Reference Features).

    Worst practices (это делать не надо)

    • Копирование или глубокий рерайт без атрибуции: Публикация чужого контента без ссылок и упоминаний источника затрудняет работу системы и снижает качество вашего ресурса в глазах поисковой системы.
    • Искусственное завышение цитирования низкокачественными сайтами: Поскольку система учитывает Aggregated Reputation, массовое цитирование с неавторитетных ресурсов будет иметь низкий вес по сравнению с цитированием от трастовых сайтов.
    • Использование вводящих в заблуждение ссылок: Попытки скрыть источник или ссылаться на промежуточные ресурсы (цепочки копий) вместо оригинала вносят шум в систему и могут привести к неправильной атрибуции.

    Стратегическое значение

    Патент подтверждает, что идентификация оригинальности контента является фундаментальным элементом оценки качества и авторитетности (E-E-A-T). Система позволяет Яндексу не просто находить релевантный контент, но и определять, кто является его автором или первоначальным источником. Долгосрочная SEO-стратегия должна фокусироваться на создании уникальной ценности и построении репутации надежного источника информации в своей нише, который естественно цитируется авторитетными игроками рынка.

    Практические примеры

    Сценарий 1: Определение первоисточника для эксклюзивного материала

    1. Действие: Ваше издание (Репутация: Высокая) публикует эксклюзивное расследование.
    2. Распространение: Другие крупные СМИ (Репутация: Высокая) освещают вашу историю, ссылаясь на вашу статью и упоминая ваше издание в тексте.
    3. Работа системы: Яндекс формирует Theme Cluster. При расчете признаков ваша ссылка получает высокий Normalized Feature (многие ссылаются), высокий Aggregated Reputation Feature (ссылаются авторитетные СМИ), высокий Destination Reputation (ваш сайт авторитетен) и позитивные сигналы от Presence Feature.
    4. Результат: ML-модель идентифицирует вашу статью как Source Object. Ваша статья получает приоритет в ранжировании и атрибуцию источника.

    Сценарий 2: Идентификация неиндексированного источника (Соцсети)

    1. Событие: Известный человек делает заявление в своем Twitter (X) аккаунте. Краулер Яндекса еще не проиндексировал этот твит.
    2. Распространение: Новостные агентства публикуют статьи об этом заявлении, вставляя прямую ссылку на URL твита.
    3. Работа системы: Яндекс формирует Theme Cluster из новостных статей. Система извлекает URL твита как Potential Source Link. Этот URL доминирует в кластере (высокий Normalized Feature).
    4. Результат: Система идентифицирует URL твита как Source Link, даже если сам твит (Source Object) отсутствует в базе краулера (согласно Claim 1).

    Вопросы и ответы

    Что такое Theme Cluster в контексте этого патента?

    Theme Cluster (Тематический кластер) — это группа веб-страниц или публикаций, которые система автоматически сгруппировала, так как они освещают одну и ту же тему или новостное событие. Система анализирует цитирования и ссылки именно внутри этого кластера, чтобы понять, откуда изначально пошла информация.

    Означает ли этот патент, что самая ранняя публикация всегда будет считаться первоисточником?

    Нет, это не гарантировано. Время публикации (Difference-in-time feature) является лишь одним из девяти признаков, которые анализирует модель машинного обучения. Другие факторы, такие как репутация источника (Reputation) и частота цитирования ссылки (Normalized Feature), могут перевесить временной фактор. Цель системы — найти истинный авторитетный источник, а не просто самую раннюю индексированную версию.

    Может ли система определить первоисточник, если он не проиндексирован Яндексом?

    Да, это ключевая особенность патента (Claims 1 и 18). Система может определить URL первоисточника (Source Link), основываясь исключительно на ссылках из уже проиндексированных публикаций, даже если сам исходный объект (Source Object) еще не был просканирован или добавлен в индекс. Это позволяет находить источники в социальных сетях или на новых сайтах.

    Как репутация сайта влияет на определение первоисточника?

    Репутация (Reputation) критически важна и используется сразу в трех признаках. Учитывается репутация сайта, на который ведет ссылка (Destination Reputation), репутация сайта, который ставит ссылку (Source Reputation) — ссылкам с авторитетных сайтов больше доверия, а также агрегированная репутация всех сайтов, цитирующих данную ссылку (Aggregated Reputation).

    Что такое Normalized Feature и почему он так важен?

    Normalized Feature — это показатель того, как часто ссылка цитируется внутри кластера (доля публикаций, содержащих эту ссылку). Это ключевой признак, который указывает на консенсус среди издателей относительно того, кто является источником. Чем выше этот показатель, тем вероятнее, что ссылка ведет на первоисточник.

    Как система учитывает цитирование без прямой гиперссылки (например, «По данным СМИ Х»)?

    Система использует концепцию Publication Source Identifier (идентификатор источника публикации, т.е. название бренда). Признаки Presence, Content и Reference анализируют, как часто этот идентификатор упоминается в текстах статей внутри тематического кластера. Это позволяет учитывать текстовые цитаты наравне с гиперссылками.

    Как этот патент влияет на стратегии линкбилдинга?

    Он подчеркивает важность получения естественных редакционных ссылок с авторитетных ресурсов, которые подтверждают вашу экспертизу и оригинальность контента. Если ваш контент становится первоисточником и его цитируют авторитетные СМИ, это напрямую фиксируется системой через Aggregated Reputation и Normalized Feature, что способствует росту авторитетности вашего домена.

    Что делать, если я перепечатываю контент или пишу новость на основе чужого материала?

    Критически важно обеспечить четкую атрибуцию. Вы должны явно сослаться на оригинал (поставить прямую ссылку) и упомянуть название источника в тексте. Это помогает системе корректно идентифицировать первоисточник и повышает вашу собственную репутацию (Source Reputation) как надежного узла в сети распространения информации.

    Используется ли этот механизм только для новостей?

    Хотя новостные агрегаторы (как Яндекс Новости) являются основным примером применения, механизм универсален. Он может применяться к любым типам контента, которые часто копируются или синдицируются — например, исследования, обзоры или вирусный контент. Везде, где формируется Theme Cluster, система попытается найти Source Object.

    Что произойдет, если никто в кластере не сослался на настоящий источник?

    Если ни одна из публикаций в Theme Cluster не содержит ссылку на истинный первоисточник, системе будет сложно его идентифицировать с помощью описанного метода. В этом случае система либо не сможет определить источник, либо может ошибочно выбрать одну из публикаций внутри кластера как источник, основываясь на других сигналах (например, максимальной репутации и времени).

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.