Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс определяет первоисточник контента, анализируя ссылки, репутацию и паттерны цитирования

    METHOD AND SYSTEM FOR DETERMINING A SOURCE LINK TO A SOURCE OBJECT (Метод и система определения ссылки на источник исходного объекта)
    • US20170295244A1
    • Yandex LLC
    • 2017-10-12
    • 2017-03-16
    2017 EEAT Качество контента Патенты Яндекс Ссылки Яндекс Новости

    Яндекс патентует метод идентификации оригинального источника информации среди множества перепечаток. Система кластеризует похожие документы по теме, извлекает исходящие ссылки и использует машинное обучение для определения первоисточника. Ключевые факторы анализа включают репутацию источников, время публикации и частоту цитирования. Система может найти URL источника, даже если сам источник не был проиндексирован.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу идентификации оригинального источника информации (Source Object) в условиях массового переопубликования контента, что особенно актуально для новостных агрегаторов (например, Яндекс.Новости). При многократном цитировании или перепечатке контент может искажаться, а ссылка на оригинал теряться. Изобретение направлено на точное определение ссылки на первоисточник (Source Link), чтобы обеспечить пользователям доступ к оригинальной информации и корректно атрибутировать авторство.

    Что запатентовано

    Запатентована система и метод определения ссылки на первоисточник контента. Суть изобретения заключается в анализе паттернов цитирования (исходящих ссылок) внутри группы документов, посвященных одной теме (Theme Cluster). Система использует машинное обучение для оценки вероятности того, что конкретная исходящая ссылка является ссылкой на оригинальный источник, основываясь на комплексе признаков, включая репутацию и время.

    Как это работает

    Система собирает опубликованные материалы и группирует их в тематические кластеры. Внутри каждого кластера извлекаются все исходящие ссылки (Potential Source Links). Для каждой ссылки генерируется набор признаков, характеризующих ее связь с кластером: как часто эта ссылка встречается, какова репутация (Reputation) ссылающегося и целевого сайтов, время публикации и упоминается ли имя источника в тексте. Затем алгоритм машинного обучения анализирует эти признаки и определяет наиболее вероятный первоисточник. Ключевая особенность: система может определить URL первоисточника, даже не имея доступа к самому исходному объекту.

    Актуальность для SEO

    Высокая. Идентификация оригинального контента, атрибуция авторства и борьба с дезинформацией являются критически важными задачами для современных поисковых систем и агрегаторов новостей. Описанные методы использования репутации источников (связанные с E-E-A-T) и анализа ссылочных графов остаются крайне актуальными в 2025 году.

    Важность для SEO

    Влияние на SEO значительно (7.5/10). Патент имеет критическое значение для новостных изданий, СМИ и любых сайтов, чей контент часто цитируется. Он описывает механизм, с помощью которого Яндекс алгоритмически атрибутирует оригинальность. Это напрямую влияет на видимость в новостных агрегаторах и, вероятно, используется как сигнал качества и авторитетности в основном поиске. Понимание этого механизма подчеркивает важность построения репутации сайта и корректных практик цитирования.

    Детальный разбор

    Термины и определения

    Link-Cluster Pair (Пара «Ссылка-Кластер»)
    Основная единица анализа. Структура данных, связывающая извлеченную потенциальную ссылку на источник и тематический кластер, из которого она была извлечена. Для этой пары рассчитываются признаки для машинного обучения.
    Potential Source Link (Потенциальная ссылка на источник)
    Исходящая ссылка (Outgoing Link), извлеченная из опубликованного объекта внутри тематического кластера. Рассматривается как кандидат на роль ссылки на первоисточник.
    Publication Source (Источник публикации)
    Субъект (например, новостное агентство, блог, компания), опубликовавший данный объект. Определяется, например, по доменному имени (hostname) URL.
    Publication Source Identifier (Идентификатор источника публикации)
    Текстовое наименование источника публикации (например, «CNN», «Ведомости»), которое может упоминаться в тексте других статей.
    Published Object (Опубликованный объект)
    Веб-страница (новостная статья, пост в блоге и т.д.), доступная по URL и проиндексированная системой.
    Reputation (Репутация)
    Метрика надежности или авторитетности источника публикации. В патенте упоминается, что она может определяться с помощью PageRank, количества публикаций или заранее определенных оценок (predetermined score).
    Source Link (Ссылка на источник)
    Веб-адрес (URL), который система определила как адрес первоисточника для данного тематического кластера.
    Source Object (Исходный объект / Первоисточник)
    Оригинальный материал (статья, пост), из которого были получены последующие публикации на ту же тему.
    Theme Cluster (Тематический кластер)
    Группа опубликованных объектов, объединенных общей темой, историей или событием.

    Ключевые утверждения (Анализ Claims)

    Патент описывает систему, которая определяет первоисточник не путем сравнения текстов или только по времени, а путем анализа того, как переопубликованные материалы ссылаются друг на друга и на внешние источники, используя машинное обучение.

    Claim 1 (Независимый пункт): Описывает основной процесс определения ссылки на источник.

    1. Сбор множества опубликованных объектов (Published Objects).
    2. Кластеризация этих объектов по темам (Theme Clusters).
    3. Извлечение потенциальных ссылок на источник (Potential Source Links) из каждого объекта внутри кластера.
    4. Генерация пар Ссылка-Кластер (Link-Cluster Pairs).
    5. Генерация набора признаков (Set of Features) для каждой пары, характеризующих свойства этой пары.
    6. Определение истинной ссылки на источник (Source Link) для данного кластера на основе этих признаков.
    7. Ассоциация этой ссылки на источник со всеми объектами в кластере.

    Claim 10 (Зависимый пункт): Является ключевым, так как определяет признаки (Features), используемые для идентификации источника. Это факторы, которые анализирует система:

    • (i) Difference-in-time feature: Разница во времени между публикацией объекта, содержащего ссылку, и медианным временем публикации других объектов в кластере.
    • (ii) Source reputation feature: Репутация источника публикации, который разместил ссылку (репутация ссылающегося сайта).
    • (iii) Destination reputation feature: Репутация источника публикации, на который ведет ссылка (репутация целевого сайта).
    • (iv) Aggregated reputation feature: Агрегированная репутация всех источников в кластере, которые ссылаются на один и тот же URL.
    • (v) Normalized feature: Количество объектов, ссылающихся на данный URL, нормализованное по общему количеству объектов в кластере (частота цитирования / консенсус).
    • (vi) Difference feature: Наличие других извлеченных потенциальных ссылок внутри кластера (конкуренция).
    • (vii) Presence feature: Наличие идентификатора источника (например, названия СМИ), связанного с целевой ссылкой, в текстах объектов кластера.
    • (viii) Content feature: Наличие одного или нескольких идентификаторов источников публикации в контенте объекта, связанного с парой ссылка-кластер.
    • (ix) Reference feature: Представляет наличие идентификатора источника, связанного с извлеченной ссылкой, в контенте объектов кластера.

    Claim 12 (Зависимый пункт): Уточняет, что определение ссылки на источник выполняется с использованием алгоритма машинного обучения (Machine Learning Algorithm), который принимает набор признаков из Claim 10 в качестве входных данных.

    Claims 7 и 15 (Зависимые пункты): Критически важные утверждения. Первоисточник может не входить в число проанализированных объектов кластера (Claim 7). Определение ссылки на источник выполняется без доступа к самому исходному объекту (Source Object) (Claim 15). Это означает, что системе не нужно сканировать первоисточник, чтобы идентифицировать его URL.

    Claims 8 и 9 (Зависимые пункты): Описывают оптимизацию. Система может анализировать только те объекты, которые имеют определенное количество входящих ссылок (Incoming Links) от других документов этого же кластера. Это позволяет сфокусироваться на наиболее цитируемых узлах внутри сюжета.

    Где и как применяется

    Изобретение в первую очередь предназначено для систем агрегации новостей (например, Яндекс.Новости), но его механизмы могут использоваться и в основном поиске для определения оригинальности контента.

    CRAWLING – Сканирование и Сбор данных
    Crawler application собирает опубликованные объекты и сохраняет их в Crawler database.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе происходит основная работа алгоритма (офлайн или в режиме, близком к реальному времени):

    • Clustering Module анализирует контент (заголовки, текст) и группирует документы в Theme Clusters.
    • Link Extractor Module извлекает исходящие ссылки (Potential Source Links) и анализирует внутреннюю перелинковку внутри кластера.
    • Происходит расчет признаков (Features) для пар Ссылка-Кластер. Это включает доступ к офлайн-рассчитанным метрикам Reputation и анализ текста на предмет упоминания идентификаторов источников.
    • Source Link Prediction Algorithm (ML-модель) определяет истинный Source Link.

    RANKING / BLENDER – Ранжирование и Смешивание
    Информация о первоисточнике может использоваться как фактор ранжирования, отдавая предпочтение оригиналам. В агрегаторах эта информация используется для группировки сюжета и отображения ссылки на источник. При запросе пользователя к любому объекту из кластера система может предоставить индикацию ссылки на первоисточник (Claim 2).

    На что влияет

    • Конкретные типы контента: В первую очередь влияет на новостные статьи, посты в блогах, пресс-релизы и любой контент, который быстро распространяется и переопубликовывается.
    • Специфические запросы: Информационные и новостные запросы.
    • Конкретные ниши или тематики: СМИ, финансы, политика, технологии. Сильное влияние на YMYL-тематики, где достоверность источника информации критически важна.
    • Социальные сети: Патент позволяет идентифицировать посты в социальных сетях как первоисточники новостей, даже если сами посты не были проиндексированы.

    Когда применяется

    Алгоритм активируется, когда система идентифицирует формирование Theme Cluster — то есть, когда обнаруживается несколько документов, посвященных одному и тому же событию или теме. Это происходит постоянно в рамках работы новостного агрегатора или быстрого индекса поисковой системы.

    Пошаговый алгоритм

    1. Сбор данных: Crawler Application сканирует веб и собирает множество Published Objects, фиксируя контент, URL и время публикации.
    2. Кластеризация: Clustering Module анализирует темы и формирует Theme Clusters.
    3. Предварительный анализ ссылок (Опционально): Анализ внутренней перелинковки внутри кластера. Извлечение исходящих ссылок может выполняться только для объектов, имеющих определенное количество входящих ссылок от других документов кластера (Claims 8, 9).
    4. Извлечение ссылок: Из объектов кластера извлекаются исходящие ссылки. Они становятся Potential Source Links.
    5. Генерация пар: Формируются Link-Cluster Pairs.
    6. Генерация признаков: Для каждой пары рассчитывается набор признаков (Features из Claim 10):
      • Временные метрики.
      • Репутационные метрики (ссылающегося, целевого сайта, агрегированная).
      • Ссылочные метрики (частота использования ссылки в кластере).
      • Контентные метрики (упоминание идентификаторов источников в тексте).
    7. Определение источника (ML): Source Link Prediction Algorithm (обученная модель машинного обучения) принимает признаки на вход и определяет истинную Source Link.
    8. Ассоциация и Применение: Найденная Source Link ассоциируется со всеми документами в данном Theme Cluster и может быть показана пользователю.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Заголовки и основной текст. Используются для (1) формирования тематических кластеров и (2) поиска упоминаний идентификаторов источников публикации (Publication Source Identifiers).
    • Ссылочные факторы: Исходящие ссылки (Outgoing links) используются как кандидаты на первоисточник. Входящие ссылки (Incoming links) внутри кластера могут использоваться для фильтрации объектов.
    • Временные факторы: Время публикации (Time of publication) каждого объекта в кластере. Используется для расчета медианного времени и временных разниц.
    • Внешние/Статические факторы (Репутация): Предварительно рассчитанные метрики авторитетности (Reputation) для источников публикаций (доменов/сайтов).

    Какие метрики используются и как они считаются

    Система опирается на модель машинного обучения (Claim 12), которая взвешивает 9 ключевых признаков (Claim 10):

    • Метрики Репутации (Признаки ii, iii, iv): Используются предварительно рассчитанные значения авторитетности. Учитывается репутация ссылающегося сайта (ii), целевого сайта (iii) и агрегированная репутация всех, кто поставил эту ссылку (iv).
    • Метрики Времени (Признак i): Рассчитывается разница между временем публикации документа со ссылкой и медианным временем публикации всего кластера.
    • Метрики Цитирования / Консенсус (Признак v): Рассчитывается доля документов в кластере, которые ссылаются на данный URL (Normalized Feature). Например:
      $$ \text{Normalized Feature} = \frac{\text{Количество объектов в кластере, ссылающихся на URL}}{\text{Общее количество объектов в кластере}} $$
      Высокое значение указывает на консенсус источников.
    • Метрики Конкуренции (Признак vi): Учитывает наличие других сильных кандидатов на роль первоисточника в кластере.
    • Метрики Текстового Упоминания (Признаки vii, viii, ix): Система ищет в тексте упоминания названий брендов/изданий (Publication Source Identifiers), связанных с целевой ссылкой.

    Алгоритмы машинного обучения: Используется обученный алгоритм (Machine Learning Algorithm) для классификации ссылок на основе этих признаков. Модель обучается предсказывать, является ли данная ссылка первоисточником.

    Выводы

    1. Комплексный подход к определению оригинала: Яндекс использует многофакторный анализ на основе машинного обучения для определения первоисточника. Это не просто сравнение времени или текстов, а анализ структуры взаимосвязей и цитирования внутри тематического кластера.
    2. Критическая роль Репутации (E-E-A-T): Репутация сайта (Reputation) является доминирующим набором признаков (4 из 9 признаков связаны с репутацией). Авторитетные сайты имеют больше шансов быть признанными первоисточником, и их ссылки имеют больший вес при анализе.
    3. Консенсус и цитирование: Важно, как часто ссылка встречается в кластере (Normalized Feature). Если большинство участников кластера согласны с источником (ссылаются на него), это сильный сигнал для системы.
    4. Важность текстовых упоминаний (Атрибуция): Помимо прямых ссылок, система учитывает упоминание идентификаторов источников (например, названий СМИ) в тексте документа.
    5. Индексация источника не обязательна: Система способна идентифицировать URL первоисточника (например, пост в социальной сети), даже если сам этот источник не был просканирован Яндексом (Claims 7 и 15), основываясь исключительно на анализе ссылок в перепечатках.

    Практика

    Best practices (это мы делаем)

    • Построение Репутации и Авторитетности (E-E-A-T): Поскольку Reputation является ключевым набором признаков, необходимо фокусироваться на долгосрочном развитии авторитетности ресурса. Авторитетным сайтам Яндекс с большей вероятностью присвоит статус первоисточника.
    • Стимулирование корректного цитирования: Если вы являетесь первоисточником, важно, чтобы другие сайты ссылались на вас и упоминали ваше название. Это увеличивает значения Normalized feature (частота ссылки) и Aggregated reputation. Создавайте эксклюзивный контент, который естественно стимулирует цитирование.
    • Скорость публикации и индексации: Хотя это не единственный фактор, время публикации учитывается (Difference-in-time feature). Быстрая публикация оригинального контента и обеспечение его быстрого попадания в индекс увеличивает шансы быть признанным первоисточником в новостных сюжетах.
    • Корректное цитирование чужого контента: Если вы используете чужой материал, всегда ставьте прямую ссылку на источник и упоминайте его название в тексте. Это демонстрирует хорошие практики цитирования и потенциально положительно влияет на вашу собственную Reputation как добросовестного издателя.

    Worst practices (это делать не надо)

    • Копирование и рерайтинг без указания источника: Эта практика снижает качество контента в глазах системы. Отсутствие ссылок на источник не позволяет вам внести вклад в определение оригинала и может негативно сказаться на вашей репутации.
    • Использование вводящих в заблуждение ссылок: Попытки указать в качестве источника нерелевантный или низкокачественный сайт будут обнаружены системой через анализ Destination reputation и других признаков.
    • Публикация на низкоавторитетных доменах: Даже если контент оригинален, публикация на сайте с низкой Reputation снижает вероятность того, что система выберет его в качестве первоисточника, особенно если авторитетные СМИ переопубликуют его позже.

    Стратегическое значение

    Патент подтверждает стратегический фокус Яндекса на качестве, оригинальности и авторитетности контента. Для SEO-специалистов, работающих с контентными проектами и СМИ, это означает, что инвестиции в E-E-A-T и создание уникального контента являются фундаментальными. Система защищает оригинальных авторов, анализируя поведение всего веба. Долгосрочная стратегия должна быть направлена на то, чтобы стать авторитетным источником (Publication Source) в своей нише, который цитируют другие.

    Практические примеры

    Сценарий 1: Репутация и цитирование перевешивают время

    1. Событие: Происходит важное событие.
    2. Публикации (Theme Cluster):
      • Сайт А (Низкая репутация, блог): Публикует новость в 10:00. Ссылок нет.
      • Сайт Б (Высокая репутация, крупное СМИ): Публикует новость в 10:15. Ссылок нет.
      • Сайт В (Средняя репутация): Публикует в 10:20. Ссылается на Сайт Б.
      • Сайт Г (Высокая репутация): Публикует в 10:30. Ссылается на Сайт Б.
    3. Анализ Системы: Система анализирует ссылки на Сайт Б. Она видит высокую Destination Reputation (Сайт Б), высокую Aggregated reputation (на него ссылаются В и Г) и высокую Normalized feature (многие в кластере ссылаются на него).
    4. Результат: Несмотря на то, что Сайт А опубликовал новость раньше, ML-модель выберет Сайт Б в качестве первоисточника (Source Link), благодаря сильным сигналам репутации и цитирования.

    Сценарий 2: Новость из социального медиа (Источник не проиндексирован)

    1. Событие: Политик делает заявление в своем аккаунте в социальной сети (например, Twitter/X). Яндекс не индексирует этот пост напрямую или пост закрыт.
    2. Распространение: СМИ массово публикуют новости, ссылаясь на этот пост.
    3. Действие системы: Формируется Theme Cluster из новостей СМИ. Извлекаются исходящие ссылки.
    4. Анализ: Система видит, что подавляющее большинство статей (Normalized feature) ссылаются на один и тот же URL в социальной сети и упоминают имя политика (Reference feature).
    5. Результат: Система определяет URL поста в социальной сети как Source Link, даже не имея доступа к самому посту (Claim 15), основываясь на консенсусе проиндексированных источников.

    Вопросы и ответы

    Что является главным сигналом для определения первоисточника согласно патенту?

    В патенте нет одного главного сигнала. Используется алгоритм машинного обучения, который анализирует комбинацию из 9 типов признаков (Claim 10). Однако наиболее весомыми можно считать частоту цитирования ссылки внутри кластера (Normalized feature) и различные метрики репутации источников (Reputation features). Консенсус авторитетных сайтов является очень сильным сигналом.

    Как Яндекс рассчитывает «Репутацию» (Reputation) сайта?

    Патент не детализирует точную формулу, указывая, что это может быть заранее определенный параметр. Упоминаются возможные методы: использование алгоритма PageRank, количества публикаций источника или оценка, определенная провайдером (Яндексом). На практике это, вероятно, комплексная метрика авторитетности, учитывающая E-E-A-T факторы и/или ИКС.

    Может ли система определить первоисточник, если на него не поставили прямую ссылку, а только упомянули название?

    Основная цель патента — найти именно Source Link (гиперссылку). Система учитывает текстовые упоминания (Publication Source Identifiers) как вспомогательные признаки (Presence, Content, Reference features) для подтверждения того, что найденная гиперссылка действительно ведет на источник. Но если гиперссылки нет вообще, данный механизм не сможет найти URL первоисточника.

    Должен ли первоисточник быть проиндексирован Яндексом, чтобы система его определила?

    Нет, это ключевая особенность патента (Claims 7 и 15). Система может определить ссылку на первоисточник (например, пост в закрытой соцсети или сайт, запрещенный к индексации), анализируя только ссылки на него из других, проиндексированных документов. Определение происходит без необходимости доступа к самому первоисточнику.

    Как этот патент влияет на SEO для не новостных сайтов?

    Хотя патент сфокусирован на сценариях, типичных для новостных агрегаторов, описанные принципы применимы шире. Если ваша информационная статья (например, гайд или обзор) широко копируется, эта система поможет Яндексу идентифицировать вас как автора. Это подчеркивает важность оригинальности контента и построения авторитетности ресурса (Reputation) для всех типов сайтов.

    Что важнее: время публикации или репутация сайта?

    Оба фактора критически важны и используются в комплексе. Время публикации (Difference-in-time feature) помогает установить хронологию, а репутация (Destination Reputation Feature) — достоверность. Модель машинного обучения взвешивает все признаки, поэтому авторитетный сайт, опубликовавший информацию позже, может быть признан более значимым источником, чем быстрый, но не авторитетный блог.

    Что такое «Normalized Feature» и почему он важен?

    Normalized Feature — это доля сайтов в тематическом кластере, которые ссылаются на один и тот же URL, нормализованная по общему числу сайтов в кластере. Этот признак отражает «консенсус» источников. Если 90% сайтов, пишущих на определенную тему, ссылаются на один и тот же материал, это очень сильный сигнал для системы, что этот материал и есть первоисточник.

    Зачем система проверяет входящие ссылки внутри кластера перед анализом исходящих (Claims 8 и 9)?

    Это механизм оптимизации и повышения точности. Система может предпочесть анализировать исходящие ссылки только из тех документов, которые сами цитируются другими участниками этого же тематического кластера. Это помогает отсеять шум и сфокусироваться на наиболее значимых документах (узлах цитирования) внутри новостного сюжета.

    Как SEO-специалисту использовать знание об этом патенте для продвижения новостного сайта?

    Необходимо сосредоточиться на трех направлениях: Скорость, Репутация и Распространение. Публикуйте оригинальный контент как можно быстрее (Скорость). Работайте над общим авторитетом и E-E-A-T сайта (Репутация). Стимулируйте другие ресурсы ссылаться на вас как на источник и упоминать ваш бренд в тексте (Распространение).

    Что делать, если мой оригинальный контент украли и система ошибочно посчитала другой сайт первоисточником?

    Необходимо проанализировать паттерны цитирования. Возможно, конкурент имеет значительно более высокую репутацию или получил больше ссылок от авторитетных изданий. В долгосрочной перспективе необходимо работать над повышением общей репутации вашего ресурса и улучшением дистрибуции контента, чтобы стимулировать большее количество прямых ссылок на вас.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.