Яндекс использует машинное обучение для определения оригинального источника (первоисточника) контента, который был многократно перепечатан. Система группирует похожие публикации в тематические кластеры и анализирует исходящие ссылки внутри этого кластера. Учитывая репутацию источников, время публикации и частоту цитирования (ссылками и текстовыми упоминаниями), система вычисляет ссылку на оригинальный объект, даже если сам этот объект не был проиндексирован.
Описание
Какую задачу решает
Патент решает проблему идентификации первоисточника информации в условиях массового вторичного распространения контента в интернете (например, в новостных агрегаторах). При многократных перепечатках оригинальное содержимое может искажаться, а ссылка на оригинал теряться. Изобретение направлено на точное определение ссылки на исходный объект (оригинальную публикацию) среди множества похожих материалов, улучшая точность атрибуции контента и пользовательский опыт.
Что запатентовано
Запатентован метод и система для автоматического определения исходной ссылки (URL первоисточника) для группы тематически связанных документов (тематического кластера). Суть изобретения заключается в использовании алгоритма машинного обучения, который анализирует набор специально сконструированных признаков (характеристик). Эти признаки рассчитываются на основе исходящих ссылок, найденных внутри кластера, и включают такие параметры, как время публикации, репутация источников и паттерны цитирования.
Как это работает
Система сначала собирает опубликованные объекты и группирует их в тематические кластеры на основе схожести содержания. Затем из документов внутри каждого кластера извлекаются исходящие ссылки, которые рассматриваются как потенциальные исходные ссылки. Для каждой такой ссылки формируется пара ссылка-кластер и рассчитывается набор признаков (например, репутация источника, на который ведет ссылка; доля документов в кластере, ссылающихся на этот источник). Алгоритм машинного обучения использует эти признаки для определения, какая из потенциальных ссылок является истинным первоисточником для всего кластера. Система может определить первоисточник, даже если он сам не был проиндексирован.
Актуальность для SEO
Высокая. Проблема атрибуции контента, борьба с дублированием и определение авторитетного первоисточника остаются критически важными задачами для поисковых систем в контексте E-E-A-T. Методы, основанные на анализе графа цитирования, репутации и машинном обучении для определения оригинальности, активно используются и актуальны.
Важность для SEO
Влияние на SEO значительно (7.5/10), особенно для контентных проектов, СМИ и блогов. Патент описывает механизм, с помощью которого Яндекс определяет авторитетность и оригинальность на уровне конкретного инфоповода. Быть идентифицированным как первоисточник критически важно для максимальной видимости (особенно в агрегаторах типа Яндекс.Новости) и может влиять на общую оценку качества сайта. Патент подчеркивает важность построения репутации и получения качественных цитат (ссылок и упоминаний).
Детальный разбор
Термины и определения
- Исходный объект (Первоисточник)
- Оригинальная публикация (статья, пост), тематика которой послужила основой для последующих публикаций. Исходный объект может быть не проиндексирован Яндексом.
- Исходная ссылка
- Сетевой адрес (URL), ведущий к Исходному объекту. Цель изобретения — определить эту ссылку.
- Тематический кластер
- Группа опубликованных объектов (документов), объединенных общей тематикой или сюжетом, определенной в результате анализа их содержимого.
- Потенциальная исходная ссылка
- Исходящая ссылка, извлеченная из документа внутри тематического кластера. Рассматривается как кандидат на роль Исходной ссылки.
- Пара ссылка-кластер
- Связь между конкретной извлеченной потенциальной исходной ссылкой и тематическим кластером, в котором она была найдена. Для этой пары рассчитываются признаки (характеристики).
- Репутация источника
- Показатель надежности или авторитетности источника публикации (сайта). В патенте указано, что она может основываться на PageRank, количестве публикаций или экспертной оценке.
- Идентификатор источника публикации
- Текстовое упоминание источника (например, название СМИ или бренда) в тексте опубликованного объекта.
- Алгоритм прогнозирования исходной ссылки
- Алгоритм машинного обучения, который на основе набора характеристик определяет, какая из потенциальных исходных ссылок является истинной исходной ссылкой для кластера.
Ключевые утверждения (Анализ Claims)
Патент защищает метод определения первоисточника путем комплексного анализа характеристик ссылок внутри тематического кластера с помощью машинного обучения.
Claim 1 (Независимый пункт): Описывает основной способ.
- Получение множества опубликованных объектов.
- Анализ тематики и создание тематических кластеров.
- Извлечение потенциальных исходных ссылок (исходящих ссылок) из объектов внутри кластера.
- Создание пар ссылка-кластер.
- Критически важно: Создание набора характеристик (признаков) для каждой пары, представляющих ее свойства.
- Определение истинной исходной ссылки для кластера на основе этих характеристик.
- Связывание этой исходной ссылки со всеми объектами в кластере.
Claim 10 (Зависимый пункт): Детализирует набор характеристик (признаков), используемых для принятия решения. Это ядро изобретения, показывающее, какие факторы Яндекс учитывает:
- Временные факторы (разница во времени публикации).
- Репутационные факторы (репутация ссылающегося сайта, репутация цитируемого сайта, агрегированная репутация цитирующих сайтов).
- Ссылочные факторы (нормализованное число ссылок на этот источник внутри кластера, наличие конкурирующих ссылок).
- Контентные факторы (наличие идентификатора источника в текстах кластера — текстовые упоминания).
Claim 12 (Зависимый пункт): Подтверждает, что определение исходной ссылки выполняется с помощью алгоритма машинного обучения, который принимает набор характеристик в качестве входных данных (Claim 13).
Claim 7 и 15 (Зависимые пункты): Вносят важное уточнение о возможностях системы.
Исходный объект может НЕ присутствовать в данном тематическом кластере (Claim 7), и определение исходной ссылки может выполняться БЕЗ получения доступа к самому исходному объекту (Claim 15). Система может определить ссылку на внешний источник (например, пост в соцсети), основываясь только на анализе перепечаток.
Где и как применяется
Изобретение применяется в инфраструктуре обработки данных, преимущественно для сервисов агрегации контента (например, Яндекс.Новости). Оно затрагивает следующие этапы поиска:
CRAWLING – Сканирование и Сбор данных
Поисковый робот собирает опубликованные объекты и сохраняет их в базу данных. Фиксируется контент, URL и время публикации.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Происходит несколько ключевых процессов:
- Кластеризация: Модуль кластеризации анализирует содержимое собранных объектов и группирует их в тематические кластеры.
- Извлечение ссылок: Модуль экстрактора ссылки анализирует объекты внутри кластера для извлечения потенциальных исходных ссылок.
- Расчет характеристик: Для каждой извлеченной ссылки (пары ссылка-кластер) рассчитывается набор признаков (временных, репутационных, ссылочных, контентных). Это требует доступа к заранее рассчитанным метрикам репутации сайтов.
- Определение первоисточника: Алгоритм прогнозирования исходной ссылки (Машинное обучение) обрабатывает рассчитанные характеристики и определяет исходную ссылку для кластера.
Генерация SERP (или страницы агрегатора)
Когда пользователь запрашивает доступ к объекту (например, кликает на новость в агрегаторе), сервер может одновременно с объектом передать указание на идентифицированную исходную ссылку для отображения пользователю (Claim 2).
На что влияет
- Конкретные типы контента: В первую очередь влияет на контент, подверженный частому копированию и синдикации: новостные статьи, пресс-релизы, вирусный контент, популярные посты в блогах.
- Специфические запросы: Информационные запросы, связанные с актуальными событиями и трендами.
- Ниши: СМИ, блогосфера, YMYL-тематики, где достоверность и атрибуция авторства критически важны.
Когда применяется
- Условия работы и Триггеры: Алгоритм применяется в процессе индексации, когда система обнаруживает множество опубликованных объектов схожей тематики и формирует тематический кластер.
- Частота применения: Вероятно, применяется непрерывно или периодически по мере обхода и индексации нового контента, особенно активно при появлении трендовых новостей.
Пошаговый алгоритм
Процесс определения исходной ссылки.
- Сбор данных (Crawling): Поисковый робот собирает множество опубликованных объектов и сохраняет их в базу данных.
- Тематическая кластеризация: Сервер анализирует тематику (содержимое) каждого объекта и группирует их, создавая множество тематических кластеров.
- Анализ ссылок внутри кластера (Опционально): Система может определить число входящих ссылок для каждого объекта внутри кластера. Извлечение исходящих ссылок может выполняться только для объектов, имеющих заранее определенное число входящих ссылок (Claims 8, 9).
- Извлечение потенциальных исходных ссылок: Из каждого (или выбранного) опубликованного объекта в кластере извлекаются исходящие ссылки (кандидаты).
- Формирование пар Ссылка-Кластер: Каждая извлеченная ссылка ассоциируется с тематическим кластером, в котором она была найдена.
- Расчет характеристик (Feature Extraction): Для каждой пары ссылка-кластер вычисляется набор признаков (см. раздел 4.2).
- Определение исходной ссылки (Prediction): Алгоритм машинного обучения анализирует наборы характеристик всех потенциальных ссылок в кластере и определяет одну исходную ссылку. Это может быть сделано без доступа к самому исходному объекту.
- Связывание и сохранение: Идентифицированная исходная ссылка связывается со всеми опубликованными объектами в данном тематическом кластере и сохраняется в базе данных.
Какие данные и как использует
Данные на входе
- Контентные факторы: Название и тело текста опубликованных объектов. Используются для тематической кластеризации. Также анализируется наличие идентификаторов источников публикации (упоминаний брендов/СМИ) в тексте.
- Ссылочные факторы: Исходящие ссылки из объектов внутри кластера (кандидаты). Входящие ссылки внутри кластера (могут использоваться для фильтрации).
- Временные факторы: Время публикации каждого опубликованного объекта в кластере.
- Внешние/Статические данные: Заранее определенные параметры Репутации (авторитетности/надежности) для различных источников публикации. Патент упоминает PageRank, объем публикаций или экспертные оценки как возможные основы для расчета репутации.
Какие метрики используются и как они считаются
Ключевым элементом является расчет 9 характеристик (признаков), описанных в Claim 10, для каждой пары ссылка-кластер. Эти метрики являются входом для Алгоритма машинного обучения.
Временные метрики:
- (i) Характеристика разницы во времени: Разница между временем публикации объекта, содержащего данную ссылку, и средним временем публикации других объектов в этом же кластере.
Репутационные метрики (Authority):
- (ii) Репутация источника публикации (Linker): Авторитетность сайта, который ссылается.
- (iii) Репутация конечного пункта (Link Target): Авторитетность сайта, на который ведет ссылка (потенциальный первоисточник).
- (iv) Характеристика агрегированной репутации: Агрегированная репутация всех источников в кластере, которые ссылаются на данный конечный пункт. (Сигнал качества цитирования).
Ссылочные метрики (Консенсус и Конкуренция):
- (v) Нормализованная характеристика: Доля объектов в кластере, которые ссылаются на данный конечный пункт (нормализовано по размеру кластера). Показывает консенсус.
- (vi) Характеристика разницы: Наличие других потенциальных исходных ссылок в кластере (конкуренция за звание первоисточника).
Контентные метрики (Текстовые упоминания):
- (vii) Характеристика наличия: Наличие идентификатора (названия) источника, на который ведет ссылка, в текстах объектов кластера.
- (viii) Характеристика содержимого: Наличие одного или нескольких любых идентификаторов источников публикации в содержимом объекта, связанного с парой.
- (ix) Характеристика ссылки: (Аналогично vii) Наличие идентификатора источника, на который ведет ссылка, в содержимом объектов кластера.
Выводы
- Яндекс активно определяет первоисточник контента: Это не просто теория, а конкретный механизм, используемый (как минимум) в агрегаторах для атрибуции контента. Система стремится найти оригинал, а не просто самый ранний проиндексированный документ.
- Оригинальность определяется комплексом факторов через ML: Не существует одного решающего фактора. Первоисточник определяется путем взвешивания времени публикации, репутации источника и консенсуса цитирования (ссылки и упоминания).
- Репутация (Авторитетность) критична: Репутация источника является одним из ключевых признаков (4 из 9 характеристик связаны с ней). Это подтверждает важность долгосрочного построения авторитета (E-E-A-T).
- Важность цитирования (Ссылки + Упоминания): Патент явно выделяет как признаки не только прямые ссылки, но и текстовые упоминания идентификатора источника (названия) в контенте. Текстовые цитаты учитываются как сигнал атрибуции.
- Идентификация внешних источников: Система спроектирована так, что может определить первоисточник, даже если он не был проиндексирован Яндексом (например, пост в социальной сети), полагаясь на паттерны цитирования другими сайтами.
Практика
Best practices (это мы делаем)
- Укрепление общей репутации и E-E-A-T: Поскольку репутация источника является ключевым набором признаков (Характеристики ii, iii), необходимо системно работать над повышением авторитетности сайта. Это увеличивает вероятность быть признанным первоисточником.
- Стимулирование качественного цитирования (Digital PR): Активно работайте над тем, чтобы ваш оригинальный контент цитировался другими авторитетными сайтами. Характеристика агрегированной репутации (iv) напрямую зависит от качества цитирующих доменов.
- Максимизация широты охвата цитирования: Стремитесь к тому, чтобы максимальное количество релевантных площадок ссылалось на ваш материал (ссылками или упоминаниями). Нормализованная характеристика (v) учитывает долю цитирующих сайтов.
- Четкое брендирование: Убедитесь, что название вашего бренда/издания легко идентифицируется как Идентификатор источника публикации. Это поможет системе распознать текстовые упоминания (Характеристики vii, ix).
- Соблюдение гигиены цитирования при републикации: Если вы используете чужой материал, всегда ставьте прямую ссылку на первоисточник (а не на агрегатора) и упоминайте его название в тексте. Это помогает системе корректно построить граф цитирования.
Worst practices (это делать не надо)
- Копирование и рерайтинг без атрибуции: Публикация чужого контента без указания ссылки на источник и его упоминания снижает качество вашего сайта в глазах агрегаторов и поисковых систем.
- Игнорирование исходящих ссылок: Стратегия избегания исходящих ссылок на источники вредна, так как именно анализ исходящих ссылок лежит в основе работы описанного механизма.
- Имитация цитирования через PBN или спам: Попытки манипулировать частотой цитирования с помощью низкокачественных сайтов будут неэффективны, так как система учитывает репутацию ссылающихся источников (Характеристики ii и iv).
Стратегическое значение
Патент подтверждает стратегический фокус Яндекса на качестве, оригинальности и достоверности информации. Он демонстрирует механизм, позволяющий алгоритмически определять E-E-A-T в действии: авторитетный контент естественным образом генерирует цитаты от других авторитетных источников. Для SEO это означает, что долгосрочная стратегия должна базироваться на создании уникального ценного контента и сильной PR-стратегии для его распространения и получения качественных цитат.
Практические примеры
Сценарий 1: Публикация эксклюзивного исследования
- Действие: Компания публикует исследование рынка и проводит PR-кампанию, рассылая релизы в ведущие СМИ (РБК, Ведомости).
- Результат распространения: СМИ публикуют статьи на основе отчета, ставя ссылку на исследование и упоминая название компании.
- Работа системы Яндекса:
- Яндекс формирует тематический кластер.
- Система рассчитывает характеристики для ссылки на отчет: Высокая Агрегированная репутация (ссылаются авторитетные СМИ), высокая Нормализованная частота (многие ссылаются), положительные Характеристики наличия (упоминания бренда).
- Итог: ML-модель определяет отчет компании как первоисточник.
Сценарий 2: Новость из социального медиа (Внешний источник)
- Ситуация: Политик написал важный пост в социальной сети (которую Яндекс может не индексировать напрямую).
- Развитие: Новостные агентства публикуют статьи об этом посте, включая прямую ссылку на него.
- Действие системы Яндекса: Яндекс формирует тематический кластер из статей. Ссылка на социальную сеть извлекается как кандидат.
- Анализ: ML-модель видит, что множество авторитетных агентств (Высокая агрегированная репутация) ссылаются на один и тот же URL в социальной сети.
- Результат: Система определяет ссылку на пост в социальной сети как первоисточник (Claims 7, 15), даже не имея доступа к самому посту.
Вопросы и ответы
Что определяет «Репутацию источника» в данном патенте?
Патент не дает точной формулы, но указывает, что это заранее определенный параметр, отражающий надежность источника. В качестве примеров того, на чем он может основываться, упоминаются алгоритм PageRank, число опубликованных источником объектов или экспертная оценка. На практике это, скорее всего, интегральная метрика авторитетности домена, подобная ИКС или внутренним метрикам Яндекса, связанным с E-E-A-T.
Насколько важна скорость публикации? Всегда ли самый ранний документ будет первоисточником?
Скорость важна, но не является единственным фактором. В патенте описана «Характеристика разницы во времени» (Признак №1), которая учитывает время публикации. Однако решение принимается ML-моделью на основе взвешивания всех признаков. Высокоавторитетный источник, опубликовавший информацию позже, но получивший массовое качественное цитирование, может быть признан источником вместо более раннего, но менее авторитетного сайта.
Может ли Яндекс определить первоисточник, если он не проиндексирован?
Да. В патенте явно указано (Claims 7 и 15), что исходный объект может не входить в кластер и что определение исходной ссылки может выполняться без получения доступа к самому объекту. Система может определить URL первоисточника (например, поста в социальной сети) исключительно на основе анализа ссылок в других проиндексированных документах.
Являются ли текстовые упоминания (цитаты без гиперссылки) столь же ценными, как и ссылки?
Они ценны и учитываются системой как отдельные признаки (Характеристики №7 и №9), основанные на анализе наличия «идентификатора источника публикации» (например, названия СМИ или бренда) в тексте. Хотя ссылки предоставляют более сильный сигнал и используются для расчета большинства других признаков (репутации цели, частоты цитирования), текстовые упоминания также вносят значительный вклад в определение первоисточника.
Как работает «Характеристика агрегированной репутации» (Признак №4)?
Эта характеристика вычисляется на основе совокупной репутации всех источников в тематическом кластере, которые ссылаются на определенного кандидата. Это подчеркивает важность качества ссылок. Если на источник ссылаются несколько очень авторитетных сайтов (например, крупные СМИ), эта характеристика будет высокой, даже если общее количество ссылок невелико.
Как этот механизм влияет на стратегии синдикации контента?
Он делает синдикацию более рискованной, если не контролировать атрибуцию. Если вы распространяете свой контент на других площадках, критически важно убедиться, что эти площадки явно ссылаются на вашу оригинальную статью как на источник. Если они этого не делают, система может не распознать ваш сайт как первоисточник, особенно если репутация площадки-партнера высока.
Имеет ли этот патент отношение к атрибуту rel=canonical?
Прямого отношения нет. rel=canonical используется для устранения дубликатов идентичного контента. Этот патент предназначен для определения оригинального источника тематически связанного, но не обязательно идентичного контента (например, рерайтов или новостей, основанных на источнике), опубликованного на разных, независимых сайтах.
Это технология только для Яндекс.Новостей или для основного веб-поиска тоже?
В патенте в качестве контекста упоминаются новостные агрегаторы, и описанная технология идеально подходит для атрибуции новостных сюжетов. Вероятно, эта система используется в первую очередь в агрегаторах, но ее выводы о первоисточнике и авторитетности могут влиять и на общие сигналы качества домена (E-E-A-T) в основном поиске.
Какова роль алгоритма машинного обучения в этой системе?
ML-алгоритм является ядром принятия решений. Он обучается определять, какая комбинация признаков (время, репутация, частота цитирования и т.д.) наиболее точно указывает на первоисточник. Он позволяет системе адаптироваться и находить сложные закономерности, которые невозможно описать жесткими правилами (эвристиками).
Как повысить шансы на то, чтобы мой сайт был идентифицирован как первоисточник?
Ключевая стратегия — это комбинация создания уникального контента и сильного Digital PR. Необходимо инвестировать в повышение общей репутации сайта (E-E-A-T) и активно добиваться того, чтобы другие авторитетные ресурсы цитировали ваш материал (ссылками и упоминаниями), когда освещают ту же тему.