Как Яндекс определяет настоящего автора цитаты, анализируя и сравнивая множество новостных источников

Яндекс патентует метод для автоматического определения авторства цитат в новостных агрегаторах (например, Яндекс.Новости). Система анализирует множество статей на одну тему, извлекает похожие цитаты и определяет потенциальных авторов для каждой из них. Настоящим автором признается тот, кто чаще всего упоминается рядом с этой цитатой в разных источниках. Это позволяет показывать пользователям корректно атрибутированные цитаты, даже если в отдельных источниках есть ошибки.

Описание

Какую задачу решает

Патент решает проблему неоднозначности, ошибок или расхождений в авторстве цитат при агрегации новостного контента из разных источников. В разных новостных статьях одна и та же цитата может быть приписана разным людям или иметь нечеткие ссылки на автора. Это ухудшает пользовательский опыт и требует ручной модерации или дополнительных поисков для проверки фактов. Изобретение автоматизирует процесс верификации авторства, повышая точность и скорость работы новостных агрегаторов (таких как Яндекс.Новости).

Что запатентовано

Запатентована система и метод компьютерной обработки цитат для точного определения их авторов. Суть изобретения заключается в использовании подхода «Мудрости толпы» (Wisdom of the Crowds) для атрибуции цитат. Система анализирует кластер новостных статей на одну тему, извлекает варианты цитат и потенциальных авторов. Затем она кластеризует похожие цитаты и определяет истинного автора как наиболее часто упоминаемого кандидата в этом кластере.

Как это работает

Система получает на вход набор цифровых текстов (новостных статей), объединенных одной темой. Сначала она извлекает цитаты (например, текст в кавычках) и идентифицирует кандидатов в авторы (например, заглавные буквы рядом с цитатой). Затем Первый классификатор оценивает схожесть цитат, определяя, происходят ли они из одного источника, даже если тексты немного отличаются. Похожие цитаты и все связанные с ними кандидаты в авторы объединяются в Кластер цитат. Наконец, система анализирует частоту упоминания каждого кандидата в этом кластере. Кандидат с наибольшей частотой признается истинным автором всех цитат в кластере.

Актуальность для SEO

Высокая. Автоматическое извлечение сущностей (Entity Extraction), атрибуция утверждений и автоматическая проверка фактов являются критически важными компонентами современных поисковых систем и агрегаторов контента. Способность точно определять, кто что сказал, необходима для построения графов знаний и обеспечения достоверности информации, особенно в новостном контексте.

Важность для SEO

Влияние на SEO для общего веб-поиска ограничено (4/10). Патент не описывает алгоритм ранжирования. Однако он имеет критическое значение для издателей и новостных сайтов, стремящихся к видимости в агрегаторах (Яндекс.Новости). Патент раскрывает конкретные механизмы, которые Яндекс использует для извлечения цитат и авторов. Понимание этих механизмов позволяет издателям структурировать контент так, чтобы обеспечить корректное извлечение и атрибуцию информации, что может повысить видимость и авторитетность источника в новостной выдаче.

Детальный разбор

Термины и определения

Candidate Author (Кандидат в авторы): Потенциальный автор или источник цитаты, идентифицированный в тексте на основе эвристических правил.
Condition (Условие): Критерий, используемый для выбора истинного автора из набора кандидатов. В данном патенте основное условие — это наивысшая частота встречаемости (highest frequency of occurrence) кандидата в кластере цитат.
Digital Text (Цифровой текст): Документ, обрабатываемый системой, например, новостная статья.
First Classifier (Первый классификатор): Компонент системы, отвечающий за определение схожести между двумя цитатами и присвоение им Оценки схожести.
Identification Rules (Правила идентификации): Эвристические правила для поиска кандидатов в авторы в тексте. Например, поиск заглавных слов на определенном расстоянии от кавычек.
Parsing Rules (Правила парсинга): Эвристические правила для извлечения цитат из текста. Например, извлечение текста, заключенного в кавычки.
Quotation (Цитата): Группа слов, взятая из текста или речи и повторенная кем-то, кроме оригинального автора или спикера.
Quotation Cluster (Кластер цитат): Набор цитат, признанных похожими (происходящими из одного источника), вместе с объединенным набором всех кандидатов в авторы, связанных с этими цитатами.
Quotation Similarity Value (Оценка схожести цитат): Метрика, отражающая вероятность того, что две цитаты происходят из одного и того же оригинального высказывания. Может быть бинарной (похожи/не похожи).
Second Classifier (Второй классификатор): Компонент системы (упомянутый в описании, но не явно в Claims), отвечающий за анализ набора кандидатов в авторы и выбор истинного автора на основе Условия (частоты).

Ключевые утверждения (Анализ Claims)

Патент описывает систему автоматизированной атрибуции цитат путем анализа множества источников.

Claim 1 (Независимый пункт): Описывает основной процесс работы системы.

Система получает множество цифровых текстов.
Парсинг текстов для извлечения цитат с применением Parsing Rules.
Идентификация как минимум одного Candidate Author для каждой цитаты с применением Identification Rules.
Присвоение Quotation Similarity Value для пар цитат, отражающей вероятность их происхождения из одного источника.
Генерация Quotation Cluster. Кластер включает похожие цитаты (чья оценка схожести выше порога) и набор всех связанных с ними кандидатов в авторы.
Анализ набора кандидатов в авторы для идентификации кандидата, удовлетворяющего Condition.
Сохранение этого кандидата как автора похожих цитат.

Claim 2 (Зависимый от 1): Уточняет, что цифровые тексты соответствуют новостным статьям, представляющим одну и ту же тему (т.е. они предварительно кластеризованы по топику).

Claim 3 и 4 (Зависимые): Приводят примеры правил.

Правило парсинга (Claim 3): Извлечение текста между заданным набором кавычек.
Правило идентификации (Claim 4): Идентификация хотя бы одного слова с заглавной буквы на predetermined distance (заранее определенном расстоянии) от кавычек.

Claim 5 (Зависимый от 1): Определяет механизм расчета схожести цитат.

Для определения схожести между Первой цитатой и Второй цитатой система:

Определяет shortest common consecutive string of words (наименьшую общую последовательную строку слов) между двумя цитатами.
Определяет, превышает ли длина этой общей строки второй порог (second threshold).

Это позволяет системе считать цитаты похожими, даже если они были частично обрезаны или изменены в разных источниках, при условии сохранения достаточно длинного общего ядра.

Claim 7 (Зависимый от 1): Определяет ключевой механизм атрибуции — Условие (Condition) для выбора автора.

Анализ набора кандидатов включает:

Определение частоты встречаемости (frequency of occurrence) данного кандидата в наборе.
Определение того, что эта частота является наивысшей (highest frequency) в наборе кандидатов.

Истинным автором считается тот, кого большинство источников указало в качестве автора данной цитаты. Это механизм защиты от ошибок атрибуции в отдельных источниках.

Где и как применяется

Изобретение применяется в рамках инфраструктуры обработки данных для новостных агрегаторов (например, Яндекс.Новости).

INDEXING – Индексирование и извлечение признаков
Основной этап применения. После того как новостные статьи получены и кластеризованы по темам (Topic Clustering), система запускает процесс обработки цитат для извлечения дополнительных признаков (атрибутированных цитат).

Входные данные: Кластер цифровых текстов (новостных статей), посвященных одной теме или событию.
Выходные данные: Набор верифицированных цитат с установленным авторством. Также система определяет «Лучшую цитату» (Best Quotation) (Claim 9, 10) — часто самую длинную версию цитаты из кластера.

BLENDER – Метапоиск и Смешивание
Результаты работы алгоритма используются на этапе формирования выдачи новостного агрегатора. Система может отображать заголовок «Лучшей статьи» (Best Article), но при этом показывать «Лучшую цитату» с верифицированным автором, даже если эта цитата взята из другой статьи того же тематического кластера (FIG. 8). Это используется для генерации обогащенных сниппетов или специальных блоков с ключевыми цитатами дня.

На что влияет

Конкретные типы контента: Влияет исключительно на новостные статьи и контент, содержащий прямую или косвенную речь (цитаты).
Извлечение сущностей и E-E-A-T: Алгоритм напрямую влияет на качество извлечения именованных сущностей (людей) и их связь с утверждениями. Это улучшает понимание Яндексом авторитетности и экспертизы спикеров, что является важным компонентом для построения Графа Знаний и оценки E-E-A-T.

Когда применяется

Триггеры активации: Алгоритм активируется при обработке новостного потока, когда система обнаруживает несколько статей, посвященных одному и тому же событию (формирование тематического кластера).
Условия работы: Требуется наличие цитат в текстах и возможность идентификации кандидатов в авторы на основе эвристических правил (кавычки, заглавные буквы).

Пошаговый алгоритм

Получение данных: Система получает набор цифровых текстов (новостных статей) из базы данных. Предполагается, что эти тексты уже кластеризованы по общей теме.
Парсинг цитат: Каждый текст обрабатывается с применением Parsing Rules (например, поиск текста в кавычках) для извлечения одной или нескольких цитат.
Идентификация кандидатов: Для каждой извлеченной цитаты применяются Identification Rules (например, поиск слов с заглавной буквы рядом с цитатой) для определения одного или нескольких Candidate Authors. Формируется индекс пар (Цитата, Кандидат).
Оценка схожести цитат (First Classifier): Система сравнивает цитаты между собой. Для пары цитат вычисляется Quotation Similarity Value.
- Механизм сравнения: Определяется длина наименьшей общей последовательной строки слов между двумя цитатами. Если эта длина превышает пороговое значение, цитаты считаются похожими (например, присваивается бинарное значение 1).
Кластеризация цитат: Генерируется Quotation Cluster. В него входят цитаты, чья оценка схожести превышает порог. Также в кластер включается объединенный набор всех кандидатов в авторы, связанных с этими похожими цитатами.
Анализ авторства: Система анализирует набор кандидатов в авторы внутри кластера.
- Механизм анализа: Подсчитывается частота встречаемости (frequency of occurrence) каждого кандидата.
Определение автора: Кандидат в авторы, удовлетворяющий Условию (имеющий наивысшую частоту встречаемости), идентифицируется как истинный автор.
Сохранение результата: Идентифицированный автор сохраняется как автор всех похожих цитат в кластере.
Выбор лучшей цитаты (Опционально): Система может выбрать «Лучшую цитату» из кластера, например, ту, которая имеет самую длинную строку последовательных слов (Claim 10).

Какие данные и как использует

Данные на входе

Контентные факторы: Текст новостных статей. Система анализирует слова (лексический состав) для сравнения цитат и идентификации авторов.
Структурные и грамматические факторы: Критически важные данные для работы эвристик:
- Пунктуация: Наличие и тип кавычек используются для парсинга цитат (Claim 3).
- Капитализация: Использование заглавных букв используется для идентификации имен собственных (кандидатов в авторы) (Claim 4).
- Позиционирование: Расстояние (proximity) между цитатой и кандидатом в авторы используется в правилах идентификации.

Какие метрики используются и как они считаются

Длина наименьшей общей последовательной строки слов (Length of Shortest Common Consecutive String of Words): Конкретная метрика для сравнения двух текстовых фрагментов (цитат). Она используется для определения схожести, устойчивой к частичным изменениям или усечениям цитат.
Quotation Similarity Value: Метрика, рассчитываемая на основе предыдущей. Если длина общей строки превышает заданный порог (Second Threshold), значение может быть установлено в 1 (похожи), иначе 0 (Claim 6).
Frequency of Occurrence (Частота встречаемости): Подсчет количества раз, когда конкретный кандидат в авторы ассоциируется с цитатами внутри одного кластера. Используется для финальной верификации авторства.
Эвристические правила: Система полагается на Parsing Rules и Identification Rules, основанные на грамматических и структурных особенностях языка.

Выводы

Атрибуция через консенсус: Яндекс использует подход, основанный на консенсусе (Wisdom of the Crowds), для определения авторства цитат. Авторство определяется не по одному источнику, а по наиболее частому упоминанию среди множества источников на одну тему.
Устойчивость к вариативности цитат: Система способна распознавать одну и ту же цитату, даже если она была усечена или немного изменена в разных источниках. Это достигается за счет анализа длины общей последовательной строки слов, а не поиска точного совпадения.
Зависимость от структурных сигналов: Эффективность извлечения цитат и кандидатов в авторы сильно зависит от четких структурных и грамматических сигналов в тексте — стандартного использования кавычек, капитализации имен и близости автора к цитате.
Фокус на качество данных в агрегаторах: Патент направлен на улучшение качества и достоверности данных, отображаемых в новостных агрегаторах, позволяя показывать «Лучшую цитату» с верифицированным автором.
Не алгоритм ранжирования: Это алгоритм извлечения и верификации фактов (Entity/Fact Extraction), а не алгоритм ранжирования веб-документов.

Практика

Best practices (это мы делаем)

Рекомендации в первую очередь актуальны для издателей новостей, контент-проектов и сайтов, стремящихся к видимости в Яндекс.Новостях или использующих цитирование.

Четкая и однозначная атрибуция цитат: Всегда указывайте автора цитаты ясно и недвусмысленно. Избегайте ситуаций, когда из текста непонятно, кому именно принадлежит высказывание.
Близость автора и цитаты: Размещайте имя автора в непосредственной близости от цитаты (до или сразу после нее). Патент явно упоминает использование «predetermined distance» (заранее определенного расстояния) в правилах идентификации (Claim 4).
Стандартное форматирование цитат: Используйте стандартные типографские кавычки для выделения прямой речи. Правила парсинга основаны на поиске этих маркеров (Claim 3).
Корректная капитализация имен: Всегда пишите имена собственные (имена людей, названия организаций) с заглавной буквы. Идентификация кандидатов в авторы основана на поиске слов с заглавной буквы (Claim 4).
Полнота цитирования: Приводите цитаты максимально полно и точно. Система выбирает «Лучшую цитату» часто как самую длинную версию (Claim 10). Наличие полной версии повышает шансы, что именно ваша версия будет выбрана для показа в агрегаторе.

Worst practices (это делать не надо)

Нестандартное выделение цитат: Использование жирного шрифта, курсива или графических элементов вместо стандартных кавычек для выделения прямой речи может привести к тому, что система не распознает цитату.
Сложная структура предложения при цитировании: Построение предложений, где между цитатой и ее автором находятся другие именованные сущности или большой объем текста, увеличивает риск ошибки идентификации автора.
Использование местоимений вместо имен: Частое использование конструкций вида «он сказал», «по мнению эксперта» без четкого указания имени рядом с цитатой не позволит системе идентифицировать автора.
Чрезмерное сокращение цитат: Сильное усечение цитат может привести к тому, что длина общей последовательной строки слов окажется ниже порога схожести, и система не сможет связать вашу цитату с другими вариантами.

Стратегическое значение

Патент подтверждает важность структурирования контента для машинного понимания. Хотя он напрямую не влияет на ранжирование в основном поиске, он демонстрирует, как Яндекс извлекает и верифицирует факты для своих сервисов. Для издателей это сигнал о том, что техническая чистота верстки и грамматическая корректность текста напрямую влияют на то, как их контент будет интерпретирован и представлен в агрегаторах. Кроме того, это подчеркивает усилия Яндекса по улучшению понимания сущностей и их связей (E-E-A-T).

Практические примеры

Сценарий: Оптимизация статьи для корректного извлечения цитаты

Плохой пример (Трудно для парсинга):

«Мы планируем достичь углеродной нейтральности к 2050 году». Вчера в ходе саммита это заявление сделал глава компании. Он также добавил, что инвестиции будут увеличены.

Проблема: Автор («глава компании») не является именованной сущностью, и он отдален от цитаты. Система может не найти кандидата в авторы.

Хороший пример (Легко для парсинга):

«Мы планируем достичь углеродной нейтральности к 2050 году», — заявил вчера на саммите генеральный директор Яндекс Аркадий Волож. Он также добавил, что инвестиции будут увеличены.

Преимущество: Имя (Аркадий Волож) написано с заглавной буквы, находится рядом с цитатой, цитата выделена кавычками. Система легко применит Parsing Rules и Identification Rules.

Сценарий 2: Работа механизма верификации авторства

Входные данные (3 статьи на одну тему):
- Статья 1: «Это важный шаг для индустрии», — сказал Иван Петров.
- Статья 2: Иван Петров заявил: «Это очень важный шаг для всей индустрии».
- Статья 3: «Это важный шаг для индустрии», — ошибочно приписывают Семену Иванову.
Сравнение и Кластеризация: Система определяет, что все три цитаты похожи (общая строка «Это важный шаг для индустрии» выше порога). Формируется кластер.
Анализ кандидатов: Кандидаты в кластере: {Иван Петров, Иван Петров, Семен Иванов}.
Определение автора: Частота Ивана Петрова = 2. Частота Семена Иванова = 1. Иван Петров имеет наивысшую частоту.
Результат: Система сохраняет Ивана Петрова как истинного автора. В агрегаторе будет показана цитата с правильной атрибуцией, игнорируя ошибку в Статье 3.

Вопросы и ответы

Влияет ли этот патент на ранжирование сайтов в основном поиске Яндекса?

Напрямую нет. Этот патент не описывает алгоритмы ранжирования. Он описывает метод извлечения и верификации фактов (кто что сказал), который используется в первую очередь в новостных агрегаторах, таких как Яндекс.Новости. Однако качественное извлечение сущностей и их связей косвенно улучшает общее понимание Яндексом контента и авторитетности источников (E-E-A-T).

Как Яндекс определяет, что две разные цитаты на самом деле являются одной и той же?

Система использует метрику, называемую «длина наименьшей общей последовательной строки слов» (Claim 5). Она находит самый длинный непрерывный фрагмент текста, который совпадает в обеих цитатах. Если длина этого фрагмента превышает определенный порог, система считает цитаты похожими, даже если начало или конец цитат отличаются или усечены.

Как система выбирает автора, если разные сайты указывают разных людей?

Это ключевой момент патента. Система использует подход, основанный на консенсусе. Она собирает всех потенциальных авторов из всех похожих цитат в кластер и подсчитывает частоту упоминания каждого кандидата (Claim 7). Автор, который упоминается чаще всего в большинстве источников, признается истинным автором. Это позволяет исправлять ошибки атрибуции отдельных изданий.

Какие правила использует Яндекс для поиска потенциальных авторов в тексте?

Патент приводит конкретные примеры эвристических «Правил идентификации» (Identification Rules). Основное правило (Claim 4) — это поиск слов, написанных с заглавной буквы (предположительно имен собственных), которые находятся на заранее определенном небольшом расстоянии от кавычек, выделяющих цитату.

Что такое «Лучшая цитата» (Best Quotation) и как она выбирается?

Это наиболее репрезентативная версия цитаты, которая выбирается для отображения в интерфейсе новостного агрегатора. Согласно патенту (Claim 10), она часто соответствует той версии цитаты, которая имеет самую длинную строку последовательных слов, то есть является наиболее полной версией высказывания.

Что делать SEO-специалисту или издателю, чтобы оптимизировать контент под этот алгоритм?

Необходимо обеспечить максимальную чистоту и структурированность текста. Используйте стандартные кавычки для прямой речи. Всегда пишите имена авторов с заглавной буквы и располагайте их в непосредственной близости от цитаты. Избегайте сложных конструкций предложения, которые могут запутать парсер при определении связи между цитатой и автором.

Работает ли этот алгоритм, если цитата выделена не кавычками, а, например, курсивом?

Согласно патенту (Claim 3), пример правила парсинга основан на извлечении текста между «заданным набором кавычек». Если используются только нестандартные методы выделения (курсив, жирный шрифт) без кавычек, существует высокая вероятность, что система не сможет распознать этот текст как цитату и алгоритм не сработает.

Применяется ли этот метод только к новостям?

В патенте в качестве основного примера использования указаны новостные агрегаторы и новостные статьи, кластеризованные по теме (Claim 2). Хотя теоретически метод может быть применен к любому набору текстов, его основное назначение и описанная реализация сфокусированы именно на обработке новостного потока для решения проблемы быстрой и точной атрибуции цитат.

Может ли система определить автора, если он указан только местоимением (например, «он сказал»)?

Это маловероятно. Правила идентификации, описанные в патенте, ищут конкретные сигналы, такие как слова с заглавной буквы (Claim 4). Местоимения или общие описания («эксперт заявил») не обладают достаточной специфичностью для надежной идентификации кандидата в авторы в рамках описанного механизма.

Что происходит, если два разных автора упоминаются с одинаковой частотой?

Патент определяет условие выбора автора как наличие «наивысшей частоты» (highest frequency) (Claim 7). Если наивысшая частота достигается несколькими кандидатами (ничья), патент не уточняет логику разрешения этой коллизии. Вероятно, могут использоваться дополнительные эвристики, либо цитата может быть помечена как имеющая неоднозначное авторство.