Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс автоматически определяет и верифицирует авторство цитат для агрегатора новостей

    СПОСОБ И СИСТЕМА КОМПЬЮТЕРНОЙ ОБРАБОТКИ ОДНОЙ ИЛИ НЕСКОЛЬКИХ ЦИТАТ В ЦИФРОВЫХ ТЕКСТАХ ДЛЯ ОПРЕДЕЛЕНИЯ ИХ АВТОРА (Method and system for computer processing of one or more quotes in digital texts for determination of their author)
    • RU2711123C2
    • Yandex LLC
    • 2020-01-15
    • 2018-05-18
    2020 Качество контента Краудсорсинг Патенты Яндекс Яндекс Новости

    Яндекс патентует систему для сервисов агрегации новостей (например, Яндекс.Новости), которая анализирует множество статей на одну тему для определения точного авторства цитат. Система извлекает цитаты и кандидатов в авторы, кластеризует похожие высказывания и определяет истинного автора на основе консенсуса (наиболее частого упоминания) среди разных источников.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему противоречивой, ошибочной или неясной атрибуции (авторства) цитат в новостных статьях, собираемых из разных источников. Это критическая задача для Сервисов агрегации новостей (например, Яндекс.Новости), которым необходимо предоставлять точную информацию. Изобретение автоматизирует процесс верификации автора, снижая потребность в ручном труде и ускоряя публикацию новостей.

    Что запатентовано

    Запатентованы способ и система для автоматического определения автора цитат в массиве цифровых текстов (новостных статей). Суть изобретения заключается в анализе корпуса статей на одну тему, извлечении цитат и Кандидатов-авторов с помощью эвристических правил, кластеризации схожих цитат и определении корректного автора на основе статистического консенсуса (анализа частоты упоминаний) внутри кластера.

    Как это работает

    Система получает набор новостных статей, относящихся к одной теме. Применяются Правила парсинга для извлечения цитат (например, текста в кавычках) и Правила идентификации для поиска Кандидатов-авторов (например, слов с прописной буквы рядом с цитатой). Первый классификатор рассчитывает схожесть цитат на основе длины общей последовательности слов. Схожие цитаты объединяются в кластер. Затем система анализирует всех кандидатов в кластере и выбирает автора с наибольшей частотой вхождений как истинного.

    Актуальность для SEO

    Высокая (в контексте агрегации контента). Автоматическое извлечение фактов (Information Extraction) и верификация информации критически важны для современных платформ. Хотя описанные методы (эвристики, сравнение строк) являются базовыми по сравнению с современными нейросетевыми подходами, механизм верификации через консенсус множества источников остается актуальным и эффективным для обработки новостного потока.

    Важность для SEO

    Влияние на общее веб-SEO низкое (3/10). Патент не описывает алгоритмы ранжирования основного поиска. Это инфраструктурный патент для новостной вертикали. Однако он имеет критическое значение для издателей новостей, работающих с Яндекс.Новостями. Он определяет, как контент парсится и отображается в агрегаторе, и дает представление о том, как Яндекс извлекает сущности (авторов) и верифицирует факты, что косвенно связано с принципами достоверности (E-E-A-T).

    Детальный разбор

    Термины и определения

    Величина сходства цитаты (Quote Similarity Score)
    Метрика, представляющая вероятность того, что две цитаты происходят из одной и той же оригинальной цитаты. Может быть бинарной.
    Кандидат-автор (Candidate Author)
    Возможный автор или источник цитаты, извлеченный из текста с помощью Правил идентификации.
    Кластер цитат (Quote Cluster)
    Группа цитат, идентифицированных как схожие (величина сходства выше порога), а также агрегированный набор всех связанных с ними Кандидатов-авторов.
    Кратчайшая общая последовательная строка слов
    Используется для расчета сходства цитат. В контексте патента это, вероятно, означает длину наибольшей общей подстроки или подпоследовательности (LCS). Если длина этой общей последовательности выше порога, цитаты считаются схожими.
    Лучшая цитата (Best Quote)
    Наиболее представительная цитата, выбранная из кластера для отображения. Обычно это цитата, обладающая наибольшей строкой последовательных слов (т.е. самая полная версия).
    Первый классификатор (First Classifier)
    Компонент системы, отвечающий за расчет Величины сходства цитат и формирование Кластеров цитат.
    Правила идентификации (Identification Rules)
    Эвристические или грамматические правила для определения Кандидатов-авторов. Пример: определение слов с прописной буквы на заранее определенном расстоянии от цитаты.
    Правила парсинга (Parsing Rules)
    Эвристические или грамматические правила для извлечения цитат из текста. Пример: извлечение текста, заключенного в кавычки.
    Сервис агрегации новостей (News Aggregation Service)
    Платформа (например, Яндекс.Новости), собирающая новостной контент из множества источников.

    Ключевые утверждения (Анализ Claims)

    Патент защищает метод автоматизации определения авторства цитат путем анализа консенсуса между несколькими источниками.

    Claim 1 (Независимый пункт): Описывает основной способ, выполняемый на сервере агрегации новостей.

    1. Получение множества цифровых текстов (новостных статей).
    2. Парсинг текстов для извлечения цитат с применением Правил парсинга.
    3. Определение Кандидатов-авторов для каждой цитаты с применением Правил идентификации.
    4. Расчет Величины сходства цитаты (вероятности общего происхождения) с помощью Первого классификатора.
    5. Создание Кластера цитат: группировка цитат, чья схожесть выше порога, и агрегация всех связанных с ними Кандидатов-авторов.
    6. Анализ набора Кандидатов-авторов для определения того, кто удовлетворяет условию.
    7. Сохранение этого кандидата как автора для всех цитат в кластере.

    Claim 5 (Зависимый от п.1): Конкретизирует механизм расчета сходства цитат (Шаг 4).

    Сходство определяется путем вычисления длины кратчайшей общей последовательной строки слов (LCS) между двумя цитатами и сравнения этой длины с порогом. Это позволяет идентифицировать усеченные или частично измененные цитаты как происходящие из одного источника.

    Claim 7 (Зависимый от п.1): Конкретизирует условие выбора автора (Шаг 6).

    Условием является обладание наибольшей частотой вхождений в наборе Кандидатов-авторов кластера. Это реализация механизма мажоритарного голосования (консенсуса).

    Claim 8 и 9 (Зависимые от п.1): Описывают применение результата.

    Система отображает пользователю Лучшую цитату и ее верифицированного автора. Лучшая цитата определяется как обладающая наибольшей строкой последовательных слов (наиболее полная версия).

    Где и как применяется

    Изобретение не относится к базовой архитектуре веб-поиска (Crawling, Ranking), а описывает специализированный конвейер обработки данных внутри Сервиса агрегации новостей.

    INDEXING & Feature Extraction (В контексте новостного агрегатора)
    Алгоритм применяется к данным, которые уже собраны и кластеризованы по темам. Основная логика патента выполняется на этапе извлечения признаков и пост-обработки контента.

    • Процедура парсинга цитаты: Извлекает цитаты и Кандидатов-авторов на основе эвристических правил.
    • Процедуры классификации: Выполняют кластеризацию цитат и верификацию авторства,.

    BLENDER / Генерация Интерфейса (Агрегатора)
    Результаты используются при формировании интерфейса агрегатора. Патент подчеркивает важную особенность: система разделяет Процедуру выбора статьи и Процедуру выбора цитаты. Это означает, что «Лучшая статья» по теме и «Лучшая цитата» могут быть выбраны независимо из разных источников внутри одного тематического кластера.

    Вход: Тематический кластер новостных статей.
    Выход: Верифицированный Автор и Лучшая цитата для отображения.

    На что влияет

    • Типы контента: Влияет исключительно на обработку и отображение новостных статей в рамках сервиса агрегации.
    • Сущности и E-E-A-T: Напрямую влияет на то, как Яндекс идентифицирует и верифицирует авторов (сущностей) и связывает их с высказываниями в новостном контексте.
    • Языковые ограничения: Правила парсинга и идентификации могут зависеть от языка, что требует адаптации системы под разные языки.

    Когда применяется

    • Условия применения: При обработке тематического кластера, содержащего несколько новостных статей из разных источников.
    • Триггеры активации: Обнаружение цитат в статьях кластера.
    • Пороговые значения: Используются эмпирически определяемые пороги:
      • Порог длины общей последовательности слов (LCS) для признания цитат схожими.
      • Порог Величины сходства для включения в кластер.
      • Порог расстояния между цитатой и кандидатом-автором.

    Пошаговый алгоритм

    1. Получение данных: Система получает множество цифровых текстов (новостных статей), предварительно сгруппированных в тематический кластер.
    2. Парсинг цитат: Каждый текст анализируется для извлечения цитат путем применения Правил парсинга (например, поиск кавычек).
    3. Идентификация Кандидатов-авторов: Для каждой цитаты определяются Кандидаты-авторы путем применения Правил идентификации (например, поиск слов с прописной буквы вблизи цитаты).
    4. Нормализация (Опционально): Цитаты и имена могут быть стандартизированы (удаление пунктуации, удаление должностей из имен).
    5. Расчет сходства (Первый классификатор): Для пар цитат вычисляется Величина сходства цитаты.
      1. Определяется длина общей последовательной строки слов (LCS).
      2. Если длина превышает порог, цитаты считаются схожими.
    6. Кластеризация цитат: Создается Кластер цитат, включающий схожие цитаты и агрегированный набор всех их Кандидатов-авторов.
    7. Определение автора (Второй классификатор): Анализ агрегированного набора Кандидатов-авторов.
      1. Вычисляется частота вхождений каждого кандидата.
      2. Кандидат с наибольшей частотой выбирается как истинный автор (метод консенсуса).
    8. Выбор Лучшей цитаты: Из кластера выбирается Лучшая цитата (например, самая длинная версия).
    9. Сохранение и Отображение: Лучшая цитата и верифицированный автор сохраняются и передаются для отображения в интерфейсе агрегатора.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Тексты новостных статей. Анализируется последовательность слов для сравнения цитат (LCS).
    • Структурные и Грамматические факторы: Критически важные данные для эвристического извлечения:
      • Пунктуация: Кавычки используются для определения границ цитаты (Правила парсинга).
      • Капитализация: Прописные буквы используются для идентификации имен собственных (Правила идентификации).
      • Позиционирование: Расстояние между цитатой и словами с прописной буквы используется для связывания автора с цитатой.

    Какие метрики используются и как они считаются

    • Длина общей последовательной строки слов (LCS): Метрика текстового совпадения. Вычисляется путем сравнения строк двух цитат.
    • Величина сходства цитаты: Метрика, основанная на длине LCS. Если длина превышает порог, сходство считается высоким. Патент упоминает, что эта величина может быть бинарной (0 или 1).
    • Частота вхождений Кандидата-автора: Статистическая метрика. Подсчитывается количество упоминаний конкретного автора в рамках одного кластера цитат. Используется для определения автора методом мажоритарного голосования.
    • Длина цитаты: Используется для выбора Лучшей цитаты из кластера.

    Выводы

    1. Фокус на инфраструктуре новостного агрегатора: Патент описывает внутренние процессы Яндекс.Новостей и не имеет прямого влияния на ранжирование в основном веб-поиске.
    2. Верификация через консенсус (Wisdom of the Crowd): Ключевой механизм определения истинного автора основан на анализе частоты упоминаний среди различных новостных источников. Система доверяет «большинству».
    3. Зависимость от эвристик и структуры текста: Извлечение цитат и авторов полагается на четкие структурные и грамматические правила (кавычки, заглавные буквы, близость слов). Нестандартное форматирование может привести к ошибкам.
    4. Сравнение строк вместо семантического анализа: Схожесть цитат определяется по длине общей последовательности слов (LCS), а не через семантическую близость. Это позволяет обрабатывать усеченные цитаты, но не учитывает перефразирование.
    5. Независимый выбор лучшей статьи и цитаты: Система разработана так, что «лучшая статья» по теме и «лучшая цитата» могут быть выбраны независимо друг от друга из разных источников.

    Практика

    ВАЖНО: Патент имеет низкую практическую ценность для стандартного SEO, но критически важен для SEO новостных сайтов и издателей, работающих с Яндекс.Новостями.

    Best practices (для новостных сайтов)

    • Четкая и стандартная атрибуция цитат: Используйте стандартные грамматические конструкции для оформления прямой речи. Убедитесь, что цитаты заключены в кавычки, чтобы Правила парсинга могли их извлечь.
    • Близость автора к цитате: Размещайте имя автора в непосредственной близости от цитаты. Система использует заранее определенное расстояние для связывания. Например: Иван Петров заявил: «Цитата».
    • Корректное использование прописных букв: Имена собственные должны быть написаны с прописной буквы, так как это ключевой признак для Правил идентификации авторов.
    • Полнота цитирования: Предоставление более полных версий цитат увеличивает вероятность того, что ваша версия будет выбрана как Лучшая цитата, так как она часто определяется по наибольшей длине.

    Worst practices (для новостных сайтов)

    • Нестандартное оформление прямой речи: Использование альтернативных способов выделения цитат (например, только курсивом без кавычек) может привести к тому, что система не сможет извлечь цитату.
    • Двусмысленная или удаленная атрибуция: Размещение нескольких имен собственных рядом с цитатой или слишком далеко от нее затрудняет работу Правил идентификации и может привести к ошибкам.
    • Искажение или сильное сокращение цитат: Значительное изменение текста может привести к тому, что система не сможет связать ее с аналогичными цитатами в других источниках (длина LCS ниже порога).

    Стратегическое значение

    Патент подтверждает стратегическое направление Яндекса на автоматизацию извлечения структурированных данных и верификацию фактов. Он демонстрирует, как система использует коллективные данные для повышения точности информации. Для SEO-специалистов это пример того, как поисковые системы переходят к пониманию сущностей (авторов) и связей (заявлений), что является основой семантического поиска и подтверждения достоверности (E-E-A-T). Для издателей это подчеркивает важность технического качества и структурированности контента.

    Практические примеры

    Сценарий: Разрешение конфликта авторства и выбор лучшей цитаты

    Событие: Пресс-конференция политика Иванова.

    1. Сбор данных: Яндекс собирает три статьи:
      • Статья А: «Мы увеличим бюджет», — сказал Иванов.
      • Статья Б: «Мы планируем увеличить бюджет на 10% в следующем квартале», — подтвердил Иванов.
      • Статья В: «Мы увеличим бюджет», — заявил Петров (ошибка атрибуции).
    2. Действие системы:
      1. Система определяет, что все три цитаты схожи (LCS «Мы увеличим бюджет» выше порога) и формирует Кластер.
      2. Система агрегирует Кандидатов-авторов: {Иванов, Иванов, Петров}.
      3. Система подсчитывает частоту: Иванов=2, Петров=1. «Иванов» выбирается как верифицированный автор (консенсус).
      4. Система выбирает цитату из Статьи Б как Лучшую цитату (так как она длиннее).
    3. Результат: В Яндекс.Новостях отображается: «Мы планируем увеличить бюджет на 10% в следующем квартале» — Иванов.

    Вопросы и ответы

    Влияет ли этот патент на ранжирование моего сайта в основном поиске Яндекса?

    Нет, прямого влияния на ранжирование в веб-поиске этот патент не оказывает. Он описывает внутренние механизмы обработки контента исключительно для Сервиса агрегации новостей (например, Яндекс.Новости). Он не затрагивает факторы ранжирования, используемые в основном поиске.

    Какую основную проблему решает этот патент?

    Он решает проблему противоречивой или ошибочной атрибуции авторства цитат в новостях из разных источников. Когда СМИ по-разному указывают автора одного и того же высказывания, система автоматически определяет наиболее вероятного правильного автора, чтобы показать верифицированную информацию в агрегаторе новостей.

    Как система определяет, что две цитаты из разных статей — это одно и то же высказывание?

    Система использует метод сравнения строк. Она вычисляет длину общей последовательной строки слов (LCS) между двумя цитатами. Если эта длина превышает определенный порог, система считает цитаты схожими (происходящими из одного источника), даже если они не идентичны полностью (например, одна усечена).

    Как система выбирает правильного автора, если источники противоречат друг другу?

    Используется метод консенсуса или мажоритарного голосования. Система собирает всех Кандидатов-авторов для кластера схожих цитат и подсчитывает частоту упоминания каждого. Кандидат с наибольшей частотой признается правильным автором, исходя из предположения, что большинство источников укажут его верно.

    Как система понимает, кто является автором цитаты в тексте?

    Система использует эвристические Правила идентификации. В патенте приведен пример: поиск одного или нескольких последовательных слов с прописной буквы (предполагаемых имен собственных), находящихся на заранее определенном расстоянии от цитаты. Сложные методы семантического анализа для этой задачи не описаны.

    Что такое «Лучшая цитата» и как она выбирается?

    «Лучшая цитата» — это наиболее представительная версия цитаты из кластера. Согласно патенту, она выбирается как цитата, обладающая наибольшей строкой последовательных слов. Проще говоря, система стремится выбрать самую полную и длинную версию высказывания для показа пользователю.

    Какое значение этот патент имеет для SEO новостных сайтов?

    Для новостных сайтов значение высокое. Он показывает, как именно Яндекс парсит структуру новостных статей. Чтобы контент был корректно обработан и представлен в агрегаторе, необходимо следовать четким правилам оформления: использовать стандартные кавычки, указывать полное имя автора рядом с цитатой и следить за грамматической корректностью.

    Может ли «Лучшая цитата» быть взята не из той статьи, которая выбрана как основная для новостного сюжета?

    Да. Патент специально подчеркивает, что система разделяет эти процессы. Агрегатор может показать заголовок Статьи А (как лучшей статьи), но при этом отобразить цитату из Статьи Б (как лучшую цитату), если обе статьи относятся к одной теме.

    Использует ли Яндекс сложное машинное обучение в этом патенте?

    В патенте описаны методы, основанные на эвристических правилах (Правила парсинга и идентификации), сравнении строк (LCS) и статистическом анализе (частота вхождений). Хотя компоненты названы «Классификаторами», сложные модели машинного обучения (например, нейросети) для этих задач в патенте не описаны.

    Как этот патент связан с E-E-A-T?

    Связь косвенная, но важная. Точное определение того, кто сделал заявление (особенно если это эксперт), является сигналом Авторитетности и Достоверности (E-E-A-T). Патент описывает технический механизм для автоматического извлечения и верификации этих сигналов в масштабе новостного потока, демонстрируя возможности Яндекса в этой области.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2026 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.