Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google определяет значимость цитат и повторяющегося текста, используя авторитетность и разнообразие источников (Энтропия)

    RANKING SIMILAR PASSAGES (Ранжирование похожих пассажей)
    • US20090055389A1
    • Google LLC
    • 2009-02-26
    • 2008-01-30
    2008 EEAT и качество Индексация Патенты Google Ссылки

    Google анализирует, как часто и где текстовые пассажи (например, цитаты или определения) повторяются в корпусе документов. Система рассчитывает оценку значимости пассажа на основе популярности цитирующих авторов, разнообразия источников (diffusion/entropy) и текстуальных характеристик. Эта оценка используется для ранжирования результатов поиска и выбора наиболее важных пассажей для отображения.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему идентификации и ранжирования наиболее релевантных или значимых вхождений популярных цитат, фраз или повторяющихся текстовых фрагментов среди тысяч возможных результатов поиска. Система направлена на улучшение качества поиска путем выявления канонических или авторитетных пассажей, основываясь на том, как они используются и цитируются в большом корпусе документов.

    Что запатентовано

    Запатентована система и метод для расчета Ranking Score (оценки ранжирования) для Similar Passages (похожих пассажей) — фрагментов текста, которые встречаются в нескольких документах. Оценка рассчитывается на основе характеристик вхождений (Instances) этих пассажей в цифровом корпусе. Ключевыми факторами являются авторитетность источников (популярность автора/документа) и Diffusion (рассеивание или разнообразие источников цитирования), которое измеряется с помощью Entropy (Энтропии).

    Как это работает

    Система работает в несколько этапов:

    • Идентификация пассажей: Passage Mining Engine находит фрагменты текста, которые повторяются в разных документах корпуса.
    • Анализ характеристик: Scoring Engine анализирует характеристики каждого вхождения пассажа. Сюда входят: популярность автора и документа, частота появления, длина пассажа, текстуальные особенности (грамматика, пунктуация), наличие вводных слов (Speech Acts) и разнообразие источников (Diffusion).
    • Расчет оценок: Для каждой характеристики рассчитывается индивидуальная оценка. Diffusion рассчитывается с использованием Entropy для оценки разнообразия авторов, издателей и мест появления пассажа.
    • Агрегация: Индивидуальные оценки комбинируются (например, взвешенная линейная комбинация) для получения финального Ranking Score пассажа.
    • Применение: Этот Ranking Score используется для ранжирования результатов поиска и для выбора наиболее значимого пассажа для отображения в сниппете документа.

    Актуальность для SEO

    Высокая. Хотя патент подан в 2008 году и явно описывает контекст цифровых библиотек (Google Books/Scholar), описанные принципы крайне актуальны для современного веб-поиска. Идентификация ключевых пассажей, понимание паттернов цитирования и оценка авторитетности источников (E-E-A-T) являются центральными задачами. Методы, такие как использование Entropy для оценки разнообразия и применение языковых моделей, являются стандартными в Information Retrieval.

    Важность для SEO

    Патент имеет значительное влияние на SEO (75/100), особенно для контент-стратегий, направленных на построение авторитетности. Он предоставляет концептуальную основу для того, как Google может оценивать влияние и значимость контента на основе того, как он цитируется и используется в Интернете. Ключевой вывод — разнообразие источников цитирования (Entropy) может быть важнее, чем общее количество цитирований.

    Детальный разбор

    Термины и определения

    Similar Passage (Похожий пассаж)
    Фрагмент текста в исходном документе, который в похожей форме встречается в одном или нескольких других документах. Часто это цитаты, определения или устоявшиеся фразы.
    Instances (Вхождения)
    Конкретные случаи появления одного и того же Similar Passage в разных документах корпуса.
    Digital Corpus (Цифровой корпус)
    Набор документов в цифровом формате (например, веб-страницы, книги, статьи).
    Ranking Score (Оценка ранжирования)
    Итоговая оценка, присваиваемая пассажу на основе анализа характеристик его вхождений. Используется для определения значимости пассажа.
    Passage Mining Engine (Система извлечения пассажей)
    Компонент, анализирующий корпус для идентификации повторяющихся пассажей.
    Scoring Engine (Система оценки)
    Компонент, рассчитывающий Ranking Score для пассажей.
    Speech Acts (Речевые акты)
    Слова или фразы, вводящие или завершающие пассаж (например, «X сказал:», «пишет Y»). Указывают на то, что текст является цитатой.
    Diffusion (D(Q)) (Рассеивание)
    Метрика, измеряющая, насколько широко пассаж распространен среди различных источников в корпусе. Высокое рассеивание указывает на широкое признание.
    Entropy (Энтропия)
    Статистическая мера разнообразия или неопределенности. Используется для расчета Diffusion. Высокая энтропия означает большое разнообразие источников, цитирующих пассаж.
    A(Q) (Оценка автора)
    Оценка, основанная на популярности или известности автора документа, содержащего пассаж.
    F(Q) (Оценка частоты)
    Оценка, основанная на частоте появления пассажа в корпусе.
    L(Q) (Оценка длины)
    Оценка, основанная на длине пассажа.
    W(Q) (Оценка слов/грамматики)
    Оценка, основанная на анализе слов и грамматики пассажа с использованием языковых моделей.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает базовый метод расчета оценки пассажа.

    1. Вычисление одной или нескольких оценок на основе характеристик вхождений (Instances) пассажа в цифровом корпусе.
    2. Генерация Ranking Score для пассажа на основе вычисленных оценок.
    3. Сохранение Ranking Score в ассоциации с пассажем.

    Это ядро изобретения: оценка значимости текста основана на анализе того, как этот текст используется в корпусе.

    Claim 3 (Зависимый от 1): Детализирует расчет оценки на основе авторитетности автора.

    1. Доступ к базе данных, идентифицирующей авторов и связанные с ними оценки (author scores).
    2. Определение, найден ли автор документа, содержащего пассаж, в этой базе данных.
    3. Если да, расчет оценки пассажа на основе author score из базы данных.

    Система использует внешний список авторитетов (whitelist) для повышения оценки пассажей, цитируемых известными авторами.

    Claim 10 (Зависимый от 1): Детализирует расчет оценки на основе контекста цитирования (Speech Acts).

    1. Идентификация слов, вводящих и/или следующих за пассажем в документе.
    2. Установление, обозначают ли эти слова речевой акт (например, атрибуцию цитаты).
    3. Расчет оценки на основе того, присутствуют ли речевые акты.

    Явное указание на цитирование (например, «Как сказал X…») увеличивает значимость пассажа.

    Claim 11 (Зависимый от 1): Детализирует расчет оценки на основе разнообразия (Diffusion/Entropy).

    1. Идентификация характеристики вхождений пассажа (например, автор, издатель).
    2. Изучение вхождений для определения степени вариативности (amount of variation) этой характеристики.
    3. Расчет оценки на основе степени вариативности.

    Это ключевой механизм для измерения Diffusion. Чем больше разнообразие характеристик (например, больше разных авторов цитируют пассаж), тем выше оценка.

    Где и как применяется

    Изобретение применяется на этапах индексирования и ранжирования для оценки значимости контента.

    INDEXING – Индексирование и извлечение признаков
    Основная работа происходит на этом этапе или в виде офлайн-процессов, подготавливающих данные для индекса.

    • Passage Mining Engine сканирует корпус, идентифицирует Similar Passages и их вхождения.
    • Scoring Engine анализирует характеристики каждого вхождения. Это включает доступ к метаданным (автор, издатель) и внешним базам авторитетов.
    • Рассчитываются метрики Diffusion с использованием Entropy.
    • Итоговый Ranking Score рассчитывается и сохраняется в базе данных Similar Passage DB в ассоциации с пассажем.

    RANKING – Ранжирование
    На этом этапе используются предварительно рассчитанные оценки.

    • При обработке запроса система может идентифицировать релевантные пассажи.
    • Ranking Engine использует Ranking Score пассажей для определения порядка их отображения (например, в специализированном поиске по цитатам) или для влияния на ранжирование документов, содержащих эти пассажи.
    • Система также использует Ranking Score, чтобы выбрать, какой именно пассаж из документа показать в качестве сниппета (выбирается пассаж с наивысшей оценкой).

    Входные данные:

    • Текст документов в корпусе.
    • Метаданные документов (авторы, издатели).
    • Базы данных известных авторов и документов (whitelists).

    Выходные данные:

    • База данных похожих пассажей (Similar Passage DB).
    • Ranking Score для каждого идентифицированного пассажа.

    На что влияет

    • Конкретные типы контента: Наибольшее влияние оказывается на контент, который часто цитируется или повторно используется: определения, статистика, цитаты из выступлений, научные выводы, новостные сообщения, глоссарии.
    • Специфические запросы: Влияет на информационные запросы, где пользователи ищут авторитетные определения или известные высказывания по теме.
    • Конкретные ниши или тематики: Академические, новостные, юридические и YMYL-тематики, где точность цитирования и авторитетность источника имеют решающее значение.

    Когда применяется

    • Триггеры активации: Алгоритм оценки активируется, когда система обнаруживает, что определенный фрагмент текста имеет несколько вхождений (Instances) в корпусе, то есть является Similar Passage.
    • Применение в поиске: Используется при ранжировании результатов поиска, когда необходимо определить наиболее значимые пассажи, релевантные запросу, или выбрать лучший сниппет для документа.

    Пошаговый алгоритм

    Процесс А: Расчет Ranking Score (Офлайн / Индексирование)

    1. Идентификация пассажей: Система (Passage Mining Engine) анализирует корпус и идентифицирует Similar Passages и все их вхождения (Instances).
    2. Получение данных о вхождениях: Для конкретного пассажа система собирает все его вхождения и связанные с ними метаданные.
    3. Анализ характеристик и расчет индивидуальных оценок:
      • Авторитетность (A(Q), B(Q)): Проверка авторов и документов по базам авторитетов.
      • Частота (F(Q)): Подсчет количества вхождений с поправкой на клише и длину.
      • Длина (L(Q)): Оценка длины пассажа (предпочтение отдается более длинным).
      • Текстовый анализ (W(Q)): Применение языковых моделей для оценки грамматики, повторяемости слов и наличия чисел.
      • Контекст цитирования (P(Q), S(Q)): Анализ пунктуации (кавычки) и наличия Speech Acts.
      • Рассеивание (Diffusion D(Q)): Расчет Entropy для оценки разнообразия авторов (E(A)), издателей (E(P)) и расположения в документе (E(Q)).
    4. Расчет итоговой оценки (Ranking Score): Индивидуальные оценки комбинируются с использованием весов (например, взвешенная линейная комбинация или взвешенное геометрическое среднее).
    5. Сохранение: Ranking Score сохраняется в ассоциации с пассажем.

    Процесс Б: Использование в поиске (Ранжирование)

    1. Получение запроса: Пользователь вводит поисковый запрос.
    2. Определение результатов: Система находит документы и/или пассажи, релевантные запросу.
    3. Ранжирование результатов: Ranking Engine использует предварительно рассчитанные Ranking Scores пассажей для определения порядка выдачи. Документы, содержащие более значимые пассажи, могут ранжироваться выше.
    4. Выбор сниппета: Для отображаемых документов система выбирает пассаж с наивысшим Ranking Score в качестве репрезентативного сниппета.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст самого пассажа, текст, окружающий пассаж (для идентификации Speech Acts).
    • Структурные факторы: Пунктуация (наличие кавычек). Расположение пассажа внутри документа (начало, середина, конец).
    • Внешние факторы (Metadata/Authority): Автор документа, издатель документа. Данные из внешних баз авторитетности (например, списки известных авторов или авторитетных документов).
    • Ссылочные факторы (Неявные): Патент рассматривает текстуальное цитирование как форму связи между документами.

    Какие метрики используются и как они считаются

    Система вычисляет несколько индивидуальных метрик, которые затем агрегируются:

    • A(Q), B(Q): Основаны на сравнении с внешними базами данных авторитетных авторов и документов (Whitelists).
    • F(Q), L(Q): Основаны на подсчете вхождений и длине текста с применением пороговых значений (например, штрафы за слишком короткие или слишком часто встречающиеся фразы).
    • W(Q): Используются Языковые модели (Language Models) для анализа грамматической правильности и структуры текста (штрафы за повторы, избыток чисел, отсутствие глаголов).
    • S(Q), P(Q): Основаны на обнаружении специфических паттернов текста (вводные слова, кавычки).
    • Diffusion (D(Q)): Ключевая метрика, основанная на расчете Энтропии (Entropy). Энтропия рассчитывается для различных характеристик (авторы E(A), издатели E(P), расположение E(Q)). Формула энтропии: E(A) = — Σ p(x) * log2(p(x)), где p(x) — вероятность встретить автора x среди всех авторов, цитирующих пассаж.

    Методы вычислений:

    • Агрегация данных: Итоговый Ranking Score рассчитывается путем взвешивания и комбинирования индивидуальных оценок (взвешенная линейная комбинация или взвешенное геометрическое среднее).

    Выводы

    1. Цитирование как сигнал значимости: Google рассматривает повторное использование текста (цитирование) как важный сигнал для определения значимости и влиятельности контента. Система стремится идентифицировать канонические пассажи.
    2. Авторитетность источника цитирования критична: Оценки A(Q) и B(Q) показывают, что важно не только то, что вас цитируют, но и КТО вас цитирует. Цитирование со стороны признанного авторитета (автора или сайта) значительно повышает Ranking Score пассажа.
    3. Разнообразие важнее количества (Entropy): Метрика Diffusion (D(Q)), основанная на Entropy, является ключевой. Она вознаграждает разнообразие источников. 10 цитирований от 10 разных авторов дадут более высокую оценку, чем 10 цитирований от одного автора. Это механизм защиты от манипуляций и показатель широкого признания контента.
    4. Контекст цитирования имеет значение: Система анализирует, как именно представлен пассаж. Явная атрибуция через Speech Acts (S(Q)) и использование кавычек (P(Q)) повышают уверенность в том, что это значимая цитата, а не случайное совпадение или boilerplate.
    5. Качество текста оценивается языковыми моделями: Метрика W(Q) указывает на использование Language Models для фильтрации низкокачественного повторяющегося контента (спам, таблицы, текст с плохой грамматикой).

    Практика

    Best practices (это мы делаем)

    • Создание «цитируемого» контента: Фокусируйтесь на создании оригинального контента, который другие захотят цитировать: уникальные исследования, данные, четкие и авторитетные определения, экспертные мнения. Это повышает вероятность того, что ваш контент будет идентифицирован как значимый Similar Passage.
    • Построение авторитетности (E-E-A-T): Работайте над повышением авторитетности сайта и его авторов. Если ваш сайт/автор попадет в базу авторитетов (аналог A(Q)/B(Q)), это положительно скажется как на ранжировании вашего контента, так и на весе исходящих цитат с вашего сайта.
    • Стимулирование разнообразия цитирования (Diffusion): При проведении outreach и PR стремитесь к тому, чтобы ваш контент цитировали разнообразные авторитетные источники. Согласно принципу Entropy, широкое распространение среди разных авторов и сайтов максимизирует Ranking Score.
    • Использование четкой атрибуции при цитировании: Когда вы цитируете другие источники, используйте явные Speech Acts (например, «По данным исследования X…») и правильное форматирование (кавычки). Это помогает поисковым системам лучше понимать связи между документами.
    • Обеспечение качества текста: Убедитесь, что ключевые пассажи написаны грамматически правильно и имеют четкую структуру, чтобы получить высокую оценку от Language Models (W(Q)).

    Worst practices (это делать не надо)

    • Манипуляции с цитированием (Citation Stuffing): Многократное цитирование одного и того же пассажа на одном сайте или на сети сателлитов будет неэффективным из-за метрики Diffusion. Низкая Entropy авторов (E(A)) приведет к низкой оценке.
    • Использование шаблонного и низкокачественного текста: Повторяющийся boilerplate, текст с плохой грамматикой, или контент, состоящий преимущественно из чисел/таблиц, получит низкие оценки W(Q) и L(Q).
    • Игнорирование авторитетности автора: Публикация контента без четкой атрибуции автора или от имени неавторитетного автора снижает потенциальный вес контента в этой системе оценок.

    Стратегическое значение

    Этот патент подтверждает, что Google анализирует не только ссылочные связи (PageRank), но и текстуальные связи (цитирование). Он подчеркивает важность стратегии становления признанным авторитетом в своей нише, чей контент широко цитируется авторитетными и разнообразными источниками. Использование Entropy для оценки разнообразия является мощным инструментом для понимания истинного влияния контента в экосистеме.

    Практические примеры

    Сценарий: Повышение авторитетности определения термина

    1. Задача: Стать основным источником определения для нового отраслевого термина.
    2. Действия:
      • Опубликовать четкое, грамматически правильное и развернутое определение на авторитетном сайте (Высокие W(Q), L(Q), B(Q)).
      • Провести PR-кампанию, чтобы это определение процитировали ведущие отраслевые эксперты и новостные издания (Высокие A(Q)).
      • Обеспечить, чтобы цитирование происходило на разных платформах и разными авторами (Высокая Diffusion/Entropy D(Q)).
      • Убедиться, что при цитировании используется атрибуция (Высокие S(Q)).
    3. Ожидаемый результат: Google рассчитывает высокий Ranking Score для этого определения. При поиске по термину этот пассаж будет иметь приоритет при ранжировании и может быть выбран для Featured Snippet или в качестве основного сниппета сайта.

    Вопросы и ответы

    Применяется ли этот патент за пределами Google Books и Google Scholar?

    В патенте явно упоминаются книги, издатели и библиотеки, что указывает на его происхождение из контекста Google Books. Однако описанные принципы — оценка значимости текста на основе авторитетности и разнообразия источников цитирования — универсальны и применимы к любому цифровому корпусу, включая веб-страницы. Логично предположить, что аналогичные механизмы используются в веб-поиске для оценки влияния контента и ранжирования пассажей (Passage Ranking).

    Как рассчитывается Энтропия (Entropy) и почему она важна для SEO?

    Энтропия измеряет разнообразие. В контексте патента, если пассаж цитируется многими разными авторами и сайтами, энтропия будет высокой. Если цитирование идет только из одного источника, энтропия будет низкой (близкой к нулю). Для SEO это означает, что стратегия получения ссылок и цитирований должна быть направлена на максимальное разнообразие авторитетных источников, а не на количество упоминаний с одного сайта.

    Как этот патент связан с E-E-A-T?

    Патент напрямую связан с концепциями Авторитетности (Authority) и Доверия (Trust). Метрики A(Q) и B(Q) являются прямыми сигналами авторитетности, основанными на популярности автора и документа. Метрика Diffusion (D(Q)) измеряет широкое признание контента в экосистеме, что является сильным индикатором доверия и влиятельности источника.

    Речь идет о дублированном контенте?

    Нет, этот патент не о борьбе с дублированным контентом. Он описывает механизм оценки значимости контента, который по своей природе является повторяющимся (цитаты, определения). Вместо того чтобы наказывать за повторение, система пытается определить, насколько важен этот конкретный фрагмент текста, основываясь на том, кто и как его использует.

    Что такое Speech Acts и как их использовать?

    Speech Acts — это вводные или завершающие фразы, указывающие на цитирование (например, «По словам эксперта X…», «…говорится в отчете Y»). Их наличие повышает оценку S(Q). SEO-специалистам следует использовать четкую атрибуцию при цитировании источников, так как это помогает поисковым системам идентифицировать значимые пассажи и правильно интерпретировать связи между документами.

    Как система определяет авторитетных авторов (A(Q))?

    Патент предполагает использование предварительно составленной базы данных (whitelist) известных или популярных авторов, например, на основе данных из энциклопедий (упоминается Wikipedia) или сборников цитат. В контексте веб-поиска это может соответствовать сущностям авторов в Knowledge Graph, чья авторитетность определена по множеству сигналов (публикации, ссылки, профили).

    Влияет ли длина пассажа на его оценку?

    Да, влияет (метрика L(Q)). Патент указывает, что предпочтение отдается более длинным пассажам (например, более 10 слов), в то время как очень короткие пассажи (менее 5-6 слов) могут получать более низкую оценку, даже если они часто встречаются. Это помогает отфильтровать случайные совпадения или короткие шаблонные фразы.

    Как используются языковые модели (Language Models) в этом патенте?

    Языковые модели используются для расчета метрики W(Q). Они анализируют текст пассажа на предмет грамматической правильности, наличия повторяющихся слов, избытка чисел или отсутствия структурных элементов (например, глаголов). Это позволяет снизить оценку для низкокачественного повторяющегося контента, такого как спам или автоматически сгенерированный текст.

    Может ли этот механизм влиять на выбор Featured Snippets?

    Да, это весьма вероятно. Featured Snippets часто представляют собой определения, прямые ответы или ключевые выводы. Система, описанная в патенте, идеально подходит для идентификации наиболее значимых и авторитетных пассажей в корпусе. Пассаж с высоким Ranking Score, рассчитанным на основе авторитетности и разнообразия цитирования, является отличным кандидатом для Featured Snippet.

    Что важнее: получить ссылку (link) или текстуальное цитирование (citation)?

    Оба важны, но они служат разным целям. Ссылки влияют на PageRank и навигацию. Текстуальное цитирование, как описано в этом патенте, влияет на оценку значимости самого контента (Ranking Score пассажа). В идеальной SEO-стратегии следует стремиться и к получению обратных ссылок, и к тому, чтобы ваш контент цитировали как авторитетный источник.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.