Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google определяет оригинальность контента, вычисляет репутацию авторов (Author Rank) и использует это для ранжирования и краулинга

    RANKING CONTENT USING CONTENT AND CONTENT AUTHORS (Ранжирование контента с использованием контента и авторов контента)
    • US10970353B1
    • Google LLC
    • 2021-04-06
    • 2012-04-16
    2012 EEAT и качество Knowledge Graph Краулинг Патенты Google

    Система Google фрагментирует контент на части («content pieces») и хронологически отслеживает их первое появление для идентификации первоисточника. На основе оригинальности и частоты копирования контента рассчитывается репутация автора (Author Rank). Этот ранг влияет как на позиции документов автора в поиске, так и на частоту и глубину сканирования его ресурсов.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает фундаментальную проблему идентификации первоисточника контента среди множества дубликатов или частичных копий в интернете. Он направлен на то, чтобы результаты поиска содержали оригинальный контент, а не копии, уменьшая избыточность. Система позволяет оценить ценность контента и репутацию его автора, не полагаясь исключительно на явные ссылки (гиперссылки), которые могут указывать на копии, а не на оригинал.

    Что запатентовано

    Запатентована система для ранжирования документов и авторов на основе оригинальности контента. Документы фрагментируются на content pieces, и система определяет самый ранний документ, содержащий данный фрагмент, используя временные метки. Автору этого документа приписывается создание оригинала. На основе оценок оригинальности и частоты последующего копирования (влиятельности) рассчитывается рейтинг автора (Author Rank). Этот рейтинг затем используется как сигнал для ранжирования документов автора и для управления процессом сканирования (crawling).

    Как это работает

    Система функционирует следующим образом:

    • Временные метки и Фрагментация: Каждому документу присваивается время (например, дата первого сканирования). Контент стандартизируется, сжимается (например, удаляются стоп-слова) и разбивается на content pieces.
    • Идентификация оригинала: Система определяет первое хронологическое появление каждого content piece в корпусе. Этот документ считается источником.
    • Оценка (Scoring): Оригинальные фрагменты получают высокую оценку, которая может расти, если контент копируется другими (влиятельность). Копии получают нейтральную или отрицательную оценку.
    • Расчет Author Rank: Рейтинг автора агрегируется на основе оценок его оригинального контента и его поведения при копировании чужого контента.
    • Ранжирование и Краулинг: Ранг документа корректируется с учетом Author Rank автора. Кроме того, Author Rank используется для определения частоты и глубины сканирования ресурсов автора.

    Актуальность для SEO

    Высокая. Хотя этот патент является продолжением заявок, поданных начиная с 2006 года, описанные концепции являются фундаментальными для современного поиска. Идентификация первоисточника, борьба с плагиатом и оценка авторитетности автора (ключевой компонент E-E-A-T) остаются критически важными задачами для Google. Механизмы расчета репутации на основе оригинальности контента крайне актуальны.

    Важность для SEO

    Патент имеет критическое значение (90/100) для SEO-стратегии. Он описывает техническую основу для оценки авторитетности автора или сайта (Author Rank) на основе создаваемого им контента, а не только на основе ссылок. Система напрямую связывает оригинальность с повышением ранга и приоритетом сканирования. Это подчеркивает, что создание уникального, влиятельного контента является фундаментальной долгосрочной стратегией для построения авторитета.

    Детальный разбор

    Термины и определения

    Author (Автор)
    Субъект, связанный с документом. Это может быть фактический создатель, пользователь или производное от местоположения документа. Патент явно указывает, что автором может быть доменное имя (domain name) или URL.
    Author Rank (Рейтинг автора)
    Показатель репутации автора. Рассчитывается на основе оценок (scores) оригинального контента, приписываемого автору, его поведения при копировании и ранга его документов.
    Content Baseline (Базовая линия контента)
    Набор content pieces, появившихся до определенной пороговой даты. Используется для нейтрализации общеупотребительных фраз; такие фрагменты не классифицируются ни как оригинальные, ни как скопированные.
    Content Piece (Фрагмент контента)
    Часть контента документа, полученная путем фрагментации. Обычно стандартизированный и сжатый (без стоп-слов) фрагмент фиксированной длины (например, четыре слова), который не пересекает границы абзацев.
    Copy History (История копирования)
    Запись о том, как часто и когда оригинальный content piece появляется в последующих документах. Отражает скорость копирования (rate of copying) с течением времени.
    Original Content (Оригинальный контент)
    Content piece, который впервые появляется в данном документе и не встречается ни в одном более раннем документе в корпусе.
    Piece Tracker (Отслеживатель фрагментов)
    Компонент системы, который записывает каждое появление фрагмента, включая самый ранний документ и последующие вхождения.
    Score (Оценка)
    Показатель качества (figure of merit) фрагмента контента. Зависит от оригинальности и частоты последующего копирования.
    Time associated with a document (Время, связанное с документом)
    Временная метка для определения хронологии. Может быть временем создания, модификации или временем добавления документа в корпус (сканирования).

    Ключевые утверждения (Анализ Claims)

    Анализ основан на Claims 1-20, представленных в выданном патенте US10970353B1.

    Claim 1 (Независимый пункт): Описывает метод корректировки ранга документа на основе сравнения его контента с контентом из определенного источника и использования этого ранга для управления процессами поиска или сканирования.

    1. Система получает доступ к корпусу документов и определяет содержание конкретного документа.
    2. Идентифицируются первая группа документов из определенного источника (particular source) и вторая группа документов (не входящих в первую), которые включают контент из этого источника.
    3. Содержание конкретного документа сравнивается с контентом из этого источника.
    4. На основе сравнения определяется объем общего контента (amount of shared content).
    5. Ранг конкретного документа корректируется на основе этого объема общего контента.
    6. На основе скорректированного ранга конфигурируется процесс веб-сканирования (web crawling process) или процесс ранжирования результатов поиска (search result ranking process) для этого документа.

    Claim 2 (Зависимый от 1): Уточняет метод сравнения.

    Сравнение контента включает фрагментацию конкретного документа на несколько content pieces и сравнение этих фрагментов с контентом из источника.

    Claim 5 (Зависимый от 1): Уточняет конфигурацию веб-сканирования.

    Конфигурация процесса сканирования включает настройку частоты (frequency), с которой веб-краулер сканирует веб-сервер, связанный с конкретным документом, на основе скорректированного ранга.

    Интерпретация Claims и Связь с Описанием: Формула изобретения защищает механизм, при котором идентификация общего контента влияет на ранг и частоту сканирования. В детальном описании патента (Description) раскрывается более широкая концепция, где этот механизм используется для идентификации оригинальности, расчета Author Rank на основе создания оригинального контента и оценки поведения при копировании (агрегация vs плагиат). Описание и формула вместе показывают систему, использующую анализ происхождения контента для оценки репутации.

    Где и как применяется

    Изобретение интегрировано в несколько этапов поисковой архитектуры, связывая анализ контента с ранжированием и управлением сканированием.

    INDEXING – Индексирование и извлечение признаков
    Это основной этап применения логики патента. Во время индексации система выполняет:

    • Присвоение временных меток для установления хронологии.
    • Идентификация автора (например, по URL/домену).
    • Обработка контента: Стандартизация, удаление стоп-слов (модуль Document Fragmentation).
    • Фрагментация: Разбиение на content pieces.
    • Отслеживание оригинальности (Piece Tracker): Сравнение фрагментов с репозиторием для определения первого появления и записи последующих (Copy History).
    • Расчет метрик: Вычисление Scores для фрагментов, расчет Author Rank (модуль Author Ranker).
    • Классификация: Анализ Copy History для классификации типа контента (например, новости, блог) (модуль Doc/Author Classifier).

    CRAWLING – Сканирование и Сбор данных
    Система использует результаты индексирования для оптимизации сканирования. Author Rank используется для управления ресурсами (краулинговым бюджетом). Частота (frequency) и глубина (depth) сканирования ресурсов автора могут основываться на его рейтинге.

    RANKING – Ранжирование / RERANKING – Переранжирование
    Рассчитанные метрики используются как сигналы ранжирования. Ранг документа корректируется на основе оценок оригинальности его контента и Author Rank автора. Патент также описывает, что для новых документов ранг может изначально основываться на ранге автора, а затем этот эффект может затухать со временем (rank decay).

    На что влияет

    • Конкретные типы контента: Влияет на весь текстовый контент, но особенно критично для новостей, блогов, аналитических статей и любого контента, подверженного копированию или синдикации.
    • Конкретные ниши: Сильное влияние в конкурентных нишах, где часто встречается плагиат или рерайтинг, а также в YMYL-тематиках, где авторитетность источника критична.
    • Авторы и Домены: Положительно влияет на источники оригинального контента и отрицательно — на сайты, занимающиеся плагиатом. Патент явно указывает, что «автором» может быть домен или URL.

    Когда применяется

    • Во время индексации: Алгоритм применяется при обработке каждого нового или обновленного документа для определения оригинальности его фрагментов.
    • Во время ранжирования: Метрики Author Rank и оригинальности применяются как сигналы ранжирования при обработке запросов.
    • При планировании сканирования: Author Rank используется для определения приоритетов и бюджета сканирования.

    Пошаговый алгоритм

    Процесс А: Анализ Оригинальности и Ранжирование Документа (на основе FIG. 3)

    1. Идентификация корпуса документов.
    2. Фрагментация документов: Обработка документа: стандартизация контента, удаление стоп-слов, разбиение на content pieces фиксированной длины (например, 4 слова), не пересекающие границы параграфов.
    3. Идентификация оригинальности: Для каждого фрагмента определяется, появлялся ли он в более ранних документах корпуса (по временной метке). Если нет — фрагмент помечается как оригинальный.
    4. Скоринг фрагментов: Оценка каждого фрагмента. Оценка зависит от оригинальности (оригинал получает высокий скор) и от количества последующих копий этого фрагмента (популярность/влиятельность).
    5. Ранжирование документа (Варианты):
      • На основе агрегированной оценки оригинальных фрагментов в документе.
      • На основе количества источников, из которых скопирован контент (поощрение качественной агрегации).
      • На основе пропорции контента, скопированного из одного источника (пессимизация плагиата).

    Процесс Б: Вычисление и Использование Ранга Автора (на основе FIG. 5)

    1. Идентификация и Скоринг: Выполнение шагов Процесса А.
    2. Вычисление Ранга Автора (Варианты):
      • На основе агрегированной оценки оригинальных фрагментов, атрибутированных автору во всех его документах.
      • На основе поведения автора при копировании (количество источников, пропорция скопированного).
      • На основе существующих рангов документов автора.
    3. Применение Ранга Автора: Ранжирование документа (из Процесса А) корректируется на основе Author Rank его автора.

    Процесс В: Классификация на основе Истории Копирования (на основе FIG. 6)

    1. Отслеживание копий: Идентификация первого появления фрагмента и всех последующих его появлений.
    2. Определение истории копирования: Анализ скорости копирования (rate of copying) фрагмента во времени.
    3. Классификация: Сравнение Copy History с предопределенными паттернами (например, быстрое распространение и затухание — Новости; постепенный рост и спад — Блоги; постоянное копирование — Реклама).
    4. Применение классификации: Классификация документа-оригинала и автора на основе паттерна копирования.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текстовое содержание документа, используемое для создания content pieces.
    • Временные факторы: Критически важны. Time associated with a document (время создания, модификации или сканирования) используется для установления хронологии и определения оригинальности.
    • Технические факторы: URL и доменное имя. Могут использоваться для идентификации Автора.
    • Структурные факторы: Границы абзацев (например, HTML-теги <P>, <BR>, <H1>). Используются для ограничения фрагментации — content piece не должен пересекать эти границы.
    • Ссылочные факторы (Косвенно): Упоминается, что ранг документа (который может быть основан на ссылках) может влиять на расчет Author Rank.

    Какие метрики используются и как они считаются

    • Score (Оценка фрагмента): Метрика ценности фрагмента. Рассчитывается на основе оригинальности (да/нет) и количества последующих копий другими авторами (влиятельность).
    • Author Rank (Рейтинг автора): Агрегированная метрика репутации. Рассчитывается путем комбинации Scores оригинальных фрагментов автора. Корректируется с учетом доли скопированного контента. Упоминается возможность затухания (decay) влияния этого ранга со временем, а также снижение ранга автора, если он не создает новый контент.
    • Proportion of copied content (Доля скопированного контента): Метрика для пессимизации документов, копирующих контент из одного источника.
    • Number of sources copied (Количество источников копирования): Метрика для идентификации агрегаторов. Копирование из многих источников может оцениваться лучше, чем из одного.
    • Rate of Copying (Скорость копирования): Анализ Copy History. Измеряет количество копий за интервал времени для классификации контента.
    • Методы анализа текста:
      • Перевод: В патенте упоминается возможность перевода фрагментов на общий базовый язык (common base language) для сравнения оригинальности разноязычного контента.

    Выводы

    1. Оригинальность как измеримый сигнал: Google использует систему для хронологического отслеживания фрагментов контента (content pieces) и определения первоисточника на основе временных меток. Оригинальность является конкретным, измеримым сигналом ранжирования.
    2. Критичность времени индексации: Поскольку оригинальность часто определяется по времени первого сканирования, скорость индексации контента критически важна для фиксации статуса первоисточника.
    3. Author Rank — репутация за оригинальность и влияние: Author Rank является метрикой репутации, основанной не только на создании оригинального контента, но и на его влиятельности (как часто его копируют другие). Это техническая реализация оценки авторитетности в E-E-A-T.
    4. Гибкое определение Авторства: «Автор» может быть интерпретирован как конкретный человек, домен сайта или URL, что позволяет применять концепцию репутации к различным типам сущностей.
    5. Наследование доверия для нового контента: Высокий Author Rank дает преимущество новым документам автора, позволяя им ранжироваться до накопления собственных сигналов. Этот эффект может ослабевать со временем (rank decay).
    6. Дифференциация копирования: Система различает плагиат (копирование из одного источника) и агрегацию/цитирование (копирование из многих источников), наказывая первое и потенциально вознаграждая второе.
    7. Влияние авторитета на краулинг: Author Rank напрямую используется для управления краулинговым бюджетом. Авторитетные источники сканируются чаще и глубже.

    Практика

    Best practices (это мы делаем)

    • Приоритет оригинального контента: Стратегия должна фокусироваться на создании уникального контента и исследований. Быть первым источником информации в нише напрямую способствует росту Author Rank (как автора, так и домена).
    • Обеспечение быстрой индексации (Time-to-Index): Критически важно минимизировать время между публикацией и индексацией (используя Sitemaps, Indexing API), чтобы система зафиксировала вашу временную метку раньше, чем у потенциальных копий.
    • Развитие авторитетности авторов (E-E-A-T): Необходимо четко атрибутировать контент авторам или бренду. Последовательное создание оригинального контента формирует высокий Author Rank, что дает преимущество всем документам этого автора.
    • Создание влиятельного контента: Фокусируйтесь на контенте, который стимулирует цитирование (копирование фрагментов). Популярность оригинального контента повышает его оценку (Score) и положительно влияет на Author Rank.
    • Стратегическая агрегация: При использовании чужого контента цитируйте разнообразные источники и добавляйте значительную собственную ценность. Это позволяет избежать пессимизации за плагиат и может оцениваться положительно.

    Worst practices (это делать не надо)

    • Плагиат, скрейпинг и рерайтинг: Система фрагментации и сравнения content pieces направлена на выявление неоригинального контента. Это негативно сказывается на оценках документа и Author Rank.
    • Копирование из одного источника: Копирование значительной части контента из одного источника будет расценено как плагиат и приведет к пессимизации.
    • Неконтролируемая синдикация: Предоставление контента партнерам без гарантий того, что ваша версия будет проиндексирована первой (или без использования rel=canonical), может привести к потере статуса первоисточника.
    • Медленная работа сайта и проблемы с индексацией: Задержки в сканировании и индексации увеличивают риск того, что скопированный контент на другом сайте будет признан оригиналом.
    • Анонимный контент: Отсутствие четкой атрибуции автора усложняет для Google присвоение Author Rank, что лишает контент потенциального бустинга за репутацию автора.

    Стратегическое значение

    Патент подтверждает, что E-E-A-T имеет под собой измеримую техническую основу. Он демонстрирует механизмы оценки репутации (Author Rank), основанные на происхождении и влиятельности контента, а не только на ссылках. Долгосрочная SEO-стратегия должна быть направлена на построение репутации оригинального создателя. Этот авторитет становится активом, который влияет как на ранжирование всего контента автора/сайта, так и на эффективность его сканирования.

    Практические примеры

    Сценарий 1: Идентификация первоисточника и влияние на Author Rank

    1. Публикация: Блогер публикует оригинальное исследование рынка в 10:00.
    2. Индексация: Google сканирует и индексирует статью в 10:10. Система определяет content pieces как оригинальные. Author Rank блогера увеличивается.
    3. Распространение: Крупное СМИ цитирует ключевые данные из исследования в своей статье в 12:00.
    4. Анализ копии: Google индексирует статью СМИ в 12:05. Система идентифицирует цитаты как копии контента блогера.
    5. Результат: Оценка (Score) оригинальных фрагментов блогера увеличивается за счет копирования авторитетным СМИ. Author Rank блогера растет еще больше. В поиске по теме исследования оригинал блогера получает преимущество.

    Сценарий 2: Управление краулинговым бюджетом

    1. Ситуация: Есть два сайта: Сайт А постоянно публикует оригинальные новости (высокий Author Rank). Сайт Б в основном перепечатывает чужие новости (низкий Author Rank).
    2. Применение системы: Google использует Author Rank для распределения ресурсов сканирования.
    3. Результат: Сайт А сканируется с высокой частотой и глубиной, его новости попадают в индекс мгновенно. Сайт Б сканируется реже, так как система не ожидает найти там значительное количество оригинального контента.

    Вопросы и ответы

    Как система определяет Автора документа? Обязательно ли это человек?

    Нет, это не обязательно человек. Патент предлагает гибкое определение: это может быть фактический создатель, имя пользователя, или, что важно для SEO, идентификатор на основе URL. Например, автором может считаться доменное имя (domain.com), субдомен или конкретный путь. Система может адаптировать уровень специфичности в зависимости от структуры сайта.

    Что такое «Content Piece» и почему анализ происходит на этом уровне?

    Content Piece — это небольшой фрагмент текста (например, 4 слова подряд после удаления стоп-слов). Анализ на этом уровне позволяет системе точно отслеживать происхождение контента и идентифицировать первоисточник даже в случаях частичного копирования, цитирования или рерайтинга, когда документы не являются полными дубликатами.

    Что произойдет, если Google проиндексирует копию раньше оригинала?

    Это критическая проблема. Система определяет оригинальность на основе Time associated with a document. Если используется время первого сканирования (как описано в одном из вариантов), то копия, проиндексированная первой, будет считаться оригиналом. Это подчеркивает исключительную важность обеспечения максимально быстрой индексации оригинального контента.

    Как этот патент связан с E-E-A-T?

    Патент предоставляет конкретный механизм для алгоритмической оценки Авторитетности (Authority) и Экспертизы (Expertise). Author Rank является измеримой метрикой репутации, основанной на доказанной способности автора создавать оригинальный (Экспертиза) и влиятельный (Авторитетность) контент, который ценится другими (копируется/цитируется).

    Помогает ли моему сайту, если другие копируют мой контент?

    Да, при условии, что ваш сайт идентифицирован как первоисточник. В патенте указано, что оценка (Score) оригинального фрагмента увеличивается, если он впоследствии копируется другими авторами. Это свидетельствует о влиятельности контента и положительно сказывается на вашем Author Rank.

    Как система отличает цитирование или агрегацию от плагиата?

    Система анализирует два ключевых параметра: долю скопированного контента (proportion of copied content) и количество источников копирования (number of sources). Копирование большей части контента из одного источника (плагиат) пессимизируется. Копирование небольших фрагментов из множества источников (агрегация/цитирование) может оцениваться нейтрально или положительно.

    Влияет ли Author Rank на все документы автора одинаково?

    Нет. В патенте упоминается механизм затухания ранга (rank decay). Author Rank оказывает наибольшее влияние на новые документы, помогая им ранжироваться до того, как они получат собственные сигналы. Со временем влияние ранга автора на конкретный документ может уменьшаться.

    Влияет ли этот механизм на краулинговый бюджет?

    Да, напрямую. В патенте четко указано, что частота (frequency) и глубина (depth) сканирования документов автора могут основываться на его Author Rank. Авторы с высоким рангом получают приоритет при сканировании, что ускоряет индексацию.

    Что такое «Copy History» и как она используется?

    Copy History — это анализ скорости и паттерна распространения контента во времени. Она используется для классификации типа контента. Например, быстрое распространение и затухание классифицируется как новости; постепенный рост популярности — как блог или аналитика. Эта классификация помогает системе понять контекст контента.

    Может ли система определить оригинальность при переводе контента?

    Да. В патенте упоминается возможность перевода content pieces на общий базовый язык (common base language). Это позволяет сравнивать фрагменты, написанные на разных языках, и определять оригинальность независимо от языка публикации, выявляя кросс-языковое копирование.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.