Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google определяет первоисточник контента и классифицирует его на основе скорости распространения (Copy History)

    CLASSIFYING CONTENT (Классификация контента)
    • US8577866B1
    • Google LLC
    • 2013-11-05
    • 2006-12-07
    2006 EEAT и качество Антиспам Патенты Google Свежесть контента

    Google использует систему для идентификации оригинального контента путем фиксации времени первого появления фрагментов текста (Content Pieces) в индексе. Система отслеживает, как быстро и широко этот контент копируется другими авторами (Copy History). Анализируя паттерны распространения, Google классифицирует контент (например, как Новость, Блог или Рекламу) и определяет репутацию автора или сайта-источника.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему идентификации оригинального контента среди множества дубликатов и копий в интернете. Он направлен на снижение видимости повторяющегося контента в поисковой выдаче и повышение позиций первоисточников. Также патент предлагает механизм для определения типа контента (например, новость, блог, реклама) не по его содержанию, а по тому, как он распространяется (копируется) в сети.

    Что запатентовано

    Запатентована система классификации контента и авторов на основе анализа истории копирования (Copy History). Система разбивает документы на фрагменты (Content Pieces) и определяет самый ранний документ, содержащий данный фрагмент, считая его оригиналом. Затем система отслеживает скорость и паттерн распространения этого фрагмента в последующих документах других авторов. Сравнивая этот паттерн с эталонными моделями, система присваивает классификацию (например, «Новость» или «Блог») исходному документу и его автору.

    Как это работает

    Система работает в несколько этапов:

    • Фрагментация: Документы стандартизируются (например, удаляются стоп-слова) и разбиваются на последовательные фрагменты фиксированной длины (Content Pieces).
    • Идентификация оригинала: Для каждого Content Piece определяется документ с самой ранней временной меткой (Time Association). Автор этого документа считается оригинальным автором фрагмента.
    • Отслеживание копий: Система фиксирует все последующие появления этого фрагмента в документах других авторов.
    • Анализ Copy History: Определяется скорость копирования (Rate of Copying) — количество копий в единицу времени.
    • Классификация: Паттерн скорости копирования сравнивается с эталонами. Быстрый всплеск и затухание может классифицироваться как «Новость», плавная кривая — как «Блог», а постоянное копирование — как «Реклама».

    Хотя этот патент сфокусирован на классификации, в тексте также подробно описываются механизмы ранжирования авторов и документов на основе оригинальности и количества копий их контента.

    Актуальность для SEO

    Высокая. Идентификация первоисточников, борьба с дублированным контентом и понимание авторитетности авторов (E-E-A-T) являются критически важными задачами для Google. Механизмы определения оригинальности и репутации авторов, описанные в этом патенте и связанных с ним заявках, лежат в основе современных систем оценки качества контента и управления краулинговым бюджетом.

    Важность для SEO

    Патент имеет критическое значение (9/10). Он описывает конкретные механизмы, позволяющие Google программно определить, кто первым опубликовал контент и насколько виральным он стал. Это напрямую влияет на ранжирование: оригинальный контент получает преимущество, а копии пессимизируются. Кроме того, система строит репутацию автора (Author Rank) на основе его истории публикаций, что может давать буст новым материалам этого автора. Понимание паттернов распространения помогает оптимизировать стратегию публикации и дистрибуции контента.

    Детальный разбор

    Термины и определения

    Author (Автор)
    Сущность, связанная с документом. Может быть фактическим создателем, именем пользователя или производным от местоположения документа (например, доменное имя или часть URL). Один автор может быть связан с несколькими документами.
    Content Piece (Фрагмент контента)
    Часть контента документа, полученная путем фрагментации. Обычно это последовательность фиксированного числа слов (например, 4 слова) после стандартизации и удаления стоп-слов.
    Copy History (История копирования)
    Запись о том, как часто и когда оригинальный Content Piece появляется в последующих документах. Отражает скорость копирования (Rate of Copying) с течением времени.
    Corpus of Documents (Корпус документов)
    Коллекция документов (например, веб-индекс).
    Original Content (Оригинальный контент)
    Content Piece, впервые появившийся в определенном документе. Определяется по самой ранней временной метке.
    Rate of Copying (Скорость копирования)
    Количество документов, в которых появляется Content Piece за определенный интервал времени.
    Time Association (Временная метка)
    Время, связанное с документом. Может быть временем публикации, создания или временем первого обнаружения документа (например, краулером).

    Ключевые утверждения (Анализ Claims)

    Патент US8577866B1 фокусируется именно на классификации контента на основе истории его распространения, хотя в описании также затрагиваются механизмы ранжирования, подробно раскрытые в связанных патентах.

    Claim 1 (Независимый пункт): Описывает метод классификации документа.

    1. Документ (имеющий дату создания и автора) фрагментируется на Content Pieces (последовательности слов).
    2. Эти фрагменты сравниваются с репозиторием фрагментов из первого корпуса документов (более ранних и от других авторов).
    3. Идентифицируются оригинальные Content Pieces — те, которые не найдены в первом корпусе.
    4. Определяется скорость появления (Rate of Occurrence) этих оригинальных фрагментов во втором корпусе документов (более поздних и от других авторов). Это делается путем подсчета количества документов, содержащих фрагмент, в рамках определенных временных интервалов.
    5. Полученная скорость появления во времени (Copy History) сравнивается с предопределенными паттернами копирования (Predefined Copying Patterns), каждый из которых связан с определенной классификацией.
    6. Выбирается классификация, чей паттерн наиболее соответствует наблюдаемой истории копирования.
    7. Эта классификация ассоциируется с исходным документом.

    Claim 3 (Зависимый): Уточняет типы классификации документа: Новость (News), Блог (Blog) или Реклама (Advertisement).

    Claim 4 (Зависимый): Описывает применение того же механизма для классификации автора документа на основе скорости распространения его оригинального контента.

    Claim 5 (Зависимый): Уточняет типы классификации автора: Репортер (Reporter), Блогер (Blogger) или Рекламодатель (Advertiser).

    Где и как применяется

    Изобретение затрагивает несколько ключевых этапов поиска, от сканирования до ранжирования.

    CRAWLING – Сканирование и Сбор данных
    Система напрямую влияет на управление краулингом. В патенте указано, что краулер (Web Crawler) может руководствоваться рангом авторов (Author Rank) и их классификацией. Документы от высокорейтинговых авторов или авторов с определенной классификацией (например, «News») могут сканироваться чаще и глубже.

    INDEXING – Индексирование и извлечение признаков
    Основная работа происходит на этом этапе. При обработке документа система выполняет:

    • Стандартизацию и фрагментацию контента (Document Fragmentation).
    • Сравнение Content Pieces с существующим индексом для определения оригинальности.
    • Фиксацию временной метки и авторства.
    • Обновление Copy History для ранее существовавших фрагментов.
    • Вычисление и сохранение метрик оригинальности для документа и автора.

    RANKING / RERANKING – Ранжирование и Переранжирование
    Рассчитанные метрики используются для ранжирования:

    • Ранжирование Документов: Документы могут ранжироваться на основе количества оригинального контента и того, насколько он был скопирован. Также упоминается возможность ранжирования документа на основе ранга его автора (Author Rank), особенно для свежих документов.
    • Классификация: Классификация документа (News, Blog, Ad), определенная на основе Copy History, может влиять на его ранжирование или определять, в каких вертикалях поиска он будет показан.

    Входные данные:

    • Новый документ с его контентом.
    • Временная метка документа (Time Association).
    • Идентификатор автора документа (Author).
    • Репозиторий существующих Content Pieces с их историей.

    Выходные данные:

    • Идентификация оригинальных Content Pieces в новом документе.
    • Обновленная Copy History для скопированных фрагментов.
    • Метрики ранжирования для документа и автора.
    • Классификация документа и автора.

    На что влияет

    • Конкретные типы контента: Наибольшее влияние оказывается на текстовый контент, который легко копируется — статьи, новости, посты в блогах, описания товаров.
    • Специфические запросы: Влияет на информационные и новостные запросы, где важна оригинальность и своевременность.
    • Конкретные ниши: Критично для новостных изданий, контентных проектов, блогов и любых ниш, подверженных копированию и синдикации контента.

    Когда применяется

    • Триггеры активации: Механизм активируется каждый раз, когда новый документ добавляется в корпус или обновляется существующий.
    • Временные рамки: Определение оригинальности происходит в момент индексации. Анализ Copy History и пересчет рангов/классификации происходит периодически по мере появления новых копий в индексе.
    • Особые случаи (Content Baseline): Патент упоминает возможность установления «базового уровня контента» (Content Baseline) по пороговой дате. Фрагменты, появившиеся до этой даты, считаются общеизвестными и не считаются ни оригинальными, ни скопированными.

    Пошаговый алгоритм

    Процесс А: Обработка нового документа и определение оригинальности

    1. Идентификация корпуса: Определение коллекции документов для анализа.
    2. Стандартизация контента: Извлечение текста из нового документа, удаление нетекстовых элементов, стандартизация формата и, возможно, удаление стоп-слов.
    3. Фрагментация: Разбиение стандартизированного контента на Content Pieces (например, последовательности из N слов).
    4. Определение авторства и времени: Ассоциация документа с автором и временной меткой.
    5. Сравнение с репозиторием: Каждый Content Piece сравнивается с репозиторием известных фрагментов из более ранних документов.
    6. Идентификация оригинальности:
      • Если фрагмент новый: Он помечается как оригинальный, записывается в репозиторий с указанием текущего документа и автора как источника.
      • Если фрагмент уже существует: Он помечается как скопированный. В репозитории обновляется запись для этого фрагмента, добавляется информация о новом вхождении (копии).
    7. Скоринг фрагментов: Присвоение оценок фрагментам. Оригинальные фрагменты получают более высокий балл. Балл может увеличиваться по мере того, как фрагмент копируется другими авторами.
    8. Ранжирование документа и автора: Пересчет ранга документа и автора на основе оценок их Content Pieces (детально описано в тексте патента, но не является основным объектом Claims).

    Процесс Б: Классификация контента на основе Copy History (Фокус патента)

    1. Определение Copy History: Для оригинального Content Piece анализируется история его появления в последующих документах. Рассчитывается Rate of Copying — количество копий за интервалы времени (часы, дни, недели).
    2. Сравнение с паттернами: Полученный временной график скорости копирования сравнивается с предопределенными паттернами:
      • Паттерн «Новость» (Syndication): Быстрый взлет скорости копирования сразу после публикации и быстрое затухание.
      • Паттерн «Блог»: Постепенный рост скорости копирования, достижение пика и постепенное снижение (колоколообразная кривая).
      • Паттерн «Реклама»: Быстрый взлет и стабильно высокая скорость копирования в течение длительного времени.
    3. Классификация документа: Документ, содержащий оригинальный фрагмент, классифицируется на основе наиболее подходящего паттерна (например, «Источник новостей»).
    4. Классификация автора: Автор документа классифицируется аналогичным образом (например, «Репортер», «Лидер мнений блога»).

    Какие данные и как использует

    Данные на входе

    Патент фокусируется на структурном и временном анализе контента и не зависит от традиционных факторов ранжирования, таких как ключевые слова или ссылки.

    • Контентные факторы: Текст документа используется для генерации Content Pieces. Используются последовательности слов и их порядок.
    • Временные факторы: Критически важный фактор. Time Association (время публикации или обнаружения) используется для определения первоисточника и построения Copy History.
    • Технические/Пользовательские факторы (для определения Авторства): Система должна идентифицировать автора. Это может быть информация из метаданных документа, данные учетной записи или, что важно для SEO, данные о местоположении документа (URL, доменное имя).

    Какие метрики используются и как они считаются

    • Оценка Content Piece (Score): Метрика, присваиваемая фрагменту. Зависит от того, является ли он оригинальным, и от количества последующих документов (или авторов), в которых он появляется.
    • Author Rank (Ранг Автора): Агрегированная метрика репутации автора. Рассчитывается на основе:
      • Суммарной оценки Content Pieces, атрибутированных автору.
      • Количества источников, которые копирует автор.
      • Пропорции скопированного контента у автора.
      • Ранга документов автора.
    • Document Rank (Ранг Документа): Метрика документа. Рассчитывается на основе:
      • Суммарной оценки Content Pieces в документе.
      • Количества источников скопированного контента в документе.
      • Пропорции скопированного контента.
      • Ранга автора документа (Author Rank).
    • Rate of Copying (Скорость копирования): Количество копий Content Piece за единицу времени. Используется для классификации.
    • Rank Decay (Затухание ранга): Упоминается механизм, при котором влияние Author Rank на ранг свежего документа уменьшается со временем, позволяя документу ранжироваться на основе собственных характеристик.

    Выводы

    1. Программное определение первоисточника: Google обладает механизмом для точного определения оригинального контента на уровне текстовых фрагментов (Content Pieces), используя временные метки. Быть первым — критически важно.
    2. Репутация автора/сайта основана на оригинальности и влиянии: Система строит Author Rank (который может применяться как к человеку, так и к домену), основываясь на том, сколько оригинального контента производит автор и насколько часто этот контент копируется другими авторами.
    3. Бустинг для авторитетных авторов: Новые документы от авторов с высоким Author Rank могут получать начальное преимущество в ранжировании (Initial Boost), основанное исключительно на репутации автора.
    4. Классификация по поведению распространения: Патент описывает уникальный подход к классификации контента не по его содержанию, а по его Copy History. То, как контент распространяется, определяет его тип (Новость, Блог, Реклама).
    5. Влияние на краулинг: Ранг и классификация автора напрямую влияют на частоту и глубину сканирования его ресурсов (управление Crawl Budget).
    6. Пессимизация дубликатов: Документы, состоящие преимущественно из скопированного контента, особенно если он скопирован из одного источника, будут ранжироваться ниже. Агрегаторы, копирующие из множества источников, могут оцениваться выше, чем полные дубликаты.

    Практика

    Best practices (это мы делаем)

    • Максимально быстрая публикация и индексация: Поскольку оригинальность определяется по времени обнаружения контента, критически важно обеспечить быстрое сканирование и индексацию нового контента (использование XML Sitemaps, Indexing API).
    • Построение репутации автора/сайта (Author Rank): Систематически публиковать оригинальный и полезный контент, который стимулирует цитирование и распространение другими авторами. Это повышает Author Rank и улучшает управление краулинговым бюджетом.
    • Стратегия дистрибуции контента (Copy History): Понимать целевые паттерны распространения. Для новостного контента необходима быстрая и широкая синдикация. Для «вечнозеленого» контента или блогов — стимулировать постепенное распространение и цитирование для формирования паттерна «Блог Лидера».
    • Корректная атрибуция при цитировании: При использовании чужого контента важно агрегировать информацию из разных источников и добавлять существенную ценность, а не копировать большие фрагменты из одного источника.
    • Техническая оптимизация временных меток: Убедиться, что сервер корректно отдает заголовки Last-Modified и что временные метки в разметке (например, Schema.org datePublished) точны, чтобы помочь Google установить корректное время публикации.

    Worst practices (это делать не надо)

    • Копипаст и полный рерайт: Создание контента путем копирования или поверхностного рерайта из одного или нескольких источников. Система легко идентифицирует такие документы как неоригинальные и понижает ранг документа и автора.
    • Медленная индексация: Задержки в попадании контента в индекс Google увеличивают риск того, что кто-то другой опубликует схожий контент раньше и будет признан первоисточником.
    • Искусственная накрутка распространения (Спам): Попытки симулировать паттерн виральности путем массового размещения копий на низкокачественных сайтах или сателлитах. Если система определит, что копии размещены тем же автором или паттерн соответствует «Рекламе» или спаму, это может привести к пессимизации.
    • Игнорирование сигналов авторства: Отсутствие четких сигналов, позволяющих связать контент с конкретным автором или доменом, затрудняет накопление Author Rank.

    Стратегическое значение

    Этот патент подтверждает стратегический приоритет Google на поощрение создания оригинального контента и построение систем репутации. Он демонстрирует, что Google измеряет не только релевантность контента, но и его происхождение и влияние. Долгосрочная SEO-стратегия должна фокусироваться на том, чтобы быть первоисточником авторитетной информации в своей нише. Накопление Author Rank (репутации домена или конкретных авторов) становится ключевым активом, который обеспечивает преимущество в ранжировании свежего контента и оптимизирует краулинг.

    Практические примеры

    Сценарий 1: Оптимизация краулинга для новостного сайта

    1. Цель: Увеличить частоту сканирования (Crawl Budget).
    2. Действие: Новостной сайт фокусируется на публикации эксклюзивных новостей раньше конкурентов и обеспечивает мгновенную индексацию.
    3. Механизм (по патенту): Система идентифицирует сайт как первоисточник (Original Content). Конкуренты и агрегаторы быстро копируют новость, формируя паттерн Copy History типа «Новость».
    4. Результат: Система классифицирует сайт как «News Source» и повышает его Author Rank. Краулер (Web Crawler) начинает посещать сайт чаще, руководствуясь этой классификацией и рангом.

    Сценарий 2: Использование Author Rank для запуска нового блога

    1. Цель: Быстро получить трафик на новые статьи.
    2. Действие: Привлечь к написанию статей автора, который уже имеет высокую репутацию благодаря публикациям на других авторитетных площадках. Обеспечить четкую атрибуцию авторства.
    3. Механизм (по патенту): Google идентифицирует автора и применяет его существующий высокий Author Rank к новому документу.
    4. Результат: Новая статья получает начальный буст в ранжировании, даже до того, как она наберет собственные сигналы (ссылки, цитирования). Со временем влияние Author Rank снижается (Rank Decay), но статья уже занимает высокие позиции.

    Вопросы и ответы

    Как Google определяет автора документа согласно патенту?

    Определение автора гибкое. Это может быть фактический создатель контента или имя пользователя. Однако, если эту информацию нельзя установить, автор может быть определен по местоположению документа. Для веб-страниц это часто означает доменное имя или часть URL (например, subdomain.domain.com или domain.com/path/). Это важно, так как репутация (Author Rank) может накапливаться как для отдельного человека, так и для всего сайта.

    Что такое «Content Piece» и почему он важен?

    Content Piece — это стандартизированный фрагмент текста, обычно последовательность из нескольких слов (например, 4-5 слов) после удаления стоп-слов. Google анализирует оригинальность не на уровне всего документа, а на уровне этих фрагментов. Это позволяет точно отслеживать происхождение и копирование даже небольших частей текста, делая поверхностный рерайт неэффективным.

    Как система отличает полезное цитирование от копипаста?

    В тексте патента описано несколько метрик для ранжирования. Документы пессимизируются, если они копируют большую пропорцию контента из одного источника (Копипаст). В то же время, документы, которые копируют небольшие фрагменты из множества разных источников (Агрегация/Цитирование), могут ранжироваться выше. Ключ к успеху — добавление существенной оригинальной ценности.

    Что дает высокий «Author Rank» для SEO?

    Высокий Author Rank дает два ключевых преимущества. Во-первых, новые документы этого автора могут получать начальный буст в ранжировании, основанный на его репутации. Во-вторых, высокий ранг и правильная классификация автора (например, «News Source») сигнализируют краулеру о необходимости более частого и глубокого сканирования ресурсов этого автора, что улучшает управление Crawl Budget.

    Как патент предлагает классифицировать контент (Новости vs Блог)?

    Классификация основана на анализе Copy History — скорости распространения контента. Если контент копируется очень быстро сразу после публикации, а затем копирование прекращается (резкий пик), это классифицируется как «Новость» или синдицированный контент. Если контент распространяется постепенно, достигая пика через некоторое время (колоколообразная кривая), это классифицируется как «Блог».

    Что произойдет, если мой оригинальный контент скопируют?

    Если система корректно определила вас как первоисточник, то копирование вашего контента другими авторами является позитивным сигналом. Это увеличивает оценку (Score) ваших оригинальных Content Pieces и положительно влияет на ваш Author Rank и ранг исходного документа. Система стремится ранжировать оригинал выше копий.

    Что делать, если Google неправильно определил первоисточник?

    Это указывает на проблемы с индексацией или временными метками. Необходимо убедиться, что ваш контент индексируется максимально быстро после публикации (используя Indexing API, Sitemaps). Также проверьте корректность временных меток на сайте (datePublished в Schema.org) и заголовков сервера (Last-Modified). Если проблема системная, нужно работать над повышением общего Author Rank, чтобы краулер посещал ваш сайт приоритетно.

    Влияет ли этот патент на эффективность рерайта?

    Да, он значительно снижает эффективность поверхностного рерайта. Поскольку анализ проводится на уровне коротких последовательностей слов (Content Pieces), простая замена слов на синонимы может быть недостаточной для признания контента оригинальным. Система ищет статистически значимые новые комбинации слов.

    Что такое «Rank Decay» в контексте этого патента?

    Rank Decay относится к механизму, при котором начальный буст, данный новому документу на основе высокого Author Rank его автора, со временем уменьшается. Это позволяет документу в долгосрочной перспективе ранжироваться на основе его собственных метрик (например, ссылок, поведенческих факторов, собственного влияния), а не только на репутации автора.

    Может ли система работать с нетекстовым контентом?

    Хотя в патенте основное внимание уделяется текстовому контенту и фрагментации слов, упоминается, что описанные методы применимы и к другим типам контента, таким как изображения, аудио или мультимедиа. Для этого потребуются соответствующие методы фрагментации и сравнения (например, цифровые отпечатки для изображений).

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.