
Google использует систему для идентификации оригинального контента и повышения авторитета его создателей. Система разбивает документы на фрагменты (content pieces) и отслеживает их первое появление. Авторы (включая домены) ранжируются на основе количества созданного ими оригинального контента и частоты его копирования другими. Ранг автора затем используется для повышения в выдаче документов этого автора, особенно свежих публикаций.
Патент решает проблему идентификации оригинального контента среди множества дубликатов и копий в поисковой выдаче. Цель — снизить видимость повторяющегося контента и повысить в ранжировании оригинальные источники. Кроме того, патент предлагает механизм оценки репутации авторов (или источников) на основе их способности создавать оригинальный контент, чтобы использовать эту репутацию как сигнал ранжирования для их будущих публикаций.
Запатентована система идентификации оригинальности контента и ранжирования авторов. Система фрагментирует документы на content pieces и использует временные метки для определения первого появления каждого фрагмента. Документы и их авторы (которые могут быть доменами или URL) получают оценку (score) на основе оригинальности их контента и того, насколько часто этот контент копируется другими. Итоговый Author Rank используется как фактор ранжирования документов.
Система работает в несколько этапов:
content pieces), часто с удалением стоп-слов.score), которая может увеличиваться, если этот фрагмент часто копируется другими авторами.Author Rank может быть основным фактором ранжирования, но его влияние со временем может уменьшаться (rank decay).copy history (история копирования) для классификации контента и авторов (например, новости, блоги, реклама).Высокая. Идентификация первоисточников и оценка авторитетности авторов/источников (E-E-A-T) являются центральными элементами современных поисковых систем. Хотя концепция Google Authorship в ее первоначальном виде была свернута, механизмы, описанные в этом патенте (где "автор" может означать домен или бренд), остаются крайне актуальными для понимания того, как Google оценивает качество и оригинальность контента, особенно в контексте новостей, синдикации и борьбы с плагиатом.
Патент имеет критическое значение для SEO. Он описывает конкретные механизмы, с помощью которых Google может идентифицировать и вознаграждать создателей оригинального контента и пессимизировать тех, кто преимущественно копирует контент. Понимание того, что Author Rank (репутация домена/бренда как оригинального источника) может напрямую влиять на ранжирование, особенно свежего контента, должно формировать долгосрочную контент-стратегию, направленную на создание уникальной ценности и быстрое индексирование.
content piece. Определяется по временной метке документа.Author Rank на ранг конкретного документа уменьшается с течением времени, позволяя документу ранжироваться на основе его собственных характеристик.Патент US8983970B1 является продолжением (Continuation) более ранней заявки. Описание (Description) патента охватывает широкую систему ранжирования авторов и оригинальности. Однако конкретные Claims (Формула изобретения) в этом документе фокусируются на механизме Content Baseline.
Claim 1 (Независимый пункт): Описывает метод определения авторства с учетом исторического контекста.
Content Baseline, устанавливая пороговую дату. Авторство контента, появившегося до этой даты, никому не приписывается.content piece.Content Baseline. (Контент до этой даты считается ни оригинальным, ни скопированным).Content Baseline.
Claim 8 (Зависимый от 1): Уточняет сценарий, когда контент старый.
Если самый ранний документ появился ДО Content Baseline, то авторство этого фрагмента (даже в более поздних документах) никому не приписывается.
Claim 9 (Зависимый от 1): Уточняет сценарий, когда контент новый.
Если самый ранний документ появился ПОСЛЕ Content Baseline, то авторство этого фрагмента приписывается автору этого самого раннего документа.
Claim 10 (Зависимый от 1): Связывает атрибуцию с ранжированием.
После определения атрибуции (кому приписывается фрагмент), система может определить ранг другого документа этого же автора, основываясь на количестве content pieces, атрибутированных этому автору.
Изобретение охватывает несколько этапов поисковой архитектуры, от сканирования до ранжирования.
CRAWLING – Сканирование и Сбор данных
Author Rank для управления краулингом. Документы высокоранговых авторов могут сканироваться чаще (frequency) и на большую глубину (depth).INDEXING – Индексирование и извлечение признаков
Document Fragmentation) и конденсация контента (удаление стоп-слов).Piece Tracker) сравнивает новые фрагменты с существующим индексом для идентификации Earliest Occurrence.Copy History для оригинальных фрагментов.Author Rank и классификация авторов/документов (Doc/Author Classifier).RANKING – Ранжирование
Document Ranker) использует данные об оригинальности контента документа и/или Author Rank как сигналы ранжирования.RERANKING – Переранжирование
Author Rank может использоваться для немедленного бустинга в выдаче, до того как документ наберет собственные сигналы (с последующим Rank Decay).Author Rank применяется постоянно по мере добавления новых документов в корпус.Author Rank и оценки оригинальности используются при расчете релевантности документа запросу.Content Baseline активируется, когда система обнаруживает фрагмент контента в нескольких документах и должна решить вопрос об атрибуции, учитывая пороговую дату.Copy History фрагмента соответствует одному из предопределенных паттернов (например, паттерн новостной синдикации).Процесс А: Обработка и Индексация Документа
content pieces (например, по 4 слова).Content Baseline, фрагмент помечается как нейтральный (не оригинальный и не скопированный).Copy History фрагмента.Score.Процесс Б: Расчет Рангов и Классификация (Асинхронный процесс)
Score оригинальных фрагментов может быть увеличен пропорционально количеству копий или количеству уникальных авторов, скопировавших его.Процесс В: Ранжирование Документа (Во время запроса)
Author Rank.Author Rank максимально. Если документ старый, влияние Author Rank снижается.Earliest Occurrence и расчета Copy History. Также используется пороговая дата для Content Baseline.Патент описывает несколько метрик для оценки документов и авторов.
Метрики Документов:
content pieces в документе. Оценка фрагмента увеличивается, если он часто копируется.Метрики Авторов (Author Rank):
content pieces, приписанных автору. Может быть взвешено по количеству документов автора, содержащих оригинальный контент.Другие метрики:
Author Rank (репутации источника).Author Rank не обязательно привязан к человеку. В патенте явно указано, что "автором" может быть домен или URL. Это означает, что система оценивает репутацию сайтов как источников оригинального контента.Author Rank) увеличивается, если этот контент впоследствии копируется другими. Это стимулирует создание вирального или синдицируемого контента.Author Rank позволяет системе быстро ранжировать новые документы от авторитетных авторов, даже до того, как эти документы получат собственные сигналы (например, ссылки). Однако это влияние может затухать со временем (Rank Decay).Content Baseline гарантирует, что использование общеупотребительных фраз или цитирование исторических текстов не будет ошибочно расценено как плагиат.Author Rank (репутации домена).datePublished в Schema.org) и указывайте даты на странице, чтобы помочь Google точнее определить временную метку контента.Author Rank для определения частоты и глубины сканирования. Повышение авторитетности домена ведет к более эффективному сканированию.content pieces), простой замены слов может быть недостаточно, чтобы обойти обнаружение копий, если структура предложений и ключевые фразы остаются неизменными.Этот патент является одним из фундаментальных документов, описывающих переход Google от оценки отдельных страниц к оценке репутации источников (Авторов/Доменов). Он закладывает основу для систем, которые вознаграждают экспертизу и оригинальность (часть E-E-A-T). Стратегическое значение заключается в том, что долгосрочный успех в SEO требует построения репутации сайта как надежного источника уникальной информации. Это также объясняет, почему авторитетные новостные сайты часто мгновенно занимают высокие позиции по свежим запросам — их высокий Author Rank гарантирует им видимость.
Сценарий: Защита оригинального исследования от копирования
Copy History оригинального исследования растет.Score оригинальных фрагментов увеличивается. Author Rank домена компании растет. Оригинальное исследование получает буст в ранжировании. Система может передать часть ранга (ссылочного веса) от копий к оригиналу.Как система определяет "Автора"? Означает ли это, что нужно использовать разметку авторства (Authorship markup)?
Патент определяет "Автора" очень широко. Это может быть фактический создатель контента, но если он не установлен, система может использовать альтернативные идентификаторы. В патенте прямо указано, что Автором может считаться доменное имя (server name) или URL. Это значит, что система строит репутацию не только людей, но и сайтов или разделов сайтов как источников контента.
Насколько важна скорость индексации в контексте этого патента?
Скорость индексации критически важна. Оригинальность определяется по самому раннему появлению фрагмента контента в индексе (Earliest Occurrence). Если скрапер скопирует ваш контент и проиндексирует его раньше вас, система может ошибочно посчитать его первоисточником. Поэтому использование инструментов для быстрого индексирования (Indexing API, XML Sitemaps) является обязательным.
Что такое "Content Baseline" и как он влияет на SEO?
Content Baseline — это механизм защиты от ложных срабатываний системы определения плагиата. Система устанавливает пороговую дату, и весь контент, появившийся до этой даты, считается нейтральным. Это позволяет использовать общеупотребительные фразы, идиомы или цитаты из классической литературы, не получая пенальти за неуникальный контент.
Как патент предлагает бороться с плагиатом и скрапингом?
Патент предлагает два основных механизма. Во-первых, документы, состоящие преимущественно из скопированного контента, могут быть понижены в ранге. Во-вторых, авторы (домены), которые систематически копируют контент, получают низкий Author Rank, что негативно сказывается на ранжировании всех их документов, особенно свежих публикаций.
Выгодно ли, чтобы мой контент копировали другие сайты?
Да, это выгодно, при условии, что система корректно идентифицировала вас как первоисточник. Патент указывает, что оценка (Score) оригинального контента увеличивается пропорционально количеству его последующих копий другими авторами. Это увеличивает ваш Author Rank и может улучшить ранжирование оригинальной статьи.
Что такое "Rank Decay" и как он работает?
Rank Decay (Затухание ранга) относится к влиянию Author Rank на конкретный документ. Когда авторитетный автор публикует новый документ, система может сразу дать ему высокий ранг, основываясь на репутации автора. Однако со временем это влияние уменьшается, и документ начинает ранжироваться на основе его собственных метрик (ссылок, поведенческих факторов и т.д.).
Как система определяет схожесть контента? Достаточно ли сделать рерайт?
Система использует фрагментацию: текст разбивается на небольшие последовательности слов (content pieces), часто с удалением стоп-слов. Если два документа содержат достаточное количество одинаковых фрагментов, они считаются копиями. Поверхностный рерайт может не помочь, если основные фразы и структура контента сохраняются.
Как работает классификация контента на основе "Copy History"?
Система анализирует скорость распространения контента. Например, быстрое и широкое распространение с последующим резким спадом характерно для новостей (синдикация). Постепенный рост популярности и медленное затухание характерно для блогов. Быстрое распространение, которое не затухает долгое время, может быть классифицировано как реклама. Эта классификация может влиять на ранжирование.
Может ли ссылочный вес, идущий на копию моей статьи, быть передан моему оригиналу?
Да, в патенте описан такой механизм. Если система идентифицирует, что документ Б является копией документа А, то ранг (например, основанный на явных ссылках), полученный документом Б, может быть использован при определении ранга документа А. Это позволяет первоисточнику аккумулировать сигналы, даже если пользователи ссылаются на копии.
Как этот патент влияет на агрегаторы контента?
Агрегаторы рискуют получить низкий Author Rank, если они просто копируют контент. Однако патент упоминает, что документы, которые копируют контент из множества разных источников, могут ранжироваться лучше, чем те, что копируют из одного источника. Это предполагает, что качественная агрегация с добавленной ценностью может быть приемлемой стратегией.

EEAT и качество
Свежесть контента
Семантика и интент

EEAT и качество
Семантика и интент

Свежесть контента
EEAT и качество

EEAT и качество
Свежесть контента
Индексация

EEAT и качество
Ссылки

SERP
Поведенческие сигналы

Ссылки
Мультиязычность
Семантика и интент

Семантика и интент
Поведенческие сигналы
SERP

Мультиязычность
Поведенческие сигналы
Персонализация

Поведенческие сигналы
SERP

Ссылки
Семантика и интент
SERP

Поведенческие сигналы
SERP

Персонализация
Поведенческие сигналы
Семантика и интент

Поведенческие сигналы

Семантика и интент
Персонализация
Поведенческие сигналы
