
Google использует систему для количественной оценки оригинальности контента на уровне сайта. Система анализирует, какая доля контента (n-граммы) на сайте впервые появилась именно на нем, основываясь на дате первого сканирования (Crawl Time Stamp). На основе этого соотношения вычисляется Оценка Оригинальности Сайта (Site Originality Score), которая затем используется как фактор ранжирования для продвижения первоисточников и понижения сайтов-копипастеров.
Патент решает проблему идентификации и противодействия скрапингу (копированию) контента между разными сайтами. Цель изобретения — разработать механизм для количественной оценки того, является ли сайт преимущественно первоисточником контента или агрегатором/копипастером чужого контента. Это позволяет поисковой системе продвигать сайты с более оригинальным контентом по сравнению с сайтами, копирующими контент из других источников.
Запатентована система для вычисления Site Originality Score (Оценки Оригинальности Сайта). Эта оценка представляет собой меру оригинальности контента на сайте. Она рассчитывается путем определения соотношения количества контента (измеренного в n-граммах), который впервые был обнаружен поисковой системой на этом сайте, к общему количеству контента, отобранного с этого сайта. Эта оценка используется как сигнал для ранжирования ресурсов.
Система работает следующим образом:
Shingles Data, чтобы найти самую раннюю временную метку сканирования (Crawl Time Stamp) этой n-граммы во всем веб-корпусе.Site Originality Score как соотношение (Ratio) агрегированного количества оригинальных n-грамм к общему количеству отобранных n-грамм.Высокая. Приоритезация оригинального контента и борьба со скрапингом остаются фундаментальными задачами для Google. Этот патент описывает конкретный механизм для количественной оценки оригинальности на уровне сайта, что напрямую связано с текущими усилиями по улучшению качества поиска (например, Helpful Content System) и вознаграждению создателей контента.
Патент имеет критическое значение (9/10) для SEO. Он описывает конкретный механизм, с помощью которого Google математически оценивает оригинальность сайта и использует эту оценку (Site Originality Score) как фактор ранжирования. Сайты, которые систематически копируют контент, будут иметь низкую оценку и могут быть понижены в выдаче, в то время как первоисточники получат преимущество. Это напрямую влияет на стратегии создания контента и скорость индексации.
Crawl Time Stamp.Crawl Time Stamp. Включает указание на URL, где шингл был впервые просканирован.Claim 1 (Независимый пункт): Описывает основной метод определения оригинальности и его использование в поиске.
Crawl Time Stamp для n-граммы.Site Originality Score для веб-сайта на основе первого и второго агрегированных количеств.Site Originality Score при ранжировании результатов поиска, идентифицирующих ресурсы этого веб-сайта в ответ на поисковый запрос.Ядром изобретения является метод количественной оценки оригинальности сайта на основе временных меток первого сканирования контента и использование этой оценки как фактора ранжирования.
Claim 2 (Зависимый от 1): Уточняет метод идентификации (сэмплирования) n-грамм.
Идентификация n-грамм включает вычисление хеш-значения (hash value) для каждой n-граммы в ресурсе и выбор множества n-грамм на основе их хеш-значений. (В описании патента упоминается алгоритм MinHash и выбор n-грамм с наивысшими хеш-значениями для обеспечения согласованности).
Claim 4 (Зависимый от 1): Определяет формулу расчета Site Originality Score.
Оценка вычисляется как отношение (Ratio) числителя и знаменателя. Числитель основан на первом агрегированном количестве (оригинальные n-граммы), а знаменатель — на втором (все n-граммы).
Claims 5, 6, 7 (Зависимые от 4): Описывают модификации формулы.
Отношение может быть умножено на заданное значение (Claim 5), к отношению может быть добавлено заданное значение (Claim 6), или и то, и другое (Claim 7). Это позволяет калибровать итоговую оценку.
Claim 9 (Независимый пункт): Описывает метод с акцентом на механизм наследования (Inheritance).
Процесс аналогичен Claim 1, но явно включает условие наследования: n-грамма, которая произошла с другого сайта, наследуется анализируемым сайтом, если она больше не доступна на другом сайте, и Crawl Time Stamp для n-граммы на анализируемом сайте является следующей самой ранней временной меткой (next earliest crawl time stamp).
Изобретение затрагивает несколько ключевых этапов поиска, полагаясь на данные, собранные во время сканирования, для вычисления метрик на этапе индексирования, которые затем используются при ранжировании.
CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает контент и, что критически важно для этого патента, фиксирует Crawl Time Stamp для обнаруженного контента (n-грамм). Точность и частота сканирования напрямую влияют на способность системы определять первоисточник.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения логики патента.
Shingles Data, сохраняя связь между шинглом, URL и Crawl Time Stamp.Site Originality Engine анализирует эти данные (вероятно, в офлайн-режиме или в процессе индексации) для вычисления и обновления Site Originality Score для различных сайтов (доменов, субдоменов или директорий).RANKING – Ранжирование
На этом этапе Site Originality Score используется как сигнал ранжирования. Ranking Engine использует эту оценку как часть вычисления итоговых оценок для ресурсов, найденных на этом сайте. Сайты с более высоким Site Originality Score могут получить преимущество.
Входные данные:
Site Data).Shingles Data с URL и Crawl Time Stamp.Выходные данные:
Site Originality Score для анализируемого сайта.Site Originality Score происходит периодически во время индексации/анализа корпуса. Применение оценки происходит в реальном времени во время ранжирования результатов поиска.Процесс вычисления Site Originality Score
MinHash для выбора n-грамм с наивысшими хеш-значениями для обеспечения согласованности выборки.Shingles Data для идентификации URL, связанного с самой ранней Crawl Time Stamp (Earliest Crawl Time Stamp) для этой n-граммы.Crawl Time Stamp. Если она принадлежит анализируемому сайту, он наследует статус оригинала.Site Originality Score, используя F и T. Например, по формуле (F/T)∗C+Z, где C и Z — константы.Ranking Engine использует полученную оценку как сигнал для ранжирования ресурсов сайта.Система полагается на следующие типы данных:
Crawl Time Stamp является ключевым элементом данных. Он используется для определения того, какой сайт первым представил определенный фрагмент контента.MinHash) для эффективного сравнения и согласованного сэмплирования контента.Site Originality Score) и использует его для ранжирования результатов поиска (Claim 1). Это не просто фильтр дубликатов, а именно оценка всего сайта (или его раздела).Crawl Time Stamp. Сайт, который был просканирован первым, признается оригиналом. Это подчеркивает критическую важность скорости индексации для создателей контента.MinHash) для выбора n-грамм гарантирует, что система сравнивает сайты последовательно и эффективно, не требуя анализа всего контента.Crawl Time Stamp), критически важно оптимизировать скорость обнаружения и сканирования нового контента. Используйте XML Sitemaps, Google Indexing API (где применимо) и обеспечьте высокую скорость ответа сервера.Site Originality Score необходимо сосредоточиться на создании уникального контента, который не был опубликован ранее где-либо еще.Inheritance) может помочь сохранить накопленный "кредит оригинальности". Необходимо обеспечить корректный переезд (301 редиректы), чтобы помочь системе связать старый и новый домены.Site Originality Score для этих разделов независимо.rel="canonical", указывающий на ваш оригинал, чтобы консолидировать сигналы.Site Originality Score и рискуют быть пониженными в ранжировании.Site Originality Score магазина.Этот патент подтверждает стратегию Google по вознаграждению создателей оригинального контента и борьбе с веб-спамом в виде скрапинга. Site Originality Score является мощным инструментом для автоматического определения ценности источника. Долгосрочная SEO-стратегия должна быть построена на создании уникальной ценности. Для новостных сайтов и блогов скорость публикации и индексации становится не просто преимуществом, а необходимостью для поддержания статуса первоисточника.
Сценарий 1: Новостной сайт и агрегатор
Crawl Time Stamp для n-грамм этой новости. Googlebot сканирует Сайт Б в 10:07.Site Originality Score эта новость увеличивает числитель (F) для Сайта А. Для Сайта Б она увеличивает только знаменатель (T), тем самым снижая его общую оценку оригинальности. Сайт А получает преимущество в ранжировании.Сценарий 2: Миграция домена и наследование
Inheritance, система проверяет следующую самую раннюю Crawl Time Stamp для этих n-грамм, которая теперь принадлежит NewBlog.com. NewBlog.com наследует статус оригинала, сохраняя высокий Site Originality Score.Что важнее для определения первоисточника: дата публикации, указанная на сайте, или дата сканирования Google (Crawl Time Stamp)?
Согласно патенту, система полагается исключительно на Crawl Time Stamp — время, когда контент был фактически обнаружен поисковой системой. Дата, указанная на сайте или в микроразметке, не упоминается в этом патенте как фактор для расчета Site Originality Score. Поэтому критически важно обеспечить быструю индексацию контента.
Как этот патент влияет на синдикацию контента? Теряю ли я оригинальность, если разрешаю другим сайтам перепечатывать мои статьи?
Да, это представляет риск. Если партнерский сайт будет просканирован с вашим контентом раньше, чем ваш собственный сайт, партнер может быть признан первоисточником для расчета Site Originality Score. Чтобы минимизировать этот риск, убедитесь, что ваш сайт индексируется первым, и требуйте от партнеров использования тега rel="canonical", указывающего на ваш оригинал.
Как работает механизм наследования (Inheritance) при миграции сайта?
Если вы переносите контент на новый домен (Сайт Б) со старого (Сайт А), изначально Сайт А является оригиналом. Механизм наследования активируется, когда контент становится недоступным на Сайте А (например, после обработки редиректов). Система ищет следующую самую раннюю Crawl Time Stamp для этого контента. Если это Сайт Б, он наследует статус оригинала. Это помогает сохранить Site Originality Score после миграции.
Влияет ли этот алгоритм на сайты с пользовательским контентом (UGC)?
Да. Если пользователи копируют контент с других сайтов и публикуют его на UGC-платформе, это снизит Site Originality Score платформы. Однако патент упоминает, что "сайт" может быть определен как субдомен или поддиректория. Разделение UGC и авторского контента на разные субдомены может помочь изолировать влияние низкокачественного UGC на основной контент сайта.
Как система обеспечивает последовательность при выборе образцов контента (сэмплировании)?
Система использует методический подход с использованием хеширования (например, MinHash, упомянутый в описании). Вместо случайного выбора, система вычисляет хеши для всех n-грамм и может выбрать те, у которых самые высокие хеш-значения. Это гарантирует, что при повторном анализе того же контента будут выбраны те же самые образцы, обеспечивая согласованность оценки.
Если я перепишу статью (сделаю рерайт), будет ли она считаться оригинальной?
Это зависит от глубины переработки. Система анализирует n-граммы (последовательности слов). Если рерайт достаточно глубокий, чтобы сгенерировать новые n-граммы, которые ранее не встречались в интернете, контент будет считаться оригинальным с точки зрения этого алгоритма. Если же изменения поверхностны и значительная часть n-грамм совпадает с уже существующим контентом, это может негативно повлиять на оценку.
Что произойдет, если два сайта опубликуют идентичный контент почти одновременно?
В описании патента упоминается возможность использования временного порога (threshold time). Если разница между сканированием контента на Сайте А и Сайте Б очень мала (например, в пределах одного дня), система может засчитать оригинальность обоим сайтам или применить более мягкую логику, чтобы не наказывать за почти одновременную публикацию.
Является ли Site Originality Score оценкой на уровне страницы или сайта?
Это оценка на уровне сайта (Site Originality Score). Система агрегирует данные об оригинальности n-грамм со всех ресурсов сайта для вычисления итоговой оценки. Эта общая оценка затем используется как сигнал при ранжировании отдельных ресурсов этого сайта.
Как этот патент влияет на E-commerce сайты, использующие описания от поставщиков?
Это оказывает значительное негативное влияние. Описания от поставщиков или производителей обычно индексируются на их сайтах или на сайтах крупных ритейлеров раньше. Использование этих стандартных описаний снижает Site Originality Score магазина. Для успешного SEO в E-commerce критически важно создавать уникальные описания товаров и добавлять уникальный контент.
Как этот патент связан с Helpful Content System (HCS)?
Существует прямая концептуальная связь. HCS нацелена на поощрение полезного и оригинального контента. Site Originality Score предоставляет конкретную метрику для оценки оригинальности на уровне сайта, что является ключевым компонентом того, что Google считает "полезным контентом". Низкая оценка оригинальности может быть сильным индикатором неполезного контента.

Антиспам
Семантика и интент
Мультимедиа

EEAT и качество
Свежесть контента
SERP

EEAT и качество
Индексация
Краулинг

Свежесть контента
Ссылки
Техническое SEO

Свежесть контента
Антиспам
Ссылки

Персонализация
EEAT и качество
Поведенческие сигналы

Персонализация
Семантика и интент
Поведенческие сигналы

Персонализация
Поведенческие сигналы
Семантика и интент

Knowledge Graph
EEAT и качество
Семантика и интент

Персонализация
Поведенческие сигналы
SERP

Поведенческие сигналы
SERP

Поведенческие сигналы
Семантика и интент

Семантика и интент
Поведенческие сигналы
SERP

Local SEO
Поведенческие сигналы
Семантика и интент

Персонализация
Поведенческие сигналы
SERP
