
Система позволяет владельцам контента загружать образцы (текст, изображения, видео, аудио) и проверять, существуют ли совпадения в индексах Google, включая веб-индекс и пользовательские базы данных. Система сообщает о факте наличия совпадения, не раскрывая источник напрямую, и может предоставить зашифрованный идентификатор для дальнейшего расследования.
Патент решает задачу обнаружения неавторизованного использования контента (плагиат, нарушение авторских прав, утечка приватных данных) в рамках индексированных Google данных, включая публичный веб-контент и Custom Content (пользовательские или закрытые базы данных). Основная проблема — предоставить владельцу контента механизм проверки факта использования его материалов, не нарушая при этом конфиденциальность пользователей, у которых найдено совпадение.
Запатентована система (Duplicate Content Search Unit), которая принимает образец контента от пользователя и сравнивает его с обширной базой данных индексированного контента. Система использует специализированные детекторы для текста, изображений, видео и аудио. При обнаружении совпадения система уведомляет пользователя о факте совпадения, но намеренно не раскрывает конкретный документ или его URL, сохраняя конфиденциальность источника.
Система работает следующим образом:
Threshold Amount) для анализа.Confidence Score (оценка уверенности).Confidence Score превышает порог T, система уведомляет пользователя о наличии совпадения, но скрывает детали. Может быть предоставлен зашифрованный идентификатор (identifier) для инициирования расследования человеком.Средняя. Описанные в патенте (2008 год) технологии (шинглинг, SIFT, аудио-фингерпринтинг) являются фундаментальными методами в Information Retrieval и по-прежнему актуальны. Хотя современные системы Google (например, Content ID) значительно эволюционировали, базовые принципы обнаружения дубликатов и защиты конфиденциальности, изложенные здесь, остаются в силе.
Влияние на SEO низкое (Инфраструктура). Этот патент не описывает алгоритмы ранжирования или стандартные процессы обработки дубликатов в поиске (например, каноникализацию). Он описывает конкретный инструмент для защиты авторских прав. Основная ценность для SEO-специалистов заключается в понимании конкретных технических методов, которые Google использует для идентификации точных и неточных дубликатов во всех медиаформатах. Это демонстрирует возможности Google по анализу уникальности контента.
Custom Content Group). Может включать приватные данные или контент по подписке.Duplicate Text Detector, Duplicate Image Detector, Duplicate Video Detector, Duplicate Audio Detector.percentage of overlap) между двумя текстами.Claim 1 (Независимый пункт): Описывает основной процесс системы с акцентом на конфиденциальность.
Ядро изобретения: система действует как слепой оракул, подтверждая совпадение, но защищая конфиденциальность данных (особенно в Custom Content), с которыми произошло совпадение.
Claim 9 (Зависимый от 1): Детализирует механизм определения совпадения.
Confidence Score для множества элементов контента, указывающий меру близости совпадения.Confidence Score одного из элементов установленный порог.Claim 11 (Зависимый от 1): Описывает механизм конфиденциального уведомления.
При уведомлении пользователя система отправляет ему идентификатор (identifier). Этот идентификатор шифрует (скрывает) сетевой адрес (например, URL), связанный с совпадающим контентом, или группу контента (content group), к которой принадлежит совпадение. Это позволяет инициировать расследование человеком, но не раскрывает источник пользователю.
Claim 15 (Зависимый от 1): Описывает альтернативный вариант для повышения конфиденциальности образца.
Образец контента представляет собой хешированный контент (hashed content). Система сравнивает этот хеш с хешами хранимых элементов. Это позволяет пользователю искать дубликаты, не раскрывая сам исходный контент системе Google.
Claim 17 (Независимый пункт, метод): Описывает метод, аналогичный Claim 1, но добавляет проверку объема контента.
threshold amount) образца контента.Этот патент описывает инфраструктурную систему, которая не является частью стандартного процесса ранжирования поисковой выдачи. Она функционирует как отдельный инструмент или сервис.
CRAWLING – Сканирование и Сбор данных
Система использует данные, собранные стандартным веб-краулером (Web Crawler), а также данные, полученные через API загрузки пользовательского контента (Custom Content Upload API) или специализированный краулер (Custom Content Crawler).
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит ключевая подготовка данных. Индексаторы (Web Content Indexer, Custom Content Indexer) должны извлекать и сохранять признаки, необходимые для обнаружения дубликатов:
Image Features), такие как цветовые гистограммы, SIFT.Fingerprints), транскрипции.Web Search Index и Custom Search Index(es). RANKING / RERANKING
Не применимо. Система не участвует в ранжировании результатов поиска для пользователей.
Входные данные:
Выходные данные:
identifier) для инициирования расследования.Custom Content Groups.Threshold Amount of Content: Образец должен быть достаточного объема (например, 1-2 абзаца текста, X секунд видео/аудио).Confidence Score должен превысить этот порог, чтобы система зафиксировала совпадение.Threshold Amount of Content).Duplicate Text Detector).Confidence Score (например, процент совпадения).Confidence Score заданный порог T.identifier), который связывает результат с деталями совпадения во внутренней таблице.Система использует признаки, извлеченные непосредственно из контента, хранящиеся в индексах.
Контентные факторы (Текст):
Shingles: Наборы последовательных терминов.Vectors of terms: Векторное представление терминов.Мультимедиа факторы (Изображения):
Intensity histograms и Color histograms (RGB, YIQ).Edges) и текстуре (Texture).Wavelet based techniques).Objects of interest), часто определяемые с помощью SIFT (Scale-Invariant Feature Transform).Мультимедиа факторы (Видео):
Spatio-temporal descriptors: Пространственно-временные дескрипторы для коротких клипов.Мультимедиа факторы (Аудио):
Audio fingerprints: Цифровые отпечатки аудиосегментов.Технические факторы:
Hash values).tag information).comparison function) гистограмм или признаков SIFT.Confidence Score ≥ T, фиксируется совпадение.Shingling), изображениях (SIFT, гистограммы), видео и аудио (Audio Fingerprinting). Это подтверждает способность Google понимать содержание мультимедийных файлов на основе их внутренних характеристик.Threshold Amount) и высокая степень сходства (Confidence Score выше порога T).Этот патент является инфраструктурным и не описывает алгоритмы ранжирования. Он не дает прямых рекомендаций для улучшения позиций в поиске. Однако он дает важное понимание технических возможностей Google по анализу уникальности контента.
Shingling, Similarity Detection). Стратегия должна фокусироваться на создании уникального контента, поскольку техническое обнаружение плагиата высокоразвито.Image Features, SIFT), которые инвариантны к масштабированию и повороту. Необходимо создавать или лицензировать действительно уникальные медиафайлы.Shingling легко обнаруживают высокий процент совпадения даже при перестановке слов или замене синонимов.Стратегическое значение патента заключается в демонстрации технической глубины, с которой Google анализирует уникальность контента во всех форматах. Это подтверждает долгосрочный приоритет Google на оригинальность. Для Senior SEO-специалистов это сигнал о том, что попытки обмануть систему с помощью поверхностных изменений контента обречены на провал из-за сложных алгоритмов сравнения признаков.
Сценарий: Обнаружение кражи уникального изображения (на основе принципов патента)
Duplicate Image Detector извлекает признаки SIFT из образца. Эти признаки устойчивы к изменению размера и обрезке.Confidence Score превышает порог T.Описывает ли этот патент, как Google обрабатывает дубликаты контента при индексировании (каноникализация) или ранжировании?
Нет. Этот патент не связан с процессом каноникализации или ранжирования в поисковой выдаче. Он описывает отдельный инструмент, предназначенный для того, чтобы владельцы контента могли находить неавторизованное использование их материалов (плагиат, нарушение авторских прав) в индексах Google, включая закрытые базы данных.
Что такое Shingling (Шинглинг) и как он используется для обнаружения дубликатов текста?
Shingling — это техника, при которой текст разбивается на последовательные наборы слов (шинглы), например, фразы из 5 слов. Система хеширует эти шинглы и сравнивает наборы хешей двух документов. Confidence Score рассчитывается как процент совпадения шинглов, что позволяет эффективно находить даже частично совпадающие тексты и обнаруживать поверхностный рерайтинг.
Как система анализирует изображения? Можно ли ее обмануть, изменив размер или обрезав изображение?
Система использует сложные методы извлечения признаков (Image Features). В патенте упоминаются гистограммы цвета и интенсивности, а также SIFT (Scale-Invariant Feature Transform). SIFT извлекает признаки, которые инвариантны (устойчивы) к масштабированию, повороту и частичному изменению освещения. Поэтому простое изменение размера или обрезка изображения с большой вероятностью не помешает системе идентифицировать его как дубликат.
Почему система не показывает пользователю, где именно найден дубликат?
Это сделано для защиты конфиденциальности. Система ищет совпадения не только в публичном вебе, но и в Custom Content Groups, которые могут содержать частную или платную информацию. Раскрытие источника могло бы нарушить приватность владельцев этих групп. Вместо этого система выдает зашифрованный идентификатор для инициирования расследования человеком.
Что такое Custom Content Groups?
Custom Content Groups — это коллекции контента, которые пользователи сами загрузили в Google для индексации или специально выделили (например, указав определенные сайты). Это могут быть корпоративные базы знаний, платные подписки или тематические коллекции. Система поиска дубликатов проверяет совпадения и в этих специализированных базах данных.
Что означает Threshold Amount of Content?
Это минимальный объем образца, который пользователь должен предоставить для анализа. Система не будет выполнять поиск, если образец слишком мал для надежного сравнения. В патенте приводятся примеры: 1-2 абзаца для текста или несколько секунд для видео/аудио. Это необходимо для обеспечения точности.
Как система обрабатывает видео-контент?
Система использует мультимодальный подход. Она может анализировать отдельные кадры как изображения (используя SIFT и другие признаки), анализировать аудиодорожку (используя Audio Fingerprinting) и анализировать текстовую информацию (субтитры или транскрипцию речи). Также упоминается использование пространственно-временных дескрипторов.
Какова практическая польза этого патента для SEO-специалиста?
Прямая польза для ранжирования минимальна. Однако патент полезен для понимания технических возможностей Google по анализу уникальности контента. Он показывает, что Google может легко идентифицировать поверхностный рерайтинг или попытки уникализировать медиаконтент с помощью простых манипуляций, что подчеркивает важность создания действительно оригинального контента.
Может ли пользователь отправить хеш файла вместо самого файла для проверки?
Да, патент предусматривает такую возможность (Claim 15) для повышения конфиденциальности. Пользователь может вычислить хеш образца локально и отправить его системе. Система сравнит этот хеш с хешами контента в своей базе данных, что позволяет обнаружить дубликаты, не передавая исходный контент Google.
Связан ли этот патент с системой Content ID на YouTube?
Хотя патент напрямую не упоминает Content ID, он описывает базовые технологии и процессы (обнаружение дубликатов аудио и видео, использование отпечатков, система уведомлений о совпадениях), которые лежат в основе работы Content ID. Этот патент можно рассматривать как описание фундаментальной инфраструктуры для защиты авторских прав в экосистеме Google.

Индексация

Индексация
Мультимедиа

Мультимедиа

Индексация
Мультимедиа

Мультимедиа
Индексация

Персонализация
Поведенческие сигналы
SERP

Ссылки
Поведенческие сигналы
EEAT и качество

Персонализация
Ссылки

Антиспам
Ссылки
Техническое SEO

Поведенческие сигналы
Ссылки
SERP

Персонализация
Поведенческие сигналы
SERP

Техническое SEO
Ссылки

EEAT и качество
Антиспам
Ссылки

Поведенческие сигналы
SERP

Семантика и интент
SERP
Поведенческие сигналы
