Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует данные аналитики в реальном времени и контролируемый трафик для установления оригинального авторства контента

    ORIGINAL AUTHORSHIP IDENTIFICATION OF ELECTRONIC PUBLICATIONS (Идентификация оригинального авторства электронных публикаций)
    • US9372927B1
    • Google LLC
    • 2016-06-21
    • 2013-03-15
    2013 Knowledge Graph Патенты Google Свежесть контента

    Google патентует метод для точной идентификации автора контента до того, как его обнаружит веб-краулер. Система использует уникальные идентификаторы (например, код веб-аналитики) и отслеживает первую активность автора с неопубликованным контентом (например, переходы по скрытым ссылкам между черновиками). Это позволяет зафиксировать временную метку в реальном времени, защищая от плагиата и обеспечивая корректную атрибуцию в поиске.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему точного определения первоисточника и автора контента в условиях быстрого электронного распространения, копирования и плагиата. Он направлен на преодоление ограничений стандартного веб-краулинга, который работает с задержкой. Цель — установить авторство до того, как контент будет обнаружен краулерами или скопирован третьими лицами, и обеспечить корректную атрибуцию.

    Что запатентовано

    Запатентована система для установления и верификации оригинального авторства электронного контента. Суть изобретения заключается в использовании уникального идентификатора контента (Unique Content ID), связанного с профилем автора (Author Profile), и фиксации самой ранней временной метки (Timestamp) существования контента. Эта фиксация происходит путем анализа трафика в реальном времени через систему агрегации контента (Content Aggregation System), опережая стандартные веб-краулеры.

    Как это работает

    Система работает следующим образом:

    • Идентификация: Автор вставляет Unique Content ID (например, код сервиса веб-аналитики) в свой контент и связывает контент со своим Author Profile (например, через rel=author).
    • Генерация контролируемого трафика: До публикации автор совершает действия, доступные только ему — например, переходит по скрытым гиперссылкам (Hidden Links) между неопубликованными черновиками.
    • Обнаружение в реальном времени: Content Aggregation System (например, Google Analytics) обнаруживает этот трафик в реальном времени.
    • Временная метка и Верификация: Система ставит Timestamp. Эта ранняя временная метка служит доказательством авторства.
    • Индексация: Данные о верифицированном авторстве отправляются в Web Index быстрее, чем туда попадет информация от веб-краулера.

    Актуальность для SEO

    Средняя. Концепции идентификации автора (связанные с E-E-A-T) и определения первоисточника остаются критически важными для Google. Однако данный патент тесно связан с исторической программой Google Authorship (закрыта в 2014 г.). Конкретные технические методы, такие как верификация через скрытые ссылки, вероятно, эволюционировали или были заменены. Тем не менее, инфраструктурный аспект — использование данных из систем аналитики для быстрого понимания нового контента в реальном времени — остается актуальным.

    Важность для SEO

    Патент имеет умеренное стратегическое значение (6/10). Он подтверждает долгосрочное стремление Google идентифицировать авторов контента и первоисточники. Хотя описанная техническая реализация может быть устаревшей, патент подчеркивает важность первенства индексации (скорости) и необходимость четкой связи между контентом и его создателем для стратегий E-E-A-T.

    Детальный разбор

    Термины и определения

    Author Profile (Профиль автора)
    Электронный профиль (например, аккаунт в социальной сети), содержащий информацию об авторе. Контент связывается с этим профилем для идентификации авторства (упоминается rel=author).
    Content Aggregation System (CAS) (Система агрегации контента)
    Система, которая получает, хранит и анализирует контент и связанную с ним активность. В контексте патента функционирует как сервис веб-аналитики (например, Google Analytics), отслеживающий активность в реальном времени через Unique Content ID.
    Fingerprint Generator (Генератор отпечатков)
    Компонент, создающий уникальный отпечаток контента (например, хэш текста). Используется для идентификации контента и обнаружения копий.
    Hidden Link (Скрытая ссылка)
    Гиперссылка между неопубликованными документами (черновиками), видимая только автору. Используется для генерации контролируемого трафика с целью верификации авторства.
    Referring Chain (Цепочка рефереров)
    Структура данных, построенная путем группировки всех экземпляров одного и того же контента. Позволяет отследить оригинального автора и источники републикаций.
    Referrer and Traffic Clustering Engine (Механизм кластеризации рефереров и трафика)
    Компонент системы, который анализирует трафик и рефереры, группирует экземпляры контента и строит Referring Chain.
    Timestamp (Временная метка)
    Метка времени, применяемая к контенту при обнаружении первой активности системой CAS. Используется для доказательства оригинальности авторства.
    Unique Content ID (Уникальный идентификатор контента)
    Идентификатор, вставляемый в контент (часто как метаданные или код HTML), который остается неизменным при републикации. Пример: код отслеживания аккаунта веб-аналитики.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает комплексный метод, включающий как установление авторства, так и отслеживание републикаций.

    1. Предоставление оригинального контента и вставка Unique Content ID, который сохраняется на протяжении всего жизненного цикла.
    2. Ассоциация контента с Author Profile.
    3. Генерация первой гиперссылки, видимой только автору (данные о которой отправляются в Traffic Clustering Engine). (Механизм верификации оригинала).
    4. Отправка контента рефереру через вторую гиперссылку (связанную с републикацией) и определение метаданных для вторичного контента. (Механизм отслеживания копий).
    5. Обнаружение перехода по второй гиперссылке (факт републикации).
    6. Применение Timestamp к оригинальному контенту и отправка его в веб-индекс.
    7. Построение Referring Chain с помощью Traffic Clustering Engine путем группировки всех экземпляров контента.
    8. Отправка цепочки в веб-индекс для сопоставления и сортировки по дате.
    9. Предоставление отчета о републикации автору.

    Claim 2 (Зависимый от 1): Уточняет критически важный аспект тайминга. Обнаружение активности (перехода по гиперссылке) системой агрегации происходит до того, как оригинальный контент будет обнаружен веб-краулером. Это обеспечивает первенство в установлении авторства.

    Claim 4 (Зависимый от 3): Уточняет реализацию Unique Content ID. Он вставляется в HTML веб-сайта для сбора веб-статистики и обеспечения обновлений в реальном времени. Это прямо указывает на использование систем типа Google Analytics.

    Claim 6 (Зависимый от 1): Описывает результат для пользователя. Индикация авторства (например, имя или иконка) предоставляется вместе с результатами поиска и связана с Author Profile.

    Где и как применяется

    Изобретение применяется на ранних этапах жизненного цикла контента, затрагивая процессы агрегации и индексирования.

    CRAWLING – Сканирование и Сбор данных
    Система специально разработана для работы быстрее, чем стандартный Web Crawler. Content Aggregation System (CAS) выступает альтернативным источником сбора данных в реальном времени, получая информацию о контенте через Unique Content ID (код аналитики) сразу после генерации трафика автором.

    INDEXING – Индексирование и извлечение признаков
    Основной этап применения.

    1. Обработка трафика: CAS и Traffic Clustering Engine обрабатывают контролируемый трафик, применяют Timestamp и устанавливают связь между Author Profile и контентом.
    2. Передача данных: Верифицированные данные об авторстве и временная метка передаются в Web Index.
    3. Сопоставление: Когда Web Crawler позже находит контент, система сопоставляет его с уже имеющимися данными от CAS, используя Content Matching и Date Sorting.
    4. Построение цепочек: Строится Referring Chain для отслеживания републикаций.

    METASEARCH – Метапоиск и Смешивание
    Патент указывает (Claim 6), что верифицированное авторство отображается в результатах поиска. Это влияет на представление SERP (например, показ фото автора в сниппете).

    Входные данные:

    • Оригинальный контент (включая черновики).
    • Unique Content ID (код веб-аналитики).
    • Данные Author Profile (например, через rel=author).
    • Данные о трафике (переходы по скрытым гиперссылкам).

    Выходные данные:

    • Контент с временной меткой (Timestamped Content).
    • Верифицированное авторство (Verified Authorship) в Web Index.
    • Referring Chain (цепочка републикаций).

    На что влияет

    • Конкретные типы контента: Наибольшее влияние на текстовый контент, такой как статьи в блогах, электронные публикации, новости (упоминаются стандарты NewsML и NITF).
    • Конкретные ниши или тематики: Все тематики, особенно подверженные копированию контента, а также YMYL-тематики, где идентификация эксперта имеет значение для E-E-A-T.

    Когда применяется

    • Предварительные условия: Наличие у автора верифицированного Author Profile и установленного соединения с Content Aggregation System (например, установлен код аналитики).
    • Триггер активации: Генерация автором контролируемого трафика (например, переход по скрытым ссылкам между черновиками контента, содержащего Unique Content ID).
    • Временные рамки: Процесс происходит в реальном времени и, что критически важно, до того, как контент будет обнаружен стандартным Web Crawler.

    Пошаговый алгоритм

    Процесс верификации авторства (на основе FIGS. 7A-7B):

    1. Подготовка Системы: Автор устанавливает двунаправленную верифицированную связь с Content Aggregation System (CAS). (Например, устанавливает код аналитики на сайт).
    2. Создание Контента: Автор создает оригинальный контент (Черновик А), внедряя в него Unique Content ID и метаданные Author Profile.
    3. Создание Скрытых Связей: Автор создает второй документ (Черновик Б) и устанавливает скрытые гиперссылки (Hidden Links) между Черновиком А и Черновиком Б.
    4. Генерация Контролируемого Трафика: Автор активирует скрытые ссылки, переходя из Черновика А в Б и обратно.
    5. Обнаружение Трафика: CAS обнаруживает этот трафик в реальном времени.
    6. Применение Временной Метки: CAS фиксирует время этой активности (Timestamp). Поскольку доступ к черновикам был только у автора, это фиксирует самое раннее время существования контента.
    7. Кластеризация: Контент с временной меткой, ID и профилем отправляется в Traffic Clustering Engine.
    8. Передача в Индекс: Кластеризованный контент с верифицированным авторством отправляется в Web Index.
    9. Публикация и Сканирование: Автор публикует Черновик А. Web Crawler позже обнаруживает его, но временная метка уже установлена.
    10. Отслеживание: Система отслеживает републикации и строит Referring Chain.

    Какие данные и как использует

    Данные на входе

    • Технические факторы:
      • Unique Content ID: Встроенный в HTML код страницы (например, код счетчика Google Analytics). Ключевой элемент для отслеживания трафика.
      • Данные о трафике: Информация о переходах по гиперссылкам, рефереры (Referrer), исходящий трафик (outlink traffic).
    • Структурные факторы и Метаданные:
      • Author Profile данные: Связь с профилем автора (упоминается rel=author).
      • Метаданные новостных стандартов: Упоминаются XML-стандарты NewsML и NITF, включая теги ProviderId, DateId, AuthorId.
    • Контентные факторы: Текст контента может использоваться для генерации Content Fingerprint (цифрового отпечатка) или хэша для последующего сопоставления копий.
    • Поведенческие факторы: Это ключевые данные для верификации. Фиксация факта перехода по гиперссылкам (трафик), особенно контролируемого автором.

    Какие метрики используются и как они считаются

    • Timestamp (Временная метка): Основная метрика для определения первенства авторства. Присваивается в момент первой фиксации трафика системой CAS.
    • Верификация Контроля: Подтверждение того, что трафик был сгенерирован лицом, контролирующим Unique Content ID и связанным с Author Profile (через доступ к скрытым ссылкам).
    • Метрики для отчетов автору: Патент также описывает использование CAS для анализа распространения контента:
      • Скорость републикации (Rate of growth).
      • Количество просмотров (Viewership) по источникам и географии.
      • Влияние внешних событий на популярность.
    • Методы анализа: Хеширование/Фингерпринтинг текста для идентификации копий. Кластеризация трафика и рефереров для построения Referring Chain.

    Выводы

    1. Приоритет скорости над стандартным краулингом: Патент демонстрирует, что Google разработал механизмы для обнаружения контента и верификации авторства быстрее, чем работает стандартный Web Crawler. Использование систем реального времени (веб-аналитики) критично для установления первенства.
    2. Доказательство авторства через контроль (Proof of Control): Ключевая идея патента — доказательство авторства путем демонстрации контроля над контентом до его публикации. Генерация уникального, контролируемого трафика (переходы по скрытым ссылкам) служит таким доказательством.
    3. Веб-аналитика как инструмент индексации: Патент показывает использование инфраструктуры Content Aggregation System (например, Google Analytics) не только для сбора статистики, но и как активного компонента системы обнаружения, верификации и индексации контента.
    4. Инфраструктура для E-E-A-T: Этот патент описывает техническую реализацию для точного связывания контента с конкретным Author Profile, что является фундаментом для оценки Авторитетности в рамках E-E-A-T.
    5. Детальное отслеживание распространения: Система предназначена не только для верификации оригинала, но и для построения Referring Chain, что позволяет детально отслеживать, кто и когда копирует контент.

    Практика

    Практическое применение в SEO

    ВАЖНОЕ ЗАМЕЧАНИЕ: Этот патент (подан в 2013 г.) тесно связан с программой Google Authorship (использование rel=author), которая была прекращена. Поэтому прямые технические рекомендации по реализации описанного механизма (например, создание скрытых ссылок) не актуальны. Однако стратегические выводы остаются важными.

    Best practices (это мы делаем)

    • Обеспечение первенства индексации: Патент подчеркивает критическую важность получения самой ранней Timestamp. Необходимо использовать все методы для ускорения индексации нового контента: XML Sitemaps, Indexing API, запросы на индексацию в GSC.
    • Четкая атрибуция авторства (E-E-A-T): Необходимо последовательно связывать контент с его авторами. Хотя rel=author устарел, следует использовать современные методы: разметку schema.org/author (тип Person), ссылки sameAs на авторитетные профили и детальные страницы «Об авторе».
    • Использование Google Analytics: Патент демонстрирует, что Google может рассматривать данные из систем веб-аналитики как сигналы для обнаружения контента и активности на сайте в реальном времени.
    • Корректная синдикация контента: При распространении контента на других площадках необходимо следить за корректной атрибуцией (rel=canonical) и ссылками на оригинал, чтобы помочь поисковым системам правильно построить Referring Chain.

    Worst practices (это делать не надо)

    • Плагиат и автоматическое копирование контента: Система направлена на точное определение первоисточника и построение Referring Chain для идентификации копий.
    • Игнорирование скорости индексации: Допущение ситуаций, когда агрегаторы или плагиаторы индексируют контент раньше первоисточника, создает риск потери статуса оригинала.
    • Публикация контента без указания автора: Анонимный контент сложнее верифицировать и связать с сигналами экспертности, что противоречит принципам E-E-A-T.
    • (Неактуально) Создание скрытых ссылок для верификации: Не следует пытаться реализовать технический трюк со скрытыми ссылками, описанный в патенте, так как эта конкретная система, скорее всего, не используется в таком виде.

    Стратегическое значение

    Патент является важным документом, иллюстрирующим подход Google к решению проблемы идентификации авторов. Он подтверждает, что установление оригинальности контента и его создателя — это долгосрочные приоритеты поисковой системы. Хотя конкретные технологии изменились (отказ от rel=author в пользу сущностей и Knowledge Graph), стратегическое направление осталось прежним. Современные SEO-стратегии должны фокусироваться на E-E-A-T и помощи Google в точной идентификации авторов и первоисточников контента.

    Практические примеры

    Сценарий: Защита новостного контента от быстрого копирования

    Хотя конкретный метод верификации через скрытые ссылки не актуален, стратегия обеспечения первенства (получение ранней Timestamp) остается ключевой.

    1. Ситуация: Новостное издание публикует эксклюзивную статью. Конкуренты часто копируют такие материалы в течение нескольких минут.
    2. Действия (на основе принципов патента):
      • Издание использует систему веб-аналитики (например, GA), код которой (Unique Content ID) установлен на сайте.
      • Статья публикуется с четкой атрибуцией автора (Schema.org).
      • Сразу после публикации инициируется индексация (например, через Indexing API). Даже если API не используется, первое взаимодействие (трафик редакторов, первые читатели) фиксируется системой аналитики.
    3. Работа системы Google (Принцип):
      • Content Aggregation System (GA) фиксирует первый трафик и присваивает ранний Timestamp статье в реальном времени.
      • Когда конкуренты публикуют копии, система обнаруживает их.
      • Traffic Clustering Engine использует Content Matching, чтобы определить, что это один и тот же контент.
    4. Ожидаемый результат: Сравнивая Timestamps, Google идентифицирует оригинальное издание как первоисточник. Оригинал получает приоритет в ранжировании.

    Вопросы и ответы

    Нужно ли SEO-специалистам рекомендовать авторам создавать скрытые ссылки и переходить по ним, как описано в патенте?

    Нет. Описанный механизм верификации через скрытые ссылки выглядит как техническое доказательство концепции (proof of concept), но он слишком сложен и не стал стандартом. В реальной практике этот механизм не используется. Фокусируйтесь на стандартных методах усиления авторства (E-E-A-T) и быстрой индексации.

    Как этот патент связан с E-E-A-T?

    Он напрямую связан с аспектом Авторитетности (Authoritativeness). Патент описывает техническую инфраструктуру для точной идентификации того, кто создал контент (связь с Author Profile) и когда он это сделал (Timestamp). Верифицированное авторство является сильным сигналом доверия и экспертности, что критично для оценки E-E-A-T.

    Означает ли этот патент, что использование Google Analytics улучшает индексацию или ранжирование?

    Патент явно описывает использование Unique Content ID (кода системы веб-аналитики) для отслеживания трафика в реальном времени и ускорения попадания информации в Web Index. Это подтверждает, что Google технически способен использовать данные из GA для обнаружения нового контента. Это не гарантирует прямого влияния на ранжирование, но может способствовать более быстрой и точной индексации.

    Что важнее для определения первоисточника: данные краулера или временная метка из системы аналитики?

    Согласно патенту, временная метка (Timestamp), полученная через Content Aggregation System (аналитику), имеет приоритет, так как она фиксируется в реальном времени и опережает Web Crawler. Цель изобретения – установить самую раннюю дату существования контента, независимо от скорости сканирования.

    Как система отличает оригинальный контент от копии, если Unique Content ID сохраняется при републикации?

    Патент предлагает два механизма. Во-первых, сравнение временных меток (Timestamp) – у оригинала она будет самой ранней. Во-вторых, использование Referrer and Traffic Clustering Engine, который анализирует трафик и строит Referring Chain, показывающую направление распространения контента от источника к копиям.

    Актуален ли этот патент, учитывая, что Google отказался от отображения авторства в выдаче (Google Authorship)?

    Да, патент актуален стратегически. Google отказался от визуального отображения авторства на базе rel=author, но не отказался от идеи идентификации авторов. Механизмы, описанные в патенте, направлены на внутренние процессы верификации авторства и первоисточника, которые сейчас используются в рамках E-E-A-T и Knowledge Graph.

    Какова роль rel=author в этом патенте?

    rel=author упоминается в описании как способ реализации связи между контентом и профилем автора (Author Profile). Эта связь является необходимым компонентом для работы всей системы идентификации, описанной в патенте, хотя сам тег сейчас устарел для отображения в SERP.

    Что такое «Content Aggregation System» (CAS) в контексте этого патента?

    Судя по описанию функций — отслеживание трафика в реальном времени через уникальный идентификатор, вставленный в HTML страницы, и сбор веб-статистики — это сервис веб-аналитики, такой как Google Analytics.

    Что пришло на смену механизмам этого патента в современном поиске?

    На смену rel=author и верификации через Google+ пришло использование структурированных данных (Schema.org/Person, author), идентификация сущностей в Knowledge Graph и комплексный анализ сигналов качества. Для быстрой фиксации времени публикации используется Indexing API.

    Какой главный практический вывод для SEO-специалиста из этого патента?

    Главный вывод — первенство индексации критически важно для защиты контента и подтверждения статуса оригинала. Необходимо использовать все доступные инструменты (Sitemaps, Indexing API, GSC), чтобы Google зафиксировал ваш контент как можно раньше, а также системно работать над связыванием контента с реальными авторами.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.