Google разработал систему для агрегации взаимодействий (постов, комментариев) вокруг определенного контента, независимо от того, где они были созданы. Система использует канонические идентификаторы для связи обсуждений на разных платформах (например, в социальной сети и на сайте-источнике) и приоритизирует отображение этих обсуждений на основе социального графа пользователя.
Описание
Какую задачу решает
Патент решает проблему фрагментации обсуждений контента в интернете. Пользователи часто обсуждают один и тот же контент (например, статью или видео) в разных местах: на сайте оригинала, в социальных сетях и на других платформах. Это затрудняет получение полного представления о дискуссии и снижает вовлеченность. Изобретение направлено на унификацию этих разрозненных разговоров (post data items) в единый поток.
Что запатентовано
Запатентована система агрегации взаимодействий (постов, комментариев), относящихся к одному элементу контента (Content Item), но созданных на разных платформах. Ключевым механизмом является присвоение контенту идентификатора контента (Content Identifier) или канонического ID (Canonical ID) и тегирование всех связанных постов этим идентификатором. При просмотре контента система извлекает агрегированные посты и приоритизирует их отображение на основе социального графа (Social Graph) зрителя.
Как это работает
Система работает следующим образом:
- Создание и Тегирование: Когда пользователь создает пост (например, в социальной сети), ссылаясь на внешний контент (например, через URL), система определяет Canonical ID этого контента и тегирует пост этим идентификатором.
- Агрегация: Когда другой пользователь посещает страницу с исходным контентом, система (например, через виджет комментариев) ищет все доступные посты, тегированные соответствующим Canonical ID.
- Фильтрация и Ранжирование: Агрегированные посты фильтруются (на основе приватности и модерации) и ранжируются. Ранжирование активно использует Social Graph зрителя, приоритизируя посты от его контактов.
- Уведомление Авторов (Опционально): Система может идентифицировать владельца контента (например, через Authorship Tag) и уведомить его о новых публичных обсуждениях его контента на сторонних платформах.
Актуальность для SEO
Средняя. Патент описывает инфраструктуру, которая, вероятно, поддерживала системы вроде Google+ Comments (приоритетная заявка подана в 2013 году). Хотя Google+ был закрыт, базовые технологии, описанные в патенте — каноникализация контента, агрегация сигналов из разных источников, идентификация авторства и использование социального графа для персонализации — остаются фундаментальными для инфраструктуры Google. Концепция отслеживания вовлеченности за пределами сайта-источника остается актуальной.
Важность для SEO
Патент имеет умеренное значение для SEO (4.5/10). Он не описывает алгоритмы ранжирования поиска, а фокусируется на инфраструктуре комментирования и пользовательском опыте (UX). Однако он демонстрирует технические возможности Google по отслеживанию и агрегации социальных сигналов и вовлеченности, связанных с конкретным URL. Он подчеркивает критическую важность правильной каноникализации для консолидации всех сигналов вокруг основного URL и демонстрирует механизмы связи контента с авторами/владельцами (E-E-A-T).
Детальный разбор
Термины и определения
- Authorship Tag / Notification Tag (Тег авторства / Тег уведомления)
- Метаданные, связанные с элементом контента, которые идентифицируют автора или владельца и содержат информацию для связи (email, username). Используется для отправки уведомлений автору о новых взаимодействиях с его контентом.
- Canonical ID / Content Identifier (Канонический ID / Идентификатор контента)
- Уникальный идентификатор, присваиваемый элементу контента. Используется для агрегации взаимодействий. Разные URL, ведущие к одному и тому же контенту, связываются с одним Canonical ID.
- Content Item (Элемент контента)
- Объект, вокруг которого происходят взаимодействия (видео, статья, изображение, веб-страница).
- News Cluster (Новостной кластер)
- Группа различных, но тематически связанных новостных статей. Статьи в одном кластере могут иметь общий идентификатор, что позволяет агрегировать комментарии со всех статей кластера.
- Post Data Item (Элемент постовых данных)
- Пользовательский контент (посты, комментарии, ответы). Термины post, posting и comment используются взаимозаменяемо.
- Registry (Реестр)
- База данных, хранящая проиндексированную информацию о страницах контента, включая URL, автора, адрес для уведомлений и Content ID.
- Social Graph (Социальный граф)
- Сеть связей пользователя в социальной сети. Используется для фильтрации и приоритизации отображения агрегированных комментариев.
Ключевые утверждения (Анализ Claims)
Анализ основан на Claims 1-20 патентной заявки US20170134333A1.
Claim 1 (Независимый пункт): Описывает основной метод агрегации и персонализации.
- Система получает запрос на создание первого поста (first post data item) в первом расположении (например, в социальной сети). Этот пост включает ссылку (reference) на content item.
- Система определяет content identifier для этого поста на основе ссылки.
- Система извлекает один или несколько дополнительных постов на основе того же content identifier (т.е. посты, также ссылающиеся на этот контент).
- Ключевое условие: Система предоставляет (отображает) эти посты, основываясь на том, находятся ли авторы постов в social graph зрителя.
Ядром изобретения является агрегация комментариев с разных платформ с помощью общего идентификатора и обязательное использование социального графа зрителя для определения порядка их отображения.
Claim 5 (Зависимый от 1): Детализирует механизм отображения.
Процесс предоставления постов включает приоритизацию (prioritizing) поста, если его автор находится в социальном графе зрителя.
Claim 3 и 4 (Зависимые от 1): Добавляют факторы ранжирования комментариев.
Отображение также основывается на свежести (recency) постов (Claim 3). Сортировка может основываться на географической близости (geographical proximity) авторов, находящихся в социальном графе зрителя (Claim 4).
Claim 6 (Зависимый от 1, в оригинальной заявке): Уточняет контекст.
Предоставление постов происходит в ответ на запрос доступа ко второму расположению (например, сайту с контентом), которое отличается от первого (где был создан пост). Это подтверждает кроссплатформенную природу системы.
Где и как применяется
Изобретение описывает инфраструктуру для кросс-платформенного взаимодействия и затрагивает несколько этапов обработки данных.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит подготовка данных (офлайн и при индексации нового контента):
- Каноникализация и Генерация ID: Система (Content ID Generator) анализирует контент и определяет для него Canonical ID, который сохраняется в хранилище (Canonical ID Storage).
- Индексация контента и Авторство: Индексатор (Indexer) извлекает Authorship Tags и сохраняет информацию об авторах в Реестре (Registry).
- Кластеризация: Анализ контента для формирования News Clusters и присвоения общих идентификаторов связанным материалам.
CRAWLING / INDEXING (Обработка взаимодействий)
Когда создается новый Post Data Item (комментарий или пост):
- Система (Comment Analyzer) идентифицирует ссылки на контент.
- Tagging Module запрашивает Canonical ID и помечает им пост.
- Пост сохраняется в хранилище (Comment Storage / Post Data).
RANKING / RERANKING (При отображении контента)
Основное применение происходит в реальном времени, когда пользователь запрашивает страницу. Это не ранжирование в веб-поиске, а ранжирование агрегированных комментариев.
- Извлечение: Comment Retrieval модуль извлекает все посты, помеченные соответствующим Canonical ID.
- Фильтрация: Применяются настройки приватности и модерации (Pre-Filter, Post-Filter).
- Ранжирование и Персонализация: Система получает данные о Social Graph пользователя и ранжирует доступные посты. Посты от контактов пользователя получают приоритет.
Входные данные:
- Canonical ID просматриваемого контента.
- База данных индексированных постов с тегами Canonical ID и авторами.
- Идентификатор зрителя и его Social Graph.
- Настройки модерации владельца контента.
- Registry с данными об авторах.
Выходные данные:
- Отранжированный и персонализированный поток комментариев на странице контента.
- Уведомления для авторов контента о новых взаимодействиях.
На что влияет
- Типы контента: Влияет на отображение пользовательского контента (UGC) на страницах, содержащих обсуждаемые Content Items (статьи, видео, изображения). Не влияет напрямую на ранжирование этих страниц в основном поиске Google.
- Ниши: Особенно актуально для новостного контента, где применяется концепция News Cluster для агрегации комментариев по всей теме, а не только к конкретной статье.
Когда применяется
- Триггеры активации:
- При создании нового поста/комментария, содержащего ссылку на идентифицируемый контент (активирует тегирование и, возможно, уведомление автора).
- При загрузке страницы, содержащей контент, для которого активирована система агрегации комментариев (например, через Comments Widget).
- Условия: Применение ранжирования на основе Social Graph требует идентификации зрителя и доступа к его социальным связям.
Пошаговый алгоритм
Процесс А: Создание поста и тегирование
- Создание поста: Пользователь создает Post Data Item на Платформе А (например, в социальной сети), включая ссылку на контент.
- Анализ контента: Система анализирует пост для идентификации ссылки (Reference).
- Определение Canonical ID: Система определяет Canonical ID для контента, на который ведет ссылка.
- Тегирование: Система помечает (тегирует) пост этим Canonical ID.
- Сохранение и Уведомление: Пост сохраняется. Если он публичный, система может идентифицировать автора контента через Authorship Tag или Registry и отправить уведомление.
Процесс Б: Отображение агрегированных комментариев
- Запрос страницы: Пользователь запрашивает страницу на Платформе Б (например, сайт-источник), содержащую контент.
- Идентификация Canonical ID: Система определяет Canonical ID контента на странице.
- Извлечение комментариев: Система извлекает все Post Data Items из хранилища, помеченные этим Canonical ID.
- Идентификация зрителя и доступ к Social Graph: Система идентифицирует пользователя и получает данные его социального графа.
- Фильтрация (Приватность и Модерация): Удаляются посты, недоступные зрителю по настройкам приватности или не прошедшие модерацию владельца (в зависимости от настроек Pre-filter/Post-filter).
- Ранжирование (Персонализация): Оставшиеся посты ранжируются. Посты от авторов из Social Graph зрителя приоритизируются. Также учитываются свежесть, рейтинги и географическая близость.
- Отображение: Комментарии отображаются в отранжированном порядке.
Какие данные и как использует
Данные на входе
- Технические факторы (Ссылки): URL (References), включенные в посты. Критически важны для определения Canonical ID.
- Пользовательские факторы (Социальные): Данные Social Graph зрителя и авторов постов. Это ключевой фактор для персонализации. Идентификаторы пользователей.
- Географические факторы: Географическое положение (geographical proximity) авторов постов может использоваться для сортировки.
- Контентные факторы: Текст постов и комментариев. Содержимое Content Item (используется для определения News Cluster).
- Структурные факторы: Authorship Tags на страницах контента или данные из Registry, используемые для идентификации владельцев и их контактной информации.
Какие метрики используются и как они считаются
Патент не описывает метрики для SEO-ранжирования, но перечисляет факторы для ранжирования агрегированных комментариев:
- Присутствие в Social Graph: Ключевой фактор приоритизации. Посты от пользователей в графе зрителя повышаются.
- Recency (Свежесть): Время создания поста или последней активности.
- Ratings (Рейтинги): Метрики одобрения поста другими пользователями (лайки, +1).
- Geographical Proximity (Географическая близость): Расстояние между зрителем и автором комментария.
- Approval Status (Статус модерации): Метка одобрения/отклонения комментария владельцем контента.
Выводы
- Консолидация сигналов через Canonical ID: Центральным элементом системы является Canonical ID. Это подчеркивает стремление Google консолидировать все сигналы взаимодействия (комментарии, репосты) вокруг единого идентификатора контента, независимо от платформы или используемого URL.
- Отслеживание вовлеченности за пределами сайта: Патент демонстрирует инфраструктуру для мониторинга и агрегации обсуждений контента на сторонних платформах, позволяя оценить популярность контента в широком контексте.
- Персонализация на основе Социального Графа: Система активно использует Social Graph для ранжирования комментариев. Взаимодействия от знакомых пользователя считаются более релевантными и приоритетными для показа.
- Идентификация авторов и владельцев: Описаны механизмы идентификации авторов контента (через Authorship Tag или Registry) для уведомления их о взаимодействиях. Это связано с общими усилиями Google по идентификации сущностей и авторов (E-E-A-T).
- Агрегация на уровне тем (Clustering): Концепция News Cluster показывает, что агрегация может происходить не только на уровне отдельного документа, но и на уровне темы, объединяя взаимодействия с разными, но связанными материалами.
Практика
ВАЖНО: Этот патент является инфраструктурным и фокусируется на социальной интеграции и UX, а не на сигналах ранжирования в SEO. Практическое применение для SEO ограничено, но он дает важное понимание базовых принципов работы Google.
Best practices (это мы делаем)
- Обеспечение корректной каноникализации: Это критически важно. Патент показывает, что Canonical ID используется для агрегации всех взаимодействий с контентом. Убедитесь, что теги rel=»canonical», редиректы и Sitemap настроены правильно, чтобы все социальные сигналы и обсуждения консолидировались вокруг основного URL.
- Использование структурированных данных для авторства: Хотя механизм Authorship Tag (например, rel=author) устарел, патент подтверждает интерес Google к идентификации авторов. Используйте актуальные методы (Schema.org: author, publisher), чтобы помочь системам Google связать контент с сущностями (E-E-A-T).
- Стимулирование органического обсуждения контента: Создание контента, который стимулирует обсуждения и репосты, увеличивает объем отслеживаемых взаимодействий. Хотя это не прямой фактор ранжирования, это улучшает видимость и вовлеченность.
Worst practices (это делать не надо)
- Фрагментация контента и ошибки каноникализации: Создание дубликатов контента на разных URL без четкой каноникализации. Это приводит к размыванию сигналов вовлеченности, так как система не сможет связать обсуждения с основным документом или присвоит им разные Canonical IDs.
- Игнорирование технических основ идентификации контента: Отсутствие последовательной структуры URL и чистой технической реализации сайта затрудняет системам Google корректное определение Canonical ID.
Стратегическое значение
Патент отражает видение Google эпохи Google+, когда социальные сигналы и персонализация считались стратегически важными. Он подтверждает, что Google разрабатывал сложные технологии для отслеживания популярности и обсуждения контента в сети. Хотя конкретная реализация устарела, базовые принципы — каноникализация, идентификация сущностей и агрегация сигналов вовлеченности — остаются ключевыми элементами стратегии Google.
Практические примеры
Сценарий 1: Консолидация сигналов через каноникализацию
- Ситуация: Статья доступна по адресам http://site.com/article и http://site.com/article?ref=feed.
- Действие SEO-специалиста: Специалист проверяет, что обе версии имеют тег rel=»canonical», указывающий на http://site.com/article.
- Результат (согласно патенту): Пользователи делятся обеими ссылками в социальных сетях. Система Google определяет единый Canonical ID. Все посты и комментарии агрегируются под этим единым ID, консолидируя сигналы вовлеченности вокруг основной версии статьи.
Сценарий 2: Агрегация обсуждений в Новостном Кластере (News Cluster)
- Ситуация: Сайт А и Сайт Б публикуют статьи об одном и том же событии.
- Механизм (согласно патенту): Google определяет, что обе статьи принадлежат к одному News Cluster и связывает их общим тематическим идентификатором.
- Результат: Комментарии, оставленные к статье на Сайте А, могут быть агрегированы и отображены в блоке комментариев на Сайте Б, и наоборот. Это демонстрирует способность Google группировать контент по темам для объединения связанных сигналов.
Вопросы и ответы
Является ли этот патент доказательством того, что социальные сигналы являются фактором ранжирования?
Нет. Патент описывает механизм сбора, агрегации и персонализированного отображения социальных взаимодействий на странице контента, а не для ранжирования этих страниц в поисковой выдаче. Однако он демонстрирует, что у Google есть инфраструктура для отслеживания и анализа этих взаимодействий в привязке к конкретному контенту.
Что такое Canonical ID или Content Identifier в контексте этого патента и почему это важно для SEO?
Canonical ID — это уникальный идентификатор, который Google присваивает элементу контента. Для SEO это критически важно, так как патент показывает, что все взаимодействия (комментарии, посты) агрегируются именно вокруг этого ID. Правильная настройка rel=canonical гарантирует, что сигналы вовлеченности не будут размыты между дубликатами страниц, а консолидируются вокруг основного URL.
Патент активно использует Social Graph. Как это работает?
Social Graph — это карта социальных связей пользователя. В патенте он используется как главный механизм персонализации потока комментариев. Система проверяет, есть ли автор комментария в социальном графе зрителя, и если да, то приоритизирует (повышает) этот комментарий в списке отображения.
Что такое News Cluster и как он используется?
Это группа разных статей от разных источников, которые система определила как относящиеся к одной теме или событию. Патент предлагает объединять комментарии для всех статей внутри кластера. Пользователь, читая одну статью, сможет увидеть обсуждения, оставленные к другим статьям по этой же теме.
Что такое Authorship Tag, упомянутый в патенте? Это устаревший rel=author?
Authorship Tag в патенте — это общий термин для метаданных, идентифицирующих автора контента. Он использовался системой для уведомления автора о новых взаимодействиях. Хотя он может относиться к rel=author (актуальному на момент подачи приоритетной заявки), концептуально он соответствует современным методам идентификации авторов через структурированные данные (Schema.org).
Актуален ли этот патент, учитывая закрытие Google+?
Актуальность средняя. Вероятно, он описывал инфраструктуру Google+ Comments. Хотя эта конкретная реализация больше не используется, базовые технологии, описанные в патенте — каноникализация URL, агрегация данных с разных источников, идентификация авторов и использование социальных данных для персонализации — остаются фундаментальными для работы систем Google.
Может ли владелец сайта модерировать комментарии, оставленные на других платформах?
Да, если система агрегации активна на его сайте. Патент описывает интерфейс модерации, позволяющий владельцу одобрять (approve) или отклонять (disapprove) посты, даже если они были созданы в другом месте. Владелец может настроить пре-фильтрацию (показывать только одобренные) или пост-фильтрацию (скрывать только отклоненные).
Как система обрабатывает приватные посты или комментарии?
Патент учитывает приватность. Если пост помечен как приватный и расшарен с ограниченной группой пользователей, он будет виден только этим пользователям в агрегированном потоке. Он не будет виден публике или владельцу контента, если они не входят в разрешенную группу.
Использует ли система географические данные?
Да, патент упоминает возможность сортировки комментариев на основе географической близости (geographical proximity) авторов, которые находятся в социальном графе зрителя. Это еще один слой персонализации для отображения наиболее релевантных обсуждений.
Какое основное практическое действие для SEO следует из этого патента?
Самое важное действие — это тщательный контроль за каноникализацией вашего контента. Поскольку система агрегирует все взаимодействия вокруг Canonical ID, любые ошибки в настройке канонических URL приведут к потере или фрагментации ценных сигналов вовлеченности, которые Google отслеживает.