Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google агрегирует и распространяет пользовательские комментарии между похожими или синдицированными страницами

    USER INTERFACE FOR WEB COMMENTS (Пользовательский интерфейс для веб-комментариев)
    • US8291014B2
    • Google LLC
    • 2012-10-16
    • 2009-08-12
    2009 Google Shopping Патенты Google

    Патент Google, описывающий инфраструктуру для централизованного сбора комментариев к веб-страницам. Ключевой механизм заключается в идентификации похожих или дублирующихся документов и ассоциации одного и того же комментария с несколькими URL. Система позволяет отображать комментарий рядом с любым из этих документов, даже если он был оставлен на другой странице, а также индексирует эти комментарии для поиска.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему управления и отображения пользовательских комментариев (UGC) в масштабе веба через централизованную систему. Основная задача — устранить фрагментацию обсуждений, когда один и тот же контент публикуется на разных URL (например, синдицированные статьи, дубликаты). Система обеспечивает агрегацию комментариев вокруг самого контента, а не конкретного URL, и позволяет отображать релевантные комментарии на всех схожих страницах.

    Что запатентовано

    Запатентована система и метод для агрегации и распространения веб-комментариев. Система получает комментарий к первому документу, а затем активно идентифицирует другие документы, которые не идентичны первому, но содержат пороговое количество (threshold amount) контента из него. Комментарий ассоциируется со всеми найденными похожими документами. В дальнейшем система может генерировать веб-документ, отображающий контент любого из этих документов (например, в iframe) рядом с исходным комментарием.

    Как это работает

    Механизм работает в несколько этапов:

    • Сбор и хранение: Пользователи оставляют комментарии к веб-странице (Документ 1). Комментарий сохраняется в центральной базе данных (Comments Database) вместе с идентификатором оригинального документа (Original Doc ID). Генерируется уникальная ссылка для доступа.
    • Идентификация похожих документов: Система использует поисковый компонент (Search Engine Component) для поиска других документов (Документ 2, 3…), которые содержат схожий контент, превышающий заданный порог.
    • Ассоциация (Propagation): Идентификаторы похожих документов (Other Doc IDs) ассоциируются с исходным комментарием в базе данных.
    • Отображение: Когда пользователь просматривает любой из ассоциированных документов или переходит по уникальной ссылке, система генерирует страницу, отображающую комментарий и соответствующий веб-документ (например, используя HTML iframe).
    • Индексация: Комментарии индексируются и могут быть показаны в результатах поиска.

    Актуальность для SEO

    Низкая для UI, средняя для backend-концепций. Описанный интерфейс и инфраструктура (тулбары, iframes) практически полностью соответствуют продукту Google Sidewiki (закрыт в 2011 году). Конкретная реализация UI устарела. Однако базовые концепции — централизованный сбор UGC и, что особенно важно, механизм ассоциации этого UGC с похожими или синдицированными документами (UGC Propagation) — остаются актуальными для понимания того, как Google обрабатывает дублированный контент и агрегирует сигналы.

    Важность для SEO

    Патент имеет ограниченное прямое влияние на современные SEO-стратегии (3/10). Он описывает инфраструктуру управления комментариями, а не алгоритмы ранжирования. В патенте не указано, что эти комментарии используются как сигналы ранжирования для самих документов. Однако он предоставляет ценное понимание того, как Google идентифицирует и кластеризует похожий контент (near-duplicate detection), и подтверждает, что такой UGC индексируется и может появляться в результатах поиска.

    Детальный разбор

    Термины и определения

    Bookmarklet (Букмарклет)
    Небольшое приложение (апплет), сохраняемое как закладка в браузере. Используется для добавления функциональности на просматриваемую страницу, например, для отображения комментариев.
    Comment (Комментарий)
    Пользовательский контент (текст, аудио, видео, изображение), который выражает мнение или замечание по поводу контента документа или его части.
    Comments Database (База данных комментариев)
    Централизованное хранилище информации о комментариях, включая контент, авторов, временные метки, рейтинги и идентификаторы ассоциированных документов.
    Document (Документ)
    Любой машиночитаемый продукт, например, веб-страница, файл, новостная статья.
    HTML iframe
    HTML-элемент, позволяющий встраивать один HTML-документ внутрь другого. Используется в патенте для отображения оригинальной веб-страницы внутри сгенерированной страницы с комментариями.
    Link (Ссылка на комментарий)
    Уникальный URL, сгенерированный системой для доступа к конкретному комментарию и ассоциированному с ним документу.
    Original Document ID (Идентификатор оригинального документа)
    Идентификатор (например, URL) документа, на котором комментарий был изначально создан.
    Other Document IDs (Идентификаторы других документов)
    Идентификаторы документов, которые система определила как содержащие тот же или похожий контент, что и оригинальный документ.
    Search Engine Component (Компонент поисковой системы)
    Компонент, отвечающий за поиск других документов, включающих то же или похожее содержание.
    Threshold amount of content (Пороговое количество контента)
    Метрика схожести. Минимальный объем совпадающего контента, необходимый для того, чтобы система ассоциировала комментарий с обоими документами.

    Ключевые утверждения (Анализ Claims)

    Claims этого патента сфокусированы на механизме распространения комментариев на похожие документы.

    Claim 1 (Независимый пункт): Описывает основной метод обработки и ассоциации комментариев.

    1. Получение комментария, относящегося к первому документу (first document).
    2. Идентификация второго документа (second document), который не идентичен первому, но включает по крайней мере threshold amount of content из первого документа (т.е. является схожим).
    3. Определение идентификатора второго документа.
    4. Хранение информации, которая ассоциирует комментарий (к первому документу) с идентификатором второго документа.
    5. Формирование веб-документа (web document), который при рендеринге включает первую часть для представления контента второго документа и вторую часть для представления комментария к первому документу.
    6. Предоставление доступа к этому веб-документу.

    Ядро изобретения — это способность системы автоматически связывать UGC, созданный для одного URL, с другим URL, если контент достаточно похож, и отображать этот UGC в контексте второго URL.

    Claim 7 (Зависимый от 1): Уточняет использование комментариев в поиске (также см. Claims 13 и 20).

    1. Индексация (indexing) сохраненной информации (комментариев).
    2. Получение запроса (query) от пользователя.
    3. Определение того, что комментарий ИЛИ контент второго документа релевантны запросу.
    4. Предоставление информации как части результатов поиска (search results).

    Это критически важное утверждение, подтверждающее, что централизованные комментарии индексируются и участвуют в поиске.

    Claim 8 (Независимый пункт): Описывает устройство (сервер), реализующее схожий механизм для множества похожих документов (plurality of second documents).

    Система идентифицирует не один, а множество похожих документов и ассоциирует комментарий с ними. При отображении генерируется документ, включающий комментарий и контент одного из этого множества документов.

    Где и как применяется

    Изобретение затрагивает инфраструктурные этапы обработки данных и генерации пользовательского интерфейса.

    CRAWLING – Сканирование и Сбор данных
    Система должна сканировать корпус веб-документов, чтобы иметь данные для последующего анализа схожести контента.

    INDEXING – Индексирование и извлечение признаков
    Это ключевой этап для реализации патента:

    1. Анализ схожести контента: Search Engine Component сравнивает документы для выявления тех, которые превышают threshold amount of content. Это требует наличия алгоритмов для выявления дубликатов или синдицированного контента (near-duplicate detection).
    2. Кластеризация документов: Идентификация Original Doc ID и Other Doc IDs является формой кластеризации похожих документов.
    3. Хранение и Индексация UGC: Полученные комментарии сохраняются в Comments Database и, согласно Claim 7, индексируются для поиска.

    RANKING / METASEARCH
    Патент не описывает использование комментариев для ранжирования исходных документов. Однако он описывает, что сами комментарии могут быть извлечены и показаны в результатах поиска, если признаны релевантными запросу (Claim 7).

    Генерация Ответа (Content Delivery)
    Происходит в реальном времени, когда пользователь запрашивает комментарии (через тулбар/букмарклет) или переходит по уникальной ссылке. Сервер генерирует составной документ (комментарий + iframe).

    На что влияет

    • Конкретные типы контента: Наибольшее влияние оказывается на контент, который часто дублируется или синдицируется: новостные статьи, пресс-релизы, описания товаров в e-commerce, блог-посты.
    • Форматы контента: Патент указывает, что анализ схожести применяется к тексту, изображениям, видео и аудио данным.
    • Пользовательский контент (UGC): Влияет на то, как агрегируется и отображается UGC, связанный с веб-страницами.

    Когда применяется

    • Триггеры активации:
      • Создание нового комментария пользователем.
      • Обнаружение системой нового документа, схожего с уже прокомментированным (в процессе индексирования).
      • Запрос пользователя на просмотр документа с комментариями или переход по уникальной ссылке комментария.
    • Пороговые значения: Ключевым условием для ассоциации является превышение threshold amount of content при сравнении двух документов.

    Пошаговый алгоритм

    Процесс А: Создание комментария и ассоциация (Propagation)

    1. Получение комментария: Система получает контент комментария и идентификатор оригинального документа (Doc 1).
    2. Первичное сохранение: Комментарий сохраняется в Comments Database. Генерируется уникальная ссылка.
    3. Анализ схожести: Search Engine Component анализирует контент Doc 1 и ищет в индексе другие документы (Doc 2, Doc 3…).
    4. Фильтрация по порогу: Система определяет документы, превышающие threshold amount of content по схожести с Doc 1.
    5. Ассоциация: Идентификаторы отфильтрованных документов (Other Doc IDs) ассоциируются с комментарием в Comments Database.
    6. Индексация комментария: Контент комментария индексируется для поиска (Claim 7).

    Процесс Б: Отображение комментария

    1. Получение запроса: Система получает запрос (например, переход по ссылке на комментарий или запрос на просмотр Doc 2).
    2. Извлечение данных: Система извлекает контент комментария и идентификатор документа для отображения (например, Doc 2).
    3. Получение контента документа: Система загружает актуальный контент Doc 2.
    4. Генерация веб-документа: Система создает новый HTML-документ.
    5. Встраивание: Контент комментария помещается в одну часть документа, а контент Doc 2 помещается в другую часть (например, в HTML iframe).
    6. Предоставление пользователю: Сгенерированный веб-документ отправляется в браузер.
    7. Сбор обратной связи: Система регистрирует пользовательские оценки комментария (Ratings).

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст, изображения, видео или аудио данные документов критически важны для анализа схожести. Также используется контент самого комментария и связанные с ним теги (Tags).
    • Технические факторы: Идентификаторы документов (URL) используются для ассоциации (Original Doc ID, Other Doc IDs) и извлечения контента.
    • Пользовательские факторы: Информация об авторе комментария (Author), временная метка создания (Timestamp).
    • Поведенческие факторы: Обратная связь пользователей используется для расчета рейтинга комментария (Rating).

    Какие метрики используются и как они считаются

    • Threshold amount of content (Пороговое количество контента): Метрика схожести между двумя документами. Патент упоминает техники для нахождения точного или приблизительного соответствия текста и медиа. Также могут использоваться техники определения общей концепции или темы, или сравнение на основе синонимов. Конкретные алгоритмы (например, SimHash, Shingling) не детализированы.
    • Rating (Рейтинг комментария): Агрегированная метрика обратной связи пользователей (полезно/не полезно). Может рассчитываться как глобально для комментария, так и в контексте каждого ассоциированного документа.

    Выводы

    1. Инфраструктура для централизованного UGC (Google Sidewiki): Патент описывает техническую реализацию системы (вероятно, Google Sidewiki), позволяющей Google собирать и отображать комментарии поверх сторонних сайтов.
    2. Продвинутая обработка дубликатов и синдикации: Ключевой технический аспект — это механизм идентификации похожих документов (на основе threshold amount of content) и распространения комментариев между ними. Это подтверждает способность Google эффективно идентифицировать и кластеризовать неуникальный контент (near-duplicate detection).
    3. Консолидация сигналов UGC вокруг контента, а не URL: Система предназначена для консолидации пользовательского контента. Комментарий, оставленный на одном URL, автоматически применяется ко всем похожим URL в кластере.
    4. Отсутствие связи с ранжированием документов: Патент не содержит информации о том, используются ли эти комментарии или их рейтинги в качестве сигналов ранжирования для ассоциированных документов.
    5. Индексация комментариев для поиска: Комментарии сами по себе являются индексируемым контентом и могут появляться в результатах поиска (Claims 7, 13, 20), что создает дополнительную точку входа к контенту.
    6. Устаревший UI: Механизмы отображения (тулбары, букмарклеты, агрессивное использование iframes) в значительной степени устарели.

    Практика

    Best practices (это мы делаем)

    Хотя прямое влияние патента на SEO ограничено, он дает важные инсайты в обработку контента:

    • Понимание кластеризации контента: Необходимо учитывать, что Google может кластеризовать похожие страницы (даже частичные дубликаты) и консолидировать сигналы между ними. Это подчеркивает важность создания действительно уникального контента для ключевых страниц.
    • Управление стратегией синдикации: Если вы синдицируете контент, этот патент показывает, что Google обладает механизмами для связывания UGC (и потенциально других сигналов) между оригиналом и копиями. Необходимо убедиться, что каноникализация настроена корректно для консолидации авторитета на нужной версии.
    • Мониторинг UGC на платформах Google: Понимание того, что комментарии могут быть проиндексированы и служить точкой входа в выдаче (Claim 7), подтверждает важность мониторинга пользовательского контента, связанного с вашим брендом, на актуальных платформах Google (например, Google Maps).

    Worst practices (это делать не надо)

    • Использование «легкого» рерайтинга или спиннинга: Попытки создать «уникальный» контент путем незначительного изменения существующего неэффективны. Система, описанная в патенте, специально разработана для идентификации контента, превышающего threshold amount of content, и кластеризации таких страниц.
    • Игнорирование проблем дублирования контента: Расчет на то, что Google будет рассматривать частичные дубликаты как отдельные сущности, является ошибкой. Система активно ищет возможности для консолидации данных между похожими страницами.

    Стратегическое значение

    Стратегическое значение этого патента заключается в подтверждении того, насколько серьезно Google подходит к проблеме дублированного и синдицированного контента. Вместо того чтобы рассматривать каждый URL изолированно, Google стремится понять взаимосвязи между контентом и консолидировать данные (в данном случае UGC) на уровне кластера похожих документов. Для SEO-специалистов это означает, что стратегия должна фокусироваться на создании добавленной ценности и уникальности, а также на строгом техническом контроле каноникализации.

    Практические примеры

    Сценарий: Консолидация комментариев для синдицированной статьи (Иллюстрация механизма)

    1. Публикация оригинала: Сайт А (авторитетное СМИ) публикует новостную статью. Пользователи оставляют комментарии через систему Google (например, Sidewiki).
    2. Синдикация: Сайт Б (региональный новостной портал) полностью копирует статью Сайта А по лицензии.
    3. Анализ Google: Система Google анализирует контент Сайта Б и определяет, что он превышает threshold amount of content по сравнению со статьей Сайта А.
    4. Ассоциация: Система обновляет Comments Database, добавляя URL Сайта Б в поле Other Doc IDs для комментариев, оставленных на Сайте А.
    5. Результат для пользователя: Когда пользователь посещает статью на Сайте Б, система Google может отобразить рядом с ней комментарии, которые были изначально оставлены на Сайте А. Обсуждение консолидируется вокруг контента, а не конкретного URL.

    Вопросы и ответы

    Описывает ли этот патент Google Sidewiki?

    Хотя название Google Sidewiki не упоминается, описанные механизмы — централизованная база комментариев, отображение комментариев поверх сторонних сайтов через тулбары или iframes — практически идеально совпадают с функциональностью продукта Google Sidewiki (2009-2011). Можно с высокой долей уверенности предположить, что патент описывает его инфраструктуру.

    Используются ли эти комментарии как фактор ранжирования?

    Согласно тексту патента — нет. Патент фокусируется на сборе, хранении, ассоциации комментариев с похожими документами и их отображении. В нем нет упоминаний об использовании контента комментариев или их рейтингов для влияния на Ranking Score ассоциированных веб-страниц.

    Что означает «пороговое количество контента» (threshold amount of content)?

    Это метрика схожести. Если два разных документа имеют достаточно много общего контента (текста, изображений и т.д.), превышающего установленный порог, система считает их связанными. Это позволяет системе понять, что на разных URL находится по сути одна и та же статья или очень похожий контент.

    Как система определяет, какие документы похожи?

    Патент упоминает использование существующих техник для поиска точного или приблизительного соответствия контента (текст, медиа). Также упоминается возможность определения общей концепции или темы документа и поиск других документов по той же теме, а также использование синонимов. Это указывает на комплексный анализ контента для обнаружения дубликатов.

    Какое значение этот патент имеет для моей стратегии синдикации контента?

    Патент демонстрирует, что Google активно идентифицирует синдицированный контент и стремится консолидировать сигналы (в данном случае UGC) между копиями. Это подчеркивает важность правильной технической реализации синдикации (например, использование канонических ссылок), чтобы гарантировать, что авторитет и релевантные сигналы агрегируются на предпочтительной для вас версии контента.

    Могут ли комментарии, оставленные через эту систему, появляться в поиске Google?

    Да. В Claims 7, 13 и 20 прямо указано, что система индексирует информацию о комментариях. Если система определит, что комментарий релевантен запросу пользователя, он может быть предоставлен как часть результатов поиска (search results). Это может служить дополнительной точкой входа к обсуждению вашего контента.

    Актуален ли этот патент, если Google Sidewiki закрыт?

    Конкретная реализация пользовательского интерфейса (UI), описанная в патенте, устарела. Однако backend-механизмы, особенно касающиеся идентификации похожих документов (near-duplicate detection) и ассоциации данных между ними, остаются крайне актуальными для понимания общих принципов работы Google с дублированным контентом.

    Как система отображает комментарий и веб-страницу одновременно?

    Если у пользователя установлено специальное расширение или тулбар, оно может модифицировать вид страницы. Если расширения нет (например, при переходе по ссылке на комментарий), патент описывает генерацию нового документа на сервере, который включает две части: одна содержит комментарий, а другая отображает оригинальную веб-страницу через HTML iframe.

    Поможет ли этот патент бороться со скрапингом моего контента?

    Напрямую нет. Но он показывает, что если ваш контент украден и размещен на другом сайте, Google, скорее всего, сможет идентифицировать связь между оригиналом и копией с помощью анализа схожести контента. Это может помочь в консолидации сигналов на оригинальной версии, при условии правильной технической оптимизации.

    Применяется ли это к комментариям в социальных сетях или на моем собственном сайте?

    Патент описывает специфическую централизованную систему Google для комментирования любых веб-страниц. Он не относится напрямую к внутренним системам комментирования сайтов или обсуждениям в социальных сетях, хотя базовые принципы анализа схожести контента могут применяться Google и в других контекстах.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.