Как Google использует пользовательские комментарии для определения связей между продуктами и динамического создания навигационных категорий

Google анализирует неструктурированный текст пользовательских комментариев (UGC) для выявления упоминаний различных продуктов и определения взаимосвязей между ними (альтернативы, дополнения, сравнения). Эти данные используются для кластеризации товаров и, что особенно важно, для динамического изменения навигационных категорий на сайте (например, в маркетплейсе), помогая пользователям находить связанные товары.

Описание

Какую задачу решает

Патент решает проблему извлечения структурированной информации из неструктурированного пользовательского контента (UGC), такого как отзывы и комментарии. Он устраняет сложность ручного анализа большого объема разрозненных комментариев для понимания того, как пользователи сравнивают продукты, какие считают альтернативами или дополнениями. Кроме того, патент решает проблему жесткой, предопределенной навигации сайта (таксономии), которая может не отражать реальные взаимосвязи между продуктами, упоминаемые пользователями.

Что запатентовано

Запатентована система, которая анализирует consumer-submitted comments на странице Продукта А, идентифицирует упоминания Продукта Б и определяет взаимосвязь между ними на основе содержания текста. Ключевым элементом изобретения является использование этих выявленных взаимосвязей для динамического изменения навигационных инструментов сайта, в частности, для создания или обновления подкатегорий, отражающих кластеры связанных продуктов, выявленные в UGC.

Как это работает

Система работает в несколько этапов:

Идентификация UGC: Система находит неструктурированный текст (комментарии) на странице продукта.
Распознавание сущностей: В тексте идентифицируются упоминания других продуктов или поставщиков.
Определение взаимосвязей: Анализируется контекст вокруг упоминаний для определения отношений (например, поиск фраз типа «лучше чем», «перешел с… на», «использую вместе с»).
Кластеризация и Анализ тональности: Взаимосвязи коррелируются для кластеризации похожих продуктов (Cluster) и определения их относительного качества на основе прямых сравнений (Sentiment Analysis).
Динамическое обновление навигации: Система изменяет набор навигационных подкатегорий (Sub-categories), чтобы отразить выявленные кластеры продуктов.

Актуальность для SEO

Высокая. Анализ пользовательского контента (UGC) с помощью NLP для понимания сущностей, взаимосвязей и тональности является фундаментальной частью современного поиска и E-commerce. Использование этих данных для динамической кластеризации, улучшения навигации и персонализации пользовательского опыта остается ключевой задачей для поисковых систем и маркетплейсов.

Важность для SEO

Патент имеет высокое значение (80/100) для SEO, особенно в E-commerce и на маркетплейсах. Он демонстрирует механизм, с помощью которого Google может автоматически определять релевантные кластеры продуктов и динамически изменять таксономию и навигацию на основе UGC. Это напрямую влияет на архитектуру сайта, внутреннюю перелинковку и то, как продукты обнаруживаются пользователями.

Детальный разбор

Термины и определения

Cluster (Кластер): Группа связанных продуктов или поставщиков, сформированная на основе выявленных взаимосвязей в комментариях (например, группа продуктов-альтернатив). Используются для создания подкатегорий.
Consumer-submitted comments (Комментарии, отправленные потребителями): Пользовательский контент (UGC), такой как отзывы о продуктах, посты на форумах. Является основным источником данных для анализа. Также называется Unstructured text.
Navigational Tool (Навигационный инструмент): Элемент интерфейса, позволяющий пользователям перемещаться по иерархическим категориям сайта. Этот инструмент динамически обновляется системой.
Product or Provider (Продукт или Поставщик): Сущность, которая продается или обсуждается (товар, услуга, приложение, бренд, производитель).
Reference (Упоминание/Ссылка): Идентификация продукта или поставщика в тексте комментария.
Relationship (Взаимосвязь): Связь между двумя продуктами, определенная на основе контента комментария. Типы связей включают альтернативы (alternatives/substitutes), дополнения (complements/supplements), а также прямые сравнения (direct comparison).
Sentiment Analysis (Анализ тональности): Процесс определения относительного качества или популярности продуктов путем анализа положительных и отрицательных утверждений и прямых сравнений в комментариях.
Sub-categories (Подкатегории): Более узкие категории в навигационном инструменте. Система динамически изменяет набор подкатегорий (с first set на second set) на основе анализа комментариев и кластеризации.

Ключевые утверждения (Анализ Claims)

Ядром изобретения, согласно патенту, является не просто анализ комментариев, а использование результатов этого анализа для динамического изменения навигации сайта.

Claim 1 (Независимый пункт): Описывает процесс динамического обновления навигационного инструмента на основе анализа UGC.

Система предоставляет документ с навигационным инструментом, отображающим первый набор подкатегорий (first set of sub-categories).
Система идентифицирует неструктурированный текст (consumer-submitted comments), связанный с первым продуктом.
В этом тексте идентифицируется упоминание второго продукта.
Определяется взаимосвязь между первым и вторым продуктом на основе содержания текста.
В ответ на определение взаимосвязи система включает оба продукта в cluster связанных продуктов.
Ключевое действие: В ответ на определение взаимосвязи система изменяет первый набор подкатегорий, генерируя второй набор (second set of sub-categories), отличный от первого. Второй набор включает подкатегорию, соответствующую новому кластеру.
Система предоставляет документ с обновленным навигационным инструментом, отображающим второй набор подкатегорий.

Система активно изменяет структуру навигации сайта в ответ на анализ содержания пользовательских комментариев. Если пользователи начинают обсуждать два продукта как альтернативы, система создает для них общий кластер и обновляет навигацию, чтобы отразить эту связь.

Claim 2 (Зависимый): Включает добавление гиперссылки к идентифицированному упоминанию второго продукта в тексте комментария.

Claims 4, 5, 9 (Зависимые): Уточняют типы определяемых взаимосвязей: дополнения (supplements), прямые сравнения (direct comparison) и альтернативы (alternatives).

Claim 6 (Зависимый): Включает ранжирование первого и второго продуктов на основе выявленной взаимосвязи и предоставление индикации этого ранжирования.

Claim 10 (Зависимый): Детализирует, как может происходить изменение набора подкатегорий: изменение количества подкатегорий, изменение типа или изменение названия существующей подкатегории.

Где и как применяется

Изобретение затрагивает этапы индексирования для анализа контента и этапы формирования выдачи для изменения пользовательского интерфейса (например, внутри маркетплейса).

CRAWLING – Сканирование и Сбор данных
Система должна сканировать страницы продуктов и связанный с ними пользовательский контент (комментарии, отзывы).

INDEXING – Индексирование и извлечение признаков
Основная часть анализа происходит здесь. Система выполняет NLP-обработку неструктурированного текста комментариев:

Entity Recognition: Идентификация упоминаний продуктов и поставщиков.
Relationship Extraction: Определение взаимосвязей между сущностями на основе контекста.
Sentiment Analysis: Анализ тональности и сравнений для определения относительного качества.
Clustering: Корреляция данных и группировка связанных продуктов в кластеры.

Эти данные сохраняются в базе данных или индексе.

RANKING / RERANKING – Ранжирование / Переранжирование
Система может использовать извлеченные данные о взаимосвязях и сравнительной тональности (относительном качестве) для ранжирования продуктов внутри кластера или категории (как описано в Claim 6).

METASEARCH – Метапоиск и Смешивание (Формирование UI)
На этом этапе происходит применение основного механизма патента (Claim 1). При формировании страницы система динамически генерирует или изменяет Navigational Tool, обновляя набор подкатегорий на основе актуальных кластеров продуктов. Также здесь могут добавляться гиперссылки, отображаться рекомендации и перекрестные комментарии.

Входные данные:

Страницы продуктов и их контент.
Неструктурированный текст consumer-submitted comments (UGC).
Существующая таксономия сайта (Hierarchical Categories).
База данных известных идентификаторов продуктов и поставщиков (для распознавания упоминаний).

Выходные данные:

Извлеченные взаимосвязи между продуктами.
Кластеры связанных продуктов.
Оценки относительного качества продуктов.
Динамически сгенерированные наборы подкатегорий для навигации.

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние оказывается на электронную коммерцию, маркетплейсы (например, магазины приложений, Google Shopping), агрегаторы отзывов и сайты сравнения товаров. Влияет на страницы товаров и страницы категорий.
Структура сайта и навигация: Патент напрямую описывает механизм динамического создания и изменения таксономии сайта (подкатегорий) на основе анализа UGC.
Обнаружение продукта (Product Discovery): Механизм напрямую влияет на то, как пользователи находят продукты, создавая новые навигационные пути, основанные на реальном пользовательском опыте и сравнениях.

Когда применяется

Триггеры активации: Активация происходит при обнаружении упоминания второго продукта в комментариях к первому продукту и успешном определении взаимосвязи между ними.
Частота применения: Анализ комментариев может происходить непрерывно по мере их поступления и индексации. Обновление навигации и кластеров происходит динамически в ответ на выявление новых взаимосвязей или при достижении определенного порога уверенности.

Пошаговый алгоритм

Процесс А: Анализ контента (Индексирование)

Сбор данных: Получение контента страницы продукта (Продукт А) и связанных с ней комментариев.
Парсинг и идентификация UGC: Выделение блоков неструктурированного пользовательского текста.
Извлечение сущностей: Поиск упоминаний других продуктов (Продукт Б) в тексте. Используются методы сопоставления строк, частичного совпадения и исправления ошибок.
Извлечение взаимосвязей: Анализ контекста вокруг упоминаний. Поиск ключевых фраз, указывающих на сравнение («лучше, чем», «медленнее»), замену («перешел с… на…») или дополнение («использую вместе с»).
Анализ тональности: Определение относительного качества или предпочтений на основе сравнений.
Корреляция и кластеризация: Агрегация данных из множества комментариев (возможно, с разных страниц). Группировка продуктов в кластеры на основе подтвержденных взаимосвязей (альтернативы, дополнения).
Сохранение: Запись взаимосвязей, кластеров и оценок качества в базу данных.

Процесс Б: Динамическое обновление навигации (Формирование выдачи)

Получение запроса: Пользователь запрашивает страницу (например, страницу категории или продукта).
Определение исходной навигации: Система определяет текущий стандартный набор подкатегорий (Набор 1).
Проверка кластеров: Система обращается к базе данных для получения актуальных кластеров, релевантных для запрошенной страницы.
Генерация новой навигации: На основе кластеров система динамически генерирует новый набор подкатегорий (Набор 2). Это может включать добавление новых подкатегорий, изменение названий или состава существующих (Claim 10).
Ранжирование (Опционально): Ранжирование продуктов внутри кластеров на основе анализа тональности (Claim 6).
Формирование UI: Генерация страницы с обновленным навигационным инструментом (Набор 2). Также могут быть добавлены рекомендации, гиперссылки в комментариях (Claim 2) или блоки сравнения.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст пользовательских комментариев (Unstructured Text). Это основной источник данных для извлечения сущностей и взаимосвязей. Также используется контент страницы (описания) для определения контекста и основного продукта страницы.
Структурные факторы: Существующая иерархия категорий сайта (Hierarchical Categories). Местоположение комментария на странице (связь комментария с основным продуктом страницы).
Поведенческие/Пользовательские факторы (Косвенно): В описании патента (не в Claims) упоминается возможность взвешивания комментариев на основе репутации пользователя (reputation of a consumer identity), отправившего комментарий, для предотвращения злоупотреблений.

Какие метрики используются и как они считаются

Патент не предоставляет конкретных формул, но описывает следующие ключевые метрики и методы:

Идентификация сущностей: Используются методы NLP для распознавания именованных сущностей (NER) – названий продуктов и брендов. Упоминаются методы full string, sub-string matching и учет опечаток.
Метрики взаимосвязей: Определение типа связи (альтернатива, дополнение) на основе лингвистических паттернов и ключевых слов в тексте.
Сравнительный анализ тональности (Comparative Sentiment Analysis): Оценка предпочтений пользователей при прямом сравнении двух продуктов. Система может подсчитывать частоту утверждений «А лучше Б» против «Б лучше А».
Кластеризация: Группировка продуктов на основе общих взаимосвязей. Если А – альтернатива Б, а Б – альтернатива В, то А, Б и В могут быть объединены в один кластер.
Динамическая таксономия: Создание или изменение подкатегорий на основе характеристик кластера.

Выводы

UGC напрямую влияет на архитектуру и навигацию сайта: Ключевой вывод заключается в том, что система может динамически изменять структуру навигации (подкатегории) на основе анализа пользовательских комментариев. Это отход от статических таксономий к динамическим, основанным на реальном пользовательском восприятии.
Распознавание сущностей в UGC критически важно: Способность системы идентифицировать упоминания различных продуктов в неструктурированном тексте является основой всего процесса. Это позволяет Google понять конкурентную среду и взаимосвязи между продуктами, даже если они не указаны производителем.
Кластеризация на основе реальных взаимосвязей: Продукты группируются не только по типу, но и по тому, как их используют потребители (как альтернативы или дополнения). Это обеспечивает более релевантную группировку товаров.
Сравнительный анализ как сигнал ранжирования: Патент подчеркивает важность прямых сравнений (direct comparisons) в отзывах. Система может использовать эти сравнения для ранжирования продуктов внутри кластера (Claim 6), что может быть более сильным сигналом, чем агрегированные оценки (звездочки).
Перекрестное использование информации: Информация, полученная на одной странице, может влиять на отображение и навигацию на других страницах (например, добавление гиперссылок, рекомендаций или отображение отзывов на страницах связанных продуктов).

Практика

Best practices (это мы делаем)

Стимулирование детальных и сравнительных отзывов: Поощряйте пользователей оставлять содержательные отзывы, которые включают сравнения с другими продуктами или описывают сценарии использования (например, с какими продуктами используется вместе). Это предоставляет системе больше данных для анализа взаимосвязей и формирования кластеров.
Обеспечение доступности UGC для индексации: Убедитесь, что пользовательские отзывы и комментарии легко сканируются и индексируются. Они должны быть частью HTML-кода страницы, а не скрыты за сложным JavaScript или недоступными iframe.
Мониторинг и анализ UGC для оптимизации таксономии: Анализируйте, как пользователи обсуждают ваши продукты и с чем их сравнивают. Используйте эти инсайты для улучшения собственной структуры сайта, создания новых категорий или фильтров, соответствующих ментальной модели пользователей (и, следовательно, модели Google).
Четкое позиционирование и наименование продуктов: Убедитесь, что названия продуктов и брендов легко распознаются и однозначны. Это помогает системе корректно идентифицировать упоминания в неструктурированном тексте.

Worst practices (это делать не надо)

Использование фейковых сравнительных отзывов (Astroturfing): Попытки манипулировать системой путем публикации поддельных отзывов рискованны. Патент упоминает механизмы защиты, такие как взвешивание комментариев на основе репутации пользователя.
Удаление или цензурирование упоминаний конкурентов: Удаление отзывов, в которых упоминаются альтернативные продукты, лишает систему ценных данных для понимания взаимосвязей и может затруднить корректную кластеризацию вашего продукта.
Игнорирование пользовательского контента в SEO-стратегии: Рассмотрение UGC как второстепенного фактора является ошибкой. Этот патент показывает, что UGC может напрямую влиять на структуру сайта и оценку качества продукта.

Стратегическое значение

Патент подчеркивает стратегический сдвиг от оптимизации отдельных продуктов к оптимизации продуктовых экосистем и пониманию рынка через призму пользовательского опыта. Для SEO-специалистов это означает необходимость понимать не только то, как ранжируется продукт, но и как он позиционируется относительно конкурентов в UGC. Система может автоматически определять конкурентов и формировать навигацию на основе этих данных, подтверждая важность анализа сущностей (Entity Analysis) в пользовательском контенте как ключевого элемента SEO-стратегии для e-commerce.

Практические примеры

Сценарий: Динамическое создание навигации в магазине приложений (по мотивам примера из патента)

Исходная ситуация: В маркетплейсе есть категория «Коммуникации» > «E-mail». В ней находятся сотни приложений. Навигация стандартная.
Действия пользователей: Пользователи оставляют отзывы о Почтовом Клиенте А, сравнивая его с Клиентом Б. Например: «Я перешел с Клиента Б на Клиент А, потому что у А лучше функции бэкапа и хранения данных».
Анализ системой: Google индексирует отзывы. Идентифицирует Клиенты А и Б. Определяет взаимосвязь: альтернативы. Определяет фокус сравнения: бэкап и хранение.
Кластеризация и обновление навигации: Система агрегирует похожие отзывы и формирует кластер приложений с фокусом на хранении данных. Затем она динамически обновляет навигацию. В категории «E-mail» появляется новая подкатегория: «Storage and Backup» (Хранение и Бэкап), включающая Клиенты А и Б.
Результат для SEO: Клиенты А и Б теперь доступны через новую, релевантную, динамически созданную навигационную категорию, что улучшает их обнаруживаемость по соответствующим интентам.

Сценарий: Улучшение ранжирования через анализ сравнений

Ситуация: Продукт имеет средний рейтинг (например, 3.5 звезды), но в комментариях пользователи, которые пробовали конкурирующие продукты, часто пишут: «Этот продукт намного надежнее, чем Продукт Х и Продукт Y».
Анализ (как в патенте): Система проводит Sentiment Analysis с фокусом на прямых сравнениях. Она определяет, что при сравнении с Х и Y данный продукт выигрывает в 80% случаев.
Результат: Несмотря на средний общий рейтинг, система может повысить ранг этого продукта в списке рекомендаций или внутри динамически созданного кластера, так как его относительное качество по сравнению с прямыми конкурентами высоко.

Вопросы и ответы

Что является ядром изобретения согласно Claim 1?

Ядром является не просто анализ комментариев или определение качества продуктов. Главное — это использование взаимосвязей, извлеченных из пользовательских комментариев (UGC), для динамического изменения навигационных подкатегорий на сайте. Система автоматически адаптирует таксономию на основе того, как пользователи реально воспринимают и связывают продукты.

Как система определяет, являются ли два продукта альтернативами или дополнениями?

Система анализирует содержание неструктурированного текста вокруг упоминаний продуктов. Фразы типа «перешел с А на Б» или прямое сравнение («А лучше Б») указывают на альтернативы (alternatives). Фразы типа «использую А вместе с Б» или «А хорошо работает с Б» указывают на дополнения (supplements).

Насколько важны прямые сравнения в отзывах по сравнению с общими оценками (звездочками)?

Они критически важны. Патент подчеркивает, что анализ прямых сравнений (direct comparison) может дать более точную оценку относительного качества. Система может определить, что Продукт А лучше Продукта Б, даже если у Продукта Б выше средний рейтинг, если пользователи, имевшие опыт с обоими продуктами, последовательно предпочитают Продукт А в тексте отзывов.

Как этот патент влияет на внутреннюю перелинковку сайта?

Патент напрямую влияет на внутреннюю перелинковку двумя способами. Во-первых, динамическое обновление навигационных инструментов создает новые внутренние ссылки на страницы продуктов через сгенерированные подкатегории. Во-вторых, как указано в Claim 2, система может автоматически добавлять гиперссылки к упоминаниям продуктов в тексте комментариев, связывая страницы продуктов напрямую из UGC.

Учитывает ли система авторитетность автора комментария?

Да, в описании патента (хотя и не в Claims) упоминается, что для предотвращения злоупотреблений и повышения точности ранжирования система может взвешивать влияние комментариев на основе репутации (reputation) пользователя, который его оставил. Комментарии от авторитетных пользователей могут иметь больший вес.

Может ли система неправильно определить продукт в комментарии?

Да, распознавание сущностей в неструктурированном тексте не идеально. Однако патент упоминает использование методов частичного совпадения строк и распознавания распространенных опечаток. Контекст страницы (о каком продукте идет речь) также помогает разрешить неоднозначности и повысить точность идентификации.

Что такое кросс-референсинг (Cross-referencing) комментариев?

Это механизм, позволяющий использовать информацию с одной страницы на другой. Например, если на странице Продукта А пользователь написал «Продукт Б лучше», этот комментарий или вывод из него может быть показан на странице Продукта Б. Это помогает пользователям получать агрегированную информацию о продуктах.

Влияет ли этот механизм на SEO для сайтов, не связанных с e-commerce?

Влияние менее выражено, но механизм может применяться шире. Например, на информационных сайтах или форумах система может анализировать комментарии для выявления связей между различными темами, компаниями (поставщиками услуг) или концепциями, и использовать это для динамической категоризации контента или улучшения рекомендательных блоков.

Стоит ли удалять отзывы, в которых упоминаются конкуренты?

С точки зрения этого патента, это не лучшая практика. Сравнительные отзывы являются ценным источником данных для системы, позволяя ей понять взаимосвязи между продуктами и оценить их относительное качество. Удаление таких отзывов может помешать корректной кластеризации вашего продукта.

Как этот патент связан с E-E-A-T?

Патент косвенно связан с E-E-A-T через анализ пользовательского опыта (Experience). Отзывы и сравнения являются прямым отражением опыта использования продукта. Система использует этот агрегированный опыт для оценки качества продукта относительно конкурентов и определения его места на рынке, что влияет на его видимость и ранжирование.