Как Google собирает, кластеризует и агрегирует отзывы о товарах из разных источников

Google использует систему для автоматического сбора отзывов с сайтов электронной коммерции и обзорных площадок. Ключевая технология — кластеризация отзывов, относящихся к одному и тому же товару, путем извлечения и анализа идентификаторов (бренд, модель, категория, глобальные идентификаторы) из текста, метаданных и URL. Это позволяет формировать агрегированные данные, такие как средний рейтинг и частотные фразы, для отображения в поиске.

Описание

Какую задачу решает

Патент решает проблему разрозненности и неоднородности информации об отзывах на товары и услуги в интернете. Пользователям сложно агрегировать отзывы из множества источников. Ключевая техническая проблема — разные сайты часто используют разную номенклатуру для одного и того же товара, что затрудняет автоматическое определение того, что отзывы относятся к одному продукту. Изобретение автоматизирует процесс сбора, идентификации (кластеризации) и агрегации этих отзывов.

Что запатентовано

Запатентована система и метод для кластеризации пользовательских отзывов. Суть изобретения заключается в извлечении отзывов из электронных документов (например, веб-страниц) и идентификации набора отзывов, относящихся к одному и тому же item of interest (объекту интереса, например, товару). Эта идентификация осуществляется с помощью item identifying information (идентифицирующей информации), такой как уникальные идентификаторы продукта, названия брендов, номера моделей и категории, извлеченной из этих документов.

Как это работает

Система работает в несколько этапов, разделенных между Backend и Frontend серверами:

Сбор данных (Backend): Используется Crawling Module для целенаправленного сканирования (selective crawling) сайтов, содержащих отзывы.
Извлечение (Backend): Review Extraction Module извлекает как сам текст отзыва, так и идентифицирующую информацию о продукте (бренд, модель, категория). Если информация не указана явно, система пытается вывести ее из заголовков или URL.
Кластеризация (Backend): Review Aggregating Module группирует отзывы, относящиеся к одному продукту, путем сравнения извлеченных идентификаторов. Отзывам в кластере присваивается ClusterID.
Агрегация (Backend): Для каждого кластера система вычисляет сводные данные: средний рейтинг (average rating), распределение оценок и часто встречающиеся фразы (frequently appearing phrases).
Отображение (Frontend): Frontend Server предоставляет пользователю агрегированные данные и возможность поиска внутри отзывов по конкретному продукту.

Актуальность для SEO

Высокая. Хотя оригинальная заявка датируется 2004 годом, описанные проблемы (агрегация отзывов, распознавание сущностей, кластеризация продуктов) остаются крайне актуальными для Google, особенно в контексте Google Shopping, Local Search и Product Knowledge Panels. Современные системы, вероятно, используют более продвинутые методы ML/NLP, но базовая логика, опирающаяся на идентификаторы (Brand, Model, GTIN), описанная здесь, остается фундаментом.

Важность для SEO

Влияние на SEO высокое (75/100), особенно для E-commerce и сайтов-агрегаторов. Патент раскрывает фундаментальные механизмы того, как Google идентифицирует товары и связывает с ними отзывы из разных источников. Понимание алгоритмов кластеризации критически важно для обеспечения того, чтобы отзывы о товарах были корректно распознаны и агрегированы Google. Это напрямую влияет на представление продукта в поиске, включая Rich Snippets и позиции в Google Shopping.

Детальный разбор

Термины и определения

Aggregated Review Information (Агрегированная информация об отзывах): Сводные данные для продукта: средний рейтинг, количество отзывов, распределение оценок и Frequently Appearing Phrases.
ClusterID: Уникальный идентификатор, присваиваемый группе (кластеру) отзывов, которые система идентифицировала как относящиеся к одному и тому же продукту.
Clustering (Кластеризация): Процесс идентификации отзывов, относящихся к одному и тому же продукту, несмотря на различия в номенклатуре на разных сайтах.
Frequently Appearing Phrases (Часто встречающиеся фразы): Униграммы, биграммы или триграммы, наиболее часто встречающиеся в отзывах о продукте. Используются для понимания ключевых аспектов обсуждения.
Item Identifying Information (Идентифицирующая информация об объекте): Данные, используемые для кластеризации: уникальные идентификаторы (например, ISBN, GTIN), название бренда (Brand Name), номер модели (Model Number), категория продукта (Category Information).
Quality Score (Оценка качества отзыва): Метрика для оценки качества отдельного отзыва. Упоминается, что она основана на длине отзыва и энтропии слов (word entropy), т.е. разнообразии используемых терминов.
Review Aggregating Module: Компонент, выполняющий кластеризацию отзывов и генерацию агрегированной информации.
Review Extraction Module: Компонент, извлекающий контент отзыва и item identifying information из скачанных страниц.
Selective Crawling (Выборочное сканирование): Метод сканирования, при котором краулер следует только по определенным ссылкам на странице (например, ведущим на страницы с отзывами), а не по всем ссылкам.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод кластеризации отзывов.

Система извлекает множество пользовательских отзывов из одного или нескольких электронных документов.
Система идентифицирует набор отзывов, которые связаны с одним и тем же item of interest (объектом интереса, товаром).
Для этой идентификации используется item identifying information, содержащаяся в электронных документах.
Система ассоциирует этот набор отзывов с данным объектом интереса (т.е. выполняет кластеризацию).

Claim 2 (Зависимый от 1): Уточняет, что такое item identifying information.

Это может быть уникальный идентификатор продукта, название бренда, номер модели или информация о категории.

Claim 3 и 4 (Зависимые от 1): Уточняют источники item identifying information.

Информация может быть извлечена из метаданных (metadata), включенных в электронный документ (Claim 3), или из URL, связанного с электронным документом (Claim 4).

Claim 5 (Зависимый от 1): Уточняет источники электронных документов.

Документы получаются с веб-сайтов электронной коммерции (e-commerce websites) или веб-сайтов с обзорами продуктов (product-review websites).

Где и как применяется

Изобретение охватывает этапы сбора и обработки данных о товарах и отзывах, в основном выполняемые на Backend-сервере.

CRAWLING – Сканирование и Сбор данных
Система использует selective crawling. Link Parser инструктирует краулер следовать только по тем ссылкам, которые потенциально ведут к страницам с отзывами (определяется по паттернам в URL или анкорном тексте).

INDEXING – Индексирование и извлечение признаков
Это ключевой этап применения патента.

Извлечение: Review Extraction Module парсит страницы для извлечения текста отзыва и item identifying information.
Нормализация и Вывод (Inference): Система применяет эвристики для определения идентификаторов (Бренд, Модель, Категория) из неструктурированного текста (например, заголовков) и нормализует их (например, приводит категории к каноническому виду).
Кластеризация: Review Aggregating Module использует эти идентификаторы для группировки отзывов об одном товаре, присваивая им ClusterID.
Агрегация: Вычисляются сводные метрики (average rating, frequent phrases, Quality Score) для каждого ClusterID и индивидуальных отзывов.

Все эти данные сохраняются в Reviews Database и индексируются.

RANKING / METASEARCH – Ранжирование и Метапоиск
Frontend-сервер использует агрегированные данные для ответов на запросы пользователей. Это включает отображение агрегированных рейтингов в результатах поиска (Google Shopping, Rich Snippets) и предоставление интерфейса для изучения отзывов.

Входные данные:

Необработанный контент скачанных веб-страниц (включая текст, метаданные, URL).
Списки известных брендов, канонических названий категорий и черные списки для номеров моделей.

Выходные данные:

Reviews Database, содержащая индивидуальные отзывы с присвоенными ClusterID.
Агрегированные данные для каждого ClusterID.

На что влияет

Конкретные типы контента: Страницы товаров (PDP) в интернет-магазинах, страницы обзоров на контентных сайтах и агрегаторах.
Конкретные ниши или тематики: E-commerce, локальный бизнес (рестораны, отели), медиа (книги, фильмы).
Специфические запросы: Влияет на коммерческие запросы, связанные с поиском товаров или отзывов о них.

Когда применяется

Условия работы: Алгоритм применяется постоянно в рамках процесса индексирования контента при обнаружении страниц с отзывами.
Исключения: Если item identifying information определить невозможно (например, не удалось определить бренд или модель), отзыв может быть помещен в отдельный сингулярный кластер (singleton cluster) и не агрегируется с другими.

Пошаговый алгоритм

Процесс А: Сбор и Извлечение Данных

Выборочное сканирование (Selective Crawling): Краулер загружает страницы и извлекает новые ссылки, соответствующие заданным паттернам (в URL или анкорном тексте), которые потенциально ведут к отзывам.
Извлечение контента отзыва: Review parser извлекает текст отзыва, автора, дату, рейтинг.
Извлечение идентификаторов продукта (Item Identifying Information). Детальный процесс вывода (Inference):
1. Извлечение категории: Анализ заголовка страницы (Title string) справа налево, игнорирование слов после предлогов («for», «with»), сопоставление с предопределенным списком канонических категорий (например, «laptop» -> «notebooks»).
2. Извлечение номера модели: Анализ заголовка слева направо, поиск первого слова с цифрами, конкатенация с предыдущим словом, проверка по черному списку (например, исключение «pentium \d+»).
3. Извлечение бренда: Сопоставление слов в заголовке с известными брендами или извлечение из URL.

Процесс Б: Кластеризация и Агрегация

Сравнение идентификаторов и Кластеризация: Система сравнивает извлеченные идентификаторы. Два отзыва помещаются в один кластер, если они удовлетворяют строгим правилам: имеют одинаковое точное название бренда И согласуются по номерам моделей (имеют непустое пересечение) И согласуются по категориям (одинаковые или одна из них неизвестна).
Присвоение ClusterID: Отзыву присваивается ClusterID.
Генерация агрегированных данных:
1. Расчет среднего рейтинга: Вычисление среднего значения нормализованных рейтингов. Может применяться взвешивание по источнику отзыва или предпочтениям пользователя.
2. Определение частотных фраз: Подсчет взвешенных вхождений фраз (униграмм, биграмм, триграмм). Вхождения в заголовке или сводке отзыва имеют больший вес. Расчет оценки: длина фразы * sqrt(сумма взвешенных вхождений). Выбор топ-N непересекающихся фраз с наивысшими оценками.
Расчет качества отзывов: Для индивидуальных отзывов рассчитывается Quality Score на основе длины и энтропии слов (word entropy).
Индексирование: Сохранение данных в Reviews Database и обновление Reviews Index.

Какие данные и как использует

Данные на входе

Система использует данные, извлеченные непосредственно из контента и структуры веб-страниц.

Контентные факторы:
- Заголовки страниц (Title strings): Критически важны для эвристического извлечения бренда, модели и категории.
- Текст отзыва (Review content) и сводка (Review summary): Используются для анализа частотных фраз и расчета Quality Score.
- Рейтинг, Автор, Дата отзыва.
Технические факторы:
- URL: Используется для идентификации страниц при selective crawling и может использоваться для извлечения бренда (Claim 4).
Структурные факторы:
- Метаданные: Упоминаются как возможный источник item identifying information (Claim 3).
- Анкорный текст ссылок (Anchor text): Используется при selective crawling.
Внешние данные (словари):
- Список канонических категорий продуктов.
- Список известных названий брендов.
- Черный список паттернов для номеров моделей.

Какие метрики используются и как они считаются

Критерии кластеризации: Логические правила сопоставления идентификаторов. Требуется точное совпадение бренда и согласие (пересечение) по модели и категории.
Average Rating (Средний рейтинг): Рассчитывается как среднее взвешенное значение нормализованных рейтингов. Формула: (Σ αᵢ * ratingᵢ) / Σ αᵢ. Вес (αᵢ) может зависеть от источника (например, 1/K, где K – число отзывов с этого сайта) или предпочтений пользователя.
Score for Frequent Phrases (Оценка для частотных фраз): Метрика для определения наиболее важных аспектов обсуждения. Формула: Длина фразы * sqrt(Сумма взвешенных вхождений). Вхождения в заголовке/сводке имеют больший вес.
Quality Score (Оценка качества отзыва): Рассчитывается на основе длины отзыва и энтропии слов (разнообразия используемых терминов). Используется для сортировки по релевантности/качеству, например, по формуле: Review-per-word-entropy * sqrt(Review-Length).

Выводы

Критичность точной идентификации продукта (Entity Reconciliation): Ядро патента — способность Google связывать разрозненные отзывы с конкретным продуктом. Система полагается на item identifying information: глобальные идентификаторы, бренд, модель и категорию.
Извлечение идентификаторов из неструктурированного текста: Google разработал конкретные эвристики для извлечения идентификаторов из заголовков страниц (Title) и URL. Понимание этих эвристик (анализ слева направо для модели, справа налево для категории) дает представление о том, как Google парсит ключевые элементы страницы.
Важность согласованности данных: Кластеризация требует точного совпадения бренда и согласованности модели/категории. Несогласованность данных на разных площадках может привести к фрагментации кластеров (один товар будет распознан как несколько разных).
Агрегация как сигнал качества и интента: Система не просто собирает отзывы, но и анализирует их для извлечения frequently appearing phrases (ключевые характеристики продукта) и оценки качества отдельных отзывов (Quality Score на основе длины и разнообразия лексики).
Источники данных: Google активно сканирует и использует контент сайтов E-commerce и обзорных площадок для построения собственной базы знаний о продуктах и отзывах.

Практика

Best practices (это мы делаем)

Обеспечение согласованности идентификаторов (Data Consistency): Критически важно использовать точные и согласованные идентификаторы продукта (Бренд, Номер модели/MPN, GTIN/ISBN) на всех площадках: на собственном сайте, в фидах Google Merchant Center и на маркетплейсах. Это гарантирует корректную кластеризацию отзывов.
Использование структурированных данных (Schema.org): Внедряйте микроразметку Product и Review/AggregateRating. Предоставление идентификаторов через метаданные (на что ссылается Claim 3) упрощает работу системы кластеризации. Указывайте brand, mpn, sku, и глобальные идентификаторы (gtin).
Оптимизация заголовков страниц (Title/H1): Так как система активно анализирует заголовки для извлечения идентификаторов, убедитесь, что заголовки товаров четко содержат бренд, номер модели и категорию в чистом формате. Структура «Бренд + Модель + Категория» является оптимальной для парсинга.
Стимулирование качественных отзывов: Поощряйте пользователей оставлять развернутые и содержательные отзывы. Поскольку система рассчитывает Quality Score на основе длины и разнообразия лексики (Word Entropy), такие отзывы будут иметь больший вес и лучшую видимость при сортировке.
Анализ частотных фраз (Frequent Phrases): Изучайте фразы, которые Google выделяет в отзывах о ваших товарах. Это прямой инсайт о том, какие характеристики важны пользователям. Используйте эту информацию для оптимизации контента страницы товара.

Worst practices (это делать не надо)

Несогласованная номенклатура: Использование разных названий или номеров моделей для одного и того же товара. Это затрудняет кластеризацию и фрагментирует данные о продукте.
Отсутствие четких идентификаторов: Продажа товаров без указания точного бренда или номера модели. Отзывы по таким товарам могут не агрегироваться (попадать в singleton cluster).
«Зашумленные» или переспамленные заголовки: Использование сложных заголовков страниц, которые мешают алгоритмам извлечения бренда и модели (например, когда парсер может ошибочно принять часть названия за модель или не найти категорию).
Генерация шаблонных отзывов: Короткие отзывы с низкой энтропией слов получат низкий Quality Score.

Стратегическое значение

Этот патент подчеркивает стремление Google структурировать информацию о всех продуктах, выступая как глобальный агрегатор мнений. Для E-commerce это означает, что управление точностью данных (Data Quality Management) и репутацией продукта (ORM) являются ключевыми элементами SEO-стратегии. Успешная кластеризация приводит к лучшему представлению продукта в поиске (Rich Snippets, Google Shopping), повышению доверия пользователей и улучшению сигналов E-E-A-T. Фактически, это один из базовых патентов, описывающих процесс распознавания товарных сущностей (Product Entities).

Практические примеры

Сценарий: Оптимизация карточки товара для корректной кластеризации

Продукт: Сканер Canon CanoScan LiDE 30 (MPN: 7890A002).

Анализ проблемы: На сайте магазина товар называется «Дешевый цветной сканер Canon». Система Google не может надежно извлечь модель (LiDE 30 или 7890A002) из такого заголовка, что мешает кластеризации.
Действия (на основе патента):
1. Оптимизация заголовков: Изменить Title и H1 на: «Сканер Canon CanoScan LiDE 30 (7890A002)». Это соответствует структуре, которую алгоритмы вывода (Inference) могут легко распарсить (Бренд, Модель, Категория).
2. Добавление идентификаторов: Убедиться, что MPN (7890A002) и GTIN указаны в тексте.
3. Микроразметка (Метаданные): Внедрить Schema.org/Product с указанием этих идентификаторов в полях brand, model, mpn, gtin.
Ожидаемый результат: Google корректно извлечет идентификаторы, сопоставит товар с существующим ClusterID и начнет отображать агрегированные отзывы из разных источников в поисковой выдаче и Google Shopping.

Вопросы и ответы

Как именно Google определяет, что отзывы с разных сайтов относятся к одному товару?

Это ключевая задача, описанная в патенте (Clustering). Система извлекает item identifying information: глобальные идентификаторы (ISBN/GTIN), бренд, номер модели и категорию. Отзывы группируются, если у них точно совпадает бренд и есть пересечение (согласие) по номерам моделей и категориям. Для извлечения этих данных используются эвристики анализа заголовков страниц и URL.

Насколько важны заголовки (Title) страниц для этого патента?

Критически важны. Патент детально описывает эвристики, которые анализируют заголовок страницы (Title string) для извлечения бренда, модели и категории. Например, модель ищется слева направо (первое слово с цифрами), а категория — справа налево. Неудачный или зашумленный заголовок может помешать корректному извлечению идентификаторов и правильной кластеризации отзывов.

Что такое «Часто встречающиеся фразы» (Frequently Appearing Phrases) и как они влияют на SEO?

Это наиболее частые фразы в текстах отзывов о товаре (например, «время работы батареи»). Они показывают, какие аспекты продукта наиболее важны для пользователей. Для SEO это ценный источник информации о пользовательском интенте и важных характеристиках товара, которые стоит осветить в контенте для повышения релевантности.

Как Google оценивает качество отдельного отзыва? Стоит ли стимулировать длинные отзывы?

Да, стоит. Патент упоминает метрику Quality Score, которая рассчитывается на основе длины отзыва и «энтропии слов» (word entropy) — разнообразия лексики. Следовательно, развернутые, детальные и лексически богатые отзывы ценятся системой выше шаблонных или коротких комментариев.

Учитывает ли система вес источника при расчете среднего рейтинга?

Да. Патент описывает формулу среднего рейтинга, которая поддерживает взвешивание (weighted ratings). Вес может зависеть от количества отзывов на сайте-источнике (например, вес 1/K) или может быть персонализирован на основе предпочтений пользователя (например, если пользователь доверяет определенному обзорному сайту).

Как этот патент связан с микроразметкой Schema.org?

Патент описывает методы извлечения данных из неструктурированного текста. Однако в Claim 3 упоминается извлечение информации из метаданных. Современная микроразметка (Schema.org/Product и Review) является формой метаданных, которая предоставляет эти идентификаторы в явном виде, что значительно упрощает и повышает точность работы описанной системы кластеризации.

Что такое «Выборочное сканирование» (Selective Crawling)?

Это метод, при котором краулер не следует по всем ссылкам на странице, а только по тем, которые соответствуют определенным критериям (паттернам в URL или анкорном тексте). Это позволяет системе целенаправленно искать страницы с отзывами, не тратя ресурсы на сканирование нерелевантных разделов сайта.

Что произойдет, если система не сможет определить бренд или модель товара?

В патенте указано, что такие отзывы помещаются в отдельный сингулярный кластер (singleton cluster) и не группируются с другими отзывами. На практике это означает, что такие отзывы могут «потеряться» или не будут связаны с основным профилем продукта, что ухудшает агрегацию данных.

Может ли информация быть извлечена из URL?

Да, патент явно упоминает (в описании и Claim 4), что item identifying information, например, название бренда, может быть извлечено из URL страницы, на которой найден отзыв. Это подчеркивает важность использования человекопонятных URL, включающих ключевую информацию о продукте.

Какие типы сайтов в первую очередь затрагивает этот патент?

Патент явно указывает на два основных типа источников данных: веб-сайты электронной коммерции (e-commerce websites) и веб-сайты с обзорами продуктов (product-review websites).