
Патент описывает систему Google для сбора отзывов о товарах из интернета. Система использует селективное сканирование сайтов, извлекает текст отзывов, рейтинги и авторов. Затем она автоматически определяет, к какому именно продукту относится отзыв (даже при разных названиях), и создает сводную информацию: общий рейтинг, распределение оценок и список часто упоминаемых фраз. Эта система позволяет пользователям искать информацию внутри отзывов о конкретном товаре.
Патент решает проблему неэффективности поиска и анализа отзывов о продуктах в интернете. Пользователям сложно получить целостное представление (holistic view) обо всех отзывах, так как они разбросаны по разным сайтам (веб-страницы, форумы), а стандартный поиск возвращает много нерелевантных результатов. Существовавшие агрегаторы часто полагались на ручной сбор данных и предоставляли ограниченные инструменты для навигации и поиска внутри собранных отзывов.
Запатентована система для автоматического поиска, извлечения и агрегации отзывов о продуктах. Система собирает информацию из различных источников, автоматически извлекает отзывы и определяет, к какому конкретному продукту они относятся (Кластеризация). Для каждого продукта генерируется агрегированная информация, включающая средний рейтинг и frequently appearing phrases (часто встречающиеся фразы). Также запатентован пользовательский интерфейс, который позволяет выполнять поиск внутри корпуса отзывов, собранных для конкретного продукта.
Система работает в несколько этапов:
frequently appearing phrases.Высокая. Хотя методы извлечения данных и NLP значительно продвинулись с момента подачи патента (2004 год), описанные в нем принципы являются фундаментальными для систем агрегации отзывов, включая Google Shopping, Local Search (Maps) и Rich Snippets в основном поиске. Автоматическое связывание отзывов с конкретными товарами (кластеризация) и извлечение ключевых аспектов (frequently appearing phrases) остаются критически важными задачами.
Патент имеет высокое значение для SEO (8/10), особенно в e-commerce и на сайтах-отзовиках. Он раскрывает инфраструктуру, с помощью которой Google собирает и интерпретирует отзывы для формирования расширенных результатов поиска (Rich Snippets) и страниц товаров в вертикалях. Понимание процессов извлечения и кластеризации критически важно для оптимизации структуры страниц и разметки, чтобы гарантировать корректное распознавание отзывов и их привязку к нужным продуктам.
frequently appearing phrases.Cluster.weighted occurrences) и длины фразы. Отображаются пользователю как предлагаемые поисковые запросы (server-suggested search terms).word entropy), которая измеряет разнообразие используемых терминов.Review parser.Claim 1 (Независимый пункт): Описывает основной метод сбора и агрегации отзывов.
Критически важная деталь: Агрегированный отзыв включает список предлагаемых сервером поисковых терминов (server-suggested search terms), которые автоматически выбираются из отзывов о продукте в соответствии с их взвешенными вхождениями (weighted occurrences).
Claim 18 (Независимый пункт): Аналогичен Claim 1, но фокусируется на автоматической генерации frequently appearing phrases как части агрегированной информации.
Зависимые пункты (Claims 2, 5-8): Детализируют процесс сбора информации.
Сбор может включать selective crawling (Claim 2). Источниками могут быть веб-страницы сайтов с отзывами, сайтов о продуктах или сообщения на форумах (Claims 5-8).
Зависимые пункты (Claims 9-13): Детализируют процесс идентификации продукта (кластеризации).
Идентификация может происходить путем связывания уникального номера (например, номера модели или ISBN) в отзыве с продуктом (Claims 9-11). Или путем связывания комбинации бренда и номера модели (Claim 12), или комбинации бренда, номера модели и категории продукта (Claim 13) в отзыве с продуктом.
Изобретение описывает полноценную систему для работы с отзывами, затрагивающую несколько этапов поисковой архитектуры.
CRAWLING – Сканирование и Сбор данных
Основное применение. Система использует Crawling Module для сбора данных. Ключевая особенность — Selective Crawling. Link parser анализирует скачанные страницы и определяет, какие ссылки могут вести к отзывам (на основе паттернов в URL или анкорном тексте), и только эти ссылки добавляются в URL queue. Это повышает эффективность сбора релевантных данных.
INDEXING – Индексирование и извлечение признаков
Критически важный этап обработки.
Review Extraction Module обрабатывает скачанные страницы, извлекая структурированные данные: текст отзыва, рейтинг, автора, а также идентификаторы продукта (бренд, модель).Review Aggregating Module определяет, к какому продукту относится отзыв. Используются извлеченные идентификаторы (Бренд, Модель, Категория) или глобальные идентификаторы (ISBN). Отзывы об одном продукте группируются и получают ClusterID.Aggregated Review): средний рейтинг, распределение оценок.frequently appearing phrases для кластера и QualityScore для индивидуальных отзывов.Reviews Indexer создает Reviews Index, который позволяет искать отзывы по терминам, ClusterID или автору.RANKING / RERANKING – Ранжирование / Переранжирование
Применяется при поиске внутри отзывов. Когда пользователь ищет отзывы (либо все, либо в рамках одного продукта), Review Search Module использует Reviews Index для поиска. Результаты могут быть отсортированы (Reviews sorter) по релевантности запросу, дате или качеству отзыва (QualityScore).
Входные данные (Backend):
Выходные данные (Backend -> Frontend):
Reviews Database (индивидуальные и агрегированные отзывы).Reviews Index.Product-to-Review Map (связь продуктов с ClusterID).Процесс А: Сбор и обработка данных (Backend)
Link Parser) анализирует ссылки на странице.Cluster), если у них совпадает бренд и есть пересечение по номерам моделей и категориям.ClusterID.QualityScore на основе длины и энтропии слов.frequently appearing phrases (см. Процесс Б).Процесс Б: Вычисление Frequently Appearing Phrases (Backend)
Процесс В: Обработка запроса пользователя (Frontend)
Product-to-Review Map для поиска ClusterID и обращается к индексу отзывов. При поиске внутри отзывов поиск ограничивается нужным ClusterID.Content), заголовок отзыва (Title), резюме отзыва (Summary). Заголовки и резюме имеют больший вес при расчете частотных фраз. Название продукта используется для кластеризации.Publisher) и может использоваться для определения бренда. URL и анкорный текст ссылок используются для принятия решений при селективном сканировании.Date) используется для сортировки.Brand name), Номер модели (Model number), Категория продукта (Product category), ISBN. Извлекаются из контента или структуры страницы и критически важны для кластеризации.Author) и тип отзыва (Review Type: editorial или user) извлекаются и используются для классификации.Rating) извлекается и нормализуется.Review-Length) и энтропии слов (Review-per-word-entropy). В одном из вариантов сортировки по релевантности (качеству) используется формула: Review-per-word-entropy×Review-Length.Selective Crawling) для сбора конкретных типов данных (отзывов). Система целенаправленно ищет отзывы, анализируя паттерны URL и анкорный текст, оптимизируя ресурсы.Clustering). Это основа для создания агрегированных рейтингов и Rich Snippets.frequently appearing phrases, используя взвешенную формулу, отдавая предпочтение вхождениям в заголовках.Review Extraction Module корректно извлечь данные и снижает вероятность ошибок парсинга.QualityScore учитывает длину и разнообразие лексики (энтропию), следует поощрять пользователей оставлять подробные, информативные отзывы. Отзывы с большей длиной и высокой энтропией считаются более качественными.frequently appearing phrases.Crawling Module и Review Extraction Module.QualityScore и будут иметь меньший вес или игнорироваться.Этот патент подтверждает стратегическую важность отзывов как источника данных о продуктах для Google. Система, описанная в патенте, лежит в основе функционала Google Shopping, Local Search и Rich Snippets в органическом поиске. Для SEO-стратегии это означает, что работа с отзывами является критически важным элементом для обеспечения видимости продукта в поиске. Корректная техническая имплементация данных о продуктах и отзывах на сайте напрямую влияет на то, как Google сможет их собрать, агрегировать и использовать.
Сценарий 1: Оптимизация кластеризации для интернет-магазина
Review Aggregating Module сможет корректно извлечь идентификаторы и связать отзывы на сайте с глобальным кластером этого продукта в базе Google.Сценарий 2: Улучшение качества отображаемых отзывов
QualityScore (длина * энтропия) для сортировки отзывов по релевантности/качеству.QualityScore, что повысит вероятность их отображения в приоритетном порядке в агрегированных результатах.Что такое "селективное сканирование" (Selective Crawling) в контексте этого патента и чем оно отличается от обычного?
Селективное сканирование — это целенаправленный обход сайтов для поиска конкретного типа контента, в данном случае — отзывов. В отличие от обычного краулинга, который старается обойти максимальное количество страниц, селективный краулер использует Link Parser для анализа URL и анкорного текста ссылок. В очередь на сканирование добавляются только те ссылки, которые соответствуют предопределенным паттернам и с высокой вероятностью ведут на страницы с отзывами.
Как система определяет, что отзывы с разных сайтов относятся к одному и тому же товару?
Этот процесс называется кластеризацией (Clustering). Сначала система пытается использовать глобальные идентификаторы, такие как ISBN (GTIN). Если их нет, она извлекает из отзыва или страницы три ключевых элемента: Бренд, Номер модели и Категорию. Отзывы считаются относящимися к одному продукту, если у них точно совпадает бренд и есть пересечение по номерам моделей и категориям. Поэтому критически важно указывать эту информацию точно и консистентно.
Что такое "часто встречающиеся фразы" (Frequently Appearing Phrases) и как они рассчитываются?
Это ключевые темы или характеристики продукта, извлеченные из текста отзывов. Система анализирует фразы (до триграмм), исключая стоп-слова. Оценка фразы рассчитывается по формуле: Длина фразы, умноженная на квадратный корень из суммы взвешенных вхождений. При этом вхождениям в заголовке или резюме отзыва придается больший вес. Топ-N таких фраз показываются пользователю как поисковые подсказки.
Как Google оценивает качество индивидуального отзыва согласно патенту?
Патент описывает метрику QualityScore для оценки качества отзыва. Она базируется на двух параметрах: длине отзыва и энтропии слов (word entropy). Энтропия слов измеряет разнообразие лексики в отзыве. Чем длиннее отзыв и чем разнообразнее используемые в нем слова, тем выше его качество. Шаблонные или слишком короткие отзывы получают низкую оценку.
Влияет ли структура моего сайта на то, как Google соберет отзывы?
Да, напрямую. Патент описывает работу Review Extraction Module, который извлекает структурированные данные (рейтинг, текст, автор) со страниц. Чистая и логичная структура страницы, а также использование микроразметки (Schema.org/Review), значительно облегчают системе задачу корректного извлечения и интерпретации ваших отзывов.
Что делать, если у товара нет номера модели или глобального идентификатора?
Патент указывает, что если информацию о бренде или модели невозможно определить, такие отзывы помещаются в собственный отдельный кластер и не объединяются с другими отзывами. Для SEO это означает, что такие отзывы, скорее всего, не будут учитываться в общем рейтинге продукта в поиске. Необходимо стремиться к максимальной идентификации продукта.
Учитывает ли система разницу между отзывами пользователей и экспертов?
Да, патент предусматривает поле Review Type, которое указывает, является ли отзыв редакционным (editorial) или пользовательским (user). При сортировке отзывов по релевантности (качеству) в одном из вариантов реализации редакционные отзывы перечисляются перед пользовательскими, что указывает на их потенциально больший вес или приоритет.
Может ли система извлекать отзывы из форумов?
Да, в патенте явно указано, что информация, содержащая отзывы о продуктах, может включать сообщения на форумах (forum postings). Это означает, что система агрегации не ограничена только структурированными сайтами магазинов или отзовиков, но может анализировать и менее структурированный пользовательский контент (UGC).
Как система обрабатывает разные шкалы рейтингов (например, 1-5 звезд и 1-10 баллов)?
Система извлекает исходный рейтинг (Rating) и затем нормализует его к единой шкале (например, 0-5). Это позволяет сравнивать отзывы из разных источников и рассчитывать корректный средний рейтинг (Average Rating) для продукта. Для SEO важно убедиться, что ваша шкала рейтинга корректно размечена (например, указаны bestRating и worstRating в Schema.org).
Насколько важны заголовки отзывов на моем сайте?
Они имеют повышенное значение. При расчете frequently appearing phrases (ключевых тем о продукте) вхождениям фраз в заголовке (Title) или резюме (Summary) отзыва придается больший вес, чем вхождениям в основном тексте. Информативные заголовки отзывов помогают Google лучше понять ключевые аспекты продукта.

Google Shopping
SERP
Семантика и интент

Local SEO
Семантика и интент
EEAT и качество

Индексация
SERP
Семантика и интент

SERP

EEAT и качество
Свежесть контента
Семантика и интент

Ссылки
Семантика и интент
SERP

Поведенческие сигналы
Семантика и интент
EEAT и качество

Персонализация
Индексация
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
SERP

Поведенческие сигналы
Персонализация
EEAT и качество

Семантика и интент
Персонализация
Поведенческие сигналы

Семантика и интент
SERP
Поведенческие сигналы

EEAT и качество
Ссылки

Поведенческие сигналы
Мультиязычность
Персонализация

Ссылки
Поведенческие сигналы
Антиспам
