
Google использует механизм для агрегации отзывов о товарах в свой продуктовый каталог (например, Google Shopping). Если в отзыве отсутствует уникальный идентификатор товара (GTIN, UPC), система извлекает ключевую информацию (например, название товара), выполняет поиск в интернете и анализирует результаты выдачи. Найдя наиболее вероятный идентификатор в результатах поиска, Google связывает отзыв с соответствующим товаром в каталоге.
Патент решает проблему точного сопоставления и агрегации отзывов о продуктах в крупномасштабном электронном каталоге (например, Google Shopping), когда исходные данные об отзывах не содержат стандартизированных уникальных идентификаторов продукта (таких как GTIN, UPC, MPN). Это улучшает полноту и качество данных о товарах, позволяя системе связывать разрозненные отзывы, полученные из разных источников (веб-краулинг, фиды), с конкретными товарными позициями.
Запатентована система и метод для идентификации продуктов в отзывах, не имеющих явных идентификаторов. Суть изобретения заключается в использовании поисковой системы для разрешения неоднозначности. Система извлекает информацию из отзыва (например, заголовок), использует ее как поисковый запрос, а затем анализирует полученные результаты поиска (SERP) для обнаружения потенциальных идентификаторов продукта. Найденные идентификаторы оцениваются для выбора наиболее релевантного.
Система работает следующим образом:
product identifier).Product Catalog и связывается с идентифицированным продуктом.Высокая. Проблема агрегации данных и разрешения сущностей (Entity Resolution) является фундаментальной и постоянно актуальной для Google, особенно в контексте E-commerce и Google Shopping. Хотя конкретные методы анализа SERP могли эволюционировать с развитием NLP и ML, описанный базовый подход — использование поиска для нахождения идентификаторов в неструктурированных данных — остается критически важным для масштабирования продуктового каталога.
Патент имеет высокое значение для SEO в E-commerce (7.5/10). Он раскрывает, как Google обрабатывает и сопоставляет отзывы с товарами. Понимание этого механизма критически важно для обеспечения того, чтобы отзывы корректно атрибутировались к продуктам в Google Shopping. Кроме того, патент подчеркивает важность наличия и видимости уникальных идентификаторов (GTIN, MPN) на страницах товаров, так как именно эти страницы используются Google в качестве источника истины для идентификации продуктов в отзывах.
GTIN (Global Trade Item Number), UPC (Universal Product Code), MPN (Manufacturer's Part Number), ISBN, EAN, JAN, а также комбинацию бренда и номера модели.screen scraping).Claim 1 (Независимый пункт): Описывает основной метод агрегации отзывов, включающий процесс идентификации продукта через поиск.
product identifier.product identifier для данного отзыва.electronic product catalog и ассоциируется с этим идентификатором.Claim 3 (Зависимый от 1): Уточняет, что перед поиском извлеченная информация нормализуется (normalizing).
Claim 9 (Зависимый от 1): Детализирует процесс анализа результатов поиска при обнаружении нескольких потенциальных идентификаторов.
product identifiers в результатах поиска.occurs most often).product identifier для отзыва.Claim 12 (Зависимый от 1): Предлагает альтернативный метод выбора идентификатора на основе ранжирования.
product identifiers.better rank) выбирается как product identifier для отзыва.Claim 13 (Зависимый от 1): Уточняет процесс поиска.
brand name) в заголовке отзыва.emphasizing) при выполнении поиска.Изобретение применяется на этапах сбора и индексирования данных для формирования продуктового каталога (например, Google Shopping).
CRAWLING – Сканирование и Сбор данных
На этом этапе Receiver Module собирает отзывы о продуктах. Это может происходить путем сканирования сайтов продавцов, специализированных сайтов с отзывами, форумов или через получение электронных фидов (electronic feed).
INDEXING – Индексирование и извлечение признаков
Основное применение патента. Analysis Module обрабатывает собранные отзывы для их включения в Product Catalog. Это включает в себя:
Входные данные:
Product Catalog с известными идентификаторами.Выходные данные:
Product Catalog.Product Identifier.Product Reviews) и страницы продуктов в электронных каталогах (например, Google Shopping).Алгоритм идентификации через поиск активируется при выполнении следующих условий:
Product Identifier (GTIN, UPC и т.д.).discard) отзыв, не пытаясь найти идентификатор. Также отзыв может быть отброшен, если Confidence Value для найденных идентификаторов слишком низкая.Процесс А: Агрегация отзывов
Product Catalog с информацией о множестве продуктов и их идентификаторах.Receiver Module получает новые отзывы о продуктах.Analysis Module определяет, содержит ли каждый отзыв Product Identifier.Product Catalog и связываются с соответствующими продуктами.Процесс Б: Идентификация продукта для отзыва (Детализация шага 4 Процесса А)
Analysis Module извлекает ключевую информацию из отзыва (например, заголовок отзыва или название продукта, упомянутое в тексте).emphasizing) названий брендов или производителей.Analysis Module анализирует результаты поиска (например, топ-50) на предмет наличия потенциальных Product Identifiers (проверка формата данных и сверка со списком известных идентификаторов).number of occurrences) каждого идентификатора в SERP.rank) результатов поиска, содержащих идентификаторы.distance) между поисковыми словами и идентификатором в тексте результатов поиска.confidence value).Система использует следующие типы данных:
title of the product review). Из них извлекаются названия продуктов, бренды, номера моделей.Product Identifiers (GTIN, UPC, MPN, ISBN, EAN, JAN) в полученных отзывах.Патент упоминает несколько метрик для разрешения неоднозначности при идентификации продукта:
Product Identifier появляется в результатах поиска. Идентификатор с наибольшей частотой считается более вероятным.emphasizing) брендов при формировании поискового запроса, что подчеркивает важность брендовой информации для идентификации товаров.GTIN, MPN, Бренд) на страницах товаров (PDP). Они должны быть доступны для краулинга и корректно размечены (например, через Schema.org/Product). Это позволит Google использовать ваш сайт как надежный источник при идентификации товаров в отзывах.Distance (близость) и повысит уверенность Google в том, что идентификатор относится именно к этому товару.Product ID, чтобы при краулинге Google получал структурированные данные.GTIN/MPN от поисковых роботов или их отсутствие на странице усложняет для Google процесс сопоставления отзывов с вашими товарами. Это может привести к тому, что отзывы не будут отображаться в Google Shopping.GTIN) могут привести к неправильной ассоциации отзывов и снижению доверия к вашему сайту как источнику данных.Этот патент подчеркивает стратегическую важность структурированных данных и уникальных идентификаторов в E-commerce SEO. Для Google критически важно иметь возможность точно идентифицировать товары в масштабах всего интернета. Сайты, которые предоставляют четкие, консистентные и легко проверяемые данные о товарах (включая GTIN/MPN), становятся авторитетными источниками для систем агрегации Google. Это не только улучшает видимость товаров в Google Shopping, но и повышает общее доверие к данным, получаемым с домена.
Сценарий: Обеспечение корректной агрегации отзывов для нового смартфона
GTIN.GTIN и MPN.gtin и mpn.GTIN рядом с названием товара.GTIN в своем каталоге.Что является основным триггером для запуска описанного алгоритма поиска идентификаторов?
Алгоритм запускается только тогда, когда система обрабатывает отзыв о продукте, в котором отсутствует явный уникальный идентификатор (Product Identifier), такой как GTIN, UPC или MPN. Если идентификатор присутствует в исходных данных отзыва (например, в фиде или в микроразметке на странице отзыва), система использует его напрямую, и сложный процесс идентификации через поиск не требуется.
Какую информацию система извлекает из отзыва для поиска идентификатора?
В патенте в качестве основного источника информации упоминается заголовок отзыва (title of the product review). Также может быть извлечено название продукта, упомянутое в тексте, номер модели или бренд. Эта информация затем нормализуется для формирования эффективного поискового запроса.
Как система обрабатывает ситуацию, когда в результатах поиска найдено несколько разных идентификаторов?
Это ключевая часть патента. Система использует несколько метрик для разрешения неоднозначности. Она может выбрать идентификатор, который чаще всего встречается в результатах поиска (Number of Occurrences). Также она может предпочесть идентификатор, найденный на страницах с более высоким рангом в выдаче (Rank of Search Results). Дополнительно может учитываться близость идентификатора к названию продукта в тексте найденных страниц (Distance).
Как этот патент влияет на SEO для страниц продуктов (PDP) в интернет-магазине?
Влияние значительно. Ваши страницы продуктов служат для Google источником истины при валидации связи между названием товара и его идентификатором. Если ваша PDP хорошо ранжируется по названию товара и содержит четко указанные GTIN/MPN, Google с высокой вероятностью использует данные с вашей страницы для корректного сопоставления отзывов в своем каталоге.
Что произойдет, если система не сможет найти идентификатор в результатах поиска?
Если идентификатор не найден, система может предпринять повторную попытку, извлекая другую информацию из отзыва для нового поиска. Если идентификация по-прежнему невозможна или оценка уверенности (Confidence Value) слишком низкая, система, согласно патенту, может отбросить (discard) этот отзыв, и он не будет добавлен в продуктовый каталог.
Насколько важна микроразметка (Schema.org) в контексте этого патента?
Хотя патент явно не упоминает Schema.org, он описывает анализ результатов поиска для обнаружения идентификаторов. Наличие микроразметки Product с полями gtin, mpn, brand значительно упрощает для Google извлечение этих идентификаторов со страниц в SERP. Это повышает вероятность того, что Google сможет быстро и точно идентифицировать продукт.
Упоминается ли в патенте нормализация данных перед поиском? Что это значит на практике?
Да, упоминается нормализация (normalization). На практике это означает очистку извлеченного названия продукта: удаление стоп-слов, общих фраз из отзыва (например, "лучший", "обзор на"). Также патент указывает на возможность специальной обработки (emphasizing) названий брендов, что помогает сфокусировать поиск на конкретном производителе.
Применяется ли этот механизм только к отзывам, собранным краулером?
Нет, механизм применяется к отзывам, полученным любым способом, включая электронные фиды (electronic feeds), пользовательский контент или краулинг (web crawling, screen scraping). Главное условие — отсутствие уникального идентификатора в исходных данных.
Может ли этот механизм привести к неправильному сопоставлению отзывов?
Да, если система ошибочно идентифицирует продукт. Например, если в результатах поиска доминируют страницы с неверными идентификаторами или если названия продуктов очень похожи (например, разные версии одной модели). Однако использование метрик частоты, ранга и расстояния направлено на минимизацию таких ошибок.
Актуален ли этот патент, учитывая развитие современных NLP-моделей типа BERT?
Патент описывает общую архитектуру решения проблемы. Современные NLP-модели, вероятно, используются на этапах извлечения информации из отзыва и анализа контента результатов поиска для более точного определения соответствия. Однако базовая логика — использование поиска для разрешения неоднозначности сущностей — остается высоко актуальной.

Краулинг

Google Shopping
Семантика и интент

SERP

Local SEO
Семантика и интент
EEAT и качество

Семантика и интент
Персонализация
EEAT и качество

Ссылки
SERP
Структура сайта

Свежесть контента
Поведенческие сигналы
SERP

Персонализация
Поведенческие сигналы
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

SERP
Поведенческие сигналы
Семантика и интент

Поведенческие сигналы
SERP

Структура сайта
SERP
Ссылки

EEAT и качество
Ссылки

Local SEO
Антиспам
Поведенческие сигналы

Семантика и интент
SERP
Персонализация
