Как Google использует поиск для сопоставления отзывов о товарах, у которых нет уникальных идентификаторов (GTIN, UPC)

Google использует механизм для агрегации отзывов о товарах в свой продуктовый каталог (например, Google Shopping). Если в отзыве отсутствует уникальный идентификатор товара (GTIN, UPC), система извлекает ключевую информацию (например, название товара), выполняет поиск в интернете и анализирует результаты выдачи. Найдя наиболее вероятный идентификатор в результатах поиска, Google связывает отзыв с соответствующим товаром в каталоге.

Описание

Какую задачу решает

Патент решает проблему точного сопоставления и агрегации отзывов о продуктах в крупномасштабном электронном каталоге (например, Google Shopping), когда исходные данные об отзывах не содержат стандартизированных уникальных идентификаторов продукта (таких как GTIN, UPC, MPN). Это улучшает полноту и качество данных о товарах, позволяя системе связывать разрозненные отзывы, полученные из разных источников (веб-краулинг, фиды), с конкретными товарными позициями.

Что запатентовано

Запатентована система и метод для идентификации продуктов в отзывах, не имеющих явных идентификаторов. Суть изобретения заключается в использовании поисковой системы для разрешения неоднозначности. Система извлекает информацию из отзыва (например, заголовок), использует ее как поисковый запрос, а затем анализирует полученные результаты поиска (SERP) для обнаружения потенциальных идентификаторов продукта. Найденные идентификаторы оцениваются для выбора наиболее релевантного.

Как это работает

Система работает следующим образом:

Получение данных: Система собирает отзывы о продуктах из различных источников.
Проверка идентификатора: Для каждого отзыва проверяется наличие известного уникального идентификатора (product identifier).
Извлечение и Нормализация: Если идентификатор отсутствует, система извлекает ключевую информацию (например, название продукта из заголовка отзыва) и нормализует ее (например, удаляя стоп-слова, выделяя бренды).
Поиск: Нормализованная информация используется как запрос для выполнения поиска в интернете.
Анализ SERP и Идентификация: Система анализирует результаты поиска на предмет наличия идентификаторов продуктов.
Разрешение неоднозначности: Если найдено несколько идентификаторов, система выбирает наиболее вероятный, используя такие метрики, как частота встречаемости идентификатора в SERP или ранг страниц, на которых он найден.
Ассоциация: Отзыв добавляется в Product Catalog и связывается с идентифицированным продуктом.

Актуальность для SEO

Высокая. Проблема агрегации данных и разрешения сущностей (Entity Resolution) является фундаментальной и постоянно актуальной для Google, особенно в контексте E-commerce и Google Shopping. Хотя конкретные методы анализа SERP могли эволюционировать с развитием NLP и ML, описанный базовый подход — использование поиска для нахождения идентификаторов в неструктурированных данных — остается критически важным для масштабирования продуктового каталога.

Важность для SEO

Патент имеет высокое значение для SEO в E-commerce (7.5/10). Он раскрывает, как Google обрабатывает и сопоставляет отзывы с товарами. Понимание этого механизма критически важно для обеспечения того, чтобы отзывы корректно атрибутировались к продуктам в Google Shopping. Кроме того, патент подчеркивает важность наличия и видимости уникальных идентификаторов (GTIN, MPN) на страницах товаров, так как именно эти страницы используются Google в качестве источника истины для идентификации продуктов в отзывах.

Детальный разбор

Термины и определения

Product Catalog (Каталог продуктов): База данных или структура данных, содержащая информацию о продуктах от одного или нескольких продавцов. Включает идентификаторы продуктов, описания, цены, изображения и агрегированные отзывы.
Product Identifier (Идентификатор продукта): Уникальный идентификатор продукта. Примеры включают GTIN (Global Trade Item Number), UPC (Universal Product Code), MPN (Manufacturer’s Part Number), ISBN, EAN, JAN, а также комбинацию бренда и номера модели.
Product Review (Отзыв о продукте): Информация, включающая комментарии, рейтинги, мнения или личный опыт использования продукта, полученная из внешних источников (краулинг, фиды) или от пользователей.
Analysis Module (Модуль анализа): Компонент системы, отвечающий за анализ отзывов, определение наличия идентификаторов, извлечение информации для поиска и анализ результатов поиска для идентификации продукта.
Receiver Module (Модуль приема): Компонент системы, отвечающий за получение данных о продуктах и отзывах (например, через фиды, краулинг, screen scraping).
Normalized Information (Нормализованная информация): Информация, извлеченная из отзыва (например, заголовок) и обработанная для использования в качестве поискового запроса (например, удаление лишних слов, выделение брендов).
Confidence Value (Оценка уверенности): Метрика, присваиваемая потенциальным идентификаторам, найденным в результатах поиска, для определения наиболее вероятного соответствия.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод агрегации отзывов, включающий процесс идентификации продукта через поиск.

Система получает информацию об отзыве о продукте.
Определяется, содержит ли эта информация product identifier.
Если НЕТ (информация НЕ содержит идентификатор):
- Инициируется поиск с использованием части полученной информации (например, заголовка отзыва).
- Анализируются результаты поиска (SERP) для идентификации product identifier для данного отзыва.
- Если идентификатор найден, информация об отзыве добавляется в electronic product catalog и ассоциируется с этим идентификатором.

Claim 3 (Зависимый от 1): Уточняет, что перед поиском извлеченная информация нормализуется (normalizing).

Claim 9 (Зависимый от 1): Детализирует процесс анализа результатов поиска при обнаружении нескольких потенциальных идентификаторов.

Идентифицируется несколько потенциальных product identifiers в результатах поиска.
Определяется, какой из них встречается наиболее часто (occurs most often).
Идентификатор, встречающийся наиболее часто, выбирается как product identifier для отзыва.

Claim 12 (Зависимый от 1): Предлагает альтернативный метод выбора идентификатора на основе ранжирования.

Идентифицируется несколько потенциальных product identifiers.
Определяется ранг, ассоциированный с каждым идентификатором, на основе ранга соответствующих результатов поиска (страниц в SERP), где они были найдены.
Идентификатор с лучшим рангом (better rank) выбирается как product identifier для отзыва.

Claim 13 (Зависимый от 1): Уточняет процесс поиска.

Идентифицируется название бренда (brand name) в заголовке отзыва.
Этот бренд выделяется или подчеркивается (emphasizing) при выполнении поиска.

Где и как применяется

Изобретение применяется на этапах сбора и индексирования данных для формирования продуктового каталога (например, Google Shopping).

CRAWLING – Сканирование и Сбор данных
На этом этапе Receiver Module собирает отзывы о продуктах. Это может происходить путем сканирования сайтов продавцов, специализированных сайтов с отзывами, форумов или через получение электронных фидов (electronic feed).

INDEXING – Индексирование и извлечение признаков
Основное применение патента. Analysis Module обрабатывает собранные отзывы для их включения в Product Catalog. Это включает в себя:

Entity Resolution (Разрешение сущностей): Определение, к какому конкретному продукту относится отзыв.
Data Cleaning and Normalization: Обработка текста отзыва для извлечения названия продукта и его нормализация.
Identifier Discovery: Использование поисковой системы (вероятно, основного индекса Google) для нахождения идентификатора продукта, если он отсутствует в отзыве.
Data Aggregation: Связывание отзыва с продуктом в каталоге.

Входные данные:

Сырые данные отзывов (текст, заголовок, возможно, указание бренда/модели).
Существующий Product Catalog с известными идентификаторами.
Доступ к поисковой системе и ее индексу.

Выходные данные:

Отзывы, добавленные в Product Catalog.
Установленная связь между отзывом и уникальным Product Identifier.

На что влияет

Конкретные типы контента: В первую очередь влияет на отзывы о продуктах (Product Reviews) и страницы продуктов в электронных каталогах (например, Google Shopping).
Конкретные ниши или тематики: Наибольшее влияние оказывается на E-commerce, особенно в категориях, где товары имеют стандартизированные идентификаторы (электроника, бытовая техника, книги (ISBN) и т.д.).
Точность данных в Google Shopping: Влияет на то, насколько корректно отзывы и рейтинги отображаются для конкретных товаров.

Когда применяется

Алгоритм идентификации через поиск активируется при выполнении следующих условий:

Триггер активации: Система обрабатывает новый отзыв о продукте.
Условие срабатывания: В данных отзыва отсутствует явный уникальный Product Identifier (GTIN, UPC и т.д.).
Исключения: Если извлеченная из отзыва информация слишком короткая или общая (например, заголовок «Не покупайте эту камеру»), система может отбросить (discard) отзыв, не пытаясь найти идентификатор. Также отзыв может быть отброшен, если Confidence Value для найденных идентификаторов слишком низкая.

Пошаговый алгоритм

Процесс А: Агрегация отзывов

Поддержание каталога: Система поддерживает Product Catalog с информацией о множестве продуктов и их идентификаторах.
Получение отзывов: Receiver Module получает новые отзывы о продуктах.
Проверка идентификатора: Analysis Module определяет, содержит ли каждый отзыв Product Identifier.
Обработка отзывов БЕЗ идентификатора: Если идентификатор отсутствует, переходит к Процессу Б.
Обработка отзывов С идентификатором: Если идентификатор присутствует, отзыв добавляется в каталог и ассоциируется с соответствующим продуктом (переход к шагу 6).
Добавление в каталог: Отзывы (с найденными или исходными идентификаторами) добавляются в Product Catalog и связываются с соответствующими продуктами.

Процесс Б: Идентификация продукта для отзыва (Детализация шага 4 Процесса А)

Извлечение информации: Analysis Module извлекает ключевую информацию из отзыва (например, заголовок отзыва или название продукта, упомянутое в тексте).
Нормализация: Извлеченная информация нормализуется. Удаляются ненужные слова. Может происходить выделение (emphasizing) названий брендов или производителей.
Выполнение поиска: Система инициирует поиск (например, в интернете), используя нормализованную информацию в качестве запроса. К запросу могут добавляться уточняющие термины (например, «UPC номер»).
Получение результатов: Система получает результаты поиска (SERP).
Поиск идентификаторов в SERP: Analysis Module анализирует результаты поиска (например, топ-50) на предмет наличия потенциальных Product Identifiers (проверка формата данных и сверка со списком известных идентификаторов).
Обработка результатов идентификации:
- Если идентификаторы НЕ найдены: Система может вернуться к шагу 1 для извлечения другой информации из отзыва или отбросить отзыв.
- Если найден ОДИН идентификатор: Он может быть принят как идентификатор для отзыва (возможно, после дополнительной валидации).
- Если найдено НЕСКОЛЬКО идентификаторов: Переход к шагу 7.
Разрешение неоднозначности (Анализ): Система определяет, какой из найденных идентификаторов является корректным. Используются методы:
- Подсчет частоты встречаемости (number of occurrences) каждого идентификатора в SERP.
- Анализ ранга (rank) результатов поиска, содержащих идентификаторы.
- Анализ расстояния (distance) между поисковыми словами и идентификатором в тексте результатов поиска.
Выбор идентификатора: Выбирается идентификатор с наибольшей частотой, лучшим рангом или наивысшей оценкой уверенности (confidence value).

Какие данные и как использует

Данные на входе

Система использует следующие типы данных:

Контентные факторы: Текст отзыва, заголовок отзыва (title of the product review). Из них извлекаются названия продуктов, бренды, номера моделей.
Структурные факторы (в исходных данных): Наличие или отсутствие структурированных полей для Product Identifiers (GTIN, UPC, MPN, ISBN, EAN, JAN) в полученных отзывах.
Внешние данные (SERP): Результаты поисковой выдачи, полученные по запросу, сформированному из контента отзыва. Анализируется контент и ранг этих страниц.

Какие метрики используются и как они считаются

Патент упоминает несколько метрик для разрешения неоднозначности при идентификации продукта:

Number of Occurrences (Частота встречаемости): Подсчет количества раз, когда конкретный Product Identifier появляется в результатах поиска. Идентификатор с наибольшей частотой считается более вероятным.
Rank of Search Results (Ранг результатов поиска): Учитывается позиция страниц в SERP, на которых найден идентификатор. Идентификаторы, найденные на более высоко ранжирующихся страницах, получают приоритет.
Distance (Расстояние): Метрика, основанная на близости между терминами поискового запроса (извлеченными из отзыва) и найденным идентификатором в тексте результата поиска. Чем меньше расстояние, тем выше уверенность.
Confidence Value (Оценка уверенности): Агрегированная метрика (формула не приводится), которая может учитывать частоту, ранг, расстояние и другие факторы для выбора наилучшего идентификатора. Если оценка уверенности ниже порога, отзыв может быть отброшен.

Выводы

Использование Поиска для Разрешения Сущностей: Патент демонстрирует, как Google использует свою основную поисковую технологию не только для ответа на запросы пользователей, но и как инструмент для обработки и структурирования собственных данных (в данном случае, для сопоставления отзывов и товаров).
Важность Внешних Данных (SERP): Точность идентификации продуктов зависит от качества и содержания страниц в интернете. Веб-сайты, которые четко указывают названия продуктов рядом с их уникальными идентификаторами, служат для Google источником истины.
Многофакторная Оценка Уверенности: При обнаружении потенциальных идентификаторов Google не полагается на один сигнал. Используется комбинация метрик (частота, ранг источника, близость текста) для определения наиболее вероятного соответствия.
Автоматизация Агрегации: Описанный механизм позволяет масштабировать сбор отзывов из неструктурированных источников (например, краулинг веб-страниц), автоматизируя процесс их привязки к структурированному каталогу.
Приоритет Брендов: Патент явно упоминает возможность выделения (emphasizing) брендов при формировании поискового запроса, что подчеркивает важность брендовой информации для идентификации товаров.

Практика

Best practices (это мы делаем)

Обеспечение видимости и корректности идентификаторов: Критически важно указывать корректные уникальные идентификаторы (GTIN, MPN, Бренд) на страницах товаров (PDP). Они должны быть доступны для краулинга и корректно размечены (например, через Schema.org/Product). Это позволит Google использовать ваш сайт как надежный источник при идентификации товаров в отзывах.
Оптимизация PDP для идентификации: Убедитесь, что название товара, бренд и его идентификаторы расположены близко друг к другу на странице. Это улучшит метрику Distance (близость) и повысит уверенность Google в том, что идентификатор относится именно к этому товару.
Консистентность данных: Поддерживайте единообразие в наименовании товаров и указании идентификаторов на вашем сайте, в продуктовых фидах для Google Merchant Center и на внешних платформах. Это снижает неоднозначность при анализе данных.
Стимулирование информативных отзывов: Поощряйте пользователей оставлять отзывы с четкими и полными названиями продуктов. Если вы агрегируете отзывы на своем сайте, убедитесь, что ваша система корректно связывает их с Product ID, чтобы при краулинге Google получал структурированные данные.

Worst practices (это делать не надо)

Отсутствие или скрытие идентификаторов: Скрытие GTIN/MPN от поисковых роботов или их отсутствие на странице усложняет для Google процесс сопоставления отзывов с вашими товарами. Это может привести к тому, что отзывы не будут отображаться в Google Shopping.
Некорректная микроразметка идентификаторов: Ошибки в микроразметке (например, указание неверного GTIN) могут привести к неправильной ассоциации отзывов и снижению доверия к вашему сайту как источнику данных.
Использование общих или неоднозначных заголовков отзывов: Если отзывы на вашем сайте или на внешних ресурсах имеют заголовки вроде «Отличный товар», система может отбросить их, так как из них невозможно надежно извлечь название продукта для поиска.

Стратегическое значение

Этот патент подчеркивает стратегическую важность структурированных данных и уникальных идентификаторов в E-commerce SEO. Для Google критически важно иметь возможность точно идентифицировать товары в масштабах всего интернета. Сайты, которые предоставляют четкие, консистентные и легко проверяемые данные о товарах (включая GTIN/MPN), становятся авторитетными источниками для систем агрегации Google. Это не только улучшает видимость товаров в Google Shopping, но и повышает общее доверие к данным, получаемым с домена.

Практические примеры

Сценарий: Обеспечение корректной агрегации отзывов для нового смартфона

Ситуация: Вы запускаете продажу нового смартфона «BrandX SuperPhone 12». В интернете начинают появляться первые обзоры на форумах и сайтах отзывов, но они не содержат GTIN.
Действия SEO-специалиста:
- Убедиться, что на странице продукта на вашем сайте четко указано название «BrandX SuperPhone 12».
- Убедиться, что рядом с названием указан корректный GTIN и MPN.
- Внедрить микроразметку Schema.org/Product, указав эти идентификаторы в полях gtin и mpn.
- Обеспечить индексацию страницы.
Как работает Google (согласно патенту):
- Google сканирует отзыв с форума. Идентификатор не найден.
- Система извлекает название «BrandX SuperPhone 12».
- Система выполняет поиск по этому названию (возможно, добавляя «GTIN»).
- Ваш оптимизированный сайт появляется в топе выдачи (SERP).
- Google анализирует вашу страницу, находит GTIN рядом с названием товара.
- Google связывает отзыв с этим GTIN в своем каталоге.
Результат: Отзывы, найденные на форуме, корректно отображаются вместе с вашим товарным предложением в Google Shopping.

Вопросы и ответы

Что является основным триггером для запуска описанного алгоритма поиска идентификаторов?

Алгоритм запускается только тогда, когда система обрабатывает отзыв о продукте, в котором отсутствует явный уникальный идентификатор (Product Identifier), такой как GTIN, UPC или MPN. Если идентификатор присутствует в исходных данных отзыва (например, в фиде или в микроразметке на странице отзыва), система использует его напрямую, и сложный процесс идентификации через поиск не требуется.

Какую информацию система извлекает из отзыва для поиска идентификатора?

В патенте в качестве основного источника информации упоминается заголовок отзыва (title of the product review). Также может быть извлечено название продукта, упомянутое в тексте, номер модели или бренд. Эта информация затем нормализуется для формирования эффективного поискового запроса.

Как система обрабатывает ситуацию, когда в результатах поиска найдено несколько разных идентификаторов?

Это ключевая часть патента. Система использует несколько метрик для разрешения неоднозначности. Она может выбрать идентификатор, который чаще всего встречается в результатах поиска (Number of Occurrences). Также она может предпочесть идентификатор, найденный на страницах с более высоким рангом в выдаче (Rank of Search Results). Дополнительно может учитываться близость идентификатора к названию продукта в тексте найденных страниц (Distance).

Как этот патент влияет на SEO для страниц продуктов (PDP) в интернет-магазине?

Влияние значительно. Ваши страницы продуктов служат для Google источником истины при валидации связи между названием товара и его идентификатором. Если ваша PDP хорошо ранжируется по названию товара и содержит четко указанные GTIN/MPN, Google с высокой вероятностью использует данные с вашей страницы для корректного сопоставления отзывов в своем каталоге.

Что произойдет, если система не сможет найти идентификатор в результатах поиска?

Если идентификатор не найден, система может предпринять повторную попытку, извлекая другую информацию из отзыва для нового поиска. Если идентификация по-прежнему невозможна или оценка уверенности (Confidence Value) слишком низкая, система, согласно патенту, может отбросить (discard) этот отзыв, и он не будет добавлен в продуктовый каталог.

Насколько важна микроразметка (Schema.org) в контексте этого патента?

Хотя патент явно не упоминает Schema.org, он описывает анализ результатов поиска для обнаружения идентификаторов. Наличие микроразметки Product с полями gtin, mpn, brand значительно упрощает для Google извлечение этих идентификаторов со страниц в SERP. Это повышает вероятность того, что Google сможет быстро и точно идентифицировать продукт.

Упоминается ли в патенте нормализация данных перед поиском? Что это значит на практике?

Да, упоминается нормализация (normalization). На практике это означает очистку извлеченного названия продукта: удаление стоп-слов, общих фраз из отзыва (например, «лучший», «обзор на»). Также патент указывает на возможность специальной обработки (emphasizing) названий брендов, что помогает сфокусировать поиск на конкретном производителе.

Применяется ли этот механизм только к отзывам, собранным краулером?

Нет, механизм применяется к отзывам, полученным любым способом, включая электронные фиды (electronic feeds), пользовательский контент или краулинг (web crawling, screen scraping). Главное условие — отсутствие уникального идентификатора в исходных данных.

Может ли этот механизм привести к неправильному сопоставлению отзывов?

Да, если система ошибочно идентифицирует продукт. Например, если в результатах поиска доминируют страницы с неверными идентификаторами или если названия продуктов очень похожи (например, разные версии одной модели). Однако использование метрик частоты, ранга и расстояния направлено на минимизацию таких ошибок.

Актуален ли этот патент, учитывая развитие современных NLP-моделей типа BERT?

Патент описывает общую архитектуру решения проблемы. Современные NLP-модели, вероятно, используются на этапах извлечения информации из отзыва и анализа контента результатов поиска для более точного определения соответствия. Однако базовая логика — использование поиска для разрешения неоднозначности сущностей — остается высоко актуальной.