Как Google использует данные о ценах для классификации товаров и аксессуаров и переранжирует выдачу в E-commerce

Google использует механизм для улучшения поисковой выдачи в E-commerce, анализируя распределение цен для различения основных продуктов и их аксессуаров. Если система определяет, что пользователь ищет основной продукт, результаты, классифицированные как аксессуары (часто из-за значительно более низкой цены), понижаются в ранжировании. Это предотвращает зашумление выдачи сопутствующими товарами.

Описание

Какую задачу решает

Патент решает проблему зашумления поисковой выдачи в E-commerce, когда при поиске основного продукта (например, «ноутбук») в результаты попадает множество сопутствующих аксессуаров (например, «чехол для ноутбука», «зарядное устройство»). Это ухудшает пользовательский опыт, так как пользователю приходится вручную отфильтровывать аксессуары, чтобы найти основной продукт. Изобретение направлено на автоматическое разграничение (distinguishing) продуктов и аксессуаров и соответствующую корректировку ранжирования.

Что запатентовано

Запатентована система, которая классифицирует товарные предложения (offers) как продукты или аксессуары, используя для этого распределение атрибутов, в первую очередь — цены (price distribution). Система рассчитывает вероятность принадлежности предложения к классу «Продукт» или «Аксессуар» на основе его цены и статистических данных о ценах для связанных ключевых слов. Эта классификация используется для определения интента запроса и последующего переранжирования результатов: аксессуары понижаются (demoting), если интент пользователя направлен на поиск продукта.

Как это работает

Система работает в двух режимах: офлайн и онлайн.

Офлайн: Система анализирует корпус товарных предложений. Сначала предложения эвристически классифицируются. Затем для каждого ключевого слова вычисляются распределения цен отдельно для кластеров «Продукты» и «Аксессуары» (например, среднее значение и стандартное отклонение). Далее система итеративно переклассифицирует предложения, используя эти распределения цен, пока классификация не стабилизируется (алгоритм, схожий с Expectation-Maximization). Также вычисляются априорные вероятности (prior probabilities) того, что определенное ключевое слово связано с аксессуаром.
Онлайн: При получении запроса система классифицирует его как «запрос продукта» или «запрос аксессуара». Если запрос классифицирован как продуктовый, система анализирует каждый результат поиска. Она определяет вероятность того, что результат является аксессуаром, используя априорные вероятности ключевых слов и рассчитывая соотношение правдоподобия (likelihood ratio, метрика PTOTAL) на основе цены товара и сохраненных распределений цен. Если результат классифицируется как аксессуар, его позиция в выдаче понижается.

Актуальность для SEO

Высокая. Патент описывает фундаментальную проблему в поиске по товарам (например, Google Shopping). Различение основных продуктов и аксессуаров критически важно для качества E-commerce выдачи. Методы, основанные на анализе распределения цен и итеративной классификации, остаются актуальными для современных систем поиска по товарам.

Важность для SEO

Влияние на SEO для E-commerce высокое (85/100). Патент напрямую описывает механизм, который может значительно снизить видимость аксессуаров по общим запросам, связанным с основными продуктами. Понимание этого механизма критично для разработки стратегий продвижения как основных товаров, так и сопутствующих. Он подчеркивает важность точных данных о ценах и четкого позиционирования товара в заголовках и фидах (Merchant Center) для корректной классификации системой.

Детальный разбор

Термины и определения

Accessory (Аксессуар): Товар, который продается отдельно от основного продукта, но связан с ним (например, функционально), и поэтому может появляться в результатах поиска по этому продукту.
Attribute Distribution / Price Distribution (Распределение атрибутов / Распределение цен): Статистическое распределение значений атрибута (в данном случае цены) для группы товаров. Используется для расчета вероятности принадлежности товара к классу. Включает среднее значение (Mean) и стандартное отклонение (Standard Deviation).
Distribution Data Store (Хранилище данных о распределениях): База данных, хранящая рассчитанные распределения цен для кластеров продуктов и аксессуаров по ключевым словам.
Gaussian Distribution (Гауссово распределение): Статистическая модель (нормальное распределение), используемая в патенте для аппроксимации распределения цен.
Likelihood Ratio (Соотношение правдоподобия): Метрика, используемая для определения того, является ли предложение продуктом или аксессуаром. В патенте используется логарифмическая версия (Log Likelihood Ratio Score).
Offer Data Store (Хранилище данных о предложениях): База данных, содержащая записи о товарных предложениях (offer records) от продавцов (merchants), включая заголовки, описания, цены и категории.
Offer Processor (Обработчик предложений): Компонент системы, выполняющий офлайн-обработку товарных предложений для генерации данных о распределениях и априорных вероятностей.
Prior Probabilities Data (Данные априорных вероятностей): Данные, хранящие вероятность того, что данное ключевое слово связано с аксессуаром.
PTOTAL: Конкретная реализация Log Likelihood Ratio Score, описанная в патенте. Рассчитывается на основе цен и распределений цен для ключевых слов запроса.
Query Classifier (Классификатор запросов): Компонент, определяющий, ищет ли пользователь продукт (Product Query) или аксессуар (Accessory Query).
Result Classifier (Классификатор результатов): Компонент, определяющий, является ли конкретный результат поиска продуктом или аксессуаром, и выполняющий переранжирование (понижение).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод классификации и переранжирования результатов поиска в реальном времени.

Система получает поисковый запрос.
Идентифицируются ранжированные результаты, включающие результаты первого типа (Продукты) и второго типа (Аксессуары).
Для каждого результата определяется первая вероятность (что это Продукт) и вторая вероятность (что это Аксессуар). Эти вероятности основаны на атрибуте результата (например, цене) и распределении этого атрибута (attribute distribution) для товаров, релевантных запросу.
На основе этих вероятностей определяется количество результатов первого и второго типа.
Запрос классифицируется как запрос первого типа (Продукт), если, например, количество результатов первого типа превышает количество результатов второго типа.
Происходит переранжирование (re-ranking): позиции результатов второго типа (Аксессуары) понижаются (lowering the rank position), а позиции результатов первого типа (Продукты) повышаются (raising the rank position).
Предоставляется набор переранжированных результатов.

Claim 2 (Зависимый от 1): Уточняет механизм идентификации аксессуаров.

Идентификация включает определение оценки правдоподобия (likelihood score). Эта оценка базируется на ключевых словах запроса и данных о распределении цен по ключевым словам (keyword price distribution data), полученных из корпуса товарных предложений.

Claim 4 (Зависимый от 3): Предоставляет точную формулу для расчета оценки правдоподобия (PTOTAL), которая является логарифмическим соотношением правдоподобия цен продуктов и аксессуаров (log likelihood ratio score).

Формула PTOTAL суммирует разницы логарифмов вероятностей для каждого ключевого слова (n) в запросе: log(Pr[price|keyword_n, accessory]) — log(Pr[price|keyword_n, product]).

Где Pr[price|keyword_n, product] — это вероятность того, что результат является продуктом, основанная на его цене, среднем значении цены продукта (product price mean) и стандартном отклонении цены продукта (product price standard deviation) для n-го ключевого слова.

Результат определяется как аксессуар, если PTOTAL превышает пороговое значение.

Claim 7 (Зависимый от 5): Описывает офлайн-процесс генерации данных о распределении цен.

Предложения в корпусе эвристически классифицируются (heuristically classifying) как продукты или аксессуары.
Определяются распределения цен для ключевых слов, соответствующих аксессуарам и продуктам.
Предложения переклассифицируются (reclassifying) на основе вероятности того, является ли данное предложение продуктом или аксессуаром, согласно его цене и определенным распределениям цен.

Claim 8 (Зависимый от 7): Уточняет, что процесс определения распределений и переклассификации повторяется итеративно до тех пор, пока количество переклассифицированных предложений не станет ниже порогового значения (т.е. до сходимости). Это процесс, схожий с алгоритмом Expectation-Maximization (EM).

Где и как применяется

Изобретение применяется в системах поиска по товарам (например, Google Shopping) и затрагивает несколько этапов поисковой архитектуры, разделяясь на офлайн-обработку и онлайн-обработку запросов.

INDEXING – Индексирование и извлечение признаков (Офлайн)
На этом этапе происходит основная предварительная обработка. Offer Processor анализирует Offer Data Store (данные из фидов продавцов). Выполняется итеративный процесс машинного обучения для классификации предложений и генерации данных для Distribution Data Store (распределения цен) и Prior Probabilities Data Store (вероятности ключевых слов). Эти данные индексируются вместе с товарными предложениями.

QUNDERSTANDING – Понимание Запросов (Онлайн)
На этом этапе Query Classifier анализирует входящий запрос, чтобы определить его интент: поиск продукта или аксессуара. Он использует Prior Probabilities Data и/или анализ состава и категорий начального набора результатов.

RANKING – Ранжирование (Онлайн)
Генерируется начальный набор ранжированных результатов на основе стандартных факторов релевантности.

RERANKING – Переранжирование (Онлайн)
Основное применение патента в реальном времени. Если запрос классифицирован как продуктовый, Result Classifier анализирует каждый результат. Он рассчитывает Likelihood Ratio (PTOTAL), используя цену товара и данные из Distribution Data Store. Результаты, классифицированные как аксессуары, понижаются в ранге (demoted) или продукты повышаются (promoted).

Входные данные:

(Офлайн) Корпус товарных предложений (заголовки, цены, категории).
(Онлайн) Запрос пользователя, первичный набор результатов, Keyword Price Distribution Data, Prior Probabilities Data.

Выходные данные:

(Онлайн) Переранжированный набор результатов с пониженными аксессуарами (для продуктовых запросов).

На что влияет

Конкретные типы контента: Влияет исключительно на товарные предложения (offers) в E-commerce поиске (Google Shopping, товарные блоки в выдаче).
Специфические запросы: Наибольшее влияние оказывается на общие и среднечастотные коммерческие запросы, которые могут относиться как к основному продукту, так и к его аксессуарам (например, «iPhone», «Nikon D850»).
Конкретные ниши или тематики: Ниши с большим количеством аксессуаров и значительной разницей в ценах между продуктами и аксессуарами: электроника, компьютеры, видеоигры, бытовая техника.

Когда применяется

Триггеры активации: Алгоритм переранжирования активируется, когда система классифицирует запрос как «запрос продукта» (product query).
Условия классификации запроса: Запрос классифицируется как продуктовый, если выполняется одно из условий, описанных в патенте:
- Количество результатов, идентифицированных как продукты, превышает количество аксессуаров (Claim 1).
- Ключевые слова запроса не указывают на аксессуар (по Prior Probabilities или черным спискам, например, «case», «cartridge»).
- Пороговое количество результатов принадлежит к категориям продуктов.
- Количество результатов, классифицированных как аксессуары, не превышает определенный порог.

Пошаговый алгоритм

Процесс А: Офлайн-генерация данных о распределениях (Итеративный процесс)

Начальная классификация (Инициализация): Все предложения из корпуса классифицируются на кластер «Продукты» и кластер «Аксессуары». Классификация является эвристической (например, по наличию слов из черного списка в заголовке или по категории товара).
Вычисление распределений цен (M-шаг): Для каждого ключевого слова в корпусе вычисляются распределения цен отдельно для продуктов и аксессуаров (среднее значение и стандартное отклонение, предполагая Гауссово распределение).
Переклассификация (E-шаг): Каждое предложение переоценивается. Рассчитывается вероятность того, что оно принадлежит к кластеру «Продукт» или «Аксессуар», исходя из его цены и только что вычисленных распределений цен. Предложение переназначается в более вероятный кластер.
Проверка сходимости: Проверяется, завершен ли процесс. Критерием является количество предложений, изменивших свой класс. Если это число выше порога, процесс возвращается к шагу 2.
Генерация априорных вероятностей: После стабилизации классификации для каждого ключевого слова вычисляется вероятность того, что оно связано с аксессуаром.
Сохранение данных: Данные о распределениях цен и априорные вероятности сохраняются.

Процесс Б: Онлайн-обработка запроса и переранжирование

Получение запроса и результатов: Система получает запрос и генерирует начальный набор ранжированных результатов.
Классификация запроса: Определяется, является ли запрос продуктовым или аксессуарным.
Итерация по результатам: Если запрос продуктовый, система переходит к анализу каждого результата.
Проверка ключевых слов результата: Ключевые слова результата сравниваются с данными об априорных вероятностях. Если результат содержит ключевое слово с высокой вероятностью аксессуара (например, из «черного списка»), он может быть немедленно классифицирован как аксессуар.
Расчет правдоподобия (Likelihood Calculation): Если результат не был классифицирован на шаге 4, система вычисляет вероятность того, что он является аксессуаром, используя его цену и сохраненные данные о распределениях цен. Рассчитывается метрика PTOTAL (соотношение правдоподобия).
Классификация результата: Если PTOTAL превышает порог (например, 1), результат классифицируется как аксессуар.
Переранжирование (Demotion/Promotion): Если результат классифицирован как аксессуар (а запрос продуктовый), его ранг понижается (demote). В альтернативной реализации, ранг продуктов может повышаться (promote).
Предоставление результатов: Пользователю предоставляется переранжированный список.

Какие данные и как использует

Данные на входе

Система использует данные из товарных фидов (Offer Data Store).

Контентные факторы: Заголовки (title field) товарных предложений критически важны. Они используются для извлечения ключевых слов (offer keywords, title words) и для эвристической классификации (поиск слов-индикаторов аксессуаров). Также упоминается поле описания (description).
Структурные факторы: Категория предложения (category field). Используется для выбора подмножества предложений для анализа, для эвристической классификации и при классификации запросов.
Ценовые факторы (E-commerce): Цена предложения (price). Это ключевой атрибут, используемый для построения распределений и расчета вероятностей.

Какие метрики используются и как они считаются

Распределение цен (Price Distribution): Вычисляется для каждого ключевого слова отдельно для кластеров продуктов и аксессуаров. Метрики включают среднее значение (mean) и стандартное отклонение (standard deviation). В патенте предполагается использование Гауссова распределения (Gaussian distribution).
Априорная вероятность ключевого слова (Prior Probability): Вероятность того, что ключевое слово связано с аксессуаром. Рассчитывается как отношение количества раз, когда ключевое слово было связано с аксессуаром, к общему числу его появлений в корпусе.
PTOTAL (Log Likelihood Ratio Score): Основная метрика для классификации результата во время запроса.
Формула: PTOTAL = Σ [log(Pr[price|keyword_n, accessory]) — log(Pr[price|keyword_n, product])] для всех ключевых слов (n) в запросе.
Эта формула рассчитывает, насколько более вероятно, что данная цена соответствует распределению цен аксессуаров, чем распределению цен продуктов для данного набора ключевых слов.
Пороговые значения:
- Порог для PTOTAL (например, 1) для принятия решения о классификации результата.
- Пороги для классификации запроса (например, количество результатов в продуктовых категориях).
- Порог сходимости для офлайн-процесса (количество переклассифицированных предложений).
Методы машинного обучения: Используется итеративный алгоритм классификации, напоминающий Expectation-Maximization (EM), для автоматической кластеризации товаров на основе их атрибутов (цен).

Выводы

Цена как сильный сигнал классификации в E-commerce: Патент демонстрирует, как Google может использовать цену товара как ключевой признак для определения типа товара (продукт vs аксессуар). Система предполагает, что аксессуары статистически значительно дешевле основных продуктов, с которыми они связаны.
Использование статистических распределений для определения типа товара: Система строит сложные модели распределения цен (Price Distributions) для ключевых слов. Это позволяет ей определять ценовые аномалии (например, слишком дешевый «ноутбук», вероятно, является аксессуаром) и использовать это для классификации.
Итеративная классификация (EM-подобный алгоритм): Для повышения точности используется сложный офлайн-процесс машинного обучения, который итеративно уточняет модели распределения цен и классификацию товаров до достижения сходимости. Это указывает на высокую степень автоматизации системы и минимальную зависимость от ручной разметки.
Многоуровневая классификация (Запрос и Результат): Система классифицирует как интент запроса (Query Classification), так и отдельные результаты (Result Classification). Ранжирование корректируется, если тип результата не соответствует типу запроса.
Комбинация сигналов: Система использует комбинацию сигналов для принятия решения: эвристики по ключевым словам в заголовках (Prior Probabilities, черные списки), категории товаров и сложный расчет соотношения правдоподобия на основе цен (PTOTAL).
Целенаправленное понижение аксессуаров: Если интент пользователя определен как поиск продукта, система активно понижает (demotes) аксессуары в выдаче. Это прямое вмешательство в ранжирование для улучшения релевантности выдачи в E-commerce.

Практика

Best practices (это мы делаем)

Эти рекомендации критически важны для оптимизации товарных фидов (например, Google Merchant Center) и E-commerce SEO.

Обеспечение точности данных о ценах: Передавайте точные и актуальные цены в фидах. Цена является основным атрибутом для классификации по этому патенту. Аномальные цены могут привести к неверной классификации.
Четкое позиционирование в заголовках (Titles): Для аксессуаров необходимо явно указывать их тип в заголовке (например, «Чехол для iPhone 15», а не просто «iPhone 15»). Для основных продуктов заголовки должны быть полными и однозначными. Это поможет системе корректно классифицировать товар на всех этапах.
Точная категоризация товаров: Используйте максимально точные и релевантные категории (Google Product Category) в фидах. Категории используются системой как для офлайн-анализа (эвристическая классификация), так и для классификации запросов в онлайне.
Разделение стратегий для продуктов и аксессуаров: Признайте, что аксессуарам будет сложно ранжироваться по общим запросам основных продуктов из-за механизма понижения. Сосредоточьте SEO-усилия для аксессуаров на более специфических запросах, включающих слова-модификаторы (типа «чехол», «зарядка», «батарея»).
Анализ ценового позиционирования: Понимайте распределение цен в вашей нише. Если ваш основной продукт значительно дешевле среднего по рынку, существует риск его ошибочной классификации как аксессуара. В таких случаях необходимо усилить другие сигналы (заголовок, категория), подтверждающие, что это основной продукт.

Worst practices (это делать не надо)

Кликбейт и спам в заголовках товаров: Использование названия основного продукта в заголовке аксессуара без указания типа аксессуара в надежде получить трафик по запросу основного продукта. Система, вероятно, классифицирует этот товар как аксессуар (из-за низкой цены по метрике PTOTAL) и понизит его в выдаче.
Манипуляции с ценами в фидах: Передача некорректных цен (например, слишком низких для основного продукта, цены первого взноса вместо полной цены) может привести к неверной классификации товара как аксессуара и потере видимости.
Игнорирование категорий или использование общих категорий: Это ухудшает способность системы использовать информацию о категориях для корректной классификации запросов и товаров, повышая зависимость от автоматического анализа цен, что увеличивает риск ошибок.

Стратегическое значение

Патент подтверждает, что Google активно использует данные о ценах и статистические методы машинного обучения для понимания структуры рынка и интента пользователей в E-commerce. Для успешного продвижения в товарном поиске недостаточно просто быть релевантным по ключевым словам; необходимо соответствовать ожиданиям системы относительно типа товара и его ценового диапазона. Стратегия должна строиться на предоставлении максимально структурированных и точных данных о товарах, чтобы помочь алгоритмам корректно классифицировать ассортимент.

Практические примеры

Сценарий: Поиск ноутбука и понижение аксессуаров

Офлайн-обработка (Пример данных): Google проанализировал предложения со словом «Laptop». Система определила Price Distribution: Продукты (Mean=$1025, SD=$302); Аксессуары (Mean=$32, SD=$8).
Запрос пользователя: Пользователь вводит запрос «купить laptop».
Классификация запроса: Система классифицирует запрос как Product Query.
Анализ результатов: Система анализирует результат: «Laptop Sleeve» (чехол) с ценой $53.99.
Вычисление PTOTAL: Система сравнивает цену $53.99 с двумя распределениями. Вероятность того, что эта цена принадлежит к распределению аксессуаров (среднее $32), значительно выше, чем вероятность принадлежности к распределению продуктов (среднее $1025). PTOTAL превышает порог.
Действие: Результат «Laptop Sleeve» классифицируется как аксессуар и понижается (Demote) в выдаче.
Результат: Пользователь видит в топе выдачи предложения о продаже ноутбуков, а не чехлов.

Вопросы и ответы

Как система определяет, что является продуктом, а что аксессуаром?

Система использует комбинацию методов. Изначально применяется эвристический анализ заголовков и категорий. Затем используется итеративный алгоритм машинного обучения, который анализирует распределение цен (Price Distribution). Основная гипотеза: аксессуары статистически значительно дешевле продуктов, с которыми они связаны. Финальная классификация основывается на расчете вероятностей (Likelihood Ratio / PTOTAL) с учетом цены товара и статистических данных по связанным ключевым словам.

Является ли цена единственным фактором для классификации?

Нет, но она является ключевым атрибутом, описанным в патенте для построения моделей распределения. Помимо цены, система также использует контентные сигналы: ключевые слова в заголовках (Prior Probabilities, черные списки слов типа «чехол») и структурные данные, такие как категория товара. Цена используется для статистического подтверждения или опровержения типа товара.

Что произойдет, если я продаю очень дешевый основной продукт? Может ли он быть классифицирован как аксессуар?

Да, такой риск существует. Если цена вашего основного продукта находится в диапазоне, который статистически соответствует ценам аксессуаров для данных ключевых слов (т.е. сильно ниже среднего значения для продуктов), система может ошибочно классифицировать его как аксессуар и понизить в выдаче по общим запросам. В этом случае критически важно использовать очень четкие заголовки и правильную категоризацию, чтобы помочь системе понять, что это основной продукт.

Как этот патент влияет на продвижение аксессуаров?

Он значительно усложняет продвижение аксессуаров по общим запросам, относящимся к основному продукту (например, «iPhone»). Если система классифицирует запрос как продуктовый, аксессуары будут активно понижаться (demoted). SEO-стратегия для аксессуаров должна фокусироваться на более специфических запросах, включающих индикаторы типа аксессуара (например, «чехол для iPhone»).

Как система вычисляет распределение цен?

Это происходит в офлайн-режиме с помощью итеративного алгоритма. Система анализирует весь корпус товарных предложений. Для каждого ключевого слова она вычисляет среднюю цену (mean) и стандартное отклонение (standard deviation) отдельно для товаров, классифицированных как продукты, и товаров, классифицированных как аксессуары. В патенте упоминается использование Гауссова распределения для моделирования этих данных.

Что такое итеративная переклассификация, упомянутая в патенте?

Это процесс машинного обучения (похожий на алгоритм Expectation-Maximization) для уточнения классификации. Сначала система делает предположение о классификации товаров (на основе эвристик). Затем она вычисляет распределения цен (M-шаг). После этого она пересматривает классификацию каждого товара на основе этих распределений (E-шаг). Этот цикл повторяется до тех пор, пока классификация не стабилизируется, что позволяет автоматически корректировать ошибки начальной классификации.

Как система определяет интент запроса (продукт или аксессуар)?

Патент описывает несколько методов для Query Classifier. Основной метод (Claim 1): анализируется начальный набор результатов, и если количество идентифицированных продуктов превышает количество аксессуаров, запрос считается продуктовым. Также могут использоваться априорные вероятности ключевых слов в запросе (например, наличие слова «чехол») или анализ категорий, к которым принадлежат топовые результаты.

Применяется ли этот механизм в основном поиске Google или только в Google Shopping?

Патент описывает обработку товарных предложений (offers), полученных от продавцов (merchants). Это указывает на то, что механизм в первую очередь предназначен для систем поиска по товарам, таких как Google Shopping, или для товарных блоков (Product Listing Ads) в основной поисковой выдаче. Он не применяется к стандартным органическим (некоммерческим) результатам.

Что делать, если мой аксессуар дорогой (например, объектив для камеры)?

Если цена аксессуара сопоставима с ценой основного продукта, система может испытывать трудности с классификацией только на основе цены (PTOTAL может быть неопределенным). В этом случае возрастает роль других факторов. Необходимо убедиться, что заголовок и категория четко указывают на тип товара (например, «Объектив 50mm f/1.4 для Nikon»). Это поможет системе понять контекст и корректно обработать предложение.

Насколько сильно понижаются аксессуары в выдаче?

Патент не указывает конкретных значений понижения (demotion). Однако цель механизма — переместить аксессуары ниже в ранжированном списке, чтобы продукты оказались выше (Claim 1 упоминает lowering the rank position для аксессуаров и raising the rank position для продуктов). Степень понижения может быть достаточной, чтобы полностью убрать аксессуары из верхней части выдачи по продуктовым запросам.