Как Google использует сравнительные запросы («A vs B») и историю кликов для определения конкурирующих товаров

Google анализирует два типа данных для определения альтернативных товаров: историю кликов в продуктовом поиске (какие запросы ведут к каким товарам) и логи веб-поиска (как часто пользователи вводят сравнительные запросы, например, «Товар А vs Товар Б»). Комбинируя эти данные, система вычисляет вес ассоциации между продуктами, чтобы предлагать пользователям релевантные альтернативы при поиске товаров.

Описание

Какую задачу решает

Патент решает проблему точной и своевременной идентификации продуктов, которые являются альтернативами или заменой друг другу (например, конкурирующие модели или обновленные версии). Традиционные методы сбора таких данных часто медленны или неточны. Цель изобретения — использовать поведение пользователей в поиске и продуктовых каталогах (например, Google Shopping) для автоматического выявления этих конкурентных связей.

Что запатентовано

Запатентована система для определения того, является ли один продукт альтернативой другому, путем анализа логов запросов из двух разных источников: продуктового каталога и основного веб-поиска. Система вычисляет Association Weight (вес ассоциации) между двумя продуктами. Этот вес основан на том, насколько сильно конкретные запросы связаны с этими продуктами (на основе кликов в продуктовом поиске) и как часто эти связанные запросы используются вместе в сравнительных конструкциях (например, «запрос X vs запрос Y») в основном веб-поиске.

Как это работает

Механизм работает в несколько этапов:

Анализ продуктовых кликов: Система анализирует логи продуктового поиска (Shopping Query Table), чтобы определить, какие запросы приводят к кликам по каким продуктам. Вычисляется вероятность prob(p|q) (вероятность клика на продукт P при запросе Q).
Фильтрация шума: Отбрасываются запросы и продукты, которые не имеют сильной связи (не превышают пороговые значения вероятности), чтобы обеспечить точность.
Анализ сравнительных запросов: Система анализирует логи веб-поиска (Web Query Table) для выявления запросов, содержащих сравнительные термины («vs», «versus»). Подсчитывается частота сравнения пар запросов v(x,y).
Вычисление веса ассоциации: Система комбинирует эти данные для расчета итогового веса u(a,b) между Продуктом А и Продуктом Б. Это делается путем суммирования всех комбинаций связанных запросов (X и Y), умножая их вероятности на частоту их сравнения.
Применение: Продукты с высоким Association Weight считаются альтернативами и могут показываться вместе в ответ на запрос пользователя.

Актуальность для SEO

Высокая, особенно для E-commerce и Google Shopping. Понимание конкурентного ландшафта и того, какие продукты пользователи считают взаимозаменяемыми, критически важно для предоставления качественных результатов в продуктовом поиске. Использование сравнительных запросов («A vs B») как явного сигнала пользовательского намерения остается актуальным методом в Information Retrieval.

Важность для SEO

Патент имеет значительное влияние (75/100) на SEO для E-commerce и сайтов с продуктовыми каталогами. Он раскрывает механизм, с помощью которого Google определяет прямых конкурентов на уровне продукта, основываясь на поведении пользователей, а не только на категориях или характеристиках. Понимание этого механизма позволяет оптимизировать продуктовые фиды и контент так, чтобы продукт корректно ассоциировался с релевантными запросами и позиционировался как альтернатива лидерам рынка.

Детальный разбор

Термины и определения

Association Weight (u(a,b)) (Вес ассоциации): Итоговая метрика, вычисляемая для пары продуктов (a, b). Она указывает на вероятность того, что эти два продукта являются альтернативами. Рассчитывается путем объединения вероятностей связи продуктов с запросами и частоты сравнения этих запросов.
Comparison Count (v(x,y) или v(s,r)) (Счетчик сравнений): Метрика, подсчитывающая общее количество раз, когда пара запросов (x, y) была включена в сравнительный запрос в логах веб-поиска.
Comparison Query (Сравнительный запрос): Запрос, направленный на сравнение двух продуктов. Обычно идентифицируется по наличию сравнительных терминов (например, «vs», «versus», «compared to») или сравнительных вопросов.
Product Catalog System (Система продуктового каталога): Система (например, Google Shopping), которая агрегирует информацию о продуктах от различных продавцов и предоставляет ее пользователям.
Product-Query Pair (Пара продукт-запрос): Связь между продуктом и запросом, который привел к выбору (клику) этого продукта пользователем в системе продуктового каталога.
Product-Query Probability (prob(p|q)) (Вероятность продукт-запрос): Нормализованная метрика, указывающая, насколько сильно продукт (p) связан с запросом (q). Вычисляется как отношение числа выборов продукта (p) по запросу (q) к общему числу получений запроса (q).
Query Log (Лог запросов): Хранилище данных о полученных запросах и взаимодействиях пользователей с результатами.
Shopping Query Table (Таблица продуктовых запросов): Часть лога запросов, хранящая информацию о запросах и кликах в системе продуктового каталога.
Web Query Table (Таблица веб-запросов): Часть лога запросов, хранящая информацию о запросах, полученных основной поисковой системой (Internet Search Engine).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации альтернативных товаров (merchant items).

Система анализирует логи запросов для идентификации пар merchant item-query pair (запрос и товар, который был выбран из результатов по этому запросу).
Для каждой пары подсчитывается количество выборов товара по этому запросу.
Определяется, связан ли запрос с товаром, на основе отношения количества выборов товара к количеству показов результатов по этому запросу (вычисление вероятности и применение порогов).
Анализируются логи запросов для идентификации comparison queries (запросов, направленных на сравнение двух или более товаров).
Определяется, является ли Товар 1 альтернативой Товару 2. Это решение основывается на том, как часто запрос, связанный с Товаром 1, включается в сравнительный запрос вместе с запросом, связанным с Товаром 2.

Claim 4 (Зависимый от 1): Детализирует, как определяется связь между запросом и товаром (шаг 3 из Claim 1).

Вычисляется отношение (ratio) между количеством выборов товара по запросу и общим количеством получений этого запроса. Если это отношение превышает пороговое значение (threshold), запрос и товар считаются связанными.

Claim 5 и 6 (Зависимые от 1): Вводят модификацию расчета связи (вероятности).

Расчет вероятности может быть скорректирован с учетом количества предложений (merchant item offers) для данного товара. Например, количество выборов товара умножается на взвешенную версию количества предложений (в патенте упоминается квадратный корень из числа предложений) перед вычислением отношения.

Claim 7 (Зависимый от 1): Раскрывает формулу расчета веса ассоциации (Association Weight) для определения альтернатив (шаг 5 из Claim 1).

Для Товара А и Товара Б, связанных с Запросом X и Запросом Y соответственно:

Вычисляется первое значение: умножение вероятности (ratio) выбора Товара А по Запросу X на вероятность выбора Товара Б по Запросу Y.
Вычисляется второе значение: умножение первого значения на количество раз, когда был получен сравнительный запрос, включающий Запрос X и Запрос Y (Comparison Count).
Вычисляется Association Weight: суммирование второго значения по всем возможным парам запросов (X и Y).
Если Association Weight превышает порог, Товар А считается альтернативой Товару Б.

Claim 10 (Зависимый от 1): Уточняет источники данных.

Используются данные из двух источников: логи интернет-поисковика (Internet search engine) используются для идентификации сравнительных запросов, а логи интернет-магазина/каталога (Internet shopping website) используются для идентификации пар товар-запрос.

Где и как применяется

Изобретение в основном применяется в контексте продуктового поиска (например, Google Shopping) и затрагивает несколько этапов поисковой архитектуры.

INDEXING – Индексирование и извлечение признаков
На этом этапе система обрабатывает продуктовые фиды от продавцов и поддерживает Product Catalog.

QUNDERSTANDING – Понимание Запросов (Офлайн-процессы)
Основная часть вычислений патента происходит офлайн, анализируя исторические данные для построения модели взаимосвязей между продуктами.

Сбор данных: Агрегируются данные из Web Query Table и Shopping Query Table.
Анализ и вычисления: Alternatives Module обрабатывает эти логи, вычисляет вероятности prob(p|q), счетчики сравнений v(x,y) и итоговые веса ассоциации u(a,b).
Сохранение модели: Результаты (связи между альтернативными продуктами и их веса) сохраняются для использования в реальном времени.

RANKING / RERANKING – Ранжирование / Переранжирование (Онлайн-процессы)
Когда пользователь вводит запрос в Product Catalog System:

Система отбирает продукты, соответствующие запросу.
Система также отбирает альтернативные продукты, используя заранее рассчитанные данные об ассоциациях.
Финальный набор результатов включает как целевой продукт, так и ранжированный список альтернатив.

Входные данные:

Логи запросов из основного поиска (Web Query Table).
Логи запросов и кликов из продуктового поиска (Shopping Query Table).
Данные продуктового каталога (Product Catalog).

Выходные данные:

Набор пар альтернативных продуктов с рассчитанными весами ассоциации (Association Weights).

На что влияет

Конкретные типы контента: Влияет исключительно на продукты и товары, представленные в Product Catalog System (например, Google Shopping).
Специфические запросы: Наибольшее влияние оказывается на продуктовые запросы (коммерческие и информационные, связанные с выбором товара).
Конкретные ниши или тематики: E-commerce, особенно в категориях с высокой конкуренцией и частым сравнением товаров (электроника, бытовая техника).

Когда применяется

Условия работы алгоритма: Алгоритм вычисления альтернатив работает периодически в офлайн-режиме на основе накопленных исторических данных (логов запросов и кликов).
Триггеры активации: Для активации вычислений необходимо наличие достаточного объема данных как по кликам на продукты, так и по сравнительным запросам, чтобы преодолеть установленные пороги фильтрации шума.
Применение результатов: Результаты (список альтернатив) применяются в реальном времени при обработке продуктового запроса пользователя.

Пошаговый алгоритм

Метод идентификации альтернативных продуктов.

Фаза 1: Расчет ассоциаций Продукт-Запрос (Анализ Shopping Query Table)

Генерация пар продукт-запрос: Система генерирует пары (q, p), где запрос q привел к выбору продукта p. Подсчитывается количество выборов n(q,p) для каждой пары.
Нормализация и расчет вероятностей: Для каждой пары вычисляется вероятность prob(p|q) путем деления n(q,p) на общее количество получений запроса q. (Опционально: применяется взвешивание на основе количества предложений продукта, например, с использованием квадратного корня из числа предложений).
Фильтрация запросов (Порог Alpha): Отбрасываются все пары для тех запросов, у которых нет хотя бы одного продукта с вероятностью, превышающей первый порог (Alpha). Это удаляет слишком общие запросы.
Фильтрация продуктов (Порог Beta): Для оставшихся запросов отбрасываются пары с продуктами, чья вероятность не превышает второй порог (Beta). Это оставляет только сильные связи.

Фаза 2: Анализ сравнительных запросов (Анализ Web Query Table)

Сбор сравнительных запросов: Система собирает запросы, содержащие сравнительные термины (например, «vs»).
Подсчет частоты сравнений: Вычисляется количество вхождений для каждого сравнительного запроса.
Фильтрация редких сравнений: Отбрасываются сравнительные запросы, частота которых ниже третьего порога.
Расчет счетчика сравнений для пар: Для каждой пары запросов (x, y) вычисляется общий счетчик сравнений v(x,y) (например, сумма вхождений «x vs y» и «y vs x»).

Фаза 3: Расчет веса ассоциации

Вычисление веса ассоциации: Для каждой пары продуктов (a, b) вычисляется вес ассоциации u(a,b). Это сумма по всем связанным запросам x (для a) и y (для b) произведения prob(a|x) * prob(b|y) * v(x,y).
Финальная фильтрация и ранжирование: Сохраняются пары продуктов, чей вес ассоциации превышает четвертый порог. Для каждого продукта альтернативы ранжируются на основе этого веса.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании поведенческих данных из двух разных контекстов поиска.

Поведенческие факторы (Продуктовый поиск):
- Запросы, введенные в систему продуктового каталога.
- Клики (выборы) пользователей по конкретным продуктам в результатах продуктового поиска. Используются для расчета Product-Query Probability.
Поведенческие факторы (Веб-поиск):
- Запросы, введенные в основную поисковую систему. Анализируется текст запросов для выявления сравнительных конструкций (Comparison Queries).
Контентные факторы:
- Идентификаторы продуктов, названия продуктов (используются для связи данных между логами и каталогом).
Технические факторы (Специфичные для E-commerce):
- Количество предложений (product offers) для продукта. Может использоваться для взвешивания вероятностей (Claims 5, 6).

Какие метрики используются и как они считаются

Система использует несколько ключевых метрик и формул:

1. Product-Query Probability (Вероятность продукт-запрос):

prob(p|q) = n(q,p) / n(q,*)

n(q,p): Количество раз, когда продукт p был выбран по запросу q.
n(q,*): Общее количество получений запроса q.

2. Взвешенная вероятность (Weighted Probability) (Опционально, согласно Claims 5, 6):

Используется модифицированный подсчет m(q,p) вместо n(q,p):

m(q,p) = n(q,p) * sqrt(number of product offers for product p)

Вероятность затем рассчитывается как prob(p|q) = m(q,p) / m(q,*).

3. Comparison Count (Счетчик сравнений):

v(x,y) = w(x,y) + w(y,x)

w(x,y): Количество запросов типа «x vs y».

4. Association Weight (Вес ассоциации):

u(a,b) = (sum over queries x) (sum over queries y) prob(a|x) * prob(b|y) * v(x,y)

Это итоговая метрика, определяющая силу связи между продуктом a и продуктом b.

Пороговые значения (Thresholds):

Alpha и Beta: Пороги для prob(p|q), используемые для фильтрации шума и обеспечения точности связи между запросами и продуктами.
Порог для частоты сравнительных запросов.
Финальный порог для Association Weight.

Выводы

Комбинирование явных и неявных сигналов: Ключевая особенность патента — объединение неявных поведенческих сигналов (клики в продуктовом поиске) с явными сигналами намерения (сравнительные запросы в веб-поиске). Это позволяет системе строить точную карту конкурентного окружения.
Критическая роль CTR в продуктовом поиске: Установление сильной связи между запросом и продуктом (высокая prob(p|q)) является фундаментом для всего алгоритма. Это напрямую зависит от кликабельности (CTR) товара в выдаче (например, Google Shopping).
Идентификация конкурентов через поведение пользователей: Google определяет, какие товары являются альтернативами, не анализируя их характеристики, а анализируя то, как пользователи их ищут и сравнивают. Если пользователи часто сравнивают два товара, Google считает их конкурентами.
Важность чистоты данных и фильтрации: Алгоритм включает многоступенчатую фильтрацию с использованием порогов (Alpha, Beta и др.). Это критически важно для удаления шума (например, слишком общих запросов или случайных кликов) и обеспечения высокой точности итоговых ассоциаций.
Учет вариантов продукта и нормализация: В патенте упоминается необходимость обработки вариантов (цвет, размер) путем группировки кликов на самом популярном варианте. Также предусмотрена возможность нормализации данных с учетом количества предложений товара (product offers).

Практика

Best practices (это мы делаем)

Оптимизация продуктовых фидов (Product Feed Optimization) для повышения CTR: Убедитесь, что названия и изображения продуктов в фидах (например, для Google Merchant Center) максимально привлекательны и соответствуют запросам пользователей. Это необходимо для достижения высоких значений prob(p|q) (высокого CTR), что укрепляет связь продукт-запрос.
Анализ сравнительных запросов в веб-поиске: Изучайте, как пользователи сравнивают ваш продукт с конкурентами (запросы с «vs», «сравнение»). Понимание того, с кем вас сравнивают, показывает, какие связи Google видит. Это также источник данных для контент-стратегии (создание сравнительных обзоров).
Управление вариантами продуктов (Консолидация сигналов): Следуйте рекомендациям по группировке вариантов товаров (SKU) в фидах и на сайте. Это поможет консолидировать сигналы кликов на основном продукте, что увеличит вероятность его участия в расчете Association Weight, как предложено в патенте.
Анализ альтернатив, предлагаемых Google: Внимательно изучайте, какие товары Google показывает в качестве альтернатив вашим продуктам в Google Shopping. Это прямой результат работы описанного механизма и показывает, кого Google считает вашими прямыми конкурентами на основе поведения пользователей.

Worst practices (это делать не надо)

Неоднозначные или слишком общие названия продуктов в фиде: Использование названий, которые плохо идентифицируют конкретный продукт, приведет к низким значениям prob(p|q). Такие продукты будут отфильтрованы (порогом Beta) и не попадут в списки альтернатив.
Игнорирование оптимизации под Google Shopping: Рассчитывать только на органический трафик и игнорировать видимость в товарной выдаче неэффективно, так как данные из Shopping напрямую влияют на понимание системой взаимосвязей между продуктами.
Манипуляции с названиями для включения конкурентов: Попытки искусственно включить названия конкурентов в свой продуктовый фид (не в рамках легитимного сравнения) не сработают, так как система опирается на реальные клики и частоту сравнений в логах поиска, а не только на контент фида.

Стратегическое значение

Патент подтверждает, что Google рассматривает поведение пользователей в разных своих системах (Web Search и Google Shopping) как взаимодополняющие источники данных для понимания рынка. Для E-commerce SEO стратегически важно не только ранжироваться по целевым запросам, но и быть правильно позиционированным в конкурентном окружении. Этот механизм позволяет Google автоматически масштабировать понимание того, какие товары являются прямыми конкурентами, основываясь на «мудрости толпы», выраженной через сравнительные запросы и клики.

Практические примеры

Сценарий: Определение альтернатив для смартфона

Исходные данные (Shopping Logs):
- Запрос «iPhone 15 Pro» часто ведет к кликам на продукт «Apple iPhone 15 Pro 256GB». (Высокий prob(p|q)).
- Запрос «Galaxy S25 Ultra» часто ведет к кликам на продукт «Samsung Galaxy S25 Ultra 512GB». (Высокий prob(p|q)).
Данные сравнения (Web Logs): В логах веб-поиска зафиксировано большое количество запросов «iPhone 15 Pro vs Galaxy S25 Ultra». Счетчик сравнений v(x,y) для этой пары запросов высок.
Вычисление: Система рассчитывает Association Weight u(iPhone, Samsung). Она умножает высокие вероятности из шага 1 на высокий счетчик сравнений из шага 2.
Результат: Вес ассоциации высок. Когда пользователь ищет «iPhone 15 Pro» в Google Shopping, система предлагает «Samsung Galaxy S25 Ultra» как одну из главных альтернатив.

Вопросы и ответы

Как этот патент влияет на оптимизацию продуктовых фидов для Google Merchant Center?

Критически важно обеспечить чистоту и точность данных в фиде, особенно в названиях (titles) и изображениях. Они должны быть оптимизированы для достижения высокого CTR по релевантным запросам. Если CTR низкий, вероятность prob(p|q) будет низкой. В результате продукт может быть отфильтрован и не будет участвовать в расчете ассоциаций с альтернативами.

Что такое сравнительный запрос (Comparison Query) и как Google его определяет?

Это запрос, целью которого является сравнение двух продуктов. Google идентифицирует такие запросы в логах основного веб-поиска по наличию специфических терминов, таких как «vs», «versus», «compared to», или по структуре запроса, например, «Что лучше: А или Б». Система подсчитывает частоту таких запросов для определения связи между продуктами.

Применяется ли этот механизм за пределами Google Shopping?

Патент описывает применение в рамках Product Catalog System, что в первую очередь означает Google Shopping или аналогичные продуктовые вертикали. Однако принципы анализа сравнительных запросов для выявления конкурирующих сущностей могут использоваться и в основном веб-поиске, например, для формирования Панелей Знаний о продуктах или связанных функциях SERP.

Почему система использует данные и из веб-поиска, и из продуктового поиска?

Они предоставляют разные типы сигналов. Продуктовый поиск дает данные о кликах (Shopping Query Table), что позволяет точно связать запрос с конкретным SKU (неявный сигнал релевантности). Веб-поиск (Web Query Table) дает данные о том, как пользователи исследуют и сравнивают товары, что выражается в сравнительных запросах (явный сигнал намерения сравнить).

Как система справляется с вариантами одного продукта (цвет, размер)?

Патент признает, что варианты могут «распылять» клики, снижая вероятность prob(p|q) для каждого отдельного SKU. Предлагается метод группировки вариантов и присвоения кликов самому популярному варианту. Это подчеркивает важность правильной группировки товаров в фиде (например, используя item_group_id).

Что означает взвешивание по количеству предложений (Claim 5 и 6)?

Система может корректировать расчет вероятности prob(p|q), умножая количество кликов на квадратный корень из числа предложений этого продукта от разных продавцов. Это метод нормализации, который может использоваться для учета популярности или доступности продукта на рынке при определении его связи с запросом.

Насколько важны пороги фильтрации (Alpha и Beta) в этом алгоритме?

Они критически важны для обеспечения качества данных. Порог Alpha отсекает слишком общие запросы, которые не ведут к конкретным продуктам. Порог Beta отсекает случайные клики, оставляя только те продукты, которые сильно связаны с запросом. Без этих порогов система могла бы создавать ложные ассоциации.

Могу ли я повлиять на то, какие альтернативы показываются для моего продукта?

Напрямую — нет, так как расчет основан на глобальном поведении пользователей. Косвенно — да. Оптимизируя свой продукт так, чтобы он имел высокий CTR по определенным запросам (высокий prob(p|q)), и развивая бренд так, чтобы пользователи чаще сравнивали его с нужными конкурентами в веб-поиске, можно повлиять на расчет Association Weight.

Стоит ли создавать страницы типа «Наш продукт vs Конкурент» на своем сайте?

Создание таких страниц полезно для пользователей и может улучшить конверсию и видимость по этим запросам в веб-поиске. Хотя этот патент анализирует текст запросов пользователей, а не контент страниц, наличие такого контента может стимулировать пользователей использовать аналогичные запросы в поиске, что косвенно повлияет на данные, используемые алгоритмом.

Что важнее для определения альтернатив: клики или сравнительные запросы?

Они оба необходимы. Формула Association Weight является произведением вероятностей кликов и счетчика сравнений. Если хотя бы один из множителей равен нулю или очень мал (например, продукт не связан с запросом или запросы редко сравниваются), итоговый вес ассоциации также будет низким.