Как Google использует ансамблевое машинное обучение и SVM для точного сопоставления товарных предложений (Entity Resolution)

Google применяет двухуровневую систему машинного обучения для решения задачи Entity Resolution — определения того, соответствует ли товарное предложение от продавца существующему объекту в каталоге. Система использует ансамбль специализированных предикторов (Logistic Regression) для оценки кандидатов и машину опорных векторов (SVM) для принятия финального высокоточного решения о совпадении, что критически важно для Google Shopping.

Описание

Какую задачу решает

Патент решает задачу высокоточного сопоставления объектов (Object Matching или Entity Resolution). В контексте документа это фокусируется на связывании индивидуальных товарных предложений (product offers), поступающих от разных продавцов, с каноническими записями в централизованной базе данных продуктов. Это необходимо для агрегации предложений одного и того же товара (например, в Google Shopping). Проблема усложняется тем, что продавцы описывают товары по-разному, предоставляют неполные данные или создают описания аксессуаров, очень похожие на родительские продукты.

Что запатентовано

Запатентована система для идентификации объектов, использующая двухуровневый подход машинного обучения. На первом уровне используется ансамбль предикторов (Ensemble of Predictors), состоящий из моделей логистической регрессии, обученных по-разному для обеспечения разнообразия. На втором уровне мета-классификатор, Support Vector Machine (SVM), анализирует совокупность прогнозов (оценки и ранги) от ансамбля для принятия окончательного, высокоточного решения о совпадении.

Как это работает

Система работает по следующему алгоритму:

Генерация кандидатов: Для входящего предложения из базы данных быстро отбирается подмножество потенциальных совпадений (Candidates).
Извлечение признаков: Атрибуты предложения детально сравниваются с атрибутами каждого кандидата с помощью набора тестов (Predicates), формируя признаки (Feature Value Pairs).
Ансамблевое прогнозирование: Набор специализированных предикторов анализирует признаки и ранжирует кандидатов по вероятности совпадения.
Выбор потенциального совпадения: Система проводит голосование среди лучших результатов предикторов для выбора наиболее вероятного кандидата.
Мета-классификация (SVM): Создается вектор (Tuple Vector), суммирующий оценки и ранги, присвоенные выбранному кандидату всеми предикторами. SVM анализирует этот вектор и вычисляет итоговую оценку (Class Probability Score).
Принятие решения: Если итоговая оценка превышает порог, совпадение подтверждается.

Актуальность для SEO

Высокая. Entity Resolution является фундаментальной задачей для Google Shopping, Knowledge Graph и любых систем, агрегирующих данные из разных источников. Точная идентификация товаров в условиях зашумленных и несогласованных данных критически важна. Описанные методы (ансамблевое обучение, SVM) остаются актуальными и эффективными подходами для задач классификации высокой точности.

Важность для SEO

Влияние на SEO значительно, но специфично для E-commerce (7/10). Патент не описывает ранжирование веб-страниц. Он описывает механизм, который Google использует для нормализации и сопоставления данных о товарах в своем каталоге. Корректное сопоставление товарного предложения (например, из Merchant Center) с каталогом напрямую влияет на видимость товара в Google Shopping и блоках сравнения цен. Это подчеркивает критическую важность качества и точности продуктовых данных.

Детальный разбор

Термины и определения

Object / Offer (Объект / Предложение): Входящая единица данных (например, товар от продавца), которую необходимо сопоставить с базой данных. Имеет набор атрибутов (Title, Brand, UPC и т.д.).
Candidate (Кандидат): Объект из базы данных, отобранный как потенциально соответствующий входящему объекту.
Ensemble of Predictors (Ансамбль предикторов): Набор из нескольких моделей машинного обучения (в патенте — Logistic Regression Models). Каждый предиктор обучен по-разному.
Feature Value Pairs (Пары значений признаков): Признаки, генерируемые путем сравнения атрибутов объекта и кандидата с применением Predicates. Являются входными данными для предикторов.
Predicates (Предикаты): Набор тестов для сравнения пары атрибутов. Примеры: One Token Match (совпадение одного токена), One Bigram Match (совпадение одной биграммы), Normalized Identifier.
K (Параметр обучения): Ключевой параметр, используемый при обучении ансамбля. Определяет количество топовых негативных тренировочных примеров, используемых для настройки конкретной модели. Значение K различается для каждой модели (например, 2, 5, 10, 20, 40), что обеспечивает разнообразие ансамбля.
Support Vector Machine (SVM, Машина опорных векторов): Мета-классификатор. Анализирует выводы ансамбля предикторов (Tuple Vector) и принимает финальное решение.
Tuple Vector (Вектор кортежей): Вектор признаков для SVM. Содержит кортежи для каждого предиктора, включающие оценку вероятности (likelihood) и ранг (ranking), присвоенные потенциальному кандидату.
Class Probability Score (Оценка вероятности класса): Итоговая оценка, вычисляемая SVM. Определяет уверенность системы в совпадении. Сравнивается с порогом.

Ключевые утверждения (Анализ Claims)

Патент содержит два основных независимых пункта: Claim 1 (процесс работы) и Claim 15 (процесс обучения).

Claim 1 (Независимый пункт): Описывает основной процесс сопоставления во время выполнения (runtime).

Система определяет потенциального кандидата на совпадение (potential match candidate) из числа кандидатов, ранжированных ансамблем предикторов. Важно: каждый предиктор отличается от другого.
Для каждого предиктора система идентифицирует: (i) Первое значение (first value) — вероятность совпадения, предсказанную этим предиктором; (ii) Второе значение (second value) — пропорциональное рангу кандидата, предсказанному этим предиктором.
Система вычисляет Class Probability Score, используя первые и вторые значения от всех предикторов.
Если Class Probability Score удовлетворяет пороговому значению, система подтверждает совпадение.

Claim 2 (Зависимый от 1): Детализирует вычисление итоговой оценки.

Генерируется Tuple Vector, включающий кортежи (первое и второе значения) от всех предикторов. Этот вектор предоставляется Support Vector Machine (SVM), которая и определяет Class Probability Score.

Claim 3 (Зависимый от 1): Детализирует выбор потенциального кандидата.

Система определяет наиболее вероятного кандидата (топ-1) для каждого предиктора и подсчитывает количество голосов. Выбирается кандидат с наибольшим количеством голосов.

Claim 15 (Независимый пункт): Описывает процесс обучения (training) ансамбля предикторов.

Идентифицируется тестовый объект и обучающие кандидаты.
Генерируются пары признаков (feature value pairs).
Пары признаков предоставляются множеству моделей (предикторов).
Каждая модель обучается путем: (i) Идентификации K обучающих кандидатов; (ii) Настройки коэффициентов модели на основе этих K кандидатов.
Ключевое утверждение: Значение K различно для каждой модели.

Claim 18 (Зависимый от 17 и 15): Уточняет, что K обучающих кандидатов, используемых для настройки модели, являются negative candidates (заведомо не соответствуют тестовому объекту).

Где и как применяется

Этот патент описывает инфраструктурный механизм обработки данных и разрешения сущностей (Entity Resolution), который не участвует в ранжировании поисковой выдачи в реальном времени.

INDEXING – Индексирование (Обработка данных и Нормализация)

Основное применение патента. Когда система (например, Google Shopping) получает новые данные (например, через фид Merchant Center), ей необходимо определить, является ли входящий Object (товар) новым или он соответствует уже существующему объекту в базе данных.

Сбор данных: Получение Offer с атрибутами.
Генерация кандидатов: Быстрый поиск похожих объектов в индексе.
Разрешение сущностей: Детальное сравнение атрибутов и использование описанного ансамбля ML (Predictors + SVM) для высокоточного сопоставления.

Входные данные:

Входящее товарное предложение (Offer) и его атрибуты (Название, Бренд, GTIN/UPC, MPN и т.д.).
База данных существующих объектов.
Предварительно обученные модели (Предикторы и SVM).

Выходные данные:

Подтвержденное соответствие между входящим Offer и объектом в базе данных, ИЛИ определение того, что совпадений не найдено.

На что влияет

Конкретные типы контента: Влияет исключительно на структурированные данные, в первую очередь товарные предложения (E-commerce).
Конкретные ниши или тематики: Наибольшее влияние в сложных товарных категориях (электроника, автозапчасти), где данные от продавцов часто неоднозначны, неполны или существует множество похожих товаров (вариантов, аксессуаров).

Когда применяется

Триггеры активации: Процесс активируется при обработке входящих данных о товарах — например, при загрузке или обновлении фида в Google Merchant Center.
Цель применения: Достижение высокой точности (high-precision) при сопоставлении для поддержания чистоты каталога.

Пошаговый алгоритм

Процесс А: Обработка входящего предложения (Runtime)

Получение предложения и Генерация кандидатов: Система получает Offer (Объект O). Candidate Generator отбирает набор M потенциальных кандидатов (CE) из базы данных.
Извлечение признаков: Feature Extractor сравнивает атрибуты O с атрибутами каждого CE. Вычисляется кросс-произведение атрибутов и применяется набор Predicates для генерации Feature Value Pairs.
Ансамблевое прогнозирование: Пары признаков подаются на вход K различным предикторам (Logistic Regression Models). Каждый предиктор выдает свой ранжированный список кандидатов.
Выбор потенциального совпадения: Potential Match Candidate Selector проводит голосование. Кандидат, занявший первое место у наибольшего числа предикторов, выбирается как Потенциальный Кандидат (CEt).
Генерация вектора кортежей: Tuple Vector Generator создает вектор для CEt, содержащий пары (Оценка, Ранг) от каждого из K предикторов.
Мета-классификация: Tuple Vector подается на вход SVM. SVM вычисляет итоговую Class Probability Score (S_SVM).
Принятие решения: Система сравнивает S_SVM с порогом C.
- Если S_SVM > C: Система определяет, что O соответствует CEt.
- Если S_SVM <= C: Совпадений не найдено.

Процесс Б: Обучение системы (Offline)

Сбор обучающих данных: Идентифицируются тестовые объекты с уникальными идентификаторами (например, UPC), для которых точно известно совпадение (Strongly Matched Offers). Генерируются наборы кандидатов (положительные и отрицательные примеры).
Специализированное обучение предикторов (Variable K): Каждый предиктор обучается на сбалансированных данных. Ключевая особенность: для обучения каждого предиктора используется разное количество (K) топовых отрицательных примеров (например, K=2, 5, 10, 20, 40). Это создает специализацию моделей.
Обучение SVM: На валидационных данных (Held-out Validation Data) генерируются Tuple Vectors на основе выходов обученных предикторов. SVM обучается на этих векторах распознавать паттерны успешного сопоставления.

Какие данные и как использует

Данные на входе

Система фокусируется на анализе атрибутов объектов.

Контентные и Структурные факторы (Атрибуты товара): Система использует все доступные атрибуты. Примеры, упомянутые в патенте:
- Title (Название)
- Description (Описание)
- Header/Brand (Бренд)
- Model (Модель)
- Part Number (Артикул/MPN)
- Universal Product Identifier / UPC (Универсальный код продукта/GTIN).

Какие метрики используются и как они считаются

Likelihood Scores (Оценки вероятности): Вычисляются каждым предиктором (логистической регрессией). Диапазон [0, 1].
Ranks (Ранги): Позиция кандидата в отсортированном списке предиктора.
Class Probability Score: Итоговая оценка SVM. Описано преобразование расстояния от гиперплоскости SVM в вероятность с помощью сигмоидной функции: 1 / (1 + exp(distance from hyperplane)).
Threshold C (Порог C): Предварительно определенное значение (например, 0.5) для принятия финального решения.

Методы анализа и ML:

Feature Engineering: Используется метод кросс-произведения (cross-product) атрибутов объекта, атрибутов кандидата и набора предикатов (Predicates).
Predicates: Специфические тесты сравнения: Assertion Test, One Token Match, One Bigram Match, Normalized Identifier.
Ensemble Learning: Использование ансамбля моделей.
Logistic Regression: Базовые предикторы.
Support Vector Machine (SVM): Мета-классификатор. Упоминается использование ядер RBF (RBF Kernel).

Выводы

Сложная архитектура для Entity Resolution: Google использует не простое сравнение атрибутов, а сложную двухуровневую ML-архитектуру (Ансамбль + SVM) для сопоставления товаров. Это указывает на сложность задачи и важность точности для Google.
Специализация через разнообразное обучение (Variable K): Ключевая инновация — обучение предикторов в ансамбле на разном количестве (K) сложных негативных примеров. Это создает специализированные модели, позволяя ансамблю эффективно обрабатывать разные уровни неоднозначности данных.
Мета-анализ решений: SVM не просто усредняет результаты. Она анализирует паттерн согласия/несогласия между предикторами, закодированный в Tuple Vector (включая как оценки, так и ранги). Это позволяет системе доверять результату, только если специализированные модели пришли к консенсусу определенным образом.
Детальное сравнение атрибутов: Механизм извлечения признаков через кросс-произведение и использование Predicates (например, совпадение биграмм) показывает, что система детально анализирует, какие именно атрибуты и каким образом совпадают, а не полагается на общее сходство.
Приоритет точности (Precision): Архитектура системы и использование порога принятия решения направлены на минимизацию ложноположительных срабатываний (ошибочных склеек товаров), что критически важно для качества каталога.

Практика

Best practices (это мы делаем)

Рекомендации применимы для специалистов по E-commerce SEO и оптимизации товарных фидов (Google Merchant Center).

Обеспечение точности уникальных идентификаторов: Критически важно предоставлять корректные и валидные уникальные идентификаторы (GTIN/UPC/EAN, Бренд, MPN). В патенте UPC используются для создания эталонных обучающих данных (Strongly Matched Offers), что подчеркивает их значимость для системы.
Максимальная полнота и структурированность данных: Заполняйте как можно больше релевантных атрибутов в товарном фиде. Система анализирует кросс-произведение всех атрибутов. Чем больше данных предоставлено, тем больше информации доступно для Feature Extractor.
Консистентность и чистота наименований: Используйте четкие и консистентные Titles и Descriptions. Система применяет предикаты, такие как One Token Match и One Bigram Match, для сравнения текстовых полей. Четкие формулировки без «мусора» помогают системе находить точные совпадения.
Четкое разграничение товаров и аксессуаров: Патент упоминает проблему схожести описаний аксессуаров и основных продуктов. Необходимо четко разграничивать их в фиде, используя уникальные идентификаторы и названия, чтобы помочь системе их различить.

Worst practices (это делать не надо)

Предоставление неполных или «шумных» данных: Отсутствие ключевых атрибутов (Бренд, Модель) или использование нерелевантной информации в полях заставляет систему полагаться на менее надежные признаки, увеличивая риск ошибки сопоставления или отказа.
Использование некорректных или чужих GTIN/MPN: Предоставление ложных идентификаторов может привести к неправильному сопоставлению товара (ложноположительное срабатывание) или его отклонению, так как система не сможет верифицировать данные.
Неоднозначные названия товаров (Keyword Stuffing): Включение в Title информации, не относящейся к идентификации товара (например, условий доставки или спама), усложняет работу Predicates и снижает точность сопоставления.

Стратегическое значение

Патент подтверждает, что для успеха в E-commerce на платформе Google фундаментальное значение имеет качество и структурированность продуктовых данных. Это не алгоритм ранжирования, который можно оптимизировать ссылками; это система валидации и нормализации данных. Если данные не проходят этот этап высокоточного сопоставления, товар не получит должной видимости. Стратегия должна фокусироваться на управлении данными о продуктах (Product Information Management, PIM) как на ключевом элементе SEO для E-commerce.

Практические примеры

Сценарий: Сопоставление сложного электронного устройства в Merchant Center

Входящее предложение (Offer): Продавец загружает фид с товаром: Title: «Ноутбук Dell XPS 15 9500 Core i7 16GB RAM 1TB SSD Серебристый», Brand: «Dell», GTIN: указан корректно, MPN: не указан.
Генерация кандидатов: Система находит в каталоге несколько похожих моделей Dell XPS 15.
Извлечение признаков: Система применяет Predicates. One Token Match находит совпадения «Dell», «XPS», «15», «9500». GTIN также сравнивается (например, через Normalized Identifier).
Ансамблевое прогнозирование: Предикторы анализируют признаки. Модели с низким K (например, K=2) могут быть очень уверены в совпадении благодаря GTIN и совпадению ключевых токенов. Модели с высоким K (K=40) также дают высокую оценку, так как отличающихся признаков мало.
SVM Классификация: Tuple Vector показывает высокий консенсус среди всех предикторов (высокие оценки, ранг 1). SVM выдает высокую Class Probability Score (например, 0.95).
Результат: Несмотря на отсутствие MPN, система точно сопоставляет предложение с нужной моделью в каталоге благодаря комбинации других сильных признаков и консенсусу ансамбля.

Вопросы и ответы

Описывает ли этот патент алгоритмы ранжирования веб-поиска?

Нет. Этот патент не имеет отношения к ранжированию веб-страниц. Он описывает внутренний инфраструктурный механизм для Entity Resolution (сопоставления объектов), который используется для нормализации данных и дедупликации, в частности, для сопоставления товарных предложений от продавцов с централизованным каталогом продуктов Google.

Что такое «Ансамбль предикторов» (Ensemble of Predictors) и почему он используется?

Это набор из нескольких моделей машинного обучения (здесь — Logistic Regression Models), которые работают совместно. Использование ансамбля повышает точность по сравнению с одной моделью. В этом патенте ключевая особенность в том, что модели обучены по-разному (с разным параметром K), что позволяет им специализироваться на разных аспектах задачи сопоставления.

Зачем использовать SVM (Support Vector Machine) поверх ансамбля?

SVM действует как мета-классификатор. Вместо простого усреднения результатов предикторов, SVM анализирует совокупность их решений (оценки и ранги от каждой модели), закодированную в Tuple Vector. Это позволяет системе понять паттерн согласия между специализированными моделями и принять финальное высокоточное решение.

Что такое «Предикаты» (Predicates) и как они помогают сопоставлению?

Предикаты — это набор конкретных тестов для сравнения двух атрибутов (например, двух названий). Примеры включают One Token Match (совпадает ли хотя бы одно слово) или One Bigram Match. Они позволяют системе находить частичные совпадения и понимать, как именно атрибуты похожи, даже если они не идентичны.

Как этот патент влияет на оптимизацию фида для Google Shopping?

Он напрямую влияет на то, сможет ли Google корректно сопоставить ваши товары с продуктами в своем каталоге. Если сопоставление не произойдет из-за низкого качества или неоднозначности данных в фиде, ваш товар может не отображаться в сравнении цен или релевантных товарных блоках. Качество данных критически важно.

Каков главный вывод из этого патента для E-commerce SEO?

Фундаментальное значение имеет качество данных о продукте и наличие уникальных идентификаторов (GTIN, MPN, Бренд). Google использует сложные системы машинного обучения для интерпретации этих данных. Стратегия должна фокусироваться на обеспечении максимальной точности, полноты и структурированности информации в товарных фидах.

Почему предикторы обучаются по-разному (с разными значениями K)?

Предикторы обучаются с использованием разного количества (K) топовых отрицательных примеров (кандидатов, которые похожи, но не являются совпадением). Это создает специализацию моделей. Модели с разным K учатся различать совпадения в разных условиях неоднозначности (например, когда есть много похожих кандидатов), что делает весь ансамбль более устойчивым и точным.

Что произойдет, если оценка SVM окажется ниже порогового значения?

Если итоговая Class Probability Score не превышает установленный порог (Threshold C), система определяет, что ни один из кандидатов не соответствует входящему предложению с достаточной степенью уверенности. Товарное предложение останется не связанным с каталогом или может быть отклонено.

Насколько важны GTIN/UPC согласно этому патенту?

Очень важны. Патент упоминает использование уникальных идентификаторов (UPC) для создания надежных обучающих данных (Strongly Matched Offers). Наличие корректного GTIN является одним из самых сильных сигналов для системы сопоставления и значительно повышает шансы на успешную идентификацию.

Что важнее для SEO в контексте этого патента: качество страницы или качество данных в фиде?

Для задачи, описанной в патенте (сопоставление товаров), критически важно качество данных в фиде (или структурированных данных). Система анализирует атрибуты объекта. Хотя качество целевой страницы важно для ранжирования и модерации в целом, именно точность данных в фиде определяет успешность работы механизма Entity Resolution.