Google использует систему для анализа структуры поисковых запросов в e-commerce. Система идентифицирует известные бренды и атрибуты, а затем выявляет неизвестные термины, которые часто появляются рядом с конкретным брендом. Если эти термины соответствуют шаблонам названий продуктовых линеек и статистически связаны с брендом, Google классифицирует их как новую линейку продуктов этого бренда.
Описание
Какую задачу решает
Патент решает проблему своевременного распознавания новых продуктовых линеек в поисковых запросах пользователей. Продуктовые линейки часто меняются: компании запускают новые и прекращают поддержку старых. Поисковым системам необходимо быстро адаптироваться к этим изменениям, чтобы точно понимать намерение пользователя в shopping-related search queries и предоставлять релевантные результаты и фильтры. Патент предлагает автоматизированный метод обнаружения этих линеек и их связи с соответствующими брендами напрямую из анализа запросов.
Что запатентовано
Запатентована система и метод для автоматического определения новых продуктовых линеек на основе анализа поисковых запросов. Система анализирует структуру запроса, идентифицирует известные бренды и атрибуты, а затем оценивает неизвестные термины. Если эти неизвестные термины часто встречаются рядом с определенным брендом, редко встречаются с другими брендами и соответствуют типичным шаблонам названий продуктовых линеек, система классифицирует их как новую линейку (new product line) этого бренда.
Как это работает
Система работает по следующему алгоритму:
- Классификация запроса: Поступивший запрос (Product Query) классифицируется для определения категории товара (например, «Жесткие диски»).
- Идентификация известных элементов: Система использует словари (Product Brand Dictionary и Category Attribute Dictionary) для распознавания известного бренда [B] и известных атрибутов [A] в запросе.
- Выделение неизвестных терминов: Термины, которые не были распознаны, помечаются как потенциальная продуктовая линейка [PL].
- Анализ структуры и шаблонов: Проверяется, соответствует ли запрос типичной структуре (например, [B] [PL] [A]) и соответствуют ли термины [PL] ожидаемым формам названий линеек.
- Вычисление метрики связи: Рассчитывается метрика (Metric), показывающая силу связи между [PL] и [B]. Метрика учитывает частоту совместного появления [PL] и [B], общее количество запросов с [PL] и эксклюзивность (как редко [PL] появляется с другими брендами).
- Принятие решения: Если метрика превышает пороговое значение (Pairing threshold), [PL] признается новой продуктовой линейкой бренда [B].
Актуальность для SEO
Высокая. Для E-commerce и Google Shopping точное понимание запросов о товарах, включая бренды и конкретные линейки, критически важно для ранжирования и пользовательского опыта (например, для работы фасетной навигации). Автоматическое и быстрое обучение системы новым линейкам продуктов остается актуальной задачей в динамичном рынке ритейла.
Важность для SEO
Патент имеет высокое значение для SEO в сфере E-commerce (оценка 85/100). Он раскрывает механизм, с помощью которого Google структурирует знания о товарах напрямую из поискового поведения пользователей. Это влияет на то, как продукты категоризируются, как интерпретируются запросы и как формируются фильтры в выдаче. Понимание этого механизма критично для оптимизации товарных фидов, структуры сайтов и стратегий запуска новых продуктов, подчеркивая важность консистентности и четкости в нейминге продуктовых линеек.
Детальный разбор
Термины и определения
- Category Attribute Dictionary (Словарь атрибутов категорий)
- База данных, содержащая известные атрибуты (например, «1TB», «SATA») для различных категорий товаров и/или брендов.
- Metric (for brand to product line pairing) (Метрика связи бренда и продуктовой линейки)
- Вычисляемый показатель, который указывает, насколько вероятно неизвестные термины соответствуют реальной продуктовой линейке конкретного бренда. Учитывает частоту, структуру запросов и эксклюзивность связи.
- Pairing threshold (Порог связи)
- Заданное пороговое значение для Metric. Если метрика превышает порог, связь между брендом и потенциальной линейкой считается подтвержденной.
- Product Brand Dictionary (Словарь брендов товаров)
- База данных, содержащая список известных брендов в различных категориях товаров.
- Product Line Resolution Module (Модуль определения продуктовой линейки)
- Основной компонент системы, отвечающий за анализ запросов, идентификацию неизвестных терминов и вычисление метрики для связи их с брендами.
- Product line templates/forms (Шаблоны/формы продуктовых линеек)
- Обобщенные правила или паттерны, которым обычно следуют названия продуктовых линеек (например, начинаются с буквы, содержат мало цифр). Могут быть специфичными для категории или бренда.
- Product Query (Запрос о товаре)
- Поисковый запрос, введенный пользователем с намерением найти или купить товар.
- Query Classifier (Классификатор запросов)
- Компонент, который автоматически определяет категорию товара на основе текста поискового запроса.
- Unknown product line terms [PL] (Неизвестные термины продуктовой линейки)
- Термины в запросе, которые не были идентифицированы как известный бренд или известный атрибут, и являются кандидатами на роль названия продуктовой линейки.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод определения новых продуктовых линеек из неизвестных поисковых терминов.
- Система получает первый Product Query.
- Запрос классифицируется для определения категории товара.
- Идентифицируется Бренд [B] из списка известных брендов для этой категории.
- Извлекается список известных атрибутов для этой категории.
- В запросе идентифицируются неизвестные термины, которые НЕ соответствуют списку известных атрибутов.
- Эти неизвестные термины классифицируются как unknown product line terms [PL] путем сравнения их с known product line templates (шаблонами, включающими известные линейки известных брендов).
- Вычисляется Metric, указывающая на соответствие [PL] реальной продуктовой линейке бренда [B]. Вычисление метрики ОБЯЗАТЕЛЬНО включает определение общего количества других поисковых запросов, содержащих эти [PL] термины.
- Определяется, превышает ли Metric заданный порог.
- Если ДА, термины [PL] назначаются как new product line для бренда [B].
- Выполняется поиск товаров для этой новой линейки.
- Результаты поиска уточняются (refining) на основе новой продуктовой линейки.
- Возвращаются результаты поиска.
Claim 2, 3, 11, 14 (Зависимые): Уточняют компоненты расчета Metric, связанные с частотой совместного появления (co-occurrence).
- Метрика учитывает частоту, с которой другие запросы содержат как термины [PL], так и термины, связанные с брендом [B] (Claims 3, 11).
- Метрика также учитывает частоту, с которой другие запросы содержат термины [PL] и термины, связанные с брендами, ОТЛИЧНЫМИ от [B] (Claims 2, 14). Это измеряет эксклюзивность связи.
Claim 4, 5, 6, 8, 12, 15, 16, 18 (Зависимые): Уточняют компоненты расчета Metric, связанные с шаблонами и схожестью.
- Метрика включает оценку схожести [PL] с уже известными продуктовыми линейками, ассоциированными с этим же брендом [B] (Claims 4, 6, 12, 15).
- Метрика включает оценку соответствия [PL] «типичным паттернам терминов продуктовых линеек» (typical product line term patterns) (Claims 5, 8, 16, 18).
Где и как применяется
Изобретение применяется преимущественно на этапе понимания запросов, специфичном для систем поиска товаров (например, Google Shopping).
QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Система работает как часть процесса интерпретации Product Query в реальном времени, а также, вероятно, в офлайн-режиме для анализа логов запросов.
- Классификация и Парсинг: Query Classifier определяет, что запрос относится к определенной категории товаров.
- Извлечение Сущностей (NER): Система извлекает известные бренды и атрибуты, используя Product Brand Dictionary и Category Attribute Dictionary.
- Динамическое Обучение: Product Line Resolution Module анализирует оставшиеся неизвестные термины [PL]. Он использует статистические данные (метрики ко-встречаемости) и структурные шаблоны для динамического выявления новых продуктовых линеек и их связи с брендами. Это процесс постоянного обновления знаний системы о товарном каталоге мира.
INDEXING – Индексирование и извлечение признаков
Результаты работы этого алгоритма (новые продуктовые линейки и их связь с брендами) сохраняются в Category Attribute Dictionary. Эти данные затем могут использоваться при индексации товарных фидов и веб-страниц для лучшего понимания и структурирования информации о товарах.
RANKING / METASEARCH – Ранжирование и Метапоиск
Точное определение бренда и продуктовой линейки из запроса позволяет Product Search Engine более точно отбирать кандидатов (Retrieval) и уточнять результаты поиска (Refinement). Также это позволяет формировать точные фильтры (фасеты) в результатах поиска (Attribute Selectors).
Входные данные:
- Product Query пользователя.
- Product Brand Dictionary.
- Category Attribute Dictionary.
- Product line templates (правила/паттерны).
- Данные из логов запросов (неявно, для расчета метрик частотности и ко-встречаемости).
Выходные данные:
- Структурированное понимание запроса (Бренд, Продуктовая линейка, Атрибуты).
- Новые пары Бренд-Продуктовая линейка (для обновления словарей).
- Уточненные результаты поиска товаров (Search Results).
На что влияет
- Специфические запросы: В первую очередь влияет на коммерческие запросы, направленные на поиск конкретных товаров (например, «Samson FireDrive 1TB SATA»).
- Конкретные ниши или тематики: Наибольшее влияние в E-commerce, особенно в категориях, где распространены четкие продуктовые линейки: электроника (ноутбуки, смартфоны, комплектующие), одежда и обувь, бытовая техника, автомобили.
- Типы контента: Влияет на ранжирование карточек товаров, листингов и контента в Google Shopping.
Когда применяется
- Условия работы: Алгоритм применяется при обработке запросов, классифицированных как Product Query.
- Триггеры активации: Активируется, когда в запросе присутствуют как известные элементы (бренд и/или атрибуты), так и неизвестные термины [PL], расположенные в структуре, предполагающей название продуктовой линейки. Система предназначена для постоянного мониторинга и обнаружения новинок.
Пошаговый алгоритм
Процесс обнаружения новой продуктовой линейки:
- Получение и Классификация: Система получает Product Query и использует Query Classifier для определения категории товара.
- Идентификация Известных Элементов: Система ищет в запросе известные бренды [B] с помощью Product Brand Dictionary и известные атрибуты [A] или категорийные термины [C] с помощью Category Attribute Dictionary.
- Изоляция Неизвестных Терминов: Термины, которые не были распознаны, изолируются и помечаются как кандидаты на роль продуктовой линейки [PL].
- Структурный Анализ: Проверяется расположение терминов в запросе. Предпочтение отдается структурам вида [B][PL], [B][PL][A], [B][PL][C] или гибридным вариантам.
- Оценка по Шаблонам: Термины [PL] оцениваются на соответствие typical product line templates. Например, проверяется, начинаются ли они с буквы и содержат ли мало цифр (чтобы отличить от номеров моделей). Шаблоны могут быть специфичны для бренда или категории.
- Идентификация Кандидата: Если структура и шаблоны подходят, [PL] становится кандидатом в продуктовую линейку для бренда [B].
- Вычисление Метрики Связи (Metric Computation): Система вычисляет Metric для пары [PL]-[B]. Для этого анализируются данные по множеству запросов (вероятно, из логов):
- Количество уникальных запросов и общий объем запросов, содержащих [PL] в нужной структуре и категории.
- Частота совместного появления [PL] и [B].
- Эксклюзивность (Доминирование [B]): как часто [PL] появляется с другими брендами по сравнению с [B].
- Нормализация: доля запросов с правильной структурой от всех запросов, содержащих [PL].
- Сравнение с Порогом: Вычисленная Metric сравнивается с pairing threshold.
- Назначение и Обновление: Если порог превышен, [PL] признается новой продуктовой линейкой для [B]. Эта информация может быть добавлена в Category Attribute Dictionary.
- Поиск и Уточнение: Product Search Engine использует запрос и новообретенное знание о паре [PL]-[B] для выполнения поиска и уточнения результатов.
- Возврат Результатов: Пользователю возвращаются результаты поиска, которые могут включать Attribute Selectors (фильтры) с указанием новой продуктовой линейки.
Какие данные и как использует
Данные на входе
Патент фокусируется на анализе запросов и использовании предварительно составленных словарей.
- Контентные факторы (из запроса): Текст поискового запроса (Product Query) является основным источником данных. Анализируются как сами термины, так и их порядок (структура запроса).
- Поведенческие факторы (из логов): Для расчета метрик используются агрегированные данные о поисковых запросах. Анализируется частота запросов, количество уникальных запросов и статистика совместного появления терминов (брендов и потенциальных линеек).
- Системные данные (Словари и Правила):
- Product Brand Dictionary: Списки известных брендов.
- Category Attribute Dictionary: Списки известных атрибутов.
- Product line templates: Правила и паттерны для идентификации названий линеек.
Какие метрики используются и как они считаются
- Metric (for brand to product line pairing): Комплексная оценка уверенности в том, что [PL] является линейкой [B]. Она рассчитывается как функция от нескольких переменных:
- Частота и Объем: Общее количество и количество уникальных запросов, где [PL] появляется в контексте [B] и/или [A] в правильной структуре и категории.
- Co-occurrence (Совместное появление): Частота появления [PL] рядом с [B].
- Exclusivity/Dominance (Эксклюзивность/Доминирование): Степень, в которой [B] доминирует среди всех брендов, появляющихся рядом с [PL]. (Высокая частота с [B] и низкая с другими брендами увеличивает метрику).
- Template Fit (Соответствие шаблону): Оценка того, насколько [PL] соответствует ожидаемым формам названий линеек.
- Normalization (Нормализация): Доля запросов, в которых [PL] появляется в правильной структуре, по отношению ко всем появлениям [PL].
- Pairing threshold: Предопределенное статическое значение, используемое для валидации связи. Более высокий порог обеспечивает большую точность.
Выводы
- Динамическое обучение каталогу: Google активно использует анализ поисковых запросов пользователей для динамического изучения и обновления своего каталога товаров, в частности, для быстрого обнаружения новых продуктовых линеек.
- Структура запроса имеет значение: Система полагается на типичные структуры запросов (Бренд -> Линейка -> Атрибуты) для выявления взаимосвязей. То, как пользователи формируют запросы, напрямую влияет на понимание Google.
- Статистическая связь и эксклюзивность — ключ к идентификации: Ключевым механизмом является не просто частое упоминание терминов вместе, а статистически значимая и эксклюзивная связь. Если термин появляется с одним брендом часто, а с другими редко, это сильный сигнал, что это продуктовая линейка первого бренда.
- Важность известных словарей: Система зависит от качества базовых словарей брендов и атрибутов. Распознавание неизвестных терминов возможно только после того, как известные были идентифицированы.
- Использование шаблонов для валидации: Google использует обобщенные представления о том, как должны выглядеть названия продуктовых линеек (product line templates), чтобы отличать их от номеров моделей или случайных терминов.
Практика
Best practices (это мы делаем)
Рекомендации сфокусированы на E-commerce SEO и управлении продуктовым каталогом.
- Консистентность в Нейминге (для производителей и крупных ритейлеров): Используйте четкие, уникальные и последовательные названия для продуктовых линеек во всех каналах (сайт, фиды, маркетинг, PR). Это поможет системе быстрее сформировать эксклюзивную связь между вашим брендом и линейкой.
- Оптимизация структуры заголовков и описаний: Структурируйте названия товаров (Product Titles) и описания так, чтобы они отражали естественный порядок поиска пользователей (например, Бренд + Линейка + Ключевые Атрибуты). Это облегчает парсинг и помогает системе распознавать элементы.
- Стратегия запуска новых линеек: При запуске новой продуктовой линейки активно формируйте поисковый спрос, связывающий бренд и новое название. Маркетинговые активности должны стимулировать пользователей искать именно в формате [Бренд] [Новая Линейка].
- Обеспечение чистоты данных в фидах: Убедитесь, что бренды и атрибуты в ваших товарных фидах (Google Merchant Center) указаны корректно. Это позволит системе Google правильно идентифицировать известные элементы и сосредоточиться на анализе неизвестных (новых линеек).
Worst practices (это делать не надо)
- Использование неуникальных или общих названий для линеек: Избегайте названий продуктовых линеек, которые используются другими брендами в той же категории или являются общими терминами. Это нарушает принцип эксклюзивности и мешает системе установить четкую связь с вашим брендом.
- Частая смена названий линеек: Непоследовательность в нейминге или частый ребрендинг линеек мешает накоплению достаточной статистики для подтверждения связи [PL]-[B].
- Игнорирование структуры «Бренд-Линейка»: Представление товаров без четкого указания бренда или линейки (например, только по артикулу или общему описанию) затрудняет работу системы по структурированию каталога.
Стратегическое значение
Этот патент подчеркивает важность Query Understanding в E-commerce поиске. Для Google критически важно преобразовать неструктурированный запрос в набор структурированных интентов (Бренд, Линейка, Атрибут). Стратегически это означает, что видимость в поиске товаров зависит не только от контента на сайте, но и от того, как рынок (пользователи) именует и ищет ваши продукты. Управление поисковым поведением и неймингом становится важной частью долгосрочной SEO и маркетинговой стратегии для производителей.
Практические примеры
Сценарий: Запуск новой линейки кроссовок
Производитель обуви «RunnerX» запускает новую линейку «CloudFlow».
- Задача: Обеспечить быстрое распознавание «CloudFlow» как линейки бренда «RunnerX» системой Google.
- Действия:
- На сайте и в фидах: Все товары именуются консистентно: «Кроссовки RunnerX CloudFlow [Цвет] [Размер]».
- Маркетинг и PR: В пресс-релизах, обзорах у блогеров и рекламе акцентируется связь «RunnerX CloudFlow». Цель — стимулировать пользователей искать именно так.
- Работа системы Google (по патенту):
- Google видит всплеск запросов «RunnerX CloudFlow».
- Система распознает «RunnerX» (Бренд) и цвета/размеры (Атрибуты).
- «CloudFlow» помечается как неизвестный термин [PL].
- Система анализирует логи: «CloudFlow» почти всегда появляется с «RunnerX» и редко с Nike или Adidas.
- Metric эксклюзивности высока. Шаблон названия соответствует ожиданиям.
- Ожидаемый результат: Google быстро идентифицирует «CloudFlow» как линейку «RunnerX». В результатах поиска по запросу «RunnerX CloudFlow» появляются точные результаты, а в фильтрах (фасетах) по запросу «Кроссовки RunnerX» появляется опция выбора линейки «CloudFlow».
Вопросы и ответы
Как Google отличает название продуктовой линейки от номера модели или артикула?
Система использует Product line templates (шаблоны продуктовых линеек). В патенте приводятся примеры правил: названия линеек обычно начинаются с буквы и содержат мало или совсем не содержат цифр. Кроме того, шаблоны могут быть специфичными для категории или даже бренда (например, если известно, что бренд использует определенный формат нейминга). Это помогает отфильтровать артикулы или технические номера.
Что является ключевым фактором для связи новой линейки с брендом?
Ключевым фактором является статистически значимая эксклюзивность связи (Exclusivity/Dominance). Система вычисляет Metric, которая учитывает, как часто потенциальная линейка [PL] встречается с брендом [B] по сравнению с тем, как часто она встречается с любыми другими брендами. Чем выше доминирование бренда [B] в запросах с [PL], тем выше уверенность системы в их связи.
Влияет ли этот патент на обычный веб-поиск или только на Google Shopping?
Патент описывает Online Product Search System и Product Search Engine, что явно указывает на фокус на поиске товаров (E-commerce, Google Shopping). Однако механизмы понимания запросов и извлечения сущностей часто используются кросс-платформенно. Понимание того, как Google структурирует знания о брендах и линейках, полезно и для оптимизации контента в основном веб-поиске.
Что произойдет, если два разных бренда используют одинаковое название для своей продуктовой линейки?
В этом случае принцип эксклюзивности будет нарушен. Система обнаружит, что термин [PL] часто встречается как с Брендом 1, так и с Брендом 2. Metric связи будет низкой для обоих брендов, и система, скорее всего, не сможет автоматически определить [PL] как продуктовую линейку ни одного из них, пока один из брендов не начнет значительно доминировать в поисковом спросе.
Как SEO-специалист может помочь Google быстрее узнать о новой продуктовой линейке?
Необходимо обеспечить консистентность нейминга на сайте, в товарных фидах и во всех маркетинговых материалах. Важно стимулировать формирование поискового спроса в формате [Бренд] [Новая Линейка]. Чем больше пользователей будут искать продукт именно так, тем быстрее система накопит необходимую статистику для подтверждения связи.
Использует ли система данные из Google Merchant Center для распознавания линеек?
Патент описывает метод распознавания линеек непосредственно из поисковых запросов пользователей, используя Product Brand Dictionary и Category Attribute Dictionary. Хотя эти словари могут пополняться из разных источников (включая Merchant Center), основной механизм патента сфокусирован на обучении через анализ структуры и статистики запросов.
Что такое Category Attribute Dictionary и как он используется?
Это словарь известных атрибутов для разных категорий (например, объем памяти для дисков, разрешение для камер). Он используется для идентификации известных частей запроса. Только после того, как известные атрибуты и бренды распознаны, система анализирует оставшиеся неизвестные термины как потенциальные продуктовые линейки.
Может ли система ошибочно принять популярный атрибут за продуктовую линейку?
Это маловероятно, если атрибут уже находится в Category Attribute Dictionary. Система специально ищет Unknown product line terms — то есть термины, которые еще не известны как атрибуты. Если же атрибут новый и еще не в словаре, он может быть рассмотрен как кандидат в линейку, но он, вероятно, не пройдет проверку на эксклюзивность, если используется разными брендами.
Насколько быстро система обучается новым линейкам?
Патент не указывает конкретных временных рамок. Скорость обучения зависит от объема поискового спроса (количества запросов с новой линейкой) и от того, насколько четко выражена связь между брендом и линейкой в этих запросах. Чем популярнее продукт и чем уникальнее название линейки, тем быстрее будет достигнут pairing threshold.
Влияет ли структура URL или хлебные крошки на работу этого алгоритма?
Патент не упоминает анализ URL или хлебных крошек. Описанный механизм работает исключительно на уровне анализа текста поискового запроса (Product Query), его структуры и статистики совместного появления терминов в логах запросов. Основной фокус на том, что и как ищут пользователи.