Как Google автоматически определяет и проверяет атрибуты, бренды и категории товаров, анализируя веб-контент и поведение пользователей

Google использует систему для автоматического извлечения и проверки «Структурных параметров» (бренды, атрибуты, категории, линейки продуктов) из неструктурированного веб-контента и логов запросов. Система валидирует классификацию с помощью анализа контекстуального сходства, целевого краулинга (поиск фраз типа «X является Y») и анализа распределения кликов. Это позволяет стандартизировать данные о товарах от разных продавцов и формировать структурированную E-commerce выдачу.

Описание

Какую задачу решает

Патент решает проблему противоречивой и нестандартизированной классификации товаров разными продавцами в интернете. Когда разные магазины используют разные описания и категории для одних и тех же товаров, поисковым системам сложно агрегировать эту информацию, что приводит к ошибкам (например, путанице между атрибутом и брендом) и ухудшению качества поиска товаров. Изобретение направлено на автоматическое обнаружение, валидацию и стандартизацию структур классификации продуктов.

Что запатентовано

Запатентована система для автоматического майнинга (извлечения) и валидации Структурных параметров (Structural Parameters) продуктов (например, бренд, атрибут, тип, линейка продуктов) из различных источников. Ключевым элементом является многоступенчатый процесс валидации, который проверяет классификации с помощью анализа Контекстуального сходства (Contextual Similarity), анализа распределения кликов (Click Distribution) и целевого краулинга специфических фраз.

Как это работает

Система работает в двух основных режимах: Индексирование (Майнинг) и Обработка запросов.

Майнинг (Офлайн): Web crawlers собирают контент с сайтов продавцов, производителей, блогов и т.д. Система анализирует этот контент и логи запросов для идентификации потенциальных Структурных параметров. Валидация происходит путем проверки согласованности между источниками, анализа структуры URL, анализа кликов пользователей и целевого поиска подтверждающих фраз (например, «[Термин] это [Параметр]»). Если структура подтверждена, она сохраняется в Product Database.
Обработка запросов (Онлайн): Поисковый запрос пользователя разбивается на компоненты. Система сопоставляет их с базой данных и извлекает связанные Структурные параметры. Затем генерируется страница результатов, где продукты и/или связанные поисковые подсказки (фасеты) группируются по этим проверенным параметрам.

Актуальность для SEO

Высокая. Структурирование данных о товарах и точное понимание атрибутов являются критически важными для Google Shopping, Product Knowledge Graph и основного поиска в сегменте E-commerce. Описанные методы автоматического извлечения и валидации атрибутов с использованием машинного обучения и поведенческих сигналов остаются фундаментом современных систем поиска товаров.

Важность для SEO

Патент имеет высокое значение для E-commerce SEO (85/100). Он раскрывает конкретные механизмы, которые Google использует для понимания структуры продукта (бренд, атрибуты, линейки) независимо от разметки конкретного продавца. Это подчеркивает важность консистентности информации о продукте как на сайте, так и во внешних источниках (обзоры, блоги), которые Google использует для валидации классификации, а также важность поведенческих сигналов (кликов).

Детальный разбор

Термины и определения

Components (Компоненты): Слова или фразы, полученные путем разбиения (granulizing) текстового контента или поисковых запросов.
Structural Parameters (Структурные параметры): Информация о классификации продукта. Примеры: тип продукта, бренд, производитель, атрибут продукта (например, цвет, материал), продавец (ритейлер), линейка продуктов (product line), скидка.
Contextual Similarity (Контекстуальное сходство): Мера близости между двумя классифицированными группами семантически или несемантически схожих компонентов в векторном пространстве. Используется для определения того, подходит ли компонент под определенный Structural Parameter. Измеряется методами вроде Евклидова расстояния или косинусного угла.
Click Distribution (Распределение кликов): Анализ того, как часто пользователи кликают на результаты по запросам, содержащим определенные комбинации компонентов (например, Бренд-Атрибут-Категория). Используется для валидации атрибутов и линеек продуктов на основе смещения (skewness) кликов.
Component Tags (Теги компонентов): Механизм маппинга, связывающий ключевые слова в базе данных с их Structural Parameters, а также с другой информацией о продукте (URL, изображения, описания).
Key Words (Ключевые слова): Валидированные Components, хранящиеся в Product Database.
Targeted Web-Crawling (Целевой веб-краулинг): Специализированный краулинг, направленный на поиск конкретной информации для валидации. Например, поиск фраз, содержащих паттерн «is a» или «is an».
Smart Learning Software (ПО для умного обучения): Автоматическое ПО, используемое для обнаружения новых Structural Parameters, если компонент не соответствует существующим, но постоянно появляется в определенном контексте.

Ключевые утверждения (Анализ Claims)

Claim 20 (Независимый пункт): Описывает процесс майнинга (индексирования) классификационных структур из текстового контента.

Система получает текстовый контент.
Идентифицируется совпадение между частью контента и существующим ключевым словом, у которого есть ассоциированный Structural Parameter.
Система проверяет Contextual Similarity между совпадением и структурным параметром. Ключевой механизм: Эта проверка включает парсинг веб-контента с использованием контекстуальной фразы (contextual phrase), которая содержит этот структурный параметр.
Если проверка пройдена, система классифицирует полученный текстовый контент этим структурным параметром.
Контент и его параметр сохраняются в Product Database.

Ядро изобретения в процессе индексации — это активная валидация. Система не просто принимает классификацию от источника, а проверяет ее, анализируя, как этот термин используется в вебе в связке со структурным параметром. Например, чтобы проверить, является ли «Nikon» производителем, система ищет в вебе фразы, содержащие и «Nikon», и контекст «производителя».

Claim 1 (Независимый пункт): Описывает процесс обработки поискового запроса.

Система поддерживает Product Database.
Получается поисковый запрос.
Идентифицируется совпадение между частью запроса и ключевым словом в базе.
Structural Parameter ключевого слова ассоциируется с частью запроса.
Система проверяет Contextual Similarity между частью запроса и структурным параметром (используя тот же механизм парсинга веб-контента с предопределенной контекстуальной фразой).
Если сходство подтверждено, извлекаются данные о продуктах (названия, URL).
Отображается результат поиска, организованный по идентифицированным Structural Parameters.

Claim 5 (Независимый пункт): Аналогичен Claim 1, но фокусируется на генерации поисковых подсказок/связанных запросов.

Процесс идентичен Claim 1, включая проверку Contextual Similarity. Результатом является генерация страницы результатов, содержащей поисковые подсказки (search suggestions), сгруппированные по этим Structural Parameters. (Это описывает блок «Related searches», сгруппированный по Брендам, Типам и т.д.).

Где и как применяется

Изобретение охватывает несколько этапов поисковой архитектуры, связанных с вертикалью поиска товаров (Product Search/Google Shopping).

CRAWLING – Сканирование и Сбор данных
Система использует как общий, так и целевой (targeted) краулинг. Общий краулинг собирает данные о продуктах. Целевой краулинг используется для валидации: система специально ищет контекстуальные фразы (например, «[X] это [Y]»), чтобы подтвердить классификацию.

INDEXING – Индексирование и извлечение признаков
Основной этап майнинга структур. Здесь происходит:

Анализ собранного контента, структуры URL и логов запросов.
Идентификация потенциальных Structural Parameters.
Валидация параметров с использованием Contextual Similarity, анализа кликов (Click Distribution) и целевого краулинга.
Построение Product Database.

QUNDERSTANDING – Понимание Запросов
Запрос разбивается на компоненты, которые сопоставляются с Product Database для понимания его структуры (например, Бренд + Атрибут + Тип продукта).

RANKING / METASEARCH (В рамках вертикали товаров)
Система использует извлеченные структурированные данные для формирования выдачи. Результаты (списки товаров) и поисковые подсказки (фасеты/связанные запросы) организуются и группируются на основе идентифицированных Structural Parameters.

На что влияет

Конкретные типы контента: В первую очередь влияет на E-commerce контент: страницы товаров (PDP), листинги (PLP), обзоры продуктов, блоги о товарах.
Специфические запросы: Коммерческие и информационные запросы, связанные с товарами, особенно те, которые содержат атрибуты (например, «флисовая куртка north face», «ботинки со стальным носком»).
Конкретные ниши или тематики: Все ниши E-commerce.

Когда применяется

Алгоритмы майнинга работают постоянно в офлайн-режиме для обновления Product Database. Алгоритмы обработки запросов применяются в реальном времени при получении продуктового запроса.

Триггеры активации (Валидация):

Обнаружение нового текстового контента краулером.
Получение поискового запроса, компоненты которого не имеют подтвержденной классификации (активирует целевой краулинг).
Изменение распределения кликов по существующим запросам.

Пошаговый алгоритм

Процесс А: Майнинг и Индексирование структур (Офлайн/Периодический)

Сбор данных: Запуск веб-краулеров (общих или целевых) или получение данных из логов/фидов.
Идентификация и Гранулизация: Обнаружение нового контента и его разбиение на компоненты.
Сопоставление с существующими структурами: Попытка валидировать новые компоненты на соответствие существующим Structural Parameters.
Проверка контекстуального сходства и Валидация: Определение, соответствует ли новый контент контексту параметров. Это включает:
- Анализ структуры URL (например, /category/attribute.html).
- Анализ распределения кликов (проверка критериев для Атрибутов и Линеек продуктов).
- Целевой краулинг для поиска подтверждающих контекстуальных фраз (например, «is a»).
- Консенсус между различными источниками.
Обновление базы данных (Если соответствует): Если контент соответствует существующей структуре, Product Database обновляется.
Генерация новой структуры (Если не соответствует): Если контент не соответствует, но демонстрирует устойчивые связи (Smart Learning), инициируется создание нового Structural Parameter.
Валидация новой структуры: Проверка нового параметра (как в шаге 4).
Обновление базы данных (Новая структура): Если структура валидирована, она добавляется в Product Database.

Процесс Б: Обработка поискового запроса (Реальное время)

Получение и Гранулизация запроса: Система получает запрос и разбивает его на компоненты.
Валидация компонентов: Компоненты сопоставляются с Key Words в Product Database.
Проверка контекстуального сходства: Определяется, соответствуют ли компоненты запроса контексту ключевых слов.
Извлечение параметров (Если соответствует): Извлекаются Structural Parameters и данные о продуктах (URL, изображения).
Генерация SERP: Создается страница результатов. Продукты и/или поисковые подсказки организуются в соответствии с извлеченными Structural Parameters.
Инициация майнинга (Если не соответствует): Если компоненты запроса не соответствуют базе, они могут быть переданы в Процесс А для целевого краулинга и анализа. Может быть выдан альтернативный результат или ошибка.

Какие данные и как использует

Данные на входе

Контентные факторы: Текстовый контент веб-страниц (описания, обзоры, блоги, новости). Система ищет специфические фразы (например, «is a», «is an») для валидации.
Технические факторы: URL-структура (используется для извлечения классификации из иерархии папок). Мета-теги.
Поведенческие факторы: Логи поисковых запросов (product logs), данные о кликах (web clicks), распределение кликов (click distribution), впечатления (impressions).
Структурные факторы: Сайтмапы, продуктовые фиды (product search feeds).

Какие метрики используются и как они считаются

Contextual Similarity (Контекстуальное сходство): Измеряется как расстояние или угол между компонентами в многомерном векторном пространстве. Упоминаются методы: Euclidean distance, vector modeling, cosine angle distance. Также упоминаются методы подгонки (fitting methods) вроде Least Square Fitting (LSF) для определения значимости связи.
Валидация Атрибута (Attribute Validation): Метрика основана на двух условиях:
1. Количество брендов, связанных с парой Атрибут-Категория (должно быть много).
2. Распределение кликов для запросов Бренд-Атрибут-Категория не должно быть перекошено (not skewed) в сторону одного бренда.
Валидация Линейки Продуктов (Product Line Validation): Метрика основана на условии:
1. Распределение кликов для запросов Фраза-Линейка-Категория должно быть сильно перекошено (skewed) в сторону одного слова/фразы (которое является Брендом).
Валидация на основе трафика: Измерение интернет-трафика (впечатлений и кликов). Высокий уровень кликов подтверждает валидность классификации.
Консенсус (Consensus): Если определенный процент продавцов/источников классифицирует продукт схожим образом, классификация считается валидной.

Выводы

Автоматизация структурирования E-commerce данных: Google активно строит независимый, структурированный индекс товаров, автоматически извлекая и валидируя Structural Parameters (бренды, атрибуты, линейки) из неструктурированного контента и поведения пользователей.
Валидация через контекст и поведение критична: Система не доверяет одному источнику. Валидация основана на Contextual Similarity, которая проверяется несколькими методами: консенсус источников, целевой краулинг и анализ поведения пользователей.
Целевой краулинг для подтверждения классификации: Система активно ищет в интернете подтверждающие фразы (например, паттерн «is a»), чтобы валидировать связь между термином и его классификацией.
Конкретные правила на основе кликов (Click Distribution): Патент предлагает четкие правила для различения общих атрибутов и специфичных линеек продуктов, основанные на анализе того, как распределяются клики пользователей между брендами.
Использование URL как источника структуры: Структура URL (иерархия категорий) явно используется как источник информации для классификации продуктов.
Самообучение (Smart Learning): Система способна идентифицировать и валидировать новые типы классификации или атрибуты, если они постоянно встречаются в определенном контексте.

Практика

Best practices (это мы делаем)

Использование явного языка для классификации (Поддержка целевого краулинга): Активно используйте в контенте (PDP, блоги, обзоры) фразы, которые явно определяют отношения между терминами. Ориентируйтесь на паттерн «is a»/«является». Пример: «[Бренд X] является производителем…», «[Название линейки] — это новая линейка продуктов от [Бренд X]». Это дает системе явные сигналы для валидации.
Обеспечение консистентности информации (On-Site и Off-Site): Убедитесь, что информация о продукте (атрибуты, бренды, линейки) последовательна на вашем сайте и соответствует данным на авторитетных внешних ресурсах (обзоры, блоги, сайты производителей). Google использует консенсус для валидации.
Логичная и описательная структура URL: Используйте четкую иерархию в URL, отражающую классификацию продукта (например, /category/subcategory/attribute.html). Патент подтверждает, что Google извлекает информацию о классификации из структуры URL.
Четкое разграничение атрибутов и линеек продуктов: Понимайте разницу в валидации. Для линеек продуктов убедитесь, что они четко ассоциируются с вашим брендом в контенте и внешних упоминаниях, чтобы соответствовать критерию смещения кликов (skewed click distribution).
Оптимизация под поведенческие сигналы: Создавайте релевантный контент и привлекательные сниппеты. Высокие показатели кликов (CTR) по вашим результатам помогают валидировать правильность классификации ваших товаров в Product Database Google.

Worst practices (это делать не надо)

Непоследовательная или нестандартная классификация: Использование уникальных систем категоризации или названий атрибутов, которые не используются другими участниками рынка. Это затруднит валидацию через консенсус и Contextual Similarity.
Игнорирование структуры URL: Использование неинформативных URL (например, /product?id=123) лишает Google важного источника данных для понимания структуры продукта.
Манипулирование атрибутами: Попытки представить общие атрибуты как уникальные линейки продуктов или наоборот. Анализ Click Distribution по всему интернету может выявить такие несоответствия, что приведет к неудачной валидации.
Использование терминов без контекста: Размещение ключевых слов (атрибутов, брендов) без достаточного контекстного окружения усложняет расчет Contextual Similarity и валидацию.

Стратегическое значение

Патент подтверждает стратегию Google по созданию стандартизированного индекса товаров. Для E-commerce проектов это означает, что контроль над интерпретацией их товаров смещается от данных продавца к общему консенсусу в интернете и поведению пользователей. Долгосрочная стратегия должна включать построение сильного бренда и обеспечение широкого, последовательного и авторитетного освещения продуктов во всей экосистеме (PR, обзоры, контент-маркетинг), а не только оптимизацию собственного сайта.

Практические примеры

Сценарий 1: Валидация новой линейки продуктов (использование Click Distribution и Контента)

Компания «BrandA» запускает новую линейку курток «AquaBlock».

Действие (Контент/PR): Создать лендинг и разослать пресс-релизы, акцентируя внимание на связи: «AquaBlock — это новая линейка водонепроницаемых курток от BrandA». Цель – добиться появления в авторитетных источниках фраз, подтверждающих эту связь (для целевого краулинга).
Действие (Маркетинг): Сфокусировать маркетинговые усилия на связке «AquaBlock» и «BrandA».
Механизм Google (Патент):
- Система анализирует Click Distribution. Если пользователи, ищущие «AquaBlock куртки», преимущественно кликают на результаты, связанные с «BrandA» (перекос распределения).
- Система проводит целевой краулинг и находит подтверждающие фразы.
Результат: «AquaBlock» валидируется как Structural Parameter: Product Line для бренда «BrandA», улучшая релевантность выдачи по запросам линейки.

Сценарий 2: Валидация нового Атрибута

Появился новый материал «DynaWeave» для ботинок.

Действие (Контент): На странице продукта и в обзорах использовать контекстные фразы: «Ботинки изготовлены из материала DynaWeave»; «DynaWeave является новым типом ткани…» (паттерн «is a»).
Механизм Google (Патент): Система проведет целевой краулинг и найдет эти упоминания. Если другие производители также начнут использовать этот материал, и клики будут распределены между ними (без перекоса), Google валидирует его как Structural Parameter: Attribute.
Результат: В выдаче может появиться фильтр или подсказка по материалу «DynaWeave».

Вопросы и ответы

Что такое «Структурные параметры» (Structural Parameters) в контексте этого патента?

Это система классификации, которую Google автоматически присваивает терминам, связанным с продуктами. Примеры включают бренд, производителя, тип продукта, атрибут (например, цвет, материал), продавца, линейку продуктов. Они используются для понимания запросов и организации результатов поиска, например, для создания фильтров или группировки связанных запросов.

Как Google определяет, является ли термин атрибутом (например, «флисовый») или линейкой продуктов (например, «Momentum»)?

Патент описывает правила валидации на основе распределения кликов (Click Distribution). Атрибут считается действительным, если он ассоциируется со многими брендами и клики НЕ перекошены в сторону одного бренда. Линейка продуктов считается действительной, если она почти исключительно ассоциируется с одним конкретным брендом (клики сильно перекошены в сторону этого бренда).

Что такое метод валидации с помощью «контекстуальной фразы» или паттерна «is a»?

Это метод целевого краулинга (targeted web-crawling). Если система не уверена в классификации термина, она активно ищет в интернете фразы вида «[Термин] это [Классификация]». Например, для валидации «Nikon» система может искать фразы типа «Nikon это производитель». Наличие таких фраз в авторитетных источниках подтверждает классификацию.

Как SEO-специалист может использовать знание о валидации через «контекстные фразы»?

Необходимо активно использовать такие конструкции в контенте (описания продуктов, блог, PR-материалы). Если вы хотите, чтобы Google четко понимал вашу классификацию, заявите о ней прямо. Например: «[Название модели] является [Тип продукта] от бренда [Бренд]». Это дает системе явные сигналы для валидации, которые она ищет во время целевого краулинга.

Насколько важна структура URL моего сайта согласно этому патенту?

Она очень важна. Патент прямо указывает, что система извлекает информацию о классификации из структуры URL. Например, URL вида «/apparel/jackets/fleece.html» сообщает системе о категории «apparel», типе «jacket» и атрибуте «fleece». Логичная иерархия URL помогает Google правильно определить Structural Parameters.

Что произойдет, если разные продавцы классифицируют мой товар по-разному?

Система Google собирает данные из множества источников (включая сайты производителей, блоги, обзоры) и использует процессы валидации (консенсус, Contextual Similarity, анализ кликов), чтобы определить наиболее достоверную и стандартизированную классификацию, игнорируя противоречивые данные от отдельных продавцов.

Может ли система изучать совершенно новые атрибуты или категории товаров?

Да. В патенте описано «ПО для умного обучения» (Smart Learning Software). Если новый термин постоянно появляется в определенном контексте (например, новый материал постоянно упоминается рядом с категорией «куртки») и не соответствует существующим структурам, система может научиться распознавать его как новый Structural Parameter после успешной валидации.

Что такое «Contextual Similarity» и как она измеряется?

Это мера того, насколько хорошо термин вписывается в контекст определенной классификации. Технически она измеряется как близость между компонентами в многомерном векторном пространстве, используя методы машинного обучения вроде Евклидова расстояния или косинусного угла. Она учитывает как семантические, так и несемантические связи между словами.

Как этот патент влияет на Off-Site SEO для E-commerce?

Он значительно повышает важность Off-Site сигналов. Поскольку Google использует внешний веб-контент (блоги, обзоры, новости) для валидации брендов, атрибутов и линеек продуктов (например, через целевой краулинг фраз «is a»), крайне важно обеспечить последовательное и правильное описание ваших товаров на сторонних авторитетных ресурсах.

Где в выдаче можно увидеть результат работы этой системы?

Наиболее очевидные примеры — это фильтры в Google Shopping, а также блок «Related Searches» (Связанные запросы) в основной выдаче. В патенте показан пример, где связанные запросы сгруппированы по категориям: «Brands», «Stores», «Types», «Products». Эта группировка является прямым применением извлеченных Structural Parameters.