Как Google обрабатывает структурированные данные, динамически адаптирует схемы атрибутов и использует полноту данных для ранжирования (Google Base)

Патент описывает инфраструктуру (Google Base, предшественник Merchant Center) для приема структурированных данных от поставщиков. Система автоматически определяет популярные пользовательские атрибуты и продвигает их в стандартную схему (Core Attributes). Полнота данных (количество атрибутов, свежесть, длина описания) используется для расчета рейтинга элемента (Item Rank), влияющего на ранжирование.

Описание

Какую задачу решает

Патент решает проблему индексации, организации и поиска в больших коллекциях гетерогенных (разнородных) структурированных данных, которые не соответствуют единой жесткой схеме. Он предлагает механизм, позволяющий поставщикам контента (Providers) самостоятельно определять структуру своих данных с помощью атрибутов (Attributes) и меток (Labels), делая разнообразный контент (товары, вакансии, события) доступным для эффективного фасетного поиска.

Что запатентовано

Запатентована система (идентифицируемая на скриншотах как Google Base) для приема и управления структурированными данными с динамически адаптируемой схемой. Поставщики могут загружать данные, используя предопределенные (Core Attributes) или собственные (Custom Attributes) схемы. Ключевыми механизмами являются автоматическое продвижение (Attribute Promotion) популярных пользовательских атрибутов в статус стандартных и расчет рейтинга элемента (Item Rank) на основе полноты данных.

Как это работает

Система функционирует следующим образом:

Сбор данных: Поставщики загружают данные через UI или механизмы массовой загрузки (Bulk Upload, например, TSV, RSS, FTP). Они классифицируют данные по типу (Information Type) и добавляют атрибуты и метки.
Индексирование и Нормализация: Данные индексируются. Атрибуты нормализуются (стемминг, исправление ошибок, геокодирование локаций) для обеспечения консистентности.
Ранжирование: Рассчитывается Item Rank (независимая от запроса оценка качества) на основе полноты данных. Итоговый ранг комбинирует Item Rank и релевантность запросу.
Динамическая фильтрация (Фасетный поиск): При выполнении поиска система анализирует атрибуты в результатах, определяет наиболее популярные (используя Popularity Rank) и предлагает их пользователю в качестве фильтров.
Эволюция схемы: Система автоматически определяет популярные Custom Attributes и продвигает их в Core Attributes, адаптируя стандартную схему.

Актуальность для SEO

Высокая. Хотя Google Base как отдельный продукт был закрыт, описанная инфраструктура и принципы лежат в основе критически важных современных систем Google, в первую очередь Google Merchant Center (Google Shopping), а также систем обработки фидов для Google Jobs, Events и Local. Принципы загрузки фидов, динамической адаптации схемы и использования атрибутов для ранжирования и фильтрации крайне актуальны.

Важность для SEO

Патент имеет высокое значение для SEO, основанного на фидах данных (Feed-based SEO), особенно в E-commerce. Он определяет фундаментальные механизмы того, как Google обрабатывает структурированные данные. Понимание этих механизмов критично для оптимизации фидов, так как патент прямо указывает, что полнота данных (количество атрибутов, длина описания, свежесть) влияет на независимый от запроса ранг элемента (Item Rank).

Детальный разбор

Термины и определения

Attribute (Атрибут): Пара имя/значение, описывающая характеристику элемента данных. Например, «Price»: «$150». Атрибуты имеют тип данных (например, STRING, INT, DATE, LOCATION).
Attribute Promotion (Продвижение атрибута): Автоматический процесс, при котором популярный пользовательский атрибут (Custom Attribute) добавляется в набор Core Attributes.
Bulk Upload (Массовая загрузка): Механизм загрузки данных через файлы (например, TSV, RSS) или протоколы (FTP).
Core Attributes (Основные атрибуты): Стандартный набор атрибутов для определенного Information Type, который система предлагает заполнить по умолчанию. Этот набор динамически обновляется.
Custom Attributes (Пользовательские атрибуты): Атрибуты, определяемые самим поставщиком контента, которые не входят в набор Core Attributes.
Information Type (Тип информации): Категория элемента данных (например, «Products», «Jobs», «Events»). Определяет набор Core Attributes.
Item Rank (Ранг элемента): Независимая от запроса (Query Independent Rank) оценка качества и полноты элемента. Рассчитывается на основе сигналов поставщика и самого элемента (количество атрибутов, свежесть и т.д.).
Label (Метка): Атрибут без значения (valueless tag или nullattribute). Используется для категоризации элемента (например, «Medical»).
Normalization (Нормализация): Процесс стандартизации имен атрибутов (стемминг, исправление орфографии, эквивалентность единиц) для группировки схожих атрибутов от разных поставщиков.
Popularity Rank (Ранг популярности атрибута): Метрика для выбора того, какие атрибуты отображать в качестве фильтров. Рассчитывается как: Популярность в результатах запроса * CTR для этого запроса.
Provider (Поставщик): Субъект, загружающий контент в систему.

Ключевые утверждения (Анализ Claims)

Примечание: Патент US9792333B2 является продолжением (continuation) более ранних заявок. Claims в этой версии сфокусированы именно на механизме динамического обновления схемы данных (Attribute Promotion).

Claim 1 (Независимый пункт): Описывает метод автоматической адаптации набора основных атрибутов.

Система получает запрос на добавление нового элемента определенного типа информации (Information Type).
Определяется текущий набор основных типов атрибутов (Core Attribute Types) для этого типа. Это те атрибуты, которые система явно запрашивает у поставщика.
Система идентифицирует атрибут, который НЕ входит в основной набор (т.е. является пользовательским).
Проверяется, удовлетворяет ли этот атрибут критериям для добавления в основной набор (критерии популярности).
Если ДА, этот тип атрибута добавляется в Core Attribute Types.
Система запрашивает у поставщика ввод данных для обновленного набора Core Attributes (включая только что добавленный).

Claims 3, 4, 5 (Зависимые): Уточняют критерии популярности для продвижения атрибута.

Claim 3: Атрибут наиболее часто выбирается пользователями (например, как фильтр) за определенный период.
Claim 4: Элементы с этим атрибутом наиболее часто появляются в результатах поиска за определенный период.
Claim 5: Атрибут используется в наибольшем количестве вновь добавленных элементов данного типа за определенный период (популярен у поставщиков).

Ядро изобретения — это самообучающаяся система управления схемой. Она использует коллективное поведение поставщиков и пользователей для определения того, какие атрибуты являются наиболее важными для конкретного домена, и автоматически делает их стандартом.

Где и как применяется

Изобретение охватывает весь жизненный цикл управления структурированными данными, отличный от стандартного веб-краулинга.

CRAWLING (Data Acquisition) – Сбор данных
Система предоставляет интерфейсы (UI, Bulk Upload, FTP/RSS) для прямого приема данных от поставщиков, заменяя традиционный краулинг для этих типов контента.

INDEXING – Индексирование и извлечение признаков
Ключевой этап.

Обработка и Валидация: Прием, парсинг и проверка типов данных.
Нормализация: Геокодирование локаций. Нормализация имен атрибутов (стемминг, исправление орфографии, эквивалентность единиц измерения).
Управление Схемой (Attribute Promotion): Офлайн-процесс анализа популярности Custom Attributes и их продвижение в Core Attributes.
Расчет Item Rank: Вычисление статических сигналов качества элемента на основе полноты данных.

RANKING – Ранжирование
Атрибуты влияют на ранжирование через Item Rank. Итоговая оценка рассчитывается как комбинация Query Dependent Rank (IR-score) и Query Independent Rank (Item Rank).

RERANKING / METASEARCH (Faceted Search & Filtering)
Система использует атрибуты для реализации фасетного поиска. Анализируя результаты запроса, система динамически определяет наиболее популярные атрибуты (используя гистограммы и Popularity Rank) и предлагает их пользователю в качестве фильтров.

Входные данные:

Фиды данных (TSV, RSS) или данные из UI от поставщиков.
Логи поведения пользователей (клики на фильтры, запросы).

Выходные данные:

Индексированные и нормализованные структурированные данные с рассчитанным Item Rank.
Динамически обновляемый набор Core Attributes.
Результаты поиска с фасетной навигацией.

На что влияет

Конкретные типы контента и ниши: Критическое влияние на E-commerce (Google Shopping), агрегаторы вакансий (Google Jobs), события, недвижимость, локальный поиск. Влияет на все вертикали, где используются фиды структурированных данных.
Специфические запросы: Влияет на коммерческие и транзакционные запросы, где пользователи активно используют фильтрацию для принятия решения.

Когда применяется

Прием данных: Каждый раз при загрузке или обновлении данных поставщиком.
Обслуживание схемы (Attribute Promotion): Периодически (офлайн) для анализа популярности атрибутов. Триггер — превышение порога популярности.
Во время поиска: В реальном времени для расчета итогового ранжирования и динамической генерации фильтров на основе атрибутов в выдаче.

Пошаговый алгоритм

Процесс А: Продвижение атрибутов (Attribute Promotion)

Мониторинг использования: Система отслеживает использование Custom Attributes для каждого Information Type.
Расчет популярности: Определяются метрики популярности атрибутов на основе: (i) количества уникальных поставщиков, использующих атрибут; (ii) частоты выбора атрибута пользователями при фильтрации; (iii) частоты появления элементов с атрибутом в поиске.
Проверка порога: Популярность сравнивается с предопределенным порогом (Threshold).
Продвижение в Core: Если порог превышен (и пройдены проверки на спам), Custom Attribute добавляется в набор Core Attributes для данного Information Type.
Адаптация UI: При следующей загрузке данных этого типа система предложит поставщикам обновленный набор Core Attributes.

Процесс Б: Генерация фильтров при поиске

Получение первичных результатов: Определяется набор (q) наиболее релевантных результатов для запроса.
Определение популярных атрибутов: Для этого набора результатов определяются (n) наиболее популярных атрибутов.
Расчет гистограмм: Для популярных атрибутов строятся гистограммы (m) топовых значений (подсчет количества элементов для каждого значения).
Нормализация: Имена атрибутов нормализуются (стемминг, исправление опечаток) для объединения схожих атрибутов (например, «Journal» и «Journals»).
Ранжирование и отображение фильтров: Атрибуты ранжируются по Popularity Rank (Популярность * CTR) и отображаются пользователю в качестве фильтров (фасетов) с указанием количества совпадений.

Какие данные и как использует

Данные на входе

Патент описывает использование широкого спектра структурированных данных.

Контентные факторы: Title (Название), Description (Описание). Используются для IR-скоринга и расчета Item Rank.
Структурные факторы (Атрибуты и Метки): Ядро патента. Используются Attributes и Labels. Определены типы данных: BOOLEAN, INT, FLOAT, URL, STRING, LOCATION, DATE, DATE RANGE. Примеры включают Price, Brand, Author, Condition, Size, Payment methods и т.д.
Технические факторы: Link (URL элемента), Image Link (URL изображения).
Временные факторы: Expiration date, Publish date, Recency (свежесть).
Географические факторы: Location (геокодируется для расчета расстояния), Delivery Radius.
Поведенческие факторы: Клики на фильтры (CTR) используются для расчета Popularity Rank атрибутов. Данные об использовании атрибутов поставщиками используются для Attribute Promotion.
Факторы качества поставщика: Rating of the provider (Рейтинг поставщика) используется для расчета Item Rank.

Какие метрики используются и как они считаются

Item Rank (Query Independent Rank): Независимая от запроса оценка качества элемента. Рассчитывается на основе агрегации сигналов (явно перечисленных в патенте):
- Length of Desc (Длина описания).
- Length of Title (Длина заголовка).
- Number of Labels (Количество меток).
- Number of Attributes (Количество атрибутов).
- Pictures (Наличие изображений).
- Number of times offer has been reported as spam (Количество жалоб на спам).
- Rating of the provider (Рейтинг поставщика).
- Recency of the offer (Свежесть предложения).
Итоговый скоринг: Упоминается как Query Dependent Rank * Query Independent Rank.
Popularity Rank (для атрибутов): Используется для выбора фильтров на SERP. Формула: Popularity in the Query result * CTR for that particular query.
Нормализация данных: Применяются методы обработки атрибутов: Стемминг, обработка аббревиатур, эквивалентность единиц измерения, исправление орфографии.
Валидация данных: Проверка типов (Type checking) и Геокодирование (Geocoding) локаций.

Выводы

Автоматическая эволюция схемы данных: Ключевая особенность системы — способность автоматически адаптировать схему (Core Attributes) на основе поведения поставщиков и пользователей. Популярные пользовательские атрибуты становятся стандартом (Attribute Promotion).
Полнота структурированных данных как фактор ранжирования: Патент явно определяет Item Rank, который зависит от количества атрибутов, меток, длины описания, наличия изображений и свежести. Это подтверждает, что более полное описание элемента улучшает его ранжирование в системах, основанных на этой технологии (например, Google Shopping).
Фасетный поиск на основе популярности: Фильтры, доступные пользователю, не фиксированы. Они генерируются динамически на основе анализа атрибутов, присутствующих в конкретном наборе результатов поиска, и их популярности у пользователей (CTR).
Важность нормализации и валидации: Система активно нормализует (стемминг, исправление ошибок) и валидирует (проверка типов, геокодирование) данные для обеспечения консистентности и качества поиска, несмотря на разнородность источников.
Прямые фиды как первоисточник данных: Патент подчеркивает важность прямого получения структурированной информации от поставщиков (фиды данных), минуя сложности парсинга веб-страниц.

Практика

Best practices (это мы делаем)

Рекомендации применимы к оптимизации фидов данных для систем типа Google Merchant Center, Google Jobs, Local.

Максимизируйте полноту данных в фидах: Заполняйте все релевантные стандартные (Core) и рекомендуемые атрибуты. Патент указывает, что Number of Attributes является прямым сигналом для повышения Item Rank.
Оптимизируйте контентные элементы фида (Title и Description): Создавайте информативные и релевантные заголовки и описания. Они используются для текстового поиска (Query Dependent Rank), а их длина влияет на Item Rank.
Используйте релевантные Custom Attributes и Labels: Добавляйте полезные пользовательские атрибуты и метки. Это не только повышает Item Rank, но и позволяет вашему контенту участвовать в специфических фильтрациях. Если атрибут станет популярным, он может быть продвинут в Core.
Поддерживайте свежесть и качество данных: Регулярно обновляйте фиды. Recency (свежесть) является сигналом для Item Rank. Обеспечивайте точность данных и соответствие форматам (даты, цены, локации), чтобы пройти валидацию и геокодирование.
Анализируйте доминирующие атрибуты в нише: Изучайте, какие фильтры появляются в выдаче Google Shopping или других вертикалях по вашим запросам. Это показывает, какие атрибуты система считает популярными. Убедитесь, что вы предоставляете эти данные, чтобы соответствовать ожиданиям пользователей и системы.

Worst practices (это делать не надо)

Предоставление минимальных данных: Загрузка фидов только с обязательными полями снижает Item Rank и исключает ваши элементы из отфильтрованных результатов поиска.
Спам атрибутами (Attribute Stuffing): Добавление нерелевантных атрибутов или меток. Патент упоминает, что жалобы на спам негативно влияют на Item Rank, а механизмы продвижения атрибутов требуют поддержки от множества уникальных поставщиков для защиты от манипуляций.
Игнорирование стандартов форматирования и валидации: Использование некорректных типов данных или форматов приведет к ошибкам обработки фида и исключению элементов из индекса. Патент указывает, что HTML нежелателен в данных массовой загрузки.
Нерегулярное обновление фидов: Устаревшие данные получат низкий Item Rank из-за фактора свежести (Recency). Патент упоминает необходимость обновления (например, раз в 30 дней).

Стратегическое значение

Патент подтверждает стратегический сдвиг Google к использованию структурированных данных, полученных напрямую от поставщиков, как основы для специализированных вертикалей поиска. Для SEO это означает, что оптимизация фидов данных (Feed Optimization) является критически важным направлением. Долгосрочная стратегия должна фокусироваться на качестве, полноте и структуре передаваемых данных, поскольку они напрямую влияют как на ранжирование (через Item Rank), так и на пользовательский опыт (через фасетную навигацию).

Практические примеры

Сценарий: Оптимизация фида для Google Merchant Center

Ситуация: Магазин электроники загружает фид смартфонов, указывая только базовые характеристики (Бренд, Модель, Цена). Видимость в Google Shopping низкая.
Анализ (на основе патента): Низкая видимость может быть связана с низким Item Rank из-за неполноты данных и отсутствием возможности фильтрации по ключевым характеристикам.
Действия по оптимизации:
- Обогащение фида: Добавление атрибутов Color, Storage Capacity, Screen Size, Condition.
- Улучшение контента: Расширение Description (влияет на Item Rank и релевантность).
- Добавление изображений: Загрузка нескольких дополнительных изображений (влияет на Item Rank).
- Добавление меток: Использование Custom Labels для категоризации (например, «Sale», «New Arrival»).
Результат: Item Rank повышается за счет полноты данных. Товары начинают появляться, когда пользователи применяют фильтры по цвету, объему памяти и размеру экрана, что значительно увеличивает релевантный трафик и конверсии.

Вопросы и ответы

Что такое Google Base и актуален ли этот патент сегодня?

Google Base (описанный в этом патенте) был ранней платформой Google для загрузки любого типа структурированного контента. Хотя Google Base как продукт закрыт, его технология является фундаментом современных систем, таких как Google Merchant Center (Google Shopping), и механизмов обработки фидов для вакансий, событий и недвижимости. Патент абсолютно актуален для понимания того, как работают эти системы.

Что такое Item Rank и как его повысить?

Item Rank — это показатель качества и важности элемента данных, не зависящий от запроса (Query Independent). Согласно патенту, он рассчитывается на основе полноты и качества данных. Для его повышения необходимо увеличивать длину описания и заголовка, добавлять больше релевантных атрибутов (Number of Attributes) и меток, предоставлять изображения, поддерживать высокий рейтинг поставщика и обеспечивать свежесть данных (Recency).

В чем разница между Core Attributes и Custom Attributes?

Core Attributes — это стандартные атрибуты, которые система ожидает для определенного типа информации (например, «Цена» для продукта). Custom Attributes — это дополнительные атрибуты, определяемые поставщиком самостоятельно. Ключевая идея патента в том, что популярные Custom Attributes автоматически продвигаются и становятся Core Attributes.

Как Google определяет, какие пользовательские атрибуты станут основными (Core)?

Через механизм продвижения (Attribute Promotion). Система анализирует популярность атрибута по нескольким критериям: как часто его используют разные поставщики контента, как часто пользователи применяют его в качестве фильтра поиска, и как часто элементы с этим атрибутом появляются в выдаче. При превышении порога атрибут становится Core.

Как система решает, какие фильтры (фасеты) показать пользователю при поиске?

Это определяется динамически для каждого запроса. Система анализирует топовые результаты и определяет наиболее популярные атрибуты именно в этом наборе данных. Также учитывается Popularity Rank, который рассчитывается как Популярность в выдаче * CTR для этого запроса. Отображаются наиболее полезные для уточнения фильтры.

Что такое нормализация атрибутов?

Это процесс стандартизации имен атрибутов от разных поставщиков. Система использует стемминг (например, «Journal» и «Journals»), исправление опечаток, обработку аббревиатур и эквивалентность единиц измерения (например, «lbs» и «pounds»), чтобы объединить схожие по смыслу атрибуты в один фильтр.

Стоит ли использовать Custom Attributes в фидах?

Да, определенно стоит. Во-первых, это увеличивает общее количество атрибутов, что положительно влияет на Item Rank. Во-вторых, это позволяет вашему контенту быть найденным при очень специфических фильтрациях. В-третьих, если ваш атрибут окажется полезным и популярным, система может продвинуть его в Core Attributes.

Что важнее: релевантность запросу или полнота данных (Item Rank)?

Оба фактора критичны. Патент указывает, что итоговый скоринг может рассчитываться как произведение Query Dependent Rank (релевантность) и Query Independent Rank (Item Rank). Неполные данные будут ранжироваться хуже, даже если они релевантны тексту запроса.

Защищает ли этот механизм от спама атрибутами?

Да, предусмотрены меры защиты. Item Rank учитывает количество жалоб на спам. Кроме того, для продвижения атрибута в Core Attributes требуется его использование несколькими уникальными провайдерами, что затрудняет манипуляцию со стороны одного участника. Также упоминаются черные списки и анализ распределения гистограмм.

Применяются ли эти принципы к микроразметке Schema.org?

Патент описывает систему обработки фидов, но базовые принципы схожи. Google стремится использовать структурированные данные (будь то фиды или Schema.org) для понимания сущностей и улучшения поиска. Можно предположить, что полнота использования свойств Schema.org также положительно влияет на восприятие качества контента, аналогично Item Rank.