Как Google динамически выбирает фильтры для фасетного поиска, основываясь на поведении пользователей и качестве структурированных данных

Патент Google, лежащий в основе вертикального поиска (например, Google Shopping). Система анализирует структурированные данные (атрибуты товаров, вакансий) и динамически решает, какие фильтры показать пользователю. Выбор основан не только на наличии данных, но и на том, какие атрибуты пользователи исторически чаще всего использовали для уточнения аналогичных запросов. Также учитывается полнота данных для ранжирования (Item Rank).

Описание

Какую задачу решает

Патент решает проблему навигации и уточнения результатов в больших коллекциях структурированных данных (например, товарах, вакансиях, объявлениях). Когда стандартный поиск возвращает слишком много результатов, пользователю сложно найти нужную информацию. Система предоставляет механизм динамической фасетной навигации, позволяя эффективно фильтровать выдачу, используя атрибуты самих данных, а не только ключевые слова.

Что запатентовано

Запатентована система и метод для поиска по структурированным данным, который динамически определяет наиболее полезные атрибуты (фасеты) для уточнения конкретного набора результатов. Ключевым механизмом, защищенным в этом патенте (B2), является выбор отображаемых атрибутов на основе частоты их использования пользователями для фильтрации в прошлом (историческое поведение), а не только на основе их наличия в текущей выдаче.

Как это работает

Система работает на основе коллекции структурированных данных, где элементы имеют атрибуты (пары имя/значение) и метки (теги).

Сбор и Индексация: Данные загружаются поставщиками (например, через фиды) и индексируются вместе с атрибутами. Рассчитывается Item Rank на основе полноты данных.
Обработка запроса: Система находит релевантные элементы.
Динамический выбор фильтров: Система анализирует атрибуты топовых результатов и учитывает исторические данные о том, какие фильтры пользователи использовали чаще всего (frequency).
Отображение: Наиболее популярные и полезные атрибуты отображаются как опции фасетного поиска.
Уточнение: Пользователь применяет фильтры, и система сужает выдачу.

Актуальность для SEO

Критически высокая. Описанный механизм является стандартом для фасетного поиска в электронной коммерции и вертикальных поисковых системах. Это фундаментальная технология, лежащая в основе Google Shopping, Google Jobs и других сервисов, работающих со структурированными данными. Хотя патент ссылается на Google Base (устаревший продукт), принципы полностью актуальны для современных систем, таких как Google Merchant Center.

Важность для SEO

Патент имеет критическое значение (85/100) для SEO в e-commerce и для любых сайтов, использующих структурированные данные для видимости в вертикальном поиске. Он подчеркивает, что видимость зависит не только от релевантности, но и от качества, полноты и структурированности предоставленных данных (фиды, микроразметка). Если атрибуты сайта не соответствуют фильтрам, которые система динамически выбирает на основе поведения пользователей, сайт не сможет эффективно конкурировать в уточненной выдаче.

Детальный разбор

Термины и определения

Attribute (Атрибут): Пара имя-значение, связанная с элементом данных. Описывает характеристику элемента (например, «Price: $150»). Атрибуты имеют типы данных (STRING, INT, LOCATION, DATE, URL, BOOLEAN и т.д.).
Bulk Upload (Массовая загрузка): Механизм загрузки больших объемов данных поставщиками, например, через файлы TSV, XML (RSS) или FTP.
Core Attributes (Основные атрибуты): Стандартный набор атрибутов, предопределенный для конкретного типа информации (Information Type). Популярные пользовательские атрибуты могут быть повышены (promoted) до основных.
Information Type / Item Type (Тип информации): Классификация элемента данных (например, «Product», «Job», «Event»). Определяет набор Core Attributes.
Item Rank (Ранг элемента): Часть Query Independent Rank. Независимая от запроса оценка качества элемента. Учитывает сигналы поставщика (рейтинг) и богатство данных элемента (количество атрибутов, длина описания, наличие изображений, свежесть).
Label (Метка): Специальный тип атрибута без значения (valueless tag). Используется для категоризации (например, «Скидка»).
Normalization (Нормализация): Процесс стандартизации названий атрибутов (стемминг, исправление ошибок, синонимы, эквивалентность единиц измерения) для объединения схожих элементов (например, «Brand» и «Make»).
Query Independent Rank: Общая оценка качества элемента, не зависящая от запроса. Комбинация авторитета поставщика (например, PageRank) и Item Rank.

Ключевые утверждения (Анализ Claims)

Патент US8762372B2 является продолжением (continuation) более ранней заявки и содержит узкие Claims, сфокусированные на методе выбора атрибутов на основе поведения пользователей.

Claim 1 (Независимый пункт): Описывает метод уточнения результатов поиска.

Система получает поисковый запрос.
Выбираются элементы данных, удовлетворяющие запросу. Эти элементы имеют связанные атрибуты.
Ключевой механизм: Для каждого атрибута определяется частота (frequency), с которой этот атрибут ранее использовался множеством пользователей поисковой системы для уточнения поисковых запросов.
Выбирается подмножество атрибутов с наивысшей частотой использования.
Клиентскому устройству предоставляется SERP, которая включает ссылки на элементы данных и представление только выбранного подмножества атрибутов (и никаких других атрибутов).
В ответ на выбор представления атрибута, система предоставляет элемент управления (control) для ввода значения этого атрибута для уточнения запроса.

Ядро изобретения — это использование исторических поведенческих данных для определения полезности фильтров. Система активно скрывает атрибуты, которые пользователи редко используют, даже если они присутствуют в данных.

Где и как применяется

Изобретение охватывает жизненный цикл структурированных данных в поиске, от их получения до взаимодействия с пользователем.

CRAWLING (Data Acquisition) / INDEXING

Сбор данных: Система принимает данные от поставщиков (Providers). Это не традиционный краулинг, а прием структурированных данных через UI, Bulk Upload (фиды TSV/XML/RSS) или API. Это основа для систем типа Google Merchant Center.
Извлечение и обработка: Извлекаются Information Type, Attributes и Labels.
Нормализация и Валидация: Данные валидируются (проверка типов, геокодирование локаций, проверка URL). Атрибуты нормализуются.
Расчет статических оценок: Вычисляется Item Rank на основе полноты данных.

RANKING – Ранжирование
Происходит первичный отбор и ранжирование. Патент описывает скоринг как комбинацию Query Dependent Rank (IR score) и Query Independent Rank (авторитет поставщика и Item Rank).

RERANKING / METASEARCH (Faceted Navigation)
Здесь происходит основная логика патента:

Анализ результатов: Система анализирует атрибуты топовых результатов.
Выбор фасетов (Ключевой этап): Определяются наиболее популярные атрибуты. Популярность рассчитывается на основе гистограмм в текущей выдаче И, согласно Claim 1, на основе исторической частоты использования этих атрибутов пользователями для фильтрации.
Формирование UI: Система генерирует интерфейс фасетного поиска, отображая только выбранные атрибуты.
Применение фильтров: Когда пользователь применяет фильтр, происходит переранжирование с учетом выбранных ограничений.

На что влияет

Конкретные типы контента и ниши: Критическое влияние на вертикали, основанные на структурированных данных: E-commerce (Google Shopping), Вакансии (Google Jobs), Недвижимость, События, Рецепты.
Специфические запросы: Влияет на запросы с коммерческим или транзакционным интентом, где требуется детализация и сравнение характеристик.

Когда применяется

Триггеры активации: Когда запрос возвращает результаты из коллекции структурированных данных.
Условия работы: Система активирует фасетную навигацию, если может идентифицировать атрибуты, которые популярны в текущем наборе результатов и имеют высокую историческую частоту использования пользователями. Атрибуты с плохим распределением значений (например, слишком много уникальных значений или равномерное распределение) могут быть исключены.

Пошаговый алгоритм

Процесс А: Обработка запроса и динамическая генерация фасетов (Online)

Получение запроса и первичный отбор: Система получает запрос и определяет набор релевантных структурированных элементов.
Анализ топовых результатов: Определяются ‘q’ наиболее релевантных результатов.
Идентификация популярных атрибутов в выдаче: Среди топовых результатов определяются ‘n’ наиболее часто встречающихся атрибутов.
Нормализация атрибутов (Опционально): Производится нормализация имен (стемминг, синонимы) для объединения схожих атрибутов (например, «Brand» и «Make»). Это может происходить на лету в зависимости от контекста запроса.
Скоринг атрибутов (Ключевой этап): Система оценивает идентифицированные атрибуты, учитывая их популярность в выдаче И историческую частоту использования пользователями для уточнения запросов (Claim 1). Также может учитываться распределение значений.
Выбор подмножества для отображения: Выбирается финальное подмножество атрибутов с наивысшей оценкой.
Расчет гистограмм: Для выбранных атрибутов строятся гистограммы топовых ‘m’ пар атрибут/значение (подсчет количества предложений).
Отображение SERP: Пользователю показываются результаты и блок фильтрации, содержащий только выбранное подмножество атрибутов.
Обработка уточнения: При выборе пользователем фильтра система принимает значение атрибута и пересчитывает выдачу.

Процесс Б: Обслуживание структуры данных (Offline/Периодически)

Анализ пользовательских атрибутов: Система определяет, какие новые (не входящие в Core Attributes) атрибуты используются наибольшим числом уникальных поставщиков для каждого типа информации.
Проверка порога: Если использование превышает установленный порог популярности.
Повышение до Core Attributes: Атрибут добавляется в список основных атрибутов для данного типа информации и будет предлагаться поставщикам по умолчанию.

Какие данные и как использует

Данные на входе

Система полагается на данные, предоставленные поставщиками, и данные о поведении пользователей.

Структурные факторы: Критически важные данные. Information Type, Attributes (имя, значение, тип данных: INT, FLOAT, STRING, LOCATION, DATE, URL, BOOLEAN), Labels. Поступают через фиды (TSV, XML/RSS) или ручной ввод.
Контентные факторы: Заголовки (Title) и описания (Description) элементов. Используются при поиске и расчете Item Rank.
Мультимедиа факторы: URL изображений (image_link). Наличие изображений влияет на Item Rank.
Поведенческие факторы: Критически важные для Claim 1. Исторические данные о том, как часто пользователи используют конкретный атрибут для уточнения запросов (частота использования фильтров). Также упоминаются Clicks и CTR элементов.
Временные факторы: Даты событий, публикации, срок действия элемента. Свежесть (Recency) влияет на Item Rank.
Географические факторы: LOCATION (геокодируется для поиска по расстоянию).
Данные о поставщике: Рейтинг поставщика и PageRank сайта поставщика используются для расчета Query Independent Rank.

Какие метрики используются и как они считаются

Historical Usage Frequency (Историческая частота использования) (Claim 1): Метрика, показывающая, как часто пользователи ранее выбирали этот атрибут для фильтрации. Ключевой фактор для выбора отображаемых фильтров.
Attribute Popularity (Популярность атрибута в выдаче): Частота встречаемости атрибута среди топовых результатов поиска.
Value Distribution Histograms (Гистограммы распределения значений): Подсчет количества элементов для топовых значений. Атрибуты с хорошим распределением (несколько доминирующих значений) предпочтительны для фильтров.
Query Dependent Rank (IR Score): Стандартная оценка релевантности элемента запросу.
Query Independent Rank: Оценка качества, не зависящая от запроса. Комбинация PageRank поставщика и Item Rank.
Item Rank (Ранг элемента): Рассчитывается на основе полноты данных: длина описания, количество атрибутов/меток, наличие изображений, рейтинг поставщика, свежесть элемента.
Итоговый скоринг: Упоминается как произведение Query Dependent Rank * Query Independent Rank.

Выводы

Поведение пользователей определяет интерфейс фильтрации: Ключевым аспектом патента (Claim 1) является использование исторических данных о том, какие атрибуты пользователи реально используют для фильтрации. Атрибуты, которые не используются, не будут показаны, даже если они присутствуют в данных.
Фасетный поиск динамичен и зависит от контекста запроса: Фильтры не фиксированы. Они динамически выбираются на основе анализа атрибутов в топовых результатах по конкретному запросу и поведенческих данных.
Качество и полнота данных влияют на ранжирование (Item Rank): Патент явно указывает, что Item Rank учитывает полноту заполнения данных (количество атрибутов, длина описания, изображения). Более качественно описанные элементы имеют преимущество в ранжировании.
Авторитет поставщика имеет значение: Query Independent Rank учитывает авторитет поставщика (например, PageRank сайта), что связывает общую SEO-стратегию с видимостью структурированных данных.
Нормализация атрибутов критична: Система использует нормализацию (стемминг, синонимы, единицы измерения), чтобы объединять схожие атрибуты от разных поставщиков (например, «Производитель» и «Бренд») в единый фильтр.
Эволюция структуры данных: Система автоматически отслеживает популярные пользовательские атрибуты и может повышать их до статуса основных (Core Attributes), адаптируя онтологию на лету.

Практика

Best practices (это мы делаем)

Обеспечение максимальной полноты структурированных данных: Необходимо предоставлять полные и точные данные через фиды (Merchant Center) или микроразметку (Schema.org). Это повышает Item Rank и увеличивает вероятность соответствия фасетам поиска.
Анализ фасетной навигации Google в вашей нише: Регулярно изучайте, какие фильтры Google динамически отображает по вашим ключевым запросам. Это прямой индикатор того, какие атрибуты пользователи используют чаще всего (Claim 1). Убедитесь, что ваши данные содержат эти атрибуты с корректными значениями.
Использование стандартных атрибутов (Core Attributes): Приоритет следует отдавать стандартным атрибутам, так как они легче нормализуются и с большей вероятностью будут использованы системой в качестве фильтров.
Оптимизация качества данных для Item Rank: Улучшайте описания, предоставляйте изображения и заполняйте все релевантные атрибуты, чтобы повысить независимую от запроса оценку качества элемента.
Консистентность значений и форматов: Используйте консистентные значения для атрибутов (например, стандартные названия цветов) и соблюдайте требования к форматам (даты, цены, локации). Это поможет системе правильно построить гистограммы и корректно обработать данные.

Worst practices (это делать не надо)

Предоставление разреженных данных: Отсутствие ключевых атрибутов (размер, цвет, цена) не позволит вашему предложению попасть в выдачу, когда пользователь применит соответствующий популярный фильтр.
Использование нестандартных имен атрибутов: Если вы используете уникальные названия для стандартных понятий, система может не смочь нормализовать их и объединить с атрибутами других поставщиков, что снизит их общую популярность и полезность.
Спам атрибутами (Attribute Stuffing): Добавление множества нерелевантных атрибутов неэффективно. Система выбирает атрибуты на основе популярности и исторического использования, а не просто их наличия.
Игнорирование авторитета сайта: Фокусироваться только на фидах данных, игнорируя общую SEO-стратегию сайта. Авторитет поставщика (например, PageRank) влияет на Query Independent Rank.

Стратегическое значение

Патент подтверждает стратегическую важность управления данными о продуктах (PIM) и оптимизации фидов (Feed Optimization) для SEO. В вертикальном поиске и e-commerce успех определяется не только оптимизацией под ключевые слова, но и оптимизацией структуры данных под то, как пользователи фильтруют информацию. Понимание того, как Google динамически выбирает фасеты на основе поведения пользователей, позволяет адаптировать данные для максимальной видимости на всех этапах воронки поиска.

Практические примеры

Сценарий: Оптимизация фида для магазина электроники в Google Shopping

Анализ (на основе патента): SEO-специалист анализирует выдачу Google Shopping по запросу «смартфон Samsung». Он видит, что Google динамически предлагает фильтры: «Объем памяти», «Цвет», «Размер экрана». Это означает, что эти атрибуты имеют высокую частоту использования пользователями (Claim 1).
Оценка текущих данных: Специалист проверяет фид Merchant Center и видит, что атрибут «Объем памяти» заполнен только для 50% товаров.
Действие: Ставится задача PIM-отделу заполнить атрибут «Объем памяти» (memory) для 100% релевантных товаров, используя стандартные значения (например, «256 ГБ»). Также проверяется заполнение других атрибутов (изображения, описание) для повышения Item Rank.
Ожидаемый результат: Товары магазина начинают чаще появляться в выдаче, когда пользователи применяют эти критически важные фильтры. Общее ранжирование может улучшиться за счет повышения Item Rank.

Вопросы и ответы

Почему Google показывает разные фильтры для похожих запросов?

Выбор фильтров (фасетов) динамичен. Он зависит от двух основных факторов: какие атрибуты присутствуют в топовых результатах по конкретному запросу, и, что более важно (согласно Claim 1 этого патента), какие фильтры пользователи исторически чаще использовали для уточнения этого типа запросов. Система адаптируется к контексту запроса и поведению пользователей.

Влияет ли поведение пользователей на то, какие фильтры покажет Google?

Да, это ключевой аспект патента US8762372B2. Claim 1 прямо указывает, что система определяет частоту, с которой атрибут ранее использовался пользователями для уточнения запросов, и выбирает атрибуты с наибольшей частотой. Если фильтр не используется, он перестанет отображаться.

Что такое Item Rank и как его повысить?

Item Rank — это независимая от запроса оценка качества элемента данных. Согласно патенту, для его повышения нужно улучшать сигналы элемента: предоставлять полные описания, заполнять множество релевантных атрибутов и меток, добавлять изображения и поддерживать актуальность данных (Recency). Также влияет рейтинг и авторитет поставщика.

Стоит ли добавлять как можно больше атрибутов в фид данных или микроразметку?

Стоит добавлять как можно больше *релевантных* атрибутов. Патент указывает, что полнота данных (количество атрибутов, длина описания) влияет на Item Rank, что улучшает ранжирование. Однако спам нерелевантными атрибутами не поможет, так как система выбирает только популярные и используемые пользователями атрибуты для отображения в качестве фильтров.

Что такое нормализация атрибутов и почему она важна?

Нормализация — это процесс приведения разных названий атрибутов к единому стандарту (например, объединение «Brand», «Make» и «Производитель» в единый фильтр «Бренд»). Это важно, потому что позволяет системе агрегировать данные от разных поставщиков и формировать полезные фильтры, несмотря на различия в терминологии. Также включает эквивалентность единиц измерения.

Может ли мой уникальный (кастомный) атрибут стать глобальным фильтром в Google?

Да. Патент описывает механизм, при котором система отслеживает новые атрибуты, созданные поставщиками. Если атрибут становится популярным и используется достаточным количеством уникальных поставщиков, он может быть повышен до статуса основного атрибута (Core Attribute) и стать стандартным фильтром.

Влияет ли авторитет сайта (PageRank) на ранжирование этих структурированных данных?

Да. Патент упоминает, что Query Independent Rank рассчитывается как смесь авторитета поставщика (включая PageRank) и Item Rank. Это означает, что элементы от более авторитетных поставщиков (сайтов) имеют преимущество при ранжировании.

Актуален ли этот патент, если он описывает устаревшую систему Google Base?

Патент абсолютно актуален. Хотя Google Base как продукт не существует, описанные технологии легли в основу современных систем управления структурированными данными Google, в первую очередь Google Merchant Center, а также механизмов фасетного поиска в Google Shopping, Jobs и других вертикалях.

Как бороться с ситуацией, когда мои товары не попадают под важный фильтр?

Необходимо убедиться, что в ваших данных присутствует соответствующий атрибут с корректными значениями, и что вы используете стандартное или общепринятое имя для этого атрибута. Если вы используете нестандартное имя, система может не распознать его как часть популярного фильтра из-за проблем с нормализацией.

Какой главный вывод для SEO-специалиста в e-commerce из этого патента?

Главный вывод — оптимизация фидов данных (Feed Optimization) является критически важной дисциплиной. Необходимо не только обеспечить техническое качество и полноту данных для повышения Item Rank, но и стратегически подходить к выбору атрибутов, ориентируясь на то, как пользователи реально фильтруют информацию в вашей нише, так как это определяет видимость фильтров.