Как Google автоматически генерирует, ранжирует и отображает навигационные фильтры (структурированные сниппеты и Sitelinks) для результатов поиска и рекламы

Google использует систему для автоматического извлечения структурированных данных (заголовков и связанных элементов) с целевой страницы. Эти данные организуются в «Навигационные фильтры» — концептуально параллельные списки (например, «Бренды: Canon, Nikon, Sony»). Система ранжирует эти фильтры на основе запроса пользователя, его интересов и доступного пространства, а затем интегрирует их в сниппет результата поиска или рекламное объявление для улучшения навигации.

Описание

Какую задачу решает

Патент решает проблему неэффективного обобщения контента целевого ресурса (Target Resource, например, лендинга) внутри связанного с ним элемента контента (Content Item, например, рекламного объявления или сниппета поиска). Стандартные текстовые описания часто плохо отражают разнообразие категорий или продуктов на целевой странице. Изобретение улучшает пользовательский опыт, предоставляя структурированное резюме и возможность прямой навигации непосредственно из сниппета.

Что запатентовано

Запатентована система для автоматической генерации, ранжирования и интеграции Navigation Filters (Навигационных фильтров) в элементы контента. Ключевой особенностью является то, что Navigation Filter состоит из заголовка и списка Conceptually Parallel Items (концептуально параллельных элементов), варьирующихся по одному измерению (например, Заголовок: «Мегапиксели»; Элементы: «10+», «15+», «20+»). Система динамически выбирает лучшие фильтры с учетом релевантности и ограничений по пространству.

Как это работает

Система работает в несколько этапов:

Извлечение данных: Система анализирует целевой ресурс (парсинг DOM-дерева, HTML), чтобы извлечь заголовки и связанные с ними элементы/ссылки.
Нормализация и Создание Фильтров: Извлеченные данные стандартизируются. Система гарантирует, что элементы под одним заголовком являются conceptually parallel.
Ранжирование: Потенциальные фильтры ранжируются на основе критериев: релевантности запросу (query-dependent), профилю пользователя (user-dependent) или глобально упорядоченным спискам (globally ordered lists).
Выбор и Интеграция: Система выбирает топовые фильтры с учетом доступного пространства, используя разные стратегии (например, показать один лучший фильтр с максимумом элементов или несколько фильтров с меньшим числом элементов).
Отображение: Фильтры интегрируются в элемент контента как информационные списки, гиперссылки (Sitelinks) или выпадающие меню.

Актуальность для SEO

Высокая. Описанные механизмы напрямую связаны с тем, как Google генерирует структурированные сниппеты (Structured Snippets) и автоматические расширения в Google Ads, а также с генерацией органических Sitelinks. Автоматическое извлечение и ранжирование структурированных данных со страницы для улучшения представления в SERP является ключевым элементом современного поиска.

Важность для SEO

Патент имеет высокое значение (75/100). Хотя в тексте часто упоминаются рекламные объявления (advertisements, ad creative), описанные технологии извлечения, нормализации и ранжирования структурированной навигационной информации с веб-страниц критически важны для органического SEO. Понимание этих механизмов напрямую влияет на оптимизацию архитектуры сайта для лучшего представления в сниппетах (Sitelinks, Structured Snippets) и повышения CTR.

Детальный разбор

Термины и определения

Content Item (Элемент контента): Элемент, предоставляемый пользователю (например, рекламное объявление или результат поиска), который ведет на целевой ресурс.
Navigation Filter (Навигационный фильтр): Структурированный элемент данных, состоящий из заголовка (Heading) и списка элементов (Items). Используется для суммирования содержания целевого ресурса.
Heading (Заголовок): Название категории или атрибута. Определяет измерение (Dimension of Variation), вдоль которого варьируются элементы.
Conceptually Parallel Items (Концептуально параллельные элементы): Ключевое понятие. Элементы в рамках одного фильтра, которые варьируются вдоль одного и того же измерения. Например, «Красный», «Синий», «Зеленый» параллельны (измерение: Цвет).
Target Resource (Целевой ресурс): Ресурс (например, лендинг, веб-сайт), на который ведет Content Item.
Data Extraction Module (Модуль извлечения данных): Компонент, отвечающий за парсинг Target Resource (DOM, HTML) и извлечение заголовков и элементов.
Normalization Module (Модуль нормализации): Компонент, преобразующий извлеченный текст в стандартную форму (очистка, стандартизация регистра, удаление пунктуации).
Filter Ranking Module (Модуль ранжирования фильтров): Компонент, оценивающий и ранжирующий потенциальные фильтры на основе критериев ранжирования (Ranking Criteria).
Globally Ordered List (Глобально упорядоченный список): Предопределенный список приоритетных заголовков, который может использоваться для ранжирования фильтров. Могут существовать разные списки для разных вертикалей.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методах ранжирования и, особенно, на стратегиях выбора фильтров для оптимального заполнения ограниченного пространства.

Claim 1 (Независимый пункт): Описывает метод ранжирования и выбора навигационных фильтров со стратегией, фокусирующейся на одном лучшем фильтре.

Система получает набор Navigation Filters для ресурса.
Идентифицируются критерии ранжирования.
Фильтры (заголовки и/или элементы) ранжируются.
Происходит выбор фильтра для отображения:
- Определяется доступное пространство в Content Item.
- Выбирается заголовок с наивысшим рейтингом (top ranking heading).
- Выбирается максимальное количество элементов для этого заголовка, которое помещается в доступное пространство.

Claim 11 (Независимый пункт): Описывает альтернативную стратегию выбора, фокусирующуюся на разнообразии (несколько лучших фильтров).

Шаги 1-3 аналогичны Claim 1 (Получение фильтров, Идентификация критериев, Ранжирование).
Происходит выбор фильтров для отображения:
- Определяется доступное пространство.
- Выбирается несколько заголовков с наивысшим рейтингом.
- Для каждого выбранного заголовка выбирается пара элементов.
- Система итеративно добавляет по одному элементу к каждой паре до тех пор, пока доступное пространство не будет заполнено.

Зависимые пункты (Claims 2, 6, 7, 8, 9): Уточняют ключевые аспекты:

Элементы должны быть conceptually parallel (Claim 2).
Фильтры генерируются путем извлечения данных из ресурса и организации их в концептуально параллельные наборы на основе структуры ресурса (Claims 6, 7).
Элементы могут быть гиперссылками (Claim 8) или отображаться в виде выпадающего меню (Claim 9).

Где и как применяется

Изобретение затрагивает этапы индексирования (для генерации данных) и финальные этапы формирования выдачи (для ранжирования и отображения фильтров).

INDEXING – Индексирование и извлечение признаков
Основной этап для генерации фильтров. Data Extraction Module анализирует структуру ресурса (DOM tree, HTML). Normalization Module очищает данные. Filter Creation Module организует данные в Navigation Filters, идентифицируя conceptually parallel items. Эти фильтры сохраняются и ассоциируются с URL. В патенте указано, что это может происходить заранее (a priori).

RANKING / RERANKING – Ранжирование / Переранжирование
На этапе формирования ответа на запрос система активирует Filter Ranking Module. Он оценивает сохраненные фильтры в реальном времени на основе контекста (запрос, данные пользователя). Filter Integration Module затем выполняет логику выбора (Claims 1 или 11), учитывая доступное пространство в сниппете, и интегрирует выбранные фильтры в Content Item.

Входные данные:

Контент и структура целевого ресурса (HTML, DOM).
Запрос пользователя и данные о нем (интересы, поведение).
Globally ordered lists.
Параметры отображения Content Item (доступное пространство).

Выходные данные:

База данных Navigation Filters, проиндексированных по URL.
Модифицированный Content Item (сниппет/объявление) с интегрированными структурированными данными.

На что влияет

Типы контента и Ниши: Наибольшее влияние на сайты с четкой иерархической структурой и большим количеством сущностей, группируемых по атрибутам (E-commerce, каталоги, агрегаторы).
Форматы контента: Страницы категорий, листинги товаров, страницы со списками услуг.
Специфические запросы: Коммерческие и информационные запросы, где пользователь ищет варианты выбора (например, «купить ноутбук», «лучшие рестораны»).

Когда применяется

Условия применения: Алгоритм применяется, когда для целевого ресурса удалось сгенерировать валидные Navigation Filters (содержащие минимум два параллельных элемента), и когда система определяет, что их отображение полезно для данного запроса.
Триггеры активации: Получение запроса на контент (request for content). Активация происходит в момент формирования финального сниппета или объявления.

Пошаговый алгоритм

Процесс разделен на две части: Офлайн-генерация фильтров и Онлайн-выбор и интеграция.

Процесс А: Офлайн-генерация Навигационных Фильтров (Индексация)

Извлечение данных: Система парсит контент целевого ресурса (например, DOM-дерево) для извлечения иерархической информации (заголовки, элементы, ссылки, меню).
Нормализация: Извлеченный текст преобразуется в стандартную форму (удаление пунктуации, стандартизация регистра, обработка множественного числа). Проводится базовая фильтрация (удаление фильтров с менее чем двумя элементами, неспецифичных фраз типа «смотреть все»).
Создание фильтров: Система организует данные. Идентифицируются наборы элементов, которые варьируются вдоль одного измерения (single dimension), формируя conceptually parallel sets. Эти наборы ассоциируются с соответствующими заголовками.
Сохранение: Сгенерированные Navigation Filters сохраняются и индексируются по URL ресурса.

Процесс Б: Онлайн-выбор и Интеграция (Рантайм)

Получение запроса и выбор контента: Система выбирает релевантный Content Item.
Идентификация фильтров и критериев: Извлекаются сохраненные фильтры для ресурса и определяются критерии ранжирования (запрос, пользователь, глобальные списки).
Ранжирование фильтров: Заголовки и элементы внутри них ранжируются согласно критериям.
Выбор фильтров (Стратегия 1, согласно Claim 1):
- Определяется доступное пространство.
- Выбирается заголовок с наивысшим рейтингом.
- Выбирается максимальное количество элементов для этого заголовка, которые помещаются в пространство.
Выбор фильтров (Стратегия 2, согласно Claim 11):
- Определяется доступное пространство.
- Выбираются несколько лучших заголовков.
- Для каждого выбирается по два лучших элемента.
- Элементы добавляются поочередно, пока пространство не заполнится.
Генерация отображения: Выбранные фильтры интегрируются с Content Item (например, как HTML-расширения). Может применяться усечение текста.
Предоставление ответа: Модифицированный Content Item отправляется пользователю.

Какие данные и как использует

Данные на входе

Структурные и Контентные факторы: Критически важные данные. Система анализирует HTML, DOM-дерево (DOM tree), иерархическую структуру ресурса, видимый текст, скрытый текст и метаданные для извлечения заголовков и элементов.
Ссылочные факторы: Система извлекает гиперссылки (URL), связанные с элементами фильтра, чтобы обеспечить прямую навигацию.
Поведенческие и Пользовательские факторы: Используются для ранжирования фильтров. Включают ключевые слова поискового запроса, историю поиска, поведенческие данные (behavioral data), категории интересов пользователя (interest categories).
Системные данные: Глобально упорядоченные списки (globally ordered lists) заголовков, которые используются для ранжирования фильтров в зависимости от категории контента (вертикали).

Какие метрики используются и как они считаются

Патент не предоставляет конкретных формул, но описывает критерии ранжирования и логику выбора.

Критерии ранжирования заголовков:
- Query-dependent: Релевантность заголовка ключевым словам запроса.
- User-dependent: Соответствие заголовка интересам или прошлому поведению пользователя.
- Globally ordered lists: Позиция заголовка в предопределенном списке для данной вертикали.
Критерии ранжирования элементов:
- Те же критерии, что и для заголовков.
- Структура ресурса: Порядок появления на странице (близость к верху, выше/ниже сгиба), заметность элемента, количество вхождений элемента на странице.
- Количество сущностей: Например, количество товаров в категории, связанной с элементом.
Оценка ранжирования (Score): Упоминается, что оценка может быть основана на взвешенном среднем (weighted average) различных критериев ранжирования.
Метрики выбора: Используются доступное пространство (amount of space available) и длина строки (string length) заголовков и элементов для определения того, что поместится в сниппет.

Выводы

Автоматическое извлечение структурированных данных: Google активно анализирует структуру страниц (HTML/DOM) для автоматической генерации Navigation Filters (структурированных сниппетов и Sitelinks). Система не полагается только на микроразметку.
Критичность концептуальной параллельности: Ключевым требованием является то, что элементы внутри фильтра должны быть conceptually parallel (варьироваться по одному измерению). Это обеспечивает логичность и полезность фильтров и требует четкой информационной архитектуры сайта.
Динамическое и персонализированное ранжирование сниппетов: Выбор отображаемых фильтров не статичен. Он ранжируется в реальном времени на основе запроса (query-dependent), данных пользователя (user-dependent) и глобальных знаний о вертикали (globally ordered lists).
Оптимизация под пространство (Две стратегии): Запатентованы конкретные стратегии (Claim 1 и Claim 11) для выбора фильтров в условиях ограниченного пространства. Система балансирует между глубиной (много элементов одного фильтра) и разнообразием (несколько фильтров с меньшим числом элементов).
Влияние структуры страницы на ранжирование фильтров: Порядок следования и визуальная заметность элементов на исходной странице могут влиять на их ранжирование внутри Navigation Filter.

Практика

Best practices (это мы делаем)

Проектирование логичной Информационной Архитектуры (IA): Структурируйте контент и навигацию так, чтобы категории и атрибуты были conceptually parallel. Это критически важно для фасетной навигации, меню и списков. Это облегчает работу Data Extraction Module.
Использование чистой семантической верстки: Используйте стандартные HTML-элементы (списки <ul>/<li>, заголовки) для представления иерархии. Чистый код помогает системе корректно идентифицировать заголовки и связанные элементы.
Оптимизация расположения ключевых элементов: Располагайте наиболее важные навигационные элементы и атрибуты на видных местах (ближе к верху страницы). Патент указывает, что порядок и расположение могут использоваться для ранжирования элементов фильтра.
Использование стандартизированной терминологии: Применяйте общепринятые и последовательные названия атрибутов и категорий. Это поможет Normalization Module корректно обработать текст и сопоставить его с globally ordered lists.

Worst practices (это делать не надо)

Смешивание концептуально разных сущностей в навигации: Создание блоков навигации, где смешаны разные измерения. Например, список «Розы, Скидка 30%, Бесплатная доставка» не является параллельным и не будет использован как качественный Navigation Filter.
Использование сложного JavaScript для генерации навигации: Если ключевые навигационные элементы сложно извлечь из HTML/DOM (например, из-за сложного JS без SSR), система может не сгенерировать фильтры.
Непоследовательное именование: Использование разных названий для одних и тех же категорий на разных страницах усложняет нормализацию и агрегацию данных.
Использование неинформативных ссылок: Система фильтрации отбрасывает неспецифические группировки (например, «смотреть все», «еще»).

Стратегическое значение

Патент подтверждает стратегию Google по преобразованию неструктурированного контента в структурированные данные для улучшения пользовательского опыта прямо в SERP. Для SEO это означает, что оптимизация архитектуры сайта и семантики контента критически важна не только для ранжирования, но и для представления в выдаче (SERP Presentation). Сайты с логичной и легко интерпретируемой структурой получают преимущество в виде более информативных и привлекательных сниппетов.

Практические примеры

Сценарий: Оптимизация страницы категории E-commerce для отображения структурированных сниппетов

Задача: Увеличить вероятность показа Navigation Filters для страницы категории «Ноутбуки».

Анализ структуры (Data Extraction): Проверить, что фасетная навигация (фильтры) реализована с использованием чистого HTML и доступна в DOM.
Проверка параллельности (Filter Creation): Убедиться, что группы фильтров conceptually parallel. Блок «Производитель» содержит только бренды (Apple, Dell, HP). Блок «Диагональ экрана» — только размеры (13″, 14″, 15″).
Приоритизация расположения (Filter Ranking): Разместить наиболее важные фильтры («Производитель», «Диагональ») выше в коде и визуально на странице, чтобы повысить их приоритет для ранжирования.
Нормализация терминов (Normalization): Использовать стандартные заголовки и значения. Например, использовать «Производитель», а не «Вендор (3)».
Ожидаемый результат: В сниппете результата поиска Google отобразит структурированные данные: «Производитель: Apple, Dell, HP | Диагональ: 13″, 14″, 15».

Вопросы и ответы

Что такое «Навигационный фильтр» (Navigation Filter) согласно патенту?

Это структурированная единица данных, состоящая из заголовка и списка связанных элементов, который интегрируется в результат поиска или рекламное объявление. Его цель — резюмировать контент целевой страницы. Например, «Бренды: Canon, Nikon, Sony». Это функционально похоже на Structured Snippets (Структурированные сниппеты) или Sitelinks.

Что означает требование «концептуальной параллельности» (conceptually parallel items) для SEO?

Это критически важное требование. Оно означает, что элементы внутри одного фильтра должны варьироваться только по одному измерению. Например, список [Цвет: Красный, Синий] параллелен, а список [Категория: Камеры, Скидка 10%] — нет. Для SEO это подчеркивает необходимость логичной, чистой и семантически однозначной организации контента и навигации на сайте.

Откуда Google берет данные для этих фильтров?

Патент описывает два основных пути. Первый и основной — автоматическое извлечение данных путем анализа контента и структуры целевой страницы (HTML, DOM-дерево). Второй путь — получение этих данных напрямую от владельцев сайтов или рекламодателей через интерфейс управления (например, Google Ads).

Как Google решает, какие именно фильтры (Sitelinks) показать, если их много?

Система использует Filter Ranking Module. Фильтры ранжируются на основе трех групп критериев: релевантности запросу (query-dependent), релевантности пользователю (user-dependent, его интересы и поведение) и предопределенных глобальных списков важности (globally ordered lists) для разных тематик.

Влияет ли расположение навигационных элементов на странице на их выбор в качестве фильтров?

Да, это возможно. В патенте упоминается, что ранжирование элементов внутри заголовка может основываться на порядке или внешнем виде этих элементов на целевом ресурсе. В качестве критериев упоминаются близость к верху страницы, расположение выше или ниже «линии сгиба» (above or below the fold) и близость к центру.

Патент описывает разные стратегии выбора фильтров (Claims 1 и 11). В чем разница?

Обе стратегии решают проблему ограниченного пространства. Стратегия 1 (Claim 1) фокусируется на глубине: выбирается один лучший заголовок и показывается максимум элементов для него. Стратегия 2 (Claim 11) фокусируется на разнообразии: выбирается несколько лучших заголовков и показывается понемногу элементов для каждого из них (минимум по 2), пока не заполнится место.

Могут ли эти фильтры быть кликабельными?

Да. Патент явно указывает, что элементы фильтра могут быть представлены в виде гиперссылок (hyperlinks) или элементов выпадающего меню (dropdown menu). Это позволяет пользователю перейти непосредственно к отфильтрованному контенту на целевом ресурсе.

Какое значение этот патент имеет для органического SEO, если он часто упоминает рекламу?

Значение высокое. Технологии извлечения структурированных данных (Data Extraction), нормализации и понимания структуры страницы (Filter Creation) являются универсальными для всего поиска Google. Механизмы, используемые для автоматических расширений в Google Ads, часто применяются и для генерации органических Rich Snippets, Structured Snippets и Sitelinks.

Что такое «Глобально упорядоченные списки» (Globally ordered lists) и как они используются?

Это предопределенные списки, которые содержат информацию о том, какие атрибуты наиболее важны для разных категорий контента или вертикалей. Например, система знает, что для «камер» важны «мегапиксели», а для «отелей» — «рейтинг». Эти списки используются для приоритизации (ранжирования) навигационных фильтров при отображении.

Что такое «Нормализация» и как она влияет на контент?

Нормализация — это процесс приведения извлеченного текста к стандартному виду. Он включает удаление лишней пунктуации и цифр, стандартизацию регистра и числа. Например, текст «ОБУВЬ (5)» может быть нормализован до «обувь». Это важно для устранения дубликатов и улучшения читаемости в сниппетах.