Как Google динамически генерирует фильтры в Google Flights, используя кластеризацию маршрутов

Этот патент описывает, как Google Flights анализирует доступные маршруты авиабилетов и автоматически группирует их в значимые кластеры на основе таких признаков, как цена, продолжительность и количество остановок. Эти кластеры затем представляются как динамические фильтры, помогая пользователям ориентироваться в сложных вариантах без ручной настройки стандартных фильтров.

Описание

Какую задачу решает

Патент решает проблему навигации пользователя в большом количестве результатов поиска в вертикальной поисковой системе (например, Google Flights). Когда по запросу возвращаются сотни маршрутов (Itineraries), пользователю сложно оценить варианты. Стандартные статические фильтры часто требуют длительного перебора методом проб и ошибок и могут непреднамеренно исключить оптимальные варианты. Изобретение улучшает пользовательский опыт (UX), автоматически выявляя значимые группы маршрутов и представляя их в виде динамических фильтров.

Что запатентовано

Запатентована система для динамического создания фильтров на основе фактических результатов поиска авиабилетов. Система кластеризует доступные маршруты по схожим признакам (цена, продолжительность, авиакомпания и т.д.). Наиболее качественные кластеры преобразуются в динамические фильтры и представляются пользователю. Ключевой особенностью является итеративный процесс повторной кластеризации (re-clustering) оставшихся результатов после выбора пользователем одного из фильтров.

Как это работает

Система работает в рамках вертикального поиска:

Сбор данных: Получает список маршрутов, соответствующих запросу пользователя.
Векторизация: Каждому маршруту присваивается Feature Vector (вектор признаков), описывающий его характеристики.
Кластеризация: Маршруты группируются в кластеры на основе схожести векторов с использованием алгоритмов оптимизации (например, иерархической агломеративной кластеризации).
Оценка качества: Каждому кластеру присваивается Quality Score, определяющий его полезность для пользователя.
Генерация фильтров: Кластеры с наивысшим Quality Score преобразуются в первичные динамические фильтры (Primary filters).
Повторная кластеризация: Когда пользователь выбирает фильтр, система повторно кластеризует оставшиеся маршруты для генерации вторичных фильтров (Secondary filters).

Актуальность для SEO

Высокая (для вертикального поиска). Описанный механизм является основой пользовательского интерфейса современных метапоисковиков авиабилетов, включая Google Flights. Динамическая фильтрация и кластеризация результатов активно используются для улучшения UX в средах с большим объемом структурированных данных (например, Google Shopping, Google Hotels).

Важность для SEO

Влияние на SEO минимальное (1/10). Патент описывает внутренние процессы обработки структурированных данных и дизайн пользовательского интерфейса (UI/UX) в специализированном вертикальном поиске (Google Flights). Он не имеет отношения к тому, как Google сканирует, индексирует или ранжирует веб-страницы в основном органическом поиске. Для специалистов по органическому SEO этот патент не несет практической ценности.

Детальный разбор

Термины и определения

Cluster (Кластер): Группа маршрутов (Itineraries), объединенных на основе схожих значений одного или нескольких признаков (Features).
Features (Признаки): Характеристики маршрута, используемые для кластеризации. В патенте упоминаются: цена (price), длительность (duration), количество остановок (number-of-stops), авиакомпания (airline), время вылета (departure time).
Feature Vector (Вектор признаков): Структурированное представление характеристик маршрута. Присваивается каждому маршруту для использования в алгоритмах кластеризации.
Hierarchical Agglomerative Clustering (Иерархическая агломеративная кластеризация): Один из методов кластеризации, упомянутых в патенте. Система начинает с отдельных маршрутов и последовательно объединяет их в кластеры, максимизируя качество на каждом шаге.
Itinerary (Маршрут): Конкретный вариант перелета, удовлетворяющий запросу пользователя.
Mixed-integer linear program solving (Решение смешанно-целочисленного линейного программирования): Метод оптимизации, упомянутый в патенте для нахождения оптимального распределения маршрутов по кластерам с целью максимизации общего качества.
Primary Filters / Secondary Filters (Первичные / Вторичные фильтры): Фильтры, сгенерированные при первоначальном поиске (Primary). Фильтры, сгенерированные после применения первичного фильтра в результате повторной кластеризации (Secondary).
Quality Score (Оценка качества кластера): Метрика, присваиваемая кластеру для оценки его полезности и понятности как фильтра. Используется для выбора лучших кластеров для отображения.
Re-clustering (Повторная кластеризация): Итеративный процесс повторного запуска алгоритма кластеризации на подмножестве маршрутов после того, как пользователь выбрал один из фильтров.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод предоставления графических пользовательских интерфейсов (GUI) с отфильтрованными маршрутами.

Система кластеризует множество маршрутов, удовлетворяющих запросу, на основе значений одного или нескольких признаков.
Генерируются один или несколько Primary Filters, соответствующих кластерам.
Пользовательскому устройству передаются инструкции для отображения GUI, включающего маршруты и описание Primary Filters. Инструкции должны отображать для хотя бы одного фильтра конкретные значения по крайней мере двух признаков (например, Цена и Авиакомпания).
От пользовательского устройства получается ввод, указывающий на выбор по крайней мере одного Primary Filter.
В ответ на получение выбора система выполняет re-clustering (повторную кластеризацию) маршрутов, которые удовлетворяют выбранному фильтру, для генерации одного или нескольких Secondary Filters.

Ядром изобретения является автоматическая генерация фильтров на основе кластеризации данных и, что критически важно, динамическая повторная кластеризация результатов после взаимодействия пользователя с фильтром. Это создает итеративный способ сужения результатов.

Claim 4 и 5 (Зависимые): Уточняют, что каждый кластер имеет ассоциированную оценку качества (Quality Score). Генерация фильтров включает выбор кластеров с наивысшим Quality Score.

Claim 6 (Зависимый): Уточняет, что кластеризация включает присвоение Feature Vector каждому маршруту и основывается на этих векторах.

Где и как применяется

Этот патент описывает механизм, который применяется исключительно внутри специализированной вертикальной поисковой системы (например, Google Flights) и относится к уровню представления данных (UI/UX), а не к стандартной архитектуре веб-поиска.

RANKING (Вертикальный поиск)
На этом этапе система определяет первоначальный набор маршрутов (Matching Itineraries), которые удовлетворяют параметрам запроса пользователя, используя специализированную базу данных (Flight Information).

RERANKING / UI Generation (Генерация интерфейса)
Это основной этап применения патента. После того как результаты получены, активируются модули кластеризации (Cluster Generator) и генерации фильтров (Filter Generator). Система организует представление данных, создавая динамические фильтры для улучшения UX.

Входные данные: Запрос пользователя (Flight Search Query) и список всех подходящих маршрутов с их признаками (цена, время и т.д.).
Выходные данные: Набор динамических фильтров (Primary Filters) и организованный список маршрутов. После взаимодействия пользователя — новый набор фильтров (Secondary Filters).

На что влияет

Алгоритм влияет исключительно на пользовательский интерфейс и способ представления структурированных данных в поиске авиабилетов.

Конкретные типы контента: Влияет только на отображение маршрутов авиаперелетов (структурированные данные).
Специфические запросы: Применяется к запросам в рамках поиска авиабилетов.

Он не влияет на органический поиск, типы веб-контента, YMYL-тематики или другие аспекты SEO.

Когда применяется

Условия работы: При обработке запроса на поиск авиабилетов в реальном времени.
Триггеры активации: Активируется, когда система идентифицирует достаточное количество маршрутов, которые можно сгруппировать в значимые кластеры.
Итеративность: Механизм re-clustering активируется, когда пользователь взаимодействует с одним из динамически сгенерированных фильтров.

Пошаговый алгоритм

Этап 1: Первичная обработка запроса

Получение запроса и маршрутов: Система получает запрос и определяет множество удовлетворяющих ему маршрутов.
Векторизация: Каждому маршруту присваивается Feature Vector. Признакам могут быть назначены веса (Weights).
Кластеризация: Маршруты кластеризуются. Используются методы оптимизации (Mixed-integer linear program solving или Hierarchical agglomerative clustering). Цель — максимизировать общий Quality Score кластеров.
Расчет Quality Score: Для каждого кластера вычисляется оценка качества (например, по Формуле 1, описанной в патенте).
Генерация первичных фильтров: Система выбирает кластеры с наивысшим Quality Score и генерирует соответствующие им Primary Filters.
Предоставление интерфейса: Маршруты и фильтры предоставляются для отображения пользователю.

Этап 2: Обработка взаимодействия пользователя

Получение выбора: Система получает ввод от пользователя, указывающий на выбор фильтра.
Повторная кластеризация (Re-clustering): Система идентифицирует подмножество маршрутов, удовлетворяющих выбранному фильтру, и запускает процесс кластеризации заново на этом подмножестве.
Генерация вторичных фильтров: Генерируются новые Secondary Filters.
Обновление интерфейса: Обновленный набор маршрутов и вторичные фильтры предоставляются пользователю.

Какие данные и как использует

Данные на входе

Система использует исключительно структурированные данные, относящиеся к маршрутам авиаперелетов. Факторы, используемые в веб-поиске (контентные, ссылочные, поведенческие, технические), здесь не применяются.

Структурированные данные маршрута (Features):
- Цена (price).
- Продолжительность (duration).
- Количество остановок (number-of-stops).
- Авиакомпания (airline).
- Время вылета (departure time).

Какие метрики используются и как они считаются

Quality Score (Оценка качества кластера): Ключевая метрика для определения полезности фильтра. Патент предлагает один из вариантов расчета (Формула 1): Σᵢ minₛ(fᵢ(s)).
Это сумма минимальных (наилучших) значений признака (fᵢ) для всех маршрутов (s) в кластере по всем признакам (i). Это позволяет выявлять кластеры, которые можно кратко и четко описать (например, кластер, где все рейсы дешевые и быстрые).
Feature Vector (Вектор признаков): Используется для представления маршрутов в числовом формате для алгоритмов кластеризации.
Weights (Веса признаков): Признакам могут присваиваться веса для определения их важности при расчете Quality Score и сравнении векторов.
Алгоритмы машинного обучения: Используются алгоритмы кластеризации: Mixed-integer linear program solving и Hierarchical agglomerative clustering.

Выводы

Патент описывает внутренние процессы Google Flights и не дает практических выводов для SEO-специалистов, работающих с органическим поиском.

Основные выводы для понимания работы вертикального поиска Google:

UX через кластеризацию: Google активно использует машинное обучение (кластеризацию и оптимизацию) для улучшения пользовательского опыта при работе со сложными наборами структурированных данных. Система стремится автоматически выделить наиболее значимые группы результатов.
Динамическая адаптация UI: Вместо статических фильтров система адаптирует интерфейс (фильтры) на основе фактических данных, доступных для конкретного запроса.
Оценка «качества» фильтра: Вводится понятие Quality Score для кластера, позволяющее алгоритмически определить, насколько полезным и понятным будет фильтр для пользователя.
Итеративная фильтрация (Re-clustering): Ключевым механизмом является повторная кластеризация результатов после каждого действия пользователя (выбора фильтра), что обеспечивает динамическое и релевантное сужение выборки.

Практика

ВАЖНО: Патент является инфраструктурным и описывает работу пользовательского интерфейса вертикального поиска (Google Flights). Он не дает практических рекомендаций для SEO-специалистов, занимающихся продвижением сайтов в органической выдаче.

Best practices (это мы делаем)

Не применимо к органическому SEO.

(Для E-commerce/Агрегаторов): Идеи патента можно использовать для улучшения UX собственных платформ. Рассмотрите возможность динамической генерации фильтров на основе кластеризации товаров/услуг, чтобы показать пользователям наиболее значимые срезы данных вместо статических фасетов.

Worst practices (это делать не надо)

Не применимо к органическому SEO.

Стратегическое значение

Стратегическое значение для органического SEO отсутствует. Однако патент важен для понимания того, как Google обрабатывает и представляет большие объемы структурированных данных в своих вертикальных продуктах (Flights, Shopping, Hotels). Он демонстрирует применение сложных алгоритмов кластеризации и оптимизации для решения задач UX/UI, что подчеркивает важность структурированных данных в экосистеме Google.

Практические примеры

Практических примеров для SEO нет. Ниже приведен пример работы механизма в Google Flights (адаптировано из патента).

Сценарий: Поиск билетов из MSP в ATL

Запрос: Пользователь ищет билеты MSP-ATL. Система находит множество вариантов.
Кластеризация: Система анализирует варианты и определяет три кластера с наивысшим Quality Score:
- Кластер A: Без пересадок, от $500, 3 часа.
- Кластер B: Через Carrier A, 1 пересадка, от $400, 4.5 часа.
- Кластер C: 2+ пересадки, от $360, 5.5+ часов.
Отображение (Primary Filters): Пользователь видит эти три варианта как основные фильтры/группы результатов.
Взаимодействие: Пользователь решает сэкономить и кликает на фильтр Кластера B (1 пересадка, от $400).
Re-clustering: Система берет только маршруты из Кластера B и повторно кластеризует их. Она находит новые значимые группы внутри этого подмножества (например, по времени вылета или аэропорту пересадки).
Обновление (Secondary Filters): Интерфейс обновляется, показывая новые фильтры, помогая пользователю сделать финальный выбор.

Вопросы и ответы

Влияет ли этот патент на ранжирование моего сайта в органическом поиске Google?

Нет, этот патент не имеет никакого отношения к органическому поиску. Он описывает исключительно механизм генерации динамических фильтров в пользовательском интерфейсе вертикального поиска авиабилетов (Google Flights). Алгоритмы ранжирования веб-страниц в нем не затрагиваются.

Что такое «Quality Score» в контексте этого патента?

Это не оценка качества сайта или страницы, как в SEO. В данном патенте Quality Score — это метрика для оценки качества кластера маршрутов. Она определяет, насколько значимым, полезным и понятным будет этот кластер, если его представить пользователю в виде фильтра. Система стремится показать фильтры с наивысшим Quality Score.

Как система рассчитывает «Quality Score» для кластера?

Патент предлагает формулу (Формула 1: Σᵢ minₛ(fᵢ(s))), согласно которой оценка качества кластера — это сумма минимальных (наилучших) значений признаков по всем маршрутам в этом кластере. Это означает, что высококачественный кластер — это тот, в котором все маршруты имеют хорошие показатели хотя бы по одному важному признаку (например, все дешевые или все быстрые).

Что такое «Re-clustering» (Повторная кластеризация) и зачем она нужна?

Re-clustering — это ключевая особенность патента. Когда пользователь выбирает один из предложенных динамических фильтров, система не просто отфильтровывает результаты, но и заново анализирует оставшееся подмножество маршрутов. Она ищет новые значимые группы внутри этого подмножества и генерирует новые (вторичные) фильтры. Это обеспечивает итеративный и динамический процесс сужения выборки.

Какие алгоритмы используются для кластеризации маршрутов?

Патент упоминает два основных подхода. Первый — иерархическая агломеративная кластеризация (Hierarchical agglomerative clustering), при котором маршруты последовательно объединяются в группы. Второй — решение задачи смешанного целочисленного линейного программирования (Mixed-integer linear program solving) для нахождения оптимального распределения маршрутов по кластерам.

Могу ли я использовать идеи из этого патента для улучшения фильтрации на своем сайте (например, в интернет-магазине)?

Да, концептуально идеи патента применимы к любому сайту с большим каталогом структурированных данных. Автоматическая кластеризация товаров по их характеристикам и представление этих кластеров как динамических фильтров может значительно улучшить UX и помочь пользователям быстрее находить нужные товары, особенно если реализовать механизм повторной кластеризации.

Чем динамические фильтры отличаются от стандартных фасетных фильтров?

Стандартные фасетные фильтры фиксированы (например, всегда есть фильтр по Бренду, Цене, Размеру) и обычно позволяют фильтровать только по одному измерению за раз. Динамические фильтры, описанные в патенте, генерируются на лету на основе фактических данных и часто объединяют несколько признаков (например, «Без пересадок, дешевле $500 и быстрее 4 часов»).

Применяется ли эта технология в других вертикалях Google (Shopping, Hotels)?

Патент специфичен для поиска авиабилетов. Однако описанные методы — использование кластеризации для динамической генерации фильтров на основе Quality Score — являются общим подходом к улучшению UX в сложных системах выбора. Логично предположить, что аналогичные принципы могут использоваться в других коммерческих вертикалях Google для организации результатов.

Что такое «Feature Vector» (Вектор признаков) в этом патенте?

Feature Vector — это математическое представление маршрута, используемое алгоритмами машинного обучения. Это набор числовых значений, где каждое значение соответствует определенному признаку маршрута (например, цена=500, продолжительность=180 минут, остановки=0). Эти векторы используются для сравнения маршрутов и их группировки в кластеры.

Есть ли польза от этого патента для SEO?

Для практического применения в ежедневной работе по SEO продвижению сайтов пользы нет. Патент полезен только для общего понимания того, как Google использует машинное обучение для улучшения пользовательского интерфейса в своих вертикальных продуктах. Это знание не поможет повысить позиции сайта в органической выдаче.