Как Google использует кластеризацию уточнений запросов для создания диалоговых подсказок и управления поисковым путем пользователя

Google анализирует журналы запросов, чтобы определить, как пользователи чаще всего уточняют широкие запросы. Система кластеризирует эти уточнения по темам (например, «кухня», «местоположение»), определяет наиболее разнообразную тему уточнения и предлагает пользователю диалоговую подсказку («Какую кухню вы предпочитаете?»), чтобы быстро сузить результаты поиска в формате диалога.

Описание

Какую задачу решает

Патент решает проблему неэффективности поиска по широким или неоднозначным запросам, когда пользователю приходится вручную вводить последующие уточняющие запросы. Этот процесс требует усилий и времени, особенно на мобильных устройствах или при использовании голосового ввода (spoken queries), где методы ввода ограничены. Изобретение направлено на создание более плавного, интуитивного и разговорного взаимодействия с поисковой системой (Conversational Search).

Что запатентовано

Запатентована система для проактивного генерирования тематических подсказок (Topic Prompts) путем анализа исторических данных поиска (Query Logs). Система определяет доминирующие пути уточнения (refinement paths), кластеризирует исторические уточнения по темам (Refinement Clusters), ранжирует эти кластеры и генерирует диалоговую подсказку для ведения интерактивного диалога с целью быстрого сужения области поиска.

Как это работает

Ключевой механизм работы системы:

Анализ логов: Система анализирует последовательности запросов в Query Logs, чтобы понять, как пользователи исторически уточняли исходный запрос (Q1).
Кластеризация уточнений: Уточнения (Query Refinements) группируются в кластеры по темам (например, «цена», «бренд»). Ключевое условие: тема должна отсутствовать в Q1.
Ранжирование кластеров: Кластеры оцениваются. Согласно патенту (Claim 1), оценка основана на количестве уникальных n-грамм (разнообразия подтем), связанных с темой кластера.
Генерация подсказки: Для кластера с наивысшим рейтингом создается Topic Prompt (например, «Какую кухню вы ищете?»).
Диалог и Итерация: Подсказка предоставляется пользователю. Его ответ используется для уточнения Q1. Процесс может повторяться для следующего по популярности кластера (последовательное уточнение).

Актуальность для SEO

Высокая. Патент описывает фундаментальные механизмы, лежащие в основе современных диалоговых поисковых интерфейсов, голосового поиска и ассистентов (например, Google Assistant). В условиях роста мобильного и голосового поиска возможность быстро и интуитивно уточнять запросы является критически важной функцией.

Важность для SEO

Влияние на SEO высокое (85/100). Хотя патент не описывает алгоритмы ранжирования контента, он напрямую влияет на Понимание Запросов (Query Understanding) и управление поисковым путем пользователя (Search Journey). Он определяет, какие атрибуты (фасеты) Google считает наиболее важными для конкретного класса запросов. Понимание этих доминирующих путей уточнения критически важно для разработки эффективной информационной архитектуры и контент-стратегии.

Детальный разбор

Термины и определения

Cluster Scoring System (Система оценки кластеров): Компонент, рассчитывающий числовую оценку для каждого Refinement Cluster, чтобы определить наиболее приоритетную тему для уточнения.
N-gram (N-грамма): Последовательность из N элементов в тексте. Используется для идентификации тем и подтем (значений атрибутов) в уточняющих запросах (например, «итальянский», «возле центра»).
Query Logs (Журналы запросов): Исторические данные о последовательностях запросов пользователей в рамках сессий.
Query Refinement (Уточнение запроса): Последующий запрос, который сужает область поиска исходного запроса.
Refinement Cluster (Кластер уточнений): Группа Query Refinements, объединенных общей темой (Topic).
Refinement Generator (Генератор уточнений): Компонент, который идентифицирует исторические уточнения и группирует их в кластеры.
Topic (Тема): Атрибут или фасет, используемый для уточнения (например, «Кухня», «Локация», «Цена»).
Topic Prompt (Тематическая подсказка): Сгенерированный системой вопрос или предложение, побуждающее пользователя выбрать уточнение из определенной темы (например, «Какую кухню вы предпочитаете?»). Может быть представлен текстом или голосом (Digital representation of speech).
Unique N-grams (Уникальные N-граммы): Различные варианты уточнений внутри кластера. Их количество используется как ключевой показатель для оценки кластера согласно Claim 1.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной механизм системы, включая генерацию, оценку и взаимодействие.

Система определяет уточнения (Query Refinements) для первого запроса (Q1).
Генерируются кластеры уточнений (Refinement Clusters). Ключевое ограничение 1: Тема (Topic) кластера должна присутствовать в запросах внутри кластера, но отсутствовать в исходном запросе Q1.
Оценка кластеров. Ключевое ограничение 2 (Метод оценки): Оценка основана на количестве уникальных n-grams, связанных с темой кластера. Каждая уникальная n-грамма считается один раз. Это оценка разнообразия (Diversity), а не объема.
Кластеры ранжируются по этим оценкам.
Выбирается кластер с наивысшим рангом (First Search Refinement Cluster).
Генерируется первая тематическая подсказка (Topic Prompt) в виде вопроса, запрашивающего подтему (sub-topic).
Онлайн-взаимодействие:
- Получение Q1 в рамках сессии.
- Предоставление подсказки.
- Получение ответа пользователя (конкретной n-граммы). Ключевое ограничение 3: Ответ должен быть получен сразу после Q1, без промежуточных вводов пользователя (without other intervening user input) в этой сессии.
- Предоставление результатов поиска, релевантных Q1 и полученной n-грамме.

Claim 4 (Зависимый от 1): Вводит контроль качества и уверенности.

Выбор кластера происходит только в том случае, если его оценка превышает определенное пороговое значение (threshold value). Это гарантирует статистическую значимость пути уточнения.

Claim 5 (Зависимый от 1): Описывает механизм последовательных подсказок (Sequential Prompting / Multi-turn dialogue).

После первого ответа система может предоставить вторую подсказку (Second Topic Prompt). Эта вторая подсказка выбирается одним из двух способов:

(i) На основе второго по рангу кластера для исходного запроса Q1.
(ii) На основе кластера с наивысшим рангом для нового комбинированного запроса (Q1 + первый ответ).

Это позволяет вести итеративный диалог для сужения поиска.

Где и как применяется

Изобретение затрагивает этапы понимания запросов и взаимодействия с пользователем, опираясь на предварительную обработку данных.

INDEXING / QUNDERSTANDING (Офлайн-процессы)
Основная аналитическая работа происходит офлайн. Система анализирует Query Logs и Selection Logs (Search History Data) для идентификации шаблонов поведения. Компоненты Refinement Generator и Cluster Scoring System предварительно вычисляют Refinement Clusters и их оценки для популярных запросов или шаблонов запросов (например, патент упоминает шаблон «restaurants in <city>» в §3.1).

QUNDERSTANDING (Онлайн)
В реальном времени система определяет, соответствует ли входящий запрос шаблону, для которого вычислены кластеры уточнений. Система управляет диалогом: генерирует Topic Prompt и интерпретирует ответ.

METASEARCH / RERANKING (Онлайн-взаимодействие)
Система генерирует и предоставляет Topic Prompt пользователю (визуально на SERP или голосом). После получения ответа система выполняет новый поиск или переранжирование на основе уточненного запроса.

Входные данные:

Исходный запрос пользователя (Q1).
Query Logs и Selection Logs (используются офлайн).
Предварительно вычисленные Refinement Clusters и их оценки.
Ответы пользователя на Topic Prompts.

Выходные данные:

Topic Prompt (текст или синтезированная речь).
Уточненные результаты поиска.

На что влияет

Специфические запросы: Наибольшее влияние на широкие (broad) или «head» запросы, где намерение пользователя требует уточнения (например, «ноутбуки», «рестораны», «отели»).
Конкретные ниши или тематики: Особенно сильно влияет на E-commerce, локальный поиск (Local Search) и путешествия (Travel), где продукты и услуги имеют четкие атрибуты (фасеты), используемые для фильтрации.
Форматы взаимодействия: Критически важно для голосового поиска и диалоговых ассистентов.

Когда применяется

Триггеры активации: Когда система распознает входящий запрос как соответствующий запросу или шаблону, для которого существует предварительно вычисленный высокоранжированный Refinement Cluster.
Пороговые значения: Применяется, если оценка лучшего кластера превышает определенный порог (Threshold Value), что указывает на высокую вероятность полезности уточнения (Claim 4).
Условия: Тема уточнения не должна присутствовать в исходном запросе (Claim 1).

Пошаговый алгоритм

Процесс А: Офлайн-подготовка (Предварительные вычисления)

Идентификация кандидатов: Выбор частотных запросов (Q1) или шаблонов из Query Logs.
Сбор уточнений: Идентификация Query Refinements – запросов, которые пользователи вводили после Q1 (или похожих запросов) в рамках одной сессии.
Генерация кластеров: Группировка уточнений в Refinement Clusters на основе общих тем (Topics). Применение фильтра: исключение тем, которые уже присутствуют в Q1.
Оценка кластеров (Diversity Scoring): Расчет оценки для каждого кластера на основе количества уникальных n-grams (разнообразия подтем), связанных с темой кластера.
Ранжирование и Фильтрация: Ранжирование кластеров и проверка превышения порогового значения.
Сохранение: Сохранение связи между Q1 и лучшими Refinement Clusters.

Процесс Б: Онлайн-обработка (Реальное время)

Получение запроса: Система получает запрос от пользователя.
Сопоставление и Генерация подсказки: Если запрос соответствует Q1 и порог превышен, система генерирует Topic Prompt на основе лучшего кластера.
Предоставление подсказки: Система предоставляет подсказку пользователю.
Получение ответа: Система получает ответ пользователя (выбранную n-грамму) без промежуточных вводов.
Уточнение и Ранжирование: Генерация нового запроса (Q1 + ответ) и предоставление результатов.
Итерация (Последовательное уточнение): Если существует следующий релевантный кластер (определяется по Claim 5), система может предоставить вторую подсказку (возврат к шагу 3).

Какие данные и как использует

Данные на входе

Поведенческие факторы: Это основа изобретения. Используются Query Logs (анализ последовательностей запросов в сессиях) и Selection Logs. Эти данные позволяют системе определить, как пользователи исторически уточняли конкретные запросы.
Контентные факторы (Текст запросов): Анализ текста запросов (n-grams) для определения тем и выполнения кластеризации.
Пользовательские и Географические факторы (Опционально): В описании патента (§3.1) упоминается возможность использования истории поиска пользователя и его местоположения для персонализации оценки и ранжирования кластеров (повышение веса релевантных уточнений).

Какие метрики используются и как они считаются

Оценка кластера (Cluster Score): Основная метрика для ранжирования тем. Согласно Claim 1, она рассчитывается на основе количества уникальных n-грамм (quantity of unique n-grams), связанных с темой кластера. Например, если тема «Кухня», а уникальные уточнения были «Итальянская», «Французская», «Японская», то Оценка = 3.
Threshold Value (Пороговое значение): Минимальная оценка, которую должен иметь кластер, чтобы активировать генерацию Topic Prompt.
Уровень схожести (Level of similarity): Метрика для определения схожих запросов при офлайн-анализе (например, соответствие шаблону запроса «restaurants in <city>»).

Выводы

Определение Доминирующих Путей Уточнения: Google активно идентифицирует и ранжирует наиболее популярные пути уточнения (Refinement Paths) для широких запросов, стремясь направить пользователя по наиболее вероятному пути.
Приоритет Разнообразия над Объемом (Уникальные N-граммы): Критически важный вывод из Claim 1: при выборе темы для уточнения система ценит разнообразие подтем (количество уникальных n-грамм) выше, чем общую частоту использования этой темы. Это позволяет выявить наиболее значимые фасеты.
Поиск как Диалог (Conversational Search): Патент описывает конкретный механизм для ведения диалога с пользователем (Sequential Prompting, Claim 5), позволяя итеративно сужать поиск по разным фасетам.
Фокус на Новых Атрибутах: Система предлагает уточнения только по тем темам, которые еще не были указаны в исходном запросе (Claim 1), стремясь заполнить пробелы в информации.
Зависимость от Агрегированного Поведения: Система полностью полагается на Query Logs. То, как большинство пользователей уточняет запрос, определяет, какие подсказки будут предложены.
Фильтрация по Порогу Уверенности: Механизм активируется только тогда, когда система уверена в полезности промпта (оценка кластера выше порога), минимизируя ненужные вопросы.

Практика

Best practices (это мы делаем)

Анализ доминирующих путей уточнения (Refinement Paths): Необходимо изучать, как пользователи уточняют запросы в вашей тематике (используя подсказки, PAA, динамические фильтры в SERP). Это позволит понять, какие Topics (фасеты) Google считает приоритетными.
Проектирование Информационной Архитектуры (IA) под пути уточнения: Структура сайта (категории, фасетная навигация) должна зеркально отражать эти доминирующие пути. Если пользователи ищут «Ноутбуки» и уточняют по «Бренду», а затем по «Размеру экрана», IA должна поддерживать эту иерархию.
Развитие глубины и разнообразия тем (Topical Diversity): Поскольку кластеры оцениваются по разнообразию (Unique N-grams), важно покрывать тему всесторонне. Обеспечьте наличие контента или фильтров для максимального количества релевантных атрибутов (брендов, размеров, типов и т.д.).
Оптимизация под уточненные запросы (Mid/Long-tail): Фокусируйтесь на оптимизации контента под конкретные интенты, которые являются результатом диалогового уточнения (например, «французские рестораны в центре»).
Использование структурированных данных (Schema.org): Размечайте ключевые атрибуты (фасеты). Это помогает поисковой системе лучше понять контент и его релевантность для уточненных запросов, когда пользователь отвечает на Topic Prompt.

Worst practices (это делать не надо)

Фокус только на широких (Head) запросах: Игнорирование атрибутов и фасетов. Если Google предлагает пользователю сузить поиск, сайт, оптимизированный только под общий запрос, потеряет релевантность на следующем шаге.
Игнорирование фасетной навигации и атрибутов: Отсутствие четкой структуры и проработки атрибутов продукта или услуги затрудняет Google понимание того, каким уточняющим запросам соответствует ваш контент.
Поверхностное покрытие темы: Недостаточное разнообразие в покрытии темы означает, что вы не сможете захватить трафик от разнообразных уточнений, которые Google предлагает пользователям.

Стратегическое значение

Патент подтверждает стратегический переход Google к управлению поисковым путешествием пользователя (Search Journey Management) и развитию диалоговых интерфейсов. Google не ждет идеального запроса, а проактивно ведет пользователя по эффективному пути. Долгосрочная SEO-стратегия должна фокусироваться на полном покрытии этого пути, выстраивая структуру и контент вокруг ключевых фасетов (Topics) ниши, и учитывать, что разнообразие (Diversity) является ключевым фактором в выборе направления уточнения.

Практические примеры

Сценарий: Оптимизация интернет-магазина электроники

Исходный запрос (Q1): «Купить телевизор».
Анализ Google (Офлайн): Google определяет, что пользователи чаще всего уточняют по бренду (Topic 1: Brand), а затем по размеру диагонали (Topic 2: Screen Size). Кластер «Brand» имеет больше уникальных n-грамм и получает наивысшую оценку.
Взаимодействие (Онлайн): Google предлагает Topic Prompt: «Телевизор какого бренда вы ищете?».
Действие SEO-специалиста (Этап 1): Убедиться, что главная категория «Телевизоры» содержит ссылки на все ключевые бренды и что существуют оптимизированные страницы брендовых категорий (например, «Телевизоры Samsung»).
Следующий шаг (Sequential Prompting): Пользователь отвечает «Samsung». Новый запрос: «Купить телевизор Samsung». Google определяет (по Claim 5), что теперь лучший кластер – «Screen Size». Подсказка: «Какой размер диагонали?».
Действие SEO-специалиста (Этап 2): Убедиться, что на странице «Телевизоры Samsung» реализована удобная фильтрация или подкатегории по размерам диагонали.
Результат: Сайт соответствует ожидаемому пути пользователя, повышая релевантность на каждом этапе воронки.

Вопросы и ответы

Как система определяет, какие темы (Topics) являются наиболее важными для уточнения запроса?

Система анализирует исторические данные из Query Logs. Уточнения группируются в кластеры по темам. Согласно Claim 1, эти кластеры ранжируются на основе количества уникальных n-grams (подтем), связанных с этой темой. Тема с наибольшим разнообразием вариантов уточнения считается наиболее важной.

Что означает оценка по «уникальным n-граммам»? Разве не важнее частота использования?

Патент делает акцент на разнообразии (Diversity), а не на объеме (Volume). Если миллион человек уточнили запрос словом «дешевый» (1 уникальная n-грамма), а 100 человек уточнили запрос, используя 10 разных брендов (10 уникальных n-грамм), система отдаст приоритет теме «Бренд». Это позволяет выявить наиболее полезный фасет для выбора.

Что означает ограничение, что тема кластера не должна присутствовать в исходном запросе?

Это ключевой фильтр (Claim 1), гарантирующий, что система предлагает только те уточнения, которые добавляют новую информацию. Если пользователь ввел «Итальянские рестораны», система не будет предлагать уточнить кухню, так как она уже указана. Вместо этого она предложит следующую по популярности тему, например, «Местоположение».

Влияет ли этот патент на ранжирование моего сайта напрямую?

Патент не описывает алгоритм ранжирования контента. Однако он описывает, как Google управляет путем пользователя и какой финальный запрос будет использован для поиска. Ваш сайт должен быть оптимизирован и хорошо ранжироваться именно по этому финальному, уточненному запросу, чтобы получить трафик.

Что такое последовательное уточнение (Sequential Prompting), описанное в Claim 5?

Это механизм ведения многошагового диалога. После того как пользователь ответил на первую подсказку (например, выбрал бренд), система тут же предлагает следующую подсказку (например, спрашивает о размере). Система динамически выбирает следующий вопрос, чтобы максимально эффективно сузить область поиска.

Как SEO-специалист может использовать это для улучшения информационной архитектуры (IA) сайта?

Необходимо определить доминирующие пути уточнения в вашей нише. Информационная архитектура (категории, подкатегории, фасетная навигация) должна зеркально отражать эти пути в порядке их приоритета (определенного Google). Это поможет сайту быть релевантным на всех этапах поискового путешествия пользователя.

Как этот патент связан с голосовым поиском и Google Assistant?

Он имеет критическое значение. В условиях голосового ввода ручное уточнение запросов затруднено. Механизм Topic Prompt позволяет вести естественный диалог с ассистентом для быстрого сужения области поиска, что является фундаментальной технологией для диалоговых систем.

Может ли система генерировать подсказки для редких или новых запросов?

Да. Патент (§3.1) описывает возможность использования данных из похожих запросов или «шаблонов базовых запросов» (base query patterns), например, «restaurants in <city>». Система может вычислить кластеры уточнений для шаблона в целом и применять их к любому новому запросу, соответствующему шаблону.

Использует ли система персонализацию при выборе подсказок?

Да, в описании патента (§3.1) упоминается такая возможность. Система может использовать историю поиска пользователя или его местоположение для корректировки оценки кластеров. Например, если пользователь часто ищет определенный бренд, система может повысить приоритет подсказки, связанной с этим брендом.

Что происходит, если оценка кластера не превышает пороговое значение (Threshold Value)?

Если ни один из кластеров уточнений не достигает порогового значения (Claim 4), это означает, что нет статистически значимого доминирующего пути уточнения. В этом случае система не будет генерировать Topic Prompt и предоставит стандартные результаты поиска.