Как Google использует машинное обучение и поведенческие данные (Long Clicks) для оценки качества альтернативных запросов

Google использует систему машинного обучения для оценки качества предлагаемых альтернативных запросов. Система анализирует исторические данные о поведении пользователей, используя «длинные клики» (Long Clicks) как индикатор удовлетворенности. На основе этого анализа модель предсказывает вероятность успеха (Confidence Measure) для каждой предложенной ревизии запроса, что позволяет выбирать и ранжировать наиболее полезные варианты.

Описание

Какую задачу решает

Патент решает проблему выбора наилучших альтернативных запросов (suggested alternative queries) из множества вариантов, сгенерированных различными стратегиями. Пользователи часто испытывают трудности с формулированием точных запросов. Система предлагает механизм для автоматической и эмпирической проверки (валидации) предложенных альтернатив, чтобы определить, какие из них действительно удовлетворяют информационную потребность пользователя, вместо того чтобы полагаться на статические или эвристические правила.

Что запатентовано

Запатентована архитектура для генерации и эмпирической валидации альтернативных запросов. Ядром изобретения является Reviser Confidence Estimator. Этот компонент использует предиктивную модель (Predictive Model), обученную на исторических данных о поведении пользователей. Модель анализирует различные признаки (Features) исходного и альтернативного запросов и предсказывает вероятность успеха альтернативы. Успех измеряется через удовлетворенность пользователя, для которой в качестве прокси-метрики используются «длинные клики» (Long Clicks).

Как это работает

Система работает в двух режимах: офлайн (обучение) и онлайн (применение).

Офлайн: Система отслеживает и логирует (Log Files) запросы, предложенные альтернативы, клики и их длительность. Long Click (например, более 60 секунд) используется как индикатор успеха. Reviser Confidence Estimator обучает Predictive Model (например, логистическую регрессию) предсказывать вероятность Long Click на основе различных признаков запросов.
Онлайн: Когда пользователь вводит запрос, различные модули (Query Revisers) генерируют кандидатов. Reviser Confidence Estimator применяет обученную модель для расчета оценки уверенности (Confidence Measure). На основе этих оценок система ранжирует альтернативы и решает, какие из них показать пользователю и насколько заметно.

Актуальность для SEO

Высокая. Описанные принципы — использование машинного обучения на основе поведенческих сигналов для валидации элементов поиска и понимания запросов — являются фундаментальными для современных поисковых систем. Метрики удовлетворенности пользователя (аналогичные Long Clicks) по-прежнему активно используются для улучшения качества поиска, включая блоки «Похожие запросы».

Важность для SEO

Влияние на SEO значительное (8/10). Хотя патент не описывает алгоритмы ранжирования контента, он раскрывает критически важный механизм валидации понимания запросов. Он подтверждает, что Google использует поведенческие метрики (Long Clicks) как эталон удовлетворенности для обучения ML-моделей. Это подчеркивает стратегическую важность оптимизации под интент пользователя и обеспечения высокого уровня вовлеченности (Dwell Time) на сайте.

Детальный разбор

Термины и определения

Confidence Measure (Оценка уверенности): Метрика, предсказывающая вероятность того, что альтернативный запрос является успешным (т.е. приведет к Long Click). Рассчитывается с помощью Predictive Model.
Features (Признаки): Различные характеристики исходного и альтернативного запросов, используемые предиктивной моделью (например, длина запроса, тематический кластер, количество результатов).
Long Click (Длинный клик): Клик по результату, после которого пользователь остается на странице в течение определенного минимального времени (например, 60 секунд). Используется как основной сигнал удовлетворенности пользователя и целевая переменная для обучения модели.
Predictive Model (Предиктивная модель): Модель машинного обучения (например, множественная логистическая регрессия), обученная предсказывать вероятность Long Click на основе Features.
Query Reviser (Модуль пересмотра запросов): Компонент, реализующий определенную стратегию генерации альтернативных запросов. Упомянуты: Broadening, Syntactical, Refinement, Session-Based.
Reviser Confidence Estimator (Оценщик уверенности): Ключевой компонент, который анализирует логи поведения и применяет Predictive Model для расчета Confidence Measure.
Revision Server (Сервер пересмотра): Компонент, который координирует работу Query Revisers и Confidence Estimator, выбирает и ранжирует лучшие альтернативные запросы, применяя фильтры (например, разнообразие результатов).
Session Tracker (Трекер сессий): Компонент, отслеживающий поведение пользователя (клики, длительность) и сохраняющий данные в Log Files.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методе эмпирической валидации альтернативных запросов.

Claim 1 (Независимый пункт): Описывает основной метод повышения вероятности успеха предлагаемых альтернативных запросов.

Ведение лог-файлов (Log Files) кликов пользователей по альтернативным запросам.
Генерация предиктивной модели (Predictive Model) с использованием этих логов для оценки вероятности успеха альтернативных запросов.
Применение исходного и альтернативных запросов к модели для получения оценок (Scores / Confidence Measures).

Claim 2 (Зависимый): Уточняет, что лог-файлы содержат признаки (Features) запросов, и модель генерирует набор правил, используя эти признаки.

Claims 3 и 4 (Зависимые): Перечисляют конкретные примеры Features. Для исходного запроса: текст, длина, тематический кластер (Topic Cluster), IR-оценка, количество результатов. Для альтернативного запроса: те же признаки плюс ID стратегии ревизии, IR-оценка топового результата, продолжительность клика по ссылке и результатам.

Claim 5 (Зависимый): Детализирует процесс генерации модели: выбор Features, сбор данных о кликах, формулирование правила и добавление его в модель.

Claims 7 и 8 (Зависимые): Ключевое уточнение о метрике успеха. Данные о кликах включают данные о длительности клика (click length data). Это подтверждает использование Long Clicks (Dwell Time) как сигнала для обучения.

Claims 9 и 10 (Зависимые): Указывают, что полученные оценки служат в качестве Confidence Measures для ранжирования и сортировки альтернативных запросов.

Где и как применяется

Изобретение является частью инфраструктуры понимания запросов и формирования выдачи.

QUNDERSTANDING – Понимание Запросов (Основное применение)
На этом этапе система генерирует потенциальные альтернативные запросы с помощью Query Revisers. Reviser Confidence Estimator применяется здесь для валидации и оценки этих альтернатив с помощью Predictive Model.

INDEXING / Фоновые процессы (Офлайн)
Reviser Confidence Estimator анализирует Log Files в офлайн-режиме для обучения Predictive Model. Также на этапе индексирования могут рассчитываться некоторые признаки, например, Topic Clusters.

RERANKING / METASEARCH – Переранжирование и Метапоиск
На финальном этапе формирования SERP Revision Server использует рассчитанные Confidence Measures для принятия решения о том, какие альтернативные запросы показать, в каком порядке и насколько заметно (видимость на SERP).

Входные данные:

Исходный запрос и его Features.
Набор альтернативных запросов и их Features.
(Офлайн) Логи поведения пользователей (Log Files).

Выходные данные:

Confidence Measure для каждого альтернативного запроса.
Отсортированный список лучших альтернативных запросов для SERP.

На что влияет

Компоненты SERP: Напрямую влияет на формирование и качество блоков «Похожие запросы» (Related Searches) и, возможно, других предложений (Autocomplete, PAA).
Специфические запросы: Наибольшее влияние на неоднозначные, слишком широкие или слишком узкие запросы, где пользователю требуется помощь в переформулировании.

Когда применяется

Условия применения: Алгоритм оценки применяется каждый раз, когда генерируются потенциальные альтернативные запросы.
Триггеры и пороги: Показ альтернатив зависит от пороговых значений Confidence Measure. Патент описывает возможность динамического определения видимости:
- Высокая уверенность: Показ на заметной позиции (например, вверху SERP).
- Средняя уверенность: Показ в менее заметном месте (например, внизу SERP).
- Низкая уверенность (ниже порога): Альтернативы не показываются.

Пошаговый алгоритм

Процесс разделен на офлайн-обучение и онлайн-оценку.

Этап А: Офлайн (Обучение Predictive Model)

Сбор данных: Session Tracker непрерывно собирает данные о сессиях: исходные запросы, показанные альтернативы, клики и длительность кликов. Данные сохраняются в Log Files.
Извлечение признаков (Feature Extraction): Извлекаются Features для исходных и альтернативных запросов.
Определение успеха: Альтернативные запросы маркируются как успешные, если они привели к Long Click (превышение порога времени, например, 60 секунд).
Обучение модели: Reviser Confidence Estimator обучает Predictive Model (например, логистическую регрессию) предсказывать вероятность Long Click на основе извлеченных Features.

Этап Б: Онлайн (Оценка в реальном времени)

Получение запроса: Система получает запрос от пользователя.
Генерация ревизий: Revision Server запрашивает альтернативы у различных Query Revisers (Broadening, Syntactical, Refinement, Session-Based).
Извлечение признаков: Для исходного и альтернативных запросов извлекаются Features.
Оценка уверенности: Reviser Confidence Estimator применяет обученную Predictive Model для расчета Confidence Measure для каждой альтернативы.
Выбор и ранжирование: Revision Server сортирует альтернативы по Confidence Measure и применяет фильтры. В патенте упоминаются фильтры: минимальное количество результатов и разнообразие (требование наличия «новых» результатов, отличных от исходной выдачи).
Презентация: Система определяет формат и место отображения выбранных альтернатив на основе пороговых значений Confidence Measure.

Какие данные и как использует

Данные на входе

Патент детально описывает признаки (Features), используемые предиктивной моделью.

Поведенческие факторы (Ключевые для обучения):

Длительность клика (length of click) по ссылке на альтернативный запрос.
Длительность клика на результаты поиска по альтернативному запросу (используется для определения Long Click).

Признаки исходного запроса:

Текст запроса и слова в нем.
Длина запроса.
Тематический кластер (Topic Cluster).
Оценка информационного поиска (Information Retrieval Score).
Количество результатов.

Признаки альтернативного запроса:

Текст запроса и слова в нем.
Длина запроса.
Тематический кластер (Topic Cluster).
Идентификатор стратегии пересмотра (Revision Technique ID).
IR Score (например, PageRank) для топового результата.
Количество результатов.

Какие метрики используются и как они считаются

Long Click (Длинный клик): Целевая метрика для обучения. Определяется как клик с длительностью выше порога (например, 60 секунд). Служит индикатором удовлетворенности.
Confidence Measure (Оценка уверенности): Выходная метрика модели. Представляет собой расчетную вероятность того, что альтернативный запрос приведет к Long Click.
Алгоритмы машинного обучения: Используется Predictive Model. В патенте упоминается множественная логистическая регрессия (multiple, logical regression model).
Expected Utility (Ожидаемая полезность): Упоминается в контексте Session-Based Reviser. Рассчитывается как произведение частоты пары запросов на улучшение качества второго запроса (основанного на длительности кликов) по сравнению с первым.

Выводы

Эмпирическая валидация как основа: Google использует строгий эмпирический подход, основанный на реальном поведении пользователей, для оценки и выбора альтернативных запросов, а не полагается на эвристики или теоретические модели.
«Длинный клик» (Dwell Time) как эталон успеха: Патент явно определяет Long Click как основной сигнал удовлетворенности пользователя (Success Metric). Это поведение используется как «ground truth» (эталон истины) для обучения моделей машинного обучения.
Использование ML для прогнозирования удовлетворенности: Система использует сложные ML-модели (например, логистическую регрессию) для предсказания успеха, анализируя множество признаков (Features) запросов и контекста.
Комплексный анализ признаков: Для прогнозирования используются разнообразные Features: лингвистические, структурные (длина), семантические (Topic Cluster), системные (IR-оценки, количество результатов) и поведенческие.
Динамическая видимость предложений: Confidence Measure определяет не только ранжирование альтернативных запросов, но и их видимость на SERP — от полного скрытия до очень заметного отображения вверху страницы.

Практика

Best practices (это мы делаем)

Оптимизация под вовлеченность и удовлетворенность (Long Clicks): Ключевая стратегия. Необходимо создавать контент, который полностью удовлетворяет интент запроса, удерживая пользователя на странице и предотвращая быстрый возврат к выдаче (pogo-sticking). Поскольку Long Click является индикатором успеха для обучения ML-моделей Google, это критично для подтверждения релевантности вашего контента.
Анализ «Связанных запросов» как валидированных интентов: Предложения в блоках типа «Related Searches» прошли эмпирическую проверку системой, описанной в патенте (имеют высокий Confidence Measure). Их анализ позволяет понять успешные пути пользователей и выявить интенты, которые Google считает качественными. Используйте эти данные для контент-стратегии.
Построение тематического авторитета (Topical Authority): Так как Topic Cluster является одним из признаков (Features) в модели, важно развивать сайт в рамках определенной тематики. Это помогает системе ассоциировать контент сайта с релевантными семантическими кластерами запросов.

Worst practices (это делать не надо)

Использование кликбейта и поверхностного контента: Стратегии, направленные на привлечение клика, но не удовлетворяющие интент, приводят к коротким кликам. Это негативный сигнал для Predictive Model, который снижает оценку качества запросов, ведущих на сайт.
Игнорирование юзабилити и скорости загрузки: Факторы, которые мешают пользователю и способствуют быстрому уходу со страницы, негативно влияют на сигналы удовлетворенности (Long Clicks).

Стратегическое значение

Патент подтверждает критическую роль пост-клик поведения пользователей (вовлеченность, удовлетворенность) в системах Google. Он демонстрирует, как Google полагается на машинное обучение, обученное на реальных пользовательских данных, для улучшения понимания запросов. Долгосрочная SEO-стратегия должна быть направлена на обеспечение подлинной удовлетворенности пользователя, что напрямую коррелирует с метриками типа Long Click (Dwell Time).

Практические примеры

Сценарий: Валидация альтернативного запроса через Long Clicks

Исходный запрос (Qo): Пользователь ищет [sheets] (неоднозначный запрос: простыни, листы металла, таблицы).
Генерация альтернатив (Qr): Система предлагает [bed sheets] (постельное белье) и [metal sheets] (металлические листы).
Поведение пользователей:
- Пользователи, выбравшие [bed sheets], попадают на качественный гайд по выбору белья и проводят там 2 минуты (Long Click).
- Пользователи, выбравшие [metal sheets], попадают на страницу с плохой навигацией и возвращаются через 10 секунд (Short Click).
Обучение модели (Офлайн): Predictive Model анализирует логи. Она видит, что Qr=[bed sheets] часто приводит к Long Clicks, а Qr=[metal sheets] — к Short Clicks.
Применение (Онлайн): В следующий раз при запросе [sheets] модель присвоит [bed sheets] высокую Confidence Measure, а [metal sheets] — низкую. [bed sheets] будет показан выше в списке предложений.

Вопросы и ответы

Что такое «Long Click» (Длинный клик) и почему он важен в этом патенте?

Long Click — это поведенческая метрика, когда пользователь кликает на результат и не возвращается в поисковую выдачу в течение значительного времени (в патенте упоминается пример 60 секунд). В контексте этого патента Long Click используется как основной индикатор удовлетворенности пользователя и успеха альтернативного запроса. Это целевая переменная, которую учится предсказывать модель машинного обучения.

Доказывает ли этот патент, что Google использует Dwell Time или Pogo-sticking для ранжирования?

Патент доказывает, что Google использует Dwell Time (в виде Long Clicks) и Pogo-sticking (в виде Short Clicks) как данные для обучения ML-моделей, которые оценивают качество альтернативных запросов. Хотя это не прямое использование в основном алгоритме ранжирования, это подтверждает, что удовлетворенность пользователя является критически важным сигналом, используемым для улучшения систем поиска Google.

Какие признаки (Features) использует Google для предсказания успеха альтернативного запроса?

Патент перечисляет множество признаков для исходного и альтернативного запросов: текст и слова запросов, их длина, тематический кластер (Topic Cluster), количество результатов поиска, оценки информационного поиска (Information Retrieval Score, например, PageRank) топовых результатов, а также идентификатор стратегии, которая сгенерировала альтернативу.

Как SEO-специалист может использовать знания из этого патента на практике?

Основное применение — это фокус на достижении Long Click путем полного удовлетворения интента пользователя. Также необходимо анализировать блоки «Похожие запросы», так как они прошли эмпирическую валидацию (имеют высокий Confidence Measure) и представляют собой подтвержденные успешные пути пользователя, которые следует использовать для контент-стратегии.

Что такое «Predictive Model» и какой метод ML используется?

Это модель машинного обучения, обученная на исторических данных о кликах для предсказания вероятности Long Click на основе входных признаков (Features). В патенте в качестве примера реализации упоминается модель множественной логистической регрессии (multiple, logical regression model).

Всегда ли Google показывает блок «Похожие запросы»?

Нет. Отображение зависит от рассчитанного Confidence Measure. Если ни одна альтернатива не имеет достаточно высокой оценки уверенности, блок может быть не показан. Если уверенность очень высока, блок может быть показан в более заметном месте (например, вверху страницы).

Какие типы модулей ревизии запросов (Query Revisers) упоминаются в патенте?

Патент описывает архитектуру, поддерживающую различные типы модулей: Broadening Reviser (расширение запроса, синонимы), Syntactical Reviser (изменение синтаксиса, кавычки, стоп-слова), Refinement Reviser (уточнение, сужение запроса) и Session-Based Reviser (на основе анализа последовательностей запросов в логах).

Как система обеспечивает разнообразие предлагаемых альтернативных запросов?

Revision Server применяет фильтры после ранжирования по Confidence Measure. Один из ключевых критериев, описанных в патенте, — требование минимального количества «новых» результатов в топе альтернативного запроса, которые не присутствуют в выдаче исходного запроса или других уже выбранных альтернатив. Это гарантирует разнообразие (diversity).

Актуальна ли эта система сегодня?

Да, концепции крайне актуальны. Использование машинного обучения для понимания запросов и применение поведенческих сигналов (метрик вовлеченности, аналогичных Long Click) для оценки качества являются основой современных поисковых систем, таких как RankBrain и MUM.

Что такое «Expected Utility» (Ожидаемая полезность), упомянутая в патенте?

Это метрика, используемая específicamente Session-Based Reviser. Она рассчитывается как произведение частоты последовательной пары запросов (например, А затем Б) и улучшения качества запроса Б по сравнению с А. Улучшение качества определяется на основе анализа длительности кликов (например, по S-образной кривой: 60 секунд = 0.9 балла качества).