Как Google использует машинное обучение и поведение пользователей для выбора и оценки предлагаемых запросов (Related Searches)

Google использует архитектуру для генерации множества вариантов пересмотренных запросов (Related Searches). Патент описывает, как система оценивает качество этих вариантов с помощью предиктивных моделей, обученных на поведении пользователей (например, «длинные клики»), и данных сессий (частота переходов между запросами и улучшение качества), чтобы выбрать наиболее релевантные и полезные предложения.

Описание

Какую задачу решает

Патент решает проблему неэффективности универсальных стратегий пересмотра запросов. Пользователи часто испытывают трудности с формулированием точных запросов и меняют их в ходе поисковой сессии. Существующие методы (уточнение, расширение) не всегда подходят. Изобретение предлагает механизм для генерации разнообразных вариантов пересмотренных запросов и, что более важно, точную оценку того, какой из этих вариантов лучше всего соответствует информационным потребностям пользователя.

Что запатентовано

Запатентована система и метод для оценки и выбора пересмотренных запросов (revised queries), часто отображаемых как «Related Searches» или предлагаемые запросы. Система использует архитектуру, объединяющую несколько «ревизоров» (Query Revisers) с различными стратегиями (расширение, уточнение, на основе сессий и т.д.). Ключевым элементом является механизм оценки достоверности (confidence measure) для каждого предложенного варианта, основанный на предиктивных моделях машинного обучения и анализе данных пользовательских сессий.

Как это работает

Система работает путем интеграции нескольких стратегий генерации пересмотренных запросов. Когда пользователь вводит запрос, различные Query Revisers предлагают кандидатов. Для оценки этих кандидатов используются два основных механизма:

Expected Utility (для сессионных ревизий): Вычисляется как произведение частоты перехода от исходного запроса к пересмотренному (в исторических данных) на улучшение качества результатов (Quality Score), которое основано на удовлетворенности пользователей (например, длительности кликов).
Predictive Model (общий механизм): Используется обученная модель (например, логистическая регрессия), которая предсказывает вероятность «успешной ревизии» (определяемой как long click) на основе признаков исходного и пересмотренного запросов.

Revision Server использует эти оценки достоверности для фильтрации, ранжирования и выбора лучших вариантов для показа пользователю, а также для определения заметности этих предложений на SERP.

Актуальность для SEO

Высокая. Предложение связанных и уточняющих запросов (Related Searches, People Also Ask) является ключевой функцией современного поиска Google. Использование машинного обучения, анализа сессий и сигналов пользовательского поведения (таких как клики и время пребывания) для оценки релевантности и качества лежит в основе текущих поисковых систем.

Важность для SEO

Высокое (85/100). Патент напрямую описывает механизмы, которые Google использует для выбора и ранжирования предлагаемых запросов (Related Searches). Понимание этих механизмов критически важно для разработки стратегий расширения семантического охвата и оптимизации пути пользователя (user journey). Патент явно указывает на метрики удовлетворенности пользователя (long clicks и Quality Scores) как на основу для оценки качества запросов, что влияет на видимость сайта в блоках связанных запросов и подтверждает важность оптимизации под интент и поведение.

Детальный разбор

Термины и определения

Broadening Reviser (Расширяющий ревизор): Компонент, генерирующий пересмотренные запросы, которые шире по охвату, чем исходный. Стратегии включают добавление синонимов или удаление малозначимых терминов.
Confidence Measure (Мера достоверности): Оценка, представляющая вероятность того, что пересмотренный запрос является хорошей ревизией, т.е. лучше удовлетворит информационную потребность пользователя. Может быть основана на Expected Utility или выходе Predictive Model.
Expected Utility (Ожидаемая полезность): Метрика для оценки сессионных ревизий. Рассчитывается как произведение частоты встречаемости пары запросов (Frequency of Occurrence) на прирост качества (increase in quality) второго запроса по сравнению с первым.
Features (Признаки): Атрибуты исходного и пересмотренного запросов, используемые Predictive Model для оценки достоверности. Примеры: слова в запросе, длина запроса, тематический кластер, количество результатов.
Frequency of Occurrence (Частота встречаемости): Частота, с которой второй запрос следует за первым в данных пользовательских сессий.
Long Click (Длинный клик): Индикатор удовлетворенности пользователя. Клик на результат поиска, после которого пользователь остается на странице в течение определенного времени (например, 60 секунд). Используется как целевая переменная для обучения Predictive Model и расчета Quality Score.
Predictive Model (Предиктивная модель): Модель машинного обучения (например, логистическая регрессия), обученная предсказывать вероятность успешной ревизии (long click) на основе признаков запросов.
Quality Score (Оценка качества): Метрика качества запроса, основанная на оценке удовлетворенности пользователя по данным о кликах (например, длительности первого клика). В патенте упоминается использование S-образной кривой для преобразования длительности в оценку.
Query Pair (Пара запросов): Последовательность из двух запросов, встречающаяся в одной пользовательской сессии.
Query Revisers (Ревизоры запросов): Набор компонентов, каждый из которых реализует одну или несколько стратегий пересмотра запросов.
Refinement Reviser (Уточняющий ревизор): Компонент, генерирующий более узкие и специфичные запросы.
Revised Query (Пересмотренный запрос): Запрос, предложенный системой в качестве альтернативы или уточнения исходного запроса (например, Related Search).
Session-Based Reviser (Сессионный ревизор): Компонент, предлагающий ревизии на основе анализа того, как другие пользователи меняли свои запросы в прошлом. Использует метрику Expected Utility.

Ключевые утверждения (Анализ Claims)

Патент имеет два основных аспекта: архитектура для интеграции разных ревизоров (описана в Description) и методы оценки достоверности (защищены в Claims). Claims фокусируются на использовании машинного обучения для оценки достоверности.

Claim 1 (Независимый пункт): Описывает метод обучения и использования предиктивной модели для оценки пересмотра запросов.

Получение обучающих данных. Для каждого исходного запроса (Q1) данные включают: (i) Признаки Q1, (ii) Признаки пересмотренного запроса (Q2), сгенерированного ревизором, (iii) Метку, указывающую, является ли Q2 успешной ревизией Q1.
Обучение предиктивной модели (Predictive Model) с использованием этих данных для предсказания вероятности того, что данный Q2 является успешной ревизией данного Q1.
Применение модели во время выполнения: После получения конкретного Q1, (a) использование модели для предсказания вероятности успеха для конкретного Q2, и (b) принятие решения о том, следует ли отправить Q2 в поисковую систему на основе этой вероятности.

Claim 2 (Зависимый от 1): Уточняет, что вероятность успеха (успешная ревизия) определяется как вероятность того, что пользователь останется на странице, на которую он перешел по результату пересмотренного запроса (т.е. long click).

Claims 3-10 (Зависимые от 1): Перечисляют конкретные признаки (Features), которые могут использоваться моделью. К ним относятся: слова в Q1 и Q2, идентификатор техники ревизии, длительность клика на ссылку ревизии, длина Q1, тематический кластер Q1, оценка информационного поиска (IR score) для Q1, количество результатов для Q1.

Claim 12 и 13 (Зависимые от 1): Описывают ранжирование пересмотренных запросов на основе предсказанной вероятности (Confidence Measure) и выбор Топ-N лучших для показа пользователю.

Где и как применяется

Изобретение применяется на нескольких этапах поиска, интегрируя офлайн-анализ данных и онлайн-обработку запросов.

QUNDERSTANDING – Понимание Запросов (Офлайн)
На этом этапе происходит анализ логов поисковых сессий. Система вычисляет данные для Session-Based Reviser (частоты пар запросов, Quality Scores, Expected Utility). Также здесь происходит сбор обучающих данных (признаки запросов и метки успеха/long clicks) и обучение Predictive Model с помощью Reviser Confidence Estimator.

RANKING – Ранжирование
Поисковая система генерирует первоначальный набор результатов для исходного запроса.

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование (Онлайн)
Основное применение патента. Revision Server получает исходный запрос и активирует Query Revisers для генерации кандидатов. Затем он использует либо предварительно рассчитанные данные (например, Expected Utility), либо вызывает Reviser Confidence Estimator (Predictive Model) в реальном времени для получения Confidence Measures. На основе этих оценок происходит выбор, ранжирование и определение формата отображения пересмотренных запросов (например, в блоке Related Searches) на финальной странице выдачи.

Входные данные:

Исходный запрос (Q1).
Кандидаты пересмотренных запросов (Q2s) от ревизоров.
Признаки (Features) Q1 и Q2s (для предиктивной модели).
Исторические данные сессий и кликов (для расчета Expected Utility и обучения модели).

Выходные данные:

Отсортированный список выбранных пересмотренных запросов с их Confidence Measures.
Инструкции по отображению (например, заметность на SERP).

На что влияет

Специфические запросы: Наибольшее влияние на информационные и исследовательские запросы (exploratory queries), где пользователи часто нуждаются в помощи для уточнения или расширения темы. Меньшее влияние на чисто навигационные запросы.
Конкретные ниши или тематики: Влияет на все тематики, формируя путь пользователя и направляя трафик между связанными темами. Особенно заметно в сложных тематиках, где пользователи последовательно изучают разные аспекты.

Когда применяется

Условия применения: Алгоритмы генерации и оценки ревизий применяются динамически для большинства запросов.
Триггеры активации и пороговые значения: Отображение пересмотренных запросов активируется, если их Confidence Measure превышает определенный порог. Если достоверность низкая, ревизии могут не показываться. Если достоверность очень высокая, они могут отображаться более заметно (например, вверху страницы).
Критерии отбора: Revision Server применяет дополнительные фильтры: минимальное количество результатов для ревизии и минимальное количество «новых» результатов (обеспечение разнообразия по сравнению с исходной выдачей).

Пошаговый алгоритм

Патент описывает два взаимосвязанных процесса оценки достоверности.

Процесс А: Оценка с помощью Предиктивной Модели (Основной процесс, описанный в Claims)

Сбор данных (Офлайн): Сбор признаков исходных и пересмотренных запросов из логов, а также меток успеха (основанных на long clicks).
Обучение модели (Офлайн): Обучение Predictive Model (например, логистической регрессии) для предсказания вероятности long click на основе признаков.
Генерация кандидатов (Онлайн): Получение исходного запроса Q1 и генерация кандидатов Q2 с помощью различных Query Revisers.
Извлечение признаков (Онлайн): Извлечение признаков для пар (Q1, Q2).
Оценка достоверности (Онлайн): Применение Predictive Model к признакам для получения Confidence Measure (вероятности успеха).
Фильтрация и Ранжирование (Онлайн): Ранжирование кандидатов по Confidence Measure. Фильтрация по критериям разнообразия и минимального количества результатов. Выбор Топ-N.
Определение отображения (Онлайн): Определение заметности отображения на SERP на основе максимального Confidence Measure.

Процесс Б: Расчет Expected Utility (для Session-Based Reviser)

Анализ сессий (Офлайн): Анализ логов для выявления пар запросов (Q1, Q2), где Q2 следует за Q1.
Расчет частоты (Офлайн): Вычисление Frequency of Occurrence для каждой пары. Фильтрация пар с частотой ниже порога (например, 1%).
Расчет качества (Офлайн): Вычисление Quality Score для Q1 и Q2 на основе исторических данных о длительности кликов (long clicks).
Расчет полезности (Офлайн): Вычисление Expected Utility = Frequency * (Quality(Q2) — Quality(Q1)).
Фильтрация по полезности (Офлайн): Фильтрация пар с Expected Utility ниже порога (например, 0.02).
Применение (Онлайн): При получении Q1, Session-Based Reviser предлагает соответствующие Q2, используя Expected Utility в качестве Confidence Measure.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важны.
- Логи сессий: Последовательности запросов (Query Pairs), используемые для расчета частоты переходов.
- Данные о кликах: Какие результаты были нажаты.
- Длительность кликов: Время между кликом на результат и следующим действием. Используется для определения long clicks, расчета Quality Scores и обучения Predictive Model.
Контентные/Системные факторы (Признаки для модели):
- Слова в исходном (Q1) и пересмотренном (Q2) запросах.
- Длина запросов Q1 и Q2.
- Тематические кластеры (topic cluster) Q1 и Q2.
- Оценка информационного поиска (information retrieval score, например, PageRank) для топовых результатов Q1 и Q2.
- Количество результатов для Q1 и Q2.
Метаданные: Идентификатор стратегии ревизии, которая сгенерировала Q2.

Какие метрики используются и как они считаются

Quality Score: Оценка удовлетворенности пользователя запросом. Рассчитывается на основе длительности кликов на результаты. Упоминается применение S-образной кривой к длительности: например, 20 сек = 0.1, 40 сек = 0.5, 60 сек = 0.9. Нулевой клик = 0.
Frequency of Occurrence: Частота пары (Q1->Q2) / Частота Q1.
Expected Utility: Frequency of Occurrence * (Quality Score(Q2) — Quality Score(Q1)).
Confidence Measure (Выход модели): Предсказанная вероятность успешной ревизии (вероятность long click), вычисленная Predictive Model.
Пороги фильтрации: Минимальная частота (например, 1%), минимальная ожидаемая полезность (например, 0.02), минимальное количество результатов, минимальное количество «новых» результатов (для разнообразия).
Алгоритмы машинного обучения: Упоминается модель множественной логистической регрессии (multiple, logical regression model) для Predictive Model.

Выводы

Поведение пользователя как источник истины: Патент демонстрирует, что Google в значительной степени полагается на данные сессий и метрики удовлетворенности пользователей (long clicks) для определения того, что представляет собой хороший «связанный запрос». Это важнее, чем простое семантическое или текстовое сходство.
Оценка достоверности на основе ML: Оценки достоверности (Confidence Measures) для предлагаемых запросов не являются эвристическими. Они предсказываются моделями машинного обучения, обученными максимизировать удовлетворенность пользователей.
Expected Utility для оптимизации пути пользователя: Механизм Expected Utility специально разработан для предложений на основе сессий. Он отдает предпочтение переходам, которые часто совершаются пользователями И приводят к результатам более высокого качества (более высоким Quality Scores).
Интеграция множества стратегий: Система разработана для использования различных подходов к пересмотру (расширение, уточнение, синтаксис, сессии) и выбора лучшего из них с помощью единой системы оценки достоверности.
Требование разнообразия: Система принудительно обеспечивает разнообразие, требуя, чтобы пересмотренные запросы приводили к «новым» результатам, которых нет в исходной выдаче.
Динамическое отображение: Заметность блоков связанных запросов на SERP не фиксирована и зависит от уверенности системы в качестве этих предложений.

Практика

Best practices (это мы делаем)

Оптимизация под удовлетворенность пользователя (Long Clicks): Это критически важно. Высокие Quality Scores (достигаемые за счет long clicks) увеличивают вероятность того, что запросы, ведущие на ваш сайт, будут предлагаться Google в качестве связанных запросов (Related Searches). Контент должен полностью отвечать на интент и удерживать пользователя.
Анализ и оптимизация пути пользователя (User Journey): Необходимо понимать общие последовательности запросов в вашей нише. Используйте данные GSC и внутреннюю аналитику, чтобы определить, откуда приходят пользователи и куда они идут дальше. Создавайте контент, который адресует эти последовательные информационные потребности.
Построение тематического авторитета (Topical Authority): Широкий охват связанных тем увеличивает вероятность того, что ваш контент будет релевантен для запросов, сгенерированных расширяющими или уточняющими ревизорами, которые затем будут высоко оценены системой достоверности.
Стратегия «Hub and Spoke»: Создание центральных страниц (Hubs) и поддерживающих страниц (Spokes), которые соответствуют типичным путям исследования темы пользователями, может увеличить видимость в Related Searches, так как это соответствует логике Session-Based Reviser.

Worst practices (это делать не надо)

Кликбейт и низкое время пребывания (Short Clicks): Тактики, направленные на получение клика, но не удовлетворяющие интент пользователя, приводят к коротким кликам. Это снижает Quality Score запроса и уменьшает вероятность его появления в Related Searches.
Изолированный контент: Создание страниц, оптимизированных только под один узкий запрос без учета более широкого контекста сессии и пути пользователя.
Игнорирование смежных интентов: Фокусировка только на основном интенте без учета того, что пользователи могут искать до или после этого. Это ограничивает потенциал трафика из блоков связанных запросов.

Стратегическое значение

Патент подтверждает стратегический сдвиг от простого сопоставления ключевых слов к пониманию пути пользователя и его удовлетворенности. Метрики вовлеченности и поведения являются прямыми сигналами качества. Для Senior SEO-специалистов это означает, что стратегии должны учитывать, как пользователи исследуют темы последовательно. Видимость в «Related Searches» является значительным драйвером исследовательского трафика и напрямую управляется сигналами качества, которые можно измерить и оптимизировать.

Практические примеры

Сценарий: Оптимизация исследовательского трафика в нише (например, выбор кофемашины).

Идентификация пути: Анализ данных показывает, что пользователи часто ищут [лучшие капельные кофеварки] (Q1), а затем [капельная кофеварка или гейзерная] (Q2).
Анализ качества: Результаты по Q1 (обзоры) имеют средний Quality Score. Результаты по Q2 (сравнительные статьи) часто приводят к long clicks (высокий Quality Score), так как пользователи внимательно изучают различия.
Действие системы: Expected Utility для перехода Q1->Q2 высока (частый переход + улучшение качества). Predictive Model также предсказывает высокую достоверность для Q2. Google начинает активно предлагать Q2 в Related Searches для Q1.
Действие SEO-специалиста: Необходимо убедиться, что на сайте есть высококачественный контент для Q2 (сравнительная статья), оптимизированный для длительного времени пребывания. Если сайт достигнет высоких Quality Scores для этой статьи, он получит значительный трафик, когда Google предлагает Q2 пользователям, ищущим Q1.

Вопросы и ответы

Как Google определяет, что пересмотренный запрос является «успешным»?

В патенте успех (success) определяется через удовлетворенность пользователя. Основным индикатором является long click (длинный клик) — ситуация, когда пользователь нажимает на результат пересмотренного запроса и остается на целевой странице в течение значительного времени (например, 60 секунд). Это используется как для расчета Quality Score, так и в качестве целевой переменной для обучения предиктивной модели.

Что такое Expected Utility и почему это важно для SEO?

Expected Utility — это метрика для оценки сессионных ревизий. Она рассчитывается как Частота перехода (Q1->Q2) * Прирост качества (Q2 по сравнению с Q1). Это важно, потому что система предпочитает предлагать запросы, которые не только часто ищут следующими, но и которые ведут к более качественным (удовлетворяющим пользователя) результатам. SEO-специалисты должны оптимизировать контент так, чтобы он соответствовал этим высокоценным переходам.

Патент описывает два метода оценки достоверности: Expected Utility и Predictive Model. В чем разница?

Expected Utility описан как метод, используемый Session-Based Reviser, основанный на агрегированных данных сессий и кликов. Predictive Model — это более общий механизм машинного обучения, который может оценивать ревизии от любых ревизоров. Модель использует широкий набор признаков (Features) запросов для предсказания вероятности успеха (long click) в реальном времени.

Какие признаки использует предиктивная модель для оценки связанных запросов?

Модель использует признаки как исходного, так и пересмотренного запроса. К ним относятся: сами слова в запросах, длина запросов, тематические кластеры, количество найденных результатов, оценки информационного поиска (например, PageRank) топовых результатов, а также идентификатор стратегии, которая сгенерировала ревизию.

Влияет ли этот патент на то, как заметно отображаются Related Searches на странице выдачи?

Да, напрямую. В патенте указано, что Revision Server использует меру достоверности (Confidence Measure), чтобы определить, показывать ли ревизии вообще и насколько заметно их размещать. Высокая достоверность может привести к более заметному размещению (например, вверху страницы), а низкая — к размещению внизу или полному отсутствию блока.

Как рассчитывается Quality Score для запроса?

Quality Score рассчитывается на основе оценки удовлетворенности пользователя по данным о кликах, в частности, длительности кликов на результаты. Патент предлагает использовать S-образную кривую для преобразования времени в оценку (например, 40 секунд = 0.5, 60 секунд = 0.9). Это подчеркивает важность оптимизации контента для удержания пользователя.

Должен ли я оптимизировать свои страницы, чтобы они генерировали длинные клики?

Абсолютно. Длинные клики (long clicks) являются основным сигналом качества в этом патенте. Чем выше удовлетворенность пользователей вашим контентом, тем выше Quality Score ассоциированных запросов, и тем вероятнее, что эти запросы будут предлагаться Google в блоках Related Searches, увеличивая ваш трафик.

Что означает требование «новых» результатов для пересмотренных запросов?

Система требует, чтобы пересмотренный запрос содержал в топе минимальное количество результатов, которых не было в топе исходного запроса или уже выбранных ревизий. Это гарантирует разнообразие (diversity) предложений и увеличивает шанс найти полезную информацию, которую пользователь мог пропустить.

Какие стратегии пересмотра запросов упоминаются в патенте?

Упоминаются четыре основных типа ревизоров: Broadening (расширение, например, добавление синонимов или удаление слов), Syntactical (синтаксический, например, работа с кавычками, стоп-словами), Refinement (уточнение, сужение темы), и Session-Based (на основе исторических данных о последовательностях запросов).

Как этот патент влияет на стратегию построения контента?

Он подчеркивает необходимость перехода от создания изолированных страниц под отдельные ключи к построению системы контента, которая поддерживает путь пользователя (user journey). Необходимо понимать последовательность интентов и создавать контент, который удовлетворяет эти последовательные потребности, оптимизируя его под высокие показатели вовлеченности.