Как Google интегрирует разные алгоритмы и использует машинное обучение для выбора лучших альтернативных запросов

Google использует архитектуру для интеграции множества стратегий пересмотра запросов (расширение, сужение, синтаксис, сессии). Система оценивает качество предложений с помощью предиктивной модели машинного обучения, обученной на поведении пользователей (длительных кликах), чтобы выбрать и предложить наиболее перспективные и разнообразные варианты.

Описание

Какую задачу решает

Патент решает проблему ограниченности и неэффективности использования единственного метода для автоматического улучшения запросов пользователей. Запросы часто бывают неоптимальными (слишком широкими, узкими или синтаксически некорректными), и ни одна стратегия не может решить все эти проблемы. Изобретение предлагает архитектуру, которая позволяет интегрировать множество различных стратегий пересмотра запросов и динамически выбирать наилучшую в зависимости от контекста.

Что запатентовано

Запатентована архитектура системы поиска, которая интегрирует несколько различных модулей пересмотра запросов (Query Revisers). Центральный компонент (Revision Server) собирает потенциальные альтернативные запросы от этих модулей (например, расширение, сужение, анализ сессий). Ключевым аспектом является использование предиктивной модели (Predictive Model), обученной на сигналах удовлетворенности пользователей (long clicks), для расчета мер уверенности (Confidence Measures) и выбора лучших предложений, обеспечивающих разнообразие результатов.

Как это работает

Система работает следующим образом:

Генерация кандидатов: Исходный запрос передается нескольким Query Revisers (расширяющий, синтаксический, уточняющий, основанный на сессиях).
Оценка уверенности: Для каждого кандидата рассчитывается Confidence Measure. В основном используется предиктивная модель, которая оценивает вероятность «длинного клика» (long click – индикатор удовлетворенности пользователя) для этого запроса.
Валидация и Отбор: Кандидаты сортируются по мере уверенности. Система проверяет результаты поиска, отбрасывая варианты, которые не дают достаточного количества результатов или не предоставляют «новые результаты» (New Results) по сравнению с исходным запросом (обеспечение разнообразия).
Презентация: Отобранные альтернативные запросы предлагаются пользователю (например, блок «Related Searches»). Их заметность зависит от меры уверенности.

Актуальность для SEO

Высокая. Понимание намерений пользователя и предоставление релевантных предложений (Related Searches) являются фундаментальными функциями современного поиска. Описанный подход, использующий модели машинного обучения, обученные на поведенческих сигналах для прогнозирования успеха запроса, лежит в основе систем понимания запросов Google.

Важность для SEO

Патент имеет значительное влияние на SEO (75/100). Он раскрывает механизмы, лежащие в основе генерации связанных запросов, и подтверждает критическую важность поведенческих сигналов и удовлетворенности пользователей (long clicks). Понимание этих механизмов необходимо для разработки стратегий расширения семантического ядра, анализа путей пользователя (User Journey) и оптимизации под тематические кластеры, а не отдельные ключи.

Детальный разбор

Термины и определения

Broadening Reviser (Модуль расширения): Query Reviser, который генерирует более широкие запросы путем добавления синонимов или удаления маловажных слов.
Confidence Measure (Мера уверенности): Метрика, оценивающая вероятность того, что пересмотренный запрос лучше исходного. Часто рассчитывается как прогнозируемая вероятность long click.
Expected Utility (Ожидаемая полезность): Метрика для Session-Based Reviser. Рассчитывается как произведение частоты перехода между запросами на улучшение качества (Quality Improvement) второго запроса.
Features (Признаки): Атрибуты исходного и пересмотренного запросов (например, длина, тематика, количество результатов), используемые предиктивной моделью для расчета Confidence Measure.
Long Click (Длинный клик): Клик, при котором пользователь остается на целевой странице в течение значительного времени (например, 60 секунд). Используется как основной индикатор удовлетворенности пользователя и целевая переменная для обучения ML-модели.
New Results (Новые результаты): Результаты поиска по пересмотренному запросу, которых нет в топе исходного запроса. Критерий для обеспечения разнообразия предложений.
Predictive Model (Предиктивная модель): Модель машинного обучения (например, логистическая регрессия), обученная предсказывать вероятность long click на основе признаков запросов.
Query Reviser (Модуль пересмотра запросов): Компонент, реализующий конкретную стратегию изменения запроса (например, Broadening, Refinement, Syntactical, Session-Based).
Revision Server (Сервер пересмотра): Центральный компонент, который координирует работу Query Revisers, оценивает и выбирает лучшие альтернативные запросы.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на механизме интеграции различных стратегий и выборе лучших кандидатов с помощью машинного обучения, обученного на поведении пользователей.

Claim 1 (Независимый пункт): Описывает основной метод выбора предложений по изменению запроса.

Для множества пар запросов (исходный и пересмотренный) определяется вероятность успеха пересмотренного запроса с помощью Predictive Model.
Эта модель обучена прогнозировать вероятность клика на ссылку пересмотренного запроса на основе признаков (features) исходного и пересмотренного запросов.
На основе этих вероятностей выбирается одна или несколько пар.
Процесс выбора включает оценку результатов поиска для пересмотренного запроса по отношению к результатам исходного запроса.
Пересмотренный запрос из выбранных пар предоставляется как предложение.

Claim 2 и 3 (Зависимые): Уточняют, что клик, используемый для оценки успеха и обучения модели, является «длинным кликом» (long click), что указывает на удовлетворенность пользователя.

Claim 4 и 5 (Зависимые): Перечисляют типы признаков (features), используемых в предиктивной модели. Примеры: длина запроса, тематический кластер, оценка релевантности (IR score) лучшего результата, количество результатов, идентификатор техники, сгенерировавшей изменение.

Claim 9 и 10 (Зависимые): Определяют критерий разнообразия при выборе. Каждый отобранный пересмотренный запрос должен давать минимальное количество «новых результатов» (new search results) — то есть результатов, которых не было в топе выдачи по исходному запросу.

Где и как применяется

Изобретение применяется преимущественно в слое понимания запросов и влияет на формирование финальной выдачи.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения. Система анализирует исходный запрос и активирует различные Query Revisers для генерации альтернатив. Revision Server и Reviser Confidence Estimator оценивают эти варианты, используя Predictive Model.

RANKING – Ранжирование
Revision Server взаимодействует с поисковой системой (Search Engine) для выполнения потенциальных пересмотренных запросов. Это необходимо для валидации кандидатов (проверки наличия результатов и их новизны).

METASEARCH – Метапоиск и Смешивание
Результатом работы системы является формирование блоков альтернативных запросов (например, Related Searches), которые интегрируются в поисковую выдачу.

Входные данные:

Исходный запрос пользователя.
Исторические данные о поведении пользователей (Log Files) для обучения ML-модели.
Признаки (features) исходного и пересмотренных запросов.

Выходные данные:

Набор отобранных альтернативных запросов (предложений).
Меры уверенности (Confidence Measures), определяющие их порядок и видимость.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на неоднозначные, слишком широкие (требующие сужения) или слишком узкие (требующие расширения) запросы, а также запросы с потенциальными синтаксическими проблемами (например, использование стоп-слов в названиях).
Типы контента и ниши: Механизм является общим и применяется ко всем типам запросов и контента.

Когда применяется

Условия работы: Алгоритм генерации активируется при обработке входящих запросов.
Триггеры активации (для показа): Решение о показе предложений зависит от рассчитанных Confidence Measures. Если ни одно предложение не превышает минимальный порог уверенности, предложения могут быть скрыты. Если уверенность очень высока, предложения могут быть размещены на видном месте (например, вверху SERP).
Пороговые значения (для отбора): Применяются пороги: минимальное количество результатов, минимальное количество «новых результатов» (разнообразие) и максимальное количество предложений.

Пошаговый алгоритм

Процесс А: Обработка запроса в реальном времени

Получение запроса: Revision Server получает исходный запрос.
Генерация кандидатов: Запрос рассылается всем подключенным Query Revisers (Broadening, Syntactical, Refinement, Session-Based и т.д.).
Сбор ответов: Revision Server собирает потенциальные пересмотренные запросы.
Расчет мер уверенности: Для каждого кандидата вычисляется Confidence Measure. Это делается с помощью Reviser Confidence Estimator, который применяет Predictive Model для оценки вероятности long click на основе признаков запросов.
Сортировка: Кандидаты сортируются по убыванию Confidence Measure.
Получение результатов: Revision Server запрашивает у поисковой системы результаты поиска для лучших кандидатов.
Итеративный отбор и валидация: Система итерирует по отсортированному списку и выбирает кандидатов, удовлетворяющих условиям:
- Минимальное количество результатов поиска.
- Минимальное количество «новых результатов» (разнообразие по сравнению с исходным запросом и уже отобранными кандидатами).
- Не превышено максимальное количество предложений (например, 4-8).
Формирование и презентация: Отобранные запросы форматируются для показа. Их расположение на SERP определяется на основе итоговых Confidence Measures.

Процесс Б: Офлайн-обучение предиктивной модели

Сбор данных: Session Tracker собирает данные о поведении пользователей: исходные запросы, предложенные альтернативы, клики на них и длительность этих кликов (для идентификации long clicks).
Извлечение признаков: Из логов извлекаются признаки (features) для исходных и пересмотренных запросов (длина, тематика, количество результатов и т.д.).
Обучение модели: Reviser Confidence Estimator обучает Predictive Model (например, логистическую регрессию) прогнозировать вероятность long click на основе этих признаков.

Какие данные и как использует

Данные на входе

Ключевыми данными в этом патенте являются поведенческие факторы и признаки запросов, используемые для машинного обучения.

Поведенческие факторы: Критически важны.
- Данные о кликах и их длительности (Long Clicks) используются как целевая переменная для обучения Predictive Model и расчета Quality Scores.
- Журналы сессий (последовательности запросов) используются Session-Based Reviser для определения частоты переходов между запросами.
Признаки (Features) для ML-модели: Патент явно перечисляет используемые признаки:
- Длина исходного и пересмотренного запросов.
- Тематический кластер (Topic cluster) запросов.
- Оценка релевантности (Information Retrieval score) для топовых результатов.
- Количество результатов поиска.
- Идентификатор метода (Query Reviser), сгенерировавшего изменение.
- Конкретные слова в запросе.
Синтаксические факторы: Наличие кавычек, стоп-слов, пунктуации, n-граммы. Используются Syntactical Reviser.

Какие метрики используются и как они считаются

Confidence Measure (Мера уверенности): Основная метрика для ранжирования предложений. Рассчитывается как выход Predictive Model – прогнозируемая вероятность long click.
Quality Score (Оценка качества запроса): Оценивает удовлетворенность пользователей запросом на основе длительности кликов на результаты. Патент упоминает использование S-образной кривой (S-curve) для расчета (например, 60 секунд соответствует 0.9).
Expected Utility (Ожидаемая полезность): Используется Session-Based Reviser. Формула: Частота перехода (от Q1 к Q2) * (Quality Score(Q2) — Quality Score(Q1)).
Метрики разнообразия: Количество «новых результатов» (New Results). Используется как обязательный фильтр.
Алгоритмы машинного обучения: Используется предиктивная модель, упоминается множественная логистическая регрессия (multiple, logical regression model), обученная на признаках запросов для прогнозирования long clicks.

Выводы

Гибкая архитектура для понимания запросов: Google не полагается на один метод улучшения запросов. Используется модульная система, позволяющая интегрировать и сравнивать различные стратегии (расширение, сужение, синтаксис, сессии).
Машинное обучение определяет выбор лучшей стратегии: Выбор наилучшего альтернативного запроса определяется Predictive Model, обученной на реальных данных. Система динамически адаптируется к поведению пользователей.
Удовлетворенность пользователя как эталон (Ground Truth): Long clicks используются как основной сигнал удовлетворенности пользователя. Именно вероятность long click предсказывает модель машинного обучения для оценки качества альтернативных запросов.
Важность разнообразия (Diversity): Система требует, чтобы предложенные запросы приводили к «новым результатам» (New Results), отличным от исходной выдачи. Хорошее предложение должно открывать пользователю новый взгляд на тему.
Динамическая презентация SERP: Заметность предложений (или их отсутствие) напрямую зависит от рассчитанной меры уверенности. Google показывает подсказки только тогда, когда система уверена в их полезности.

Практика

Best practices (это мы делаем)

Фокус на полном удовлетворении интента (Long Clicks): Поскольку long clicks являются эталоном успеха для обучения ML-модели, критически важно создавать контент, который полностью удовлетворяет интент пользователя и удерживает его на странице. Это повышает Quality Score запроса и его ценность для системы.
Анализ предложений Google как карты интентов: Систематически анализируйте блоки Related Searches. Эти предложения – это пересмотренные запросы, которые прошли отбор по Confidence Measure (прогнозируемой удовлетворенности). Они показывают, какие смежные интенты Google считает наиболее перспективными.
Оптимизация под кластеры интентов и сессии: Создавайте контент, который охватывает не только исходный запрос, но и те пересмотренные запросы, которые предлагает Google (расширяющие, сужающие, следующие в сессии). Это увеличивает соответствие контента успешным направлениям поиска.
Построение Topical Authority: Покрывайте смежные концепции и темы. Это увеличивает вероятность того, что ваш контент будет релевантен для запросов, генерируемых различными Revisers (например, Broadening или Refinement).

Worst practices (это делать не надо)

Создание контента, ведущего к коротким кликам (Pogo-sticking): Кликбейт или поверхностный контент приводят к коротким кликам. Это снижает Quality Score запроса и сигнализирует ML-модели, что запрос не приводит к удовлетворению.
Изолированная оптимизация под точное соответствие: Фокус только на одном варианте формулировки игнорирует способность системы переформулировать запрос с помощью синонимов, удаления терминов или данных сессий.
Создание дублирующего контента для близких запросов: Если два запроса приводят к очень похожим результатам, система не будет предлагать один как изменение другого из-за отсутствия «новых результатов». Необходимо создавать контент, который предоставляет уникальную ценность.

Стратегическое значение

Патент подтверждает стратегический приоритет Google на понимании намерений через анализ поведения. Система учится тому, как запросы связаны друг с другом, наблюдая за тем, что пользователи делают дальше и что в конечном итоге их удовлетворяет (long clicks). Это подчеркивает переход от синтаксического анализа к семантическому и поведенческому пониманию. Долгосрочная SEO-стратегия должна фокусироваться на удовлетворении пользователя и построении семантических связей.

Практические примеры

Сценарий: Оптимизация контента на основе анализа Related Searches и сессий

Задача: Продвижение интернет-магазина по запросу [кроссовки для бега].
Анализ (на основе патента): Session-Based Reviser знает, что часто за этим запросом следует [лучшие кроссовки при плоскостопии], и этот второй запрос имеет высокий Quality Score (пользователи удовлетворены). Predictive Model также прогнозирует высокий успех этой альтернативы.
Действие системы: Google показывает [лучшие кроссовки при плоскостопии] в Related Searches.
Действие SEO-специалиста: Убедиться, что на сайте есть качественный контент, отвечающий на оба запроса (хабовая страница и детальная статья). Контент должен быть оптимизирован для генерации long clicks.
Ожидаемый результат: Сайт хорошо ранжируется по обоим запросам. Пользователи демонстрируют высокую удовлетворенность, что усиливает позиции сайта и подтверждает правильность предложенной Google альтернативы в ML-модели.

Вопросы и ответы

Что является основным сигналом для определения того, является ли альтернативный запрос хорошим?

Основным сигналом является удовлетворенность пользователя, измеряемая через long clicks (длинные клики). Модель машинного обучения (Predictive Model) обучается предсказывать вероятность long click для каждого предложенного альтернативного запроса. Чем выше эта вероятность (Confidence Measure), тем лучше считается предложение.

Как система обеспечивает разнообразие в предлагаемых альтернативных запросах (Related Searches)?

Система применяет строгий фильтр на этапе отбора, требуя наличия минимального количества «новых результатов» (New Results). Альтернативный запрос выбирается только если он предоставляет результаты в топе, которых не было в топе исходной выдачи. Это гарантирует, что пользователю показывают разные варианты, а не перефразировки с той же самой выдачей.

Что такое «Признаки» (Features), которые использует модель машинного обучения?

Модель использует различные атрибуты как исходного, так и альтернативного запроса. Патент перечисляет примеры: длина запроса, тематический кластер (topic cluster), количество результатов поиска, IR-оценку (релевантность/авторитетность) топового результата, а также идентификатор метода (Query Reviser), который сгенерировал альтернативу.

Всегда ли Google показывает блок «Related Searches»?

Нет. Отображение и заметность этого блока зависит от рассчитанных показателей уверенности (Confidence Measures). Если модель предсказывает низкую вероятность успеха (long click) для всех сгенерированных альтернатив, блок может быть не показан. Если уверенность высока, блок может быть размещен на более заметной позиции.

Как этот патент влияет на стратегию ключевых слов?

Он подчеркивает необходимость перехода от фокусировки на отдельных ключевых словах к пониманию семантических связей и сессий пользователей. Важно анализировать, как пользователи переформулируют запросы в рамках одной сессии и какие запросы в итоге приводят к удовлетворению (long clicks). Стратегия должна охватывать весь путь пользователя.

Что такое Session-Based Reviser и как он работает?

Это один из механизмов генерации альтернатив. Он анализирует исторические сессии, чтобы найти пары запросов (Q1 -> Q2), которые часто встречаются вместе. Он рассчитывает Expected Utility, учитывая частоту перехода и улучшение качества (удовлетворенности, основанной на кликах) при переходе от Q1 к Q2. Если полезность высока, Q2 предлагается как альтернатива для Q1.

Как измеряется «Качество запроса» (Quality Score) в контексте этого патента?

Quality Score запроса измеряется на основе удовлетворенности пользователей его результатами, конкретно — на основе длительности кликов. Патент упоминает использование S-образной кривой (S-curve) для преобразования времени в оценку от 0 до 1, где более длительные клики (например, 60 секунд) соответствуют более высокой оценке.

Может ли мой сайт повлиять на то, какие альтернативные запросы показывает Google?

Косвенно да. Если ваш контент стабильно генерирует long clicks по определенным запросам, это повышает Quality Score этих запросов в системе Google. Это влияет на обучение Predictive Model и работу Session-Based Reviser, делая более вероятным, что эти успешные запросы будут предлагаться в качестве альтернатив для связанных тем.

Какие типы стратегий пересмотра запросов интегрирует эта система?

Патент описывает архитектуру для интеграции любых стратегий, но приводит конкретные примеры: Broadening (расширение), Syntactical (изменение синтаксиса, обработка стоп-слов, фраз), Refinement (уточнение/сужение темы) и Session-Based (на основе исторических сессий).

Как система обрабатывает стоп-слова?

Этим занимается Syntactical Reviser. Если в запросе есть стоп-слово (например, «the», «to»), которое обычно игнорируется, этот ревизор может создать альтернативный запрос, принудительно включающий это слово (например, используя оператор «+»). Это полезно для запросов, где стоп-слова критичны, например, в названиях произведений.