Как Google мгновенно классифицирует запросы, используя контекст пользователя, когда доступ к логам слишком медленный

Google использует легковесную модель машинного обучения для мгновенной классификации запросов в реальном времени, когда стандартные методы слишком медленные из-за задержек (latency constraint). Эта модель обучается офлайн и классифицирует новые запросы, используя только их характеристики (термины, язык, местоположение, время суток), без обращения к результатам поиска или логам поведения пользователей.

Описание

Какую задачу решает

Патент решает проблему задержек (latency) при классификации поисковых запросов. Традиционные методы классификации часто требуют анализа результатов поиска или данных поисковых логов (Search Log Data, например, кликов) для точного определения интента. Однако доступ к этим данным может занимать слишком много времени, превышая жесткие ограничения по времени ответа (latency constraint). Изобретение позволяет классифицировать запросы мгновенно, основываясь только на характеристиках самого запроса и контексте пользователя.

Что запатентовано

Запатентована система для классификации «необслуженных запросов» (unserviced queries) — запросов, для которых Search Log Data недоступны в пределах заданного порога времени. Система использует предварительно обученную Модель Классификации Запросов (Query Classification Model). Эта модель обучается офлайн и умеет предсказывать категорию запроса, используя только его признаки (Query Features), такие как термины, язык, местоположение и время суток, без необходимости обращаться к результатам поиска в реальном времени.

Как это работает

Система работает в два основных режима: сложное офлайн-обучение и быстрая онлайн-классификация.

Офлайн (Этап 1: Разметка данных): Сначала используется вспомогательная модель (Unlabeled Query Classifier). Она анализирует исторические запросы, используя как признаки запроса (Query Data), так и данные логов (Search Log Data), чтобы точно определить их категории и создать большой набор размеченных данных.
Офлайн (Этап 2: Обучение основной модели): Затем тренируется основная Query Classification Model (например, Support Vector Machine). Эта модель учится предсказывать метки, полученные на Этапе 1, но используя ТОЛЬКО Query Data (текст, язык, локация, время). Цель — создать легковесную модель, имитирующую сложный анализ.
Онлайн (Классификация): Когда поступает новый (unserviced) запрос, система мгновенно применяет Query Classification Model к его Query Data для определения категории (например, «спорт» или «explicit content»).

Актуальность для SEO

Высокая. Мгновенное понимание запроса является фундаментальным компонентом современных поисковых и рекламных систем. Способность классифицировать интент, тематику или определять explicit content до начала процесса ранжирования позволяет системе эффективно выбирать источники данных, применять фильтры (например, SafeSearch) и адаптировать выдачу в реальном времени.

Важность для SEO

Влияние на SEO умеренное (65/100). Это не патент об алгоритмах ранжирования, а об инфраструктуре понимания запросов. Однако он критически важен для понимания того, как Google интерпретирует интент на самом первом этапе. Патент подтверждает, что контекст пользователя (язык, местоположение, время суток) напрямую влияет на классификацию ключевых слов, особенно неоднозначных. Это имеет прямое значение для международного SEO и работы с семантикой.

Детальный разбор

Термины и определения

Query Classification Model (Модель Классификации Запросов): Основная, «быстрая» модель машинного обучения (например, SVM). Используется в реальном времени для классификации Unserviced Queries. Использует ТОЛЬКО Query Data на входе. Представлена как вектор весов признаков (vector of feature weights).
Unlabeled Query Classifier (Классификатор Неразмеченных Запросов): Вспомогательная, «медленная» модель. Используется офлайн для создания обучающего набора данных. Использует как Query Data, так и Search Log Data для точной разметки исторических запросов.
Unserviced Query (Необслуженный запрос): Запрос, для которого Search Log Data недоступны в течение порогового времени (threshold time), определяемого Latency Constraint. Это любой запрос в условиях временных ограничений.
Query Data / Query Features (Данные / Признаки запроса): Характеристики запроса, доступные мгновенно: термины запроса, язык пользователя (language indicator), географическое местоположение источника запроса, время суток (receipt time). Также могут включать IP-адрес, OS/браузер.
Search Log Data (Данные поисковых логов): Данные, генерируемые поисковой системой: список предоставленных результатов поиска и действия пользователей (клики, relevance feedback data).
Latency Constraint (Ограничение по задержке): Максимально допустимое время, в течение которого запрос должен быть классифицирован.
Query Category / Label (Категория / Метка запроса): Тематика контента, запрашиваемого пользователем (например, «спорт», «новости», explicit content).
Query Processing System (Система обработки запросов): Система, получающая классифицированный запрос. Например, поисковая система (Search System) или система управления рекламой (Advertisement Management System).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс классификации в реальном времени.

Идентификация unserviced query. Ключевое определение: это запрос, для которого search log data (данные о том, какие ресурсы были доступны через ранее предоставленные SERP) недоступны в рамках latency constraint.
Идентификация query data для этого запроса (слово, язык, местоположение или время получения).
Классификация запроса путем применения query classification model к query data. Упоминается классификация в одну из категорий, включая non-explicit query category.
Предоставление классифицированного запроса в query processing system.

Ядро изобретения — это способность классифицировать запрос быстро, не имея доступа к данным логов в реальном времени, используя только признаки самого запроса и контекста.

Claim 6 (Зависимый): Уточняет, что Query Classification Model может представлять собой vector of feature weights и что модель считается обученной при выполнении определенного условия (training condition).

Claims 9 и 10 (Зависимые): Описывают офлайн-процесс подготовки обучающих данных (Labeling).

(Claim 9) Доступ к первой группе размеченных запросов (с их признаками и логами). Обучение Unlabeled Query Classifier на этих данных (используя и признаки, и логи).
(Claim 10) Доступ ко второй группе неразмеченных запросов (с их признаками и логами). Классификация (разметка) второй группы с помощью обученного Unlabeled Query Classifier.

Этот процесс создает большой набор размеченных данных, который затем используется для обучения основной Query Classification Model (упомянутой в Claim 1).

Где и как применяется

Изобретение в первую очередь относится к этапу понимания запросов.

QUNDERSTANDING – Понимание Запросов
Это основная область применения. Query Classification Model работает здесь в реальном времени для мгновенной классификации входящих запросов (Unserviced Queries) до того, как начнется процесс поиска в индексе.

Офлайн-процессы / INDEXING
Модели, используемые на этапе QUNDERSTANDING, создаются здесь. Это включает анализ исторических Search Log Data, обучение Unlabeled Query Classifier и обучение основной Query Classification Model.

RANKING / RERANKING
Классифицированный запрос передается на эти этапы. Классификация влияет на ранжирование (например, предпочтение спортивных результатов) и переранжирование (например, активация фильтров SafeSearch, если запрос классифицирован как «explicit»).

Входные данные (Реальное время):

Входящий Unserviced Query.
Query Data: термины, язык, местоположение, время суток.

Выходные данные (Реальное время):

Классифицированный запрос (запрос + метка категории). Передается в Query Processing System (Поиск или Реклама).

На что влияет

Специфические запросы (Неоднозначные): Наибольшее влияние на неоднозначные запросы (например, «cricket» – спорт или насекомое). Модель использует контекст для разрешения неоднозначности.
Специфические запросы (Чувствительные): Критически важно для идентификации запросов, связанных с explicit content, для своевременной фильтрации.
Языковые и географические ограничения: Модель явно учитывает язык и местоположение. Пример в патенте: слово «hora» означает «whore» на шведском (классифицируется как explicit), но «hour» на испанском (non-explicit).

Когда применяется

Триггеры активации: Алгоритм применяется, когда необходимо классифицировать запрос, но доступ к Search Log Data невозможен в рамках заданного Latency Constraint. Это может происходить при высокой нагрузке на поисковую систему или когда требуется мгновенный ответ.

Пошаговый алгоритм

Патент описывает три взаимосвязанных процесса: два офлайн-этапа обучения и один онлайн-этап классификации.

Процесс А: Офлайн — Генерация обучающего набора (Разметка)

Сбор первичных данных: Доступ к небольшому набору запросов, размеченных вручную (Labeled Queries), и соответствующих им Query Data и Search Log Data.
Обучение вспомогательного классификатора: Unlabeled Query Classifier обучается на этих данных. Он учится находить взаимосвязи между признаками запроса, логами поиска (включая поведение пользователей) и метками.
Сбор массовых данных: Доступ к большому набору неразмеченных запросов (Unlabeled Queries) и их Query Data и Search Log Data.
Массовая разметка: Применение обученного Unlabeled Query Classifier к большому набору неразмеченных запросов для их классификации.
Результат: Большой набор Labeled Queries для обучения основной модели.

Процесс Б: Офлайн — Обучение основной модели

Инициализация модели: Инициализация Query Classification Model (например, SVM), установка начальных весов признаков (Vector of Feature Weights).
Доступ к данным: Доступ к большому набору Labeled Queries (из Процесса А) и их Query Data. (Важно: Search Log Data здесь НЕ используются).
Тренировка модели: Итеративная настройка весов. Модель учится предсказывать метку (которая была получена с учетом логов поиска) на основе только Query Data.
Валидация: Проверка удовлетворения условия обучения (training condition), например, достижение минимальной ошибки классификации.
Результат: Обученная Query Classification Model.

Процесс В: Онлайн — Классификация запроса

Получение запроса: Система получает Unserviced Query.
Извлечение признаков: Извлекаются Query Data (слова, язык, местоположение, время).
Применение модели: Обученная Query Classification Model применяется к Query Data (например, вычисляется скалярное произведение вектора признаков запроса и вектора весов модели).
Классификация: Результат сравнивается с пороговыми значениями для определения категории (например, >1 для «explicit», <-1 для «non-explicit»).
Передача результата: Классифицированный запрос передается в Query Processing System.

Какие данные и как использует

Данные на входе

Система использует разные типы данных на разных этапах.

На этапе Офлайн-разметки (Процесс А):

Контентные факторы: Слова и фразы в запросе.
Поведенческие факторы (Search Log Data): Relevance Feedback Data (клики, CTR) на результаты поиска. Это критически важно для определения истинного интента.
Географические факторы: Местоположение пользователя.
Временные факторы: Время суток (receipt time).
Пользовательские факторы: Язык пользователя (language indicator), IP-адрес, ОС, браузер.

На этапе Обучения основной модели (Процесс Б) и Онлайн-классификации (Процесс В):

Контентные факторы: Слова и фразы в запросе.
Географические факторы: Местоположение пользователя.
Временные факторы: Время суток.
Пользовательские факторы: Язык пользователя.

Важно: Поведенческие факторы используются только офлайн для генерации меток, но не используются онлайн для классификации.

Какие метрики используются и как они считаются

Алгоритмы машинного обучения: Упоминаются Support Vector Machine (SVM) для Query Classification Model и Decision Tree Classifier для Unlabeled Query Classifier.
Vector of Feature Weights: Метрика, определяющая важность каждого признака. Настраивается в процессе обучения.
Методы вычислений: В реальном времени используется скалярное произведение (dot product) между вектором признаков запроса и vector of feature weights модели.
Classification Thresholds: Пороговые значения для определения категории на основе результата работы модели. Например, результат >1 или <-1. Значения между порогами могут оставлять запрос неклассифицированным.

Выводы

Скорость за счет предварительных вычислений: Основная идея патента — перенести сложный анализ (включая поведенческие данные) в офлайн-режим для создания легковесной модели, способной работать в условиях жестких временных ограничений (latency constraint).
Непрямое влияние поведенческих факторов: Хотя онлайн-модель не использует Search Log Data напрямую, она полностью зависит от них косвенно. Метки, на которых она обучается, генерируются на основе анализа поведения пользователей (кликов).
Контекст пользователя как ключевой признак классификации: Патент явно выделяет язык, местоположение и время суток (Query Context) как критически важные признаки (Query Features) наравне с текстом запроса для определения его категории и разрешения неоднозначности.
Разрешение языковой и временной неоднозначности: Система спроектирована для учета того, что значение терминов меняется в зависимости от контекста. Примеры показывают, как язык (шведский vs испанский для «hora») или время суток (запрос «nude» утром vs ночью) влияют на классификацию.
Применение для фильтрации и рекламы: Основные сценарии использования этой быстрой классификации — это фильтрация контента (например, explicit/non-explicit для SafeSearch) и предоставление данных для рекламных систем (Advertisement Management System).

Практика

Best practices (это мы делаем)

Тщательная проработка международного SEO (Internationalization): Учитывайте лингвистические и региональные нюансы. Одно и то же слово может иметь разные значения и коннотации (как в примере с «hora»). Проверяйте, не классифицируются ли ваши целевые термины как explicit или нерелевантные в целевом языке и регионе. Используйте корректную разметку hreflang.
Анализ неоднозначности в контексте: При работе с неоднозначными ключевыми словами необходимо анализировать, как они классифицируются в целевом регионе. Используйте инструменты для проверки локальной выдачи, чтобы понять доминирующий интент, который Google связывает с этим контекстом.
Учет времени и сезонности (Temporal Relevance): Модель классификации использует время получения запроса (receipt time) как признак. Если тематика подразумевает зависимость от времени суток или сезона, необходимо это учитывать в контент-стратегии.
Четкость и однозначность контента: Создавайте контент, который посылает четкие сигналы о своем содержании. Это поможет избежать неверной классификации, например, если медицинский или художественный контент будет ошибочно принят за explicit content.

Worst practices (это делать не надо)

Игнорирование контекста пользователя: Разработка единой SEO-стратегии для разных регионов и языков без учета локальной специфики интерпретации запросов. Это приведет к тому, что система неверно классифицирует интент пользователей из разных регионов.
Прямой перевод ключевых слов: Использование автоматического перевода семантического ядра без адаптации. Это может привести к таргетингу на слова, которые имеют нежелательные коннотации или иное значение в целевом языке.
Использование неоднозначности для привлечения трафика: Создание контента, оптимизированного под неоднозначные запросы с целью привлечения пользователей с разными интентами, становится менее эффективным, так как классификатор пытается разрешить эту неоднозначность еще до формирования выдачи.

Стратегическое значение

Этот патент подчеркивает важность этапа Query Understanding и показывает, насколько сильно Google полагается на контекстуальные сигналы для интерпретации запроса еще до начала поиска. Для SEO-стратегии это означает, что оптимизация должна выходить за рамки простого сопоставления ключевых слов и учитывать полный контекст пользователя: кто он, где он находится, на каком языке говорит и когда ищет. Google стремится разрешить неоднозначность мгновенно, используя исторические паттерны.

Практические примеры

Сценарий 1: Международное SEO и языковая неоднозначность

Ситуация: Компания продает продукт под названием, которое является омонимом ругательства в другом языке (например, шведском).
Работа системы: Google получает запрос. Query Classification Model использует текст запроса И язык пользователя (language indicator=Swedish). Опираясь на офлайн-обучение, модель знает, что эта комбинация с высокой вероятностью означает «explicit».
SEO-действие: В Швеции необходимо использовать альтернативное название или добавлять уточняющие слова в SEO-кампании (например, «[Название] продукт»), чтобы направить классификацию запроса в нужное русло и избежать фильтрации.
Результат: Запрос пользователя в Швеции не будет ошибочно классифицирован как «explicit», что позволит избежать проблем с SafeSearch.

Сценарий 2: Локальный бизнес и географическая неоднозначность

Ситуация: Пользователь в Великобритании ищет «football», и пользователь в США ищет «football».
Работа системы: Query Classification Model использует признак местоположения (Geographic Location). Исторические данные (использованные при обучении) показывают, что в Великобритании «football» чаще всего относится к соккеру, а в США — к американскому футболу.
Результат: Модель мгновенно классифицирует запрос из Великобритании как «спорт: соккер», а из США как «спорт: американский футбол», направляя поисковую систему на выдачу релевантных локальных результатов.

Вопросы и ответы

Что такое «Unserviced Query» (Необслуженный запрос)? Это новый или редкий запрос?

Не обязательно. Согласно патенту, Unserviced Query — это любой запрос, для которого система не может получить доступ к данным поисковых логов в течение заданного ограничения по времени (Latency Constraint). Это может быть и популярный запрос, но если основная система перегружена или задержка высока, он будет обработан как Unserviced с помощью этой быстрой модели классификации.

Означает ли этот патент, что Google не использует поведение пользователей для понимания запросов?

Нет. Поведение пользователей (Search Log Data) критически важно, но оно используется на этапе офлайн-обучения. Сначала вспомогательная модель использует логи для точной разметки исторических запросов. Затем основная модель учится имитировать эту разметку, но уже без доступа к логам в реальном времени. Таким образом, поведение пользователей косвенно заложено в логику работы быстрой модели.

Какие именно признаки Google использует для мгновенной классификации запроса?

Патент явно перечисляет следующие признаки (Query Features): термины в запросе, язык пользователя (например, настройки устройства), географическое местоположение источника запроса и время суток, когда запрос был получен. Также упоминаются IP-адрес и данные об операционной системе/браузере.

Как этот патент влияет на международное SEO?

Он имеет значительное влияние. Поскольку язык и местоположение являются ключевыми признаками для классификации, интерпретация одного и того же запроса может кардинально отличаться в разных странах или языках. SEO-специалисты должны исследовать локальный интент и учитывать культурные/лингвистические различия (как в примере с «hora»), а не просто переводить ключевые слова.

Как эта система связана с фильтрами типа SafeSearch?

Напрямую. Одной из основных задач, описанных в патенте, является быстрая классификация запросов на explicit и non-explicit. Если Query Classification Model помечает запрос как explicit (даже если он неоднозначен, но контекст на это указывает), система может мгновенно активировать фильтры SafeSearch или блокировать показ определенной рекламы.

В чем разница между «Query Classification Model» и «Unlabeled Query Classifier»?

Ключевая разница в используемых данных и назначении. Unlabeled Query Classifier используется офлайн для разметки данных; он использует и признаки запроса, и данные логов (поведение пользователей). Query Classification Model используется в реальном времени для классификации новых запросов; она использует только признаки запроса (язык, время, термины).

Может ли время суток действительно влиять на то, как Google понимает мой запрос?

Да, согласно патенту, время суток (receipt time) является одним из признаков. В патенте приводится пример: запрос, содержащий «nude», полученный утром, может быть классифицирован иначе (например, искусство), чем тот же запрос ночью (explicit), если исторические данные показывают, что пользователи ищут разный контент в разное время.

Как система разрешает неоднозначность, например, в запросе «cricket»?

Модель анализирует контекст. Если запрос пришел из региона (местоположение), где исторически доминирует интерес к спорту (например, Индия или Великобритания), модель классифицирует его как «спорт». Если контекст указывает на интерес к насекомым, классификация будет иной. Модель ищет паттерны в комбинации признаков.

Какие алгоритмы машинного обучения используются в этой системе?

Для основной модели (Query Classification Model) упоминается использование Support Vector Machine (SVM) или других алгоритмов, основанных на векторах весов признаков. Для вспомогательного классификатора (Unlabeled Query Classifier) упоминается возможность использования Decision Tree Classifier (дерево решений).

Где используется эта классификация, кроме основного поиска?

В патенте прямо указано, что классифицированный запрос может быть передан в Advertisement Management System (рекламную систему). Это позволяет системе рекламы мгновенно выбирать более релевантные объявления, соответствующие классификации запроса, не дожидаясь результатов основного поиска.