Как Google использует LLM для генерации эталонных запросов и векторные эмбеддинги для определения категории и интента пользователя

Google автоматизирует создание наборов «эталонных запросов» (ground truth) для категоризации пользовательского интента, используя большие языковые модели (LLM). Система генерирует разнообразные запросы, представляющие интерес к определенной категории (например, услуге), а затем использует векторные эмбеддинги для сопоставления новых запросов с этими эталонами, что повышает точность выбора релевантного контента и рекламы.

Описание

Какую задачу решает

Патент решает две ключевые проблемы в классификации поисковых запросов:

Трудоемкость создания эталонов: Ручное создание Benchmark Queries (эталонных запросов, служащих «истиной в последней инстанции» для категории) является медленным, дорогим и часто приводит к недостаточному разнообразию или точности наборов данных.
Сложность сопоставления: Традиционные методы сопоставления запросов (например, точное совпадение или сложные модели на основе грамматик) либо неэффективны, либо требуют значительных ресурсов и глубокого понимания языка.

Изобретение автоматизирует генерацию эталонов и упрощает сопоставление, повышая скорость и точность категоризации интента.

Что запатентовано

Запатентована система для автоматизации классификации запросов, состоящая из двух основных компонентов. Во-первых, она использует большие языковые модели (Language Model, LLM) для генерации Benchmark Queries на основе структурированных текстовых промптов (Text Prompts). Во-вторых, она применяет машинное обучение для создания векторных эмбеддингов (Embeddings/Vectors) запросов. Сопоставление происходит путем вычисления расстояния между векторами в многомерном пространстве, что позволяет эффективно определять категорию нового запроса.

Как это работает

Система работает в несколько этапов:

Генерация промпта: Создается Text Prompt, содержащий определение категории, цель (например, сервисный интент) и строгие ограничения (Constraints, например, исключить DIY). Промпт может включать исходные данные, такие как отзывы клиентов или контент сайтов.
Генерация кандидатов (LLM): Промпт подается на вход обученной LLM, которая генерирует список кандидатов в Benchmark Queries.
Фильтрация и оценка: Кандидаты фильтруются по критериям качества, таким как частота использования в истории поиска или показатели эффективности (например, конверсии).
Расширение набора (Embeddings): Эталонные и исторические запросы преобразуются в векторы. Система ищет ближайших соседей (Nearest Neighbors) среди исторических запросов, используя методы масштабируемого поиска (например, ScaM).
Использование: Расширенный набор (Query Set) используется в реальном времени для классификации новых запросов и подбора соответствующего контента (например, рекламы).

Актуальность для SEO

Крайне высокая. Заявка подана в 2024 году и опубликована в 2025. Использование LLM для генерации данных и векторных эмбеддингов для семантического сопоставления (Neural Matching) является фундаментом современных поисковых систем и напрямую отражает текущие подходы Google к пониманию интента.

Важность для SEO

Влияние на SEO значительное (7.5/10). Патент в первую очередь описывает инфраструктуру для выбора контента (вероятно, рекламы или специализированных вертикалей, таких как Local Services). Однако он детально раскрывает, как Google определяет и понимает намерения пользователей (User Intent). Понимание того, как генерируются «эталоны» интента и как работает векторное сопоставление, критически важно для современного органического SEO, особенно на этапе Понимания Запросов (Query Understanding).

Детальный разбор

Термины и определения

Benchmark Queries (Эталонные запросы): Запросы, которые считаются «истиной в последней инстанции» (ground truth) и высокорелевантными для определенной категории. Служат эталоном для категоризации других запросов.
Category / Vertical (Категория / Вертикаль): Конкретная область интереса или бизнес-сегмент (например, «юрист по травмам», «сантехник»).
Constraints (Ограничения): Правила, включенные в промпт для LLM, чтобы направлять генерацию запросов. Например, исключение запросов с упоминанием местоположения или информационного интента (DIY, статьи).
Embeddings / Vectors (Эмбеддинги / Векторы): Числовые представления запросов в многомерном пространстве, сгенерированные моделями машинного обучения. Семантически похожие запросы расположены ближе друг к другу в этом пространстве.
Historical Queries (Исторические запросы): База данных прошлых поисковых запросов пользователей.
Language Model (LLM) (Языковая модель): Модель ИИ (например, GPT, PaLM), обученная на большом корпусе текста, используемая здесь для генерации эталонных запросов на основе промпта.
Prompt (Промпт): Текстовая инструкция, подаваемая на вход LLM. Включает цель, определение эталонных запросов, исходные данные (например, отзывы или примеры запросов) и ограничения.
Query Set (Набор запросов): Итоговый набор запросов, используемый для категоризации. Может включать только эталонные запросы или быть расширенным за счет схожих исторических запросов.
ScaM (Scalable Nearest Neighbor Matching) (Масштабируемое сопоставление ближайших соседей): Технология для эффективного поиска ближайших векторов в большом наборе данных. Используется для нахождения исторических запросов, похожих на эталонные.

Ключевые утверждения (Анализ Claims)

Патентная заявка содержит две основные группы независимых пунктов: генерация запросов (Claim 1) и метод сопоставления (Claim 21).

Claim 1 (Независимый пункт): Описывает основной метод использования LLM для облегчения выбора контента.

Система генерирует Benchmark Queries для категории путем подачи текстового промпта в языковую модель (LLM). Промпт запрашивает запросы, указывающие на интерес пользователя к этой категории.
В ответ на новые запросы пользователей система выбирает контент, связанный с этой категорией.
Выбор контента включает определение соответствия нового запроса категории путем сравнения его с Query Set, который включает сгенерированные Benchmark Queries.

Claim 8 (Зависимый от 1): Детализирует ограничения (Constraints) в промпте. Утверждается, что промпт включает ограничения, предотвращающие генерацию запросов, указывающих на:

Интерес к конкретному местоположению.
Интерес к покупке продукта, а не услуги.
Интерес к онлайн-публикации (статьи, блоги).
Интерес к инструкциям для самостоятельного выполнения (DIY).

Это критически важно для уточнения и разделения интентов (например, фокусировки на транзакционном интенте услуги).

Claim 9 и 10 (Зависимые от 1): Описывают процесс валидации и фильтрации. Сгенерированный запрос сохраняется как эталонный, только если он удовлетворяет определенным критериям. Эти критерии включают минимальную частоту ввода запроса пользователями и пороговое значение для показателя эффективности (performance metric).

Claim 13 (Зависимый от 12): Описывает механизм расширения (expanding) набора запросов путем сопоставления с другими запросами (например, историческими).

Использование ML-моделей для встраивания (embed) всех запросов в виде векторов в многомерном пространстве.
Определение расстояний между векторами.
Сопоставление (mapping) запросов на основе этих расстояний.

Claim 21 (Независимый пункт): Описывает общий метод сопоставления поисковых запросов (независимо от генерации через LLM).

Получение первого и второго наборов поисковых запросов.
Встраивание (embedding) всех запросов из обоих наборов в виде векторов с помощью ML-моделей.
Определение расстояний между векторами.
Сопоставление (mapping) запросов на основе этих расстояний.

Где и как применяется

Изобретение в основном применяется на этапе понимания запросов для улучшения выбора контента.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Процесс делится на офлайн и онлайн компоненты:

Офлайн (Генерация и Расширение): Система использует LLM для генерации Benchmark Queries, определяя «истинный» интент для категории. Затем она использует векторные эмбеддинги для расширения этого набора, сопоставляя исторические запросы с эталонными. Это создает обширную карту интентов.
Онлайн (Категоризация): Когда поступает новый запрос, система сравнивает его (используя векторные эмбеддинги) с Query Set, чтобы мгновенно классифицировать его интент и категорию.

RANKING / METASEARCH (Выбор контента)
Результаты этапа QUNDERSTANDING (определенная категория запроса) используются компонентом Content Selector для выбора наиболее релевантного контента. В контексте патента это, скорее всего, выбор релевантной рекламы или результатов из специализированных вертикалей (например, Local Services).

Входные данные (Офлайн):

Исходные данные для промптов: отзывы клиентов, контент веб-сайтов поставщиков услуг, известные запросы, текст рекламных объявлений.
База знаний для обучения LLM (например, данные из Интернета).
Historical Queries (для фильтрации и расширения).

Выходные данные (Офлайн):

Набор Benchmark Queries.
Расширенный Query Set.

Выходные данные (Онлайн):

Классификация категории и интента для новых пользовательских запросов.

На что влияет

Конкретные ниши и запросы: Наибольшее влияние оказывается на вертикали локальных услуг (сантехники, юристы, электрики) и запросы с сервисным/транзакционным интентом.
Разделение интентов: Система активно различает коммерческий интент (поиск услуги) и информационный интент (DIY, отзывы, поиск работы, покупка оборудования). Это достигается за счет использования Constraints в промптах.
Языковые ограничения: Система учитывает язык. В процессе сопоставления эмбеддинги разделяются (partition by language) для повышения эффективности.

Когда применяется

Офлайн-процессы: Применяется при создании или обновлении наборов эталонных запросов для категорий. Также применяется периодически для расширения этих наборов путем сопоставления с историческими данными.
В реальном времени (Runtime): Применяется при поступлении нового пользовательского запроса, который необходимо категоризировать для выбора подходящего контента.
Условия и пороги:
- Фильтрация: Применяются пороги частотности запроса и метрик производительности.
- Сопоставление: Применяется пороговое расстояние (ε) в векторном пространстве. Запрос считается соответствующим, если расстояние до эталонного запроса меньше ε.

Пошаговый алгоритм

Фаза 1: Генерация эталонных запросов (Офлайн)

Сбор информации: Сбор исходных данных для целевой категории (отзывы, контент сайтов, примеры запросов).
Генерация промпта: Создание текстового промпта, включающего цель, исходные данные и строгие ограничения (Constraints) для уточнения интента (например, только сервисный интент).
Обращение к LLM: Подача промпта на вход обученной языковой модели.
Получение кандидатов: Получение списка сгенерированных кандидатов в Benchmark Queries.
Фильтрация и Валидация (Query Evaluator): Оценка кандидатов. Удаление запросов, которые не соответствуют критериям (например, низкая частота в исторических логах, низкие показатели эффективности, отрицательная оценка при ручной проверке).
Постобработка: Нормализация (например, удаление информации о местоположении), исправление орфографии, удаление дубликатов.
Финализация: Сохранение итогового набора Benchmark Queries.

Фаза 2: Расширение набора запросов (Офлайн)

Получение данных: Загрузка Benchmark Queries и Historical Queries.
Эмбеддинг: Преобразование всех запросов в векторные представления с использованием моделей машинного обучения.
Партиционирование: Разделение векторов по языкам для повышения эффективности обработки.
Вычисление расстояний (ScaM): Для каждого языка выполняется масштабируемое сопоставление ближайших соседей для нахождения пар (эталонный запрос, исторический запрос), расстояние между векторами которых меньше порогового значения (ε).
Идентификация соседей: Определение исторических запросов, которые семантически близки к эталонным.
Создание расширенного набора: Добавление идентифицированных исторических запросов в итоговый Query Set.

Фаза 3: Применение в реальном времени

Получение нового запроса: Поступление запроса от пользователя.
Сопоставление: Сравнение нового запроса с Query Set (используя механизм эмбеддинга и сопоставления).
Категоризация: Определение категории и интента запроса на основе наилучшего совпадения.
Выбор контента: Использование категории для выбора и предоставления релевантного контента (например, рекламы).

Какие данные и как использует

Данные на входе

Патент акцентирует внимание на данных, используемых для генерации промптов для LLM:

Контентные факторы: Отзывы о поставщиках услуг (text reviews, Claim 3), контент веб-сайтов поставщиков услуг (Claim 4), текст цифровых рекламных объявлений (creatives, Claim 6), текст органических результатов поиска (Claim 7).
Поведенческие факторы: Исторические поисковые запросы (Historical Queries, Claim 5). Частота запросов. Показатели эффективности (Performance metrics), связанные с запросами (клики, конверсии), используются для валидации качества сгенерированных запросов (Claim 10).
Географические и Пользовательские факторы: Язык запроса (используется для партиционирования при сопоставлении векторов). Информация о местоположении в запросах (используется для нормализации или исключения через Constraints, Claim 8).

Какие метрики используются и как они считаются

Модели машинного обучения: Используются LLM (для генерации) и модели для создания эмбеддингов (для сопоставления).
Векторные метрики:
- Расстояние между векторами (Distance): Вычисляется для определения семантической близости. Упоминаются скалярное произведение (dot product).
- Пороговое расстояние (ε): Максимально допустимое расстояние для признания двух запросов схожими.
- Косинусное сходство (Cosine similarity): Может использоваться для ранжирования схожести и определения подкатегорий.
Метрики эффективности (Performance metrics): Частота запросов в логах. Показатели выбора контента пользователями (например, CTR или конверсии), связанные с конкретными запросами.
Оценка качества: Ручная оценка (human review/evaluation) сгенерированных кандидатов.

Выводы

Автоматизация понимания интента с помощью LLM: Google активно внедряет LLM для автоматического определения пользовательского интента в масштабе, заменяя ручную категоризацию. Это позволяет быстро адаптироваться к новым вертикалям и типам запросов.
Генерация «Ground Truth» на основе промптов и ограничений: Определение того, что представляет собой категория, генерируется синтетически. Ключевую роль играют промпты: исходные данные (особенно отзывы и контент сайтов) и строгие ограничения (Constraints) значительно влияют на результат и обеспечивают точное разделение интентов (например, сервисный vs информационный).
Валидация реальными данными: Сгенерированные LLM запросы не принимаются слепо. Они проходят строгую фильтрацию на основе реальных данных о поведении пользователей (частота запросов, показатели эффективности) и, возможно, ручной оценки.
Векторные эмбеддинги как стандарт сопоставления: Патент подтверждает, что векторные эмбеддинги (Neural Matching) являются стандартным механизмом для определения семантической схожести запросов, вытесняя старые методы (например, основанные на грамматиках или точном совпадении).
Эффективность и масштабируемость: При работе с миллиардами запросов эффективность имеет значение. Патент подчеркивает важность использования ScaM и разделения векторных сравнений по языкам для значительного ускорения обработки.

Практика

Best practices (это мы делаем)

Фокус на четком выравнивании интента (Intent Alignment): Необходимо четко разделять транзакционный (нанять, купить услугу) и информационный (DIY, обзоры) интент. Патент показывает, что Google активно разделяет их, используя Constraints (Claim 8). Создавайте контент, который точно соответствует одному конкретному намерению, особенно для страниц услуг.
Активная работа с отзывами (Review Management) и UGC: Google использует отзывы клиентов (Reviews) как прямой источник данных для LLM (Claim 3), чтобы понять, как пользователи говорят о вертикали. Стимулируйте клиентов оставлять подробные, естественные отзывы, описывающие оказанную услугу.
Анализ языка целевой аудитории и его интеграция: Анализируйте язык из отзывов и успешных рекламных объявлений (Creatives) в вашей нише. Интеграция этого языка в контент сайта критически важна для семантического выравнивания с генерируемыми эталонами.
Оптимизация под семантический поиск (Vector Space): Поскольку сопоставление происходит в векторном пространстве (Claim 21), необходимо оптимизировать контент под смысл и контекст (Topical Authority), а не под точное совпадение ключевых слов. Контент должен быть семантически близок к эталонным запросам категории.

Worst practices (это делать не надо)

Смешивание интентов на одной странице: Попытка ранжировать одну страницу по информационным (DIY) и транзакционным (услуга) запросам контрпродуктивна. Google явно исключает информационный интент при генерации эталонов для сервисных вертикалей.
Keyword Stuffing и неестественный язык: Попытки манипулировать релевантностью через повторение ключевых слов неэффективны, так как система использует эмбеддинги для определения семантической близости.
Игнорирование нюансов языка в мультиязычном SEO: Патент подчеркивает разделение обработки по языкам. Это говорит о том, что модели сопоставления чувствительны к языковому контексту, и прямой перевод контента может быть неэффективным без учета локальной семантики.

Стратегическое значение

Патент подтверждает стратегический сдвиг в сторону классификации интентов, управляемой ИИ, и семантического сопоставления. SEO-стратегии должны быть направлены на создание контента, который четко сигнализирует о своем назначении и релевантности в семантическом векторном пространстве, которое Google строит автоматически. Понимание того, как Google использует LLM для генерации запросов на основе реальных данных (отзывы, сайты), дает представление о том, какие концепции Google считает эталонными для темы.

Практические примеры

Сценарий: Оптимизация страницы локальной услуги (Сантехник)

Анализ исходных данных (по патенту): Google использует отзывы клиентов для понимания вертикали (см. пример промпта 3B в патенте).
Действие SEO-специалиста: Провести детальный анализ отзывов клиентов (своих и конкурентов). Выделить общие фразы и проблемы (например, «течет труба», «срочный вызов сантехника», «установка бойлера»).
Интеграция: Убедиться, что контент на целевой странице использует этот естественный язык, отвечая на эти потребности.
Уточнение интента (по патенту): Google использует ограничения (Constraints), чтобы исключить DIY контент при определении интента услуги.
Действие SEO-специалиста: Убедиться, что на странице услуги нет длинных разделов о том, как выполнить работу самостоятельно. Фокус должен быть на услуге, экспертизе и призывах к действию (CTA).
Ожидаемый результат: Выравнивание языка страницы с языком, который LLM использует для генерации эталонных запросов, увеличивает вероятность семантического совпадения (в векторном пространстве), улучшая категоризацию страницы как релевантной для транзакционного интента.

Вопросы и ответы

Этот патент больше о платной рекламе (Paid Search) или органическом поиске (SEO)?

Патент в первую очередь описывает инфраструктуру для Content Selection, что часто означает выбор рекламы или специализированных блоков (например, Local Services). Однако методы, описанные в нем — использование LLM для понимания интента и векторные эмбеддинги для семантического сопоставления (Neural Matching) — являются фундаментальными технологиями, которые используются Google повсеместно, в том числе и в органическом поиске для понимания запросов.

Что такое «эталонные запросы» (Benchmark Queries) и почему они важны?

Benchmark Queries — это запросы, которые система считает идеальными примерами («ground truth») интереса пользователя к определенной категории. Они важны, потому что служат эталоном: если новый запрос пользователя семантически похож на эталонный запрос, система с высокой уверенностью классифицирует его как принадлежащий к той же категории.

Как Google решает проблему медленного ручного создания этих эталонных запросов?

Google автоматизирует этот процесс, используя большие языковые модели (LLM). Вместо того чтобы люди придумывали запросы, система создает специфический промпт, включающий исходные данные о категории и ограничения, и поручает LLM сгенерировать разнообразный набор релевантных запросов.

Что такое «ограничения» (Constraints) в промптах и как это влияет на SEO?

Constraints — это правила в промпте, которые указывают LLM, какие запросы НЕ нужно генерировать (например, «не включать запросы о DIY» или «не включать запросы о покупке оборудования»). Для SEO это подчеркивает необходимость четкого разделения интентов: страница услуги должна быть сфокусирована на транзакционном интенте и избегать контента, который может быть классифицирован как чисто информационный.

Какие данные Google использует в качестве основы для генерации этих запросов?

Патент упоминает несколько источников данных, которые включаются в промпты: отзывы клиентов (Reviews), контент веб-сайтов поставщиков услуг, исторические поисковые запросы, известные как релевантные для категории, и текст рекламных объявлений (Creatives).

Как это подтверждает важность отзывов (UGC) для SEO?

Отзывы напрямую упоминаются как ключевой источник данных для промптов LLM. Это означает, что Google анализирует язык, который реальные клиенты используют в отзывах, чтобы понять, как выглядит спрос на услугу. Интеграция этого языка в контент сайта критически важна для семантического выравнивания.

Принимает ли Google сгенерированные LLM запросы без проверки?

Нет. Патент описывает этап фильтрации. Сгенерированные запросы проверяются на соответствие критериям, таким как минимальная частота использования в реальных исторических логах и показатели эффективности (например, приводили ли эти запросы к конверсиям в прошлом). Также может применяться ручная оценка.

Что такое механизм сопоставления на основе векторов, описанный в патенте?

Это процесс, при котором запросы преобразуются в числовые векторы (эмбеддинги) с помощью ML-моделей. Семантическое сходство определяется путем измерения расстояния между этими векторами в многомерном пространстве (например, с помощью ScaM). Если расстояние меньше определенного порога (ε), запросы считаются схожими.

Зачем система расширяет набор эталонных запросов?

Чтобы увеличить охват (Recall). Изначальный набор эталонных запросов может не покрывать все возможные формулировки. Расширение позволяет найти в исторических логах все запросы, которые семантически похожи на эталонные, и добавить их в итоговый Query Set, обеспечивая более полное покрытие интента.

Какое значение имеет разделение запросов по языкам при сопоставлении?

Патент подчеркивает, что разделение векторов по языкам перед выполнением сопоставления значительно повышает эффективность обработки (упоминается потенциальное ускорение на 600%). Это также повышает точность, поскольку семантическое сравнение происходит только в контексте одного языка, избегая ложных совпадений.