Google обучает Большие Языковые Модели (LLM) для предсказания семантических обобщений («generalizations») публичных поисковых запросов. Эти обобщения преобразуются в «токены поиска» (retrieval tokens), которыми аннотируются запросы в базе данных. Это позволяет системам, таким как Google Ads Keyword Planner, более точно находить релевантные ключевые слова, не запуская LLM в реальном времени.
Описание
Какую задачу решает
Патент решает проблему сложности и ресурсоемкости аннотирования миллиардов публичных поисковых запросов так называемыми Retrieval Tokens (токенами поиска). Эти токены необходимы для эффективного поиска семантически связанных запросов, что критично для работы систем подбора ключевых слов (например, Keyword Planner) и таргетинга Digital Components (цифровых компонентов, таких как реклама). Существующие системы, основанные на правилах релевантности и анализе трафика, сложны в обновлении и требуют постоянной ручной настройки.
Что запатентовано
Запатентован метод использования Большой Языковой Модели (LLM) для автоматической генерации Retrieval Tokens. LLM обучается предсказывать семантические обобщения (Generalizations) для входящих запросов. Этот процесс выполняется офлайн, что позволяет использовать мощь LLM для понимания семантики без необходимости запуска модели в реальном времени и, как подчеркивается в патенте, снижает риск галлюцинаций.
Как это работает
Система работает в несколько этапов:
- Сбор обучающих данных: Используется существующая система поиска ключевых слов. Подается Seed Keyword (посевное ключевое слово), и система возвращает набор связанных запросов (Training Sample).
- Обучение LLM: Модель обучается на этих данных. Задача LLM — по набору связанных запросов (Training Sample) предсказать исходный Seed Keyword или другое релевантное обобщение (Generalization).
- Применение (Офлайн): Обученная LLM обрабатывает весь корпус публичных запросов (Query Store) для генерации Generalizations для каждого запроса.
- Генерация токенов: Из Generalizations определяются Retrieval Tokens (либо напрямую, либо через пост-обработку).
- Хранение: Запросы аннотируются новыми токенами и сохраняются в базе данных.
- Использование (Runtime): Системы типа Keyword Planner при получении запроса ищут совпадения в базе аннотированных запросов, не обращаясь к LLM напрямую.
Актуальность для SEO
Высокая. Это очень свежая заявка на патент (подача в мае 2024 года), описывающая применение современных LLM для решения ключевой инфраструктурной задачи — масштабного семантического анализа и категоризации запросов. Это отражает текущие тренды использования LLM для улучшения базовых поисковых и рекламных технологий.
Важность для SEO
Влияние на SEO умеренное (6.5/10). Патент в первую очередь описывает инфраструктуру, которая, вероятнее всего, используется для Google Ads Keyword Planner и систем таргетинга рекламы. Он не описывает алгоритмы органического ранжирования. Однако он дает критически важное понимание того, как Google использует LLM для семантического обобщения, категоризации и связывания запросов на самом глубоком уровне (Query Understanding). Это влияет на то, как SEO-специалисты должны интерпретировать данные из инструментов подбора ключевых слов и строить семантическое ядро.
Детальный разбор
Термины и определения
- Digital Component (Цифровой компонент)
- Дискретная единица цифрового контента (видео, аудио, изображение, текст). В контексте патента часто подразумевается рекламное объявление (advertisement).
- Generalization (Обобщение)
- N-грамма (фраза), предсказанная LLM, которая семантически описывает или обобщает один или несколько входных запросов.
- Language Model (LLM) (Языковая модель)
- Модель (например, на архитектуре Transformer), обученная на больших объемах текста, используемая здесь для предсказания Generalizations. Упоминаются multitask unified model, zero-shot model и другие.
- Public Queries (Публичные запросы)
- Реальные запросы, полученные от пользователей поисковой системы и сохраненные в Query Store.
- Retrieval Token (Токен поиска)
- Токен (слово или короткая фраза), используемый для аннотирования запроса. Является семантическим обобщением запроса. Используется для индексации и быстрого поиска связанных запросов.
- Seed Keyword (Посевное ключевое слово)
- Ключевое слово, которое подается на вход существующей системе поиска для генерации Training Sample. Оно же является целевым предсказанием (target label) для LLM во время обучения.
- Training Sample (Обучающий пример)
- Набор из одного или нескольких связанных запросов из Query Store, используемый как входные данные для обучения LLM.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод генерации токенов поиска.
- Система получает множество обучающих примеров (Training Samples), каждый из которых состоит из одного или нескольких запросов из Query Store.
- Обучается языковая модель (LLM) предсказывать одно или несколько обобщений (Generalizations) в виде n-грамм для каждого обучающего примера.
- Обученная LLM используется для обработки запросов в Query Store и предсказания Generalizations для каждого запроса.
- Для каждого запроса из предсказанных Generalizations определяются токены поиска (Retrieval Tokens).
- В базе данных сохраняется ассоциация между запросом и его Retrieval Tokens.
Claim 3 (Зависимый от 1): Детализирует процесс получения обучающих примеров.
- Система подает Seed Keyword на вход процессу поиска (существующей системе).
- Происходит доступ к базе данных, где запросы уже ассоциированы с какими-то Retrieval Tokens (предположительно, сгенерированными старым методом).
- На основе Seed Keyword и существующих Retrieval Tokens выбираются один или несколько запросов, которые формируют Training Sample.
Claim 4 (Зависимый от 3): Определяет цель обучения LLM.
LLM обучается предсказывать тот самый Seed Keyword, который был использован для генерации данного Training Sample (согласно Claim 3). Это ключевой механизм самообучения или дистилляции знаний из существующей системы.
Claim 6 и 7 (Зависимые от 1): Уточняют отношение между Generalization и Retrieval Token.
- Claim 6: Retrieval Token может быть самим Generalization (прямое использование вывода LLM).
- Claim 7: Retrieval Token может быть получен путем обработки Generalization, при этом набор терминов в токене отличается от обобщения (например, путем удаления стоп-слов или слишком общих терминов).
Claim 8 (Зависимый от 1): Описывает возможность использования контекста при генерации токенов.
При обработке конкретного запроса, в LLM можно подать не только его, но и один или несколько context queries (контекстных запросов). LLM генерирует Generalizations на основе целевого запроса и его контекста.
Где и как применяется
Изобретение затрагивает инфраструктурные процессы, связанные с пониманием и индексацией корпуса поисковых запросов, в первую очередь для поддержки рекламных инструментов.
QUNDERSTANDING – Понимание Запросов
Это основной этап применения. Система использует LLM для глубокого семантического анализа корпуса публичных запросов офлайн. Цель — понять не только текст запроса, но и его более широкие категории и связи с другими запросами, что является частью глобального Query Understanding.
INDEXING – Индексирование и извлечение признаков
Патент описывает процесс индексирования и аннотирования самих запросов в Query Store (а не веб-страниц). LLM используется офлайн для извлечения ключевых признаков (Generalizations) и аннотирования запросов с помощью Retrieval Tokens. Эти аннотированные данные сохраняются для последующего использования.
Взаимодействие компонентов:
- AI System / LLM: Выполняет основную работу по обучению и генерации Generalizations офлайн.
- Query Store: Источник данных (публичных запросов) для обучения и цель для аннотирования.
- Keyword Retrieval Server (Runtime): Использует аннотированные данные для ответа на запросы систем типа Keyword Planner.
Входные данные (для LLM):
- Во время обучения: Training Sample (набор связанных запросов).
- Во время инференса (генерации токенов): Отдельный запрос из Query Store, опционально с context queries.
Выходные данные (от LLM):
- Generalizations (n-граммы), которые затем преобразуются в Retrieval Tokens.
На что влияет
- Специфические системы: Наибольшее влияние оказывается на системы подбора ключевых слов (например, Google Ads Keyword Planner) и системы таргетинга рекламы или другого контента (Digital Components).
- Типы контента и запросов: Влияет на все типы публичных поисковых запросов (информационные, коммерческие и т.д.) и все тематики, так как цель — аннотировать весь доступный корпус запросов для улучшения семантического поиска по ним.
Когда применяется
- Обучение и генерация токенов: Процесс выполняется офлайн. LLM обучается и затем используется для пакетной обработки Query Store. Это может происходить периодически для обновления аннотаций.
- Использование токенов: Происходит в реальном времени (runtime), когда пользователь или система отправляет запрос в Keyword Retrieval Server (например, при использовании Keyword Planner). Важно отметить, что сама LLM в этот момент не выполняется.
Пошаговый алгоритм
Процесс А: Генерация обучающих данных и обучение LLM (Офлайн)
- Выбор посевных слов: Определяется набор Seed Keywords.
- Генерация обучающих примеров: Для каждого Seed Keyword выполняется запрос к существующей системе поиска ключевых слов.
- Сбор связанных запросов: Система возвращает набор связанных публичных запросов. Этот набор формирует Training Sample.
- Обучение LLM: LLM обучается на парах {Training Sample (вход), Seed Keyword (целевой выход)}. Задача модели — научиться обобщать входные запросы до уровня исходного посевного слова.
Процесс Б: Генерация токенов и аннотирование (Офлайн)
- Инференс LLM: Обученная LLM обрабатывает каждый запрос из Query Store.
- Опционально: Для запроса могут быть выбраны context queries, которые подаются в LLM вместе с целевым запросом.
- Генерация обобщений: LLM предсказывает одно или несколько Generalizations (n-грамм) для запроса.
- Определение токенов поиска: Из Generalizations определяются Retrieval Tokens. Это может включать пост-обработку (например, фильтрацию стоп-слов).
- Аннотирование и хранение: Запрос ассоциируется с новыми Retrieval Tokens и сохраняется в базе данных аннотированных запросов.
Процесс В: Использование (Runtime)
- Получение запроса: Пользователь вводит ключевое слово в интерфейс (например, Keyword Planner).
- Обработка сервером: Keyword Retrieval Server получает запрос.
- Поиск в базе данных: Сервер ищет связанные запросы, используя базу данных, аннотированную Retrieval Tokens (сгенерированными в Процессе Б).
- Возврат результатов: Пользователю возвращается список семантически связанных ключевых слов (публичных запросов). LLM в этом процессе не участвует.
Какие данные и как использует
Данные на входе
- Поведенческие факторы (Исторические данные): Основной источник данных — публичные поисковые запросы пользователей, сохраненные в Query Store.
- Контентные факторы: Текст самих запросов (n-граммы), который анализируется LLM.
- Системные данные: Существующие Retrieval Tokens, сгенерированные предыдущими версиями системы, и Seed Keywords используются для генерации обучающих данных (Training Samples).
Какие метрики используются и как они считаются
Патент фокусируется на методологии обучения и применения LLM, а не на конкретных метриках ранжирования.
- Generalizations: Основная метрика, генерируемая LLM. Представляет собой семантическое обобщение в виде n-граммы.
- Retrieval Tokens: Конечный результат обработки, используемый для аннотирования.
- Методы машинного обучения: Используется Large Language Model (например, на базе архитектуры Transformer). Обучение происходит путем предсказания Seed Keyword на основе связанных запросов (что можно рассматривать как форму дистилляции знаний из существующей системы или обучение с учителем на автоматически сгенерированных данных).
Конкретные формулы, пороговые значения или весовые коэффициенты в патенте не указаны.
Выводы
- LLM как инструмент семантического обобщения: Патент демонстрирует применение LLM для глубокого понимания и категоризации существующих запросов (Query Understanding). Модель учится находить общие категории (Generalizations) для семантически близких запросов.
- Инфраструктурный подход (LLM офлайн): Критически важно, что LLM используется офлайн для аннотирования данных, а не в реальном времени. Это позволяет использовать сложные модели, экономит вычислительные ресурсы в runtime и предотвращает риск галлюцинаций LLM, так как система возвращает реальные публичные запросы, а не сгенерированный текст.
- Автоматизированное обучение (Дистилляция знаний): Описан эффективный метод сбора обучающих данных путем использования вывода существующей системы (Seed Keyword -> связанные запросы). LLM обучается воспроизводить или улучшать эту логику, что позволяет автоматизировать процесс, который ранее требовал ручной настройки.
- Важность семантических аннотаций (Retrieval Tokens): Патент подтверждает, что Google активно использует промежуточные семантические представления (аннотации) для связывания запросов между собой. Понимание запроса выходит далеко за рамки текстового совпадения.
- Фокус на рекламных инструментах: Основная цель изобретения — улучшение качества работы инструментов подбора ключевых слов (Keyword Planner), используемых для таргетинга Digital Components (рекламы).
Практика
Best practices (это мы делаем)
Хотя патент сфокусирован на инфраструктуре инструментов, он дает важные инсайты для SEO-стратегии относительно того, как Google понимает и группирует запросы.
- Интерпретация данных Keyword Planner: Необходимо понимать, что данные из инструментов подбора ключевых слов теперь основаны на глубоком семантическом анализе с помощью LLM. Предложенные варианты и группировки должны быть более релевантными интенту, даже если они не содержат исходных слов. Используйте эти данные для анализа того, как Google обобщает запросы в вашей нише.
- Мышление категориями и обобщениями (Generalizations): При сборе семантического ядра и кластеризации следует фокусироваться не только на синонимах, но и на более широких категориях (Generalizations), к которым относятся запросы. Понимание того, как LLM может обобщить ваш кластер запросов, поможет в построении Topical Authority.
- Анализ семантических связей: Изучайте, какие запросы Google считает связанными. Если LLM аннотирует разные запросы одинаковыми Retrieval Tokens, это сильный сигнал об их семантической близости и взаимозаменяемости с точки зрения системы.
Worst practices (это делать не надо)
- Ориентация только на точное вхождение ключей: Патент подчеркивает переход к семантическому обобщению. Стратегии, основанные на точном соответствии ключевых слов, будут терять эффективность, так как система оперирует более широкими категориями (Retrieval Tokens).
- Игнорирование «странных» предложений в Keyword Planner: Не стоит сразу отбрасывать предложенные варианты ключевых слов, которые кажутся не связанными текстуально. Они могут быть результатом работы LLM, которая выявила глубокую семантическую связь или общий интент.
- Рассмотрение запросов в изоляции: Нельзя игнорировать контекст. Система может учитывать context queries для лучшего понимания интента. Контент должен учитывать возможный семантический контекст, в котором пользователь ищет информацию.
Стратегическое значение
Патент подтверждает стратегический приоритет Google в использовании самых мощных LLM для фундаментальных задач Query Understanding во всех системах, включая рекламную инфраструктуру. Это подчеркивает переход от мира ключевых слов к миру концепций и интентов. Для долгосрочной SEO-стратегии критически важно строить семантически богатый контент, который соответствует не только конкретным формулировкам запросов, но и тем обобщениям (Generalizations), которые Google из них извлекает.
Практические примеры
Сценарий: Использование Keyword Planner для выявления семантических обобщений
- Задача: Понять, как Google обобщает запросы, связанные с покупкой беговой обуви.
- Действие: Ввести в Keyword Planner узкий запрос (как Seed Keyword), например, «купить кроссовки для марафона с карбоновой пластиной».
- Анализ результатов: Изучить предложенные варианты ключевых слов. Если система работает на базе описанной технологии, она вернет запросы, которые имеют схожие Retrieval Tokens.
- Выявление обобщений: Если среди результатов появляются запросы типа «лучшая обувь для соревнований», «кроссовки для быстрого бега», «профессиональная беговая экипировка», это указывает на то, что LLM сгенерировала соответствующие обобщающие токены для исходного узкого запроса.
- Применение в SEO: Убедиться, что контент на целевой странице охватывает эти обобщенные концепции (соревнования, скорость, профессиональный уровень), а не только специфические характеристики товара (карбоновая пластина).
Вопросы и ответы
Описывает ли этот патент алгоритмы органического ранжирования?
Нет, напрямую этот патент не описывает, как ранжируются веб-страницы в органическом поиске. Он описывает инфраструктурный процесс аннотирования самих поисковых запросов с помощью LLM. Эти аннотации затем используются другими системами, в первую очередь инструментами подбора ключевых слов (Keyword Planner) и системами таргетинга рекламы.
Что такое «Retrieval Token» в контексте этого патента?
Retrieval Token — это семантическое обобщение запроса, представленное в виде слова или короткой фразы. Он используется как аннотация к запросу для его индексации. Это позволяет системе быстро находить семантически связанные запросы, если они имеют общие Retrieval Tokens.
Используется ли LLM в реальном времени, когда я ищу ключевые слова в Keyword Planner?
Нет. Патент специально подчеркивает, что LLM используется офлайн для предварительной генерации Retrieval Tokens и аннотирования всего корпуса запросов. В реальном времени (runtime) система использует уже готовую базу данных аннотированных запросов. Это экономит ресурсы и ускоряет ответ.
Как этот патент влияет на сбор семантического ядра?
Он напрямую влияет на качество работы инструментов типа Keyword Planner. Поскольку за генерацию связей между ключевыми словами теперь отвечает мощная LLM, результаты подбора должны стать более семантически точными и полными. SEO-специалисты должны ожидать более релевантных предложений и группировок, отражающих реальный интент пользователей.
Что такое «Generalization» и чем оно отличается от «Retrieval Token»?
Generalization — это прямой вывод (output) LLM, n-грамма, которая обобщает входной запрос. Retrieval Token — это конечная аннотация, которая сохраняется в базе данных. Retrieval Token может быть равен Generalization, а может быть результатом его пост-обработки (например, после удаления стоп-слов).
Как Google собирает данные для обучения этой LLM?
Используется автоматизированный подход. Система берет Seed Keyword, подает его в существующую систему подбора ключей и получает набор связанных запросов (Training Sample). Затем LLM обучается предсказывать исходный Seed Keyword, получая на вход Training Sample. Это позволяет обучать модель на огромном количестве данных без ручной разметки.
В чем преимущество использования LLM по сравнению со старыми методами генерации токенов?
Старые методы, основанные на правилах релевантности и анализе трафика, требовали сложной настройки и постоянного обновления. LLM способна лучше улавливать сложные семантические связи и новые значения (emergent semantics) из корпуса запросов автоматически, что повышает качество обобщения и снижает затраты на поддержку системы.
Что такое «Digital Component» в этом патенте?
Digital Component — это любая дискретная единица цифрового контента. В контексте патента это чаще всего относится к рекламе (advertisement) или рекомендованному контенту, который необходимо таргетировать на пользователей. Описанная система помогает находить релевантные ключевые слова для этого таргетинга.
Предотвращает ли этот метод галлюцинации LLM?
Да, патент отмечает это как преимущество. Поскольку LLM используется офлайн для генерации токенов поиска, а не для генерации нового текста в ответ пользователю, риск галлюцинаций снижается. Система в конечном итоге возвращает реальные публичные запросы, найденные с помощью этих токенов.
Что означает использование «Context Queries» (Claim 8)?
Это означает, что при анализе конкретного запроса LLM может учитывать не только его текст, но и другие связанные с ним запросы (контекст). Это помогает модели точнее понять смысл и сгенерировать более релевантное обобщение, особенно для неоднозначных или коротких запросов.