Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей

Google использует метод для идентификации «родственных запросов» (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, «погода в Москве» и «погода в Париже»). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.

Описание

Какую задачу решает

Патент решает критическую проблему масштабирования машинного обучения в поиске: необходимость в огромных объемах размеченных обучающих данных (training data) для NLP-моделей, классифицирующих намерения пользователей. Ручная разметка неэффективна. Изобретение предлагает автоматизированный метод генерации этих данных путем идентификации запросов с одинаковой структурой интента, но разными переменными (Sibling Search Queries), не полагаясь на существующие NLP-модели или ручной труд.

Что запатентовано

Запатентована система для автоматического расширения наборов обучающих данных для ML-моделей. Система определяет, являются ли два запроса «родственными» (имеют ли одинаковый интент), путем анализа структуры окружающих их «экосистем» запросов в логах (Search Query Log) и поведения пользователей, а не путем лингвистического анализа самих запросов. Если запросы признаются родственными, они используются для генерации новых обучающих примеров.

Как это работает

Механизм основан на предположении, что запросы с одинаковым интентом будут окружены схожими паттернами других запросов в логах.

Система берет два запроса, Q1 и Q2 (например, «погода в Москве» и «погода в Париже»).
Для каждого запроса из логов извлекается набор похожих запросов (Similar Search Queries), основываясь на поведении пользователей (например, общие клики на результаты).
Из этих похожих запросов генерируются шаблоны (Search Query Templates) путем замены целевых слов («Москва» или «Париж») на подстановочный знак (wildcard, [*]).
Вычисляется Sibling Score — мера пересечения между наборами шаблонов для Q1 и Q2.
Если Sibling Score высок, запросы считаются родственными, и генерируется новый обучающий пример для ML-модели.

Актуальность для SEO

Высокая. Автоматическое расширение данных (Data Augmentation) для обучения сложных NLP-моделей (таких как BERT, MUM) и глубокое понимание структуры интента запросов являются критически важными задачами для современных поисковых систем. Описанный метод позволяет Google масштабировать понимание интентов без ручного труда и независимо от языка.

Важность для SEO

Патент имеет важное стратегическое значение (7/10). Он не описывает алгоритм ранжирования напрямую, но раскрывает ключевой механизм того, как Google масштабно обучает свои системы понимать структуру запросов и классифицировать интенты. Это подчеркивает важность стратегии Topical Authority: полное покрытие родственных сущностей (siblings) в рамках одного структурного интента помогает Google идентифицировать сайт как экспертный ресурс для данного класса запросов.

Детальный разбор

Термины и определения

Context Template (Шаблон контекста): Структура запроса, состоящая из последовательности слов и одного или нескольких подстановочных знаков (Wildcards). Например, «[*] на испанском».
Sibling Search Queries (Родственные поисковые запросы): Два или более запроса, которые удовлетворяют одному и тому же Context Template и имеют высокий Sibling Score. Они выражают одинаковый интент, но для разных переменных. Например, «[привет] на испанском» и «[спасибо] на испанском».
Sibling Score (Оценка родства): Числовая метрика, количественно определяющая сходство между наборами Search Query Templates, сгенерированными для двух запросов.
Search Query Log (Лог поисковых запросов): База данных, хранящая информацию о запросах пользователей и их взаимодействии с результатами поиска. Основной источник данных для этого патента.
Search Query Template (Шаблон поискового запроса): Шаблон, сгенерированный из конкретного поискового запроса путем замены Target/Sibling Word Sequence на Wildcard.
Similar Search Queries (Похожие поисковые запросы): Набор запросов из Search Query Log, которые определены как похожие на исходный запрос (на основе поведения пользователей, например, общих кликов) и содержат ту же Target/Sibling Word Sequence.
Target Word Sequence / Sibling Word Sequence (Целевая / Родственная последовательность слов): Последовательность слов в запросе, которая соответствует Wildcard в Context Template. Это переменная часть запроса (например, сущность, местоположение).
Training Data (Обучающие данные): Набор примеров (входные данные + целевой результат), используемый для обучения модели машинного обучения. Патент фокусируется на автоматической генерации этих данных.
Wildcard (Подстановочный знак, [*]): Плейсхолдер в шаблоне, представляющий переменные данные (variable data).

Ключевые утверждения (Анализ Claims)

Важно отметить, что Claims 1-20 в данном патенте (US11379527B2) фокусируются конкретно на использовании механизма определения родственных запросов для автоматической генерации обучающих данных для моделей машинного обучения.

Claim 1 (Независимый пункт): Описывает метод обучения ML-модели с использованием автоматически сгенерированных данных.

Получение исходного обучающего примера (given training example: given training input + target output).
Генерация множества новых обучающих примеров. Каждый новый пример содержит новый ввод (new training input) и тот же target output. Процесс генерации включает:
1. Идентификацию первого набора запросов из Search Query Log на основе исходного ввода.
2. Идентификацию второго набора запросов из лога на основе нового ввода.
3. Определение Sibling Score между исходным и новым вводом на основе этих двух наборов.
4. Подтверждение того, что Sibling Score удовлетворяет критерию приемлемости (acceptance criterion).
Обучение ML-модели на новых примерах.

Система автоматически расширяет обучающую выборку. Если известно, что для запроса «погода в Москве» нужно показать погодный информер (target output), и система определяет, что «погода в Париже» является родственным запросом (высокий Sibling Score), то создается новый обучающий пример: «погода в Париже» + погодный информер.

Claim 6 (Зависимый от 1, 4, 5): Детализирует механизм расчета Sibling Score.

Sibling Score количественно определяет меру сходства (similarity measure) между первым и вторым наборами Search Query Templates.
Первый набор шаблонов генерируется путем замены Target Word Sequence (из исходного ввода) на Wildcard в первом наборе запросов.
Второй набор шаблонов генерируется путем замены Sibling Word Sequence (из нового ввода) на Wildcard во втором наборе запросов.

Это ядро изобретения: сходство определяется не лингвистически, а через сравнение структуры экосистемы запросов вокруг них в логах.

Claim 7 (Зависимый от 6): Определяет формулу для Sibling Score.

Оценка основана на отношении (ratio): (i) количества общих шаблонов в обоих наборах к (ii) общему количеству шаблонов в одном из наборов (первом или втором). Это измеряет степень пересечения наборов шаблонов.

Где и как применяется

Изобретение применяется в инфраструктуре машинного обучения Google, в частности, в конвейерах обработки данных и обучения NLP-моделей.

QUNDERSTANDING – Понимание Запросов (Инфраструктура / Офлайн-процессы)
Это основная область применения. Система работает в офлайн-режиме для анализа Search Query Logs и генерации Training Data. Она позволяет автоматически генерировать данные для обучения моделей, которые классифицируют интенты запросов (например, модели, решающие, нужно ли показывать специальный блок в выдаче, такой как Weather Panel).

INDEXING – Индексирование (Сбор данных)
Процесс использует данные, собранные и проиндексированные из активности пользователей — Search Query Logs и данные о взаимодействии с результатами (клики).

Входные данные:

Исходный обучающий пример (Запрос + Метка интента).
Search Query Logs.
Данные о взаимодействии пользователей с результатами поиска (для определения схожести запросов).

Выходные данные:

Расширенный набор Training Data (Новые родственные запросы + та же Метка интента).
Обученная модель машинного обучения (конечный продукт процесса).

На что влияет

Специфические запросы: Наибольшее влияние оказывается на запросы с четкой структурой «Интент + Переменная (Сущность)». Например, информационные запросы о фактах, погоде, переводах, ценах на продукты, рецептах.
Конкретные форматы контента (SERP Features): Влияет на способность Google точно распознавать интенты, для которых должны активироваться специальные блоки выдачи (Weather Panels, Knowledge Panels, Translation Boxes).
Языковые ограничения: Одно из ключевых преимуществ метода в том, что он не зависит от конкретного языка, так как анализирует структуру логов и поведение пользователей, а не лингвистику (independent of natural language processing).

Когда применяется

Временные рамки и частота применения: Применяется в офлайн-режиме в процессе разработки и обновления (обучения) моделей машинного обучения (Training System). Не применяется в реальном времени при обработке запроса пользователя.
Триггеры активации: Необходимость расширить обучающую выборку для определенного класса интента, особенно для интентов с большим количеством вариаций сущностей (например, названия городов, имена людей, названия продуктов).

Пошаговый алгоритм

Процесс: Генерация обучающих данных с использованием Sibling Scoring System.

Получение исходных данных: Система получает исходный обучающий пример. Например: Запрос Q1=»[привет] на испанском», Метка L1=»Показать блок перевода».
Идентификация структуры: Определяется Context Template («[*] на испанском») и Target Word Sequence W1 («привет»).
Поиск кандидатов: Система идентифицирует кандидатов Q_cand в Search Query Log, которые удовлетворяют тому же Context Template. Например, Q_cand=»[спасибо] на испанском», W_cand=»спасибо».
Генерация похожих запросов (Набор 1): Для Q1 из логов извлекается набор Similar Search Queries S1, содержащих W1 (например, «как сказать привет на испанском»). Сходство определяется по общим кликам пользователей на результаты поиска.
Генерация шаблонов (Набор 1): W1 в S1 заменяется на [*], формируя набор шаблонов T1 (например, «как сказать [*] на испанском»).
Генерация похожих запросов (Набор 2): Для Q_cand извлекается набор Similar Search Queries S2, содержащих W_cand.
Генерация шаблонов (Набор 2): W_cand в S2 заменяется на [*], формируя набор шаблонов T2.
Расчет Sibling Score: Система сравнивает T1 и T2 и вычисляет меру их пересечения.
Валидация и генерация примера: Если Sibling Score превышает порог (acceptance criterion), Q_cand признается родственным Q1. Генерируется новый обучающий пример: (Q_cand, L1).
Обучение модели: ML-модель обучается на расширенном наборе данных.

Какие данные и как использует

Данные на входе

Патент сосредоточен на использовании данных из логов поисковой системы и явно избегает использования NLP.

Поведенческие факторы (Критически важны): Используются Search Query Logs. Сходство между запросами (для генерации Similar Search Queries) определяется на основе логов взаимодействия пользователей с результатами поиска (user interaction with search results). Например, два запроса считаются похожими, если они часто ведут к взаимодействию (например, кликам) с одними и теми же результатами.
Контентные факторы (Текст запроса): Текстовые данные самих запросов используются для идентификации Context Template и Target/Sibling Word Sequences и выполнения операций замены на Wildcard.

Какие метрики используются и как они считаются

Sibling Score (Оценка родства): Ключевая метрика патента. Она измеряет сходство между двумя наборами Search Query Templates (T1 и T2).
Расчет (согласно Claim 7): Отношение (ratio) (i) количества шаблонов, общих для обоих наборов, к (ii) количеству шаблонов в первом или втором наборе.

Выводы

Автоматизация обучения AI без зависимости от NLP: Основная цель патента — автоматическое масштабирование генерации обучающих данных для ML-моделей. Это позволяет Google быстрее и дешевле обучать системы понимания языка, не полагаясь на ручную разметку или существующие NLP-модели (что избегает переноса ошибок старых моделей).
Определение интента через контекст использования: Патент демонстрирует метод определения контекстуальной схожести запросов (Sibling Queries) исключительно через сравнение структурных шаблонов, извлеченных из логов. Система определяет, что два разных слова играют одинаковую роль (имеют одинаковый интент), если они используются в одинаковых контекстах.
Критическая роль поведенческих данных: Поведение пользователей (взаимодействие с результатами) является фундаментальным источником данных не только для ранжирования, но и как источник истины для обучения базовых языковых моделей. Сходство запросов определяется через общие клики, а не текстовую близость.
Изучение сущностей «снизу вверх»: Система может автоматически обнаруживать категории сущностей (например, города, продукты), анализируя, какие слова используются в одинаковых Context Templates. Это позволяет находить новые сущности и интенты без использования предопределенных баз знаний или Knowledge Graph.
Подтверждение важности кластеризации интентов: Для SEO это подтверждает, что Google мыслит не отдельными ключевыми словами, а кластерами запросов, объединенных общим структурным интентом (Intent Classes).

Практика

Best practices (это мы делаем)

Построение Topical Authority через охват сущностей: Необходимо стремиться к полному охвату родственных сущностей (siblings) в рамках одного кластера интента. Если вы создаете контент под интент «отзывы о [*]», вы должны охватить максимально возможное количество релевантных продуктов в этой категории. Это помогает Google распознать сайт как авторитетный источник для всего класса запросов.
Структурирование контента под шаблоны интентов: Организуйте контент так, чтобы он четко отвечал на распространенные шаблоны запросов (Context Templates). Используйте последовательную структуру и естественные формулировки для однотипных сущностей. Например, создавайте структурированные страницы для интентов вида «цена [*]», «характеристики [*]», «сравнение [*] и [**]».
Анализ связанных сущностей (Siblings) при исследовании ключей: При исследовании ключевых слов обращайте внимание не только на синонимы, но и на структурно похожие запросы с другими сущностями. Понимание того, какие сущности Google считает родственными в вашем контексте (используя модели, обученные этим методом), позволяет лучше планировать контент-стратегию.
Фокус на удовлетворении интента (User Satisfaction): Поскольку схожесть запросов в этом механизме определяется через поведение пользователей (общие клики), это подтверждает критическую важность создания контента, который получает положительные поведенческие сигналы и удовлетворяет интент пользователя.

Worst practices (это делать не надо)

Изолированная оптимизация под одну сущность: Фокусироваться только на одном высокочастотном запросе (например, «погода в Москве») и игнорировать связанные сущности (другие города) снижает потенциал сайта стать авторитетом для данного класса интента.
Использование неестественных или редких формулировок: Попытки оптимизации под слишком сложные или редкие конструкции запросов могут быть неэффективны. Система ищет совпадения с наиболее распространенными, естественными паттернами использования языка, зафиксированными в логах.
Непоследовательное представление однотипной информации: Если информация об однотипных сущностях (например, разных моделях продукта) представлена хаотично, это может затруднить Google классификацию вашего контента как релевантного для всего класса интента.

Стратегическое значение

Патент демонстрирует, как Google масштабирует понимание естественного языка и интентов, автоматизируя процесс обучения своих ML-моделей, используя поведенческие данные как основу. Это позволяет системе быстро адаптироваться к новым запросам и сущностям. Для SEO это означает окончательный переход от оптимизации под ключевые слова к оптимизации под классы интентов (Intent Classes). Стратегически важно стать лучшим ответом для всего шаблона интента, охватывая максимальное количество связанных сущностей (siblings).

Практические примеры

Сценарий: Оптимизация сайта о питании под шаблон интента (Topical Authority)

Идентификация интента: SEO-специалист определяет ключевой шаблон интента: «[*] калорийность» (Context Template).
Анализ Sibling Entities: Определяются родственные сущности (Sibling Word Sequences), которые пользователи подставляют в этот шаблон: «банан», «яблоко», «куриная грудка», «шоколад» и т.д. Google понимает, что это продукты, используя описанный механизм для обучения своих моделей.
Стратегия контента: Ставится задача создать исчерпывающую базу данных, охватывающую максимальное количество этих сущностей. Для каждой сущности создается страница с четкой структурой, отвечающей на интент.
Ожидаемый результат: Google распознает, что все эти запросы являются родственными (Sibling Queries). Сайт, который качественно отвечает на большинство из них, получает преимущество в ранжировании по всему кластеру интента, так как воспринимается как авторитетный источник для данного шаблона запроса.

Вопросы и ответы

Что такое «родственный запрос» (Sibling Search Query) согласно патенту?

Это запрос, который имеет ту же структуру интента (Context Template), что и исходный запрос, но использует другую переменную (сущность). Например, «погода в Москве» и «погода в Париже» являются родственными запросами. Они оба соответствуют шаблону «погода в [*]» и выражают одинаковое намерение узнать погоду, но для разных локаций.

Как рассчитывается Sibling Score и что он означает?

Sibling Score измеряет, насколько похожи экосистемы запросов вокруг двух сравниваемых запросов. Для каждого запроса система находит похожие запросы в логах, затем генерирует из них шаблоны. Sibling Score рассчитывается как степень пересечения этих двух наборов шаблонов (например, отношение числа общих шаблонов к общему числу). Высокий балл означает, что запросы структурно и интенционально схожи.

Влияет ли этот патент напрямую на ранжирование?

Нет, напрямую этот патент не описывает алгоритм ранжирования. Он описывает механизм для автоматической генерации обучающих данных. Однако эти данные затем используются для обучения ML-моделей (например, классификаторов интентов), которые, в свою очередь, критически влияют на понимание запроса (QUNDERSTANDING) и формирование выдачи (например, решая, показывать ли определенный SERP feature).

Какова основная цель этого изобретения для Google?

Основная цель, защищенная в Claims, — это автоматизация и масштабирование генерации обучающих данных для моделей машинного обучения без ручной разметки и без использования существующих NLP-систем. Это позволяет Google быстрее и эффективнее обучать ИИ распознавать различные интенты и их вариации в масштабах всего интернета.

Чем этот метод отличается от традиционного NLP или распознавания сущностей (NER)?

Ключевое отличие в том, что этот метод не требует лингвистического анализа текста или заранее определенных баз знаний о сущностях (как NER). Он опирается исключительно на анализ структуры Search Query Logs и взаимодействия пользователей (кликов). Это делает его независимым от языка и позволяет обнаруживать новые сущности и интенты «снизу вверх».

Как этот патент связан с концепцией Topical Authority в SEO?

Он обеспечивает механизм, с помощью которого Google может группировать запросы по структурному интенту. Если сайт систематически отвечает на большое количество родственных запросов (Sibling Queries) в рамках одного шаблона интента (например, покрывает все города для интента «погода в [*]»), это сигнализирует о его авторитетности (Topical Authority) для данного класса запросов.

Как система определяет «Похожие запросы» (Similar Search Queries) для расчета Sibling Score?

Патент указывает, что сходство определяется на основе данных из Search Query Logs, характеризующих взаимодействие пользователей с результатами поиска. На практике это часто означает, что запросы считаются похожими, если пользователи часто кликают на одни и те же документы после ввода этих запросов (пересечение по кликам).

Приведите пример использования этого механизма, упомянутый в патенте.

В патенте приводится пример обучения модели, которая определяет, нужно ли показывать weather panel (погодный информер) в ответ на запрос. Начав с одного примера («weather [nyc]»), система автоматически находит все родственные запросы (например, «weather [paris]»), чтобы обучить модель распознавать интент о погоде для любого города, не имея заранее заданного списка городов.

Применяется ли этот алгоритм в реальном времени при обработке запроса пользователя?

Нет. Согласно описанию и Claims, это офлайн-процесс, используемый для анализа логов и генерации обучающих данных для ML-моделей. Сами ML-модели, обученные на этих данных, затем применяются в реальном времени для классификации интента входящего запроса.

Что это говорит о важности поведенческих факторов в Google?

Это подтверждает, что поведенческие данные (логи запросов и взаимодействие с результатами) имеют фундаментальное значение. Они используются не только для оценки качества ранжирования, но и как базовый источник истины для обучения систем искусственного интеллекта, отвечающих за понимание естественного языка.