
Google использует метод для идентификации "родственных запросов" (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, "погода в Москве" и "погода в Париже"). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.
Патент решает критическую проблему масштабирования машинного обучения в поиске: необходимость в огромных объемах размеченных обучающих данных (training data) для NLP-моделей, классифицирующих намерения пользователей. Ручная разметка неэффективна. Изобретение предлагает автоматизированный метод генерации этих данных путем идентификации запросов с одинаковой структурой интента, но разными переменными (Sibling Search Queries), не полагаясь на существующие NLP-модели или ручной труд.
Запатентована система для автоматического расширения наборов обучающих данных для ML-моделей. Система определяет, являются ли два запроса "родственными" (имеют ли одинаковый интент), путем анализа структуры окружающих их "экосистем" запросов в логах (Search Query Log) и поведения пользователей, а не путем лингвистического анализа самих запросов. Если запросы признаются родственными, они используются для генерации новых обучающих примеров.
Механизм основан на предположении, что запросы с одинаковым интентом будут окружены схожими паттернами других запросов в логах.
Similar Search Queries), основываясь на поведении пользователей (например, общие клики на результаты).Search Query Templates) путем замены целевых слов ("Москва" или "Париж") на подстановочный знак (wildcard, [*]).Sibling Score — мера пересечения между наборами шаблонов для Q1 и Q2.Sibling Score высок, запросы считаются родственными, и генерируется новый обучающий пример для ML-модели.Высокая. Автоматическое расширение данных (Data Augmentation) для обучения сложных NLP-моделей (таких как BERT, MUM) и глубокое понимание структуры интента запросов являются критически важными задачами для современных поисковых систем. Описанный метод позволяет Google масштабировать понимание интентов без ручного труда и независимо от языка.
Патент имеет важное стратегическое значение (7/10). Он не описывает алгоритм ранжирования напрямую, но раскрывает ключевой механизм того, как Google масштабно обучает свои системы понимать структуру запросов и классифицировать интенты. Это подчеркивает важность стратегии Topical Authority: полное покрытие родственных сущностей (siblings) в рамках одного структурного интента помогает Google идентифицировать сайт как экспертный ресурс для данного класса запросов.
Wildcards). Например, "[*] на испанском".Context Template и имеют высокий Sibling Score. Они выражают одинаковый интент, но для разных переменных. Например, "[привет] на испанском" и "[спасибо] на испанском".Search Query Templates, сгенерированными для двух запросов.Target/Sibling Word Sequence на Wildcard.Search Query Log, которые определены как похожие на исходный запрос (на основе поведения пользователей, например, общих кликов) и содержат ту же Target/Sibling Word Sequence.Wildcard в Context Template. Это переменная часть запроса (например, сущность, местоположение).variable data).Важно отметить, что Claims 1-20 в данном патенте (US11379527B2) фокусируются конкретно на использовании механизма определения родственных запросов для автоматической генерации обучающих данных для моделей машинного обучения.
Claim 1 (Независимый пункт): Описывает метод обучения ML-модели с использованием автоматически сгенерированных данных.
given training example: given training input + target output).new training input) и тот же target output. Процесс генерации включает: Search Query Log на основе исходного ввода.Sibling Score между исходным и новым вводом на основе этих двух наборов.Sibling Score удовлетворяет критерию приемлемости (acceptance criterion).Система автоматически расширяет обучающую выборку. Если известно, что для запроса "погода в Москве" нужно показать погодный информер (target output), и система определяет, что "погода в Париже" является родственным запросом (высокий Sibling Score), то создается новый обучающий пример: "погода в Париже" + погодный информер.
Claim 6 (Зависимый от 1, 4, 5): Детализирует механизм расчета Sibling Score.
Sibling Score количественно определяет меру сходства (similarity measure) между первым и вторым наборами Search Query Templates.Target Word Sequence (из исходного ввода) на Wildcard в первом наборе запросов.Sibling Word Sequence (из нового ввода) на Wildcard во втором наборе запросов.Это ядро изобретения: сходство определяется не лингвистически, а через сравнение структуры экосистемы запросов вокруг них в логах.
Claim 7 (Зависимый от 6): Определяет формулу для Sibling Score.
Оценка основана на отношении (ratio): (i) количества общих шаблонов в обоих наборах к (ii) общему количеству шаблонов в одном из наборов (первом или втором). Это измеряет степень пересечения наборов шаблонов.
Изобретение применяется в инфраструктуре машинного обучения Google, в частности, в конвейерах обработки данных и обучения NLP-моделей.
QUNDERSTANDING – Понимание Запросов (Инфраструктура / Офлайн-процессы)
Это основная область применения. Система работает в офлайн-режиме для анализа Search Query Logs и генерации Training Data. Она позволяет автоматически генерировать данные для обучения моделей, которые классифицируют интенты запросов (например, модели, решающие, нужно ли показывать специальный блок в выдаче, такой как Weather Panel).
INDEXING – Индексирование (Сбор данных)
Процесс использует данные, собранные и проиндексированные из активности пользователей — Search Query Logs и данные о взаимодействии с результатами (клики).
Входные данные:
Search Query Logs.Выходные данные:
Training Data (Новые родственные запросы + та же Метка интента).independent of natural language processing).Training System). Не применяется в реальном времени при обработке запроса пользователя.Процесс: Генерация обучающих данных с использованием Sibling Scoring System.
Context Template ("[*] на испанском") и Target Word Sequence W1 ("привет").Search Query Log, которые удовлетворяют тому же Context Template. Например, Q_cand="[спасибо] на испанском", W_cand="спасибо".Similar Search Queries S1, содержащих W1 (например, "как сказать привет на испанском"). Сходство определяется по общим кликам пользователей на результаты поиска.Similar Search Queries S2, содержащих W_cand.Sibling Score превышает порог (acceptance criterion), Q_cand признается родственным Q1. Генерируется новый обучающий пример: (Q_cand, L1).Патент сосредоточен на использовании данных из логов поисковой системы и явно избегает использования NLP.
Search Query Logs. Сходство между запросами (для генерации Similar Search Queries) определяется на основе логов взаимодействия пользователей с результатами поиска (user interaction with search results). Например, два запроса считаются похожими, если они часто ведут к взаимодействию (например, кликам) с одними и теми же результатами.Context Template и Target/Sibling Word Sequences и выполнения операций замены на Wildcard.Search Query Templates (T1 и T2). Sibling Queries) исключительно через сравнение структурных шаблонов, извлеченных из логов. Система определяет, что два разных слова играют одинаковую роль (имеют одинаковый интент), если они используются в одинаковых контекстах.Context Templates. Это позволяет находить новые сущности и интенты без использования предопределенных баз знаний или Knowledge Graph.Context Templates). Используйте последовательную структуру и естественные формулировки для однотипных сущностей. Например, создавайте структурированные страницы для интентов вида "цена [*]", "характеристики [*]", "сравнение [*] и [**]".Патент демонстрирует, как Google масштабирует понимание естественного языка и интентов, автоматизируя процесс обучения своих ML-моделей, используя поведенческие данные как основу. Это позволяет системе быстро адаптироваться к новым запросам и сущностям. Для SEO это означает окончательный переход от оптимизации под ключевые слова к оптимизации под классы интентов (Intent Classes). Стратегически важно стать лучшим ответом для всего шаблона интента, охватывая максимальное количество связанных сущностей (siblings).
Сценарий: Оптимизация сайта о питании под шаблон интента (Topical Authority)
Context Template).Sibling Word Sequences), которые пользователи подставляют в этот шаблон: "банан", "яблоко", "куриная грудка", "шоколад" и т.д. Google понимает, что это продукты, используя описанный механизм для обучения своих моделей.Sibling Queries). Сайт, который качественно отвечает на большинство из них, получает преимущество в ранжировании по всему кластеру интента, так как воспринимается как авторитетный источник для данного шаблона запроса.Что такое "родственный запрос" (Sibling Search Query) согласно патенту?
Это запрос, который имеет ту же структуру интента (Context Template), что и исходный запрос, но использует другую переменную (сущность). Например, "погода в Москве" и "погода в Париже" являются родственными запросами. Они оба соответствуют шаблону "погода в [*]" и выражают одинаковое намерение узнать погоду, но для разных локаций.
Как рассчитывается Sibling Score и что он означает?
Sibling Score измеряет, насколько похожи экосистемы запросов вокруг двух сравниваемых запросов. Для каждого запроса система находит похожие запросы в логах, затем генерирует из них шаблоны. Sibling Score рассчитывается как степень пересечения этих двух наборов шаблонов (например, отношение числа общих шаблонов к общему числу). Высокий балл означает, что запросы структурно и интенционально схожи.
Влияет ли этот патент напрямую на ранжирование?
Нет, напрямую этот патент не описывает алгоритм ранжирования. Он описывает механизм для автоматической генерации обучающих данных. Однако эти данные затем используются для обучения ML-моделей (например, классификаторов интентов), которые, в свою очередь, критически влияют на понимание запроса (QUNDERSTANDING) и формирование выдачи (например, решая, показывать ли определенный SERP feature).
Какова основная цель этого изобретения для Google?
Основная цель, защищенная в Claims, — это автоматизация и масштабирование генерации обучающих данных для моделей машинного обучения без ручной разметки и без использования существующих NLP-систем. Это позволяет Google быстрее и эффективнее обучать ИИ распознавать различные интенты и их вариации в масштабах всего интернета.
Чем этот метод отличается от традиционного NLP или распознавания сущностей (NER)?
Ключевое отличие в том, что этот метод не требует лингвистического анализа текста или заранее определенных баз знаний о сущностях (как NER). Он опирается исключительно на анализ структуры Search Query Logs и взаимодействия пользователей (кликов). Это делает его независимым от языка и позволяет обнаруживать новые сущности и интенты "снизу вверх".
Как этот патент связан с концепцией Topical Authority в SEO?
Он обеспечивает механизм, с помощью которого Google может группировать запросы по структурному интенту. Если сайт систематически отвечает на большое количество родственных запросов (Sibling Queries) в рамках одного шаблона интента (например, покрывает все города для интента "погода в [*]"), это сигнализирует о его авторитетности (Topical Authority) для данного класса запросов.
Как система определяет "Похожие запросы" (Similar Search Queries) для расчета Sibling Score?
Патент указывает, что сходство определяется на основе данных из Search Query Logs, характеризующих взаимодействие пользователей с результатами поиска. На практике это часто означает, что запросы считаются похожими, если пользователи часто кликают на одни и те же документы после ввода этих запросов (пересечение по кликам).
Приведите пример использования этого механизма, упомянутый в патенте.
В патенте приводится пример обучения модели, которая определяет, нужно ли показывать weather panel (погодный информер) в ответ на запрос. Начав с одного примера («weather [nyc]»), система автоматически находит все родственные запросы (например, «weather [paris]»), чтобы обучить модель распознавать интент о погоде для любого города, не имея заранее заданного списка городов.
Применяется ли этот алгоритм в реальном времени при обработке запроса пользователя?
Нет. Согласно описанию и Claims, это офлайн-процесс, используемый для анализа логов и генерации обучающих данных для ML-моделей. Сами ML-модели, обученные на этих данных, затем применяются в реальном времени для классификации интента входящего запроса.
Что это говорит о важности поведенческих факторов в Google?
Это подтверждает, что поведенческие данные (логи запросов и взаимодействие с результатами) имеют фундаментальное значение. Они используются не только для оценки качества ранжирования, но и как базовый источник истины для обучения систем искусственного интеллекта, отвечающих за понимание естественного языка.

Семантика и интент
Поведенческие сигналы

Семантика и интент

Семантика и интент
SERP

Семантика и интент

Семантика и интент
Ссылки

SERP
Поведенческие сигналы

Семантика и интент
Персонализация
Поведенческие сигналы

Local SEO
Поведенческие сигналы

Поведенческие сигналы
SERP

Поведенческие сигналы
Семантика и интент
SERP

Семантика и интент
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
Knowledge Graph

Техническое SEO
Ссылки

Ссылки
Поведенческие сигналы
SERP

SERP
Поведенческие сигналы
