
Google использует механизм для генерации уточнений запроса (поисковых подсказок или связанных запросов) путем разделения исходного запроса на семантические компоненты (устойчивые фразы) с помощью вероятностного анализа. Система находит уточнения для каждого компонента по отдельности, а затем рекомбинирует их, сохраняя исходный порядок. Финальные кандидаты строго фильтруются на основе пользовательских данных (CTR) и синтаксической схожести.
Патент решает задачу генерации качественных и релевантных уточнений запроса (query refinements), таких как поисковые подсказки или блок «Связанные запросы» (Related Searches), особенно для сложных, многосоставных запросов. Традиционные методы могут рассматривать запрос как единое целое, что ограничивает точность предложений. Изобретение улучшает качество уточнений, обрабатывая каждую семантическую единицу запроса по отдельности.
Запатентована система компонентной генерации уточнений запроса (Component-Based Query Refinement Engine). Суть изобретения заключается в методе сегментации исходного запроса на значимые компоненты (query components или related phrases) с использованием вероятностной языковой модели. Система находит уточнения для каждого компонента независимо, а затем объединяет их, сохраняя исходный порядок, для формирования финальных кандидатов, которые затем строго фильтруются.
Система работает в несколько этапов:
n-grams. Система выбирает ту комбинацию, которая имеет наибольшую суммарную вероятность того, что её части являются устойчивыми фразами (related phrases), основываясь на обучающих данных.User Preference Data).CTR, как указано в Claim 1), общности с компонентами запроса, имеющими наивысший IDF (Inverse Document Frequency), и синтаксической схожести (Syntactic Similarity).Высокая. Понимание структуры сложных запросов и предоставление релевантных подсказок остаются ключевыми задачами для улучшения пользовательского опыта в поиске. Сегментация запросов на семантические единицы (сущности, фразы) является фундаментальной частью современного Query Understanding и NLP, даже если конкретные вероятностные модели, описанные в патенте, могли эволюционировать с момента подачи заявки.
Патент имеет высокое значение для SEO (80/100). Он раскрывает механизм того, как Google может разбирать многословные запросы на составные части и генерировать связанные запросы. Это подчеркивает стратегическую важность оптимизации контента под семантически целостные фразы и сущности (компоненты), а не отдельные ключевые слова. Понимание этого механизма критически важно для исследования ключевых слов и прогнозирования связанных тем, которые Google считает релевантными.
related phrase) или некомпозиционное соединение (non-compositional compound).impressions), клики (clicks), время пребывания на документе (dwell time).edit distance).related phrases.Claim 1 (Независимый пункт): Описывает полный метод генерации и фильтрации уточнений запроса на основе компонентов.
related phrase (встречается вместе чаще, чем случайно). Эти вероятности суммируются.Click-Through Rate (CTR). Кандидаты с оценкой ниже порога удаляются.Claim 3 (Зависимый от 1): Уточняет расчет вероятности.
Вероятность того, что n-грамма является related phrase, основана на функции её относительной частоты в Training Data.
Claim 5 (Зависимый от 1): Описывает дополнительный механизм ранжирования.
Кандидаты ранжируются по степени общности (commonality) с компонентами исходного запроса, имеющими наивысший IDF.
Claim 6 (Зависимый от 1): Описывает дополнительный механизм фильтрации на основе схожести.
Кандидаты фильтруются на основе Syntactic Similarity с компонентами запроса. Оценка схожести рассчитывается на основе edit distance (редакционного расстояния) между кандидатом и запросом. Кандидаты, не достигающие порога, удаляются.
Изобретение применяется на нескольких этапах поисковой архитектуры, преимущественно в офлайн-обработке и на этапе понимания запросов.
INDEXING – Индексирование и извлечение признаков (Офлайн)
На этом этапе рассчитываются данные, необходимые для работы алгоритма: строятся языковые модели на основе Training Data для расчета вероятностей n-грамм; вычисляются значения IDF; агрегируются User Preference Data.
QUNDERSTANDING – Понимание Запросов
Основное применение патента. Component-Based Query Refinement Engine выполняет сегментацию запроса на компоненты, генерацию уточнений, их комбинирование и фильтрацию. Этот процесс может выполняться офлайн для популярных запросов и храниться в базе данных (Refinement Database), либо онлайн.
METASEARCH – Метапоиск и Смешивание
На финальном этапе система извлекает сгенерированные уточнения и формирует блоки поисковой выдачи, такие как «Связанные запросы» (Related Searches) или поисковые подсказки.
Входные данные:
n-grams на основе Training Data).User Preference Data (CTR, клики, показы).IDF для компонентов.Выходные данные:
Query Refinements).Процесс работы Component-Based Query Refinement Engine.
Процесс А: Идентификация компонентов (Сегментация)
related phrase, на основе частоты в Training Data.Процесс Б: Генерация и Комбинирование
Component Refinements), используя стандартные методы (например, на основе User Preference Data).Процесс В: Фильтрация и Ранжирование
CTR). Кандидаты ниже порога удаляются.IDF. Кандидаты переранжируются на основе их общности с компонентами, имеющими наивысший IDF.User Preference Data (например, взвешенное количество кликов, CTR топовых результатов для кандидата).Syntactic Similarity (например, edit distance) между кандидатом и исходным запросом. Кандидаты с низкой схожестью удаляются.Query Refinements.n-grams.Click-Through Rate (CTR) кандидата.weighted clicks), учитывающие время просмотра документа (dwell time).clicks) и показы (impressions).IDF компонентов.Training Data. Используется для сегментации.Related Phrase для всех n-грамм в комбинации. Используется для выбора лучшей сегментации.CTR и т.д.Query Components). Это не простое деление на слова, а вероятностный процесс, направленный на выявление устойчивых фраз (related phrases) на основе языковых моделей.User Preference Data (особенно CTR и взвешенные клики) играют решающую роль в фильтрации. Если пользователи не взаимодействуют с запросом-кандидатом, он будет отфильтрован.IDF) компонентами исходного запроса.Syntactic Similarity) для удаления кандидатов, которые слишком сильно отличаются по написанию.related phrases), которые Google может идентифицировать как компоненты. Это повышает вероятность того, что ваш контент будет релевантен как исходному запросу, так и его сгенерированным уточнениям.CTR и взвешенные клики используются для валидации уточнений, крайне важно работать над привлекательностью сниппетов и качеством контента. Высокая вовлеченность по определенным запросам увеличивает вероятность того, что эти запросы станут подсказками для связанных тем.IDF в вашем запросе. Уточнения, связанные с этими специфичными терминами, получают приоритет при ранжировании связанных запросов.related phrases на основе вероятностного анализа.IDF) может привести к тому, что связанные запросы будут ранжироваться ниже, чем те, которые связаны с более специфичными компонентами запроса.Патент подтверждает переход Google от анализа отдельных ключевых слов к пониманию фраз, компонентов и структуры запроса. Стратегическое значение заключается в необходимости глубокого понимания того, как пользователи комбинируют термины (естественный язык) и как Google интерпретирует эти комбинации. SEO-стратегия должна учитывать не только основные запросы, но и то, как они могут быть сегментированы и расширены системой. Это также подчеркивает критическую важность данных о поведении пользователей (CTR) для валидации работы лингвистических алгоритмов.
Сценарий: Анализ и оптимизация под сложный продуктовый запрос в E-commerce
IDF (наиболее специфичный компонент).IDF), будут ранжироваться выше. Уточнения с высоким CTR в логах (например, “buy nike air max 270 black”) пройдут фильтрацию.Как система определяет, на какие компоненты разделить запрос?
Система использует вероятностный подход. Она делит запрос на все возможные комбинации последовательных n-грамм и для каждой n-граммы оценивает вероятность того, что она является устойчивой фразой (related phrase), основываясь на частоте её встречаемости в тренировочных данных (языковой модели). Выбирается та комбинация n-грамм, которая имеет максимальную суммарную вероятность.
Что такое “Related Phrase” (Связанная фраза) в контексте этого патента?
Related Phrase – это последовательность слов (n-грамма), чьи термины встречаются вместе значительно чаще, чем можно было бы ожидать при их независимом употреблении. Это указывает на семантическую связь (например, «New York»). Система стремится распознать такие фразы как единые компоненты при сегментации запроса.
Какие данные используются для фильтрации сгенерированных уточнений (подсказок)?
Фильтрация многоэтапная. Ключевыми являются User Preference Data: в частности, CTR кандидата (обязательный фильтр согласно Claim 1), частота запроса, взвешенное количество кликов. Также используются IDF компонентов исходного запроса для ранжирования и Syntactic Similarity (редакционное расстояние) для финальной очистки.
Какую роль играет IDF (Inverse Document Frequency) в этом процессе?
IDF используется для определения наиболее важных (редких и специфичных) компонентов исходного запроса. При ранжировании сгенерированных уточнений система отдает предпочтение тем кандидатам, которые сохраняют общность с компонентами, имеющими наивысший IDF. Это помогает гарантировать, что уточнения остаются сфокусированными на основной теме запроса.
Сохраняет ли система порядок компонентов при генерации уточнений?
Да, в основном варианте реализации (Claim 1) система комбинирует уточнения так, чтобы сохранить исходный порядок компонентов. Уточнение первого компонента всегда предшествует уточнению второго компонента. Это критично для сохранения логической структуры и смысла запроса.
Как этот патент влияет на стратегию исследования ключевых слов?
Он требует перехода от анализа отдельных слов к анализу фраз и семантических компонентов. SEO-специалистам следует идентифицировать ключевые related phrases в своей нише и исследовать семантику для каждого компонента по отдельности, чтобы понять весь спектр потенциальных уточнений, которые генерирует Google.
Если мой запрос состоит из одного слова, применим ли этот патент?
Если система определяет, что запрос состоит только из одного компонента (что верно для однословных запросов или неразделимых фраз), то механизм сегментации и рекомбинации не активируется. В этом случае система будет использовать стандартные методы генерации уточнений.
Что важнее для прохождения фильтрации: семантическая близость или CTR?
Оба фактора важны, но CTR является обязательным условием для прохождения фильтрации (Claim 1). Даже семантически близкое уточнение будет отброшено, если данные показывают низкий интерес пользователей к нему. Это подчеркивает важность пользовательского опыта и вовлеченности для всех аспектов поиска.
Что такое синтаксическая схожесть (Syntactic Similarity) и зачем она используется?
Синтаксическая схожесть измеряет, насколько похожи написания кандидата и исходного запроса (например, через edit distance). Она используется на финальном этапе фильтрации для удаления кандидатов, которые могут быть семантически связаны, но выглядят слишком иначе по написанию, что может смутить пользователя.
Где я могу увидеть работу этого алгоритма в поиске Google?
Результаты работы этого алгоритма можно наблюдать в блоке «Related Searches» (Связанные запросы) внизу страницы выдачи, а также потенциально в поисковых подсказках при вводе запроса (Auto-Complete), особенно когда вы вводите длинный и сложный запрос, состоящий из нескольких компонентов.

Семантика и интент
Поведенческие сигналы

Семантика и интент

Семантика и интент
SERP

Семантика и интент

Семантика и интент
Поведенческие сигналы
SERP

Персонализация
Ссылки

Ссылки
Краулинг
Техническое SEO

Семантика и интент
Поведенческие сигналы
SERP

Ссылки
Мультимедиа
Поведенческие сигналы

Персонализация
Поведенческие сигналы

Индексация
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы

Knowledge Graph
Семантика и интент
Персонализация

Поведенческие сигналы
SERP

Поведенческие сигналы
Мультимедиа
Семантика и интент
