
Google расширяет покрытие поисковых подсказок (Autocomplete), создавая новые, ранее не использованные запросы. Система анализирует логи, находит запросы с похожей структурой (шаблоны), определяет семантически близкие термины (используя distributional similarity) и комбинирует их. Это позволяет предлагать пользователям релевантные подсказки, даже если такой запрос никогда ранее не вводился.
Патент решает проблему ограниченности использования только реальных прошлых запросов для генерации поисковых подсказок (Query Suggestions, например, Autocomplete). Существующие логи запросов быстро устаревают и не покрывают все возможные информационные потребности, особенно при появлении нового контента или тем. Цель изобретения — расширить охват подсказок за пределы того, что пользователи уже искали, генерируя новые, «предполагаемые» запросы (Inferred Queries), которые являются структурно и семантически правдоподобными.
Запатентована система для автоматического создания новых запросов (Inferred Queries) на основе анализа логов прошлых запросов. Система идентифицирует структурные шаблоны (Query Templates) в запросах и определяет семантически взаимозаменяемые термины (Infixes), используя дистрибутивное сходство (Distributional Similarity). Затем она комбинирует шаблоны и термины из разных групп запросов для генерации новых, ранее не существовавших запросов, которые используются как поисковые подсказки.
Система работает офлайн в несколько этапов:
Query Template (например, «lyrics of * beatles»).Canonical Representation). Это позволяет находить группы запросов, которые структурно похожи, даже если их формулировки отличаются (например, «lyrics of * beatles» и «beatles lyrics *»).Distributional Similarity).Inferred Query.Высокая. Потребность в генерации качественных, разнообразных и актуальных поисковых подсказок остается критически важной. Хотя современные NLP-модели (например, основанные на трансформерах) могут генерировать подсказки нейросетевыми методами, структурные и семантические подходы, описанные в патенте (шаблонизация, дистрибутивная семантика), являются фундаментальными и, вероятно, все еще используются как часть гибридной системы для обеспечения точности и скорости Autocomplete.
Патент имеет умеренно-высокое значение (6.5/10) для SEO. Он не описывает алгоритмы ранжирования, а фокусируется на механизме генерации поисковых подсказок (Autocomplete). Понимание этого патента помогает SEO-специалистам осознать, что подсказки не всегда основаны на частотности реальных запросов — они могут быть алгоритмически сгенерированы. Это критически важно для анализа семантического пространства, выявления длиннохвостовых запросов и понимания того, как Google интерпретирует структуру языка и семантическую близость терминов.
Query Template, полученная путем применения правил каноникализации (стемминг, удаление стоп-слов, сортировка). Используется для поиска структурно похожих шаблонов с разными формулировками.Distributional Similarity. Измеряет силу ассоциации между фразой и её контекстным признаком.Claim 1 (Независимый пункт): Описывает основной метод генерации предполагаемых запросов.
Query Template.Canonical Representations с использованием правил каноникализации.candidate phrases) на основе оценок сходства (similarity scores) между инфиксами Группы Б и этими фразами-кандидатами.Inferred Queries путем добавления выбранных инфиксов (из Группы А) к Query Template Группы Б.Inferred Queries сохраняются для использования в качестве подсказок.Claim 2 (Зависимый от 1): Уточняет, что один запрос может быть разбит на несколько троек (триплетов) {префикс, инфикс, постфикс}, т.е. участвовать в разных группах и шаблонах.
Claim 7 (Зависимый от 1): Детализирует процесс создания списка кандидатов.
Система рассчитывает оценки сходства между фразами-кандидатами и инфиксами Группы Б. Кандидаты сортируются по этим оценкам для создания рейтинга. Выбор кандидатов для включения в список основывается на этом рейтинге.
Claim 8 (Зависимый от 7): Уточняет, что выбор кандидатов может основываться на превышении определенного порога оценки сходства.
Изобретение применяется в основном на этапе понимания запросов и связано с функцией поисковых подсказок (Autocomplete).
QUNDERSTANDING – Понимание Запросов
Основное применение патента. Весь процесс анализа логов, декомпозиции запросов, группировки, каноникализации, расчета семантического сходства и генерации Inferred Queries происходит офлайн с помощью Query Creation Engine. Это позволяет системе глубоко понять структурные и семантические связи в пространстве запросов и создать базу данных предполагаемых запросов.
METASEARCH / RERANKING (Suggestion Engine)
На этом этапе система (Suggestion Engine) в реальном времени получает частичный (для Autocomplete) или полный (для Related Searches) запрос пользователя. Она обращается к базе данных Inferred Queries (наряду с реальными прошлыми запросами) для выбора и предоставления релевантных подсказок.
INDEXING (Косвенно)
Для расчета Distributional Similarity требуется предварительный анализ большого корпуса документов (например, веб-индекса), чтобы понять контексты использования фраз. Это происходит на этапе индексации или связанной с ней офлайн-обработки данных.
Входные данные:
Log Files).Distributional Similarity.Выходные данные:
Inferred Queries, готовая для использования системой подсказок.Inferred Queries выполняется периодически офлайн для анализа новых логов и обновления базы данных подсказок.Inferred Queries используются системой подсказок каждый раз, когда пользователь вводит запрос и система ищет подходящие варианты для предложения.Офлайн процесс генерации Inferred Queries
Query Template путем замены инфиксов на wildcard (*).Canonical Representations. Применяются правила: стемминг, удаление стоп-слов, сортировка терминов.Distributionally Similar) с инфиксами Группы Б. Это делается путем анализа контекстов использования фраз в большой коллекции документов.Query Template Группы Б вместо wildcard (*).log of past queries). Они используются для извлечения уникальных запросов, определения их структуры и группировки.Distributional Similarity система анализирует большую коллекцию документов (например, веб-страницы), чтобы понять контексты, в которых встречаются различные фразы (инфиксы).Система использует метрики для расчета семантического сходства между инфиксами.
Pointwise Mutual Information (PMI).
Inferred Queries. Нельзя полагаться на Autocomplete как на точный индикатор объема поиска или частотности.Query Templates и Canonicalization) и семантическое соответствие (через Distributional Similarity).Query Templates) в вашей тематике (например, «[бренд] [модель] отзывы», «[симптом] причины *»). Понимание этих структур помогает формировать контент-стратегию и прогнозировать новые запросы.Inferred) длиннохвостовым запросам.Distributional Similarity и включить новый продукт в существующие шаблоны подсказок.Inferred Queries могут появляться в подсказках, но иметь нулевой или низкий реальный трафик (по крайней мере, изначально).Distributional Similarity основана на анализе естественного употребления языка.Патент подтверждает, что Google стремится предсказать намерения пользователя, выходя за рамки анализа исторических данных. Он демонстрирует сложный механизм понимания структуры языка и семантики терминов для моделирования и активного формирования пространства запросов. Для SEO это подчеркивает важность перехода от оптимизации под отдельные ключевые слова к оптимизации под сущности, их контекстуальные связи и структурные паттерны пользовательских интентов.
Сценарий: Генерация подсказки для нового продукта в известной категории
Inferred Query «camera quality of galaxy s25». Этот запрос начинает показываться в Autocomplete, даже если его никто не искал.Означает ли этот патент, что подсказки в Google Autocomplete не основаны на реальных запросах пользователей?
Не совсем. Autocomplete использует смесь источников. Основным источником остаются реальные прошлые запросы пользователей (особенно популярные и трендовые). Однако данный патент описывает механизм дополнения этих данных алгоритмически сгенерированными запросами (Inferred Queries). Это делается для расширения покрытия, особенно для редких или новых тем, где исторических данных недостаточно.
Как Google определяет, что два термина семантически похожи и взаимозаменяемы?
Патент описывает использование Distributional Similarity (Дистрибутивное сходство). Система анализирует огромный корпус текстов и смотрит на контексты (окружающие слова), в которых встречаются термины. Если два разных термина часто появляются в одинаковых контекстах (например, «grocery» и «pet supply» часто встречаются перед «stores in...»), система считает их семантически схожими в рамках данного контекста и потенциально взаимозаменяемыми в шаблоне запроса.
Что такое каноникализация шаблонов и зачем она нужна?
Каноникализация — это приведение разных формулировок к единой стандартной форме путем стемминга, удаления стоп-слов и сортировки терминов. Например, шаблоны «lyrics of * beatles» и «beatles lyrics *» могут быть приведены к виду «* beatle lyric». Это позволяет системе понять, что эти два разных шаблона имеют одинаковую базовую структуру, и, следовательно, их инфиксы можно анализировать на предмет взаимозаменяемости.
Влияет ли этот механизм на ранжирование сайтов?
Напрямую нет. Патент описывает генерацию поисковых подсказок, а не алгоритмы ранжирования документов. Однако косвенное влияние есть: генерация новых подсказок может стимулировать новый поисковый спрос. Если пользователи начинают выбирать Inferred Queries, эти запросы становятся реальными и могут приводить трафик на сайты, которые хорошо под них оптимизированы.
Как SEO-специалист может использовать знание об этом патенте?
Ключевое применение — это более глубокий анализ семантики и выявление длиннохвостовых запросов. Необходимо анализировать не только отдельные запросы, но и целые шаблоны запросов в вашей нише. Создавая контент, который покрывает множество вариаций (различные «инфиксы») в рамках этих шаблонов, вы повышаете шансы ранжироваться по широкому спектру как реальных, так и сгенерированных запросов.
Что такое Префикс, Инфикс и Постфикс в контексте этого патента?
Это способ разбить запрос на структурные части. Например, в запросе «лучшие рестораны в Москве 2025»: Префикс может быть «лучшие рестораны в», Инфикс — «Москве», Постфикс — «2025». Система анализирует множество таких разбиений для каждого запроса, чтобы найти устойчивые шаблоны, где меняется только Инфикс (например, «лучшие рестораны в Париже 2025»).
Как система обеспечивает, что взятый из другой группы инфикс подходит для нового шаблона?
Это ключевой механизм валидации, описанный в Claim 1. Система не просто берет любой инфикс из Группы А. Сначала она создает список кандидатов, которые семантически похожи на инфиксы Группы Б (целевой группы), используя Distributional Similarity. Затем она выбирает инфиксы из Группы А, только если они уже есть в этом списке кандидатов. Эта двойная проверка гарантирует семантическую релевантность и структурную корректность.
Актуален ли этот подход в эпоху нейронных сетей (BERT, MUM)?
Вероятно, он остается частью гибридной системы. Хотя современные модели обеспечивают более глубокое понимание контекста, шаблонные методы, описанные в патенте, обеспечивают высокую скорость, точность и интерпретируемость, особенно для фактоидных или структурированных запросов. Фундаментальные концепции (дистрибутивная семантика, каноникализация) остаются актуальными.
Как рассчитывается оценка сходства Sim(U,T)?
Это агрегированная оценка, которая показывает, насколько хорошо фраза-кандидат (U) подходит к шаблону (T). Она рассчитывается как среднее значение дистрибутивного сходства (DScore) между кандидатом U и каждым существующим инфиксом в группе запросов, соответствующих шаблону T. Это гарантирует, что кандидат похож на группу в целом, а не только на один её элемент.
Как ускорить появление нового бренда или продукта в Autocomplete?
Необходимо помочь Google быстрее рассчитать Distributional Similarity для нового термина. Для этого следует активно использовать название нового бренда/продукта в контенте (обзоры, новости) в том же контексте и окружении, что и уже известные аналоги. Это позволит системе понять семантику нового термина и начать подставлять его в существующие релевантные шаблоны подсказок.

Семантика и интент

Семантика и интент
SERP
Поведенческие сигналы

Knowledge Graph
Семантика и интент
Поведенческие сигналы


Персонализация
Поведенческие сигналы
Local SEO

Поведенческие сигналы
SERP
Мультимедиа

Семантика и интент
Поведенческие сигналы
SERP

Персонализация
Поведенческие сигналы
Антиспам

Поведенческие сигналы
Персонализация
Семантика и интент

Ссылки
Индексация
Техническое SEO

Семантика и интент
Поведенческие сигналы
Персонализация

Поведенческие сигналы
Семантика и интент
Мультимедиа

Персонализация
Поведенческие сигналы
SERP

Техническое SEO
Поведенческие сигналы
SERP

Knowledge Graph
Семантика и интент
Персонализация
