Как Google использует документы и поведение пользователей для понимания того, какие разные запросы означают одно и то же

Google использует метод обратного анализа для понимания намерений пользователей. Анализируя, какие запросы приводят пользователей к одним и тем же документам (Query-Document pairs), система выявляет общие шаблоны (Query Patterns) и строит Граф Шаблонов (Pattern Graph). Это позволяет определить, какие формулировки запросов имеют одинаковый интент, разделять близкие, но разные интенты, и переносить понимание интента между языками с помощью сущностей.

Описание

Какую задачу решает

Патент решает проблему точного определения и кластеризации намерений пользователя (интентов) в масштабе интернета. Традиционные методы кластеризации запросов часто ошибочно объединяют разные интенты (например, [симптомы X] и [лечение X]), если они ведут на одни и те же общие документы. Изобретение предлагает метод, который более точно разделяет интенты и автоматизирует создание правил (грамматик) для активации поисковых функций (например, OneBox), в том числе на разных языках.

Что запатентовано

Запатентована система автоматической генерации Графа Шаблонов (Pattern Graph). Суть изобретения заключается в инверсии подхода: вместо того чтобы идти от запросов к документам, система использует документы как точку опоры (pivot) для определения интента. Анализируя пары запрос-документ (query-document pairs), система выявляет Шаблоны Запросов (Query Patterns) и связывает их в графе, если они выражают одинаковый интент (Classifier).

Как это работает

Система работает по принципу обратного анализа (от документа к запросу):

Анализ Поведения: Система анализирует, какие поисковые запросы приводят трафик (клики) на конкретный документ.
Генерация Шаблонов: В топовых запросах ищутся повторяющиеся подфразы. Переменные части (сущности) заменяются плейсхолдерами (например, «погода в Париже» становится [погода в X]).
Построение Графа: Если разные шаблоны часто ведут на одни и те же документы, между ними устанавливается связь в Pattern Graph с оценкой схожести.
Фильтрация Интентов: Используется механизм «похожих соседей» (similar neighbors) для фильтрации ложных связей между шаблонами с разными интентами (например, разделяя [симптомы X] и [лечение X]).
Перевод Шаблонов: Система может находить эквивалентные шаблоны в других языках, сопоставляя их на основе общих сущностей (Entities), которые они содержат.

Актуальность для SEO

Высокая. Понимание интентов и семантическая группировка запросов являются ядром современных поисковых систем. Описанные механизмы лежат в основе того, как Google интерпретирует запросы, определяет релевантность и запускает специальные функции выдачи. Методы генерации шаблонов и их перевода с помощью сущностей критически важны в эпоху NLP и Knowledge Graph.

Важность для SEO

Патент имеет фундаментальное значение (9/10) для SEO. Он объясняет механизм, с помощью которого Google определяет семантическую связь между различными формулировками запросов, используя поведение пользователей как источник истины. Это напрямую влияет на стратегию создания контента и оптимизацию под интенты. Понимание того, что документы служат основой для кластеризации запросов, подчеркивает важность создания контента, отвечающего на конкретные группы интентов (Classifiers).

Детальный разбор

Термины и определения

Classifier (Классификатор / Интент): Метка, присваиваемая шаблону запроса и связанным документам. Отражает намерение пользователя, тему и желаемый уровень специфичности информации.
Pattern Graph (Граф шаблонов): Структура данных, представляющая отношения между Query Patterns. Узлы графа — это шаблоны, а ребра — оценка схожести (score of similarity) между ними, указывающая на вероятность общего интента.
Query Annotator (Аннотатор запросов): Модуль, который определяет сущности в запросе и связывает их с каноническим представлением (уникальным идентификатором), независимым от языка.
Query-Document Pairs (Пары запрос-документ): Данные, связывающие поисковые запросы с документами, на которые пользователи переходят (кликают) по этим запросам. Основа для анализа в патенте.
Query Pattern (Шаблон запроса): Обобщенное представление запросов, которые повторяются в логах поиска. Включает текстовые фрагменты и переменные (placeholders), например, [погода в X].
Similar Neighbors (Похожие соседи) / Neighbor Node: Узлы (шаблоны) в Pattern Graph. Анализ соседей используется для фильтрации и уточнения интентов — для разделения близких, но разных интентов, даже если они ведут на один документ.
Translation Generator (Генератор переводов): Компонент, предназначенный для перевода шаблонов запросов с одного языка на другой, используя аннотации сущностей как мост.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод генерации Pattern Graph.

Система получает доступ к данным корпуса веб-документов, включая query-document pairs.
Идентифицируется как минимум один Query Pattern, связанный с определенной частью документов.
В этом шаблоне идентифицируются подфразы (sub-phrases).
В корпусе определяются другие Query Patterns, которые включают хотя бы одну из этих подфраз.
Каждому из этих шаблонов присваивается Classifier (интент).
Этот Classifier ассоциируется с соответствующей частью веб-документов.
Шаблоны агрегируются в Pattern Graph. Граф представляет собой структуру с узлами (шаблонами) и ребрами (оценками схожести).

Ядро изобретения — использование анализа документов и связанных с ними запросов (поведенческих данных) для выявления общих шаблонов, присвоения им общего интента (Classifier) и построения графа семантических связей.

Claim 5 (Зависимый от 1): Описывает итеративный процесс расширения графа.

Система идентифицирует дополнительные шаблоны (additional query patterns) и повторяет для них процесс идентификации подфраз, поиска связанных шаблонов, присвоения Classifier и агрегации в граф.

Claim 7 (Зависимый от 6, который зависит от 1): Описывает критически важный механизм фильтрации.

Система использует соседний узел (neighbor node) для фильтрации шаблонов, которые соответствуют классификаторам, отличным от ассоциированного классификатора. Это механизм для разделения близких, но разных интентов (например, симптомы vs лечение), даже если они ведут на один и тот же документ.

Где и как применяется

Изобретение затрагивает этапы индексирования (для предварительных расчетов) и понимания запросов (для интерпретации интента).

INDEXING – Индексирование и извлечение признаков

Сбор данных: Собираются и обрабатываются query-document pairs из логов поиска (поведенческие данные).
Генерация Графа (Офлайн): Основная работа по построению Pattern Graph происходит офлайн. Система анализирует корпус и логи, генерирует шаблоны и рассчитывает оценки схожести.
Аннотирование Сущностей: Query Annotator идентифицирует сущности, что необходимо для генерации шаблонов и их перевода.

QUNDERSTANDING – Понимание Запросов

Интерпретация Интента (Онлайн): Когда пользователь вводит запрос, система сопоставляет его с Pattern Graph.
Присвоение Классификатора: Запросу присваивается Classifier на основе соответствующего шаблона. Это позволяет системе понять, что разные формулировки имеют один и тот же интент.

METASEARCH – Метапоиск и Смешивание

Триггеринг Функций: Идентификация специфических шаблонов используется для запуска специальных элементов выдачи. В патенте упоминается использование этих шаблонов для определения того, когда следует показывать OneBox.

Входные данные:

Корпус веб-документов.
Логи поисковых запросов (query-document pairs / данные о кликах).
Данные о сущностях (от Query Annotator).

Выходные данные:

Pattern Graph (узлы=шаблоны, ребра=оценки схожести).
Ассоциации между шаблонами, классификаторами (интентами) и документами.
Переведенные шаблоны запросов.

На что влияет

Специфические запросы: Наибольшее влияние на информационные и транзакционные запросы, где существует множество способов спросить об одном и том же (например, факты, погода, рецепты, достопримечательности).
Языковые и географические ограничения: Патент описывает механизмы для улучшения поиска на менее распространенных языках путем перевода шаблонов с языков с богатыми данными (например, английского), используя сущности как мост.

Когда применяется

Офлайн: Процесс генерации графа происходит постоянно в фоновом режиме по мере обновления индекса и логов запросов.
Онлайн: Использование графа происходит при каждом поисковом запросе для его интерпретации и определения интента.

Пошаговый алгоритм

Процесс А: Генерация Графа Шаблонов (Pattern Graph Generation)

Сбор данных: Доступ к query-document pairs (запросы, которые привели к кликам на документ).
Идентификация Топовых Запросов: Для каждого документа определяется набор топовых запросов, приносящих трафик.
Выявление Повторяющихся Подфраз: В топовых запросах идентифицируются повторяющиеся n-граммы.
Генерация Кандидатских Шаблонов: Генерируются Query Patterns. Фрагменты, которые варьируются (сущности), заменяются плейсхолдером (X). Пример: «что посмотреть в X».
Присвоение Классификатора: Группе шаблонов и документу присваивается общий Classifier (интент).
Агрегация в Граф: Шаблоны добавляются в Pattern Graph как узлы.
Расчет Схожести: Между парами шаблонов рассчитывается оценка схожести (score of similarity), основанная на том, насколько часто они приводят к одним и тем же документам. Создаются ребра графа.
Фильтрация (Уточнение Интентов): Применяется фильтрация на основе Similar Neighbors. Если два шаблона ведут на одни и те же документы, но их ближайшие соседи в графе сильно отличаются (имеют разные Classifiers), связь между ними понижается или удаляется.

Процесс Б: Перевод Шаблонов (Query Pattern Translation)

Сбор и Аннотация Запросов: Сбор запросов на исходном (L1) и целевом (L2) языках. Query Annotator используется для выявления общих сущностей (E) по их уникальным идентификаторам.
Генерация Пар (Шаблон, Сущность): Запросы преобразуются в пары (Query Pattern (P), Entity ID (E)).
Расчет и Нормализация Частот: Подсчитывается частота появления каждой пары (P, E) в каждом языке (L), и эти частоты нормализуются.
Расчет Корреляции: Вычисляется оценка для сопоставления P1 в L1 с P2 в L2. Оценка основана на корреляции между нормализованными частотами их совместного появления с одними и теми же сущностями (E).
Сопоставление: Для шаблона в L1 подбирается шаблон в L2, который максимизирует оценку корреляции.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Критические): Query-document pairs. Это логи, показывающие, какие запросы привели к взаимодействию (например, кликам) с конкретными документами. Являются основой для всего процесса генерации графа.
Контентные факторы: Содержимое документов используется как точка опоры (pivot) для группировки запросов, которые к нему ведут.
Данные о сущностях (Entities): Идентификаторы сущностей, распознанные Query Annotator. Используются для генерации шаблонов (замена сущности на X) и для перевода шаблонов между языками.

Какие метрики используются и как они считаются

Score of Similarity (Оценка схожести): Метрика, определяющая вес ребра между двумя шаблонами в Pattern Graph. Рассчитывается на основе частоты, с которой два шаблона приводят к одним и тем же документам (ко-оккуренция).
Instance Count (Количество экземпляров): Частота появления пары шаблон-сущность (P, E) в логах запросов на языке (L). Используется в механизме перевода. Обозначается как $C_{L}(P,E)$ .
Normalized Frequency (Нормализованная частота): Нормализованное значение Instance Count. Используется для сравнения шаблонов при переводе. Обозначается как $N_{L}(P,E)$ .
Translation Score (Оценка перевода): Корреляция между нормализованными частотами $N_{L1}(P1,E)$ и $N_{L2}(P2,E)$ по всем сущностям E.

Выводы

Документы как источник истины об интенте: Ключевой вывод — Google использует документы как точку опоры (pivot) для понимания связи между запросами. Система изучает, какие запросы удовлетворяются одним и тем же документом (на основе поведения пользователей), и на этой основе строит связи между запросами.
Автоматическое изучение интентов и их формулировок: Система автоматически генерирует Pattern Graph, который является картой того, как пользователи выражают свои намерения. Это позволяет системе распознавать интент, независимо от вариативности формулировок.
Важность разделения интентов (Intent Separation): Патент вводит механизм фильтрации по соседству (Similar Neighbors), специально разработанный для разделения близких, но разных интентов (например, [симптомы X] и [лечение X]), даже если они ведут на один общий документ.
Сущности как универсальный язык: Использование канонических идентификаторов сущностей позволяет переносить понимание интентов между языками. Шаблоны переводятся на основе того, с какими сущностями они чаще всего используются, что подтверждает переход Google к пониманию сущностей, а не только ключевых слов.
Основа для SERP Features: Сгенерированные шаблоны напрямую используются для активации (triggering) функций поиска, таких как OneBox. Автоматизация этого процесса позволяет Google быстро масштабировать эти функции на новые темы и языки.

Практика

Best practices (это мы делаем)

Оптимизация под кластеры интентов, а не ключевые слова: Необходимо идентифицировать основной интент (Classifier) и все связанные с ним способы выражения (Query Patterns). Контент должен быть оптимизирован так, чтобы отвечать на весь кластер шаблонов, связанных в Pattern Graph.
Создание комплексного контента (Document as a Pivot): Создавайте страницы, которые полностью удовлетворяют определенный интент во всех его вариациях. Если ваша страница станет основным ответом на множество связанных запросов, она укрепит свою позицию как авторитетный центр для этого интента.
Четкое разделение интентов на сайте: Поскольку система стремится разделить близкие интенты (например, симптомы и лечение), структура сайта должна четко разграничивать эти темы. Создавайте отдельные страницы для разных суб-интентов, чтобы соответствовать механизму Similar Neighbors фильтрации.
Фокус на сущностях и структурировании данных: Убедитесь, что основные сущности четко определены в контенте и разметке Schema.org. Это помогает Query Annotator правильно идентифицировать сущности, что критично для генерации шаблонов и особенно для мультиязычного SEO (перенос интентов).
Анализ входящего трафика на уровне страниц (GSC): Анализируйте, по каким запросам ранжируется конкретная страница. Это дает прямое представление о том, какие Query Patterns Google уже ассоциирует с вашим документом, позволяя выявить пробелы в покрытии интента.

Worst practices (это делать не надо)

Фокус на узком наборе точных ключевых фраз: Оптимизация только под одну формулировку интента неэффективна. Система распознает другие шаблоны для того же интента, и если ваш контент не покрывает их, вы упустите трафик.
Смешивание разных интентов на одной странице: Создание страниц, которые пытаются охватить слишком много разных суб-интентов, может помешать системе присвоить четкий Classifier. Это может привести к тому, что страница не будет считаться сильным ответом ни на один из интентов.
Игнорирование поведенческих сигналов: Поскольку система основана на query-document pairs (кликах), игнорирование удовлетворенности пользователей (User Satisfaction) приведет к потере позиций, даже если контент текстуально релевантен.

Стратегическое значение

Этот патент подтверждает стратегию Google на глубокое понимание намерений пользователя за пределами текста запроса. Pattern Graph является инфраструктурным элементом, который позволяет масштабировать это понимание. Для долгосрочного SEO критически важно строить тематический авторитет (Topical Authority), полностью покрывая карту интентов в своей нише и создавая контент, который является лучшим ответом на конкретные кластеры интентов.

Практические примеры

Сценарий 1: Оптимизация страницы о достопримечательностях (Кластеризация)

Анализ (как в патенте): Google видит, что популярный документ о Калифорнии получает клики по запросам: «что посмотреть в Калифорнии», «достопримечательности Калифорнии», «чем заняться в Калифорнии».
Генерация шаблонов (Google): Google генерирует шаблоны: [что посмотреть в X], [достопримечательности X], [чем заняться в X] и связывает их в Pattern Graph под общим интентом.
Действия SEO-специалиста: При создании новой страницы (например, о Техасе), убедиться, что контент и структура явно отвечают на все эти шаблоны. Использовать соответствующие заголовки и разделы.
Результат: Страница ранжируется по всему кластеру запросов, так как она соответствует всем узлам интента в Pattern Graph.

Сценарий 2: Разделение интентов (Symptoms vs Treatment)

Анализ (как в патенте): Google видит, что запросы [симптомы диабета] и [лечение диабета] часто ведут на одну общую страницу о диабете.
Фильтрация (Google): Используя Similar Neighbors, система определяет, что классификаторы у этих шаблонов разные («Симптомы» и «Лечение»). Связь между ними в графе понижается.
Действия SEO-специалиста: Создать отдельную страницу, сфокусированную на симптомах, и отдельную — на лечении. Это позволит каждой странице лучше соответствовать своему Classifier.
Результат: Повышение релевантности и позиций для специфических запросов, так как контент точно соответствует разделенным интентам.

Вопросы и ответы

Что такое «Pattern Graph» (Граф шаблонов) и почему он важен для SEO?

Pattern Graph — это структура данных, где узлы представляют собой шаблоны запросов (например, [погода в X]), а ребра — оценку схожести их интентов. Схожесть определяется тем, насколько часто эти шаблоны ведут на одни и те же документы. Для SEO это важно, потому что показывает необходимость оптимизации под весь кластер связанных шаблонов (интент), а не только под одну ключевую фразу.

Что значит использовать «документ как точку опоры» (Document as a Pivot)?

Это ключевая концепция патента. Вместо того чтобы пытаться понять связь между двумя запросами напрямую (например, анализируя слова), Google смотрит, ведут ли они к одному и тому же документу, который удовлетворил пользователей. Если да, то система предполагает, что эти запросы имеют схожий интент. Это позволяет использовать существующую структуру веба и поведение пользователей для понимания языка запросов.

Как система отличает близкие, но разные интенты, например, [симптомы X] и [лечение X]?

Патент описывает механизм «фильтрации по соседству» (Similar Neighbors). Даже если оба шаблона часто ведут на один и тот же общий документ, система анализирует их окружение в Pattern Graph и их классификаторы (Classifiers). Если соседи или классификаторы у шаблонов разные, система понимает, что интенты отличаются, и разделяет их, предотвращая смешивание.

Как этот патент влияет на мультиязычное SEO?

Патент описывает метод автоматического перевода шаблонов запросов, основанный на сущностях. Google сопоставляет, как часто шаблоны в разных языках появляются вместе с одними и теми же каноническими сущностями (чей ID не зависит от языка). Это позволяет переносить понимание интента между языками. Для SEO это означает, что четкое определение сущностей критически важно для международного продвижения.

Какова роль поведенческих факторов в этом патенте?

Поведенческие факторы критически важны. Вся система основана на анализе пар «запрос-документ» (Query-Document Pairs), которые являются результатом действий пользователей (кликов). Система изучает, какие запросы привели к выбору каких документов, чтобы понять связь между запросами и реальное удовлетворение интента.

Как использовать выводы этого патента в контент-стратегии?

Необходимо перейти от создания контента под ключевые слова к созданию контента под кластеры интентов. Определите основной интент (Classifier) и изучите все возможные шаблоны его выражения. Создавайте страницы, которые комплексно отвечают на этот интент во всех его вариациях, чтобы ваша страница стала сильным «документом-pivot» для этого кластера.

Влияет ли этот механизм на срабатывание функций SERP (например, OneBox)?

Да, напрямую. В патенте упоминается, что сгенерированные и классифицированные шаблоны используются для определения того, когда следует активировать определенную поисковую функцию. Если запрос пользователя соответствует шаблону, помеченному как триггер (например, для блока с погодой), она будет активирована.

Стоит ли смешивать много разных суб-интентов на одной странице?

Исходя из механизма разделения интентов (Similar Neighbors фильтрация), это не лучшая практика. Если страница пытается охватить слишком много разных интентов, системе будет сложнее присвоить ей четкий Classifier. Лучше создавать отдельные, сфокусированные страницы для каждого значимого суб-интента.

Что такое Query Annotator и как он используется?

Query Annotator — это модуль, который распознает сущности в запросе и связывает их с уникальным каноническим идентификатором. Это используется для генерации шаблонов (заменяя сущность на плейсхолдер X) и является ключевым элементом для сопоставления шаблонов между разными языками.

Применяется ли этот алгоритм в реальном времени?

Построение Pattern Graph происходит в офлайн-режиме путем анализа больших объемов исторических данных. Однако результаты этой работы — сам граф, классификаторы интентов и переводы шаблонов — используются в реальном времени на этапе понимания входящего запроса пользователя для его интерпретации и ранжирования результатов.