Google использует систему канонизации запросов для преобразования неструктурированных или неграмотных поисковых фраз в «хорошо сформированные» (well-formed) вопросы. Система использует модель классификации для определения необходимости перезаписи и модель Sequence-to-Sequence для генерации канонической формы. Это применяется как к основному запросу пользователя, так и для очистки блоков «Похожие запросы».
Описание
Какую задачу решает
Патент решает проблему обработки поисковых запросов, которые не являются well-formed (хорошо сформированными). Согласно патенту, well-formed запрос грамматически корректен, не содержит орфографических ошибок и является явным вопросом. Пользователи часто вводят ключевые слова или неполные фразы (например, «Hypothetical Cafe directions»). Изобретение направлено на автоматическое преобразование таких запросов в их каноническую форму (например, «What are directions to Hypothetical Cafe?») для улучшения понимания интента и повышения качества поиска.
Что запатентовано
Запатентована система канонизации запросов, состоящая из двух ключевых моделей машинного обучения: Classification Model и Canonicalization Model. Система определяет, нуждается ли запрос (основной или связанный) в перезаписи, и если да, генерирует его грамматически корректный вариант в форме вопроса. Ключевой особенностью является условное выполнение: дорогостоящая генерация канонической формы происходит только в том случае, если запрос классифицирован как не являющийся well-formed.
Как это работает
Система работает по условному алгоритму:
- Классификация: При получении запроса Classification Model (например, нейронная сеть с Feed-Forward и Softmax слоями) анализирует лингвистические признаки запроса (n-граммы символов, слов, частей речи) и определяет вероятность того, что запрос является well-formed.
- Условное выполнение: Если запрос уже well-formed, он передается в поисковую систему напрямую, экономя ресурсы.
- Канонизация: Если запрос не является well-formed, он обрабатывается Canonicalization Model (например, моделью Sequence-to-Sequence с архитектурой Encoder-Decoder). Эта модель генерирует каноническую версию запроса в виде явного вопроса.
- Применение: Каноническая версия может использоваться для выполнения поиска, отображаться пользователю как уточнение или использоваться для очистки предлагаемых связанных запросов (Related Searches).
Актуальность для SEO
Высокая. Преобразование запросов и глубокое понимание естественного языка являются центральными элементами современного поиска (BERT, MUM). Описанный механизм напрямую связан с тем, как Google интерпретирует запросы, особенно в контексте голосового поиска и генерации ответов (Featured Snippets, AI Overviews). Использование моделей Sequence-to-Sequence (и их эволюции в Трансформеры) для перезаписи запросов является стандартной практикой в современных NLP-системах.
Важность для SEO
Патент имеет высокое стратегическое значение для SEO (85/100). Он описывает конкретный механизм на этапе Query Understanding, с помощью которого Google стандартизирует разнообразные пользовательские формулировки в явные вопросы. Это подчеркивает необходимость смещения фокуса с оптимизации под ключевые слова на оптимизацию под ответы на конкретные вопросы (Question Answering). Понимание того, в какие вопросы Google может канонизировать ключевые фразы, критично для успеха в получении Featured Snippets и видимости в блоках People Also Ask.
Детальный разбор
Термины и определения
- Well-formed Query (Хорошо сформированный запрос)
- Запрос, который соответствует грамматическим правилам языка. В патенте это определение уточняется: запрос должен быть грамматически корректным, не содержать орфографических ошибок и являться явным вопросом (explicit question).
- Query Canonicalization System (Система канонизации запросов)
- Система, которая преобразует исходный запрос в его каноническую (стандартную, well-formed) форму.
- Classification Model (Модель классификации)
- Модель машинного обучения (например, нейронная сеть), обученная определять, является ли запрос well-formed. Используется как гейткипер для экономии ресурсов.
- Canonicalization Model (Модель канонизации)
- Модель машинного обучения, обученная генерировать well-formed вариант запроса, если он изначально таковым не являлся. Часто это модель Sequence-to-Sequence.
- Sequence-to-Sequence Model (Seq2Seq)
- Архитектура нейронной сети (часто RNN, LSTM, GRU), используемая для преобразования одной последовательности в другую (например, для перевода или перезаписи текста). Состоит из Encoder и Decoder.
- Linguistic Features (Лингвистические признаки)
- Признаки, извлекаемые из запроса для использования моделями. Включают символы, слова, части речи (POS), сущности, а также их представления (n-grams).
- Related Search Query (Связанный поисковый запрос)
- Запрос, который часто вводится пользователями вблизи (по времени или порядку) от данного запроса. Определяется на основе исторических данных (historical data indicating proximities of query submissions). Используется для генерации предложений типа «Похожие запросы».
Ключевые утверждения (Анализ Claims)
Патент содержит несколько независимых пунктов, описывающих разные сценарии применения технологии.
Claim 7 (Независимый пункт): Обработка основного запроса. Описывает процесс обработки введенного пользователем запроса в реальном времени с акцентом на эффективность.
- Система получает естественный языковой запрос от клиентского устройства.
- До попытки генерации варианта и до выполнения поиска система применяет trained classification machine learning model к признакам запроса.
- Модель генерирует вероятность того, насколько запрос соответствует грамматическим правилам.
- На основе величины этой вероятности система определяет, является ли запрос well-formed.
- Если НЕ well-formed: Генерируется well-formed вариант с помощью trained canonicalization machine learning model. Этот вариант отправляется в поисковую систему, и результаты по нему отображаются пользователю.
- Если well-formed: Исходный запрос отправляется в поисковую систему, и результаты по нему отображаются пользователю.
Ядро изобретения здесь — условное выполнение. Классификатор используется первым, чтобы избежать запуска более тяжелой модели канонизации, если запрос уже в порядке.
Claim 15 (Независимый пункт): Обработка запроса с обратной связью пользователю. Описывает схожий процесс, но с изменением пользовательского интерфейса.
- Процесс классификации идентичен Claim 7 (используется классификатор для определения well-formedness).
- Если НЕ well-formed: Генерируется well-formed вариант. Система инструктирует клиентское устройство отобразить (a) индикацию того, что исходный запрос не был well-formed, И (b) сам well-formed вариант (например, «Искать вместо этого…»).
- Если well-formed: Выполняется стандартный поиск по исходному запросу.
Claim 1 (Независимый пункт): Канонизация связанных запросов (Related Searches). Описывает офлайн или онлайн процесс улучшения предложений связанных запросов.
- Система определяет связанный запрос (related search query) для данного запроса (given search query) на основе исторических данных о близости их ввода пользователями.
- Система генерирует well-formed вариант связанного запроса, используя trained canonicalization model.
- Создается маппинг (соответствие) между данным запросом и этим well-formed вариантом связанного запроса.
- Позже, когда пользователь вводит данный запрос:
- Система отображает кликабельную версию этого well-formed варианта (на основе маппинга).
- Если пользователь кликает на него, система отправляет связанный запрос (или его well-formed вариант) в поисковую систему.
Этот механизм используется для очистки и повышения понятности блоков «Похожие запросы», заменяя неграмотные формулировки на четкие вопросы.
Где и как применяется
Изобретение применяется преимущественно на этапе понимания запроса.
QUNDERSTANDING – Понимание Запросов
Это основная область применения патента. Система функционирует как компонент обработки и перезаписи запросов (Query Rewriting).
- В реальном времени (Claims 7, 15): При получении запроса от пользователя система классифицирует его и, при необходимости, канонизирует его в well-formed вопрос перед тем, как передать его на этап ранжирования. Это изменяет представление запроса, которое будут использовать последующие системы.
- Офлайн/Пакетная обработка (Claim 1): Система анализирует логи запросов для идентификации связанных запросов (Related Searches). Затем она превентивно канонизирует эти связанные запросы и сохраняет маппинг. Это улучшает качество данных, используемых для генерации предложений в SERP.
Взаимодействие с компонентами:
- Взаимодействует с Search System, предоставляя ей либо исходный, либо канонизированный запрос.
- Использует модели машинного обучения (Classification Model, Canonicalization Model), которые тренируются офлайн.
Входные данные:
- Исходный поисковый запрос (текст или аудио, преобразованное в текст).
- Лингвистические признаки запроса (n-граммы символов, слов, частей речи).
- Исторические данные о запросах (для определения связанных запросов).
Выходные данные:
- Оценка well-formedness (вероятность).
- Канонизированный запрос (well-formed variant).
- Маппинг между запросами и канонизированными связанными запросами.
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на информационные запросы, которые вводятся в виде ключевых слов или неполных фраз, но подразумевают конкретный вопрос (например, «возраст джейн доу»).
- Типы контента: Влияет на контент, который оптимизирован под формат «вопрос-ответ» (FAQ, статьи с четкими ответами). Канонизация запросов в явные вопросы увеличивает вероятность того, что такой контент будет признан релевантным.
- Форматы SERP: Увеличивает пул запросов, которые могут триггерить появление Featured Snippets и блоков People Also Ask, так как эти функции часто реагируют именно на явные вопросы.
Когда применяется
Алгоритм применяется условно.
- Триггер активации (для канонизации): Активация Canonicalization Model происходит только тогда, когда Classification Model определяет, что запрос НЕ является well-formed (вероятность ниже определенного порога).
- Условие применения (для связанных запросов): Применяется, когда система идентифицирует связанный запрос, который не является well-formed, и генерирует его каноническую форму для последующего отображения.
Пошаговый алгоритм
Процесс А: Обработка основного запроса в реальном времени
- Получение запроса: Система получает поисковый запрос от клиентского устройства.
- Извлечение признаков: Из запроса извлекаются лингвистические признаки (например, конкатенация n-грамм символов, слов и частей речи).
- Классификация (Gatekeeping): Признаки подаются на вход Classification Model. Модель генерирует оценку (вероятность), указывающую, является ли запрос well-formed.
- Принятие решения: Оценка сравнивается с пороговым значением.
- Ветвь «Well-Formed»: Если оценка выше порога, исходный запрос передается в поисковую систему. Процесс завершается.
- Ветвь «Not Well-Formed» (Канонизация): Если оценка ниже порога, признаки запроса подаются на вход Canonicalization Model (Seq2Seq).
- Кодирование: Encoder часть модели обрабатывает входную последовательность и генерирует векторное представление (encoding).
- Декодирование: Decoder часть модели генерирует новую последовательность слов, формируя well-formed вариант запроса (явный вопрос).
- Пост-обработка: Канонизированный запрос передается в поисковую систему (Claim 7) ИЛИ отображается пользователю как предложение (Claim 15).
Процесс Б: Обработка связанных запросов (Офлайн или Онлайн)
- Идентификация связей: Система анализирует исторические данные и определяет связанный запрос (Related Query) для данного запроса (Given Query).
- Классификация связанного запроса: Система определяет, является ли связанный запрос well-formed (используя Процесс А, шаги 2-4).
- Канонизация (при необходимости): Если связанный запрос не well-formed, генерируется его канонический вариант (используя Процесс А, шаги 6-8).
- Создание маппинга: Создается и сохраняется связь между данным запросом и каноническим вариантом связанного запроса.
- Отображение в SERP: Когда пользователь вводит данный запрос, система извлекает канонический вариант связанного запроса и отображает его в виде предложения (например, в блоке «Похожие запросы»).
Какие данные и как использует
Данные на входе
Система использует специфический набор лингвистических данных, извлеченных из текста запроса.
- Контентные факторы (Уровень запроса):
- Слова (Words): Последовательность слов в запросе.
- Символы (Characters): Составляющие символы запроса.
- Структурные/Лингвистические факторы (Уровень запроса):
- Части речи (Parts of Speech, POS): Грамматические категории слов в запросе.
- Сущности (Entities): Упоминаются как возможные признаки в описании патента.
- Поведенческие факторы:
- Исторические данные о запросах (Historical data): Используются для определения связанных запросов на основе близости их ввода пользователями (proximities of query submissions).
Какие метрики используются и как они считаются
Патент фокусируется на типах моделей и входных признаках, а не на конкретных метриках ранжирования.
- Представление признаков:
- N-grams: Используются n-grams для символов, слов и частей речи. Патент упоминает возможность конкатенации различных типов n-грамм (например, 1-граммы слов + 2-граммы POS и т.д.) в качестве входных данных для моделей.
- Метрики моделей:
- Probability of Well-formedness: Выход Classification Model. Генерируется с помощью слоя Softmax на основе обработки признаков через Feed-Forward layers. Это значение от 0 до 1, где магнитуда указывает на степень соответствия грамматическим правилам и формату вопроса.
- Алгоритмы машинного обучения:
- Для классификации: Нейронные сети с Feed-Forward layers и Softmax layers.
- Для канонизации: Sequence-to-Sequence модели. Упоминаются рекуррентные нейронные сети (RNN), включая LSTM и GRU, с архитектурой Encoder-Decoder.
- Обучение моделей: Модели обучаются на размеченных данных.
- Классификатор обучается на парах (Запрос, Метка well-formed [0 или 1]).
- Канонизатор обучается на парах (Не well-formed запрос, Его well-formed вариант).
Выводы
- Приоритет явных вопросов в поиске: Google активно стремится интерпретировать запросы как явные вопросы (explicit questions). Система готова переписать запрос пользователя, чтобы он соответствовал этому формату, что подтверждает стратегическую важность оптимизации под Question Answering.
- Двухуровневая система перезаписи запросов: Патент описывает сложную систему, включающую классификатор и генератор. Classification Model определяет необходимость вмешательства, а Canonicalization Model (Seq2Seq) выполняет фактическую перезапись.
- Эффективность как фактор архитектуры: Ключевым элементом изобретения является условное выполнение. Google использует более легкую модель классификации как гейткипер, чтобы запускать ресурсоемкую модель генерации только при необходимости.
- Лингвистические признаки как основа: Система полагается на глубокий анализ лингвистических признаков (n-граммы слов, символов и частей речи) для принятия решений о канонизации.
- Очистка связанных запросов: Механизм применяется не только к основному поиску, но и для улучшения качества и понятности блоков «Похожие запросы» (Related Searches) и PAA. Они также преобразуются в well-formed вопросы, что может влиять на пути исследования пользователя (user journeys).
- Изменение интента через перезапись: Хотя цель состоит в том, чтобы сохранить интент, канонизация неизбежно стандартизирует его. Понимание того, как именно Google канонизирует запросы в нише, становится важной задачей для SEO.
Практика
Best practices (это мы делаем)
- Оптимизация под Question Answering (QA): Структурируйте контент так, чтобы он давал четкие и прямые ответы на конкретные вопросы. Поскольку Google канонизирует ключевые фразы в вопросы, контент, отвечающий на эти вопросы, получит преимущество.
- Анализ канонических форм запросов: Изучайте блоки Featured Snippets, People Also Ask (PAA) и Related Searches в вашей нише. Эти блоки часто показывают, какие именно формулировки вопросов Google считает каноническими для определенных тем. Оптимизируйте страницы под эти конкретные вопросы.
- Использование формата FAQ: Активно используйте разметку FAQPage и структурируйте контент в виде вопросов и ответов. Это напрямую соответствует формату, который Google ищет после канонизации запроса.
- Фокус на естественном языке и грамматике: Пишите заголовки и подзаголовки в виде естественных, грамматически корректных вопросов. Это повышает вероятность точного совпадения с канонизированным запросом.
- Расширение семантики для покрытия подразумеваемых вопросов: При работе с ключевой фразой (например, «настройка роутера») убедитесь, что контент покрывает все основные подразумеваемые вопросы, в которые она может быть канонизирована («как настроить роутер», «что такое настройка роутера», «проблемы с настройкой роутера»).
Worst practices (это делать не надо)
- Исключительный фокус на Keyword Matching: Стратегии, основанные на точном совпадении ключевых слов без учета их грамматической формы или подразумеваемого вопроса, будут терять эффективность. Google может искать ответ на вопрос, которого нет на странице, даже если ключевые слова присутствуют.
- Использование неестественных конструкций в заголовках: Использование заголовков типа «Кофе цена Москва купить» вместо естественных вопросов или утверждений снижает релевантность контента для канонизированных запросов.
- Игнорирование структуры PAA и Related Searches: Рассматривать эти блоки просто как источник дополнительных ключей неверно. Их нужно анализировать как примеры работы системы канонизации Google в вашей тематике.
Стратегическое значение
Этот патент подтверждает стратегический курс Google на переход от поиска по ключевым словам к поиску ответов (Answer Engine). Для SEO-специалистов это означает, что понимание интента пользователя теперь неразрывно связано с пониманием того, как этот интент формулируется в виде явного вопроса. Долгосрочная стратегия должна быть направлена на создание контента, который является лучшим ответом на канонические вопросы в нише, а не просто набором релевантных ключевых фраз.
Практические примеры
Сценарий: Оптимизация страницы услуги по ремонту
- Анализ исходных запросов: Пользователи ищут «замена экрана iphone».
- Предполагаемая канонизация (на основе патента): Google может внутренне переписать это как «How to replace an iPhone screen?» (Как заменить экран iPhone?) или «How much does it cost to replace an iPhone screen?» (Сколько стоит замена экрана iPhone?).
- Анализ SERP: Проверка PAA и Related Searches по запросу «замена экрана iphone» для подтверждения канонических форм.
- Оптимизация контента:
- Включить H2 заголовок: «Сколько стоит замена экрана iPhone [модель]?» и дать четкий ответ сразу под ним.
- Включить H2 заголовок: «Как происходит замена экрана iPhone в нашем сервисе?» и описать процесс.
- Ожидаемый результат: Повышение релевантности страницы для канонизированных запросов, увеличение шансов на получение Featured Snippet по запросам о стоимости или процессе.
Вопросы и ответы
Что такое «well-formed query» согласно этому патенту?
Это не просто грамматически правильный текст. Патент определяет well-formed query как запрос, который (1) грамматически корректен, (2) не содержит орфографических ошибок и (3) является явным вопросом (explicit question). Например, фраза «Настройка роутера» не является well-formed, а «Как настроить роутер?» — является.
Всегда ли Google переписывает запрос, если он не является well-formed?
Патент описывает Classification Model, которая оценивает вероятность того, что запрос является well-formed. Перезапись (канонизация) происходит, если эта вероятность ниже определенного порога. Процесс является селективным и условным, направленным на экономию вычислительных ресурсов, если запрос уже достаточно ясен.
Какое значение этот патент имеет для оптимизации под Featured Snippets?
Критическое значение. Featured Snippets часто срабатывают в ответ на явные вопросы. Описанный механизм увеличивает количество запросов, которые Google внутренне обрабатывает как вопросы, тем самым расширяя возможности для получения сниппета. SEO-специалистам необходимо фокусироваться на предоставлении четких ответов на канонические вопросы в своей нише.
Как патент влияет на блок «Похожие запросы» (Related Searches) и PAA?
Патент прямо описывает (Claim 1) использование этой технологии для очистки связанных запросов. Система находит связанные запросы на основе поведения пользователей, проверяет, являются ли они well-formed, и если нет, канонизирует их перед показом. Это делает предложения в PAA и Related Searches более понятными и грамматически правильными.
Какие модели машинного обучения используются в этой системе?
Используются две основные модели. Для классификации (определения well-formedness) используется нейронная сеть, например, с Feed-Forward и Softmax слоями. Для генерации канонической формы (перезаписи) используется более сложная модель Sequence-to-Sequence (Seq2Seq), например, на основе RNN, LSTM или GRU, с архитектурой Encoder-Decoder.
Почему Google использует две модели, а не одну?
Это сделано для эффективности и экономии ресурсов. Модель генерации (Seq2Seq) является вычислительно дорогой. Модель классификации намного легче и быстрее. Она действует как гейткипер, пропуская уже well-formed запросы напрямую в поиск и направляя на дорогую обработку только те запросы, которые действительно нуждаются в канонизации.
Как узнать, в какой вопрос Google переписывает мои ключевые фразы?
Патент не предоставляет инструмента для этого, но дает подсказки, где искать. Анализируйте блоки People Also Ask (PAA) и Related Searches, а также вопросы, которые выигрывают Featured Snippets в вашей тематике. Эти элементы SERP часто отражают канонические формы запросов, которые генерирует система.
Влияет ли этот патент на коммерческие запросы?
Да, хотя влияние может быть менее очевидным, чем на информационные. Коммерческий запрос «iphone 15 pro max цена» может быть канонизирован в «Сколько стоит iPhone 15 Pro Max?». Контент, который четко отвечает на этот вопрос (например, в карточке товара или FAQ), получит преимущество в релевантности.
На какие лингвистические признаки опирается система?
Система анализирует комбинацию признаков на разных уровнях. В патенте упоминаются n-grams символов (для орфографии), n-grams слов (для семантики) и n-grams частей речи (POS tags, для грамматической структуры). Конкатенация этих признаков подается на вход моделям.
Что делать SEO-специалисту в свете этого патента?
Необходимо сместить стратегический акцент с традиционного подбора ключевых слов на идентификацию и анализ вопросов, которые задают пользователи в вашей нише. Структурируйте контент таким образом, чтобы он предоставлял исчерпывающие ответы на эти вопросы, используя естественные формулировки и, при необходимости, разметку Schema.org для FAQ.