Как Google переписывает запросы на естественном языке для поиска более качественных результатов

Google использует систему для улучшения результатов поиска по запросам на естественном языке. Если первоначальная выдача не удовлетворяет требованиям качества (например, отсутствуют прямые ответы или релевантность низкая), система генерирует и тестирует альтернативные, переписанные версии запроса. Если альтернативная версия дает лучшие результаты, они заменяют или дополняют исходную выдачу.

Описание

Какую задачу решает

Патент решает проблему предоставления некачественных или неполных результатов поиска, особенно в ответ на запросы на естественном языке (Natural Language Queries). Такие запросы часто содержат слова с низкой информационной ценностью (например, «покажи мне», «что такое») или местоимения, которые усложняют стандартный поиск. Цель изобретения — автоматически определить, когда исходная выдача неудовлетворительна, и найти лучшую формулировку запроса для предоставления более качественных результатов.

Что запатентовано

Запатентована система и метод для выборочного использования модифицированных запросов (Modified Queries). Система оценивает результаты исходного запроса по ряду требований. Если требования не выполнены, активируется система переписывания запросов (Query Rewrite System), которая предлагает альтернативные формулировки. Система выбирает лучшую альтернативу, выполняет по ней поиск и сравнивает результаты с исходными, чтобы определить итоговый набор результатов для пользователя.

Как это работает

Ключевой механизм работы:

Оценка исходной выдачи: Анализируются результаты первого запроса на соответствие требованиям (например, наличие High Quality Answer, достаточно высокие Ranking Scores).
Триггер переписывания: Если требования не удовлетворены, система инициирует процесс переписывания.
Генерация альтернатив: Query Rewrite System использует различные модули (например, удаление неважных слов, замена местоимений, QDQ) для создания кандидатов.
Фильтрация и Выбор: Кандидаты фильтруются (например, проверяется сохранение ключевых существительных из исходного запроса) и выбирается лучший на основе Confidence Score.
Сравнение и Предоставление: Результаты модифицированного запроса сравниваются с исходными. Если они лучше, система предоставляет их пользователю, возможно, в виде гибридного списка (hybrid list).

Актуальность для SEO

Высокая. С ростом популярности голосового поиска и диалоговых интерфейсов способность обрабатывать запросы на естественном языке и переформулировать их в эффективные поисковые запросы становится критически важной. Описанные механизмы, такие как QDQ (Query-to-Document-to-Query) и анализ подстрок, являются фундаментальными для современного понимания запросов.

Важность для SEO

Патент имеет высокое значение для SEO (8/10). Он раскрывает механизмы, с помощью которых Google может предпочесть результаты не по исходному запросу пользователя, а по его оптимизированной, переписанной версии. Это подчеркивает, что SEO-специалистам необходимо понимать не только то, что пользователи вводят, но и то, как Google это интерпретирует и переписывает. Успех стратегии зависит от способности ранжироваться по этим «скрытым» модифицированным запросам.

Детальный разбор

Термины и определения

Answer Box (Блок с ответом): Тип ответа, предоставляющий прямую информацию (например, погода, акции) в отдельном интерфейсе на SERP.
Confidence Score (Оценка уверенности): Метрика, присваиваемая модифицированному запросу, указывающая на уровень уверенности системы в том, что этот запрос является хорошей заменой исходному.
First Query (Первый запрос): Исходный запрос, введенный пользователем.
High Quality Answer (Высококачественный ответ): Ответ (например, Answer Box или Universal Answer), который с высокой степенью уверенности удовлетворяет запрос. Для универсальных ответов качество определяется количеством включенных результатов, превышающим пороговое значение.
Hybrid List (Гибридный список): Итоговая выдача, которая может включать результаты как исходного, так и модифицированного запроса.
Medium Quality Answer (Ответ среднего качества): Ответ, который удовлетворяет запрос с меньшей степенью уверенности, чем High Quality Answer. Для универсальных ответов определяется количеством результатов, которое ниже порога для высокого качества, но выше порога для среднего.
Modified Query (Модифицированный запрос): Альтернативная формулировка исходного запроса, сгенерированная системой для потенциального улучшения результатов поиска.
Module Quality Score (Оценка качества модуля): Метрика, присваиваемая конкретному модулю переписывания (например, QDQ), указывающая на общий уровень качества генерируемых им запросов.
QDQ (Query-to-Document-to-Query) Rewrite Module: Модуль переписывания, который находит альтернативные запросы, анализируя, какие запросы чаще всего приводят к документам, релевантным исходному запросу.
Query Intent (Намерение запроса): Предполагаемая цель пользователя при вводе запроса (например, поиск видео, новостей, локальных объектов).
Query Rewrite System (Система переписывания запросов): Компонент поисковой системы, отвечающий за генерацию Modified Queries. Состоит из одного или нескольких Query Rewrite Modules.
Substring Rewrite Module (Модуль переписывания подстрок): Модуль, который генерирует модифицированные запросы путем удаления слов с низкой важностью (основываясь на IDF, части речи) из исходного запроса.
Universal Answer (Универсальный ответ): Группа результатов поиска, соответствующих ресурсам определенной категории (например, Видео, Картинки, Новости).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс определения результатов поиска с условным переписыванием и специфической фильтрацией.

Система получает первый запрос и его результаты.
Определяется, что результаты не удовлетворяют требованию.
В ответ на это система получает модифицированные запросы. Процесс получения включает:
- Идентификацию множества модифицированных запросов, связанных с результатами первого запроса.
- Идентификацию существительного (noun) в первом запросе.
- Критический шаг фильтрации: Удаление из множества любых модифицированных запросов, которые НЕ включают это существительное.
Выбор модифицированного запроса из оставшихся.
Получение вторых результатов для выбранного запроса.
Предоставление одного или нескольких вторых результатов в ответ на первый запрос.

Ядро изобретения — это не просто переписывание запроса, а условное переписывание, запускаемое при неудовлетворительном качестве выдачи, с обязательным условием сохранения ключевых существительных для предотвращения семантического дрейфа.

Claim 3 (Зависимый от 1): Определяет условия, при которых результаты считаются неудовлетворительными («не удовлетворяют требованию»). Это может быть одно из следующих:

Ranking Score лучшего результата ниже порогового значения.
Отсутствие High Quality Answer в пределах первых N результатов.
Отсутствие Medium Quality Answer, соответствующего Query Intent, в пределах первых M результатов.

Claim 10 (Зависимый от 1): Уточняет формат предоставления результатов. Система может представить Hybrid List, включающий результаты как из первого, так и из второго набора.

Claim 11 (Зависимый от 1): Детализирует один из методов получения модифицированных запросов (механизм QDQ).

Определение документов, связанных с первым запросом.
Определение кандидатов в модифицированные запросы, связанных с этими документами.
Оценка каждого кандидата на основе релевантности связанных с ним документов первому запросу.
Выбор модифицированных запросов на основе этих оценок.

Где и как применяется

Изобретение функционирует как система контроля качества выдачи, затрагивая этапы понимания запросов, ранжирования и финального формирования SERP.

QUNDERSTANDING – Понимание Запросов
На этом этапе работает Query Rewrite System. Различные модули (QDQ, Substring Rewrite, модули замены местоимений) генерируют кандидатов на модифицированные запросы. Также здесь происходит определение Query Intent и грамматический анализ (определение частей речи, например, существительных для фильтрации по Claim 1).

RANKING – Ранжирование
Система выполняет ранжирование как для исходного запроса (First Query), так и для выбранного модифицированного запроса (Modified Query), генерируя два набора результатов с Ranking Scores.

RERANKING / METASEARCH – Переранжирование и Смешивание
Основное место применения логики патента. Компонент Query Results Provider выполняет следующие функции:

Оценка качества (Requirements Satisfaction): Анализирует результаты ранжирования исходного запроса на соответствие требованиям (Claim 3).
Принятие решения о переписывании: Если качество низкое, выбирается лучший модифицированный запрос.
Анализ и Смешивание (Query Results Analyzer): Сравнивает два набора результатов и определяет финальную выдачу (исходную, модифицированную или гибридную).

Входные данные:

Исходный запрос (Q1).
Результаты для Q1 с Ranking Scores.
Данные о Query Intent.
Кандидаты модифицированных запросов с их Confidence Scores.
Module Quality Scores для модулей переписывания.

Выходные данные:

Финальный набор результатов поиска (SERP), который может быть исходным, модифицированным или гибридным.

На что влияет

Специфические запросы: Наибольшее влияние на запросы на естественном языке, длинные (verbose) запросы, голосовые запросы и диалоговые запросы (содержащие местоимения, относящиеся к предыдущему контексту).
Типы контента: Влияет на выдачу, где ожидаются прямые ответы (Answer Boxes) или вертикальные результаты (Universal Answers), так как их наличие является критерием качества SERP.

Когда применяется

Алгоритм активируется при выполнении специфических условий, связанных с качеством исходной выдачи.

Триггеры активации (Claim 3):
- Низкая релевантность топа: Ranking Score лучшего результата ниже порога.
- Отсутствие высококачественного ответа: Нет High Quality Answer (например, релевантного Featured Snippet или полного блока Картинок) в Топ-N.
- Несоответствие интенту: Нет Medium Quality Answer, который соответствует определенному Query Intent (например, нет блока Видео при интенте «смотреть») в Топ-M.
Предварительное условие (Описание [0049]): В некоторых реализациях система может активироваться только если исходный запрос содержит как минимум пороговое количество терминов (т.е. для очень коротких запросов может не применяться).

Пошаговый алгоритм

Процесс обработки запроса и принятия решения о переписывании.

Получение запроса: Система получает первый запрос (Q1). (Опционально: проверка длины запроса).
Генерация первичных результатов: Получение первого набора результатов для Q1.
Оценка качества SERP: Система определяет, удовлетворяют ли результаты требованиям (проверка Ranking Scores, наличия High/Medium Quality Answers и соответствия Query Intent).
Принятие решения о переписывании:
- Если удовлетворены: Предоставить первый набор результатов. Процесс завершен.
- Если НЕ удовлетворены: Перейти к шагу 5.
Получение модифицированных запросов: Запрос к Query Rewrite System. Различные модули (QDQ, Substring, и т.д.) генерируют кандидатов с Confidence Scores.
Фильтрация кандидатов: Применение фильтров. Например, обязательное сохранение существительных из Q1 в кандидатах (Claim 1).
Выбор лучшего кандидата: Выбор одного или нескольких модифицированных запросов (Q2) на основе комбинации Confidence Score и Module Quality Score.
Генерация вторичных результатов: Получение второго набора результатов для Q2.
Определение стратегии предоставления: Система определяет, следует ли немедленно предоставить результаты Q2. Это происходит, если уверенность в переписанном запросе (комбинация Confidence Score и Module Quality Score) превышает высокий порог.
- Если ДА: Предоставить результаты Q2 (возможно в гибридном виде). Процесс завершен.
- Если НЕТ: Перейти к шагу 10.
Сравнительный анализ: Анализ результатов Q1 и Q2. Сравнение Ranking Scores, проверка наличия в Q2 ответа, соответствующего Query Intent Q1.
Финальное решение: Определение того, следует ли предоставить результаты Q2 по итогам анализа.
Предоставление результатов: Предоставление выбранного набора результатов (Q1, Q2 или гибрид).

Какие данные и как использует

Данные на входе

Патент описывает использование разнообразных данных для оценки качества выдачи и генерации альтернативных запросов.

Контентные и Семантические факторы:
- Грамматический анализ и части речи (Part-of-Speech): Используются для идентификации существительных (для фильтрации по Claim 1), а также для определения важности слов в Substring Rewrite Module (существительные важнее глаголов).
- Данные о сущностях: Используются модулем замены местоимений для определения гендера и одушевленности сущностей из предыдущих запросов.
Поведенческие факторы:
- Click-through data (Данные о кликах): Критически важны для QDQ Rewrite Module. Используются для определения самых популярных запросов, которые приводят к кликам на определенные документы.
- Журналы запросов (Query Logs): Используются Substring Rewrite Module для определения частотности запросов-кандидатов.
Системные данные:
- Ranking Scores: Используются для оценки качества исходной выдачи и сравнения с альтернативной.
- Inverse Document Frequency (IDF): Используется Substring Rewrite Module для оценки важности слов (слова с высоким IDF важнее).

Какие метрики используются и как они считаются

Confidence Score (Модифицированного запроса): Оценка уверенности в качестве переписанного запроса. Может основываться на Query Relevancy Score (в QDQ) или комбинации частотности и важности слов (в Substring).
Module Quality Score: Предварительно рассчитанная оценка качества конкретного модуля переписывания (например, на основе оценок асессоров).
Combined Score: Комбинация (например, линейная функция) Confidence Score и Module Quality Score. Используется для выбора лучшего модифицированного запроса.
Query Relevancy Score (QDQ): Метрика для оценки кандидатов в QDQ. Рассчитывается на основе агрегированной релевантности (Document Relevancy Scores) документов, связанных с кандидатом, по отношению к исходному запросу. Может также учитывать «Prevalence».
Prevalence (QDQ): Пропорция документов (из числа релевантных исходному запросу), которые связаны с данным кандидатом модифицированного запроса.
Importance Score (Substring): Оценка важности слова в запросе, основанная на IDF, части речи и структуре предложения.

Выводы

Переписывание запроса как механизм контроля качества: Google рассматривает переписывание запроса не просто как способ уточнения интента, но и как механизм для улучшения качества выдачи в реальном времени. Если стандартное ранжирование дает сбой (нет ответов, низкая релевантность), система ищет лучшую версию запроса.
Многообразие методов переписывания: Патент описывает систему (Query Rewrite System), использующую несколько разных подходов: семантическое соответствие через поведение пользователей (QDQ), синтаксическое упрощение (Substring Rewrite) и разрешение контекста (замена местоимений).
QDQ (Query-Document-Query) как ключевой механизм: Метод QDQ позволяет использовать коллективный опыт пользователей (какие запросы ведут к кликам на какие документы) для поиска более эффективных формулировок. Это связывает релевантность запроса с реальным поведением.
Жесткие правила фильтрации (Claim 1): Критически важный вывод: система удаляет модифицированные запросы, которые теряют существительные из исходного запроса. Это правило обеспечивает сохранение семантического ядра и предотвращает слишком сильное отклонение от темы.
«Ответы» как мера качества SERP: Наличие High Quality Answers или Medium Quality Answers (Featured Snippets, Answer Boxes, полные блоки вертикального поиска) является для Google формальным требованием к качеству выдачи. Их отсутствие может спровоцировать поиск альтернативных результатов.
Уверенность в переписывании определяет агрессивность: Если система высоко уверена в качестве модифицированного запроса (высокие Confidence Score и Module Quality Score), она может сразу предоставить его результаты. При средней уверенности проводится дополнительный сравнительный анализ.

Практика

Best practices (это мы делаем)

Оптимизация под переписанные запросы (Reverse-Engineering QDQ): Необходимо анализировать, какие именно запросы приводят трафик на страницы конкурентов по целевой тематике. Эти запросы, вероятно, являются теми «модифицированными запросами», которые предпочитает Google. Используйте данные GSC для своих страниц, чтобы понять, как Google уже переформулирует запросы пользователей, и оптимизируйте контент под эти эффективные формулировки.
Сохранение семантического ядра (Claim 1): При создании контента и оптимизации мета-тегов убедитесь, что ключевые существительные, определяющие тему, четко присутствуют. Это гарантирует, что при переписывании запросов пользователя ваш контент останется релевантным, так как Google отбрасывает альтернативы, теряющие эти существительные.
Стратегия захвата «Ответов»: Активно работайте над получением Featured Snippets, попаданием в блоки «Люди также ищут» и оптимизацией под вертикальный поиск (Картинки, Видео). Наличие вашего контента в виде High Quality Answer сигнализирует Google об удовлетворенности выдачи, что повышает ваши шансы остаться в топе.
Учет интента при создании контента: Убедитесь, что формат контента соответствует Query Intent. Если интент предполагает видео, наличие качественного видеоконтента поможет удовлетворить требование к Medium/High Quality Answer для этого интента.

Worst practices (это делать не надо)

Фокус исключительно на длинных хвостах естественного языка: Оптимизация страниц только под точные формулировки голосовых или разговорных запросов (например, «покажи мне лучшие рестораны рядом со мной») может быть неэффективной. Если такая выдача будет признана некачественной, Google перепишет запрос в более короткую форму (например, «лучшие рестораны [локация]»), и вы можете потерять позиции.
Игнорирование поведенческих сигналов (Click-Through Data): Механизм QDQ напрямую зависит от того, на какие документы кликают пользователи по определенным запросам. Игнорирование CTR и вовлеченности может привести к тому, что ваши страницы будут исключены из рассмотрения при формировании популярных QDQ-связей.
Создание размытого контента без четких сущностей: Контент, в котором сложно выделить ключевые существительные и сущности, рискует быть неправильно интерпретированным на этапе фильтрации модифицированных запросов (Claim 1).

Стратегическое значение

Патент подтверждает стратегическую важность этапа Понимания Запросов (Query Understanding). Для SEO это означает переход от простого сопоставления ключевых слов к пониманию того, как система трансформирует запросы для достижения качественного результата. Долгосрочная стратегия должна фокусироваться на создании тематического авторитета и обеспечении того, чтобы сайт считался лучшим ответом на оптимизированные, а не исходные формулировки запросов. Это также подчеркивает важность анализа реального поведения пользователей (QDQ) как основы для определения релевантности.

Практические примеры

Сценарий: Оптимизация статьи о путешествии с применением логики QDQ

Анализ исходного запроса: Пользователь ищет «что мне посмотреть в Париже в первый раз». Выдача по этому запросу может быть смешанной и не содержать четкого High Quality Answer.
Предполагаемое действие Google (QDQ): Google анализирует документы, релевантные этому запросу. Он обнаруживает, что пользователи, которые кликают на эти документы, часто приходили по запросу «главные достопримечательности Парижа».
Фильтрация (Claim 1): Система проверяет, сохранилось ли ключевое существительное «Париж». Да, сохранилось.
Действие SEO-специалиста: Вместо того чтобы фокусировать заголовок и H1 только на формулировке «в первый раз», необходимо убедиться, что страница также высоко оптимизирована под более популярный и эффективный запрос «главные достопримечательности Парижа». Это увеличивает вероятность того, что страница будет выбрана, когда Google перепишет исходный запрос.
Ожидаемый результат: Страница получает трафик как по исходному длинному запросу, так и по более частотному модифицированному запросу, занимая более высокие позиции в выдаче.

Вопросы и ответы

Что такое QDQ (Query-to-Document-to-Query) и почему это важно для SEO?

QDQ — это механизм переписывания запросов, описанный в патенте. Он ищет альтернативные формулировки запроса, анализируя, какие запросы чаще всего приводят к кликам на документы, релевантные исходному запросу. Для SEO это критически важно, так как показывает, что Google использует данные о поведении пользователей для определения наиболее эффективных запросов. Нужно оптимизировать контент под те запросы, которые реально приводят к кликам в вашей нише, а не только под те, которые кажутся релевантными семантически.

Что означает правило фильтрации по существительным (Claim 1) для моей контент-стратегии?

Claim 1 описывает жесткое правило: если модифицированный запрос не содержит существительное из исходного запроса, он отбрасывается. Это означает, что Google активно борется с семантическим дрейфом при переписывании. Для контент-стратегии это подчеркивает важность четкого использования ключевых существительных и сущностей, определяющих тему документа. Они должны быть ядром вашего контента, чтобы он оставался релевантным после любых автоматических модификаций запроса.

Что в патенте понимается под «High Quality Answer» и как это влияет на ранжирование?

High Quality Answer — это результат, который с высокой уверенностью удовлетворяет запрос. Примеры включают Answer Boxes (блоки с ответами, Featured Snippets) и полные блоки Universal Answer (например, блок из 5 картинок). Наличие такого ответа является одним из требований к качеству SERP. Если его нет, Google может активировать систему переписывания запросов, чтобы найти выдачу, где такой ответ присутствует. Это подтверждает важность работы над получением сниппетов.

Как система решает, какой из нескольких методов переписывания использовать?

Патент описывает Query Rewrite System, состоящую из разных модулей (QDQ, Substring и т.д.). Каждый модуль генерирует кандидатов и присваивает им Confidence Score. Также у каждого модуля есть предварительно рассчитанный Module Quality Score. Система выбирает тот модифицированный запрос, у которого наивысшая комбинированная оценка Confidence Score и Module Quality Score.

Что такое «Substring Rewrite Module» и как он работает?

Это модуль, который упрощает запрос, удаляя из него слова с низкой важностью. Важность определяется на основе IDF (Inverse Document Frequency) и части речи (например, глаголы и местоимения часто удаляются). Например, запрос «покажи мне картинки кошек» будет переписан как «картинки кошек». Это помогает отсеять шум в запросах на естественном языке.

Применяется ли этот механизм ко всем запросам?

Нет. Он активируется только при условии, что результаты исходного запроса не удовлетворяют определенным требованиям качества (Claim 3). Кроме того, в патенте упоминается, что система может не активироваться для слишком коротких запросов (менее порогового числа терминов). Основной фокус — на запросах на естественном языке, которые часто бывают длинными и неоднозначными.

Что такое «Hybrid List» результатов?

Это итоговая страница выдачи (SERP), которая содержит комбинацию результатов, найденных по исходному запросу, и результатов, найденных по модифицированному запросу. Google может решить смешать два набора, если уверенность в модифицированном запросе недостаточно высока для полной замены, но он все же предоставляет полезные дополнительные результаты (например, ответы, соответствующие интенту).

Как патент учитывает контекст диалога (например, в голосовом поиске)?

Патент описывает специальный модуль для обработки местоимений (FIG. 5, 6). Этот модуль анализирует текущий запрос и предыдущие запросы в сессии. Он определяет сущности в предыдущих запросах (например, «Бен Аффлек») и проверяет, соответствует ли местоимение в текущем запросе (например, «его рост») этой сущности по гендеру и числу. Если да, запрос переписывается с заменой местоимения на сущность («рост Бена Аффлека»).

Как я могу использовать логику этого патента для улучшения своей SEO-стратегии?

Ключевая тактика — это обратный инжиниринг QDQ. Анализируйте данные GSC и инструменты анализа конкурентов, чтобы выявить, какие именно формулировки запросов генерируют наибольшее количество кликов на топовые страницы в вашей нише. Это и есть те модифицированные запросы, которые предпочитает система. Оптимизируйте свой контент в первую очередь под них, сохраняя при этом релевантность исходным запросам на естественном языке.

Если мой сайт занимает ТОП-1, может ли этот алгоритм вытеснить его?

Да. Если ваша страница занимает ТОП-1, но при этом общая выдача по запросу признана некачественной (например, отсутствуют High Quality Answers или ваш Ranking Score едва превышает порог), система может активироваться. Она найдет альтернативный запрос, который дает более качественную выдачу, и предоставит эти результаты вместо или вместе с вашими, что потенциально может сместить вас с первой позиции.