Google генерирует блок «Связанные вопросы» (PAA), определяя, какие прошлые запросы приводили пользователей на те же URL, что и текущий запрос. Для обеспечения разнообразия система использует «Граф вопросов», где семантически близкие вопросы (те, по которым кликают на одинаковые результаты) группируются, позволяя выбрать и показать только лучший вариант из группы.
Описание
Какую задачу решает
Патент решает две основные задачи: 1) Идентификация релевантных вопросов, которые помогают пользователю глубже изучить тему исходного запроса. 2) Обеспечение разнообразия (диверсификация) этих вопросов, предотвращая показ нескольких вопросов, которые имеют одинаковое значение (equivalent questions), но разную формулировку. Это улучшает пользовательский опыт, предоставляя спектр связанных тем, а не повторяя один и тот же интент.
Что запатентовано
Запатентована система для генерации и отбора связанных вопросов, которая визуально реализуется как блок «People Also Ask» (PAA). Изобретение включает два ключевых механизма. Первый — это использование Topic Sets (наборов тем), основанных на исторических данных о том, какие запросы приводили к кликам на топовые результаты текущего запроса. Второй, и центральный для этого патента, — это создание и использование Question Graph (Графа вопросов) для идентификации эквивалентных вопросов на основе совпадения ресурсов, на которые кликают пользователи (common selected resources). Это позволяет системе диверсифицировать финальный список вопросов.
Как это работает
Система работает в двух режимах: офлайн и онлайн.
Офлайн: Строится Question Graph. Каждая вершина графа — это вопрос из базы данных. Две вершины соединяются ребром (признаются эквивалентными), если пользователи, задающие эти два вопроса, кликают на одни и те же URL (selected resources) с превышением определенного порога совпадения.
Онлайн:
- Система получает запрос и определяет топовые результаты (URL).
- Для этих URL определяются Topic Sets — прошлые запросы, которые часто приводили к кликам на эти URL.
- Генерируется начальный список кандидатов в связанные вопросы, которые соответствуют этим Topic Sets.
- Список ранжируется (например, по частоте запросов).
- Происходит диверсификация: система проходит по списку сверху вниз. Если текущий вопрос эквивалентен (связан в графе) вопросу, уже находящемуся выше в списке, он удаляется.
- Финальный список отображается пользователю (блок PAA).
Актуальность для SEO
Высокая. Блок «People Also Ask» (PAA) является одним из доминирующих элементов поисковой выдачи Google. Описанные в патенте механизмы, особенно определение семантической близости вопросов через поведенческие факторы (совпадение кликов), являются ключевыми для понимания того, как Google группирует интенты и выбирает, какие вопросы показывать.
Важность для SEO
Патент имеет высокое значение (85/100) для SEO-стратегии, особенно в области контент-маркетинга и оптимизации под SERP Features. Он раскрывает механизм выбора и формулировки вопросов в PAA. Понимание того, что эквивалентность определяется кликами, а релевантность — через Topic Sets топовых документов, дает конкретные инсайты для оптимизации контента с целью попадания в блок PAA и укрепления тематического авторитета.
Детальный разбор
Термины и определения
- Best Variant (Лучший вариант)
- Наиболее предпочтительная формулировка вопроса среди группы эквивалентных вопросов. Часто определяется как самый часто задаваемый вариант в группе.
- Common Selected Resources (Общие выбранные ресурсы)
- Ресурсы (URL), на которые кликали пользователи после ввода разных запросов. Совпадение этих ресурсов используется для определения эквивалентности вопросов.
- Equivalent Questions (Эквивалентные вопросы)
- Два или более вопроса, которые имеют эквивалентное значение. В контексте патента эквивалентность определяется преимущественно через совпадение Selected Resources, а не только лингвистическим анализом.
- Qualified Search Query (Квалифицированный поисковый запрос)
- Ранее отправленный поисковый запрос, который привел к тому, что пользователь кликнул на результат, идентифицирующий конкретный ресурс.
- Question Database (База данных вопросов)
- Хранилище ранее отправленных запросов, которые были идентифицированы как имеющие форму вопроса (например, содержащие вопросительные слова или соответствующие шаблонам).
- Question Engine (Система обработки вопросов)
- Компонент поисковой системы, отвечающий за генерацию связанных вопросов (PAA).
- Question Graph (Граф вопросов)
- Структура данных, где узлы представляют вопросы из Question Database. Ребра соединяют эквивалентные вопросы. Используется для диверсификации списка PAA.
- Selected Resources (Выбранные ресурсы)
- Ресурсы (URL), которые были выбраны (кликнуты) пользователями в ответ на конкретный вопрос, поданный как поисковый запрос.
- Topic Sets (Наборы тем)
- Наборы тем для конкретного ресурса (URL). Они выбираются из Qualified Search Queries для этого ресурса. По сути, это наиболее популярные запросы, которые приводят пользователей на данный URL.
Ключевые утверждения (Анализ Claims)
Патент является продолжением (continuation) более ранней заявки и фокусируется конкретно на механизме диверсификации с помощью графа вопросов.
Claim 1 (Независимый пункт): Описывает метод, включающий офлайн-построение графа и его онлайн-применение для диверсификации.
Часть А: Построение Графа Вопросов (Офлайн)
- Генерируется Question Graph, где каждый узел соответствует вопросу.
- Узлы соединяются ребрами (линками), если вопросы эквивалентны. Процесс определения эквивалентности:
- Для каждого вопроса идентифицируются Selected Resources (на основе кликов пользователей в ответ на этот вопрос).
- Идентифицируются пары вопросов, у которых количество общих Selected Resources превышает первый пороговый уровень.
- Для каждой такой пары узлы соединяются ребром в графе.
Часть Б: Применение Графа (Онлайн)
- Система получает новый поисковый запрос.
- Получается начальный рейтинг (initial ranking) вопросов, связанных с этим запросом.
- Генерируется модифицированный рейтинг (modified ranking). Для этого система итерирует по каждому вопросу в начальном рейтинге и выполняет следующие действия:
- Определяет, эквивалентен ли вопрос какому-либо вопросу, находящемуся выше в рейтинге. Это делается путем проверки наличия ребра в Question Graph между узлом текущего вопроса и узлами вышестоящих вопросов.
- Если вопрос эквивалентен вышестоящему, он удаляется из модифицированного рейтинга.
- Выбираются один или несколько вопросов из модифицированного рейтинга.
- Данные, идентифицирующие выбранные вопросы, передаются на устройство пользователя.
Ядро изобретения заключается в использовании поведенческих данных (совпадение кликов на URL) для определения семантической эквивалентности вопросов и последующем использовании этой информации для алгоритмической диверсификации списка связанных вопросов (PAA).
Claim 6 (Зависимый): Предлагает альтернативный или дополнительный метод определения эквивалентности для построения графа.
Вместо использования кликов (Selected Resources), система может использовать совпадение топовых результатов поиска. Если для двух вопросов определенное пороговое количество (третий порог) результатов среди N самых высокоранжированных результатов идентифицируют одни и те же ресурсы, эти вопросы также могут быть соединены в графе.
Где и как применяется
Изобретение затрагивает несколько этапов поиска, используя данные, собранные на этапе индексирования поведения, и влияя на финальное формирование выдачи.
CRAWLING & INDEXING (Сбор и индексация данных о поведении)
На этом этапе система собирает и индексирует логи запросов и данные о кликах пользователей (какой запрос был задан и на какой URL кликнул пользователь). Эти данные критичны для определения Qualified Search Queries, Topic Sets и Selected Resources.
QUNDERSTANDING (Понимание запросов — Офлайн процессы)
Большая часть работы происходит офлайн:
- Формирование Question Database (идентификация запросов в форме вопросов).
- Построение Question Graph: анализ всех вопросов, идентификация Selected Resources для каждого из них и вычисление эквивалентности на основе совпадения кликов.
RANKING (Ранжирование)
Основная система ранжирования определяет топовые результаты для исходного запроса. Эти результаты используются Question Engine для генерации Topic Sets.
METASEARCH (Метапоиск и Смешивание)
Question Engine работает на этом этапе для генерации блока PAA.
- Генерация кандидатов: Используя топовые результаты из RANKING, система определяет Topic Sets и находит начальный список связанных вопросов.
- Ранжирование и Диверсификация: Список ранжируется, а затем диверсифицируется с использованием Question Graph для удаления эквивалентных вопросов.
- Смешивание: Сформированный блок PAA встраивается в финальную поисковую выдачу.
Входные данные:
- Исходный запрос пользователя.
- Топовые результаты ранжирования для этого запроса.
- Исторические данные о запросах и кликах (для определения Topic Sets).
- Question Database.
- Question Graph (предварительно рассчитанный).
Выходные данные:
- Ранжированный и диверсифицированный список связанных вопросов (блок PAA).
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на информационные запросы, где пользователь исследует тему (например, медицинские симптомы, как в примере патента «Lichen planus»).
- Форматы контента: Влияет на видимость контента, структурированного в формате вопросов и ответов, так как он имеет больше шансов быть выбранным в качестве ответа при клике на вопрос в PAA.
Когда применяется
- Условия работы: Алгоритм применяется, когда для исходного запроса система может идентифицировать достаточное количество релевантных Topic Sets и соответствующих им вопросов в Question Database.
- Триггеры активации: Активируется для запросов, где система предполагает потребность пользователя в дальнейшем исследовании темы.
Пошаговый алгоритм
Процесс А: Генерация связанных вопросов (Онлайн)
- Получение запроса: Система получает поисковый запрос от пользователя.
- Получение результатов поиска: Получение ранжированного списка результатов от поисковой системы.
- Выбор ресурсов: Выбор одного или нескольких топовых ресурсов из результатов поиска.
- Определение Topic Sets: Для каждого выбранного ресурса определяются Topic Sets. Это делается путем:
- Идентификации Qualified Search Queries (запросы, которые привели к клику на этот ресурс).
- Ранжирования этих запросов (например, по частоте запросов или количеству кликов).
- Выбора топовых запросов в качестве Topic Sets.
- Генерация и ранжирование кандидатов (Initial Ranking):
- Идентификация вопросов в Question Database, которые соответствуют (например, содержат термины) одному или нескольким Topic Sets.
- Ранжирование совпадающих вопросов (например, по количеству раз, когда вопрос был задан).
- Диверсификация и удаление эквивалентов (Modified Ranking):
- Итерация по ранжированному списку вопросов.
- Для каждого вопроса проверка с помощью Question Graph, связан ли он (эквивалентен ли) с любым вопросом, уже находящимся выше в списке.
- Если да, вопрос удаляется из списка.
- Выбор лучшего варианта (Опционально): Для оставшихся вопросов система может заменить формулировку на Best Variant (наиболее частую формулировку среди эквивалентных вопросов).
- Передача данных: Отправка финального списка связанных вопросов пользователю.
Процесс Б: Построение Графа Вопросов (Офлайн)
- Генерация узлов: Создание графа, где каждый узел представляет вопрос из Question Database.
- Идентификация Selected Resources: Для каждого вопроса идентифицируются ресурсы (URL), на которые пользователи кликали после ввода этого вопроса.
- Определение эквивалентности: Идентификация пар вопросов, у которых количество общих Selected Resources превышает установленный порог.
- Построение связей: Соединение узлов для каждой идентифицированной пары ребром в графе.
Какие данные и как использует
Данные на входе
Патент критически зависит от поведенческих данных.
- Поведенческие факторы:
- Данные для Topic Sets: Логи, связывающие прошлые запросы с кликами на конкретные URL. Используются для определения, какие запросы релевантны топовым результатам текущего запроса.
- Данные для Question Graph (Selected Resources): Логи, показывающие, на какие URL кликают пользователи в ответ на конкретный вопрос. Совпадение этих URL используется для определения эквивалентности вопросов. Это ключевой механизм патента.
- Контентные факторы: Используются косвенно. Вопросы в Question Database должны соответствовать терминам в Topic Sets. Также упоминается использование шаблонов вопросов (question templates).
Какие метрики используются и как они считаются
- Ранжирование Qualified Search Queries (для Topic Sets): Метрики основаны на частотности: 1) количество раз, когда запрос был отправлен; или 2) количество раз, когда пользователи кликнули на целевой ресурс после отправки этого запроса.
- Порог совпадения Selected Resources (для Question Graph): Пороговое количество общих кликнутых ресурсов (например, 1 или 3 общих URL), необходимое для признания двух вопросов эквивалентными.
- Ранжирование связанных вопросов (Initial Ranking): Основано на количестве раз, когда каждый вопрос был отправлен в поисковую систему в качестве запроса.
- Качество ответа (Опционально): Упоминается возможность ранжирования вопросов на основе качества доступного ответа (например, качество ресурса-источника ответа, длина ответа).
Выводы
- Источником PAA являются топовые результаты: Вопросы, отображаемые в блоке PAA, напрямую связаны с контентом и тематикой страниц, которые ранжируются в топе по исходному запросу. Система определяет Topic Sets этих страниц (запросы, ведущие на них) и использует их для поиска связанных вопросов.
- Семантическая эквивалентность определяется поведением: Ключевой вывод патента — Google определяет, что два вопроса значат одно и то же (эквивалентны), если пользователи кликают на одни и те же результаты (Selected Resources) в ответ на эти вопросы. Это поведенческий подход к пониманию семантики, который может превалировать над чисто лингвистическим анализом.
- Диверсификация критична: Система активно борется с дублированием интентов в PAA. Question Graph используется для агрессивного удаления эквивалентных вопросов, оставляя только один (обычно самый высокоранжированный) вариант для каждого интента.
- Выбор формулировки (Best Variant): Google стремится использовать наиболее популярную или каноническую формулировку вопроса (Best Variant) для представления интента, что подчеркивает важность использования естественного языка, принятого у пользователей.
- Консолидация сигналов: Для того чтобы вопрос был признан значимым и попал в граф с сильными связями, необходимо, чтобы клики пользователей концентрировались на ограниченном наборе авторитетных ресурсов.
Практика
Best practices (это мы делаем)
- Обеспечение ранжирования в ТОП-10: Поскольку Topic Sets для генерации PAA берутся из топовых результатов поиска, необходимо ранжироваться в топе по исходному запросу, чтобы влиять на формирование PAA и иметь шанс появиться в ответах.
- Анализ и использование Topic Sets: Необходимо анализировать данные (например, из GSC), чтобы понять, какие запросы приводят трафик на ваши топовые страницы (это и есть ваши Qualified Search Queries и потенциальные Topic Sets). Контент должен четко отвечать на эти запросы.
- Идентификация и использование Best Variant: Анализируйте существующие блоки PAA в вашей нише, чтобы определить, какие формулировки вопросов Google предпочитает (Best Variant). Используйте именно эти формулировки в своем контенте (в заголовках, списках FAQ).
- Консолидация контента для усиления сигналов кликов: Если у вас есть несколько страниц, отвечающих на эквивалентные вопросы, рассмотрите возможность их консолидации в одну сильную страницу. Это поможет агрегировать поведенческие сигналы (клики) на одном URL, делая его сильным Selected Resource для данного кластера вопросов в Question Graph.
- Четкая структура ответов: Структурируйте контент так, чтобы он давал ясные и прямые ответы на идентифицированные вопросы. Это повышает вероятность того, что пользователи кликнут на ваш ресурс, укрепляя его позицию как Selected Resource.
Worst practices (это делать не надо)
- Создание множества тонких страниц под вариации вопросов: Создание отдельной страницы под каждую мелкую вариацию вопроса (например, «как почистить чайник» и «способ очистки чайника») контрпродуктивно. Это распыляет поведенческие сигналы по разным URL, ослабляя связь между вопросами и ответами в Question Graph.
- Игнорирование формулировок пользователей: Использование сложных или нестандартных формулировок вопросов вместо популярных Best Variants снижает шансы на то, что ваш контент будет сопоставлен с вопросами, выбранными для PAA.
- Размытие тематики страницы: Попытка ответить на слишком много не связанных между собой вопросов на одной странице может привести к тому, что страница не станет сильным Selected Resource ни для одного из них.
Стратегическое значение
Патент подтверждает, что Google активно использует поведенческие данные для понимания семантики и кластеризации интентов пользователей. Стратегия построения тематического авторитета (Topical Authority) должна учитывать эту механику: цель не просто ранжироваться по отдельным ключам, а стать основным Selected Resource для целого кластера эквивалентных вопросов. Это требует глубокого понимания интентов пользователей и предоставления исчерпывающих, консолидированных ответов, которые удовлетворяют эти интенты лучше, чем у конкурентов.
Практические примеры
Сценарий: Оптимизация статьи о страховании путешествий для PAA
- Анализ выдачи: Вводим запрос «страхование путешествий». Анализируем ТОП-10 результатов и блок PAA.
- Идентификация эквивалентных вопросов: Замечаем, что в PAA часто появляются вопросы, связанные со стоимостью. Google определил, что вопросы «Сколько стоит страховка для туриста?», «Цена туристической страховки» и «Стоимость страховки в поездку» эквивалентны, так как пользователи кликают на одни и те же калькуляторы и статьи с тарифами.
- Определение Best Variant: С помощью инструментов анализа частотности или наблюдения за PAA определяем, что Google предпочитает формулировку «Сколько стоит туристическая страховка».
- Оптимизация контента: На целевой странице создаем отдельный раздел с подзаголовком, максимально близким к Best Variant (например, H2: «Сколько стоит туристическая страховка в 2025 году»).
- Консолидация ответа: Убеждаемся, что этот раздел дает исчерпывающий ответ (тарифы, факторы ценообразования, примеры). Если ранее информация о ценах была разбросана по разным страницам, консолидируем ее здесь.
- Ожидаемый результат: Увеличение кликов на наш URL по этому кластеру вопросов укрепляет его как Selected Resource. Это повышает шансы на попадание в PAA в качестве ответа на вопрос о стоимости страховки.
Вопросы и ответы
Что такое «Topic Set» и как он используется для генерации PAA?
Topic Set — это набор тем для конкретного URL, основанный на исторических данных о том, какие запросы приводили к кликам на этот URL (Qualified Search Queries). Когда пользователь вводит запрос, Google смотрит на Topic Sets топовых результатов и ищет вопросы в своей базе, которые соответствуют этим темам. Таким образом, контент и тематика страниц в ТОПе напрямую определяют, какие вопросы появятся в PAA.
Как Google определяет, что два вопроса эквивалентны (значат одно и то же)?
Согласно патенту, основной метод определения эквивалентности — это анализ поведения пользователей. Если пользователи, задающие Вопрос А и Вопрос Б, часто кликают на одни и те же результаты (Common Selected Resources), Google считает эти вопросы эквивалентными. Это поведенческий подход к семантике, который не зависит исключительно от лингвистического анализа текста вопросов.
Что такое «Question Graph» и зачем он нужен?
Question Graph — это предварительно рассчитанная структура данных, где каждый вопрос является узлом, а ребра соединяют эквивалентные вопросы (определенные по совпадению кликов). Он используется в реальном времени для диверсификации блока PAA. Если в списке кандидатов есть несколько эквивалентных вопросов, система удаляет все, кроме самого высокоранжированного, чтобы избежать повторений.
Насколько важно ранжироваться в ТОП-10 по основному запросу, чтобы попасть в PAA?
Это критически важно. Механизм генерации PAA начинается с анализа Topic Sets именно топовых результатов поиска. Если ваш сайт не находится в топе по исходному запросу, он не участвует в процессе формирования связанных вопросов для этой выдачи и имеет гораздо меньше шансов появиться в ответах на эти вопросы.
Что такое «Best Variant» и почему это важно для SEO?
Best Variant — это предпочтительная формулировка вопроса, выбранная Google из группы эквивалентных вопросов (часто самая популярная или часто задаваемая). Для SEO важно использовать именно эту формулировку в контенте (заголовках, тексте), так как это увеличивает релевантность вашего контента вопросу, который Google решит показать в PAA.
Стоит ли создавать отдельные страницы под каждую вариацию вопроса?
Нет, это контрпродуктивно. Поскольку эквивалентность определяется совпадением кликов на URL, распыление контента по разным страницам ослабляет поведенческие сигналы для каждого отдельного URL. Лучше создать одну исчерпывающую страницу, которая консолидирует ответы на кластер эквивалентных вопросов и агрегирует клики.
Как система ранжирует вопросы внутри блока PAA?
Начальное ранжирование (до диверсификации) обычно основывается на популярности вопроса — сколько раз этот вопрос был задан поисковой системе. Также патент упоминает возможность учета качества доступного ответа (например, авторитетности ресурса, дающего ответ).
Использует ли Google только данные о кликах для определения эквивалентности?
В основном да, фокус патента именно на Selected Resources (кликнутые ресурсы). Однако в патенте также упоминается альтернативный метод (Claim 6): эквивалентность может быть установлена, если топовые результаты поиска (не обязательно кликнутые) для двух вопросов значительно пересекаются.
Как я могу узнать «Topic Sets» для моих страниц?
Самый прямой способ — это анализ отчетов по эффективности в Google Search Console. Запросы, которые приводят клики на конкретную страницу, являются вашими Qualified Search Queries и формируют основу для Topic Sets этой страницы. Анализ этих запросов покажет, с какими темами Google ассоциирует ваш контент.
Влияет ли этот патент на что-то, кроме блока PAA?
Хотя основное применение — это генерация связанных вопросов (PAA), лежащая в основе технология Question Graph и метод определения семантической эквивалентности через поведение пользователей, вероятно, используются в других частях системы Google для понимания запросов (Query Understanding) и кластеризации интентов.