Как Google автоматически генерирует фильтры для уточнения запроса, анализируя контент ранжируемых страниц и связанные запросы

Google использует систему для динамической генерации фильтров (уточнений запроса) в результатах поиска. Система анализирует текст и структуру топовых страниц, а также связанные запросы из логов. Затем она выбирает наиболее информативные ключевые слова, оценивает их качество на основе заметности на странице (Term Prominence) и обеспечивает разнообразие фильтров (Diversity), чтобы предложить пользователю релевантные опции для сужения поиска.

Описание

Какую задачу решает

Патент решает проблему неполноты исходного запроса пользователя и сложности самостоятельного уточнения поиска. Он устраняет ограничения заранее запрограммированных (hardcoded) фильтров, которые требуют ручной настройки, интернационализации и не адаптируются к новым терминам или динамике контента в интернете. Изобретение автоматизирует процесс создания релевантных и динамических фильтров для уточнения результатов поиска.

Что запатентовано

Запатентована система (Filter Subsystem) для динамической генерации фильтров результатов поиска. Система извлекает ключевые слова из контента страниц, релевантных исходному запросу, а также из связанных запросов в Query Logs. Эти ключевые слова оцениваются по ряду критериев, включая их информативность, заметность на странице (Term Prominence) и разнообразие (Diversity). Цель – автоматически предоставить пользователю набор полезных фильтров для сужения выдачи.

Как это работает

Механизм работает следующим образом:

Сбор данных: После получения запроса система определяет набор релевантных ресурсов (Responsive Resources) и связанных запросов.
Извлечение кандидатов: Из контента ресурсов и связанных запросов извлекаются ключевые слова (Keyword Corpus).
Отбор кандидатов: Система отфильтровывает неинформативные слова (Query Stop Terms) и выбирает полезные термины (Informational Terms).
Оценка качества и разнообразия: Кандидаты оцениваются по Quality Score, который учитывает их расположение (Term Prominence) и частоту на страницах. Также применяется Diversity filter, чтобы исключить дублирующиеся фильтры (например, «гуак» и «гуакамоле»).
Вывод фильтров: Лучшие фильтры отображаются пользователю вместе с результатами поиска.

Актуальность для SEO

Высокая. Хотя приоритетная дата изобретения – 2015 год, этот документ является продолжением (Continuation) и опубликован в 2024 году, что указывает на сохраняющуюся стратегическую актуальность технологии. Механизм динамических фильтров (часто в виде «пузырей» или вкладок для уточнения) активно используется в Google Поиске, Картинках, Товарах и мобильной выдаче для улучшения пользовательского опыта.

Важность для SEO

Патент имеет высокое значение для SEO (8.5/10), особенно в E-commerce, локальном поиске и контентных проектах с широкой тематикой. Он раскрывает механизм, как Google выбирает термины для уточнения поиска. Это напрямую влияет на видимость сайта при применении фильтров. Понимание того, что заметность термина (Term Prominence) на странице является ключевым фактором качества фильтра (Quality Score), дает конкретные рекомендации по структурированию контента для захвата трафика по уточненным интентам.

Детальный разбор

Термины и определения

Candidate Criteria (Критерии отбора кандидатов): Правила для выбора потенциальных фильтров из Keyword Corpus. Включают анализ связанных запросов и фильтрацию стоп-слов.
Categorical Query (Категориальный запрос): Запрос, результаты которого с высокой вероятностью относятся к определенной категории (например, «еда», «развлечения»). Пример: «бургеры». Может служить триггером для активации системы.
Diversity filter / Diversity Threshold (Фильтр разнообразия / Порог разнообразия): Механизм, гарантирующий, что предложенные фильтры приводят к достаточно разным наборам результатов. Фильтры, дающие слишком похожие результаты (превышающие Similarity Threshold), группируются.
Filter Subsystem (Подсистема фильтрации): Компонент поисковой системы, отвечающий за генерацию и обработку динамических фильтров.
Informational Terms (Информационные термины): Термины из связанных запросов, имеющие частоту ниже определенного порога. Считаются полезными для уточнения поиска в данном домене (например, «гуак», «сыр»).
Keyword Corpus (Корпус ключевых слов): Набор ключевых слов, извлеченных из контента релевантных ресурсов (Responsive Resources).
Language Model (Языковая модель): Используется для определения схожести запросов и терминов (синонимы, стемминг, поведенческие индикаторы, такие как схожие паттерны кликов).
Quality Score (Оценка качества фильтра): Метрика для ранжирования кандидатов в фильтры. Основана на атрибутах кандидата в релевантных ресурсах, таких как расположение (Term Prominence) и частота (frequency of occurrence).
Query Logs (Логи запросов): Данные о предыдущих запросах пользователей. Используются для определения связанных запросов, по которым пользователи выбирали те же ресурсы.
Query Stop Terms (Стоп-слова запроса): Термины из связанных запросов, имеющие частоту выше определенного порога. Считаются бесполезными для фильтрации (например, «найти мне», «и»).
Term Prominence (Заметность термина): Оценка расположения термина в ресурсе. Термины в более заметных местах (more prominent location), например, в заголовках, имеют более высокую значимость, чем термины в метаданных или незаметных местах.

Ключевые утверждения (Анализ Claims)

Анализ проводится на основе Claims 2-22 патентной заявки US20240143679A1, так как Claim 1 отменен (canceled).

Claim 2 (Независимый пункт): Описывает основной процесс генерации фильтров.

Определяется набор запросов, связанных с первым (исходным) запросом.
На основе этого набора связанных запросов определяются кандидаты в фильтры. Кандидаты включают informational terms из этих связанных запросов.
Для каждого кандидата рассчитывается Quality Score. Эта оценка основана на одном или нескольких атрибутах кандидата в наборе ресурсов, релевантных первому запросу.
Финальный набор фильтров выбирается из кандидатов на основе их Quality Scores.

Ядро изобретения заключается в использовании связанных запросов для идентификации потенциальных фильтров и последующей оценке этих фильтров на основе того, как они представлены в контенте, который уже ранжируется по исходному запросу.

Claim 6 (Зависимый): Уточняет состав кандидатов. Набор кандидатов в фильтры исключает stop terms (стоп-слова) из набора связанных запросов.

Claim 7 и 8 (Зависимые): Детализируют расчет Quality Score и вводят понятие заметности.

Атрибуты, используемые для расчета Quality Score, включают расположение (locations) кандидата в фильтры в релевантных ресурсах. Кандидат, появляющийся в более заметном месте (more prominent location), получает более высокий Quality Score, чем кандидат в менее заметном месте.

Claim 9 (Зависимый): Дополняет расчет Quality Score. Атрибуты также включают частоту появления (frequency of occurrence) кандидата в наборе релевантных ресурсов.

Claim 11 и 12 (Зависимые): Вводят критерий разнообразия.

Выбор финального набора фильтров также основывается на разнообразии (diversity) соответствующих отфильтрованных наборов контента. Система применяет каждый кандидат к набору ресурсов. Пара кандидатов, чьи отфильтрованные наборы удовлетворяют порогу схожести (similarity threshold), группируется в единый кандидатский фильтр.

Где и как применяется

Изобретение применяется на нескольких этапах поисковой архитектуры для генерации динамических фильтров (уточнений запроса).

INDEXING – Индексирование и извлечение признаков
На этом этапе система анализирует контент ресурсов, извлекает ключевые слова и аннотирует их с учетом их расположения и заметности (Term Prominence). Эти данные необходимы для последующего расчета Quality Score фильтров.

QUNDERSTANDING – Понимание Запросов
Система анализирует Query Logs для определения связей между запросами и ресурсами. Определяются связанные запросы (related queries) и выявляются Informational Terms и Query Stop Terms. Также может определяться, является ли запрос Categorical Query.

RANKING – Ранжирование
Система генерирует первичный набор релевантных ресурсов (Responsive Resources) для исходного запроса. Этот набор служит основой для генерации фильтров.

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
Основной этап работы Filter Subsystem. Система анализирует контент топовых результатов из этапа RANKING и связанные запросы. Происходит генерация кандидатов, расчет их Quality Scores и применение Diversity filter. Финальный набор фильтров интегрируется в поисковую выдачу (SERP) вместе с результатами поиска.

Входные данные:

Исходный запрос пользователя.
Набор релевантных ресурсов (Responsive Resources).
Данные из Query Logs (связанные запросы, данные о кликах).
Данные о структуре и контенте ресурсов (для оценки Term Prominence).
Language Model (для определения схожести).

Выходные данные:

Набор динамических фильтров, отображаемых на SERP.
При выборе фильтра пользователем – отфильтрованный набор результатов поиска.

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние оказывается на типы контента, требующие частого уточнения. Это критично для E-commerce (фильтры по характеристикам товара), локального поиска (фильтры по особенностям заведений, блюдам в меню, отзывам), рецептов и медиа-контента (например, Google Images).
Специфические запросы: Влияет на широкие или неоднозначные запросы (Categorical Queries), где у пользователя нет четко сформулированного финального интента (например, «кроссовки», «рестораны рядом», «бургеры»).

Когда применяется

Условия применения: Алгоритм применяется динамически во время обработки запроса (at serving time), когда необходимо предоставить пользователю опции для уточнения поиска.
Триггеры активации: Вероятно, активируется для запросов, идентифицированных как Categorical Queries, или для запросов, по которым в логах часто наблюдаются последующие уточнения.

Пошаговый алгоритм

Процесс генерации фильтров в ответ на запрос:

Получение запроса и ресурсов: Система получает исходный запрос и идентифицирует набор релевантных ресурсов (Responsive Resources).
Извлечение ключевых слов (Mining): Система извлекает ключевые слова из контента полученных ресурсов, формируя Keyword Corpus.
Определение связанных запросов: Система анализирует Query Logs и использует Language Model, чтобы найти другие запросы, связанные с исходным (например, те, по которым пользователи выбирали эти же ресурсы).
Идентификация терминов:
1. Определяются Query Stop Terms – высокочастотные слова с низкой ценностью в связанных запросах.
2. Определяются Informational Terms – слова с более низкой частотой, но высокой ценностью для уточнения.
Генерация кандидатов в фильтры: Система формирует набор кандидатов, используя Informational Terms и ключевые слова из Keyword Corpus, исключая Query Stop Terms.
Расчет Quality Score: Для каждого кандидата рассчитывается Quality Score. Оценка учитывает:
1. Term Prominence: Расположение термина в ресурсах (заголовки ценятся выше основного текста или метаданных).
2. Частоту термина в наборе релевантных ресурсов.
Применение Diversity Filter:
1. Каждый кандидат применяется к набору ресурсов для получения гипотетического отфильтрованного набора.
2. Сравниваются пары отфильтрованных наборов. Если они превышают порог схожести (Similarity Threshold), кандидаты группируются (например, «гуак» и «гуакамоле»).
3. Выбирается представитель группы.
Финальный отбор: Система выбирает финальный набор фильтров на основе их Quality Scores и обеспечения разнообразия.
Отображение: Фильтры предоставляются пользователю вместе с результатами поиска.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст ресурсов (HTML страницы, документы, описания, обзоры, меню).
Структурные факторы: Расположение текста на странице. Система явно учитывает Term Prominence (заметность), различая заголовки, основной контент и метаданные. Термины в заметных местах получают приоритет.
Поведенческие факторы (Query Logs):
- Связанные запросы: Какие другие запросы вводят пользователи, интересующиеся теми же ресурсами.
- Данные о кликах (Selection data): Подтверждение того, что ресурс был выбран пользователем по определенному запросу.
- Поведенческие индикаторы схожести терминов (например, схожие паттерны кликов).
Языковые данные (Language Model): Данные для определения семантической схожести терминов и запросов (синонимы, стемминг).

Какие метрики используются и как они считаются

Quality Score (Оценка качества фильтра): Агрегированная метрика для ранжирования фильтров. Рассчитывается как функция от Term Prominence и частоты термина в релевантных ресурсах. Более заметное расположение дает более высокий балл.
Query Stop Term Frequency Threshold (Порог частоты стоп-слов): Порог частоты термина в логах запросов, выше которого термин считается неинформативным (стоп-словом) для данного домена.
Informational Term Threshold (Порог информационного термина): Порог частоты термина в логах запросов, ниже или равный которому термин считается полезным для уточнения.
Similarity Threshold (Порог схожести): Метрика для оценки схожести двух наборов отфильтрованных результатов. Используется в Diversity filter для группировки дублирующихся фильтров.
Diversity Threshold (Порог разнообразия): Требование, чтобы финальный набор фильтров приводил к достаточно разным наборам результатов (разница должна превышать определенный порог).

Выводы

Динамическая генерация фильтров: Google автоматически генерирует опции для уточнения запроса (фильтры) на лету. Они формируются динамически на основе текущей выдачи и актуальных данных о запросах.
Источники фильтров – Контент и Запросы: Фильтры генерируются на основе двух основных источников: (1) контента страниц, ранжирующихся по запросу, и (2) связанных запросов из Query Logs, которые ведут на эти же страницы.
Критичность заметности контента (Term Prominence): Патент явно указывает, что расположение ключевого слова на странице напрямую влияет на Quality Score фильтра. Термины в заметных местах (например, заголовках) имеют приоритет над терминами в основном тексте или метаданных.
Важность информативных терминов: Система активно отделяет полезные уточняющие слова (Informational Terms, например, характеристики, атрибуты) от общих слов (Query Stop Terms) путем анализа частотности в связанных запросах.
Обеспечение разнообразия (Diversity): Система не покажет пользователю синонимичные или слишком близкие фильтры. Применяется Diversity filter, который сравнивает результаты применения фильтров и группирует те, что дают схожую выдачу (например, «авто» и «автомобиль»).
Фокус на категориальных запросах: Механизм особенно актуален для широких Categorical Queries (E-commerce, локальный поиск), где уточнение интента необходимо.

Практика

Best practices (это мы делаем)

Оптимизация под уточняющие интенты (Фасеты): Необходимо оптимизировать контент не только под основной запрос, но и под вероятные уточнения. Используйте четкие, описательные термины, которые пользователи могут использовать для фильтрации (соответствующие Informational Terms).
Использование ключевых атрибутов в заметных элементах: Поскольку Term Prominence влияет на Quality Score фильтра, размещайте важные характеристики, атрибуты и ключевые особенности в заголовках (H1-Hn), подзаголовках и выделенных блоках в верхней части страницы.
Структурирование контента: Четко структурируйте контент (например, списки характеристик, разделы обзоров, пункты меню). Это облегчает системе извлечение кандидатов в фильтры и корректную оценку их заметности.
Анализ существующих фильтров в нише: Изучайте, какие фильтры Google уже генерирует по вашим целевым запросам. Это прямой индикатор того, какие термины система считает важными на основе контента конкурентов и логов запросов. Убедитесь, что ваш контент содержит эти термины на видных местах.
Расширение семантики для охвата связанных запросов: Создавайте контент, который отвечает на связанные запросы (related queries). Это увеличивает вероятность того, что термины с вашей страницы будут использованы в качестве фильтров.

Worst practices (это делать не надо)

Размещение важных атрибутов в незаметных блоках: Скрытие ключевых характеристик в футере, метаданных (если они не отображаются пользователю) или внутри изображений снижает их Term Prominence, уменьшая вероятность их использования в качестве фильтров.
Использование нестандартной терминологии: Использование жаргона или слишком сложных терминов, которые не встречаются в Query Logs как Informational Terms, не поможет в генерации фильтров.
Игнорирование структуры страницы: Сплошной блок текста затрудняет оценку Term Prominence для отдельных ключевых слов и снижает общую полезность контента для системы фильтрации.

Стратегическое значение

Этот патент подтверждает важность понимания пути пользователя от широкого запроса к конкретному интенту. Стратегия SEO должна включать оптимизацию под весь этот путь. Google стремится помочь пользователю уточнить запрос прямо в выдаче, и сайты, чей контент лучше всего поддерживает этот процесс (за счет ясной структуры и правильной терминологии), получают преимущество. Это также подчеркивает синергию между анализом контента (On-Page SEO) и анализом поведения пользователей (Query Logs) в алгоритмах Google.

Практические примеры

Сценарий 1: Оптимизация карточки товара (E-commerce)

Задача: Увеличить видимость кроссовок по уточняющим запросам (цвет, технология, назначение).
Действия: Убедиться, что ключевые характеристики (например, «Водонепроницаемые», «Для бега по пересеченной местности», «Красные») размещены в заголовке H1, подзаголовках H2 или в выделенном блоке характеристик в верхней части страницы.
Ожидаемый результат: По запросу «кроссовки Nike» система с большей вероятностью сгенерирует фильтры «Водонепроницаемые» и «Красные», так как эти термины имеют высокий Term Prominence на релевантных страницах. При выборе фильтра пользователь увидит оптимизированную карточку.

Сценарий 2: Оптимизация страницы ресторана (Локальный поиск)

Задача: Привлечь посетителей, ищущих бургеры с конкретными ингредиентами (пример из патента).
Действия: В разделе меню на сайте четко структурировать названия блюд. Вместо общего названия «Бургер фирменный», использовать «Бургер с гуакамоле и халапеньо» и «Чизбургер с беконом». Разместить меню на видном месте страницы.
Ожидаемый результат: По запросу «бургеры рядом» система анализирует контент (меню). Термины «гуакамоле», «бекон» идентифицируются как Informational Terms с высоким Term Prominence. Google генерирует соответствующие фильтры, и ресторан попадает в отфильтрованную выдачу.

Вопросы и ответы

Как именно рассчитывается Quality Score для фильтра?

Патент определяет Quality Score на основе атрибутов кандидата в фильтры в релевантных ресурсах. Ключевыми атрибутами являются расположение (Term Prominence) и частота (frequency of occurrence). Термины, расположенные в более заметных местах (например, заголовках), получают более высокий балл, чем термины в менее заметных местах (например, основном тексте или метаданных).

Что такое Diversity Filter и зачем он нужен?

Diversity filter гарантирует, что предложенные пользователю фильтры не дублируют друг друга. Система проверяет, насколько похожи результаты поиска после применения двух разных фильтров. Если результаты слишком похожи (превышают Similarity Threshold), фильтры группируются, и отображается только один представитель группы. Например, система не покажет одновременно фильтры «гуак» и «гуакамоле», если они ведут к одинаковым результатам.

Откуда Google берет идеи для фильтров?

Используются два основных источника. Первый – это контент страниц, которые уже ранжируются по исходному запросу (Keyword Corpus). Второй – это Query Logs, откуда система берет связанные запросы (related queries), по которым пользователи переходили на эти же страницы. Из этих источников извлекаются информативные термины (Informational Terms).

Как система отличает полезный фильтр от бесполезного слова?

Система использует анализ частотности терминов в Query Logs. Слова, которые встречаются слишком часто в разных контекстах и доменах (например, «найти», «лучший»), классифицируются как Query Stop Terms и исключаются. Слова, которые встречаются реже, но специфичны для тематики и полезны для уточнения (например, характеристики товара), классифицируются как Informational Terms.

Как SEO-специалист может повлиять на то, какие фильтры покажет Google?

Напрямую повлиять можно через оптимизацию контента. Размещая важные уточняющие термины (характеристики, атрибуты, фасеты темы) на заметных позициях (заголовки, выделенные блоки), вы увеличиваете их Term Prominence. Это повышает Quality Score этих терминов как потенциальных фильтров, увеличивая вероятность их показа в выдаче.

Актуален ли этот патент для всех типов сайтов?

Он наиболее актуален для сайтов, которые ранжируются по широким или категориальным запросам (Categorical Queries). Это в первую очередь E-commerce, локальный поиск, сайты с рецептами, обзорами, агрегаторы и медиа-ресурсы (например, поиск по картинкам). Для узконишевых информационных сайтов влияние менее выражено.

Как система обрабатывает синонимы при генерации фильтров?

Система использует Language Model для распознавания синонимов на этапе анализа схожести. Затем Diversity filter проверяет результаты. Если синонимы приводят к одинаковому набору результатов, они будут сгруппированы. Выбор представителя группы (какой именно синоним показать) будет зависеть от их Quality Scores (частота и заметность).

Что делать, если Google генерирует нерелевантные фильтры по моим запросам?

Это означает, что в контенте страниц, которые Google считает релевантными (включая вашу и конкурентов), эти нерелевантные термины имеют высокую частоту и/или заметность, или они часто встречаются в связанных запросах. Необходимо проанализировать Топ выдачи и скорректировать свой контент, чтобы повысить Term Prominence действительно важных атрибутов и снизить акцент на нерелевантных.

Влияет ли микроразметка (Schema.org) на генерацию этих фильтров?

Патент явно не упоминает микроразметку. Описанный механизм фокусируется на извлечении фильтров из контента и структуры (расположения) ресурсов. Однако хорошо структурированные данные, включая микроразметку, могут облегчить системе извлечение и понимание атрибутов, что косвенно может положительно повлиять на генерацию релевантных фильтров.

Как это влияет на стратегию продвижения по длинному хвосту (long-tail)?

Эта система может снизить необходимость пользователей вручную вводить длинные запросы, предлагая им путь уточнения от общего запроса к специфическому через фильтры. Для SEO это означает, что важно не только оптимизироваться под узкие запросы, но и быть релевантным широкому запросу, при этом четко выделяя атрибуты (в prominent locations), которые позволят попасть в отфильтрованную выдачу.