Как Google использует HTML-шаблоны сайта для генерации новых поисковых запросов (Synthetic Queries)

Google анализирует, как термины из известных эффективных запросов (Seed Queries) расположены в HTML-структуре страницы (например, H1, Title). Если эта структура повторяется на других страницах того же сайта, система создает шаблон и использует его для извлечения ключевых терминов из аналогичных позиций. Это позволяет Google генерировать новые релевантные запросы (Synthetic Queries) для контента в масштабе всего сайта.

Описание

Какую задачу решает

Патент решает проблему ограниченности данных о том, какие запросы являются эффективными для конкретных документов. Опора исключительно на исторические логи запросов пользователей не позволяет системе идентифицировать потенциально эффективные запросы, которые еще не использовались, особенно для нового или нишевого (long-tail) контента. Изобретение позволяет проактивно генерировать новые, хорошо работающие запросы (Synthetic Queries), анализируя структуру сайта.

Что запатентовано

Запатентована система генерации Synthetic Queries на основе структурного сходства (например, HTML-разметки) между документами, размещенными на одном веб-сайте. Система анализирует, в каких структурных элементах (Embedded Coding Fragments) документа находятся термины из известных эффективных запросов (Seed Queries). На основе этого создаются Query Templates (шаблоны запросов), которые затем применяются к другим страницам того же сайта для извлечения новых запросов.

Как это работает

Система работает по следующему принципу:

Идентификация Seed Queries: Определяются запросы, которые исторически эффективны для конкретных документов.
Анализ структуры: Система определяет, в каких HTML-структурах (например, тегах <h1>, <title>) целевого документа находятся термины из Seed Query.
Генерация шаблонов: Создаются Query Templates, абстрагирующие эту структуру. Шаблоны могут включать Literals (фиксированный текст) и Wildcards (переменные с ограничениями).
Валидация шаблонов: Проверяется, насколько часто эта структура встречается на других страницах того же сайта (Template Qualification Value). Редкие структуры отбрасываются.
Применение шаблонов: Валидированные шаблоны применяются к другим документам на сайте.
Извлечение и оценка: Текст, соответствующий шаблону, извлекается как кандидат. Его эффективность оценивается (например, с помощью IR score).
Сохранение: Кандидаты, превысившие порог эффективности, сохраняются как новые Synthetic Queries.

Актуальность для SEO

Высокая. Понимание шаблонного контента и структуры сайтов критически важно для современных поисковых систем, особенно для масштабирования анализа крупных сайтов (e-commerce, каталоги). Этот механизм позволяет Google лучше понимать релевантность контента на основе структуры, даже при отсутствии исторических данных по конкретной странице. Участие Пола Хаара (Paul Haahr) подчеркивает значимость этого патента для механизмов ранжирования.

Важность для SEO

Патент имеет высокое значение для SEO, особенно технического. Он демонстрирует, что Google анализирует сайты не только постранично, но и на уровне шаблонов. Консистентная, чистая и семантическая HTML-структура позволяет системе надежно извлекать основные темы страниц в масштабе всего сайта. Если ключевые термины постоянно находятся в одних и тех же HTML-элементах, Google сможет эффективно генерировать релевантные запросы для этих страниц.

Детальный разбор

Термины и определения

Seed Query (Исходный/Опорный запрос): Существующий запрос (введенный пользователем или сгенерированный ранее), который идентифицирован как эффективный (well-performing) для определенного документа (например, на основе данных о взаимодействии пользователей).
Synthetic Query (Синтетический запрос): Сгенерированный компьютером запрос, который, как ожидается, будет эффективным для поиска определенного документа. Генерируется путем применения Query Templates.
Structured Document (Структурированный документ): Документ, содержащий встроенное кодирование (embedded coding), например, HTML или XML.
Embedded Coding Fragments (Фрагменты встроенного кода): Конкретная HTML-структура (например, пара тегов и заключенный в них контент) в документе, где были найдены термины из Seed Query.
Query Template (Шаблон запроса): Абстрактное представление Embedded Coding Fragment. Включает generative rule, определяющее, какой текст следует извлекать из документов, соответствующих этому шаблону. Состоит из Literals и Wildcards.
Literal (Литерал): Компонент Query Template, представляющий фиксированную строку текста, которая должна точно совпадать в документе.
Wildcard (Подстановочный знак/Переменная): Компонент Query Template, представляющий переменную часть структуры. Имеет тип (например, generic type) и может иметь ограничения (constraints), например, нахождение внутри определенного тега (<title>) или частоту встречаемости (count>N).
Template Qualification Value / Template Threshold (Порог квалификации шаблона): Минимальное количество раз, которое структура шаблона должна появиться на сайте, чтобы шаблон считался валидным. Может быть пропорционален размеру сайта.
IR Score (Information Retrieval Score): Метрика, используемая для оценки эффективности сгенерированного Synthetic Query относительно документа, из которого он был извлечен (оценка релевантности).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод генерации синтетических запросов.

Система идентифицирует seed query для структурированного документа на основе его эффективности (performance).
Система идентифицирует структуру (например, HTML-теги) в части документа, которая содержит термины из seed query.
Генерируется query template, который определяет эту структуру и указывает, из какой части структуры следует извлекать текст.
Генерируются synthetic queries путем применения этого шаблона к другим структурированным документам:
1. Идентифицируется часть другого документа, соответствующая структуре шаблона.
2. Генерируется synthetic query с использованием текста, извлеченного из этой части структуры.
Сгенерированные synthetic queries сохраняются в хранилище запросов (Query Store).

Claim 6 (Зависимый от 1): Критически важное уточнение. Идентификация «других структурированных документов» (к которым применяется шаблон) основывается на том, что они размещены на том же домене (hosted on a same domain), что и исходный документ.

Claim 7 (Зависимый от 1): Детализирует шаг валидации шаблона.

Генерация query template включает:

Идентификацию количества структурированных документов, которые включают эту же структуру.
Генерацию (принятие) шаблона только в том случае, если это количество удовлетворяет template qualification value (порогу шаблона).

Это гарантирует, что система использует только те структуры, которые являются общими для сайта, а не уникальными для одной страницы.

Claim 3 и 4 (Зависимые от 1): Описывают применение сгенерированных запросов.

Claim 3: Использование сохраненного Synthetic Query для идентификации результатов поиска в ответ на запрос пользователя (аугментация поиска).
Claim 4: Предоставление сохраненного Synthetic Query в качестве потенциального уточнения запроса (query refinement).

Где и как применяется

Изобретение описывает преимущественно офлайн (batch) процесс анализа данных и генерации новых запросов, который затрагивает несколько этапов архитектуры поиска.

INDEXING – Индексирование и извлечение признаков
На этом этапе система должна проанализировать и сохранить HTML-структуру документов (Structured Document Corpus). Система анализирует структурное сходство между документами на одном сайте для идентификации и валидации шаблонов.

QUNDERSTANDING – Понимание Запросов (Офлайн-компоненты)
Основное применение патента. Query Generation Subsystem анализирует исторические данные (Seed Queries из Query Store) и корпус документов для генерации новых Synthetic Queries. Это процесс расширения базы знаний о запросах и их связи с контентом.

QUNDERSTANDING / RANKING (Онлайн-компоненты)
Сгенерированные и сохраненные Synthetic Queries используются в реальном времени. Они могут применяться для предложения уточнений запроса (query refinement) или для аугментации исходного запроса пользователя с целью улучшения ранжирования.

Входные данные:

Набор Seed Queries, связанных с документами.
Structured Document Corpus (HTML-код страниц сайта), сгруппированный по доменам.
Правила генерации и валидации шаблонов.

Выходные данные:

Набор новых Synthetic Queries, связанных с конкретными документами, сохраненный в Query Store.

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние оказывается на сайты с большим количеством однотипных страниц, использующих консистентные шаблоны: E-commerce (карточки товаров), каталоги, сайты с базами данных (фильмы, книги, рецепты), крупные контентные порталы.
Структурные факторы: Критически зависит от наличия и консистентности HTML-разметки. В патенте явно упоминаются <title> и <h1>.
Специфические запросы: Позволяет генерировать точные запросы (например, по конкретным сущностям, продуктам), для которых может не хватать исторических данных о поведении пользователей (long-tail).

Когда применяется

Условия работы: Процесс генерации происходит офлайн (не в момент запроса пользователя).
Триггеры активации: Применяется к сайтам, для которых доступно достаточное количество Seed Queries и которые обладают достаточным структурным сходством между страницами в пределах одного домена.
Пороговые значения:
- Template Qualification Value: Шаблон должен встречаться на сайте достаточно часто (количество может зависеть от размера сайта), чтобы система могла его использовать.
- Performance Threshold: Сгенерированные запросы должны преодолеть порог эффективности, основанный на IR score.

Пошаговый алгоритм

Процесс генерации синтетических запросов для веб-сайта:

Сбор данных: Система выбирает набор структурированных документов, размещенных на одном веб-сайте (домене). Извлекается набор Seed Queries, ассоциированных с этими документами.
Идентификация фрагментов кода: Для каждой пары (Seed Query, Документ) система идентифицирует Embedded Coding Fragments (HTML-структуры) в документе, которые содержат термины из Seed Query.
Генерация кандидатов в шаблоны: На основе идентифицированных фрагментов создаются кандидаты в Query Templates. Они могут использовать Literals и Wildcards (например, <generic type:title> или <generic type:count>=3>).
Валидация и оценка шаблонов:
1. Система подсчитывает общее количество вхождений структуры шаблона на сайте.
2. Шаблоны, чья частота не удовлетворяет Template Qualification Value (слишком редкие структуры), отбрасываются.
Применение шаблонов: Одобренные Query Templates применяются ко всем подходящим документам на сайте.
Генерация кандидатов в запросы: Система извлекает контент из документов в соответствии с generative rules шаблона. Этот контент становится кандидатом в Synthetic Query.
Оценка запросов: Для каждого кандидата измеряется его эффективность. Это включает расчет IR score кандидата по отношению к документу, из которого он был извлечен.
Фильтрация и сохранение: Кандидаты, чьи показатели эффективности превышают Performance Threshold, обозначаются как Synthetic Queries и сохраняются в Query Store.

Какие данные и как использует

Данные на входе

Структурные и Технические факторы: Критически важные данные. Используется встроенное кодирование (embedded coding), в частности HTML-теги. В патенте явно упоминаются теги <title> и <h1>. Анализируется структура документа и расположение контента внутри тегов. URL и домены используются для группировки документов по сайтам.
Контентные факторы: Текст, заключенный внутри HTML-тегов. Анализируется совпадение этого текста с терминами Seed Queries и частота его появления в документе.
Поведенческие/Исторические факторы: Seed Queries. Это запросы, эффективность которых подтверждена историческими данными (например, анонимными взаимодействиями пользователей, частыми кликами по результатам).

Какие метрики используются и как они считаются

Template Qualification Value / Template Threshold: Порог для валидации шаблонов. Гарантирует, что шаблон достаточно распространен на сайте. Значение может быть пропорционально общему количеству документов на сайте или рассчитываться на основе логарифмического значения размера сайта.
Template Performance Score: Оценка шаблона, основанная на количестве вхождений (number of occurrences) соответствующего фрагмента кода на сайте.
Constraints (Ограничения в Wildcards): Используются для определения контекста термина:
1. Расположение: Нахождение внутри конкретных HTML-тегов (<title>, <h1>).
2. Частота (Count): Количество раз, которое термин появляется в документе.
3. IDF (Inverse Document Frequency): Упоминается как возможное ограничение для wildcards (например, шаблон может требовать только редкие термины).
Query Performance Score / IR Score: Метрика для оценки сгенерированных кандидатов. Рассчитывается для оценки релевантности кандидата документу. IR score может быть скорректирован с использованием Template Performance Score.
Performance Threshold: Порог эффективности для Synthetic Queries.

Выводы

Google анализирует сайты на уровне шаблонов: Патент подтверждает, что Google стремится понять общую структуру сайта и идентифицировать шаблоны (Query Templates). Система не просто анализирует контент страницы, но и то, как он структурирован с помощью HTML в рамках всего домена.
Структурная консистентность критична: Механизм работает только тогда, когда шаблоны валидируются (преодолевают Template Qualification Value). Это означает, что структура должна быть консистентной на множестве страниц сайта. Хаотичная разметка препятствует работе этого алгоритма.
Семантическая HTML-разметка как источник данных: Расположение терминов внутри ключевых HTML-элементов (явно упомянуты <title> и <h1>) используется для определения паттернов релевантности. Это подчеркивает важность использования семантических тегов по назначению.
Масштабируемое понимание контента: Этот механизм позволяет Google генерировать высокорелевантные запросы для миллионов однотипных страниц (например, карточек товаров), даже если для конкретной страницы еще нет исторических данных о запросах пользователей. Система переносит знания с известных страниц на новые, используя структуру как мост.
Контекст и частотность имеют значение: Использование Wildcards с ограничениями (constraints) показывает, что система учитывает не только наличие термина, но и его контекст: где он расположен (тег) и как часто встречается (count>N) в документе.

Практика

Best practices (это мы делаем)

Обеспечение консистентности шаблонов: Используйте единые HTML-шаблоны для однотипных страниц (например, все карточки товаров должны иметь одинаковую структуру разметки). Это позволит системе легче идентифицировать и валидировать Query Templates.
Использование чистой и семантической разметки: Размещайте ключевую информацию в соответствующих семантических тегах. Патент явно указывает на анализ <title> и <h1>. Убедитесь, что основной заголовок страницы находится в H1, а название сущности/продукта четко выделено.
Оптимизация Информационной Архитектуры: Структурируйте сайт так, чтобы связь между контентом и его разметкой была очевидной. Это помогает системе понять, какие элементы шаблона содержат ключевые термины (например, название бренда, название продукта, категория).
Мониторинг ключевых элементов: Убедитесь, что текст в ключевых структурных элементах (H1, Title) точно отражает основную тему страницы. Именно этот текст будет извлекаться системой для генерации Synthetic Queries.

Worst practices (это делать не надо)

Использование разной разметки для однотипных страниц: Если каждая страница имеет уникальную структуру, система не сможет идентифицировать общие шаблоны и преодолеть Template Qualification Value.
«Tag Soup» и несемантическая верстка: Использование несемантических тегов (например, <div> вместо <h1> для заголовка) или запутанной структуры затрудняет идентификацию Embedded Coding Fragments.
Размещение мусорного контента в ключевых тегах: Если H1 содержит нерелевантный или слишком общий текст, система либо не сможет создать шаблон, либо сгенерирует неэффективные Synthetic Queries.
Неконсистентное использование заголовков: Использование <h1> для разных целей на разных страницах (например, на одной странице это название товара, на другой — название категории).

Стратегическое значение

Патент подчеркивает фундаментальную важность технического SEO и качественной информационной архитектуры. Он демонстрирует механизм, с помощью которого Google масштабирует понимание контента, перенося знания о релевантности через структурные шаблоны. Для крупных сайтов (особенно E-commerce) стратегический приоритет должен отдаваться созданию и поддержанию чистой, консистентной и предсказуемой HTML-структуры. Это напрямую влияет на то, насколько полно Google сможет понять контент сайта и по каким запросам его ранжировать.

Практические примеры

Сценарий: Оптимизация карточек товаров в E-commerce

Задача: Обеспечить, чтобы Google понимал релевантность тысяч карточек товаров, даже если по ним еще нет трафика.

Анализ текущей ситуации: На сайте используется несколько разных шаблонов для карточек товаров. В одних название продукта в <h1>, в других — в <div class=»title»>.
Действие (Применение патента): Стандартизация шаблона. Внедряется единый шаблон, где название продукта всегда находится в <h1>[Название продукта]</h1>, а бренд в четко определенной структуре, например <span class=»brand»>[Бренд]</span>.
Как это работает в Google:
1. Google видит Seed Queries (например, «iPhone 15 Pro Max») для популярных товаров и определяет, что термины запроса находятся в H1.
2. Система создает Query Template: «Извлечь текст из H1» (<generic type:h1>).
3. Система валидирует шаблон, видя, что тысячи страниц используют эту структуру (Template Qualification Value преодолен).
4. Система применяет шаблон к новым товарам (например, «Samsung Galaxy S26 Ultra») и извлекает их названия из H1.
Ожидаемый результат: Google генерирует точные Synthetic Queries для всех товаров, использующих стандартный шаблон. Это улучшает ранжирование по точным запросам моделей и продуктов сразу после их индексации.

Вопросы и ответы

Что такое «Seed Query» и чем он отличается от «Synthetic Query»?

Seed Query (опорный запрос) — это запрос, эффективность которого уже известна системе (обычно на основе исторических данных о поведении пользователей). Он служит отправной точкой для анализа. Synthetic Query (синтетический запрос) — это новый запрос, сгенерированный системой на основе анализа структуры сайта. Цель состоит в том, чтобы создать Synthetic Queries, которые будут эффективны для страниц, по которым еще нет статистики.

Насколько важна консистентность HTML-структуры согласно этому патенту?

Она критически важна. Ключевым элементом патента является шаг валидации шаблона. Система должна убедиться, что идентифицированный шаблон используется достаточно часто на других страницах того же сайта (преодолевает Template Qualification Value). Если структура хаотична и непоследовательна, система не сможет создать надежные шаблоны и механизм не сработает.

Применяет ли Google шаблоны, изученные на одном сайте, к другим сайтам?

Нет. Согласно патенту (в частности, Claim 6 и общему описанию), процесс генерации и применения Query Templates строго ограничен рамками одного веб-сайта или домена. Система ищет структурное сходство только между документами, размещенными на одном и том же сайте. Структура вашего сайта анализируется независимо.

Какие HTML-теги анализирует система?

Патент не ограничивается конкретным списком, говоря об embedded coding fragments в целом. Однако в примерах и описании явно упоминаются <title> и <h1>. Логично предположить, что анализируются любые HTML-теги, но приоритет отдается семантически значимым элементам, которые часто содержат ключевые термины запросов.

Что такое «Wildcard» в контексте шаблона запроса?

Wildcard — это переменная часть шаблона, которая указывает, какой тип контента нужно извлечь и при каких условиях (constraints). Например, <generic type:title> означает «извлечь текст общего типа, находящийся внутри тега title». <generic type:count>=3> означает «извлечь текст, который встречается в документе 3 или более раз».

Как система оценивает качество сгенерированного синтетического запроса?

Система измеряет его производительность (performance measurement). В патенте упоминается использование IR score (Information Retrieval score). Это оценка того, насколько релевантен сгенерированный запрос документу, из которого он был извлечен. Только запросы, превысившие определенный порог, сохраняются для дальнейшего использования.

Влияет ли этот патент на сайты, использующие JavaScript для рендеринга контента (SPA/PWA)?

Патент упоминает, что анализируются как статические (HTML, XML), так и динамические документы (JSP, PHP), а также контент с динамическими элементами (JavaScript). Если система может получить финальную структурированную разметку (рендеринг DOM) и эта структура консистентна, она сможет применить описанные механизмы.

Как этот механизм помогает в ранжировании новых страниц?

Он позволяет системе понять релевантность новой страницы сразу после индексации, не дожидаясь накопления исторических данных о поведении пользователей. Если новая страница соответствует валидированному шаблону сайта, система может немедленно сгенерировать для нее эффективные Synthetic Queries, используя структуру страницы, что ускоряет ее попадание в ранжирование по релевантным запросам.

Применяется ли этот алгоритм к маленьким сайтам?

В меньшей степени. Алгоритм требует достаточного количества документов и Seed Queries для выявления статистически значимых паттернов и достижения пороговых значений валидации шаблонов (Template Qualification Value). На очень маленьком сайте может быть недостаточно данных для надежной генерации и валидации шаблонов.

Что произойдет, если я изменю дизайн и структуру сайта?

При значительном изменении HTML-структуры старые Query Templates перестанут работать. Системе потребуется время, чтобы проанализировать новую структуру, сгенерировать и валидировать новые шаблоны. В этот переходный период понимание контента сайта поисковой системой может временно ухудшиться, что подчеркивает важность тщательного планирования редизайна.