или

Google использует структурное сходство между страницами на одном сайте для генерации новых, "синтетических" запросов. Система анализирует, в каких HTML-элементах (например,
Патент решает проблему ограниченности традиционных методов улучшения поиска, которые полагаются исключительно на анализ исторических логов запросов пользователей. Система стремится проактивно генерировать "хорошо сформулированные" (well-formulated) или эффективные (well-performing) запросы, которые пользователи, возможно, еще не вводили. Это особенно актуально для шаблонных страниц (например, карточек товаров), для которых может не хватать исторических данных. Цель — улучшить результаты поиска путем генерации точных synthetic queries.
Запатентована система генерации synthetic queries на основе анализа структурного сходства (structural similarity) между документами (например, HTML-страницами), размещенными на одном и том же веб-сайте. Система использует известные эффективные запросы (seed queries) для выявления структурных паттернов в связанных документах. Эти паттерны абстрагируются в query templates, которые затем применяются к другим страницам на том же сайте для извлечения новых запросов.
Механизм основан на предположении, что страницы на одном сайте часто используют общие шаблоны.
seed query (известный эффективный запрос) и связанный с ним документ.seed query появляются в HTML-структуре документа (например, внутри <title> или <h1>). Эта структура называется embedded coding fragment.query template, содержащий правила генерации (generative rule).template threshold).candidate synthetic queries. Их эффективность оценивается (например, с помощью IR score), и лучшие сохраняются.Высокая. Понимание структуры веб-сайтов, извлечение структурированных данных и идентификация ключевых тем страниц остаются фундаментальными задачами современных поисковых систем. Хотя конкретные методы анализа структуры могли эволюционировать, принцип использования согласованности шаблонов сайта для извлечения семантики и генерации запросов остается крайне актуальным, особенно для E-commerce и крупных каталогов.
Патент имеет высокое значение (80/100) для технического SEO и информационной архитектуры, особенно для крупных шаблонных сайтов. Он демонстрирует, что Google анализирует согласованность (consistency) структуры сайта для понимания организации контента. Сайты с четкой, логичной и повторяющейся HTML-структурой получают преимущество, так как система может надежно идентифицировать query templates и генерировать релевантные запросы, ведущие на их страницы.
embedded coding), например, HTML или XML веб-страница.Seed Query. Основа для создания шаблона.Embedded Coding Fragment). Используется для поиска схожих структур на других страницах того же сайта. Может включать Literals и Wildcards.Query Template, определяющее, как извлекать контент из структурно похожих документов для формирования новых запросов.Query Template, представляющий собой фиксированную строку текста.type) и ограничениями (constraint). Например, расположением в определенном теге (<title>) или частотой встречаемости (count>=3).Query Template считался действительным. Может зависеть от размера сайта.Claim 1 (Независимый пункт): Описывает основной метод генерации синтетических запросов.
seed queries и связанный с ними structured document, размещенный на веб-сайте.embedded coding fragments — структуры в документе, содержащие термины из seed query.query templates, включающие структуру фрагмента и generative rule.candidate synthetic queries путем применения шаблонов к другим документам, размещенным на том же веб-сайте. Это включает поиск соответствующей структуры и извлечение текста согласно generative rule.performance) каждого кандидата.performance threshold, сохраняются как synthetic queries.Claim 4 (Зависимый): Детализирует идентификацию фрагментов в HTML.
Идентификация фрагмента происходит, когда контент внутри пары HTML-тегов (например, <title>) совпадает с термином из Seed Query.
Claim 6 (Зависимый от 1): Детализирует процесс валидации шаблона (Template Validation).
Шаблон генерируется (принимается) только при условии, что система подсчитала количество других документов на том же веб-сайте, содержащих эту же структуру (embedded coding fragment), и это количество удовлетворяет порогу (template qualification value). Это предотвращает создание шаблонов на основе уникальных структур.
Claim 7 (Зависимый от 1): Описывает процесс агрегации и оценки шаблонов (Template Evaluation).
template threshold, который может быть пропорционален общему количеству документов на сайте.scoring) на основе количества его появлений (number of occurrences) на сайте.template threshold.Изобретение в основном применяется на этапе индексирования и анализа данных для обогащения базы запросов.
INDEXING – Индексирование и извлечение признаков
Основной этап работы алгоритма. Во время индексирования (вероятно, в офлайн или пакетном режиме) система анализирует HTML-структуру документов в контексте всего сайта (site-level analysis). Происходит генерация, валидация и применение query templates для извлечения synthetic queries, которые сохраняются как признаки (features) документа.
QUNDERSTANDING – Понимание Запросов
Сгенерированные и сохраненные synthetic queries используются на этом этапе. Они могут применяться для уточнения запросов (query refinement), генерации подсказок (query suggestions) или аугментации исходного запроса пользователя для получения более качественных результатов.
Входные данные:
Structured Document Corpus), сгруппированных по сайтам.Query Store), содержащая seed queries и их связь с документами (на основе исторических данных).Выходные данные:
Query Store) с новыми synthetic queries, привязанными к конкретным документам.Seed Queries.Template Threshold) и если сгенерированный запрос достаточно эффективен (Performance Threshold).Фаза 1: Генерация и Валидация Шаблонов (Template Generation & Evaluation)
Seed Query и связанный с ним Structured Document с определенного веб-сайта.Embedded Coding Fragments (HTML-структуры), содержащие термины из Seed Query.Query Templates. Они могут использовать Literals (фиксированный текст) и Wildcards (переменные с ограничениями, например, текст в теге <h1> или текст, повторяющийся более 3 раз).template qualification value).Template Performance Score) каждого шаблона. Если частота превышает Template Threshold (который может зависеть от размера сайта), шаблон принимается.Фаза 2: Генерация и Оценка Синтетических Запросов (Query Generation & Evaluation)
Query Templates применяются ко всем подходящим документам на данном веб-сайте.Generative Rules из шаблона, система извлекает контент из соответствующих структур, формируя Candidate Synthetic Queries.Query Performance Score (например, IR score), измеряющий его релевантность документу, из которого он был извлечен.Performance Threshold, обозначаются как Synthetic Queries и сохраняются в Query Store.embedded coding, в частности HTML-теги. Явно упомянуты <title>, <h1>. Анализируется расположение контента внутри этих тегов.Literals), так и переменный контент (для Wildcards). Также учитывается частота появления терминов в документе (используется для ограничений типа count>=N).Seed Queries (запросов, которые считаются эффективными для определенных документов).number of occurrences) структуры шаблона на веб-сайте.<title>).count>=3).Template Performance Score.structural similarity) между документами на одном сайте для выявления шаблонов.Template Threshold), она игнорируется. Это подчеркивает важность единообразия в дизайне и верстке однотипных страниц.<title>, <h1>) содержат ключевые термины. Размещение важной информации в этих элементах критично.IR score). Это обеспечивает качество генерируемых данных.Query Templates.<title> и <h1>, и что расположение этих элементов консистентно по всему сайту.Embedded Coding Fragments и понимать назначение различных блоков контента.Query Template, так как порог частоты (Template Threshold) не будет достигнут.<h1>-<h6> или использование разных тегов для одной и той же информации (например, название продукта то в <h1>, то в <div>) помешает системе определить надежный шаблон.Query Templates.Этот патент подчеркивает стратегическую важность технического SEO и продуманной информационной архитектуры. Он показывает, что Google рассматривает веб-сайт как структурированную базу данных. Согласованность структуры напрямую влияет на способность Google понимать контент сайта в масштабе и генерировать релевантные поисковые запросы, ведущие на него. Для Senior SEO-специалистов это подтверждает необходимость глубокой проработки шаблонов страниц и контроля за их консистентным внедрением.
Сценарий: Генерация запросов для E-commerce сайта (Электроника)
/product/123./product/123 и обнаруживает, что термины запроса находятся в <h1>: <h1>Смартфон Apple iPhone 15 Pro Max 256GB Black</h1>.<h1>, игнорируя слово "Смартфон". Шаблон: [Brand] [Model] [Storage] [Color].<h1>. Порог достигнут, шаблон принят./product/456 с <h1>Смартфон Samsung Galaxy S25 Ultra 512GB Silver</h1>.IR score для этого запроса и страницы /product/456 высок. Запрос сохраняется как Synthetic Query.Что такое «Синтетический запрос» (Synthetic Query) и чем он отличается от обычных запросов?
Synthetic Query — это запрос, сгенерированный системой Google автоматически на основе анализа структуры веб-документов, а не введенный пользователем. В отличие от обычных запросов, которые берутся из логов поиска, синтетические запросы позволяют Google проактивно определять эффективные формулировки для описания контента, даже если пользователи их еще не использовали.
Что такое «Seed Query» (Исходный запрос) и откуда он берется?
Seed Query — это отправная точка для анализа. Это запрос, который уже известен системе как эффективный («well-performing») для определенного документа. Он может быть взят из исторических логов поисковых запросов (если пользователи часто кликали на документ по этому запросу) или быть ранее сгенерированным синтетическим запросом.
Применяется ли этот анализ структурного сходства между разными сайтами?
Нет. Согласно патенту (Claim 1), анализ структурного сходства и применение Query Templates происходит строго в рамках одного и того же веб-сайта (hosted on the same website). Система ищет повторяющиеся шаблоны внутри одного домена, чтобы понять его внутреннюю организацию контента.
Насколько важна консистентность (единообразие) структуры сайта для этого алгоритма?
Она критически важна. Алгоритм требует, чтобы шаблон (Query Template) встречался на сайте достаточное количество раз, чтобы превысить порог валидации (Template Threshold). Если каждая страница имеет уникальную структуру, общие шаблоны не будут найдены, и система не сможет генерировать Synthetic Queries на основе структурного сходства.
Какие HTML-элементы наиболее важны для этого алгоритма?
Патент явно упоминает использование HTML-тегов для идентификации структур. В примерах фигурируют <title> и <h1>. Логично предположить, что наиболее семантически значимые и консистентно используемые элементы (заголовки, тайтлы, выделенный текст) имеют больший вес при генерации и анализе шаблонов.
Как система определяет, что сгенерированный запрос является качественным?
Система измеряет эффективность (performance) каждого сгенерированного кандидата. В патенте упоминается использование IR score (Information Retrieval score), который оценивает релевантность сгенерированного запроса тому документу, из которого он был извлечен. Если оценка превышает установленный порог, запрос считается качественным.
Что такое Wildcards (Маски) и как они используются в шаблонах?
Wildcards — это переменные части шаблона, которые позволяют абстрагироваться от конкретного текста. Например, маска может указывать: «извлечь любой текст, находящийся внутри тега <h1>» или «извлечь текст, который повторяется в документе не менее 3 раз» (используя ограничение count). Это позволяет применять один шаблон к разному контенту.
Зависит ли порог принятия шаблона (Template Threshold) от размера сайта?
Да. В патенте (Claim 7) указано, что Template Threshold может быть пропорционален общему количеству структурированных документов, размещенных на веб-сайте. Это означает, что на более крупных сайтах шаблон должен встречаться чаще, чтобы считаться значимым и надежным.
На какие типы сайтов этот патент влияет больше всего?
Наибольшее влияние оказывается на сайты с большим количеством шаблонных страниц: E-commerce (карточки товаров), агрегаторы, каталоги, базы данных (рецепты, фильмы) и крупные издательства. Там, где есть повторяющаяся структура HTML, этот механизм может эффективно масштабироваться.
Какова основная рекомендация для SEO, исходя из этого патента?
Ключевая рекомендация — обеспечить максимальную консистентность и семантичность HTML-шаблонов для однотипных страниц на сайте. Размещайте ключевую информацию в стандартных, повторяющихся структурных элементах (<title>, <h1>). Это позволит Google эффективно анализировать архитектуру сайта и генерировать релевантные запросы, ведущие на ваши страницы.

Ссылки
Структура сайта
Семантика и интент

Ссылки
Семантика и интент
Индексация

SERP
Поведенческие сигналы
EEAT и качество

Семантика и интент
SERP

SERP
Семантика и интент
Структура сайта

Персонализация
Поведенческие сигналы
SERP

Поведенческие сигналы
SERP
Антиспам

Local SEO
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
Мультимедиа

Свежесть контента
Поведенческие сигналы
SERP

Local SEO
Антиспам
Поведенческие сигналы

Персонализация
Семантика и интент
Local SEO

Поведенческие сигналы
Мультимедиа
Семантика и интент

Knowledge Graph
Свежесть контента
Семантика и интент

EEAT и качество
Семантика и интент
