
Google использует метод для эффективного сканирования контента, скрытого за веб-формами (Deep Web). Вместо перебора всех возможных комбинаций полей ввода система определяет, какие поля являются «информативными» — то есть, изменение каких полей приводит к генерации страниц с существенно различным контентом. Это позволяет индексировать уникальный контент, избегая дубликатов и экономя ресурсы сканирования.
Патент решает проблему эффективного обнаружения и индексирования контента, скрытого за HTML-формами (так называемый Deep Web или Hidden Web). Стандартные краулеры часто не могут получить доступ к этому контенту, так как не умеют заполнять формы. Попытка перебора всех возможных комбинаций значений ввода (декартово произведение) неэффективна: это создает огромную нагрузку, приводит к генерации множества дубликатов, несуществующих страниц или страниц с незначительными вариациями контента.
Запатентован метод систематического анализа страниц веб-форм (Form Page) для определения того, какие элементы управления вводом (Input Controls) являются «информативными» (Informative). Элемент считается информативным, если изменение его значения приводит к генерации целевых страниц (Target Pages) с существенно различным контентом. Система итеративно тестирует элементы и их комбинации, чтобы сосредоточить ресурсы сканирования только на URL, ведущих к уникальному контенту.
Система (Form Processing Module) работает итеративно:
Difference Determination) на соответствие предопределенному стандарту (Difference Standard).Informative.Indexing Record) обновляется, чтобы включить URL, сгенерированные информативными комбинациями.Высокая. Эффективное сканирование контента, доступного через формы и фасетную навигацию (E-commerce, базы данных, агрегаторы), остается критически важной задачей. Описанные принципы — определение информативности параметров для избежания комбинаторного взрыва и дубликатов — являются фундаментальными для управления бюджетом сканирования (Crawl Budget) и обеспечения полноты индекса.
Патент имеет высокое значение (7.5/10) для технического SEO на крупных сайтах. Он не описывает факторы ранжирования, но критически важен для этапов CRAWLING и INDEXING. Понимание того, как Google определяет «информативные» фильтры, позволяет SEO-специалистам оптимизировать архитектуру сайта и фасетную навигацию, гарантируя, что уникальный контент будет обнаружен, а ресурсы сканирования не будут потрачены на дубликаты.
Predefined Difference Standard (т.е. генерирует существенно разный контент).Claim 1 (Независимый пункт): Описывает основной метод анализа страницы формы, включая критически важную оптимизацию процесса тестирования.
Predefined Difference Standard.Indexing Record.Indexing Record на основе результатов для пар.Ядро изобретения — это итеративное тестирование информативности и использование результатов предыдущих тестов для радикального сокращения пространства поиска (избегание тестирования комбинаций, где ни один элемент не показал себя информативным).
Claim 8 (Зависимый от 1): Описывает итеративное расширение тестирования за пределы пар (Iterative Deepening).
Input control tuples), путем расширения тех пар, которые были признаны информативными, еще одним элементом управления (например, до троек).Indexing Record.Claim 10 (Зависимый от 9): Уточняет, как определяется различие в содержании.
Различие определяется путем извлечения слов с полученных страниц в соответствии с Relevancy Criterion. Это означает, что система фокусируется на значимом контенте, а не на незначительных изменениях HTML или шаблона.
Claim 12 (Зависимый от 1): Описывает обработку неинформативных элементов.
default value).Indexing Record и используется во время сбора страниц для индексирования.Изобретение находится на стыке процессов сканирования и индексирования, фокусируясь на эффективном обнаружении контента (Content Discovery) в Deep Web.
CRAWLING – Сканирование и Сбор данных
Это основная область применения. Алгоритм используется краулером или модулем обработки форм (Form Processing Module) для интеллектуальной генерации набора URL за формой. Это позволяет обнаружить контент, недоступный по прямым ссылкам, и напрямую влияет на управление бюджетом сканирования (Crawl Budget Management), предотвращая сканирование дубликатов.
INDEXING – Индексирование и извлечение признаков
На этом этапе система выполняет анализ контента целевых страниц для Difference Determination. Это включает извлечение признаков (например, релевантных слов согласно Relevancy Criterion) и вычисление сигнатур страниц для сравнения их со стандартом. Результаты этого анализа определяют, какие URL будут добавлены в Indexing Record для последующего полноценного индексирования.
Входные данные:
Form Page).Input Controls (извлеченные из HTML для списков или сгенерированные для текстовых полей).Predefined Difference Standard (системная конфигурация).Выходные данные:
Indexing Record со списком URL целевых страниц (Target Pages), соответствующих информативным комбинациям.Predefined Difference Standard. В описании патента упоминается примерный порог: ввод считается информативным, если количество различных сигнатур веб-страниц составляет не менее 25% от общего числа сгенерированных веб-страниц.Итеративный алгоритм для определения минимального набора URL, охватывающего уникальный контент за формой.
Difference Determination: вычислить сигнатуры страниц (используя Relevancy Criterion) и сравнить их со стандартом.Cand), состоящий из всех индивидуально информативных элементов.Cand) не пуст: Cand дополнительными элементами управления. (Например, расширить информативную пару {A, B} до {A, B, C}).Difference Determination.Cand становится набором кортежей из NewCand, которые были признаны информативными.Indexing Record, включив в него URL, сгенерированные всеми найденными информативными кортежами.Система использует следующие типы данных:
Input Controls (select, text, radio), значения ввода (извлеченные из HTML или сформулированные для текстовых полей). Коды ответа HTTP (для обнаружения ошибок).Target Pages. Используется для анализа уникальности.Crawl Budget.Predefined Difference Standard.Relevancy Criterion для сравнения страниц, фокусируясь на значимых словах и игнорируя шаблонный текст (boilerplate). Изменения только в шаблоне не сделают элемент информативным.Рекомендации критически важны для сайтов с фасетной навигацией (E-commerce, агрегаторы).
Difference Standard (>25% уникальности).Relevancy Criterion и распознать различия в контенте.Патент подчеркивает стремление Google к эффективности сканирования на фундаментальном уровне. Для крупных сайтов это подтверждает, что управление фасетной навигацией и Crawl Budget является критической частью SEO-стратегии. Система Google автоматически попытается определить, какие фасеты сканировать, а какие игнорировать, основываясь на уникальности контента. Стратегия должна заключаться в том, чтобы привести архитектуру сайта и шаблоны страниц в соответствие с этой логикой.
Сценарий: Оптимизация фасетной навигации интернет-магазина одежды
Магазин имеет фильтры: Категория (I), Размер (J), Цвет (K), Сортировка (L).
Relevancy Criterion./catalog?cat=dress&size=M&color=red).Что такое «информативный» элемент управления (Input Control) согласно патенту?
Информативный элемент управления — это поле формы или фильтр, изменение значения которого приводит к генерации целевых страниц с существенно различным контентом. Например, фильтр «Категория товара» обычно информативен, так как ведет к разным товарам. Фильтр «Порядок сортировки» обычно нет, так как контент страницы остается тем же.
Как система определяет, что контент существенно различается?
Система сравнивает полученные страницы, используя Predefined Difference Standard. Для этого она может применять Relevancy Criterion, который фокусируется на извлечении значимых слов (на основе их частоты, размещения в заголовках, выделения) и игнорирует шаблонный контент (boilerplate). Если сигнатуры страниц отличаются, они считаются разными.
Какой порог используется для определения информативности (Difference Standard)?
Difference Standard измеряет долю уникальных страниц в общем наборе. В патенте упоминается примерный порог в 25%. Если при тестировании элемента генерируется 100 страниц и из них 25 или более существенно отличаются друг от друга, элемент считается информативным.
Тестирует ли Google все возможные комбинации полей в форме или фильтров?
Нет, это ключевая оптимизация патента. Система использует итеративный подход (Iterative Deepening), чтобы избежать полного перебора. Сначала тестируются отдельные поля. Затем тестируются только те пары, в которых хотя бы один элемент уже признан информативным. Далее тестируются только те тройки, которые являются расширением информативных пар, и так далее.
Что происходит с полями, которые признаны неинформативными?
Если поле признано неинформативным (генерирует дубликаты), система выбирает для него значение по умолчанию (default value) и использует только его во время сбора страниц для индексирования. Это позволяет экономить ресурсы сканирования (Crawl Budget).
Как этот патент влияет на управление фасетной навигацией в E-commerce?
Он напрямую связан с управлением фасетной навигацией. SEO-специалистам следует обеспечивать, чтобы важные фасеты генерировали действительно уникальный контент, помогая системе признать их информативными. Неинформативные фасеты (сортировка и т.п.) следует обрабатывать так, чтобы они не тратили бюджет сканирования.
Что делать, если важный фильтр генерирует страницы с очень похожим контентом?
Если контент похож (например, меняется только цвет товара на фото, а текст идентичен), система может посчитать фильтр неинформативным. Необходимо увеличить уникальность контента на целевых страницах — убедиться, что заголовки (H1, Title), описания и ключевые характеристики отличаются и хорошо структурированы.
Работает ли этот механизм с формами на JavaScript или POST-запросами?
Патент описывает механизм в контексте стандартных HTML-форм, где отправка генерирует URL (особенно удобно для GET-запросов). Хотя система может пытаться обрабатывать POST-запросы, сложные формы на JavaScript без генерации стандартных HTTP-запросов с параметрами значительно сложнее для анализа этим методом.
Что происходит, если отправка формы возвращает ошибку?
Если при тестировании значений URL возвращают ошибки HTML/HTTP (например, 404 или 500), это сигнализирует системе, что данная комбинация недействительна. Это может привести к прекращению анализа для данной комбинации или всей формы, поэтому важна корректная обработка запросов на сервере.
Влияет ли этот патент на ранжирование?
Нет, патент не описывает сигналы ранжирования. Он описывает исключительно процесс обнаружения (Discovery), сканирования (Crawling) и выбора URL для индексирования из Deep Web. Он определяет, попадет ли страница в индекс, но не то, как высоко она будет ранжироваться.

Индексация
Краулинг
Семантика и интент

Краулинг
Техническое SEO
Индексация

Техническое SEO
Индексация
SERP

Краулинг
Техническое SEO
Индексация

Индексация
SERP
Краулинг

Поведенческие сигналы
Персонализация
Local SEO

Индексация
Поведенческие сигналы
Семантика и интент

Local SEO
Поведенческие сигналы
Семантика и интент

Поведенческие сигналы
Мультимедиа
SERP

Поведенческие сигналы
SERP
Мультимедиа

Поведенческие сигналы
Семантика и интент
SERP

Ссылки
SERP
Свежесть контента

Антиспам
Ссылки
Техническое SEO

EEAT и качество
Поведенческие сигналы
SERP

Персонализация
Поведенческие сигналы
SERP
