Как Google использует итеративное зондирование для сканирования и индексации контента, скрытого за веб-формами (Deep Web)

Google применяет систему для индексации «Глубокого веба» (Deep Web), автоматически определяя, какие ключевые слова вводить в веб-формы. Система использует итеративное зондирование: извлекает начальные слова, отправляет их, анализирует уникальность результатов и извлекает новые слова. Это позволяет находить контент, недоступный при обычном сканировании, и оптимизировать краулинговый бюджет на основе обратной связи по трафику.

Описание

Какую задачу решает

Патент решает проблему индексации «Глубокого веба» (Deep Web или Hidden Web) — контента, который скрыт за HTML-формами (например, результаты внутреннего поиска, базы данных товаров, фильтры каталогов). Стандартные краулеры не могут получить доступ к этому контенту, так как не знают, какие значения вводить в поля форм. Изобретение позволяет автоматически обнаруживать этот контент, минуя неэффективный метод полного перебора (brute-force).

Что запатентовано

Запатентована система для автоматического определения «информативных» ключевых слов (Informative Keywords) для полей текстового ввода на странице формы. Ключевое слово считается информативным, если оно приводит к получению уникальной целевой страницы (Target Page). Система использует метод итеративного зондирования (Iterative Probing) и анализ уникальности контента для генерации URL-адресов, которые затем передаются краулеру для индексации.

Как это работает

Система классифицирует поля ввода как общие (Generic) или типизированные (Typed) и применяет разные стратегии:

Для Generic полей (свободный текст) используется итеративное зондирование: извлечение начальных слов со страницы формы (с помощью TF-IDF), их отправка, анализ уникальности результатов (используя Page Signatures) и извлечение новых слов из полученного контента. Процесс повторяется.
Для Typed полей (например, ZIP-коды, даты) система тестирует значения из предопределенных доменов (Value Domains).
Система выбирает наиболее информативные ключевые слова (например, те, что ведут к более длинным страницам).
Предусмотрен механизм обратной связи (Back-off scheme): если проиндексированные URL получают много поискового трафика, система может увеличить глубину зондирования этой формы.

Актуальность для SEO

Высокая. Индексация контента, генерируемого базами данных и доступного через формы (особенно в E-commerce, агрегаторах, каталогах), остается критически важной задачей для полноты индекса. Хотя конкретные реализации могли эволюционировать (например, улучшенный рендеринг JavaScript), фундаментальные принципы, описанные в патенте — автоматическое зондирование, оценка уникальности результатов и адаптивное управление бюджетом сканирования на основе востребованности контента — остаются актуальными.

Важность для SEO

Влияние на SEO значительное, но специфическое (7/10). Патент не описывает факторы ранжирования, но критически важен для этапов CRAWLING и INDEXING на сайтах, где основной контент доступен через внутренний поиск или формы фильтрации. Понимание этих механизмов необходимо для обеспечения технической возможности обнаружения контента. Если система не сможет найти информативные ключевые слова или сочтет результаты неуникальными, контент останется невидимым для поиска.

Детальный разбор

Термины и определения

Deep Web / Hidden Web (Глубокий веб / Скрытый веб): Контент, скрытый за HTML-формами и недоступный при стандартном обходе ссылок.
Difference Standard (Стандарт различия): Порог, используемый для определения того, достаточно ли различаются две целевые страницы (на основе сравнения их Page Signatures), чтобы считаться уникальными.
Distinctness Fraction (Фракция уникальности): Метрика информативности. Рассчитывается как отношение числа уникальных Page Signatures к общему числу сгенерированных URL. В патенте упоминаются пороги 25% или 0.3.
Form Page (Страница формы): Входная страница, содержащая HTML-форму.
Generic Text Input Control (Общее текстовое поле): Поле ввода, принимающее свободный текст из неограниченного домена (например, поиск по названию товара). Обрабатывается методом Iterative Probing.
Informative Keyword (Информативное ключевое слово): Ключевое слово, которое при вводе в форму возвращает целевую страницу, удовлетворяющую Difference Standard (т.е. уникальную страницу).
Indexing Record (Запись индексирования): Запись, связанная со страницей формы, которая содержит идентифицированные информативные ключевые слова и/или сгенерированные URL для последующего сканирования.
Iterative Probing (Итеративное зондирование): Процесс обнаружения ключевых слов: отправка начального набора слов, анализ результатов и извлечение новых слов из полученных страниц для следующей итерации.
Page Signature (Сигнатура страницы): Компактное представление контента страницы (HTML, видимый текст или релевантные слова), используемое для быстрого сравнения страниц и определения их уникальности.
Target Pages (Целевые страницы): Страницы результатов, полученные после отправки заполненной формы.
TF-IDF (Term Frequency-Inverse Document Frequency): Статистическая мера, используемая в патенте для определения важности слов на странице и извлечения кандидатов в ключевые слова.
Typed Text Input Control (Типизированное текстовое поле): Поле ввода, принимающее значения из определенного конечного или непрерывного домена (например, ZIP-код, дата, цена). Обрабатывается с использованием Value Domains.
Value Domains (Домены значений): Предопределенные наборы допустимых значений для типизированных полей (например, список всех ZIP-кодов).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод анализа страницы формы для индексации.

Идентификация страницы формы с текстовым полем ввода.
Идентификация множества ключевых слов для использования в запросах.
Выполнение запросов (отправка формы) и получение целевых страниц.
Определение сходства полученных страниц путем оценки соответствия Difference Standard.
Если целевая страница уникальна (удовлетворяет стандарту), идентификация ключевого слова, которое привело к этой странице.
Обновление Indexing Record для отражения этого (информативного) ключевого слова.

Ядро изобретения — это процесс автоматизированного тестирования ключевых слов в форме и валидация их ценности на основе уникальности полученного контента.

Claim 7 (Зависимый): Уточняет стратегию обработки полей ввода.

Система выполняет обработку текстового поля одновременно как общего (Generic) и как типизированного (Typed). Идентификация ключевого слова основывается на результатах обоих процессов. Это означает, что система пытается применить обе стратегии для максимизации охвата.

Claim 9 (Зависимый): Детализирует итеративный процесс (Iterative Probing).

Каждая итерация включает сужение набора ключевых слов с предыдущего этапа, ввод их в форму и извлечение нового набора ключевых слов из полученных целевых страниц.

Claim 11-14 (Зависимые): Описывают механизм обратной связи на основе трафика (Back-off scheme).

Система отслеживает поисковые запросы, которые задействуют проиндексированные ключевые слова. На основе анализа трафика набор ключевых слов пересматривается:

Если трафик высокий (выше порога), система получает дополнительные ключевые слова для формы (увеличивает глубину сканирования). (Claim 13)
Если трафик низкий (ниже порога), система обновляет Indexing Record, чтобы отразить меньшее количество ключевых слов (сокращает глубину сканирования). (Claim 14)

Claim 17 и 18 (Зависимые): Описывают механизм сокращения и выбора ключевых слов (Word Reduction).

Количество ключевых слов сокращается путем определения Page Signatures, кластеризации ключевых слов на основе этих сигнатур и выбора репрезентативного набора. Claim 18 уточняет, что выбор основывается на длине целевой страницы: предпочтение отдается ключевым словам, ведущим к более длинным страницам.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, от обнаружения контента до оптимизации бюджета сканирования на основе поведения пользователей.

CRAWLING – Сканирование и Сбор данных
Основная область применения. Система функционирует как генератор URL для краулера. Она активно взаимодействует с формами для обнаружения контента Deep Web, расширяя охват сканирования за пределы традиционного обхода ссылок.

INDEXING – Индексирование и извлечение признаков
На этом этапе система анализирует полученные Target Pages для поддержки итеративного процесса. Происходит вычисление Page Signatures для оценки уникальности и использование TF-IDF для извлечения новых ключевых слов из контента.

RANKING / RERANKING (Обратная связь)
Система использует данные с этапов ранжирования и выдачи (показы, клики) в качестве обратной связи. Эти данные (поисковый трафик) используются в механизме Back-off scheme для адаптивного управления глубиной сканирования форм на этапе CRAWLING.

Входные данные:

HTML-код страницы формы (Form Page).
Предопределенные Value Domains (для Typed inputs).
Данные о поисковом трафике на сгенерированные URL (для обратной связи).

Выходные данные:

Indexing Record, содержащий набор информативных ключевых слов и/или сгенерированных URL для сканирования.
Классификация полей ввода (Informative/Uninformative, Generic/Typed).

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние оказывается на сайты с большими базами данных, доступ к которым осуществляется через формы поиска или фильтрации: E-commerce, недвижимость, автомобильные порталы, публичные записи, архивы и каталоги.
Структура сайта: Влияет на сайты, которые полагаются на формы как на основной механизм навигации к контенту.

Когда применяется

Триггеры активации: Обнаружение HTML-формы с текстовыми полями ввода во время сканирования.
Условия и пороги:
- Distinctness Fraction должна превышать порог (например, 25% или 0.3), чтобы ключевые слова считались информативными.
- В описании патента (не в Claims) упоминается порог в 20 извлеченных ключевых слов, чтобы считать текстовое поле информативным.
- Итерации продолжаются до достижения лимитов (в описании патента упоминаются 15 итераций или 1500 кандидатов) или пока находятся новые слова.
- Механизм обратной связи активируется при превышении или недостижении порогов по трафику.

Пошаговый алгоритм

Процесс анализа формы включает несколько ключевых стадий.

Стадия 1: Инициализация и классификация ввода

Идентификация формы и полей: Система обнаруживает Form Page и идентифицирует текстовые поля ввода.
Параллельная обработка: Система обрабатывает поля ввода одновременно как Generic (Стадия 2А) и как Typed (Стадия 2Б), как указано в Claim 7.

Стадия 2А: Обработка Generic Input (Iterative Probing)

Извлечение начальных слов (Seed Set): Анализ контента Form Page с использованием TF-IDF. Выбор Топ-N слов (например, 50) в качестве начального набора.
Генерация и получение страниц: Генерация URL путем подстановки слов в поле ввода и получение Target Pages.
Анализ уникальности: Вычисление Page Signatures и определение Distinctness Fraction.
Извлечение новых ключевых слов: Анализ контента Target Pages. Извлечение Топ-M слов (например, 25) по TF-IDF.
Фильтрация кандидатов: Удаление слов, которые уже использовались, встречаются слишком часто (boilerplate, например, >80% страниц) или слишком редко (только на 1 странице).
Итерация: Повторение шагов 2-5 с новым набором слов до выполнения условий остановки.

Стадия 2Б: Обработка Typed Input

Выбор доменов значений: Выбор потенциальных Value Domains (ZIP, Город, Цена, Дата), возможно, с использованием имен полей ввода как подсказок.
Сэмплирование значений: Выборка значений из доменов (случайная для конечных, равномерно распределенная для непрерывных).
Генерация и получение страниц: Отправка выбранных значений и получение Target Pages.
Оценка и выбор типа: Вычисление Distinctness Fraction для каждого домена. Тип, показавший наивысшую фракцию (выше порога, например, 0.3), признается типом данного поля.

Стадия 3: Сокращение и выбор ключевых слов (Word Reduction)

Сбор кандидатов: Объединение всех информативных ключевых слов, найденных на Стадиях 2А и 2Б.
Кластеризация: Ключевые слова кластеризуются на основе Page Signatures страниц, которые они возвращают (слова, ведущие к похожему контенту, группируются).
Выбор представителей: Из каждого кластера выбирается одно ключевое слово.
Сортировка по длине страницы: Выбранные ключевые слова сортируются по длине соответствующих Target Pages в порядке убывания (Claim 18).
Финальный отбор: Выбор Топ-K ключевых слов (например, 500) до достижения лимита для формы.

Стадия 4: Индексация и обратная связь

Обновление Indexing Record: Сгенерированные URL добавляются в очередь на сканирование.
Мониторинг трафика: Отслеживание показов и кликов на эти URL в результатах поиска (Claim 11).
Пересмотр лимитов (Back-off scheme): Если трафик высокий, лимит K увеличивается, и процесс зондирования может быть запущен заново (Claim 13). Если трафик низкий, лимит уменьшается (Claim 14).

Какие данные и как использует

Данные на входе

Контентные факторы: Текст на Form Page и Target Pages. Используется для извлечения кандидатов в ключевые слова с помощью TF-IDF. HTML-структура и текстовое содержание Target Pages используются для вычисления Page Signatures.
Технические факторы: Имена полей ввода в HTML-коде (например, input name=»zipcode»). Используются как подсказки для определения Typed Inputs.
Поведенческие факторы (Агрегированные): Данные о поисковом трафике (показы, клики) на сгенерированные URL в поисковой выдаче. Используются в механизме обратной связи для оптимизации бюджета сканирования.
Системные данные (Внешние): Предопределенные Value Domains (списки городов, ZIP-кодов и т.д.). Используются для зондирования Typed Inputs.

Какие метрики используются и как они считаются

TF-IDF (Term Frequency-Inverse Document Frequency): Используется для оценки важности слов на страницах. На основе этой метрики извлекаются ключевые слова.
Page Signature (Сигнатура страницы): Компактное представление контента страницы. Может быть рассчитана на основе всего HTML, только видимого текста или наиболее релевантных слов. Используется для сравнения страниц.
Distinctness Fraction (Фракция уникальности): Ключевая метрика информативности. Рассчитывается как (Число уникальных сигнатур / Общее число сгенерированных URL). Пороги для признания информативности: 25% или 0.3.
Page Length (Длина страницы): Длина HTML-кода целевой страницы. Используется как эвристика для выбора наиболее ценных ключевых слов из кластеров (предпочтение отдается более длинным страницам).
Search Traffic/Impressions (Поисковый трафик/Показы): Метрики востребованности контента в поиске. Используются для адаптивного управления глубиной сканирования формы (Back-off scheme).

Выводы

Активное исследование Deep Web: Google не ограничивается пассивным обходом ссылок, а активно взаимодействует с формами, используя автоматизированные методы для обнаружения скрытого контента.
Уникальность контента как критерий информативности: Ключевым фактором для индексации контента за формой является его уникальность (Distinctness). Система использует Page Signatures, чтобы избежать индексации дубликатов, генерируемых разными входными данными.
Итеративное самообучение (Iterative Probing): Система использует контент самого сайта (а не внешние словари) для поиска релевантных ключевых слов. Она извлекает слова из результатов поиска (используя TF-IDF), чтобы найти новые слова для следующего раунда зондирования.
Важность типизации данных (Generic vs. Typed): Система различает свободный текстовый поиск и поля со структурированными данными и применяет разные стратегии (Iterative Probing против использования Value Domains).
Адаптивное управление бюджетом сканирования: Система оптимизирует ресурсы краулера, используя кластеризацию для сокращения числа запросов и приоритизацию по длине страницы. Кроме того, используется обратная связь по трафику (Back-off scheme): популярный контент сканируется глубже.

Практика

Best practices (это мы делаем)

Обеспечение максимальной уникальности страниц результатов: Критически важно для прохождения порога Distinctness Fraction. Страницы, генерируемые через формы (поиск, фильтры), должны иметь существенные различия в основном контенте, заголовках и мета-тегах. Избегайте ситуаций, когда разные фильтры ведут к почти идентичным страницам.
Использование понятных имен для полей ввода: Для Typed Inputs используйте стандартные имена в атрибуте name (например, «city», «zipcode», «date»). Это помогает системе распознать тип поля и применить соответствующие Value Domains для успешного зондирования.
Наличие релевантного текста для извлечения слов: Для работы Iterative Probing на страницах должен быть текст. Убедитесь, что на странице формы есть релевантные термины (для начального набора), и что на страницах результатов присутствует разнообразная лексика (для последующих итераций).
Оптимизация скорости ответа и стабильности форм: Итеративное зондирование генерирует множество последовательных запросов. Формы должны работать быстро и стабильно, чтобы система могла эффективно собрать данные и не прекратила процесс из-за таймаутов или ошибок.
Предпочтение GET-формам для индексируемого контента: Хотя система может обрабатывать разные типы форм, использование метода GET упрощает генерацию и отслеживание уникальных URL, что облегчает работу описанного механизма.

Worst practices (это делать не надо)

Возврат мягких 404 или одинаковых страниц ошибок: Если форма возвращает код 200 OK для невалидных запросов, показывая при этом стандартную страницу «Ничего не найдено», это снижает Distinctness Fraction и может привести к тому, что система сочтет поле неинформативным.
Генерация дублированного контента через формы: Создание множества комбинаций параметров, которые ведут к страницам с минимальными отличиями. Система отфильтрует их на этапе оценки уникальности.
Использование нестандартных или запутанных имен полей: Использование имен типа «field1» или «p_id» вместо семантически понятных названий мешает системе распознать Typed Fields.
Чрезмерное количество шаблонного контента (Boilerplate): Если уникальный контент занимает малую часть страницы по сравнению с меню, футером и рекламой, это затрудняет корректный расчет Page Signature и извлечение полезных ключевых слов.

Стратегическое значение

Патент имеет высокое стратегическое значение для сайтов, управляемых базами данных (E-commerce, каталоги, агрегаторы). Он демонстрирует, что Google активно пытается эмулировать взаимодействие пользователя с интерфейсом для обнаружения контента. Стратегия SEO должна учитывать не только стандартную навигацию, но и доступность контента через формы, а также адаптивное управление краулинговым бюджетом со стороны Google, основанное на уникальности контента и его востребованности пользователями (обратная связь по трафику).

Практические примеры

Сценарий: Индексация сайта недвижимости через форму поиска

Обнаружение: Googlebot находит форму поиска с полями «Город» (Typed), «Тип недвижимости» (Select) и «Ключевое слово» (Generic).
Обработка Typed Field («Город»): Система распознает поле по имени и тестирует значения из Value Domains (например, «Берлин», «Мюнхен»). Так как результаты уникальны (Distinctness Fraction > 0.3), поле признается информативным.
Обработка Generic Field («Ключевое слово»):
- Система извлекает начальные слова со страницы формы (например, «апартаменты», «дом»).
- Вводит «апартаменты». Из результатов извлекает новые слова: «студия», «пентхаус», «лофт» (используя TF-IDF).
- Вводит «лофт». Извлекает новые слова и продолжает итерации.
Генерация URL: Система генерирует комбинации информативных значений, например: /search?city=Берлин&keyword=лофт.
Обратная связь: Если URL /search?city=Берлин&keyword=лофт начинает получать много поискового трафика, Google может решить увеличить лимит ключевых слов для этой формы (Back-off scheme) и провести более глубокое зондирование, чтобы найти больше связанного контента.

Вопросы и ответы

Что такое «Deep Web» и почему Google интересуется им?

Deep Web — это контент, скрытый за веб-формами, например, результаты внутреннего поиска или данные из баз данных, доступные только после ввода параметров. Стандартные краулеры не видят этот контент. Google стремится его индексировать, так как там содержится огромное количество ценной информации, которая может быть релевантна запросам пользователей, но остается невидимой без специальных механизмов обнаружения.

Что означает, что ключевое слово «информативно» (Informative)?

Ключевое слово считается информативным, если его ввод в форму приводит к получению уникальной целевой страницы. Уникальность измеряется метрикой Distinctness Fraction. Если при вводе разных слов генерируются существенно разные страницы результатов (например, более 25% уникальных результатов, согласно порогам из патента), эти слова считаются информативными.

Как Google определяет, какие слова вводить в общие текстовые поля поиска на моем сайте?

Используется метод итеративного зондирования (Iterative Probing). Система начинает с извлечения слов (по TF-IDF) с самой страницы формы. Затем она вводит их, анализирует полученные страницы результатов и извлекает новые слова уже из них. Этот процесс повторяется итеративно, позволяя системе самостоятельно изучить релевантную терминологию сайта без использования внешних словарей.

Как система обрабатывает поля с конкретными типами данных, например, ZIP-коды или даты (Typed Fields)?

Система пытается распознать тип поля, используя подсказки (например, имя поля «zipcode») и тестируя значения из предопределенных доменов (Value Domains, например, список ZIP-кодов). Если ввод этих значений приводит к высокой доле уникальных результатов (Distinctness Fraction > 0.3), система классифицирует поле как типизированное и использует этот домен для генерации URL.

Как Google избегает индексации миллионов дубликатов, генерируемых формами?

Система вычисляет сигнатуру страницы (Page Signature) для каждого результата и сравнивает их. Если результаты слишком похожи (не удовлетворяют Difference Standard), система кластеризует ключевые слова, которые к ним привели, и выбирает только одно репрезентативное ключевое слово из кластера. Это значительно сокращает количество индексируемых URL.

Как Google решает, насколько глубоко сканировать форму?

Патент описывает механизм обратной связи (Back-off scheme). Сначала устанавливается базовый лимит (например, 500 ключевых слов). Если сгенерированные URL получают много поискового трафика (показов в выдаче), Google увеличивает лимит и проводит более глубокое сканирование. Если трафика мало, лимит снижается. Это оптимизирует краулинговый бюджет.

Почему система предпочитает ключевые слова, которые ведут к более длинным страницам?

Это эвристика для повышения эффективности. Предполагается, что более длинные страницы (Page Length) содержат больше информации или больше результатов поиска. Выбирая такие ключевые слова, система стремится максимизировать охват контента при ограниченном количестве запросов к форме.

Как я могу помочь Google эффективно сканировать контент за фильтрами на моем E-commerce сайте?

Во-первых, обеспечьте максимальную уникальность контента на страницах фильтров (разные товары, уникальные H1/Title). Во-вторых, используйте понятные имена для полей ввода (например, «color», «size»). В-третьих, убедитесь, что форма работает быстро и доступна для краулера (предпочтительно использование GET-запросов для генерации уникальных URL).

Влияет ли этот патент на ранжирование?

Напрямую нет, он описывает механизмы сканирования и индексации. Однако, чтобы контент мог ранжироваться, он сначала должен быть проиндексирован. Для сайтов, чей контент скрыт за формами, этот механизм критически важен для попадания в индекс и, следовательно, для получения возможности ранжироваться.

Что делать, если я не хочу, чтобы Google индексировал результаты моей формы?

Если контент за формой не должен попасть в индекс (например, это личные данные или технические страницы), следует использовать стандартные методы контроля индексации: закрыть целевые страницы от индексации с помощью robots.txt или мета-тега noindex. Это предотвратит появление контента в выдаче, даже если он будет обнаружен краулером.