
Google использует систему для доступа к контенту, скрытому за веб-формами («Глубокая паутина»). Система сканирует веб, идентифицирует формы, классифицирует их по тематикам (используя «Поисковую онтологию») и понимает, какие поля заполнять. При поиске Google анализирует запрос пользователя, находит релевантные формы, ранжирует их и может автоматически заполнить форму для пользователя или показать уже извлеченный контент.
Патент решает проблему недоступности значительной части данных в интернете для традиционных поисковых систем — так называемой «Глубокой паутины» (Deep Web). Этот контент не существует в виде статических веб-страниц, а генерируется динамически в ответ на запросы через веб-формы (например, базы данных недвижимости, вакансий, товаров). Традиционные краулеры, следующие по ссылкам, не могут индексировать этот контент. Изобретение направлено на то, чтобы сделать этот скрытый контент доступным для поиска.
Запатентована система для поиска контента, доступного через веб-формы. Она включает механизмы для обнаружения и анализа веб-форм, создания базы данных этих форм (Form Database) и их классификации с использованием поисковой онтологии (Search Ontology). Система также включает компонент обработки запросов, который интерпретирует ключевые слова пользователя, преобразует их в структурированный запрос, находит релевантные формы и ранжирует их на основе множества факторов, включая специфический показатель Form Score.
Система работает в двух режимах: офлайн (сканирование) и онлайн (обработка запроса).
Search Ontology. Он также выполняет Schema Matching, пытаясь сопоставить поля формы со свойствами онтологии (например, поле «ZIP code» соответствует свойству «Location»). Опционально система может предварительно извлекать контент, автоматически заполняя формы и индексируя результаты.Form Database подходящие формы. Формы ранжируются (учитывая PageRank, релевантность, местоположение и Form Score — насколько форма способна ответить на запрос). Пользователю предлагаются ссылки (Query-Through Links) для автоматического заполнения и отправки формы или показывается уже извлеченный контент.Средняя/Высокая. Доступ к структурированным данным остается ключевой задачей поиска. Хотя методы, описанные в патенте (например, классификаторы TF/IDF, наивный Байес), могут быть устаревшими по сравнению с современными нейронными сетями, сама концепция идентификации, классификации и доступа к данным за формами по-прежнему актуальна. Google активно извлекает структурированные данные, и этот патент описывает фундаментальный подход к работе с Deep Web.
Влияние на SEO значительно (7.5/10), особенно для сайтов, чей основной контент предоставляется через формы (агрегаторы, каталоги, сайты с базами данных). Патент показывает, что Google стремится понять структуру и назначение форм, чтобы либо ранжировать саму форму, либо индексировать контент за ней. Если контент за формой будет проиндексирован, это может кардинально изменить видимость сайта. Если же ранжируется сама форма, то её оптимизация и контекст страницы становятся критически важными.
Search Ontology и преобразует ключевые слова в структурированный запрос.invocation string.Search Ontology.SO-classes) и свойств (SO-properties), используемая для классификации веб-источников, веб-форм и запросов пользователей (например, классы: Недвижимость, Персона; свойства: Цена, Местоположение, Имя).Search Ontology.Claim 1 (Независимый пункт): Описывает основной метод поиска контента через веб-формы.
Structured Query): Class) для запроса.Properties) этого класса.Form Database) на основе структурированного запроса.Form Score, который отражает способность формы ответить на запрос. Это делается путем сравнения входов и выходов, требуемых запросом (на основе предсказанного класса), и входов и выходов конкретной формы из базы данных.Claim 4 и 5 (Зависимые): Детализируют способ предоставления результатов поиска.
Система представляет пользователю ссылку Query-Through Link для интересующей формы. Эта ссылка конструируется путем сопоставления ключевых слов из запроса с полями ввода формы и содержит строку вызова (invocation string). При нажатии на ссылку автоматически отправляется запрос к этой форме.
Claim 7 (Зависимый от 1): Определяет формулу для расчета Form Score (FS(f)).
Оценка формы рассчитывается по формуле:
Где: If и Of — входные и выходные свойства формы f; QI и QO — входные и выходные свойства, извлеченные из запроса пользователя.
Первый член (Коэффициент Жаккара) измеряет, достаточно ли данных в запросе пользователя для заполнения формы. Второй член измеряет способность формы предоставить выходные данные, требуемые пользователем.
Claim 10 (Зависимый от 1): Описывает методы предсказания класса (Class Prediction) для запроса.
Предсказание класса может выполняться с помощью одного или нескольких методов:
Изобретение охватывает почти все этапы поисковой архитектуры, так как требует комплексного подхода к сканированию, индексированию, пониманию запросов и ранжированию.
CRAWLING – Сканирование и Сбор данных
На этом этапе Web Crawler (или Site Crawler) активно ищет веб-формы на сайтах. Он фильтрует неинтересные формы (например, подписка на email) и устраняет дубликаты. Также может выполняться «глубокое сканирование» — отправка запросов в формы для извлечения контента. Упоминается использование эмуляции Javascript для обхода скриптов, мешающих сканированию.
INDEXING – Индексирование и извлечение признаков
Ключевой этап для этого патента. Система индексирует сами формы и создает Form Database. Происходит анализ (Form Analyzer) и классификация:
Search Ontology (с помощью классификаторов TF/IDF).Schema Matching: сопоставление полей формы со свойствами онтологии.Location Prediction).QUNDERSTANDING – Понимание Запросов
Query Analyzer интерпретирует запрос пользователя. Он предсказывает класс Search Ontology, к которому относится запрос, распознает сущности (имена, локации) и преобразует ключевые слова в Structured Query.
RANKING – Ранжирование
Система выполняет поиск в Form Database. Ранжирование найденных форм использует сложную комбинацию сигналов, включая стандартные (PageRank, ключевые слова) и специфические для этого изобретения (Ontology Score, Location Score и, самое главное, Form Score).
METASEARCH – Метапоиск и Смешивание
Результаты (ссылки на формы или предварительно извлеченный контент) интегрируются в общую выдачу. Система может предоставлять Query-Through Links или отображать результат в виде специального блока (упоминается «one-box»).
Алгоритм применяется, когда система идентифицирует, что запрос пользователя лучше всего может быть удовлетворен контентом, скрытым за веб-формами.
Query Analyzer с высокой уверенностью предсказывает класс Search Ontology, связанный с формами (например, пользователь ищет объект с атрибутами).Form Database, которые соответствуют структурированному запросу пользователя.Процесс А: Офлайн-сканирование и индексирование форм (Web Crawler)
TF/IDF) для определения класса Search Ontology для веб-страницы и для самой формы. Учитывается текст всей страницы и текст внутри/вокруг формы.SO-properties) предсказанного класса онтологии (например, поле «City» -> свойство «Location»).Form Database.Процесс Б: Онлайн-обработка запроса (Query Engine)
Form Database на основе структурированного запроса.PageRank источника.Keyword Scores (релевантность текста страницы, анкоров).Ontology Score (релевантность класса запроса классу формы).Form Score (способность формы ответить на запрос, формула в Claim 7).Location Score (близость локации формы к локации в запросе).invocation string), включая внутренние значения для select boxes и обработку Javascript. Генерация Query-Through Links.anchor-score), видимый текст (метки) полей формы. Используются для классификации (TF/IDF) и расчета Keyword Scores.PageRank).Location Prediction и расчета Location Score. Данные о населении городов также используются для разрешения неоднозначностей локаций.Search Ontology (иерархия классов и свойств). Данные для обучения классификаторов и распознавателей.Система использует несколько ключевых метрик для ранжирования форм:
page-text-score), анкоров и заголовка запросу пользователя.Search Ontology, предсказанного для запроса, классу формы. Включает query-match-score (уверенность в классе запроса) и ontology-match-score (уверенность в классе формы).Агрегация оценок: Различные компоненты оценки объединяются с использованием линейной комбинации. Веса в комбинации динамические и зависят от анализа запроса (например, если класс предсказан с высокой уверенностью, вес Ontology Score увеличивается; если обнаружено местоположение, вес Location Score увеличивается).
Методы анализа: Упоминаются классификаторы TF/IDF, наивный Байес, распознаватели свойств (Property Recognizers), а также методы машинного обучения для сопоставления схем (Schema Matching).
Search Ontology является ядром системы. Она используется для классификации форм (офлайн), понимания запросов (онлайн) и сопоставления между ними (Schema Matching). Способность системы понять семантику формы и её полей критически важна.Query-Through Link), либо предварительно извлекать контент из формы и индексировать его как обычные веб-страницы.Form Score (насколько форма функционально соответствует запросу), Ontology Score (семантическое соответствие) и Location Score, которые комбинируются с традиционными сигналами (PageRank, ключевые слова).Рекомендации актуальны для сайтов, предоставляющих доступ к базам данных через формы (агрегаторы, порталы, E-commerce с фильтрами).
name, так и в видимом тексте label). Это помогает системе выполнить Schema Matching и корректно сопоставить поля со свойствами Search Ontology.Keyword Scores и PageRank учитываются при ранжировании формы. Текст вокруг формы должен четко описывать её назначение, помогая классификации.<select>. Система использует значения опций для Schema Matching и для генерации констант при предварительном извлечении контента.Schema Matching.Keyword Scores и PageRank, что ухудшит ранжирование формы.Этот патент подчеркивает стремление Google структурировать и понимать весь доступный контент, включая динамический. Для SEO-специалистов это означает, что оптимизация не ограничивается статическими страницами. Техническая реализация и семантика интерактивных элементов (форм, фильтров) напрямую влияют на видимость сайта. Сайты, которые предоставляют доступ к уникальным базам данных через хорошо спроектированные и доступные формы, могут получить преимущество, так как Google может ранжировать их выше или использовать их для наполнения своих вертикальных сервисов.
Сценарий: Оптимизация формы поиска недвижимости
Schema Matching из-за неясных названий полей. Использование POST затрудняет предварительное извлечение контента.labels: «city», «price_min», «price_max», «property_type».Location Score.Search Ontology (класс: Недвижимость). Schema Matching выполняется корректно. При запросе пользователя «квартиры в Бостоне до 3000 долларов» система сможет сгенерировать корректный Structured Query, а форма получит высокий Form Score. Краулер сможет проиндексировать страницы результатов благодаря GET-запросам.Что такое «Глубокая паутина» (Deep Web) в контексте этого патента?
Это контент, который недоступен при обычном сканировании по ссылкам, так как он скрыт за веб-формами. Чтобы получить этот контент (например, список авиарейсов или объектов недвижимости), необходимо заполнить поля формы и отправить запрос к базе данных сайта. Патент описывает методы, позволяющие Google получить доступ к этому контенту.
Что такое Search Ontology (SO) и почему это важно?
Search Ontology — это система классификации, которую Google использует для понимания тематики веб-форм и запросов пользователей. Она состоит из классов (например, «Автомобили», «Вакансии») и свойств (например, «Марка», «Модель», «Цена»). Корректная классификация формы в этой онтологии критически важна для её ранжирования и использования системой.
Как Google определяет назначение полей в моей форме?
Система использует процесс, называемый Schema Matching. Она анализирует названия полей (атрибут name), видимый текст (labels), типы полей и примеры значений (опции в выпадающих списках). Затем она пытается сопоставить эти поля со свойствами в своей Search Ontology, используя методы машинного обучения и различные классификаторы.
Что такое Form Score и как он влияет на ранжирование?
Form Score — это ключевая метрика ранжирования в этом патенте. Она оценивает, насколько хорошо форма функционально соответствует запросу пользователя. Учитывается, достаточно ли данных в запросе для заполнения обязательных полей формы (вход) и может ли форма предоставить ту информацию, которую ищет пользователь (выход). Чем выше Form Score, тем выше ранжируется форма.
Может ли Google проиндексировать контент, который доступен только после заполнения формы на моем сайте?
Да. Патент описывает два варианта. Первый — предоставить пользователю ссылку для автоматического заполнения формы (Query-Through Link). Второй — система может попытаться самостоятельно заполнить форму во время сканирования (используя сгенерированные константы) и проиндексировать полученные результаты в обычный веб-индекс.
Как Javascript влияет на способность Google анализировать мои формы?
Javascript может создавать проблемы, особенно если он используется для изменения строки вызова формы перед отправкой или для сложной валидации. Патент упоминает использование движка эмуляции Javascript (Javascript emulation engine) для обхода этих препятствий, но сложная или непредсказуемая реализация JS может помешать анализу и индексации.
Что важнее для ранжирования формы: контент на странице или сама форма?
Важно и то, и другое. Ранжирование использует линейную комбинацию факторов. Контент на странице, заголовки и входящие ссылки влияют на Keyword Scores и PageRank. Функциональность и семантика самой формы влияют на Form Score и Ontology Score. Для оптимального результата необходимо оптимизировать оба аспекта.
Как я могу помочь Google правильно классифицировать мою форму?
Используйте четкий и описательный текст на странице и вокруг формы, чтобы указать её назначение. Используйте ясные и стандартные названия для полей формы. Это поможет классификаторам (которые, согласно патенту, могут использовать TF/IDF) правильно определить класс Search Ontology.
Что такое Query-Through Link?
Это ссылка, которую Google может показать в результатах поиска. Когда пользователь нажимает на неё, система автоматически перенаправляет его на ваш сайт, при этом заполняя и отправляя форму с параметрами из его исходного запроса. Это позволяет пользователю сразу увидеть результаты без ручного ввода данных.
Актуален ли этот патент, учитывая развитие структурированных данных (Schema.org)?
Патент описывает фундаментальный подход к извлечению данных из форм, который отличается от использования разметки Schema.org. В то время как Schema.org полагается на то, что владелец сайта сам разметит данные, этот патент описывает, как Google может самостоятельно понять и извлечь данные из неразмеченных источников (баз данных за формами). Обе технологии направлены на понимание структурированных данных, но используют разные подходы.

Структура сайта
Краулинг

Краулинг
Индексация

SERP
Семантика и интент
Knowledge Graph

Структура сайта

Семантика и интент
SERP

Ссылки
EEAT и качество
Антиспам

Семантика и интент
Персонализация
SERP

Ссылки
Семантика и интент
SERP

Индексация
Краулинг
Ссылки

Персонализация
SERP
Ссылки

Индексация
SERP
Персонализация

Ссылки
SERP

Local SEO
Поведенческие сигналы
Свежесть контента

SERP
Семантика и интент
EEAT и качество

Поведенческие сигналы
SERP
