Как Google автоматически распознает структуру сайтов объявлений (Classified Websites) для извлечения данных

Патент описывает систему Google для автоматического обнаружения сайтов объявлений (например, Craigslist). Система использует эвристики (например, географические названия в URL) и ML-классификаторы для анализа структуры сайта (страницы списков и детальные страницы). Цель — идентифицировать такие сайты для последующего автоматического извлечения структурированных данных и оптимизации частоты сканирования.

Описание

Какую задачу решает

Патент решает проблему эффективного и автоматизированного обнаружения сайтов объявлений (Classified Websites) в интернете. Ручной поиск на таких сайтах трудоемок, а их ручная идентификация для настройки парсеров не масштабируется. Цель изобретения — автоматически идентифицировать эти сайты, учитывая их иерархическую и географически локализованную структуру, чтобы затем извлекать из них структурированные данные (цены, атрибуты) и адаптировать частоту сканирования (Refresh Policy) под их высокую скорость обновления контента.

Что запатентовано

Запатентована система автоматической классификации веб-сайтов. Она использует комбинацию эвристик (heuristics) и машинного обучения (Classifiers) для определения того, соответствует ли структура и контент сайта модели сайта объявлений. Система ищет характерные признаки: географическую локализацию в URL, наличие страниц списков (Listing Pages) и детальных страниц (Detail Pages).

Как это работает

Система работает в несколько этапов:

Идентификация кандидатов: Сайт помечается как кандидат (Candidate Site), если соответствует эвристикам. Ключевая эвристика — географическая локализация, например, структура URL вида {cityname}.domain.com.
Анализ структуры: Внутри сайта ищутся потенциальные Listing Pages (по повторяющимся HTML-шаблонам — repeating pattern) и Detail Pages.
Классификация: Извлекаются признаки (ключевые слова, URL tokens). ML-классификаторы, обученные на известных сайтах объявлений, рассчитывают оценки для этих страниц.
Оценка сайта: Вычисляется общая оценка сайта (Candidate Site Score). Если она превышает порог, сайт идентифицируется как Classified Website.
(Пост-обработка): Для идентифицированного сайта могут быть сгенерированы шаблоны для извлечения данных и скорректирована частота сканирования.

Актуальность для SEO

Высокая. Автоматическое извлечение структурированных данных (Information Extraction) остается критически важной задачей для Google для наполнения вертикальных поисков (Товары, Вакансии, Недвижимость). Хотя конкретные алгоритмы ML эволюционировали, описанные принципы — анализ структуры URL, идентификация шаблонов страниц и использование взвешенных семантических признаков — по-прежнему лежат в основе систем извлечения информации, особенно для сайтов без микроразметки.

Важность для SEO

(4/10). Влияние на общие SEO-стратегии ранжирования минимальное. Это инфраструктурный патент, фокусирующийся на классификации и извлечении данных (Data Acquisition), а не на ранжировании. Однако он имеет высокое значение для владельцев сайтов объявлений, агрегаторов и каталогов. Патент объясняет, как Google автоматически интерпретирует структуру таких сайтов для извлечения данных и адаптации краулинга.

Детальный разбор

Термины и определения

Candidate Site (Сайт-кандидат): Веб-сайт, предварительно отобранный на основе эвристик как потенциальный сайт объявлений.
City Page (Страница города/региона): Страница в структуре сайта, привязанная к конкретному географическому региону.
Classified Site Predictability (Предсказуемость сайта объявлений): Вес, присваиваемый признаку (ключевому слову или токену URL), который указывает на его важность для идентификации сайта объявлений.
Classifier (Классификатор): Модель машинного обучения (упоминаются WinNOW, Naive Bayes, SVM, Neural Networks), обученная на корпусе (corpus) известных сайтов объявлений.
Detail Page (Детальная страница): Страница с подробной информацией о конкретном объявлении.
Dynamic Regions (Динамические области): Части веб-страницы, содержимое которых меняется (например, текст объявления, цена), в отличие от статических областей. Идентифицируются для извлечения данных.
Geographical Localization (Географическая локализация): Признак сайта, указывающий на его привязку к региону. Определяется, например, по наличию названия географического объекта в URL.
Listing Page (Страница списка): Страница категории, содержащая список объявлений, часто характеризующаяся повторяющимися шаблонами (repeating pattern) или схожими последовательностями HTML-тегов (similar html tag sequences).
URL Tokens (Токены URL): Компоненты URL, используемые как признаки для классификации (например, «real-estate», «for-sale»).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод автоматической идентификации сайта объявлений.

Система определяет, что веб-сайт является Candidate Site.
Определяется оценка страницы списка (listing page score), указывающая на вероятность того, что одна или несколько страниц сайта являются частью сайта объявлений.
Определяется оценка детальной страницы (detail page score), указывающая на вероятность того, что одна или несколько страниц сайта являются частью сайта объявлений.
Вычисляется оценка сайта-кандидата (candidate site score) на основе комбинации listing page score и detail page score.
Система определяет, что сайт-кандидат является сайтом объявлений, если candidate site score превышает пороговое значение (threshold).

Claim 2 и 3 (Зависимые): Уточняют эвристику для определения Candidate Site.

Определение включает проверку того, что сайт географически локализован (geographically localized). Это определяется путем установления факта, что название географического объекта заметно используется (used prominently) в URL сайта.

Claim 4 (Зависимый): Уточняет альтернативную эвристику для определения Candidate Site.

Определение включает проверку того, что доменное имя сайта содержит известный термин сайта-кандидата (known candidate site term).

Claim 6 и 7 (Зависимые): Детализируют процесс определения listing page score.

Извлекаются URL tokens и ключевые слова (keywords) со страницы. Они обрабатываются классификатором, обученным на корпусе известных сайтов объявлений. При этом учитываются относительные веса (relative weights) признаков, связанные с classified site predictability.

Claim 9 и 10 (Зависимые): Детализируют процесс определения detail page score.

Процесс аналогичен определению listing page score: используются классификаторы, обрабатывающие URL tokens и ключевые слова с учетом их весов (classified site predictability).

Где и как применяется

Изобретение применяется на этапах сканирования и индексирования для классификации контента и автоматизации извлечения данных.

CRAWLING – Сканирование и Сбор данных
Идентификация сайта как Classified Website влияет на планирование сканирования (Crawl Scheduling). В патенте отмечается, что такие сайты требуют более частого сканирования, чем обычные веб-сайты, из-за высокой частоты обновления контента. Система может настроить соответствующую политику обновления (Refresh Policy) и использовать специализированные краулеры (Listing Page Crawler, Detail Page Crawler).

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Система анализа сайтов (Classified Site Analysis Server System) выполняет:

Классификацию сайта: Анализ структуры (URL, HTML/DOM) и контента для определения типа сайта.
Извлечение признаков: Извлечение ключевых слов и URL tokens для классификаторов.
(Пост-обработка): Если сайт идентифицирован, это может запустить генерацию моделей (Model Generator) и извлечение структурированных данных (Data Extraction). Система создает шаблоны (Templates) для страниц, определяя Dynamic Regions, и извлекает данные в Extracted Data Store.

Входные данные:

Содержимое веб-страниц (HTML, текст) и их URL.
Структура DOM страниц.
Корпус известных сайтов объявлений (для обучения классификаторов).
Опционально: Данные о доступе пользователей (Access Data, например, с тулбаров), которые могут помочь в определении структуры сайта.

Выходные данные:

Метка классификации сайта (Сайт объявлений / Нет).
Идентификация типов страниц (Listing Page, Detail Page).

На что влияет

Конкретные типы контента и ниши: Патент напрямую влияет на сайты, функционирующие как доски объявлений: недвижимость, вакансии, продажа товаров (P2P eCommerce), услуги, а также форумы.
Структурные факторы: Влияет на сайты с четкой иерархической структурой (City -> Listing -> Detail) и выраженной географической локализацией.

Когда применяется

Триггеры активации: Детальный анализ активируется, когда срабатывают эвристики, идентифицирующие сайт как Candidate Site. Ключевой триггер — обнаружение паттерна географической локализации в URL (например, {cityname}.domain.com) или специфических терминов в домене.
Условия применения: Алгоритмы классификации применяются, если внутри сайта удается обнаружить потенциальные Listing Pages (по повторяющимся шаблонам) и Detail Pages.

Пошаговый алгоритм

Процесс Идентификации Сайта Объявлений

Определение сайта-кандидата: Система анализирует веб-сайт на соответствие эвристикам: географическая локализация в URL (например, географическое название используется prominently) и/или наличие known candidate site terms в доменном имени.
Определение кандидатов страниц списков: Поиск страниц, демонстрирующих repeating pattern или similar html tag sequences.
Определение кандидатов детальных страниц: Идентификация страниц, на которые ведут ссылки из строк на страницах списков.
Извлечение признаков: Из страниц-кандидатов извлекаются ключевые слова и URL tokens.
Классификация и расчет оценок страниц: Используя классификатор, обученный на корпусе известных сайтов, система вычисляет listing page score и detail page score. При расчете учитываются веса признаков (classified site predictability).
Расчет оценки сайта: Вычисляется общая оценка сайта (Candidate Site Score). В патенте приводится пример формулы: W(Site) = C({l}) + C({d}), где C — классификатор, {l} — набор кандидатов списков, {d} — набор кандидатов детальных страниц.
Финальная классификация: Если Candidate Site Score превышает установленный порог, сайт определяется как Classified Website.

Какие данные и как использует

Данные на входе

Технические факторы (URL-структура): Критически важна. Анализируется наличие географических названий в URL (эвристика для кандидатов). URL tokens используются как признаки для классификаторов. Доменное имя также анализируется.
Контентные факторы (Ключевые слова): Текст на страницах используется как признаки (Keywords) для классификаторов.
Структурные факторы (HTML/DOM): Анализ структуры для поиска repeating patterns для идентификации Listing Pages. Упоминается анализ DOM (DOM analysis), который используется для идентификации Dynamic Regions при последующей генерации шаблонов.
Пользовательские/Поведенческие факторы (Опционально): Данные о доступе (Access Data), такие как история просмотров и кликов (например, с тулбаров), могут использоваться для определения структуры сайта и связей между страницами (например, для идентификации City Pages, посещаемых перед Listing Pages).

Какие метрики используются и как они считаются

Classified Site Predictability (Веса признаков): Веса, присваиваемые ключевым словам и URL tokens в зависимости от их важности для идентификации вертикали (например, высокий вес у слов «price», «bedroom»).
Listing Page Score / Detail Page Score: Вероятностные оценки, вычисляемые классификаторами машинного обучения (WinNOW, Naive Bayes, SVM, Neural Networks и др.) на основе извлеченных признаков и их весов.
Candidate Site Score (W(Site)): Общая оценка сайта, вычисляемая как комбинация оценок страниц списков и детальных страниц. Формула: W(Site) = C({l}) + C({d}).
Threshold (Порог): Предопределенное значение для Candidate Site Score. Патент упоминает, что порог может быть установлен так, чтобы быть сверхинклюзивным (over inclusive) и не пропускать новые сайты.

Выводы

Автоматизация сбора структурированных данных: Патент описывает инфраструктурный механизм Google для автоматического обнаружения и классификации сайтов с шаблонной структурой (сайтов объявлений) с целью извлечения из них данных без ручной настройки парсеров (Implicit Extraction).
Ключевая роль структуры URL и геолокализации: Наличие географической локализации, заметно используемой в URL (например, {cityname}.domain.com), является сильным эвристическим сигналом для первичной идентификации кандидатов.
Идентификация на основе шаблонов (Pattern Recognition): Система активно ищет повторяющиеся HTML-шаблоны (repeating patterns) для идентификации страниц списков и использует анализ DOM для отделения динамического контента от boilerplate.
Комбинированный подход (Эвристики + ML): Идентификация основана не только на структуре, но и верифицируется с помощью ML-классификаторов, анализирующих семантические признаки (ключевые слова и URL tokens).
Взвешенные признаки: Система использует веса (classified site predictability) для определения важности различных ключевых слов и токенов при классификации.
Влияние на краулинг: Успешная идентификация сайта как Classified Website влияет на частоту его сканирования (Refresh Policy), увеличивая ее из-за частого обновления контента.

Практика

ВАЖНО: Патент является инфраструктурным и не дает прямых рекомендаций для улучшения ранжирования. Однако он критически важен для владельцев сайтов объявлений, агрегаторов, каталогов и e-commerce, так как описывает, как Google анализирует их структуру для извлечения данных и адаптации краулинга.

Best practices (это мы делаем)

Поддерживайте консистентную структуру HTML: Используйте идентичные HTML-шаблоны для всех страниц одного типа, особенно для листингов. Это критически важно для того, чтобы система могла идентифицировать repeating patterns и корректно сгенерировать шаблоны для извлечения данных из Dynamic Regions.
Используйте чистую и логичную структуру URL: Четко отражайте иерархию и географию в URL (поддомены или папки). Это помогает системе на этапе идентификации кандидатов, так как географическая локализация в URL — ключевая эвристика. Используйте описательные URL tokens для категорий.
Используйте стандартную отраслевую терминологию: Наличие ключевых слов, характерных для вертикали (цена, характеристики, локация), помогает классификаторам правильно определить тип сайта за счет весов classified site predictability.
Оптимизируйте производительность сервера: Поскольку идентифицированные сайты объявлений сканируются чаще (учитывая Refresh Policy), убедитесь, что ваша инфраструктура готова к повышенной нагрузке со стороны краулеров.

Worst practices (это делать не надо)

Частая и радикальная смена верстки: Изменения в HTML-шаблонах могут нарушить работу автоматических экстракторов, так как сгенерированные модели устареют, и система перестанет корректно извлекать данные.
Неконсистентная HTML-структура: Использование разных структур для однотипных элементов в списке затрудняет идентификацию repeating patterns и генерацию шаблонов.
Обфускация или неинформативные URL: Сложные URL без четкой иерархии или географии (например, основанные только на параметрах) мешают системе использовать эвристики и URL tokens для первичной идентификации и классификации.

Стратегическое значение

Патент подтверждает стратегию Google по извлечению структурированных данных из веба любыми способами, не полагаясь только на микроразметку. Для высокоструктурированных сайтов консистентность шаблонов и логика архитектуры являются необходимыми условиями для эффективного взаимодействия с поисковой системой. Этот механизм позволяет Google агрегировать данные в свои вертикали (Товары, Вакансии и т.д.), минуя необходимость в фидах или явной разметке.

Практические примеры

Сценарий: Оптимизация сайта по аренде недвижимости для автоматического извлечения данных

Структура URL (Идентификация кандидата): Переход от структуры site.com/listing?city=NY&id=123 к https://newyork.site.com/apartments/123/ или site.com/newyork/apartments/123/. Наличие города в URL помогает Google определить географическую локализацию (эвристика), а токен «apartments» помогает классификатору.
Страница списка (Идентификация Listing Page): Убедиться, что каждая квартира в списке сверстана с использованием одного и того же HTML-блока (например, <div class=»listing-item»>). Google распознает этот repeating pattern.
Ключевые слова (Классификация): Убедиться, что в интерфейсе четко используются слова «цена в месяц», «количество спален», «район». Эти слова имеют высокий вес classified site predictability.
Результат: Google успешнее классифицирует сайт и автоматически извлекает актуальные структурированные данные для использования в поиске.

Вопросы и ответы

Описывает ли этот патент алгоритмы ранжирования?

Нет. Патент сосредоточен исключительно на методах классификации веб-сайтов (определение, является ли сайт сайтом объявлений) и инфраструктуре для последующего извлечения структурированных данных. Он не содержит информации о том, как эти сайты ранжируются в поисковой выдаче.

Означает ли этот патент, что микроразметка (Schema.org) не нужна?

Ни в коем случае. Микроразметка предоставляет явные и точные структурированные данные. Описанный в патенте механизм — это способ автоматического извлечения данных (Implicit Extraction), когда явная разметка отсутствует или некорректна. Наличие качественной микроразметки всегда предпочтительнее и надежнее.

Какие сигналы являются ключевыми для определения того, что сайт является сайтом объявлений?

Патент выделяет два основных этапа. Первый — эвристики для кандидатов: географическая локализация в URL (например, city.domain.com) и наличие определенных терминов в домене. Второй — анализ с помощью классификаторов: наличие URL tokens, взвешенных ключевых слов на странице и структурных повторяющихся шаблонов (repeating patterns) на страницах списков.

Как этот патент влияет на краулинговый бюджет?

Патент прямо указывает, что сайты объявлений из-за частого обновления контента должны сканироваться гораздо чаще (упоминается Refresh Policy). Успешная идентификация сайта как Classified Website, вероятно, приведет к увеличению частоты сканирования, что повышает требования к производительности сервера.

Что такое «Classified Site Predictability»?

Это вес, присваиваемый определенному признаку (ключевому слову или токену URL), который указывает, насколько сильно этот признак коррелирует с принадлежностью сайта к категории сайтов объявлений. Например, слова «цена», «спальня» или токен URL «for-sale» будут иметь высокий вес.

Как система определяет, какие части страницы являются динамическими (Dynamic Regions)?

Система использует анализ DOM (DOM analysis) и, вероятно, сравнивает множество страниц одного типа на сайте. Те области, которые остаются неизменными (boilerplate, навигация, футер), считаются статическими. Области, содержимое которых меняется от страницы к странице (например, текст объявления, цена), идентифицируются как Dynamic Regions для извлечения данных.

Может ли система использовать данные о поведении пользователей для классификации?

Да, в патенте упоминается использование Access Data (например, данных с тулбаров, включая историю просмотров и кликов). Эти данные могут помочь понять структуру сайта, например, определяя типичные пути навигации пользователей между City Page, Listing Page и Detail Page.

Насколько важна структура URL согласно этому патенту?

Она критически важна. Структура URL используется на самом первом этапе для определения сайта-кандидата (через эвристики географической локализации). Кроме того, URL tokens используются как важные признаки на этапе классификации страниц. Логичная и описательная структура URL значительно облегчает работу системы.

Что делать, если мой сайт не является сайтом объявлений, но имеет похожую структуру (например, eCommerce каталог)?

Если структура вашего сайта (иерархия, повторяющиеся шаблоны списков, URL) соответствует паттернам, которые ищет система, она может применить к нему те же методы автоматического извлечения данных. Это подчеркивает важность консистентной структуры для любых сайтов с большими наборами структурированных данных.

Как система определяет порог (threshold) для финальной классификации сайта?

Патент предлагает, что порог может быть установлен вручную или динамически (например, на основе среднего балла сайтов в обучающем корпусе). Также отмечается, что предпочтительнее установить более низкий порог, чтобы быть «сверхинклюзивным» (over inclusive) и не пропустить новые сайты объявлений.