
Google использует систему для автоматического распознавания сайтов, организованных по шаблону (например, классифайды, сайты недвижимости, форумы). Система анализирует структуру URL и HTML-код для выявления повторяющихся паттернов и "динамических областей". На основе этого создаются шаблоны для извлечения данных (например, цена, местоположение, атрибуты), которые затем сохраняются в структурированном виде для использования в поиске.
Патент решает проблему эффективного сбора и структурирования информации с веб-сайтов, имеющих шаблонную организацию и частое обновление контента, таких как классифайды (например, Craigslist), сайты недвижимости или вакансий. Ручное создание правил извлечения (wrappers) для каждого такого сайта не масштабируется. Цель изобретения — автоматизировать процесс идентификации таких сайтов, понимания их структуры и извлечения данных в структурированном формате (Attribute-Value Pairs).
Запатентована система (Classified Site Analysis Server System) для автоматического извлечения структурированных данных. Система идентифицирует сайты-классифайды, используя эвристики (например, географическую локализацию в URL) и классификаторы машинного обучения. Затем она анализирует структуру сайта (Главная -> Страница города -> Страница листинга -> Страница деталей), определяет динамические области на страницах и создает модели (шаблоны) для извлечения конкретных типов информации. Эти шаблоны используются для регулярного сканирования и наполнения базы структурированных данных.
Система работает в несколько этапов:
Classifiers), обученные на известных сайтах.динамические области (контент, который меняется от записи к записи) и типы данных в них (цена, адрес и т.д.). Создается шаблон извлечения.Extracted Data Store).Высокая. Извлечение структурированных данных (Information Extraction) из шаблонных сайтов является фундаментальной задачей для поисковых систем. Механизмы, описанные в патенте, лежат в основе того, как Google обрабатывает сайты электронной коммерции, недвижимости, вакансий для создания обогащенных результатов (Rich Results) и вертикальных поисковых сервисов (Google Shopping, Google Jobs). Хотя конкретные ML-модели могли эволюционировать, принципы остаются актуальными.
Патент имеет высокое значение (7.5/10) для SEO-стратегий сайтов, основанных на шаблонах (E-commerce, агрегаторы, листинги, директории). Он описывает инфраструктурный механизм, определяющий, насколько эффективно Google может извлечь и структурировать информацию с сайта. Если система не сможет корректно определить шаблоны и динамические области, ключевая информация о товарах или услугах может быть не извлечена, что снизит видимость сайта в специализированных блоках выдачи.
sf.craigslist.org).WinNOW, Naive Bayes, SVM и др.), используемые для оценки вероятности того, что сайт-кандидат или страница-кандидат является классифайдом/листингом/детальной страницей.{cityname}.domain.com).repeating pattern.динамические области и типы информации, содержащиеся в них.Claim 1 (Независимый пункт): Описывает основной метод автоматического извлечения данных.
geographically localized.Listing Page на новом сайте на основе схожести с этими моделями.listing page model) для этой страницы листинга. Процесс создания включает: dynamic regions.listing page template), который описывает эти области и типы данных.classified site query).Claim 2 (Зависимый): Дополняет Claim 1, указывая, что система также идентифицирует Details Page, связанную со страницей листинга, создает для нее модель и извлекает данные с ее помощью.
Claim 5 (Зависимый): Указывает, что система может идентифицировать дополнительные страницы (например, City Pages или страницы категорий) на основе user access data (данных о поведении пользователей) и создавать модели для них.
Claim 9 (Зависимый): Уточняет, что определение сайта как классифайда также может основываться на наборе эвристик, включающем определение того, содержит ли сайт "common classified site terms" (общие термины классифайдов).
Claim 10 (Зависимый): Уточняет, что Listing Page идентифицируется, по крайней мере частично, по наличию набора строк, демонстрирующих "repeating pattern" (повторяющийся паттерн).
Изобретение является частью инфраструктуры сбора и обработки данных Google.
CRAWLING – Сканирование и Сбор данных
Система используется для оптимизации сканирования. Идентификация сайта как классифайда позволяет применить к нему особые политики сканирования (Refresh Policy), так как такие сайты обновляются очень часто. Специализированные краулеры (City Page Crawler, Listing Page Crawler, Detail Page Crawler) используются для эффективного обхода структуры сайта.
INDEXING – Индексирование и извлечение признаков
Основное применение патента. На этом этапе происходит анализ структуры страниц (Page Type Identifier), генерация моделей и шаблонов (Model Generator) и извлечение данных (Data Extractor). Вместо хранения только сырого HTML, система извлекает структурированные данные (пары атрибут-значение) и сохраняет их в Extracted Data Store. Это форма глубокого извлечения признаков и структурирования контента.
METASEARCH – Метапоиск и Смешивание
Извлеченные структурированные данные используются для формирования ответов в вертикальном поиске или специализированных блоках выдачи (например, блок вакансий, товаров), агрегируя данные из множества источников.
Входные данные:
Classified Site Models).Heuristics).Access Data).Выходные данные:
Page Templates).{cityname}.domain.com (географическая локализация).Патент описывает два основных процесса: Идентификацию классифайда и Извлечение данных.
Процесс А: Идентификация классифайда (Method 900)
{cityname}.domain.com).repeating pattern) в HTML.Процесс Б: Моделирование и Извлечение данных (Method 800)
City Pages) могут быть идентифицированы с помощью User Access Data.Dynamic Regions (например, с помощью DOM-анализа).Page Template), фиксирующего эту структуру.Dynamic Regions, определенных в шаблоне.Extracted Data Store как значение для соответствующего типа информации (атрибута).Система использует несколько типов данных для идентификации сайтов и извлечения информации:
{cityname}.domain.com) является сильным сигналом для идентификации сайта-кандидата. Также анализируются токены, указывающие на категории.repeating pattern) на страницах листинга и для идентификации Dynamic Regions на всех типах страниц.WinNOW, Naive Bayes, SVM), обученным на корпусе известных сайтов, на основе ключевых слов и URL-токенов.Listing Page Score и Detail Page Score.Candidate Site Score, чтобы сайт был признан классифайдом. Патент предполагает, что порог может быть установлен на основе ручного анализа или статистически (например, 70% от средней оценки известного корпуса).Schema.org (хотя Schema.org помогает).city.domain.com) и наличие повторяющихся паттернов (repeating patterns) в HTML являются ключевыми сигналами.User Access Data) для определения взаимосвязей между страницами и идентификации их типов (например, определение City Page по тому, что пользователи часто переходят с нее на Listing Page).Dynamic Regions и создание надежного шаблона извлечения.Dynamic Regions. Четкое отделение контента от шаблона (boilerplate) в DOM упрощает анализ.repeating pattern). Каждая запись в листинге должна иметь схожую HTML-структуру и содержать ссылку на соответствующую страницу деталей.city.domain.com или domain.com/city/) может помочь системе быстрее понять организацию контента.Schema.org (Product, LocalBusiness, JobPosting и т.д.) устраняет неоднозначность и гарантирует, что система корректно определит типы данных в динамических областях.<div> для всего) или динамическая генерация HTML, создающая неконсистентный DOM, затрудняют идентификацию Dynamic Regions.Listing Pages.Патент подтверждает стратегическую важность технического SEO и качества структуры сайта для успешного индексирования. Google стремится понять контент на уровне сущностей и атрибутов, а не просто на уровне ключевых слов. Для шаблонных сайтов способность Google эффективно извлекать структурированные данные напрямую влияет на их представление в поиске, включая обогащенные результаты и вертикальные сервисы. Консистентность и чистота кода являются не просто рекомендацией, а необходимым условием для работы систем извлечения данных.
Сценарий: Оптимизация сайта недвижимости для лучшего извлечения данных
site.com/new-york/rentals/apartment-id123. Это соответствует эвристикам патента.repeating pattern). Например: <div class="listing-item">
<span class="price">$2500</span>
<span class="bedrooms">2BR</span>
<a href="/apartment-id123">Название объекта</a>
</div>
Это позволяет системе легко идентифицировать динамические области (price, bedrooms, ссылка).Заменяет ли этот механизм необходимость внедрения микроразметки Schema.org?
Нет, не заменяет. Патент описывает, как Google пытается автоматически извлечь данные, анализируя шаблоны страниц. Это страховочный механизм. Внедрение Schema.org устраняет необходимость для Google "угадывать" структуру и типы данных, предоставляя информацию в явном виде. Для максимальной эффективности рекомендуется использовать и чистую HTML-структуру (как описано в патенте), и микроразметку Schema.org.
Как понять, успешно ли Google извлекает структурированные данные с моего сайта?
Основным индикатором являются отчеты в Google Search Console в разделе "Улучшения" (Enhancements). Если там появляются отчеты по вашим типам контента (Товары, Вакансии, Мероприятия и т.д.) и количество действительных элементов растет, значит, система успешно структурирует данные. Также косвенным признаком является появление вашего контента в обогащенных результатах (Rich Results) в выдаче.
Что такое "Динамические области" (Dynamic Regions) с точки зрения SEO?
Это те части вашего HTML-кода, которые содержат основную информацию о сущности на странице (цена, название, атрибуты, описание), в отличие от сквозных блоков (меню, сайдбар, футер). SEO-специалисту важно обеспечить, чтобы эти динамические области были четко выделены в DOM, имели консистентную структуру на всех однотипных страницах и содержали семантическую разметку.
Как A/B тестирование дизайна может повлиять на работу этого алгоритма?
Если A/B тестирование значительно изменяет структуру HTML или расположение ключевых элементов на страницах одного типа, это может нарушить консистентность шаблонов. Система может не справиться с созданием стабильного шаблона извлечения, если ей постоянно попадаются разные версии верстки. Рекомендуется проводить A/B тесты, минимально затрагивающие основную структуру DOM.
Насколько важна структура URL, упомянутая в патенте (например, city.domain.com)?
Она важна как один из первичных сигналов для идентификации типа сайта. Патент явно указывает, что географическая локализация в URL используется для определения сайтов-кандидатов. Если ваш сайт имеет региональную привязку, логичная иерархическая структура URL (с указанием города или региона) поможет системе быстрее и точнее понять организацию контента.
Что означает "повторяющийся паттерн" (repeating pattern) для страниц листинга?
Это означает, что каждый элемент в списке (товар, объявление, статья) должен быть обернут в блок HTML, который имеет ту же структуру, последовательность тегов и, желательно, те же CSS-классы, что и соседние элементы. Это позволяет системе понять, что страница является списком однородных сущностей и идентифицировать границы каждой сущности.
Может ли этот механизм извлекать данные, загружаемые через JavaScript (AJAX)?
Патент не детализирует процесс рендеринга, но фокусируется на анализе DOM. Современные поисковые системы выполняют рендеринг JavaScript. Однако, чтобы извлечение было успешным, финальный DOM после рендеринга должен быть консистентным, семантичным и соответствовать требованиям к структуре (наличие динамических областей и повторяющихся паттернов). Задержки при загрузке данных через AJAX могут негативно повлиять на процесс.
Патент упоминает использование данных о поведении пользователей (User Access Data). Как это влияет на SEO?
Это подтверждает, что Google может использовать поведенческие данные для понимания архитектуры сайта. Если пользователи легко находят путь от главной страницы к листингам и далее к детальным страницам, это сигнализирует о логичной структуре сайта. Хорошая внутренняя перелинковка и продуманный UX помогают не только пользователям, но и поисковым системам в интерпретации структуры ресурса.
Применяется ли этот патент только к классифайдам типа Craigslist?
Нет. Хотя классифайды используются как основной пример, описанная технология извлечения данных из шаблонных структур является универсальной. Она применяется к сайтам E-commerce, форумам, сайтам недвижимости, вакансий, рецептов и любым другим ресурсам, где контент организован по предсказуемому шаблону.
Что делать, если структура моего сайта сложная и не соответствует модели City -> Listing -> Detail?
Ключевым элементом патента является не конкретная иерархия, а сам принцип автоматического создания шаблонов через идентификацию Dynamic Regions и Repeating Patterns. Даже при сложной структуре необходимо обеспечить консистентность шаблонов для однотипных страниц и четкость HTML-разметки, чтобы система могла извлечь данные.

Структура сайта

Структура сайта
Индексация

Краулинг
Структура сайта

Индексация
SERP

Google Shopping
SERP
Индексация

Поведенческие сигналы
SERP

Структура сайта
Техническое SEO
Ссылки

Ссылки
Антиспам
EEAT и качество

Семантика и интент
Персонализация
SERP

Антиспам
Ссылки
Семантика и интент

Поведенческие сигналы
EEAT и качество

Техническое SEO
Ссылки

Семантика и интент
Мультимедиа
Персонализация

Персонализация
Поведенческие сигналы
SERP

Поведенческие сигналы
