Как Google автоматически обновляет свои таксономии и обучает классификаторы, извлекая данные из структуры авторитетных сайтов

Google использует автоматизированную систему для обновления своих внутренних таксономий (иерархий категорий). Система сканирует заранее определенные авторитетные веб-сайты и извлекает категории из их структурированного контента (меню, списки, таблицы). При обнаружении новых категорий (например, новых моделей продуктов) система обновляет таксономию и автоматически использует связанный контент для обучения моделей классификации контента.

Описание

Какую задачу решает

Патент решает проблему медленного, дорогостоящего и трудоемкого процесса обновления таксономических классификаторов. Традиционный подход требует ручной разметки большого набора документов (training set или golden set) людьми для обучения модели классификации. Этот процесс создает «узкое место» и не позволяет системе быстро адаптироваться к появлению новых сущностей или категорий (например, новых продуктов или концепций).

Что запатентовано

Запатентована система автоматического обновления хранимой таксономии (stored taxonomy) путем анализа структурированного контента (structured content) на веб-сайтах. Система использует специализированные правила извлечения (category rules), адаптированные под известную структуру (known structure) конкретных авторитетных сайтов, для выявления новых категорий. При обнаружении новой категории система обновляет таксономию и может автоматически использовать связанный контент для обновления модели классификатора (classifier model).

Как это работает

Система работает следующим образом:

Сканирование: Краулер (Crawler) посещает заранее определенные авторитетные сайты (включая trusted websites), связанные с конкретной таксономией.
Извлечение контента: Специализированный извлекатель (Taxonomy Extractor), настроенный на known structure конкретного сайта, извлекает структурированные данные (например, из меню, списков, таблиц, div элементов).
Применение правил: Category rules применяются для интерпретации иерархии извлеченных данных и формирования «свежей таксономии» (recent taxonomy).
Сравнение: Компаратор (Comparator) сравнивает свежую таксономию с хранимой.
Обновление: Если обнаружена новая категория (New Category) на основе нового элемента (new item/object/option) в известной структуре, хранимая таксономия обновляется (автоматически или после одобрения администратором).
Обучение классификатора: Контент, связанный с новой категорией, может быть автоматически добавлен в classifier model как обучающий пример.

Актуальность для SEO

Высокая. Автоматизация процессов извлечения знаний, построения графов сущностей (Knowledge Graph) и машинного обучения является ключевым направлением развития поиска. Способность автоматически распознавать новые сущности и классифицировать контент без ручного труда критически важна для масштабирования и поддержания актуальности индекса в 2025 году.

Важность для SEO

Патент имеет высокое значение для SEO, особенно для E-commerce и структурированных каталогов. Он раскрывает механизмы, с помощью которых Google использует структуру и контент авторитетных сайтов для построения своего понимания мира (таксономий) и обучения классификаторов. Это подчеркивает критическую важность четкой информационной архитектуры, логичной иерархии контента и использования структурированных элементов HTML для эффективной передачи информации поисковой системе.

Детальный разбор

Термины и определения

Category Rules (Правила категорий): Логика, используемая Taxonomy Extractor для определения таксономии на основе структурированного контента. Правила кастомизируются под конкретный сайт (его known structure) и таксономию. Они могут диктовать, что элементы в определенном меню, div или таблице являются подкатегориями.
Classifier Model (Модель классификатора): Набор данных, используемый для обучения классификатора. Включает примеры контента (веб-страницы, файлы, изображения), которые соответствуют категориям таксономии. Может генерироваться вручную (training set/golden set) или автоматически обновляться системой.
Comparator (Компаратор): Компонент, который сравнивает Stored Taxonomy и Recent Taxonomy для выявления новых или устаревших категорий.
Known Structure (Известная структура): Ожидаемый формат или макет веб-страницы (например, расположение меню, таблиц, div), для которого настроены Category Rules.
Recent Taxonomy (Свежая/Актуальная таксономия): Таксономия, сгенерированная Taxonomy Extractor на основе текущего состояния сканируемого веб-сайта.
Stored Taxonomy (Хранимая таксономия): Существующая версия таксономии, хранящаяся в базе данных до процесса обновления.
Structured Content (Структурированный контент): Данные на веб-странице, организованные таким образом, что их структура может быть интерпретирована машиной. Примеры: HTML (теги, divs, таблицы, списки, меню), XML, XHTML.
Taxonomy Extractor (Извлекатель таксономии): Основной компонент системы, который анализирует сканированный контент и применяет Category Rules для вывода категорий и их иерархии. Включает Content Extractor и Rules.
Trusted Websites (Доверенные веб-сайты): Веб-сайты, классифицированные системой как надежные источники. Обновление таксономии может произойти на основе данных только с одного доверенного сайта, тогда как для недоверенных (non-trusted) может потребоваться подтверждение из нескольких источников.

Ключевые утверждения (Анализ Claims)

Патент US9135361B1 является продолжением (Continuation) более ранней заявки (Ser. No. 12/774,448).

Claim 1 (Независимый пункт): Описывает основной метод обновления таксономии.

Система извлекает структурированный контент (structured content) с веб-страницы.
Система определяет множество подкатегорий известной категории путем применения правил категорий (category rules) к структурированному контенту.
Ключевое условие: category rules кастомизированы для известной структуры (known structure) этой веб-страницы.
Определенное множество подкатегорий включает как известные подкатегории, так и новую подкатегорию (new subcategory).
Новая подкатегория определяется на основе нового элемента (new item) в пределах этой известной структуры веб-страницы.
Система обновляет хранимую таксономию (stored taxonomy), добавляя в нее новую подкатегорию.

Ядро изобретения заключается в использовании известной структуры конкретной веб-страницы и кастомизированных правил для автоматического обнаружения новых элементов в этой структуре и интерпретации их как новых подкатегорий.

Claim 7 (Зависимый): Уточняет, как настраиваются правила.

Category rules кастомизируются на основе хранимой таксономии и хранимой версии веб-страницы. Это подтверждает, что система полагается на предварительное знание о том, как сайт структурирует свою информацию и отслеживает изменения этой структуры.

Claim 11 и 12 (Зависимые): Описывают процесс валидации и автоматизации.

Система может представлять новую подкатегорию администратору для одобрения (Claim 11), однако процессы извлечения, определения и представления выполняются автоматически без вмешательства человека (Claim 12). Это указывает на возможность как полностью автоматического, так и полуавтоматического режима.

Claim 13 (Зависимый): Уточняет тип контента.

Определение подкатегорий происходит путем применения правил к структурированному контенту, включающему HTML теги на веб-странице, причем правила кастомизированы для этих HTML тегов.

Claim 16, 18, 19 (Независимые пункты): Повторяют логику Claim 1, уточняя, что новый элемент, запускающий обновление, может быть новым элементом (new item), новым объектом (new object) или новой опцией (new option) в известной структуре страницы.

Где и как применяется

Изобретение применяется на этапах сбора данных и индексирования для автоматического построения знаний и обучения моделей классификации.

CRAWLING – Сканирование и Сбор данных
Система использует краулер для целенаправленного посещения заранее определенных авторитетных сайтов (Pages 108), которые содержат надежную таксономическую информацию (например, сайты производителей, крупные каталоги). Система собирает Crawled Content.

INDEXING – Индексирование и извлечение признаков
Основное применение патента. На этом этапе происходит обработка сырого контента для построения таксономий и обучения классификаторов.

Извлечение таксономии (Taxonomy Extraction): Taxonomy Extractor анализирует Structured Content с использованием кастомизированных Category Rules для генерации Recent Taxonomy.
Обновление базы знаний: Comparator выявляет New Categories, которые используются для обновления Stored Taxonomies. Это напрямую связано с процессом пополнения баз знаний (например, Knowledge Graph) новыми сущностями и связями.
Обучение моделей (Classifier Training): Система автоматически обновляет Classifier Models (тренировочные наборы), добавляя контент, связанный с новыми категориями. Это позволяет классификаторам (Classifier 110) распознавать и категоризировать другие страницы в интернете.

Входные данные:

Список целевых URL/сайтов (Pages 108).
Сканированный контент (Crawled Content) с этих сайтов.
Хранимые таксономии (Stored Taxonomies 104).
Кастомизированные правила извлечения (Category Rules 122).

Выходные данные:

Обновленные таксономии (Updated Stored Taxonomies).
Новые категории (New Category 128).
Обновленные модели классификаторов (Updated Classifier Models 106).

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние на контент, организованный в четкие иерархии, особенно в E-commerce (категории товаров, бренды, модели), каталоги, автомобильную промышленность, медиа. Патент приводит примеры электроники (iPod/Apple) и автомобилей (Ford/Edmunds).
Авторитетные источники: Влияет на то, как Google использует структуру авторитетных сайтов (trusted websites) как эталон для классификации в нише.

Когда применяется

Условия применения: Применяется к веб-сайтам, для которых у системы есть предварительно настроенные Category Rules, соответствующие known structure целевой веб-страницы.
Триггеры активации: Периодическое сканирование целевых сайтов (ежедневно, еженедельно и т.д.) или сканирование по требованию. Частота может адаптироваться к частоте изменения контента на сайте.
Исключения и ограничения: Если формат веб-страницы значительно изменился, система может не справиться с извлечением и может уведомить администратора о необходимости обновления Category Rules.

Пошаговый алгоритм

Процесс А: Обновление таксономии

Инициализация: Система выбирает таксономию для обновления и связанный с ней список авторитетных сайтов.
Сканирование: Краулер получает контент с целевого сайта (Crawled Content).
Извлечение структурированного контента: Taxonomy Extractor (используя Content Extractor), кастомизированный под данный сайт, извлекает релевантный структурированный контент (например, содержимое конкретного меню или таблицы).
Определение свежей таксономии: Taxonomy Extractor применяет Category Rules к извлеченному контенту. Правила интерпретируют иерархию (например, вложенность меню, зависимые выпадающие списки). Формируется Recent Taxonomy.
Сравнение таксономий: Comparator сравнивает Recent Taxonomy и Stored Taxonomy.
Идентификация новых категорий: Определяются категории, присутствующие в Recent Taxonomy, но отсутствующие в Stored Taxonomy (New Category).
Валидация (Опционально): Система может потребовать подтверждения администратором или использовать пороги уверенности (например, обновление на основе одного trusted website или нескольких non-trusted сайтов).
Обновление хранимой таксономии: Stored Taxonomy обновляется путем добавления New Category. Устаревшие категории (obsolete categories) могут быть удалены, если они больше не появляются на авторитетных сайтах.

Процесс Б: Обновление модели классификатора (Опционально)

Выбор обучающего примера: Система выбирает файл или веб-страницу, связанную с New Category (например, страницу по ссылке из меню или графический объект).
Добавление в модель: Выбранный пример добавляется в Classifier Model (тренировочный набор) для этой новой категории.
Переобучение и индексация: Classifier использует обновленную модель для классификации других файлов в интернете, относящихся к этой новой категории.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании структуры сайта для вывода таксономии.

Структурные факторы (Ключевые):
- HTML/XML структура: Теги, divs, объекты на странице.
- Навигационные элементы: Меню (Menus), выпадающие списки (drop-down menus).
- Таблицы и списки: Элементы таблиц (table entries), списки (lists), структура отступов (indentations).
- Гиперссылки: Связи между страницами, указывающие на иерархию.
Контентные факторы:
- Текст: Текст, связанный со структурными элементами (например, названия пунктов меню, текст всплывающих подсказок (tooltips)).
- Значимые ключевые слова: Система может использовать методы (например, inverse document frequency) для извлечения значимых ключевых слов.
Мультимедиа факторы:
- Графические объекты: Изображения, которые могут представлять категорию и использоваться как примеры в Classifier Model.

Какие метрики используются и как они считаются

Патент не детализирует конкретные метрики или формулы, но описывает следующие механизмы:

Кастомизированные правила (Customized Rules): Основной механизм. Правила настраиваются для интерпретации known structure конкретного сайта. Например, правило может гласить: «Все элементы в div с id=’product-categories’ являются подкатегориями ‘Products'».
Сравнение таксономий (Taxonomy Comparison): Процесс сравнения двух иерархических структур (Stored vs Recent) для выявления расхождений.
Пороги доверия (Trust Thresholds): Система может использовать классификацию сайтов (trusted vs non-trusted) для определения того, следует ли автоматически принимать обновление или требуется ручная валидация.
Анализ структуры (Structure Analysis): Методы определения иерархии на основе вложенности элементов (например, вложенные меню, зависимые выпадающие списки, где выбор в первом меню определяет содержимое второго).

Выводы

Автоматизация построения знаний и обучения: Основная цель патента — устранить необходимость ручной разметки данных для обновления таксономий и обучения классификаторов. Google стремится автоматизировать понимание новых сущностей и категорий.
Зависимость от авторитетных источников: Система полагается на целенаправленное сканирование заранее определенных авторитетных сайтов (trusted websites). Качество и структура этих сайтов напрямую влияют на качество таксономий Google.
Критичность структурированного контента: Патент явно указывает на использование Structured Content (HTML-теги, меню, списки, таблицы) для извлечения таксономической информации. Четкая и логичная структура сайта облегчает этот процесс.
Кастомизированный подход к извлечению: Google не использует универсальный парсер для всех сайтов. Category Rules настраиваются индивидуально для каждого целевого сайта, основываясь на его known structure.
Связь между таксономией и классификацией: Обновление таксономии может автоматически запускать обновление Classifier Model. Это позволяет системе не только узнать о существовании новой категории, но и научиться распознавать ее в других документах интернета.
Обработка изменений структуры сайта: Поскольку система зависит от known structure, значительные изменения в дизайне авторитетного сайта могут нарушить процесс извлечения, требуя перенастройки правил. Патент предусматривает уведомление администратора в таких случаях.

Практика

Best practices (это мы делаем)

Создание четкой и логичной информационной архитектуры (IA): Разрабатывайте иерархию сайта так, чтобы она точно отражала таксономию вашей ниши или каталога продуктов. Последовательная иерархия помогает системам типа описанной в патенте корректно извлекать категории и связи.
Использование семантической и структурированной HTML-разметки: Применяйте семантические HTML-элементы и структурированные форматы (списки ul/ol для меню, таблицы table) для представления иерархической информации. Это тот самый Structured Content, который анализирует система.
Обеспечение консистентности навигации: Убедитесь, что основные навигационные элементы (меню, выпадающие списки, хлебные крошки) точно соответствуют структуре URL и иерархии контента. Логика вложенности меню напрямую используется для вывода подкатегорий.
Стратегия запуска новых продуктов/категорий: При добавлении новых категорий или продуктов немедленно отражайте их в основной навигации и структуре сайта, следуя существующим шаблонам (known structure). Это ускорит их обнаружение и включение в таксономию Google.
Развитие авторитетности сайта (Site Authority): Стремитесь к тому, чтобы ваш сайт рассматривался Google как trusted website в вашей нише. Патент указывает, что именно такие сайты используются как эталон для обновления таксономий.

Worst practices (это делать не надо)

Сложная или нелогичная навигация на JavaScript: Использование нестандартных JS-решений для построения меню или фильтров, которые скрывают структуру от краулера или затрудняют интерпретацию иерархии, будет препятствовать извлечению таксономии.
Игнорирование иерархии контента: Создание «плоской» структуры сайта, где все страницы находятся на одном уровне, не позволяет передать таксономические связи.
Неконсистентное именование категорий: Использование разных названий для одной и той же категории в меню, URL и заголовках затрудняет распознавание и может привести к ошибкам классификации.
Частые радикальные редизайны структуры HTML: Изменение базовой HTML-структуры навигации может сломать существующие Category Rules, которые Google мог настроить для вашего сайта (основываясь на known structure), временно ухудшив понимание вашего контента.

Стратегическое значение

Этот патент подтверждает стратегическую важность информационной архитектуры и структурирования данных на сайте. Он показывает, что Google не просто анализирует текст и ссылки, но и активно использует структуру авторитетных сайтов как источник знаний о мире. Для SEO-специалистов это означает, что работа над IA и технической реализацией навигации — это не просто улучшение UX, а фундаментальный способ коммуникации с поисковой системой о том, как организован ваш контент и ваша ниша.

Практические примеры

Сценарий: Обновление таксономии автомобилей на основе обзорного сайта (пример из патента)

Источник: Авторитетный обзорный сайт (например, Edmunds.com), для которого у Google настроены Category Rules для анализа выпадающих меню (known structure).
Процесс: Краулер заходит на сайт и анализирует меню выбора автомобиля. Система симулирует выбор: Год=»2010″, Производитель=»Ford».
Извлечение: Taxonomy Extractor анализирует содержимое следующего выпадающего меню «Модель». Category Rules гласят: «Элементы в этом меню являются подкатегориями Ford».
Обнаружение: В меню присутствуют известные модели (Mustang, Explorer) и новая модель «Transit Connect».
Сравнение: Comparator определяет, что «Transit Connect» отсутствует в текущей Stored Taxonomy Google для Ford.
Обновление: Google автоматически (или после валидации) добавляет «Transit Connect» как новую подкатегорию. Страница обзора «Transit Connect» может быть добавлена в Classifier Model как обучающий пример.
Результат: Классификаторы Google теперь могут распознавать и категоризировать другие страницы в интернете (новости, видео), посвященные этой новой модели.

Вопросы и ответы

Как Google определяет, какие сайты использовать для обновления таксономий?

Патент указывает, что используется список заранее определенных страниц (Pages 108), связанных с конкретной таксономией. В тексте упоминается, что программист может ассоциировать авторитетные сайты (например, сайты Apple, Sony для электроники) с таксономией. Также используется концепция trusted websites (доверенных сайтов), что на практике означает выбор наиболее авторитетных и хорошо структурированных ресурсов в нише.

Насколько важна структура моего сайта согласно этому патенту?

Структура сайта критически важна. Патент основан на извлечении информации из Structured Content (меню, списки, таблицы) и интерпретации иерархии на основе вложенности элементов (known structure). Четкая, логичная и семантически размеченная информационная архитектура напрямую помогает Google понять таксономию вашего контента и вашей ниши.

Что произойдет, если я сделаю редизайн сайта и изменю структуру навигации?

Поскольку Category Rules кастомизируются под known structure веб-страницы, значительное изменение структуры может нарушить процесс автоматического извлечения таксономии. В патенте упоминается, что если система обнаруживает изменение формата, она может уведомить администратора о необходимости обновления правил. Это подчеркивает важность сохранения консистентности структуры.

Как этот патент связан с Knowledge Graph?

Этот патент описывает механизм автоматизированного сбора знаний. Таксономии (иерархии категорий и сущностей) являются фундаментальной частью Knowledge Graph. Описанная система позволяет автоматически пополнять Knowledge Graph новыми сущностями (например, новыми моделями продуктов) и устанавливать связи между ними (например, «является подкатегорией») на основе данных из авторитетных сайтов.

Что такое «Структурированный контент» в контексте этого патента?

Structured Content здесь относится не только к микроразметке Schema.org, но в первую очередь к базовой структуре HTML/XML документа. Патент явно упоминает HTML-теги, меню, выпадающие списки, таблицы, списки, div элементы и даже структуру отступов. Это данные, организованные таким образом, что машина может интерпретировать их иерархию и связи.

Что важнее для этой системы: текст на странице или ее структура?

Для извлечения таксономии критически важна структура. Система анализирует, как элементы расположены и связаны друг с другом (например, вложенность меню), чтобы определить иерархию. Текст (например, названия пунктов меню) используется для именования категорий, но сама логика извлечения основана на анализе Structured Content и known structure.

Может ли система удалять устаревшие категории?

Да. Патент упоминает возможность удаления устаревших категорий (obsolete categories). Если категория больше не появляется в таксономиях, извлеченных с веб-страниц (например, модель снята с производства и удалена из каталогов), система может удалить ее из Stored Taxonomy в соответствии с Category Rules.

Как система определяет иерархию (родитель-потомок)?

Иерархия определяется на основе Category Rules, интерпретирующих структуру сайта. Примеры включают анализ вложенности элементов, а также последовательность выбора: например, если для выбора Модели сначала нужно выбрать Производителя в зависимых выпадающих меню, система определит Модель как подкатегорию Производителя.

Как этот патент связан с обучением классификаторов Google?

Это ключевой аспект. Когда система обнаруживает новую категорию, она может автоматически взять связанный контент (например, изображение продукта или целевую страницу) и добавить его в Classifier Model как обучающий пример. Это позволяет Google быстро научиться распознавать эту новую категорию на других сайтах в интернете.

Может ли система работать полностью автоматически?

Да, патент описывает возможность полностью автоматического обновления таксономии. Однако он также предусматривает (Claim 11) полуавтоматический режим, при котором новые категории представляются администратору для одобрения перед финальным обновлением хранимой таксономии. Выбор режима может зависеть от уровня доверия к источнику данных (trusted website).