Как Google классифицирует веб-страницы по типам (коммерческие vs информационные) для фильтрации результатов поиска

Патент описывает метод автоматической классификации веб-страниц по заранее определенным категориям (например, «Покупки» или «Информация»). Эта классификация сохраняется в отдельном Индексе Категорий и используется для фильтрации, сортировки или маркировки результатов поиска, позволяя пользователям, ищущим товары, видеть только коммерческие предложения, исключая обзоры или статьи.

Описание

Какую задачу решает

Патент решает проблему смешивания разнородного контента в поисковой выдаче. Стандартные поисковые системы часто возвращают смесь коммерческих предложений, обзоров, обсуждений и статей в ответ на один и тот же запрос. Это затрудняет поиск для пользователей с конкретным намерением (например, покупка товара), снижая точность (precision) выдачи. Изобретение направлено на улучшение пользовательского опыта путем предоставления возможности фильтровать результаты по типу контента.

Что запатентовано

Запатентована система автоматической классификации документов (веб-страниц) по заранее определенным категориям, таким как «Shopping» (Покупки) и «Non-shopping» (Некоммерческие). Система создает и поддерживает Category Index (Индекс Категорий), который хранит информацию о типе документа. Эта информация используется для манипулирования результатами поиска (фильтрации, сортировки, маркировки), сгенерированными поисковой системой.

Как это работает

Система работает в двух режимах:

Офлайн (Индексирование): Краулер (bot) обходит веб-страницы. Программа категоризации (Categorization Program) анализирует их с помощью алгоритмов машинного обучения (часто с ручной доработкой признаков) и определяет их тип. Результаты сохраняются в Category Index.
Онлайн (Обработка запроса): Пользователь вводит запрос и, возможно, выбирает фильтр категории. Поисковая система возвращает стандартный список результатов. Система сверяет эти результаты с Category Index и манипулирует списком (например, удаляет все «Non-shopping» результаты, если пользователь ищет товар) перед показом пользователю.

Актуальность для SEO

Высокая. Хотя конкретные алгоритмы машинного обучения, упомянутые в патенте (например, SVM, kNN), уступили место более современным нейросетевым архитектурам, сама концепция автоматической классификации типов страниц и интентов (коммерческий vs информационный) является фундаментальной для современного поиска. Этот патент описывает базовую механику, лежащую в основе специализированных вертикалей (например, Google Shopping) и фильтрации результатов по интенту.

Важность для SEO

Патент имеет высокое значение для SEO (8/10). Он напрямую касается того, как поисковые системы различают коммерческий и информационный контент. Понимание сигналов, используемых для этой классификации (например, специфические HTML-строки и структура), критически важно для обеспечения того, чтобы страницы ранжировались по правильному интенту и отображались в соответствующих поисковых вертикалях или отфильтрованных представлениях SERP.

Детальный разбор

Термины и определения

Automatic Categorization Algorithm (Алгоритм автоматической категоризации): Алгоритм машинного обучения (например, SVM, kNN, Neural Networks), используемый для классификации документов по заранее определенным категориям на основе их содержания.
Category Index (Индекс Категорий): База данных, в которой хранятся URL-адреса документов и соответствующие им данные категоризации.
Categorization Program (Программа Категоризации): Программное обеспечение, реализующее алгоритм автоматической категоризации для анализа документов.
Non-shopping Category (Некоммерческая категория): Категория для страниц, которые связаны с продуктами или услугами, но не предлагают их напрямую (например, обзоры, статьи, обсуждения, личные страницы).
Shopping Category (Категория Покупок): Категория, ограниченная веб-страницами и сайтами, предлагающими продукты и/или услуги.
Test Corpus (Тестовый корпус): Набор вручную классифицированных документов, используемый для оценки точности и частоты ошибок обученного алгоритма.
Training Corpus (Обучающий корпус): Набор документов, вручную классифицированных людьми, который используется для обучения алгоритма машинного обучения.
Variables (Переменные / Признаки): Слова, символы, HTML-теги и их комбинации, которые алгоритм использует в качестве признаков (features) для принятия решения о категоризации документа.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод поиска с использованием автоматической категоризации.

Применение алгоритма автоматической категоризации к документам.
Сохранение информации о категоризации в Category Index.
Получение запроса пользователя.
Выполнение поиска по источнику данных и получение списка результатов.
Проверка полученного списка результатов по Category Index.
Манипулирование списком результатов на основе информации о категоризации.
Возврат пользователю измененного списка документов.

Это определяет процесс пост-обработки (или интегрированной обработки) результатов поиска для их уточнения на основе классификации типа документа.

Claims 2, 3, 4 (Зависимые): Детализируют типы манипуляций (шаг 6 из Claim 1).

Claim 2: Ограничение списка (фильтрация) путем исключения документов, не попадающих в выбранные категории.
Claim 3: Упорядочивание списка (сортировка) по категориям.
Claim 4: Разметка записей (маркировка) в списке в соответствии с их категориями.

Это позволяет создавать кастомизированные SERP на основе интента пользователя или его выбора фильтров.

Claims 6, 7 (Зависимые): Описывают варианты реализации системы относительно основного поискового движка.

Claim 6: Система категоризации может работать на отдельных вычислительных средствах, удаленных от основного поискового движка (метапоиск).
Claim 7: Система категоризации может быть интегрирована в основной поисковый движок, а Category Index интегрирован в глобальный индекс поисковой системы.

Claim 8 (Зависимый): Указывает на конкретное применение метода для категоризации документов по признаку принадлежности к предопределенной категории «Shopping».

Claim 12 (Зависимый): Описывает механизм обновления индекса в реальном времени. Если документ, возвращенный в результатах поиска (шаг 4), отсутствует в Category Index, система выполняет его категоризацию (шаги 1 и 2) для этого документа.

Где и как применяется

Изобретение затрагивает несколько ключевых этапов поисковой архитектуры.

CRAWLING – Сканирование и Сбор данных
На этом этапе bot собирает данные. Патент подчеркивает, что предпочтительно собирать весь HTML-документ, включая исходный код и разметку, для последующего анализа.

INDEXING – Индексирование и извлечение признаков
Основная работа по классификации происходит здесь. Categorization Program анализирует собранный контент. Используя обученные модели машинного обучения, она определяет категорию страницы и сохраняет эту метку в Category Index. Если система интегрирована (Claim 7), эта метка становится частью глобального индекса.

RANKING / METASEARCH / RERANKING – Ранжирование, Метапоиск, Переранжирование
Применение классификации происходит после генерации начального набора результатов, но перед показом пользователю.

Если система работает как отдельный слой (Claim 6), это этап METASEARCH или RERANKING. Система получает результаты от основного движка, сверяет их с Category Index и выполняет манипуляции (фильтрация, сортировка).
Если система интегрирована (Claim 7), фильтрация по категориям может происходить уже на этапе RANKING (L1 Retrieval), ограничивая набор кандидатов только документами с нужной меткой категории.

Входные данные:

Необработанные документы (предпочтительно полный HTML).
Запрос пользователя (и опциональные фильтры категорий).
Начальный список результатов поиска от поискового движка.
Training Corpus и Test Corpus (для обучения и валидации моделей).

Выходные данные:

Category Index (URL + метка категории).
Манипулированный список результатов поиска (отфильтрованный, отсортированный или маркированный).

На что влияет

Специфические запросы и типы контента: Наибольшее влияние оказывается на разграничение коммерческих/транзакционных запросов от информационных. Система позволяет четко отделить страницы товаров и услуг от статей, обзоров и форумов.
Конкретные ниши: Критически важно для E-commerce, сферы услуг, и любых тематик, где предложение товара отличается от информации о нем.

Когда применяется

Условия работы: Алгоритм категоризации применяется к каждой странице при ее добавлении в индекс или обновлении.
Триггеры активации: Манипуляция результатами активируется либо явно (пользователь выбрал фильтр категории, например, «Товары»), либо неявно (если система определяет, что интент пользователя соответствует определенной категории и решает отфильтровать или пересортировать выдачу).

Пошаговый алгоритм

Процесс А: Обучение модели (Офлайн)

Подготовка данных: Ручной отбор и классификация тысяч веб-страниц для создания Training Corpus и Test Corpus.
Обучение алгоритмов: Обучение нескольких алгоритмов ML (SVM, kNN и т.д.) на Training Corpus.
Автоматический выбор признаков: Алгоритмы определяют наиболее значимые Variables (слова, фразы, теги).
Ручная модификация признаков (Ключевой этап): Люди-редакторы просматривают списки Variables, удаляют нерелевантные (например, «Designed by XYZ») и добавляют пропущенные алгоритмом, но важные признаки (например, длинные фразы типа «Add to your shopping cart»).
Тестирование и выбор: Применение модифицированных алгоритмов к Test Corpus и выбор модели с наименьшей частотой ошибок.

Процесс Б: Индексирование и Категоризация (Офлайн/Периодически)

Сканирование: Bot загружает веб-страницы (полный HTML).
Категоризация: Categorization Program применяет выбранную модель ML для классификации страницы.
Сохранение: URL и его категория сохраняются в Category Index.

Процесс В: Обработка запроса (Онлайн)

Получение запроса: Пользователь вводит запрос.
Выполнение поиска: Получение начального списка результатов от поисковой системы.
Проверка категорий: Сверка URL результатов с Category Index.
Категоризация в реальном времени (Опционально): Если URL не найден в индексе, система может загрузить и классифицировать его на лету (Claim 12).
Манипуляция результатами: Фильтрация, сортировка или маркировка результатов на основе их категорий и предпочтений пользователя.
Отображение: Показ измененного SERP пользователю.

Какие данные и как использует

Данные на входе

Патент делает сильный акцент на типе входных данных для классификатора:

Контентные, Технические и Структурные факторы (Комплексно): В отличие от стандартных подходов, которые удаляют HTML-теги и скрипты, оставляя только текст, этот патент предлагает использовать весь HTML-документ, включая исходный код, метатеги и символы разметки, в качестве входных данных для алгоритма категоризации.
Пример значимости структуры: Патент утверждает, что строка <b>Price <font size=+2> $99.00 </font> </b> может быть более информативной для классификатора, чем просто текст «Price $99.00».

Какие метрики используются и как они считаются

Алгоритмы машинного обучения: Патент перечисляет стандартные для своего времени алгоритмы классификации: Support Vector Machines (SVM), k-th Nearest Neighbor (kNN), Rocchio, Regression Trees, Neural Networks, Naive Bayesian classifiers.
Методология обучения: Используется контролируемое обучение (Supervised Learning) на основе Training Corpus, подготовленного вручную.
Инжиниринг признаков (Feature Engineering): Ключевая особенность патента — гибридный подход к выбору признаков (Variables). Он сочетает автоматический выбор признаков алгоритмом и последующую ручную редактуру этого списка людьми. Это позволяет учитывать более сложную логику и контекст, чем может уловить алгоритм.
Конкретные признаки (Variables) для категории «Shopping»: Патент приводит примеры строк, которые вручную добавляются в список признаков:
- «my cart», «add to cart», «shopping cart»
- «view cart», «items in cart»
- «buy now», «buy it now», «order now»
- «secure online order», «order tracking», «how to order»
- «contact a salesperson»

Выводы

Классификация типа страницы и интента фундаментальна: Поисковые системы активно работают над разделением контента по типам (коммерческий, информационный и т.д.). Это не побочный эффект ранжирования, а отдельный процесс классификации.
Анализ полного HTML-кода: Классификация опирается не только на видимый контент, но и на техническую реализацию — HTML-теги, структуру кода, скрипты и специфические текстовые строки в коде. Техническое SEO влияет на классификацию интента.
Важность индикативных строк и структур: Специфические фразы (CTAs, элементы интерфейса интернет-магазина) и структуры (например, разметка цены) являются сильными сигналами для определения типа страницы. Патент явно перечисляет примеры таких строк для коммерческих страниц.
Гибридный подход к машинному обучению: Патент подчеркивает ценность сочетания автоматического машинного обучения с ручным инжинирингом признаков (человеческий надзор и корректировка) для достижения максимальной точности классификации.
Гибкость реализации: Механизм категоризации может быть реализован как интегрированная часть индекса (влияя на первичное ранжирование) или как отдельный слой пост-обработки (влияя на переранжирование и фильтрацию).

Практика

Best practices (это мы делаем)

Четкое сигнализирование о назначении страницы: Убедитесь, что страницы ясно демонстрируют свою цель. Коммерческие страницы (карточки товаров, услуги) должны использовать стандартную терминологию E-commerce («Купить», «Добавить в корзину», «Цена», «Оформить заказ») и соответствующую структуру.
Использование стандартных E-commerce паттернов: Внедряйте функционал, который ожидается от интернет-магазина (корзина, отслеживание заказа, информация о доставке). Согласно патенту, наличие текстовых строк, связанных с этим функционалом, является признаком (Variable) для классификации «Shopping».
Внимание к технической реализации и разметке: Поскольку анализируется полный HTML, важна корректная структура кода. Используйте семантическую верстку и микроразметку (хотя она прямо не упомянута в патенте, она соответствует цели структурного сигнализирования), чтобы усилить тип страницы. Патент предполагает, что даже HTML-теги вокруг цены имеют значение.
Разделение типов контента: Поддерживайте четкое разделение между коммерческими разделами (каталог) и информационными (блог, обзоры, новости). Это поможет классификатору точнее определить назначение каждой страницы.

Worst practices (это делать не надо)

Смешивание интентов и сигналов: Размещение сильных коммерческих сигналов (кнопки «Купить», цены, элементы корзины) на информационных страницах (например, в статьях блога) может привести к неправильной классификации страницы как «Shopping». И наоборот, отсутствие четких коммерческих сигналов на карточке товара может привести к ее классификации как «Non-shopping».
Маскировка коммерческих элементов: Попытки скрыть функционал интернет-магазина с помощью скриптов или CSS могут быть неэффективны, так как система предпочитает анализировать полный исходный HTML-код страницы.
Игнорирование стандартных формулировок CTA: Использование нестандартных или завуалированных призывов к действию вместо общепринятых («Buy Now», «Order Now») может ослабить коммерческие сигналы страницы.

Стратегическое значение

Патент подтверждает необходимость разработки SEO-стратегий, адаптированных под конкретные поисковые интенты и вертикали. Если сайт хочет ранжироваться в результатах, ориентированных на покупки (например, Google Shopping или отфильтрованная коммерческая выдача), он должен быть однозначно классифицирован системой как «Shopping». Этот механизм лежит в основе существования специализированных поисковых вертикалей и демонстрирует, что релевантность запросу недостаточна — необходимо также соответствие типу контента.

Практические примеры

Сценарий: Оптимизация карточки товара для классификации «Shopping»

Анализ текущей страницы: Карточка товара ранжируется низко по транзакционным запросам и часто попадает в информационную выдачу. На странице есть цена и описание, но нет явных CTA.
Действия на основе патента: Необходимо усилить коммерческие признаки (Variables). Добавить стандартные элементы: кнопку «Добавить в корзину» (с текстом «Add to Cart» или аналогом), блок «Информация о заказе» («Ordering Info»), ссылку на отслеживание заказа («Order Tracking») в футере или хедере. Убедиться, что цена имеет четкую HTML-разметку.
Ожидаемый результат: Categorization Program с большей вероятностью классифицирует страницу как «Shopping». Это сделает ее доступной для пользователей, применяющих коммерческие фильтры, и улучшит ее позиции в соответствующих поисковых вертикалях.

Вопросы и ответы

Какова основная цель этого патента?

Основная цель — повысить точность поиска для пользователей с конкретными намерениями, например, желающих купить товар. Система автоматически классифицирует веб-страницы (например, на «Shopping» и «Non-shopping») и позволяет фильтровать или сортировать результаты поиска по этим категориям, убирая из выдачи нерелевантный тип контента (например, обзоры при поиске товара).

Анализирует ли система только видимый текст страницы?

Нет, и это ключевой момент патента. Для повышения точности классификации система предпочитает анализировать весь HTML-документ, включая исходный код, метатеги, скрипты и разметку. Структура HTML и наличие специфических тегов также используются как признаки (Variables) для определения типа страницы.

Какие примеры сигналов указывают на то, что страница относится к категории «Shopping»?

Патент приводит конкретные примеры текстовых строк, которые используются как признаки: «add to cart» (добавить в корзину), «buy now» (купить сейчас), «order tracking» (отслеживание заказа), «shopping basket» (корзина покупок), «how to order» (как заказать). Также упоминается важность разметки цены, например, использование тегов форматирования вокруг стоимости.

Как этот патент связан с современными поисковыми вертикалями, такими как Google Shopping?

Этот патент описывает фундаментальный механизм, необходимый для работы таких вертикалей. Чтобы создать отдельную выдачу «Shopping», поисковая система должна сначала классифицировать миллионы страниц как коммерческие. Описанный Category Index и процесс автоматической классификации обеспечивают эту возможность.

Происходит ли классификация страниц в реальном времени?

В основном классификация происходит заранее, на этапе индексирования, и результаты хранятся в Category Index. Однако патент также описывает возможность (Claim 12) классификации в реальном времени, если поисковая система находит новый документ, которого еще нет в индексе категорий.

Какой тип машинного обучения используется в этой системе?

Используется контролируемое машинное обучение (Supervised Learning). Система обучается на Training Corpus — наборе веб-страниц, которые были вручную классифицированы людьми. Упоминаются алгоритмы SVM, kNN, Neural Networks, Naive Bayesian classifiers и другие.

Какова роль людей-редакторов в этой автоматической системе?

Роль редакторов критически важна в двух аспектах. Во-первых, они создают Training Corpus для обучения модели. Во-вторых, патент предлагает уникальный шаг: редакторы вручную корректируют список признаков (Variables), автоматически выбранных алгоритмом, добавляя важные признаки, пропущенные машиной, и удаляя нерелевантные.

Как мне следует структурировать свой сайт, исходя из этого патента?

Необходимо поддерживать четкое разделение между типами контента. Коммерческие страницы должны содержать явные коммерческие сигналы (CTA, цены, функционал корзины), а информационные страницы должны их избегать. Это поможет системе правильно классифицировать каждую страницу и показывать ее для соответствующего интента.

Означает ли этот патент, что оптимизация под ключевые слова менее важна?

Она остается важной для определения тематической релевантности, но патент показывает, что соответствие типу контента (категории) также критично. Если страница оптимизирована под запрос, но классифицирована как неверный тип (например, информационная страница по коммерческому запросу), она может быть отфильтрована из выдачи.

Насколько актуальны описанные методы в 2025 году?

Концепция автоматической классификации интента абсолютно актуальна и является ядром современного поиска. Однако конкретные алгоритмы (SVM, kNN) и степень ручного инжиниринга признаков, вероятно, изменились с развитием глубокого обучения (Deep Learning) и трансформеров, которые лучше справляются с автоматическим извлечением сложных признаков.