
Google использует автоматизированную систему для классификации веб-сайтов в иерархическую таксономию (тематические вертикали). Система определяет кластеры совместно встречающихся терминов на сайте и агрегирует их значимость, взвешивая её по количеству просмотров страниц (Pageviews). Затем она выбирает наиболее специфичную категорию в иерархии, чья совокупная оценка (включая подкатегории) превышает порог достоверности. Эта классификация используется для определения релевантной рекламы.
Патент решает задачу автоматической, масштабируемой и точной классификации динамически меняющихся объектов, в частности веб-сайтов, в рамках предопределенной иерархической таксономии (тематических вертикалей). Сложность заключается в необходимости агрегировать тематические сигналы с отдельных страниц для определения общей тематики всего сайта и выборе оптимального уровня специфичности в иерархии. Заявленная цель (Claims) — использование этой классификации для определения релевантной рекламы.
Запатентован метод автоматической категоризации веб-сайта. Суть изобретения заключается в использовании scored clusters (кластеров совместной встречаемости терминов) для связи контента сайта с иерархическими категориями. Ключевыми механизмами являются: (1) агрегация оценок кластеров на уровне сайта, взвешенная по просмотрам страниц (Pageviews), и (2) иерархический метод оценки категорий (S&SCCS), который суммирует значимость категории и всех её подкатегорий для выбора наиболее специфичной и достоверной классификации.
Система работает в несколько этапов:
PHIL) и их Activation Score (концептуальная значимость).Pageviews).Concepts).S&SCCS (Self&Subsumed Category Cluster Score) для категорий на разных уровнях иерархии. Выбирается самая глубокая (специфичная) категория, чей S&SCCS превышает заданный порог достоверности.Высокая. Хотя конкретные технологии, упомянутые в патенте (PHIL, Circadia), вероятно, эволюционировали в более современные ML-модели, фундаментальные принципы остаются крайне актуальными. Использование кластеров на основе поведения пользователей, агрегация сигналов на уровне сайта (особенно взвешивание по трафику) и иерархическая классификация с порогами достоверности — это ключевые концепции для понимания того, как Google определяет тематический авторитет (Topical Authority) сайтов сегодня.
Патент имеет высокое значение (85/100) для формирования SEO-стратегии, особенно для крупных сайтов. Он раскрывает конкретные механизмы определения основной тематики сайта и подчеркивает, что не все страницы одинаково важны для этой классификации. Понимание того, что трафик (Pageviews) напрямую влияет на вес страницы в тематической классификации сайта (Claim 2), критически важно для управления структурой сайта и распределением внутреннего трафика.
PHIL clusters.ICCS самой категории и ICCS всех ее дочерних (поглощенных, subsumed) категорий в иерархии.Claim 1 (Независимый пункт): Описывает метод категоризации веб-сайта и его использование для подбора рекламы.
scored clusters), где оценка показывает концептуальную значимость кластера для сайта.S&SCCS), основанной на сумме (1) внутрикатегориальной оценки кластера (ICCS) самой категории и (2) ICCS категорий-потомков в иерархии.Ядром изобретения является специфический метод иерархической оценки (S&SCCS) для выбора категории и применение этой категоризации для рекламы.
Claim 2 (Зависимый от 1): Уточняет расчет оценок кластеров для сайта.
Определение набора взвешенных кластеров для сайта использует количество просмотров страниц (pageviews) и оценки активации (activation scores) на отдельных веб-страницах сайта. Это подтверждает, что трафик влияет на вес страницы в классификации сайта.
Claim 4 (Зависимый от 1): Уточняет выбор итоговой категории.
Определение категории включает выбор категории самого глубокого иерархического уровня, чья вычисленная оценка (S&SCCS) превышает предопределенный порог. Система предпочитает специфичность, но требует уверенности.
Изобретение применяется преимущественно на этапе анализа контента для его классификации.
CRAWLING – Сканирование и Сбор данных
Система должна собрать данные о просмотрах страниц (Pageviews), например, из логов рекламных систем (упоминается AdSense), для последующего использования при взвешивании значимости страниц.
INDEXING – Индексирование и извлечение признаков
Основное применение патента.
Clusters и их Activation Scores.Pageviews и Activation Scores.S&SCCS и порога.Document-to-Category Information).RANKING / AD SERVING
Согласно Claim 1, результаты категоризации используются для подбора релевантной рекламы. Такая тематическая классификация также является важным сигналом, который может использоваться в органическом ранжировании для оценки авторитетности сайта (Topical Authority) в определенной вертикали.
Входные данные:
Pageviews) и Activation Scores (например, из логов).Выходные данные:
Pageviews оказывают большее влияние на итоговую тематическую классификацию сайта, чем страницы с низким трафиком.Activation Score для учета кластера на странице (в описании упоминается пример 1.0).Minimum Conceptual Significance Threshold: Порог достоверности для S&SCCS (в описании упоминается пример 0.24 для нормализованных оценок). Категория выбирается, только если её S&SCCS превышает этот порог.Процесс Категоризации Веб-сайта
Pageviews), идентифицируются кластеры (Clusters) и их Activation Scores. Кластеры с оценкой ниже порога игнорируются.Activation Score × Pageviews.ICCS (Intra-Category Cluster Score) рассчитывается для каждой категории путем суммирования оценок связанных с ней кластеров.S&SCCS (Self&Subsumed Category Cluster Score) рассчитывается для каждого узла иерархии путем суммирования собственного ICCS и ICCS всех дочерних узлов.S&SCCS превышает порог.PHIL).Pageviews). Используются как веса для определения значимости страниц и их кластеров при агрегации на уровне сайта (Claim 2).Activation Score. Оценка концептуальной значимости кластера для страницы.SCORE=TotalSumOfProducts∑(ActivationScore∗Pageviews) (где Total Sum Of Products — это сумма всех таких произведений для сайта).
Cluster Scores для всех кластеров сайта, которые были ассоциированы с данной категорией.S&SCCS, чтобы категория была выбрана.Pageviews). Страницы с высоким трафиком сильнее влияют на то, как Google классифицирует весь домен.S&SCCS и порог достоверности предотвращают ошибочную классификацию, если тематические сигналы разрознены или слабы.S&SCCS).Pageviews используются как весовой коэффициент, критически важно, чтобы страницы, получающие основной трафик (главная, популярные статьи), четко соответствовали целевой тематической категории сайта.S&SCCS вознаграждает сайты, которые сильны как в основной категории, так и в ее дочерних категориях, что необходимо для достижения специфичной классификации.Clusters и повысить их Activation Scores.Pageviews.S&SCCS. Система не сможет преодолеть порог достоверности для специфичных категорий.Патент подтверждает стратегическую важность построения Topical Authority и демонстрирует, что классификация сайта — это не среднее арифметическое его страниц, а взвешенное по трафику значение. Это подчеркивает синергию между контент-маркетингом, SEO и UX: необходимо не только создавать релевантный контент, но и обеспечивать его потребление пользователями. Долгосрочная стратегия должна фокусироваться на создании четкой иерархии контента и управлении потоками пользователей для поддержки целевой категоризации.
Сценарий 1: Влияние популярного блога на классификацию E-commerce сайта
Activation Scores на этой статье. Из-за огромного количества Pageviews (Claim 2), эти кластеры получили доминирующий вес при агрегации на уровне сайта, перевесив кластеры, связанные с косметикой.Pageviews). (б) Скорректировать статью, усилив связь между диетами и здоровьем кожи/использованием косметики, чтобы активировать нужные кластеры. (в) Создать больше высокотрафикового контента, напрямую связанного с косметикой.Сценарий 2: Анализ глубины классификации (на основе FIG. 24 патента)
Сайт о гаджетах. Порог t=0.24.
В патенте говорится, что Pageviews (просмотры страниц) влияют на классификацию сайта. Как именно это работает?
Pageviews используются как весовой коэффициент при агрегации значимости кластеров на уровне всего сайта (Claim 2). Кластеры, присутствующие на страницах с большим количеством просмотров, вносят больший вклад в итоговую тематическую оценку сайта. Это означает, что контент на самых популярных страницах вашего сайта оказывает наибольшее влияние на то, как Google классифицирует весь домен.
Что такое S&SCCS и почему это ключевая метрика в патенте?
S&SCCS (Self&Subsumed Category Cluster Score) — это совокупная оценка, которая суммирует значимость категории и всех её дочерних подкатегорий для сайта. Это ключевая метрика, потому что система использует её для выбора оптимального уровня классификации: выбирается самая глубокая (специфичная) категория, чей S&SCCS превышает порог достоверности (Claim 4). Это требует от сайта покрытия темы как вширь, так и вглубь.
Как этот патент связан с Topical Authority (Тематическим Авторитетом)?
Патент описывает технический фундамент для определения Topical Authority. Чтобы сайт считался авторитетным, он должен быть корректно классифицирован в соответствующей вертикали. Механизмы агрегации кластеров (Clusters) и оценки S&SCCS напрямую определяют, насколько сфокусированным и значимым система считает сайт в определенной тематике.
Что такое "Кластеры" (Clusters) и как их оптимизировать?
Кластеры (например, PHIL clusters) — это группы терминов, которые статистически часто встречаются вместе (например, в поисковых сессиях). Для оптимизации нужно анализировать связанные запросы и контент конкурентов, чтобы понять, какие термины формируют кластеры в вашей нише. Естественное использование этих связанных терминов в контенте поможет активировать нужные кластеры и повысить их Activation Score.
Что произойдет, если сайт охватывает много разных тем?
Возникает риск тематического размывания (Thematic Dilution). Оценки кластеров будут распределены по множеству разных категорий. Если ни одна категория не наберет достаточного S&SCCS для преодоления порога значимости, сайт может быть классифицирован слишком общо или вообще не классифицирован ("NONE").
Как бороться с ситуацией, когда нерелевантный, но популярный раздел «перетягивает» на себя тематику всего сайта?
Это ключевой риск, вытекающий из взвешивания по Pageviews. Необходимо пересмотреть стратегию распределения трафика: активно направлять пользователей с популярного раздела на целевые тематические страницы, увеличивая их Pageviews. Также стоит проанализировать контент популярного раздела и попытаться связать его с основной тематикой сайта, чтобы активировать более релевантные кластеры.
Применяется ли этот патент только для AdSense или для органического поиска тоже?
Claims патента прямо указывают на использование категоризации для определения релевантных рекламных объявлений (Claim 1). Однако система, которая точно классифицирует тематику сайта, крайне полезна и для органического поиска, особенно для оценки E-E-A-T и авторитетности сайта в конкретной вертикали. Логично предположить, что результаты этой классификации используются как важный сигнал в ранжировании.
Что означает порог концептуальной значимости (например, 0.24)?
Это порог достоверности для S&SCCS (при условии нормализации оценок до 1). Если лучшая категория имеет оценку ниже этого порога, система считает, что недостаточно уверена в классификации, так как сигналы слишком слабые или разрозненные. Это подчеркивает необходимость создания достаточного объема сфокусированного контента.
Что такое PHIL и Circadia, упомянутые в патенте?
Это примеры конкретных систем Google того времени (2005 год). PHIL использовался для генерации кластеров на основе совместной встречаемости терминов. Circadia — это семантический движок для преобразования текста/кластеров в абстрактные концепции (Concepts) и последующей категоризации. Хотя сами системы, вероятно, устарели, выполняемые ими задачи остаются центральными для Google.
Мой сайт посвящен узкой нише. Как убедиться, что Google не отнесет его к слишком широкой категории?
Необходимо создать достаточное количество глубокого контента, который четко сигнализирует о вашей специализации, используя специфическую терминологию. Это поможет усилить сигнал (S&SCCS) именно на глубоком уровне таксономии и преодолеть порог значимости. Если сигнал для узкой ниши будет слишком слабым, система "откатится" к более широкой категории.

EEAT и качество
Свежесть контента
Семантика и интент

Семантика и интент
SERP
Поведенческие сигналы

Семантика и интент

Персонализация
Семантика и интент
SERP

Семантика и интент

Персонализация
Семантика и интент
Поведенческие сигналы

Персонализация
Поведенческие сигналы
SERP

Техническое SEO
Ссылки

Поведенческие сигналы
Персонализация
Семантика и интент

Мультимедиа
Поведенческие сигналы
SERP

Local SEO
Поведенческие сигналы
Семантика и интент

Knowledge Graph
Семантика и интент
Ссылки

Поведенческие сигналы
Мультимедиа
Семантика и интент

Поведенческие сигналы
SERP

Семантика и интент
Персонализация
SERP
