
Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.
Патент решает проблему точной классификации текста в большое количество узкоспециализированных (fine-grained) иерархических категорий при сохранении высоких показателей точности (precision) и полноты (recall). Традиционные методы классификации часто теряют эффективность при работе с очень детальными системами категорий. Изобретение улучшает существующие техники классификации, позволяя делать более релевантные рекомендации контента.
Запатентован метод гибридной классификации текста. Он сочетает результаты работы стандартного классификатора (определяющего общие категории) с данными, извлеченными из поисковых логов и поведения пользователей (confirmed valid search results). Система использует общие категории для фильтрации детальных категорий, которые связаны с терминами в тексте через поисковые запросы, обеспечивая высокую точность итоговой классификации.
Система работает в несколько этапов:
N-grams (термины).confirmed valid search result).TF-IDF и эвристических бустингов (например, за глубину в иерархии). Категории, превысившие порог релевантности, присваиваются тексту.Высокая. Точное понимание и классификация контента являются фундаментальными задачами поиска. Использование пользовательских сигналов (кликов) и гибридных подходов, сочетающих различные модели для повышения точности, полностью соответствует современным тенденциям развития поисковых систем и NLP. Методы, описанные в патенте, лежат в основе систем понимания тематики контента.
Патент имеет высокое значение для SEO (8/10). Он раскрывает механизм, как Google может использовать данные о поведении пользователей (клики по запросам) для обучения своих систем классификации контента. Это подчеркивает важность не только наличия ключевых слов на странице, но и того, как пользователи взаимодействуют с контентом в выдаче. Если пользователи кликают на страницу по определенным запросам, это укрепляет связь между N-grams в этих запросах и тематикой (категорией) страницы.
naive Bayes classifier).confirmed valid search results.N-grams из поискового запроса, которые ассоциируются с определенной категорией. Ассоциация возникает, когда результат, принадлежащий этой категории, был кликнут пользователем для данного запроса.N-grams (supporters), которые связывают текст с категорией.Claim 1 (Независимый пункт): Описывает основной метод классификации текста и последующей рекомендации контента.
confirmed valid search results для запросов, и хотя бы один такой запрос содержит термин из классифицируемого текста.constituent terms / N-grams) из связанных запросов, которые также присутствуют в тексте.TF-IDF значений этих извлеченных терминов.Claim 2 (Зависимый от 1): Детализирует расчет TF-IDF.
Расчет TF-IDF включает вычисление IDF (Inverse Document Frequency) термина относительно корпуса документов и TF (Term Frequency) термина, а затем их комбинирование.
Claim 4 и 5 (Зависимые от 2): Описывают два варианта расчета TF.
Claim 4: TF рассчитывается на основе частоты термина в классифицируемом тексте (деленной на длину текста).
Claim 5: TF рассчитывается на основе частоты термина в confirmed valid search results, связанных с запросами, из которых извлечен термин.
Claim 6 (Зависимый от 1): Вводит эвристику для выбора категории.
Подсчитывается количество различных (distinct) извлеченных терминов (N-grams). Категория выбирается (как first selected category), если это количество удовлетворяет первому порогу. Это фильтр против случайных совпадений.
Claim 7 (Зависимый от 6): Описывает механизм бустинга (повышения веса) категории.
first boost value), соразмерную уровню уточнения (Depth Boost). Получается первый повышенный вес.second boost value), соразмерную общему количеству терминов (Supporter Count Boost). Получается второй повышенный вес.Claim 8 (Зависимый от 1): Определяет, что такое Confirmed Valid Search Result.
Это результат, полученный в ответ на поисковый запрос и выбранный пользователем (клик).
Изобретение затрагивает несколько этапов поисковой архитектуры, как в офлайн-режиме (построение модели), так и в онлайн-режиме (классификация нового контента).
Офлайн-процессы (Построение Графа Категорий):
CRAWLING & INDEXING (Сбор данных и Индексирование)
Система собирает документы и определяет их существующие категории (например, из ODP). Эти данные сохраняются.
RANKING & RERANKING (Анализ логов)
Система анализирует логи поисковых запросов и взаимодействия пользователей с результатами поиска. Ключевой процесс — идентификация confirmed valid search results (кликов). На основе этих данных строится System Category Graph: N-grams из запросов становятся supporters для категорий кликнутых документов.
Онлайн-процессы (Классификация нового текста):
INDEXING – Индексирование и извлечение признаков
Основное применение патента происходит на этапе индексирования нового документа (или при анализе любого текста, например, для таргетинга рекламы или рекомендаций). Система выполняет многоступенчатую классификацию для глубокого понимания тематики контента.
Feature Extraction).N-grams.System Category Graph для поиска кандидатов.TF-IDF) и бустинг.Входные данные:
System Category Graph (содержит иерархию категорий, связанные с ними запросы/N-grams (supporters) и confirmed valid search results).IDF).Выходные данные:
Алгоритм применяется, когда системе необходимо классифицировать текст в детальную иерархическую структуру, например, при индексации новой веб-страницы или для генерации рекомендаций контента.
Условия и триггеры:
N-grams текста и supporters в System Category Graph.N-grams для рассмотрения категории (Claim 6).second boosted weight) для выбора категории (Claim 7).Процесс А: Построение System Category Graph (Офлайн)
Confirmed Valid Search Result.N-grams из запроса с категориями документа. Эти N-grams становятся Supporters для категорий.Supporters в System Category Graph. Периодическое обновление графа.Процесс Б: Классификация текста (Онлайн/Индексирование)
N-grams из текста.System Category Graph, чьи Supporters совпадают хотя бы с одним извлеченным N-gram.N-grams из связанных запросов, которые присутствуют в тексте. Рассчитывается сумма TF-IDF значений этих N-grams.N-grams. Если ниже первого порога, категория отбрасывается.N-grams, соответствующих уточнениям в иерархии категории.Depth Boost).Supporters (Supporter Count Boost).Патент фокусируется на использовании данных о запросах и поведении пользователей для классификации.
N-grams, извлеченные из тела текста, заголовка или метаданных. Используются для сопоставления с запросами.Confirmed Valid Search Results (клики пользователей на результаты поиска) используются для установления связи между запросами (Queries) и категориями (Categories).System Category Graph.N-gram в корпусе документов. Рассчитывается как логарифм отношения общего числа документов к числу документов, содержащих N-gram. N-gram. Может рассчитываться двумя способами: confirmed valid search results.TF-IDF значений всех N-grams, которые связывают текст с категорией.N-grams, связывающих текст с категорией. Используется как порог (First Threshold).N-gram.Supporters категории.Second Threshold).Confirmed Valid Search Results (кликов) для построения ассоциаций между запросами и категориями контента. Поведение пользователей в SERP напрямую влияет на то, как система понимает и классифицирует контент.Depth Boost), если термины в тексте соответствуют глубоким уровням в тематической иерархии. Это подчеркивает важность использования узкоспециализированной терминологии в контенте.N-grams. Это означает, что совпадения по одному или двум общим терминам недостаточно для классификации контента в определенную категорию; требуется более широкий семантический охват.TF-IDF), но и популярностью категории среди пользователей (Supporter Count Boost).Depth Boost, такой контент будет более точно классифицирован как экспертный в своей узкой нише.N-grams и фразы используют пользователи для поиска информации в вашей нише. Интеграция этих терминов в контент увеличивает вероятность совпадения с Supporters в System Category Graph.Confirmed Valid Search Results) используются для обучения классификатора, необходимо работать над привлекательностью сниппетов. Высокий CTR по релевантным запросам укрепляет ассоциацию между этими запросами и категориями вашего контента, улучшая его классификацию в системе.First Categories) приведет к исключению правильных детальных категорий на этапе фильтрации по предкам.N-grams требует наличия нескольких семантических связей для подтверждения релевантности категории.Depth Boost и может быть классифицирован слишком общо.Category Graph.Distinct N-grams для релевантных категорий.Патент подтверждает, что понимание контента (Content Understanding) в Google — это сложный процесс, который не опирается только на анализ текста страницы. Он активно использует внешние данные, в частности, поведение пользователей в поиске, для валидации и уточнения тематики. Стратегически это означает, что SEO должно быть интегрировано с контент-стратегией и UX: необходимо не только создавать релевантный текст, но и обеспечивать положительный пользовательский опыт, который подтверждает эту релевантность через поведенческие сигналы (клики).
Сценарий: Классификация статьи о редком заболевании
N-grams ("мутация гена COL3A1", "разрыв артерий", "vEDS").N-gram "vEDS" становится Supporter для категории /Health/Conditions_and_Diseases/Connective_Tissue_Disorders/Ehlers-Danlos_Syndrome/Vascular.Depth Boost, так как "Vascular" находится глубоко в иерархии (уровень 6).Насколько важен CTR для классификации контента согласно этому патенту?
CTR критически важен. В патенте используется термин Confirmed Valid Search Result, который определяется как клик пользователя по результату поиска. Именно эти клики служат основой для связи поисковых запросов (N-grams) с категориями контента. Если пользователи часто кликают на ваш контент по определенным запросам, это обучает систему ассоциировать вашу страницу с соответствующими тематиками.
Что такое "Depth Boost" и как его использовать в SEO?
Depth Boost — это механизм повышения веса категории, если термины в тексте соответствуют глубоким уровням в тематической иерархии. Например, термин "Джаз" соответствует уровню 2 (/Arts/Music), а "Бибоп" — уровню 3 (/Arts/Music/Bebop). Для использования этого в SEO необходимо насыщать контент узкоспециализированной терминологией и экспертными понятиями, которые соответствуют детальным подкатегориям вашей ниши, а не только общими фразами.
Что означает фильтрация по предкам (Ancestor Filtering)?
Это механизм обеспечения точности. Сначала система определяет общую тематику документа (например, /Technology). Затем она ищет детальные категории, связанные с терминами в тексте. Если найденная детальная категория (/Arts/Music/Bands/The_Doors) не имеет среди своих предков общую категорию (/Technology), она исключается. Это предотвращает ошибочную классификацию из-за многозначности слов (например, "Doors" как двери или как группа).
Почему патент требует минимальное количество различных N-grams (Distinct N-grams)?
Это защита от случайных совпадений и спама. Чтобы система классифицировала текст в определенную категорию, недостаточно совпадения по одному или двум терминам. Требуется наличие нескольких различных N-grams, которые подтверждают релевантность этой категории. Для SEO это означает необходимость использования разнообразной лексики и широкого семантического охвата при создании контента.
Как система строит связь между запросами и категориями?
Система делает это офлайн, анализируя логи поиска. Когда пользователь вводит запрос и кликает на результат (Confirmed Valid Search Result), система смотрит на категорию этого результата (например, из ODP/DMOZ). N-grams из запроса становятся "поддерживающими терминами" (Supporters) для этой категории. Со временем эти связи накапливаются и формируют System Category Graph.
Использует ли Google по-прежнему ODP/DMOZ, упомянутый в патенте?
ODP (DMOZ) закрыт, но в патенте он используется как пример иерархической системы категорий. Сегодня Google использует собственные системы классификации и Knowledge Graph, которые значительно более сложны и динамичны. Однако базовый принцип — использование иерархической структуры для классификации контента и связи её с поисковыми запросами через пользовательские сигналы — остается актуальным.
Влияет ли этот патент на локальный поиск или E-commerce?
Да, механизм применим к любым иерархическим категориям. В E-commerce это могут быть категории товаров (/Electronics/Audio/Headphones/Noise-Cancelling), а в локальном поиске — категории бизнеса или географические иерархии (/US/California/Bay_Area). Использование точных названий моделей или локальных уточнений в контенте поможет системе точнее классифицировать страницу благодаря Depth Boost.
Какой тип классификатора используется на первом этапе?
Патент не специфицирует конкретный алгоритм, упоминая лишь стандартные методы, такие как naive Bayes classifier. Отмечается, что этот классификатор не обязан иметь одновременно высокую точность и полноту; часто используется классификатор с высокой полнотой (High Recall), даже если точность (Precision) низкая. Точность достигается на последующих этапах фильтрации.
Что такое "Supporter Count Boost"?
Это дополнительное повышение веса категории, которое соразмерно общему количеству Supporters (N-grams из запросов), связанных с этой категорией. Это означает, что система отдает предпочтение не только семантически релевантным, но и более популярным или часто искомым категориям, для которых накоплено больше данных о поведении пользователей.
Как этот патент связан с концепцией Topical Authority?
Патент предоставляет конкретные механизмы, которые способствуют формированию Topical Authority. Создание контента, который точно классифицируется в глубокие иерархические категории (благодаря Depth Boost и Distinct N-grams), и подтверждение этой классификации через пользовательские клики, напрямую способствует тому, что система распознает сайт как авторитетный источник в данной узкой тематике.

Семантика и интент
SERP

Персонализация
Поведенческие сигналы
SERP

Семантика и интент

Семантика и интент
SERP

Семантика и интент
Мультиязычность

Поведенческие сигналы
SERP
Мультимедиа

Семантика и интент
SERP
Ссылки

Семантика и интент
SERP
Поведенческие сигналы

Мультиязычность
Семантика и интент
Ссылки

Мультимедиа
EEAT и качество
Семантика и интент

SERP
Семантика и интент
Ссылки

Поведенческие сигналы
Семантика и интент

Local SEO
Семантика и интент
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
SERP

Ссылки
Семантика и интент
Техническое SEO
