Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует поисковые запросы и клики пользователей для детальной тематической классификации контента

    CLASSIFYING TEXT INTO HIERARCHICAL CATEGORIES (Классификация текста по иерархическим категориям)
    • US8725732B1
    • Google LLC
    • 2014-05-13
    • 2009-03-13
    2009 Индексация Патенты Google Поведенческие сигналы Семантика и интент

    Google использует гибридный подход для классификации контента в детальные иерархические категории. Система анализирует, какие запросы (N-граммы) приводят пользователей к кликам на контент из определенных категорий. Эти запросы становятся «подтверждающими» (Supporters) для категории. При анализе нового текста система сопоставляет его N-граммы с этими Supporters и применяет многоуровневую систему взвешивания (включая TF-IDF и бустинг за глубину иерархии) для точной классификации.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу точной классификации текста (например, веб-страниц, электронных писем) в очень детализированные, иерархические категории (например, /sports/baseball/games/youth). Традиционные классификаторы часто испытывают трудности с точностью (precision) и полнотой (recall) при работе с большим количеством мелкозернистых категорий. Изобретение направлено на улучшение точности классификации для систем рекомендаций контента.

    Что запатентовано

    Запатентована система классификации текста, которая использует гибридный подход. Она сочетает результаты работы высокоуровневого классификатора с данными из System Category Graph. Этот граф строится на основе анализа поведения пользователей: какие поисковые запросы (N-grams) приводят к кликам (Confirmed Valid Search Results) на документы, уже принадлежащие к определенным категориям (например, из ODP). Эти N-граммы становятся «подтверждающими» (Supporters) для категории.

    Как это работает

    Система работает в два основных этапа:

    1. Построение графа категорий (Офлайн):

    • Анализируются логи поиска: если пользователь ввел запрос и кликнул на результат, этот результат считается Confirmed Valid Search Result.
    • Система определяет категорию кликнутого документа (например, из ODP).
    • N-граммы из запроса ассоциируются с этой категорией как Supporters.

    2. Классификация нового текста (Онлайн/Индексирование):

    • Текст классифицируется высокоуровневым классификатором (например, в категорию /sports).
    • Из текста извлекаются N-граммы.
    • Система ищет детальные категории в графе, чьи Supporters совпадают с N-граммами текста.
    • Фильтрация: Исключаются детальные категории, чьи предки не совпадают с высокоуровневой классификацией (защита от омонимии).
    • Взвешивание и Выбор: Для оставшихся категорий рассчитывается вес на основе TF-IDF совпадающих N-грамм. Этот вес повышается (boosting), если N-граммы соответствуют более глубоким уровням иерархии категории и если у категории много Supporters. Выбираются категории с наибольшим весом.

    Актуальность для SEO

    Высокая. Хотя патент упоминает ODP (DMOZ), который сейчас не актуален, лежащая в его основе концепция использования поведения пользователей (запросы и клики) для понимания связи между языком и категориями (будь то таксономия или Knowledge Graph) является фундаментальной для современных поисковых систем. Этот механизм критически важен для систем рекомендаций контента, таких как Google Discover, и для глубокого понимания тематики контента.

    Важность для SEO

    Патент имеет высокое значение для SEO, особенно в контексте оптимизации под системы рекомендаций (например, Google Discover) и улучшения тематической классификации сайта. Он не описывает прямое ранжирование в SERP, но раскрывает, как Google использует соответствие между языком на странице (N-grams) и языком пользовательских запросов (Supporters) для точной категоризации контента. Точная классификация влияет на то, как система будет рекомендовать контент или обрабатывать его в тематически-ориентированных вертикалях.

    Детальный разбор

    Термины и определения

    Boost Value (Значение повышения)
    Значение, используемое для увеличения веса категории. В патенте описаны два типа: First Boost Value (основан на глубине иерархии совпадающего N-грамма) и Second Boost Value (основан на общем количестве Supporters).
    Confirmed Valid Search Result (Подтвержденный действительный результат поиска)
    Документ, который был показан в ответ на поисковый запрос и выбран (кликнут) пользователем. Этот клик подтверждает релевантность результата запросу.
    High-level Categories (Высокоуровневые категории)
    Широкие категории, присвоенные тексту с помощью стандартного классификатора (например, наивного байесовского). Используются для фильтрации детальных категорий.
    N-gram (N-грамма)
    Последовательность элементов из текста или запроса (слова, фразы). Используются как Supporters категорий и извлекаются из анализируемого текста.
    ODP (Open Directory Project)
    Упоминается в патенте как пример источника иерархической классификации документов. В современных системах это может быть заменено на Knowledge Graph или внутренние таксономии Google.
    Supporters (Подтверждающие N-граммы)
    N-граммы из поисковых запросов, которые привели к клику на Confirmed Valid Search Result, принадлежащий к определенной категории. Они связывают язык запроса с категорией.
    Supporter Count (Счетчик подтверждений)
    Количество раз, когда N-грамма выступала в качестве Supporter для категории (т.е. количество кликов, связанных с этим запросом и категорией).
    System Category Graph (Системный граф категорий)
    Структура данных (DAG), хранящая иерархические категории и ассоциированные с ними Supporters, построенная на основе анализа поведения пользователей.
    TF-IDF (Term Frequency-Inverse Document Frequency)
    Статистическая мера, используемая для расчета начального веса (Initial Weight) категории на основе важности совпадающих N-грамм.

    Ключевые утверждения (Анализ Claims)

    Патент содержит два основных блока утверждений: процесс классификации нового текста (Claims 1+) и процесс создания графа категорий (Claims 31+).

    Claim 1 (Независимый пункт): Описывает метод классификации текста с использованием бустинга.

    1. Идентификация первых категорий в наборе, где каждая категория является иерархической классификацией Confirmed Valid Search Results для запросов, и где хотя бы один запрос для каждой категории содержит термин из анализируемого текста.
    2. Для каждой такой категории:
      • Выбор терминов (N-грамм), которые встречаются и в тексте, и в запросах, связанных с этой категорией.
      • Идентификация терминов, которые соответствуют уровню уточнения (refinement level) в иерархии категории.
      • Повышение (Boosting) начального веса категории на значение, основанное на этом уровне уточнения (First Boosted Weight).
      • Дальнейшее повышение веса на значение, основанное на количестве выбранных терминов (Second Boosted Weight).
    3. Выбор категории, если ее Second Boosted Weight удовлетворяет первому порогу.
    4. Рекомендация контента, связанного с выбранными категориями.

    Система отдает предпочтение категориям, которые имеют совпадения по терминам на более глубоких уровнях иерархии (Boost 1) и имеют большее общее количество подтверждающих терминов (Boost 2).

    Claim 9 (Зависимый от 1): Детализирует процесс фильтрации (важный аспект, описанный в патенте, но вынесенный в зависимый пункт).

    1. Классификация текста во вторые (высокоуровневые) категории.
    2. Фильтрация идентифицированных первых (детальных) категорий путем исключения тех, чьи предки не входят в число вторых (высокоуровневых) категорий.

    Этот механизм используется для устранения неоднозначности и повышения точности, гарантируя, что детальная классификация соответствует общему контексту документа.

    Claim 31 (Независимый пункт): Описывает метод создания System Category Graph.

    1. Идентификация электронных документов, на которые ссылались выбранные пользователем результаты поиска (user selected search results), где каждый результат был ответом на соответствующий запрос.
    2. Категоризация этих документов путем ассоциации с иерархической классификацией.
    3. Ассоциация N-грамм из соответствующих запросов с этими категоризированными документами.
    4. Создание графа категорий на основе категоризации документов и ассоциированных N-грамм (Supporters).

    Это подтверждает, что Google строит свою систему понимания связи между языком и категориями, анализируя, как пользователи ищут и на что они кликают.

    Где и как применяется

    Изобретение затрагивает несколько этапов поиска, разделяясь на офлайн-процесс построения графа и процесс классификации контента.

    Процесс А: Построение System Category Graph (Офлайн)

    INDEXING – Индексирование и извлечение признаков
    На этом этапе система должна знать предварительную классификацию документов (например, из ODP или другой таксономии), чтобы связать клики с категориями.

    QUNDERSTANDING – Понимание Запросов (и анализ логов)
    Система анализирует логи поисковых запросов и кликов. Она обрабатывает запросы, извлекает N-граммы и идентифицирует Confirmed Valid Search Results. Это ключевой этап для сбора данных о Supporters и построения графа.

    Процесс Б: Классификация нового текста

    INDEXING – Индексирование и извлечение признаков
    Когда новый документ индексируется, система применяет описанный механизм для его детальной классификации. Извлекаются N-граммы, применяется высокоуровневый классификатор, происходит сопоставление с System Category Graph, расчет весов и бустинг. Результат (детальные категории) сохраняется в индексе.

    RANKING / RERANKING (Косвенно)
    Хотя патент не фокусируется на ранжировании SERP, точная классификация документа может использоваться как признак ранжирования или для активации тематических твидлеров на этапе RERANKING.

    Системы Рекомендаций (Прямое применение)
    Основное применение, указанное в патенте, — это рекомендация контента пользователю на основе детальной классификации просматриваемого им текста.

    На что влияет

    • Типы контента: Влияет на любой текстовый контент, который может быть классифицирован и рекомендован (статьи, блоги, веб-страницы, электронные письма).
    • Специфические запросы: Влияет на понимание информационных и тематических запросов, помогая связать их с конкретными нишами.
    • Конкретные ниши: Наиболее эффективно в тематиках с четкой и глубокой иерархией (хобби, наука, технологии, спорт), где важна точность классификации.

    Когда применяется

    • Триггеры активации (При классификации): Механизм активируется, когда есть совпадение между N-граммами текста и Supporters в System Category Graph.
    • Пороговые значения: Применяется несколько порогов для обеспечения качества:
      • Минимальное количество различных Supporters (Claim 2).
      • Минимальный итоговый вес (Second Boosted Weight) (Claim 1).
      • Относительный вес (категория должна быть близка к лучшему результату).
    • Временные рамки: System Category Graph периодически обновляется для учета новых данных о поведении пользователей и контенте. Классификация происходит при индексировании или в реальном времени при генерации рекомендаций.

    Пошаговый алгоритм

    Процесс А: Построение System Category Graph (Офлайн)

    1. Сбор данных о запросах: Получение пользовательских поисковых запросов.
    2. Отображение результатов: Фиксация того, какие документы были показаны в ответ на запрос.
    3. Идентификация кликов: Получение выбора пользователя. Выбранный результат обозначается как Confirmed Valid Search Result.
    4. Получение категории результата: Определение иерархической категории (например, ODP) кликнутого документа.
    5. Ассоциация N-грамм: Извлечение N-грамм из запроса и их ассоциация с категорией документа в качестве Supporters. Расчет Supporter Count.
    6. Построение графа: Добавление категории и ее Supporters в System Category Graph.
    7. Обновление: Периодическое обновление графа для включения новых данных.

    Процесс Б: Классификация нового текста

    1. Высокоуровневая классификация: Классификация текста в широкие категории (High-level Categories) с помощью стандартного классификатора.
    2. Извлечение терминов: Извлечение N-грамм из текста.
    3. Идентификация кандидатов: Поиск детальных категорий в System Category Graph, чьи Supporters совпадают хотя бы с одной извлеченной N-граммой.
    4. Фильтрация по предкам: Исключение кандидатов, чьи иерархические предки не входят в число High-level Categories.
    5. Расчет начального веса (Initial Weight): Для каждой оставшейся категории расчет веса на основе суммы TF-IDF значений совпадающих N-грамм (Supporters).
    6. Применение эвристик и бустинга:
      • Фильтрация по количеству (Порог 1): Проверка, достигает ли количество различных совпадающих N-грамм первого порога.
      • Идентификация глубины: Определение уровня (глубины) в иерархии категории, которому соответствует каждая совпадающая N-грамма.
      • Бустинг по глубине (Boost 1): Повышение начального веса на First Boost Value, соразмерный глубине совпадения, для получения First Boosted Weight.
      • Бустинг по количеству (Boost 2): Повышение First Boosted Weight на Second Boost Value, соразмерный общему количеству Supporters, для получения Second Boosted Weight.
    7. Выбор категорий (Порог 2): Выбор категорий, чей Second Boosted Weight достигает второго порога.
    8. Финальная фильтрация (Порог 3): Исключение категорий, чей вес не достигает определенной доли от максимального веса среди всех кандидатов.
    9. Ассоциация: Ассоциация выбранных детальных категорий с текстом.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: N-граммы, извлеченные из основного текста, заголовка или метаданных анализируемого документа.
    • Поведенческие факторы (Ключевые): Журналы поисковых запросов и данные о кликах пользователей (user selection). Используются для определения Confirmed Valid Search Results и генерации Supporters.
    • Структурные факторы (Внешние данные): Существующая иерархическая таксономия (например, ODP, Knowledge Graph), используемая для определения категорий документов, на которые кликнули пользователи.

    Какие метрики используются и как они считаются

    • Initial Weight (Начальный вес): Рассчитывается как сумма TF-IDF значений совпадающих N-грамм (Supporters).
    • TF-IDF: Патент описывает два варианта расчета TF (Term Frequency):
      • Вариант 1: Частота N-граммы в анализируемом тексте, деленная на длину текста.
      • Вариант 2: Частота N-граммы в Confirmed Valid Search Result, деленная на длину этого результата (требует итерации по всем результатам).

      IDF (Inverse Document Frequency) рассчитывается стандартно: логарифм от (общее количество документов в корпусе / количество документов, содержащих N-грамму).

    • First Boost Value: Значение, соразмерное глубине (уровню уточнения) в иерархии категории, которому соответствует N-грамма.
    • Second Boost Value: Значение, соразмерное общему количеству Supporters (или сумме их Supporter Counts) для категории.
    • Пороги (Thresholds): Используются три основных порога для фильтрации: минимальное количество различных N-грамм, минимальный итоговый вес, относительный вес (доля от максимума).

    Выводы

    1. Связь языка страницы и языка запросов критична для классификации: Google строит понимание категорий (System Category Graph), анализируя, какие запросы (Supporters) приводят к кликам на контент в этих категориях. Чтобы ваш контент был точно классифицирован, N-граммы на странице должны соответствовать этим Supporters.
    2. Пользовательские клики определяют тематику: Confirmed Valid Search Result является центральным элементом. То, как пользователи реагируют на результаты поиска, напрямую обучает систему классификации.
    3. Глубина и специфичность вознаграждаются: Система использует механизм бустинга (First Boost Value), который явно повышает вес категории, если N-граммы текста соответствуют более глубоким уровням иерархии. Специфичный контент классифицируется лучше, чем общий.
    4. Популярность темы имеет значение: Второй бустинг (Second Boost Value) основан на общем количестве Supporters. Категории, которые часто ищут и подтверждают кликами, имеют преимущество при взвешивании.
    5. Защита от неоднозначности через фильтрацию: Использование высокоуровневого классификатора для фильтрации детальных категорий помогает избежать ошибок классификации из-за омонимии (например, отличая Apple компанию от фрукта), подчеркивая важность четкого контекста страницы.
    6. Фокус на рекомендациях: Основная цель патента — улучшение систем рекомендаций контента. Точная классификация является основой для показа релевантных предложений (например, в Google Discover).

    Практика

    Best practices (это мы делаем)

    • Используйте язык вашей аудитории (Aligning with Supporters): Исследуйте, какие именно фразы и термины (N-граммы) используют пользователи при поиске контента в вашей нише. Интегрируйте эти фразы в текст, чтобы максимизировать совпадение с потенциальными Supporters в System Category Graph. Это улучшит точность классификации.
    • Создавайте глубокий и специфичный контент: Поскольку система применяет бустинг за глубину иерархии (First Boost Value), контент, который детально раскрывает узкую тему, будет классифицирован точнее. Например, вместо статьи «Все о бейсболе» создайте статью, фокусирующуюся на «Правилах судейства в юношеской лиге бейсбола».
    • Обеспечивайте четкий контекст и избегайте двусмысленности: Убедитесь, что основной контекст страницы очевиден. Система использует высокоуровневую классификацию для фильтрации. Если страница посылает смешанные сигналы (например, смешивает финансы и здоровье), это может затруднить точную детальную классификацию.
    • Оптимизируйте под клики (CTR в поиске): Так как граф строится на основе Confirmed Valid Search Results (кликов), высокий CTR из поиска по релевантным запросам помогает «обучить» систему тому, что ваш контент является хорошим ответом для этих Supporters, укрепляя связь между запросами и вашей категорией.
    • Улучшайте Topical Authority в конкретных нишах: Создание кластеров контента, покрывающих все уровни иерархии темы, поможет захватить Supporters как на высоком уровне, так и на глубоком, улучшая общую классификацию сайта в этой нише.

    Worst practices (это делать не надо)

    • Использование неестественного языка или Keyword Stuffing: Хотя совпадение N-грамм важно, система использует TF-IDF для взвешивания. Переспам ключевыми словами может снизить вес из-за аномально высокого TF или ухудшить поведенческие факторы.
    • Создание поверхностного контента по широким темам: Контент, который затрагивает только верхние уровни иерархии, не получит бустинга за глубину (First Boost Value) и может проиграть более специфичным конкурентам при классификации.
    • Игнорирование анализа запросов: Создание контента без учета того, как пользователи ищут эту информацию, приведет к отсутствию совпадений с Supporters, что сделает контент «невидимым» для этого механизма классификации.
    • Clickbait и нерелевантный трафик: Привлечение кликов по запросам, которые не соответствуют содержанию страницы, может привести к созданию неверных ассоциаций в System Category Graph, ухудшая долгосрочную классификацию.

    Стратегическое значение

    Патент подтверждает стратегическую важность понимания намерений пользователя и анализа реальных поисковых запросов. Он демонстрирует механизм, с помощью которого Google переводит поведение пользователей в конкретные данные для классификации контента. Для SEO это означает, что оптимизация должна выходить за рамки статического анализа ключевых слов и фокусироваться на соответствии контента реальным сценариям поиска. Стратегически, это подчеркивает важность оптимизации не только для ранжирования в SERP, но и для систем рекомендаций (Discover), где точная классификация играет ключевую роль.

    Практические примеры

    Сценарий: Оптимизация статьи для улучшения классификации в нише «Домашние пивоварни».

    1. Анализ запросов (Поиск Supporters): SEO-специалист анализирует запросы и находит, что пользователи часто ищут: «как карбонизировать эль в кеге», «лучший хмель для IPA», «проблемы с ферментацией лагера».
    2. Высокоуровневый контекст: Статья четко позиционируется в категории Хобби/Еда/Напитки.
    3. Интеграция N-грамм для глубины: Специалист убеждается, что в статье используются специфические термины, соответствующие глубоким уровням иерархии:
      • Вместо просто «пиво» используется «эль» и «лагер» (Уровень 3).
      • Вместо просто «ингредиенты» используется «хмель для IPA» (Уровень 4).
      • Вместо просто «процесс» используется «карбонизация в кеге», «ферментация» (Уровень 4/5).
    4. Ожидаемый результат: При анализе текста система находит совпадения с Supporters на глубоких уровнях. Она применяет высокий First Boost Value (за глубину) и Second Boost Value (если тема популярна). Статья точно классифицируется как /hobby/food/brewing/techniques/carbonation, что увеличивает ее шансы на появление в рекомендациях у пользователей, интересующихся техниками пивоварения.

    Вопросы и ответы

    Описывает ли этот патент алгоритм ранжирования в Google Поиске?

    Нет, напрямую он не описывает ранжирование в стандартной поисковой выдаче (SERP). Патент фокусируется на методе детальной иерархической классификации текста. Основная цель, указанная в патенте, — это использование этой классификации для рекомендации контента пользователю. Однако точная классификация может использоваться как один из сигналов в основном ранжировании или в рекомендательных системах типа Google Discover.

    Что такое «Supporters» и почему они важны для SEO?

    Supporters — это N-граммы из реальных поисковых запросов, которые привели пользователей к клику на контент в определенной категории. Они являются мостом между языком пользователя и таксономией Google. Для SEO они критически важны, потому что для точной классификации вашего контента он должен содержать N-граммы, которые соответствуют этим Supporters. Это подчеркивает необходимость использования естественного языка и фраз, которые реально ищут пользователи.

    Патент упоминает ODP (DMOZ). Значит ли это, что технология устарела?

    Хотя ODP больше не поддерживается, он используется в патенте как пример иерархической таксономии, созданной людьми. В современных системах Google эта роль выполняется Knowledge Graph и внутренними системами классификации. Сам механизм — использование кликов для связи запросов с категориями из таксономии — остается высоко актуальным и не зависит от того, используется ли ODP или другая система.

    Что означает «Бустинг по глубине» (Boost based on Component Depth)?

    Это механизм повышения веса категории, если N-граммы из текста соответствуют более детальным (глубоким) уровням иерархии. Например, если текст содержит слово «Youth» и система сопоставляет его с категорией /Sports/Baseball/Games/Youth, это совпадение на 4-м уровне получит больший буст, чем совпадение слова «Sports» на 1-м уровне. Это стимулирует создание специфичного и глубокого контента.

    Как система защищается от ошибок классификации из-за омонимов (например, Apple компания vs фрукт)?

    Система использует гибридный подход. Сначала она применяет высокоуровневый классификатор для определения общего контекста (например, «Технологии»). Затем, при поиске детальных категорий, она фильтрует и исключает те категории, чьи предки не соответствуют этому контексту (например, исключит /Food/Fruits/Apple, так как /Food не соответствует «Технологиям»).

    Как расчет TF-IDF в этом патенте влияет на оптимизацию контента?

    TF-IDF используется для расчета начального веса категории. Это означает, что система ценит N-граммы, которые достаточно часто встречаются в тексте (высокий TF), но при этом являются относительно редкими в общем корпусе документов (высокий IDF). Для SEO это подчеркивает важность использования специфической терминологии, релевантной для узкой ниши, а не только общих высокочастотных слов.

    Что важнее: иметь много разных совпадающих N-грамм или несколько, но очень популярных?

    Система учитывает оба фактора через разные механизмы. Наличие минимального количества различных N-грамм требуется для прохождения первого порога (защита от случайных совпадений). Однако итоговый вес сильно зависит от бустинга (Second Boost Value), который учитывает общую популярность (Supporter Counts) всех совпадающих N-грамм. Идеальный вариант — это наличие нескольких различных и при этом популярных в поиске N-грамм.

    Как этот патент связан с Google Discover?

    Google Discover — это система рекомендации контента, основанная на интересах пользователя. Этот патент предоставляет надежный механизм для детальной классификации контента, что является необходимым условием для работы Discover. Точно понимая, к какой узкой категории относится статья (используя описанный механизм), Google может более эффективно рекомендовать ее заинтересованной аудитории.

    Может ли этот механизм помочь моему сайту, если у него низкий авторитет?

    Да, в контексте классификации и рекомендаций. Этот патент фокусируется на тематическом соответствии (N-граммы vs Supporters) и глубине контента, а не на ссылочном авторитете или E-E-A-T (хотя они могут влиять на высокоуровневый классификатор). Хорошо проработанный, специфичный контент, соответствующий запросам пользователей, имеет хорошие шансы быть точно классифицированным и рекомендованным.

    Что такое «Confirmed Valid Search Result» и как его добиться?

    Это результат поиска, который пользователь выбрал (кликнул), подтвердив его релевантность запросу. Чтобы добиться этого, необходимо ранжироваться по релевантным запросам и иметь привлекательные сниппеты (Title, Description), которые мотивируют пользователя кликнуть именно на ваш результат. Это напрямую влияет на обучение System Category Graph.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.