Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google выявляет «Контентные пробелы» (Underserved Topics), сравнивая спрос на информацию с качеством доступного контента

    IDENTIFYING INADEQUATE SEARCH CONTENT (Выявление неадекватного поискового контента)
    • US9020933B2
    • Google LLC
    • 2015-04-28
    • 2007-04-03
    2007 EEAT и качество Индексация Патенты Google Семантика и интент

    Патент Google, описывающий систему для выявления «недостаточно обслуживаемых тем» (underserved topics). Google анализирует популярность темы (объем поиска) и сравнивает ее с качеством доступного контента (совокупная релевантность и авторитетность). Если спрос значительно превышает качество предложения, система идентифицирует пробел и может стимулировать создание нового контента.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему «контентных пробелов» (Content Gaps) — ситуаций, когда существует высокий спрос на информацию по определенной теме (высокий объем поиска), но доступный контент (topic corpus) имеет низкое качество или недостаточен. Это снижает удовлетворенность пользователей поисковой системой. Изобретение направлено на систематическое выявление таких underserved topics и стимулирование создания качественного контента в этих областях.

    Что запатентовано

    Запатентована система для оценки и классификации корпуса контента по теме путем сравнения спроса (популярность темы) с предложением (качество контента). Качество контента определяется через агрегацию IR Score (релевантность) и Node Rank (авторитетность). Если качество контента ниже ожидаемого уровня для данного объема спроса, тема помечается как недостаточно обслуживаемая (underserved).

    Как это работает

    Система работает путем агрегации и анализа данных поиска:

    • Сбор данных и Кластеризация: Statistics Collection and Analysis Engine собирает поисковые логи и группирует запросы в темы (topics).
    • Оценка Спроса: Измеряется популярность темы (topic search volume).
    • Оценка Предложения: Вычисляется совокупное качество доступного контента (topic corpus quality measure) на основе IR Score и Node Rank.
    • Сравнение: Система сравнивает качество корпуса с популярностью темы. Определяется пороговое значение качества, ожидаемое для данного уровня популярности (путем сравнения с другими темами).
    • Идентификация пробелов: Если качество ниже порога, тема классифицируется как underserved.
    • Стимулирование: Topic Distribution Engine может уведомить пользователей о низком качестве результатов или предоставить данные о пробелах издателям для создания нового контента.

    Актуальность для SEO

    Высокая. Выявление контентных пробелов и стремление удовлетворить спрос пользователей качественным контентом остаются фундаментальными задачами Google. Этот патент описывает стратегический подход к анализу экосистемы контента. Участие Мэтта Каттса (бывший глава веб-спам команды) и Хэла Вариана (главный экономист Google) подчеркивает важность патента для понимания философии Google в отношении качества контента и экономики информации. Концепция выявления тем с высоким спросом и низкой конкуренцией критически важна для современной SEO-стратегии.

    Важность для SEO

    Патент имеет высокое стратегическое значение (75/100). Он не описывает конкретный алгоритм ранжирования, но дает ключевое понимание того, как Google оценивает качество целых тематических ниш. Он подтверждает, что Google измеряет качество как комбинацию релевантности (IR Score) и авторитетности (Node Rank). Для SEO это означает, что вход в ниши, идентифицированные как underserved (высокий спрос, низкое качество контента), представляет собой значительную возможность для быстрого роста при условии создания качественного контента.

    Детальный разбор

    Термины и определения

    Aggregate Ranking (Агрегированный ранг)
    Совокупная оценка авторитетности (Node Rank) документов, входящих в Topic Corpus по определенной теме.
    Aggregate Relevance (Агрегированная релевантность)
    Совокупная оценка релевантности (IR Score) документов, входящих в Topic Corpus, по отношению к запросам темы.
    IR Score (Information Retrieval Score)
    Оценка, измеряющая релевантность документа поисковому запросу.
    Node Rank (Ранг узла)
    Метрика, оценивающая авторитетность или репутацию документа (например, PageRank). Патент ссылается на U.S. Pat. No. 6,285,999 («Method for Node Ranking in a Linked Database»).
    Statistics Collection and Analysis Engine
    Компонент системы, который собирает поисковые логи, группирует запросы по темам и вычисляет Topic Corpus Quality Measure.
    Topic Corpus (Корпус темы)
    Весь набор документов, релевантных запросам, связанным с определенной темой.
    Topic Corpus Quality Measure (Мера качества корпуса темы)
    Метрика, определяющая общее качество доступного контента по теме. Вычисляется на основе Aggregate Relevance и Aggregate Ranking.
    Topic Distribution Engine (Механизм распространения тем)
    Компонент, который уведомляет создателей контента (издателей, пользователей) о темах, классифицированных как underserved.
    Underserved Topic (Недостаточно обслуживаемая тема)
    Тема, для которой спрос (объем поиска) значительно превышает предложение (качество доступного контента). Качество Topic Corpus ниже ожидаемого порога для данного уровня популярности.
    Underserved Topic Search Engine
    Предлагаемый сервис, позволяющий издателям искать контентные пробелы, релевантные их экспертизе.

    Ключевые утверждения (Анализ Claims)

    Патент US9020933B2 является продолжением (continuation) более ранних заявок. Анализ Claims фокусируется на ядре изобретения.

    Claim 1 (Независимый пункт): Описывает метод реагирования на поисковый запрос, включающий идентификацию контентного пробела и уведомление пользователя.

    1. Система получает поисковый запрос от пользователя.
    2. Определяется конкретная тема (particular search topic).
    3. Получается мера релевантности корпуса темы и значение объема поиска по теме (topic search volume value).
    4. Вычисляется мера качества корпуса темы (topic corpus quality measure) на основе релевантности и объема поиска.
    5. Определяется, что тема классифицируется как underserved topic, если мера качества ниже определенного порогового значения (specified threshold value).
    6. В ответ на запрос предоставляются данные, вызывающие отображение уведомления о том, что запрос связан с underserved topic.

    Claim 2 (Зависимый от 1): Описывает механизм стимулирования и компенсации.

    1. Система получает новый контент для underserved topic.
    2. Определяется, что новый контент увеличивает topic corpus quality measure.
    3. Система компенсирует поставщику нового контента на основе этого увеличения.

    Claim 5 и 6 (Зависимые от 1): Описывают методы определения порогового значения (т.е. как понять, что качество «слишком низкое» для данного спроса). Это ключевой момент — оценка является сравнительной.

    • Claim 5: Пороговое значение качества определяется путем сравнения с мерами качества ДРУГИХ тем, которые имеют схожий объем поиска. (Если качество темы А ниже, чем у тем Б и В с такой же популярностью, тема А — underserved).
    • Claim 6: Альтернативно, система сравнивает объем поиска текущей темы с объемами поиска ДРУГИХ тем, имеющих схожее качество корпуса. Если объем поиска текущей темы превышает пороговое значение объема, она классифицируется как underserved. (Если популярность темы А выше, чем у тем Г и Д с таким же качеством, тема А — underserved).

    Где и как применяется

    Изобретение описывает процессы анализа данных, которые происходят как офлайн (анализ всего индекса и логов), так и онлайн (реакция на конкретный запрос).

    INDEXING – Индексирование и извлечение признаков
    На этом этапе вычисляются и сохраняются базовые метрики, которые затем используются для анализа: IR Score (релевантность) и Node Rank (авторитетность). Система анализирует Online Topic Corpus, используя эти данные.

    QUNDERSTANDING – Понимание Запросов (Офлайн-анализ)
    Statistics Collection and Analysis Engine анализирует логи запросов для определения объема поиска (topic search volume value) и кластеризации запросов по темам. Здесь же происходит расчет агрегированного качества и сравнение его со спросом для идентификации Underserved Topics.

    RANKING – Ранжирование
    Алгоритмы ранжирования генерируют результаты поиска и предоставляют данные о качестве этих результатов (совокупность IR Score и Node Rank), которые используются для анализа.

    METASEARCH / RERANKING (Онлайн-применение)
    Если система определяет, что запрос относится к underserved topic (на основе предварительных вычислений), она может модифицировать SERP, добавляя уведомление пользователю о низком качестве результатов и, возможно, приглашение добавить контент (Claim 1).

    Входные данные:

    • Логи поисковых запросов (Search Logs).
    • Метрики релевантности (IR Scores).
    • Метрики авторитетности (Node Ranks).
    • Поведенческие данные (упоминаются в описании: клики, время просмотра результатов).

    Выходные данные:

    • Классификация тем (индекс underserved topics).
    • Topic Corpus Quality Measure для различных тем.
    • Уведомления для пользователей на SERP.
    • Данные для Topic Distribution Engine.

    На что влияет

    • Конкретные ниши или тематики: Наибольшее влияние оказывается на новые, быстрорастущие или узкоспециализированные ниши, где контент еще не создан или существует только на низкокачественных ресурсах. Также влияет на коммерческие ниши (патент упоминает использование для оценки интереса к продуктам).
    • Языковые и географические ограничения: Патент явно упоминает сбор данных о распределении языков (language distribution) и географии (geographic distribution). Система может идентифицировать, что тема хорошо освещена на одном языке, но является underserved на другом языке или в конкретном регионе.

    Когда применяется

    • Триггеры активации (Офлайн): Активируется при анализе логов и индекса, когда обнаруживается значительное несоответствие между topic search volume value и topic corpus quality measure по сравнению с эталонными порогами.
    • Триггеры активации (Онлайн): Активируется, когда пользователь вводит запрос, который система ассоциирует с темой, уже классифицированной как underserved.

    Пошаговый алгоритм

    Процесс А: Идентификация Underserved Topics (Офлайн-анализ)

    1. Сбор статистики и Ассоциация: Сбор данных из поисковых логов и кластеризация запросов в темы.
    2. Определение Спроса: Агрегация данных для определения популярности темы (topic search volume value).
    3. Определение Качества Предложения:
      1. Идентификация документов, составляющих Topic Corpus.
      2. Получение метрик качества для этих документов (IR Score и Node Rank).
      3. Вычисление Aggregate Relevance и Aggregate Ranking.
      4. Определение итоговой Topic Corpus Quality Measure.
    4. Сравнительный Анализ и Определение Порога:
      1. Определение ожидаемого порогового значения качества для данного объема поиска (путем сравнения с другими темами схожей популярности — Claim 5).
      2. ИЛИ определение ожидаемого порогового значения объема поиска для данного качества (Claim 6).
    5. Идентификация и индексация: Если качество значительно ниже порога (или объем значительно выше порога), тема идентифицируется как underserved. Она индексируется с указанием степени дефицита контента (Degree Underserved).

    Процесс Б: Обработка запроса и уведомление (Онлайн)

    1. Получение запроса и Определение темы: Система получает запрос и ассоциирует его с темой.
    2. Проверка статуса темы: Система проверяет, классифицирована ли тема как underserved.
    3. Генерация результатов: Стандартный процесс ранжирования.
    4. Уведомление пользователя: Если тема underserved, система генерирует уведомление о низком качестве контента (Claim 1).
    5. Приглашение к созданию контента: Система может предоставить пользователю приглашение добавить контент по этой теме.

    Какие данные и как использует

    Данные на входе

    Патент явно указывает на использование следующих типов данных для анализа спроса и предложения:

    • Ссылочные факторы (Авторитетность): Node Rank (явно упоминается ссылка на патент PageRank). Это ключевой компонент для оценки качества предложения (Supply).
    • Контентные факторы (Релевантность): IR Score (Information Retrieval Score). Используется для измерения релевантности предложения (Supply).
    • Поведенческие факторы (Спрос и Качество): Поисковые логи (search logs). Используются для определения объема поиска (Demand). Также в описании упоминается возможность отслеживания поведения пользователя (клик на результат, время изучения результата) для дополнительной оценки качества (Supply).
    • Временные факторы: Распределение запросов по времени (time distribution). Позволяет выявлять тренды и сезонный спрос.
    • Географические и Языковые факторы: Распределение запросов по языкам (language distribution) и географии (geographic distribution).

    Какие метрики используются и как они считаются

    • Topic Search Volume Value (Популярность/Спрос): Вычисляется путем подсчета количества запросов, связанных с темой за определенный период.
    • Topic Corpus Quality Measure (Качество/Предложение): Вычисляется путем агрегации IR Scores и Node Ranks всех релевантных документов по теме.
    • Specified Threshold Value (Пороговое значение): Эталонное значение. Определяется динамически на основе анализа других тем с аналогичным уровнем популярности или качества (Сравнительный анализ).
    • Degree Underserved (Степень дефицита): Метрика, показывающая, насколько сильно спрос превышает предложение.

    Выводы

    1. Google активно измеряет контентные пробелы: Система проводит мета-анализ своего индекса и логов для выявления тем, где качество контента не соответствует спросу (underserved topics).
    2. Качество = Релевантность + Авторитетность: Патент явно определяет, что качество контента оценивается как комбинация релевантности (IR Score) и авторитетности/репутации (Node Rank, т.е. PageRank или его аналоги).
    3. Оценка качества ниши является относительной: Статус underserved определяется не абсолютным значением качества, а относительно других тем. Тема считается недостаточно обслуживаемой, если ее качество ниже, чем у других тем с аналогичной популярностью (или популярность выше, чем у тем с аналогичным качеством).
    4. Прямое выявление возможностей для SEO: Патент описывает механизм поиска рыночных возможностей для создателей контента — тем с высоким спросом и низким качеством предложения.
    5. Мультиязычный и гео-анализ: Система учитывает язык и географию, что позволяет выявлять дефицит контента в конкретных регионах или на конкретных языках.
    6. Стимулирование контента: Google рассматривал механизмы активного стимулирования (включая уведомления пользователей и даже компенсацию издателям) за заполнение этих пробелов и повышение общей Topic Corpus Quality Measure.

    Практика

    Best practices (это мы делаем)

    • Системный поиск «Underserved Topics»: Стратегически выявляйте темы, где наблюдается высокий спрос (по данным инструментов анализа ключевых слов и трендов), но низкое качество контента в выдаче (слабые конкуренты, неавторитетные домены, неполные ответы, устаревшая информация). Это лучшая возможность для быстрого роста.
    • Фокус на комплексном качестве (Relevance + Authority): При создании контента в underserved нишах стремитесь к максимальной релевантности (высокий IR Score) и активно работайте над получением авторитетных ссылок (высокий Node Rank). Комбинация этих факторов необходима для захвата ниши и повышения Topic Corpus Quality Measure.
    • Анализ качества SERP для оценки ниши: При анализе конкурентов оценивайте не только их текстовую оптимизацию, но и их общий авторитет. Низкий совокупный авторитет сайтов в ТОПе при высоком спросе является сильным индикатором underserved topic.
    • Мультиязычная и региональная экспансия: Анализируйте спрос и качество контента в разных языковых и географических сегментах. Тема, которая высококонкурентна на английском языке в США, может быть underserved в других регионах или на других языках.
    • Создание авторитетного хаба (Aggregation): Если информация по теме фрагментирована (разбросана по многим источникам низкого качества), создайте исчерпывающий хаб. Патент упоминает aggregation site как один из способов решения проблемы неадекватного контента.

    Worst practices (это делать не надо)

    • Создание поверхностного контента в «Underserved Topics»: Попытка заполнить контентный пробел низкокачественным или автоматически сгенерированным контентом не будет эффективной. Цель системы — повысить качество, которое зависит от Node Rank и IR Score.
    • Фокус на «Overserved Topics»: Инвестирование ресурсов в создание контента для тем, где качество уже значительно превышает спрос (overserved, как упоминается в патенте). Конкуренция будет чрезвычайно высокой, а потенциальный ROI — низким.
    • Игнорирование авторитетности (Node Rank): Фокусироваться только на релевантности (IR Score) недостаточно. Без авторитетности контент не будет считаться высококачественным в контексте оценки Topic Corpus.

    Стратегическое значение

    Этот патент подчеркивает важность анализа рынка и данных при формировании SEO и контент-стратегии. Он подтверждает, что Google оценивает здоровье экосистемы контента в целом. Для Senior SEO-специалистов это означает, что стратегия должна быть направлена не просто на оптимизацию под существующие алгоритмы, а на поиск и заполнение реальных информационных потребностей пользователей там, где конкуренты не справляются. Способность идентифицировать underserved topics и быстро создавать для них авторитетный контент является ключевым стратегическим преимуществом.

    Практические примеры

    Сценарий: Идентификация и захват Underserved Niche

    1. Анализ Спроса (Demand): SEO-аналитик использует инструменты для выявления нового технологического тренда. Объем поиска высокий и растет (Высокий Topic Search Volume).
    2. Анализ Предложения (Supply): Аналитик изучает SERP. В ТОПе находятся в основном форумы (UGC), короткие новостные заметки и несколько неавторитетных блогов. Совокупный Node Rank и IR Score низкие (Низкий Topic Corpus Quality Measure).
    3. Идентификация возможности: Тема классифицируется как Underserved.
    4. Действие: Принимается решение о создании высококачественного контента. Создается исчерпывающее экспертное руководство (Pillar Page) и несколько поддерживающих статей (повышение IR Score).
    5. Усиление авторитета: Запускается кампания по линкбилдингу и PR, направленная на получение ссылок от авторитетных технологических изданий (повышение Node Rank).
    6. Результат: Сайт быстро занимает лидирующие позиции в этой нише, так как он значительно повысил общее качество доступного контента по теме, которую Google идентифицировал как недостаточно обслуживаемую.

    Вопросы и ответы

    Как этот патент определяет «качество» контента?

    Патент явно указывает, что качество контента (используемое для расчета Topic Corpus Quality Measure) определяется комбинацией двух ключевых факторов: IR Score (Information Retrieval Score), который измеряет релевантность документа запросу, и Node Rank (например, PageRank), который измеряет авторитетность и репутацию документа на основе ссылок. Для достижения высокого качества необходимы оба компонента.

    Что такое «Underserved Topic»?

    Это тема, где спрос на информацию значительно превышает качество доступного контента. Это не обязательно означает, что контента нет. Это означает, что существующий контент имеет низкое качество (низкий IR Score и/или Node Rank) по сравнению с тем, что ожидается для такого высокого объема поиска. Это сигнал о рыночной возможности для SEO.

    Как система определяет, что качество недостаточно для данного объема поиска?

    Система использует относительный подход (Claim 5 и 6). Она сравнивает качество корпуса текущей темы с качеством корпусов других тем, имеющих аналогичный объем поиска. Если качество текущей темы значительно ниже, чем у этих аналогов, она помечается как underserved. Пороговое значение (threshold value) определяется динамически на основе этих сравнений.

    Описывает ли патент новый алгоритм ранжирования?

    Нет, он не описывает алгоритм ранжирования. Он описывает систему мета-анализа индекса и поисковых логов, которая использует существующие сигналы ранжирования (IR Score, Node Rank) для оценки качества целых тематических ниш. Патент фокусируется на выявлении контентных пробелов, а не на сортировке результатов.

    Как SEO-специалист может на практике найти «Underserved Topics»?

    Необходимо искать несоответствия между спросом и предложением. Используйте инструменты анализа ключевых слов для поиска тем с высоким объемом поиска (спрос). Затем вручную проанализируйте SERP по этим темам, оценивая авторитетность доменов в ТОПе (предложение). Если в ТОПе доминируют слабые, неавторитетные сайты или результаты плохо отвечают на запрос, вы, вероятно, нашли underserved topic.

    Упоминает ли патент поведенческие факторы для оценки качества?

    Да. В описании патента (не в Claims) упоминается, что система может отслеживать поведение пользователя, такое как клики на результат и время изучения результата после клика («how long the user examines the results»), для оценки качества поиска. Это может быть дополнительным компонентом при расчете Topic Corpus Quality Measure.

    Влияет ли этот патент на международное SEO?

    Да, очень значительно. Патент подчеркивает сбор данных о language distribution и geographic distribution. Это позволяет системе определить, что тема может быть высококонкурентной (overserved) на одном языке или в одной стране, но недостаточно обслуживаемой (underserved) в другой. Это дает четкое обоснование для международной экспансии в нишах с низким качеством локального контента.

    Что такое «Overserved Topics» и стоит ли ими заниматься?

    В патенте кратко упоминается возможность использования системы для выявления over-served контента. Это темы, где качество контента намного выше, чем можно было бы ожидать, исходя из популярности темы. С точки зрения SEO, таких ниш лучше избегать, так как конкуренция будет экстремально высокой, а потенциальный трафик может не оправдать затрат.

    Какова связь этого патента с E-E-A-T?

    Патент напрямую связан с концепциями Авторитетности и Надежности (E-A-T, теперь E-E-A-T). Упоминание Node Rank (авторитетности) как ключевого компонента качества подтверждает важность E-E-A-T. Для заполнения underserved topic недостаточно просто написать релевантный текст; необходимо создать авторитетный ресурс, который заслужит высокий Node Rank.

    Патент упоминает компенсацию создателям контента (Claim 2). Как это работает?

    Патент предполагает создание системы стимулов (publisher-incentive system). Если создатель контента публикует материал, который значительно улучшает Topic Corpus Quality Measure для недообслуженной темы, Google может предоставить ему компенсацию. Это демонстрирует стремление Google активно стимулировать создание необходимого контента.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.