Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует специфические сигналы качества и паттерны публикаций для ранжирования блогов и борьбы со спамом

    RANKING BLOG DOCUMENTS (Ранжирование документов блогов)
    • AU2011204929B2
    • Google LLC
    • 2013-01-10
    • 2011-07-21
    2011 Антиспам Патенты Google Ссылки

    Система ранжирования для поиска по блогам, которая комбинирует релевантность запросу (Relevance Score) с независимой оценкой качества (Quality Score). Эта оценка качества вычисляется на основе индикаторов, специфичных для блогов: паттерны частоты публикаций, равномерность размера постов, наличие в блогроллах, популярность в RSS-ридерах и совпадение контента в фиде и на сайте. Система использует эти данные для выявления автоматизации и спама.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему обеспечения высокого качества результатов в специализированном поиске по блогам (blog search engine). Учитывая сильную вариативность качества контента в блогах, изобретение направлено на выявление и пессимизацию низкокачественных блогов и спама (например, автоматически генерируемых блогов или ‘splogs’), а также на продвижение качественного и популярного контента, используя сигналы, специфичные для экосистемы блогов.

    Что запатентовано

    Запатентована система и метод для ранжирования blog documents (блогов или постов). Суть изобретения заключается в вычислении независимой от запроса оценки качества (Quality Score) на основе индикаторов, специфичных для блогов, и последующем комбинировании этой оценки с традиционной оценкой релевантности запросу (Relevance Score или Topical Relevance). Это позволяет корректировать рейтинг, повышая или понижая документы в зависимости от их качества.

    Как это работает

    Система работает в два основных этапа:

    1. Оценка качества (Query-Independent): Система анализирует blog documents и вычисляет Quality Score. Для этого используются положительные индикаторы (например, количество подписчиков через RSS, ссылки из авторитетных blogrolls, Pagerank, CTR в поиске) и отрицательные индикаторы (например, роботизированная частота публикаций, одинаковый размер постов, несовпадение контента в фиде и на сайте, избыток рекламы).
    2. Ранжирование (Query-Dependent): При получении запроса система вычисляет Relevance Score (IR score). Затем этот показатель корректируется с помощью предопределенного Quality Score для получения итогового Ranking Score (или Overall Score).

    Актуальность для SEO

    Средняя/Высокая. Патент основан на заявке 2006 года, и многие упомянутые технологии (Blogrolls, RSS-ридеры как основной сигнал популярности) устарели. Однако описанные в нем техники оценки качества контента, основанные на анализе паттернов публикаций (частота, вариативность объема) и выявлении автоматической генерации, крайне актуальны в 2025 году для ранжирования любого часто обновляемого контента (новости, современные блоги) и борьбы с массово генерируемым контентом.

    Важность для SEO

    Патент имеет значительное влияние (7/10) на SEO-стратегии для сайтов с блогоподобной структурой (блоги, новостные разделы, сайты с регулярными обновлениями). Он детально раскрывает, какие паттерны поведения Google интерпретирует как признаки качества или автоматизации/спама. Понимание этих индикаторов критично для избежания классификации сайта как низкокачественного, особенно в контексте использования ИИ для генерации контента.

    Детальный разбор

    Термины и определения

    Blog Document (Документ блога)
    Широкий термин, используемый в патенте для обозначения блога целиком, отдельного поста в блоге или и того, и другого.
    Blogroll (Блогролл)
    Коллекция ссылок на внешние сайты (обычно другие блоги), которые интересуют автора блога. Используется как индикатор популярности и качества.
    Blog Search Engine (Поисковая система по блогам)
    Специализированная поисковая система, которая сканирует, индексирует и ранжирует только blog documents.
    Feed (Фид, Лента)
    Канал распространения контента блога (например, RSS или Atom). Используется для подписок и анализа контента.
    Feed Reader / News Aggregator (RSS-ридер, Агрегатор новостей)
    Сервисы, позволяющие пользователям подписываться на фиды блогов. Количество подписок используется как индикатор популярности.
    Implied Popularity (Подразумеваемая популярность)
    Индикатор популярности, основанный на анализе потока кликов (click stream) в результатах поиска (CTR).
    Quality Score (Оценка качества)
    Метрика, определяющая качество документа блога. Рассчитывается независимо от поискового запроса на основе позитивных и негативных индикаторов, специфичных для блогов.
    Relevance Score / IR Score (Оценка релевантности)
    Стандартная оценка информационного поиска (Information Retrieval score), показывающая релевантность документа поисковому запросу.
    Subscription Spam (Спам подписками)
    Попытки манипуляции популярностью, когда спамеры подписываются на свои собственные блоги. Система пытается валидировать подписки по уникальным пользователям или IP-адресам.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод ранжирования в поисковой системе по блогам.

    1. Получение blog document, отвечающего поисковому запросу.
    2. Генерация Relevance Score (зависит от запроса).
    3. Генерация Quality Score (не зависит от запроса). Ключевое условие: эта оценка основана на множестве индикаторов, специфичных для документов блога (indicators that are specific to blog documents).
    4. Генерация Ranking Score на основе Relevance Score и Quality Score.
    5. Предоставление информации о документе блога на основе Ranking Score.

    Claims 2-9 (Зависимые пункты): Детализируют, какие именно индикаторы, специфичные для блогов, используются для расчета Quality Score. Это ядро изобретения.

    Claim 2: Индикаторы включают наличие ссылки на документ блога в одном или нескольких блогроллах (blogrolls) других блогов.

    Claim 3 и 4: Индикаторы включают частоту добавления постов (frequency). Quality Score генерируется на основе того, соответствует ли частота добавления постов определенному порогу (что может указывать на спам-паттерны).

    Claim 5, 6 и 7: Индикаторы включают контент постов. Quality Score генерируется путем сравнения контента поста в блоге и контента, извлеченного из фида (feed). Индикатор срабатывает как при обнаружении разницы (Claim 6, указывает на потенциальный клоакинг/спам), так и при ее отсутствии (Claim 7).

    Claim 8 и 9: Индикаторы включают размер постов (size). Quality Score генерируется путем сравнения размера одного поста с другими постами в этом же блоге. Индикатор срабатывает, если размеры постов находятся в пределах порогового значения длины друг от друга (т.е. они почти одинаковые, что может указывать на автогенерацию).

    Где и как применяется

    Изобретение применяется в специализированной blog search engine и затрагивает этапы индексирования и ранжирования.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе происходит основная работа по оценке качества. Система собирает информацию о блогах, включая контент постов, фиды (Feeds) и метаданные. Производится анализ паттернов публикаций (частота, размер постов) и контента. Также система агрегирует внешние сигналы (ссылки, включение в Blogrolls, данные о подписках, Pagerank, данные кликстрима). На основе этих данных вычисляется и сохраняется Quality Score. Этот процесс происходит независимо от поисковых запросов.

    RANKING – Ранжирование
    На этом этапе для документов-кандидатов, отобранных по запросу, вычисляется Relevance Score (IR Score).

    RERANKING – Переранжирование
    На финальном этапе Relevance Score комбинируется с предварительно рассчитанным Quality Score для получения итогового Ranking Score (Overall Score). Это может привести к повышению (promotion), понижению (demotion) или исключению документа из результатов.

    Входные данные:

    • Контент блога и постов.
    • Фиды (Feeds) блога.
    • Временные метки и размеры постов.
    • Внешние сигналы: данные из агрегаторов новостей (подписки), данные о тегировании, ссылки (включая Blogrolls и Pagerank), данные кликстрима (CTR).

    Выходные данные:

    • Quality Score для каждого документа блога (на этапе индексирования).
    • Финальный Ranking Score (на этапе ранжирования).

    На что влияет

    • Конкретные типы контента: Патент строго сфокусирован на ранжировании документов блогов (blog documents) в рамках специализированного поисковика.

    Когда применяется

    • При каких условиях работает алгоритм: Алгоритм применяется при обработке запросов в поисковой системе по блогам для ранжирования документов, идентифицированных как блоги или посты.
    • Триггеры активации и пороговые значения: В патенте упоминаются пороги для конкретных индикаторов:
      • Частота постов: превышение порога или соответствие предсказуемому паттерну (например, пост каждые 10 минут).
      • Размер постов: если размеры постов находятся в пределах порогового значения длины друг от друга (слишком похожи).
      • Распределение ссылок: если количество ссылок на один внешний сайт превышает порог.
    • Временные рамки и частота применения: Расчет Quality Score происходит периодически на этапе индексирования. Применение Quality Score для корректировки ранжирования происходит в реальном времени при каждом поисковом запросе.

    Пошаговый алгоритм

    Процесс А: Расчет Quality Score (Индексация / Офлайн)

    1. Сбор данных: Получение информации о документе блога (блог, пост, метаданные, фиды).
    2. Идентификация позитивных индикаторов (Качество и Популярность):
      • Анализ популярности: количество подписок в Feed Readers (с валидацией против Subscription Spam).
      • Анализ Implied Popularity: анализ кликстрима/CTR в результатах поиска.
      • Анализ авторитетности: Pagerank (включая наследование Pagerank блога новыми постами).
      • Анализ связей: Наличие в Blogrolls (особенно в высококачественных или у доверенных блогеров).
      • Анализ вовлеченности: Тегирование пользователями, упоминания в email/чатах.
    3. Идентификация негативных индикаторов (Спам и Автоматизация):
      • Анализ частоты постинга: выявление всплесков или предсказуемых интервалов.
      • Анализ размера постов: выявление идентичной или очень похожей длины многих постов (distribution of post sizes).
      • Анализ контента: несовпадение контента в фиде и на сайте; дублирование контента; наличие спамных слов и фраз.
      • Анализ ссылок: неестественное распределение исходящих ссылок (высокий процент ссылок на один внешний сайт).
      • Анализ рекламы: большое количество или размещение в основном контенте поста.
    4. Вычисление Quality Score: Определение итоговой оценки качества путем взвешивания и комбинирования идентифицированных позитивных и негативных индикаторов.
    5. Сохранение: Ассоциирование Quality Score с документом блога в базе данных.

    Процесс Б: Ранжирование по запросу (Онлайн)

    1. Получение запроса: Прием поискового запроса от пользователя.
    2. Расчет релевантности: Определение Relevance Score (IR score) для набора документов блога на основе запроса.
    3. Получение Quality Score: Извлечение предварительно рассчитанных оценок качества для этих документов.
    4. Вычисление итоговой оценки: Определение Overall Score путем комбинирования Relevance Score и Quality Score.
    5. Ранжирование и выдача: Предоставление пользователю ранжированного набора документов на основе Overall Score.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст постов. Контент в фидах (Feeds). Система сравнивает контент на сайте и в фиде для выявления несовпадений. Анализируется наличие слов и фраз из списка часто встречающихся в спаме.
    • Технические факторы: IP-адреса подписчиков (используются для валидации подписок и защиты от Subscription Spam).
    • Ссылочные факторы:
      • Входящие: Pagerank. Наличие ссылок на блог в Blogrolls других сайтов (количество и качество источников).
      • Исходящие: Распределение исходящих ссылок (link distribution). Анализ концентрации ссылок на один внешний сайт.
    • Поведенческие факторы: Implied Popularity (анализ кликстрима, CTR в результатах поиска). Количество подписок через агрегаторы. Tagging (пользовательская категоризация контента). Упоминания URL блога в email или чатах.
    • Временные факторы: Частота новых постов (frequency of new posts). Анализируются паттерны публикаций (всплески активности или предсказуемые интервалы).
    • Структурные факторы: Размер постов (size of the posts). Анализируется распределение размеров для выявления автогенерации.
    • Коммерческие факторы: Наличие и расположение рекламы (в секции постов или в секции метаданных/блогролла).

    Какие метрики используются и как они считаются

    • Quality Score: Агрегированная метрика качества, независимая от запроса. Рассчитывается путем взвешивания и комбинирования позитивных и негативных индикаторов. Конкретные веса не указаны.
    • Relevance Score (IR Score): Стандартная метрика релевантности контента запросу (количество вхождений терминов, их расположение, близость и т.д.).
    • Ranking Score (Overall Score): Финальная оценка ранжирования, комбинация Quality Score и Relevance Score (в примере патента показано сложение).
    • Метрики спама и автоматизации (с порогами):
      • Паттерны частоты постинга (сравнение с порогами или шаблонами).
      • Дисперсия размеров постов (низкая дисперсия или нахождение в пределах порогового значения длины указывает на спам).
      • Процент спамных фраз.
      • Процент исходящих ссылок на один домен (сравнение с порогом).
      • Степень несовпадения контента между блогом и фидом.

    Выводы

    1. Специализированная оценка качества: Google разрабатывает уникальные наборы сигналов качества для разных типов контента. Качество блогов оценивается по факторам, характерным именно для этой среды (фиды, блогроллы, частота постинга). Quality Score рассчитывается независимо от запроса.
    2. Борьба с автоматизацией и спамом через анализ паттернов: Ключевой фокус патента — выявление неестественного поведения. Анализ паттернов частоты публикаций (всплески или предсказуемые интервалы) и схожести размеров постов направлен на борьбу с автоматической генерацией контента.
    3. Важность консистентности данных (Feed vs Site): Сравнение контента на сайте и в его фиде (feed) является механизмом обнаружения попыток манипуляции (клоакинга). Несовпадение является сильным негативным сигналом.
    4. Поведенческие сигналы как индикаторы качества: Система активно использует поведенческие данные: количество подписок и клики в результатах поиска (Implied Popularity/CTR) как прямые индикаторы популярности и качества.
    5. Наследование авторитетности: Упоминание о том, что новые посты могут наследовать Pagerank блога, подтверждает принцип наследования качества от домена к отдельным страницам до момента расчета их собственных метрик.
    6. Анализ монетизации и исходящих ссылок: Избыточное или агрессивное размещение рекламы (особенно внутри контента поста) и неестественное распределение исходящих ссылок (концентрация на одном сайте) являются негативными факторами качества.

    Практика

    Best practices (это мы делаем)

    Хотя патент сфокусирован на блогах, его принципы актуальны для любых контентных проектов.

    • Поддерживайте естественный ритм публикаций: Публикуйте контент с естественной частотой. Избегайте массовой публикации большого количества статей одномоментно (всплески) или публикации по строгому графику (например, ровно каждые 30 минут), так как это может быть интерпретировано как автоматизация (Frequency of new posts).
    • Варьируйте длину и формат контента: Убедитесь, что длина ваших постов естественно варьируется. Если все статьи имеют одинаковый объем, это может быть сигналом автоматической генерации (Size of the posts).
    • Обеспечьте полное соответствие RSS-фида и контента сайта: Контент, отдаваемый в RSS/Atom фиде, должен точно соответствовать контенту на сайте. Любые различия будут негативным сигналом (Content Mismatch).
    • Стимулируйте естественную популярность и CTR: Работайте над качеством контента и оптимизацией сниппетов, чтобы пользователи активно кликали на ваши результаты в поиске (Implied Popularity).
    • Контролируйте размещение рекламы: Избегайте чрезмерного количества рекламы и не размещайте ее внутри основного контента поста, предпочитая сайдбары или отведенные блоки (Presence of ads).

    Worst practices (это делать не надо)

    • Автоматическая генерация контента (включая ИИ без редактуры): Генерация большого количества постов, которые имеют одинаковую длину и публикуются через равные промежутки времени. Патент прямо идентифицирует эти паттерны как индикаторы спама.
    • Манипуляции с фидами (Клоакинг): Показ разного контента пользователям на сайте и в RSS-фиде с целью манипуляции ранжированием.
    • Неестественные исходящие ссылки: Размещение большого количества исходящих ссылок, большинство из которых ведут на один и тот же внешний сайт (Link Distribution).
    • Искусственное наращивание подписок (Subscription Spam): Использование ботов для подписки на собственный RSS-фид. Система пытается валидировать уникальность пользователей и IP-адресов.

    Стратегическое значение

    Патент демонстрирует, что Google давно использует структурный и поведенческий анализ для оценки качества контента и выявления автоматизации. В эпоху генеративного ИИ эти принципы (анализ вариативности длины, частоты публикаций, естественности ссылочного профиля) остаются фундаментальными для дифференциации качественного контента от автоматически сгенерированного спама. Стратегия должна фокусироваться на имитации естественного человеческого поведения в создании и публикации контента.

    Практические примеры

    Сценарий: Оптимизация новостного раздела для избежания фильтров автогенерации

    1. Анализ: SEO-специалист анализирует новостной раздел клиента и замечает, что все новости имеют объем 2000-2200 символов и публикуются строго каждые 15 минут в рабочее время.
    2. Проблема (на основе патента): Сайт рискует быть пессимизированным из-за негативных индикаторов: Size of the posts (посты одинакового размера) и Frequency of new posts (предсказуемые интервалы).
    3. Действия:
      • Рекомендовать редакции варьировать объем новостей (от коротких заметок до аналитических статей).
      • Изменить логику публикации: вместо строгого интервала публиковать новости по мере готовности, создавая естественный график (например, интервалы в 5, 20, 12 минут).
    4. Ожидаемый результат: Снижение риска классификации контента как автоматически сгенерированного, улучшение Quality Score.

    Сценарий: Проверка консистентности контента (RSS)

    1. Ситуация: Внедрение нового плагина для монетизации RSS-фидов.
    2. Анализ (на основе патента): Проверка, не изменяет ли плагин контент в фиде по сравнению с сайтом.
    3. Обнаружение проблемы: Плагин добавляет в RSS-фид рекламный блок, которого нет в основном контенте на сайте.
    4. Гипотеза: Система обнаружит несовпадение контента (Content Mismatch), что приведет к снижению Quality Score.
    5. Действие: Настройка плагина или его замена для обеспечения полного соответствия контента в фиде и на сайте.

    Вопросы и ответы

    Что в патенте понимается под «неестественной частотой постинга»?

    Патент выделяет два типа неестественной частоты, которые коррелируют со спамом. Первый — это всплески активности (много постов за короткий промежуток времени). Второй — предсказуемые интервалы (например, пост ровно каждые 10 минут или в 32 минуты каждого часа). Оба паттерна считаются негативными индикаторами, указывающими на автоматизацию.

    Опасно ли использовать функцию отложенного постинга или планирования публикаций в CMS?

    Само по себе использование планирования не опасно. Риск возникает, если это приводит к публикации контента по строго предсказуемому расписанию с одинаковыми интервалами. Для SEO безопаснее публиковать контент с вариативными интервалами, имитируя естественное поведение автора.

    Что означает негативный индикатор «посты одинакового размера»?

    Если большинство постов в блоге имеют идентичную или очень похожую длину (например, все статьи строго по 500 слов), это считается надежным признаком автоматической генерации контента (automated post generators). Естественный контент, созданный человеком, обычно варьируется по длине. Для SEO важно обеспечивать разнообразие объемов контента.

    Что такое «Content Mismatch» и почему это важно?

    Это ситуация, когда контент в RSS-фиде блога отличается от контента на самом сайте. Спамеры могут отдавать оптимизированный контент в фид для поисковых систем, а на сайте показывать другой контент (например, рекламу). Google проверяет это соответствие, и несовпадение является сильным негативным сигналом качества, схожим с клоакингом.

    Актуален ли этот патент, учитывая, что сигналы типа Blogrolls и RSS-ридеры устарели?

    Да, патент сохраняет концептуальную актуальность. Хотя конкретные технологии устарели, базовые принципы эволюционировали. Концепция Blogrolls эволюционировала в анализ авторитетных ссылок (E-E-A-T). Концепция подписок эволюционировала в анализ вовлеченности. Принципы анализа паттернов публикаций для борьбы с автоматизацией актуальны как никогда, особенно для борьбы с ИИ-контентом.

    Как используется CTR (Implied Popularity) в этом патенте?

    Патент описывает метрику Implied Popularity, основанную на анализе кликстрима в результатах поиска. Если определенный документ блога кликают чаще, чем другие документы в выдаче, это считается признаком популярности и позитивным индикатором качества, повышающим Quality Score.

    Влияет ли реклама на ранжирование блога согласно патенту?

    Да, влияет негативно. Большое количество рекламы считается негативным индикатором качества. Кроме того, патент особо выделяет размещение рекламы: если реклама находится в основном контенте поста (recent posts part), а не в метаданных или блогролле, это также пессимизируется.

    Наследует ли новый пост авторитет (Pagerank) всего блога?

    Да. В патенте прямо указано, что если для нового поста еще не рассчитан собственный Pagerank, он может наследовать Pagerank блога, с которым он связан. Этот унаследованный Pagerank служит позитивным индикатором качества нового поста.

    Как анализируются исходящие ссылки в этом патенте?

    Анализируется распределение ссылок (link distribution). Если высокий процент всех исходящих ссылок из постов или блога указывает на один внешний сайт, и это превышает определенный порог, это считается негативным индикатором качества, указывающим на попытку манипуляции ранжированием или создание сплога.

    Что делать, если мой контент генерируется автоматически (например, агрегатор), но он качественный?

    Необходимо внести элементы естественности, чтобы избежать срабатывания детекторов автоматизации. Варьируйте длину и структуру контента, избегайте публикации по строгому расписанию. Необходимо генерировать положительные сигналы (авторитетность, вовлеченность), которые могут перевесить отрицательные технические индикаторы, связанные с автоматизацией.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.