
Google применяет систему для обнаружения бессмысленного контента (спама), вычисляя «Gibberish Score». Эта оценка состоит из двух частей: «Language Model Score», проверяющего статистическую вероятность того, что текст является естественным языком, и «Query Stuffing Score», который выявляет неестественное скопление реальных пользовательских запросов на странице. Ресурсы с низким баллом понижаются в выдаче или удаляются из индекса.
Патент решает проблему обнаружения и нейтрализации Gibberish Content (бессмысленного контента), который создается спамерами для манипулирования поисковой выдачей и монетизации трафика. Это включает борьбу с такими техниками, как перенасыщение ключевыми словами (keyword stuffing), автоматическая генерация контента путем скрапинга и случайного склеивания фрагментов, а также использование низкокачественного машинного перевода. Изобретение направлено на улучшение качества SERP путем удаления или понижения таких ресурсов.
Запатентована система для вычисления Gibberish Score (оценки бессмысленности) для веб-ресурсов. Изобретение использует два независимых механизма: Language Model Score (LMS), который оценивает вероятность того, что текст соответствует естественному языку с помощью статистических моделей (например, N-gram), и Query Stuffing Score (QSS), который определяет, не состоит ли контент из неестественно высокой концентрации известных поисковых запросов. Итоговый Gibberish Score используется для модификации Ranking Score ресурса.
Система анализирует ресурс по двум направлениям:
Query Index (базу реальных запросов пользователей). Она проверяет, сколько различных запросов, связанных с самыми частыми терминами документа, фактически присутствует в тексте. Высокий коэффициент совпадений (Hit Ratio) указывает на Query Stuffing.Gibberish Score ниже определенных порогов, ресурс может быть удален из ранжирования или значительно понижен (демотирован).Высокая. Принципы, описанные в патенте, являются фундаментальными для обнаружения низкокачественного и машинно-сгенерированного контента. Хотя конкретные языковые модели эволюционировали (от N-grams к трансформерам), задача статистического анализа естественности языка и обнаружения манипулятивного использования ключевых слов остается критически важной для поддержания качества поиска, особенно в эпоху генеративного ИИ.
Патент имеет высокое значение для SEO (8/10). Он напрямую нацелен на обнаружение и наказание за использование распространенных black/grey hat тактик, таких как кейворд стаффинг, спиннинг контента и автоматическая генерация. Он демонстрирует механизмы, с помощью которых Google измеряет «естественность» языка и паттерны использования ключевых слов, подчеркивая необходимость создания качественного, органичного контента.
N-gram модель), которая определяет вероятность появления определенной строки слов в языке. Используется для оценки естественности текста.Query Index.Query Index для определенного ключа (термина), которые были найдены в тексте ресурса.Language Model Score и Query Stuffing Score. Используется для определения необходимости модификации Ranking Score.Claim 1 (Независимый пункт): Описывает основной метод идентификации бессмысленного контента, объединяющий два подхода.
Query Index, созданного на основе запросов, отправленных пользователями поисковой системе за определенный период. Индекс связывает термины (ключи) с запросами, которые их содержат.Language Model Score путем применения языковой модели к контенту.Query Stuffing Score. Это включает: Query Stuffing Score на основе среднего значения (average) этих рассчитанных соотношений.Gibberish Score на основе Language Model Score и Query Stuffing Score.Ranking Score ресурса на основе Gibberish Score.Claim 2 (Зависимый от 1): Детализирует расчет Language Model Score.
Text Segments.segment score), основанной на вероятности появления последовательности слов в естественном языке.Language Model Score на основе этих оценок сегментов.Claim 5 (Зависимый от 1): Уточняет метод расчета итогового Gibberish Score.
Расчет Gibberish Score определяется как минимальное значение (minimum score) из Language Model Score и Query Stuffing Score. Это означает, что ресурс должен пройти обе проверки, чтобы считаться качественным.
Claim 6 (Зависимый от 1): Описывает применение Gibberish Score с использованием пороговых значений.
Gibberish Score меньше или равен первому пороговому значению (Threshold 1).Ranking Score ресурса, если Gibberish Score больше Threshold 1, но меньше второго порогового значения (Threshold 2).Ranking Score без изменений, если Gibberish Score больше или равен Threshold 2.Изобретение применяется на ключевых этапах обработки контента и формирования выдачи.
INDEXING – Индексирование и извлечение признаков
Основное применение патента. Во время индексирования система анализирует контент ресурса:
<p>) для идентификации Text Segments.Language Model Score с использованием статистических языковых моделей.Query Stuffing Score с использованием Query Index (который строится офлайн на основе логов запросов).Gibberish Score. Этот балл сохраняется как признак качества документа в индексе.RANKING / RERANKING – Ранжирование и Переранжирование
На этапе ранжирования система использует рассчитанный Gibberish Score для модификации итогового Ranking Score документа. В зависимости от пороговых значений (Claim 6), документ может быть удален из результатов, понижен или оставлен без изменений.
Входные данные:
N-gram модели).Query Index.Выходные данные:
Gibberish Score для ресурса.Ranking Score или решение об исключении ресурса из ранжирования.Gibberish Score. Применение пенальти происходит во время ранжирования.Gibberish Score падает ниже установленных порогов (Threshold 1 и 2). Это происходит при обнаружении статистических аномалий в языке или высокого Hit Ratio при анализе запросов.Gibberish Score может быть отключена для URL-запросов или сайт-запросов (site queries), чтобы эти результаты возвращались независимо от оценки контента.Процесс анализа ресурса можно разделить на три основные фазы.
Фаза 1: Предварительная обработка
Text Segments. HTML-теги (например, <p>) используются для определения границ сегментов (например, параграфов).Фаза 2: Расчет оценок
Модуль A: Расчет Language Model Score (LMS)
N-gram модель).gibberish.Модуль B: Расчет Query Stuffing Score (QSS)
Hit Ratio среди проанализированных частотных терминов.Фаза 3: Финальная оценка и применение
Gibberish Score сравнивается с порогами T1 и T2 для определения действия (удаление, понижение или без изменений).N-grams).<p>, <h1> и т.д.) используются для разделения контента на Text Segments.query log) используются для офлайн-генерации Query Index.Query Index для данного термина, которые были найдены в тексте ресурса.Language Model Score) и манипулятивное использование запросов (Query Stuffing Score). Провала по любому из направлений может быть достаточно для пессимизации, так как часто используется минимальное значение из двух оценок.N-grams). Это позволяет алгоритмически выявлять машинно-сгенерированный, склеенный или плохо переведенный контент.Query Index). Наличие слишком большого количества разных запросов, связанных с одним термином (высокий Hit Ratio), считается неестественным и является сильным индикатором спама.Text Segments (например, абзацев). Это позволяет обнаруживать вставки бессмысленного текста и оценивать общую долю низкокачественного контента в документе.Gibberish Score, включая полное удаление из ранжирования или значительное понижение, в зависимости от пороговых значений.Language Model Score, так как последовательности слов будут соответствовать статистическим ожиданиям языковой модели.gibberish.Query Stuffing Score.<p>, <h1>-<h6>) для логического структурирования контента. Это помогает системе корректно разделить текст на Text Segments для анализа.Language Model Score.Hit Ratio при расчете Query Stuffing Score.gibberish из-за несоответствия языковой модели.Language Model Score.Патент подтверждает, что Google использует сложные статистические и математические методы для борьбы с контентным спамом. Качество контента — это не абстрактное понятие, а набор измеримых метрик. В контексте развития генеративного ИИ эти принципы остаются фундаментальными. SEO-стратегия должна базироваться на создании качественного, оригинального контента, который демонстрирует естественное владение языком и глубокое раскрытие темы, избегая любых форм манипулятивного или автоматизированного создания текста.
Сценарий 1: Обнаружение Query Stuffing в описании услуги
Query Index и видит, что для этих ключей есть сотни запросов.Hit Ratio рассчитывается как аномально высокий, что приводит к низкому Query Stuffing Score.Сценарий 2: Обнаружение спиннинга контента (Language Model Score)
N-gram) анализирует последовательности слов. Вероятность фраз "Скоростное принесение" или "сердце города" в данном контексте низкая в корпусе естественного языка.gibberish.gibberish, общий Language Model Score будет низким, и страница будет пессимизирована.Чем описанный механизм Query Stuffing отличается от простого анализа плотности ключевых слов?
Анализ плотности считает повторения одного термина. Механизм Query Stuffing Score значительно сложнее. Он проверяет, сколько *различных* реальных пользовательских запросов (из Query Index), связанных с этим термином, было вставлено в текст. Наличие множества разных вариаций запросов в одном блоке текста неестественно и является сильным индикатором спама (высокий Hit Ratio).
Что такое N-gram модель и как она определяет «бессмысленный» контент?
N-gram модель — это статистическая языковая модель, которая знает частотность последовательностей слов в естественном языке. Например, она знает, насколько часто слово "яблоко" следует за словом "зеленое". Если текст содержит много последовательностей слов с низкой вероятностью (например, результат плохого спиннинга или машинного перевода), модель присвоит ему низкую оценку (Language Model Score), классифицируя его как бессмысленный.
Может ли этот патент обнаруживать контент, сгенерированный современными ИИ (LLM)?
Патент был подан в 2009 году и ориентирован на более примитивные методы генерации. Современные LLM генерируют текст, который статистически может быть очень похож на естественный язык, поэтому им может быть сложнее получить низкий Language Model Score по этой методике. Однако механизм Query Stuffing Score все еще актуален, если ИИ-контент используется для массового перенасыщения текста ключевыми запросами без создания реальной ценности.
Насколько сильно может быть понижен сайт, если его контент признан бессмысленным?
Меры очень строгие. Патент описывает три уровня: полное удаление из ранжирования (если Gibberish Score очень низкий, ниже Threshold 1), значительное понижение (взвешивание Ranking Score, если оценка между Threshold 1 и Threshold 2), или отсутствие изменений (выше Threshold 2). Риск полного исчезновения страницы из поиска реален.
Как система использует HTML-теги в этом процессе?
HTML-теги, такие как <p> (параграф), <h1> (заголовок) или <br> (перенос строки), используются для разделения контента на Text Segments. Анализ (особенно Language Model Score) проводится на уровне этих сегментов, а затем агрегируется для всего ресурса. Корректная верстка помогает правильному анализу.
Что произойдет, если мой текст естественный, но я часто использую одно ключевое слово?
Если текст естественный, Language Model Score будет высоким. Система проверит частое слово через Query Stuffing Score. Если вы используете его в естественном контексте, а не вставляете множество разных поисковых запросов, содержащих это слово, Hit Ratio будет низким. В этом случае наказания по этому патенту, скорее всего, не последует.
Как формируется Query Index?
Query Index формируется офлайн путем анализа логов поисковых запросов пользователей за определенный период (например, месяц). Запросы фильтруются (удаляются стоп-слова, URL и т.д.) и индексируются по содержащимся в них терминам. Это позволяет системе знать все популярные формулировки запросов для любого ключевого слова.
Что означает, если система берет минимум из Language Model Score и Query Stuffing Score?
Это означает, что контент должен пройти обе проверки (Claim 5). Если текст написан идеально естественно (высокий LMS), но при этом перенасыщен поисковыми запросами (низкий QSS), итоговый Gibberish Score будет низким. И наоборот. Провала по любому из направлений достаточно для пессимизации.
Влияет ли этот алгоритм на локализованные версии сайта (переводы)?
Да, влияет. Если локализованная версия создана с помощью некачественного машинного перевода, она будет иметь низкий Language Model Score для соответствующего языка, так как сгенерированные фразы не будут соответствовать статистической модели этого языка. Это подчеркивает важность качественной локализации.
Что делать, если на странице много списков или таблиц с терминами?
Патент упоминает возможность фильтрации определенных типов контента перед анализом. Например, короткие фрагменты текста (как пункты меню) или последовательности имен собственных (как списки имен или адресов) могут быть исключены, так как они часто не представляют собой естественный язык в формате предложений, но и не являются спамом.

Семантика и интент
SERP

EEAT и качество
Антиспам
Индексация

EEAT и качество
Ссылки
SERP

SERP
EEAT и качество
Персонализация

Семантика и интент
SERP

Ссылки
SERP
Техническое SEO

Ссылки
SERP

Knowledge Graph
Семантика и интент
EEAT и качество

Мультиязычность
Ссылки
SERP

Поведенческие сигналы
SERP
Антиспам

Local SEO
Поведенческие сигналы
Свежесть контента

Семантика и интент
Поведенческие сигналы
Персонализация

Ссылки
SERP

EEAT и качество
Техническое SEO
Ссылки

SERP
Поведенческие сигналы
Персонализация
