
Google прогнозирует оценку качества сайта, анализируя, какие фразы (N-граммы) используются и как часто они распределены по страницам сайта. Система создает «Фразовую модель», изучая известные высококачественные и низкокачественные сайты, а затем применяет эту модель для оценки новых сайтов по их лингвистическим паттернам.
Патент решает проблему автоматической и масштабируемой оценки качества сайта, особенно когда базовые оценки качества (Baseline Site Quality Scores) недоступны. Расчет базовых оценок может быть ресурсоемким (дорогим по времени или вычислительным ресурсам) или зависеть от сигналов, которых нет у новых сайтов. Изобретение позволяет прогнозировать качество, используя исключительно лингвистические характеристики контента (N-граммы) и их статистическое распределение по сайту.
Запатентована система, генерирующая Phrase Model (Фразовую модель) для прогнозирования качества сайта. Модель обучается на сайтах с известными оценками качества. Она устанавливает статистическую корреляцию между относительной частотой (Relative Frequency Measure) использования конкретных фраз (N-грамм) на сайте и качеством сайтов, демонстрирующих такую частоту. Эта модель затем используется для оценки новых сайтов по их «лингвистическому отпечатку».
Система работает в два этапа:
Relative Frequency Measure). Сайты группируются по этой частоте. Система вычисляет среднее качество сайтов в каждой группе. Так создается Phrase Model.Phrase Model, чтобы получить ожидаемую оценку качества, соответствующую этой частоте. Затем эти оценки агрегируются (Aggregate Site Quality Score) для получения итогового прогноза (Predicted Site Quality Score).Высокая. Оценка качества контента и E-E-A-T является центральной задачей Google. Этот патент описывает конкретный, масштабируемый метод оценки качества, основанный исключительно на анализе текста. Учитывая фокус на Helpful Content и борьбу с массово генерируемым контентом, лингвистический анализ качества крайне актуален. Участие Navneet Panda указывает на прямую связь с философией алгоритмов качества Google (Panda).
Патент имеет высокое стратегическое значение для SEO. Он демонстрирует механизм, позволяющий Google оценивать качество сайта на основе выбора слов (N-грамм) и их распределения по сайту. Это означает, что уникальность языка, экспертность терминологии, грамотность и естественность распределения контента напрямую влияют на Site Quality Score. Сайты с лингвистическими паттернами, схожими с низкокачественными ресурсами, будут пессимизированы.
Average Baseline Site Quality Scores для всех фраз, найденных на новом сайте.Baseline Site Quality Scores для группы сайтов, которые используют определенную фразу со схожей относительной частотой (т.е. находятся в одном Bucket).Smoothing) и для фильтрации фраз, которые не несут информации о качестве.Buckets) и Average Baseline Site Quality Score.Aggregate Site Quality Score. Используется как входной сигнал для Ranking Engine.Neutral Score.Claim 1 (Независимый пункт): Описывает полный метод прогнозирования качества сайта и его использования в ранжировании.
Baseline Site Quality Scores для набора предварительно оцененных сайтов.Phrase Model. Она определяет для каждой фразы соответствие между её Relative Frequency Measure и Average Baseline Site Quality Score. Aggregate Site Quality Score. Phrase Model извлекается соответствующая средняя базовая оценка качества.Predicted Site Quality Score.Ranking Scores для ресурсов. При расчете используются как базовые оценки качества (для известных сайтов), так и прогнозируемые оценки качества (для новых сайтов).Claim 2 (Зависимый): Уточняет, что фразы являются N-граммами (2, 3, 4 или 5-граммы).
Изобретение применяется на этапе индексирования для вычисления статических сигналов качества сайта и на этапе ранжирования.
INDEXING – Индексирование и извлечение признаков
Основное применение патента. Site Scoring Engine анализирует контент сайта.
Relative Frequency Measure для всех N-грамм на уровне сайта.Phrase Model, система рассчитывает Predicted Site Quality Score.RANKING – Ранжирование
Ranking Engine использует сохраненный Predicted Site Quality Score (или Baseline Site Quality Score, если он доступен) как один из сигналов для определения позиции ресурсов с этого сайта.
Офлайн-процессы (ML Training)
Генерация самой Phrase Model происходит офлайн. Это процесс машинного обучения, требующий анализа большого корпуса документов с известными Baseline Site Quality Scores.
Входные данные:
Phrase Model.Baseline Site Quality Scores.Выходные данные:
Predicted Site Quality Score для анализируемого сайта.YMYL-тематики vs спам или MFA-сайты).Phrase Model может использоваться для прогнозирования качества меньших коллекций текста (страницы, абзаца).Baseline Site Quality Scores (например, новые сайты).Phrase Model, или если их слишком мало (упоминаются пороги, например, минимум 3, 5, 10, 50 фраз).Процесс А: Генерация Фразовой Модели (Офлайн-обучение)
Baseline Site Quality Scores. Извлекаются все N-граммы (например, 2-5 граммы). Токенизация может сохранять ошибки из оригинального текста.Relative Frequency Measure (RFM): (Количество страниц с N-граммой) / (Общее количество страниц на сайте).Buckets) в зависимости от их RFM (например, 0-5%, 5-10% и т.д.).Average Baseline Site Quality Score, усредняя базовые оценки качества сайтов, попавших в этот сегмент.Phrase Model, которая хранит для каждой N-граммы вектор средних оценок качества по сегментам.Neutral Score), могут быть исключены из модели, так как они не информативны (например, фраза "on the").Процесс Б: Прогнозирование качества нового сайта (Индексирование)
Phrase Model и определяет, в какой сегмент (Bucket) она попадает исходя из её RFM.Average Baseline Site Quality Score, соответствующая этому сегменту.Aggregate Site Quality Score путем усреднения всех извлеченных оценок. Может использоваться взвешенное среднее (веса могут зависеть от частоты фразы или отклонения от Neutral Score).Smoothing путем линейной интерполяции с Neutral Score.Predicted Site Quality Score и передается в Ranking Engine.anchor text) ссылок, указывающих на страницу.Baseline Site Quality Scores.Bucket).Average Baseline Site Quality Scores для всех фраз нового сайта.Quotient превышает порог (например, 0.1-0.4), используется линейная интерполяция: Scoresmoothed=(Scoreaggregate×α)+(Scoreneutral×(1−α)), где α – коэффициент интерполяции (может быть функцией от Quotient).Site Quality Score для огромного количества сайтов, особенно новых, не требуя ресурсоемких базовых вычислений.Smoothing защищает систему от чрезмерного влияния небольшого числа фраз, предотвращая попытки манипулировать оценкой.Phrase Model.Phrase Model для вашей тематики.Патент подтверждает, что Google разработал сложные механизмы для оценки качества контента (и E-E-A-T) через прямой лингвистический анализ. Язык сайта сам по себе является сигналом ранжирования. Стратегия должна фокусироваться на создании контента, который не только информативен, но и написан языком, соответствующим ожиданиям качества в данной нише. Это механизм, позволяющий оценить E-E-A-T через призму фактически созданного контента.
Сценарий: Оценка нового медицинского сайта
Aggregate Site Quality Score.Что такое Baseline Site Quality Score и откуда он берется?
Baseline Site Quality Score — это эталонная оценка качества сайта, которая используется для обучения Phrase Model. Патент не уточняет, как именно она формируется, но указывает, что эти оценки могут быть результатом ресурсоемких вычислений или основываться на сигналах, доступных не для всех сайтов (например, данные асессоров, ссылочный профиль, сложные алгоритмы машинного обучения типа ядра Panda).
Насколько важна грамматика и орфография в контексте этого патента?
Критически важна. В патенте явно указано, что токенизация может проводиться без нормализации, то есть сохраняя любые ошибки, существующие в исходном тексте. Это означает, что N-граммы с ошибками становятся частью модели. Если такие N-граммы часто встречаются на низкокачественных сайтах, то новый сайт с такими же ошибками получит низкую прогнозируемую оценку качества.
Как именно работает Relative Frequency Measure? Это то же самое, что плотность ключевых слов?
Нет, это разные метрики. Плотность ключевых слов измеряет частоту слова на одной странице относительно общего числа слов на ней. Relative Frequency Measure измеряет, на каком проценте страниц всего сайта встречается данная фраза (N-грамма). Это метрика уровня сайта (site-wide), а не уровня страницы.
Какова связь этого патента с алгоритмом Google Panda?
Связь очень тесная. Изобретателем является Navneet Panda, и патент описывает механизм оценки качества сайта на основе анализа контента. Это полностью соответствует целям алгоритма Panda. Можно предположить, что Phrase Model является одним из инструментов, используемых системами типа Panda или Helpful Content System для классификации качества контента в масштабе всего интернета.
Как наличие большого количества шаблонного текста (boilerplate) влияет на эту модель?
Шаблонный текст (например, в футере, сайдбаре) появляется на большом проценте страниц, что дает ему высокую Relative Frequency Measure. Если фразы из этого текста в Phrase Model ассоциируются с низким качеством (например, агрессивные призывы к действию, спамные футеры), это может негативно повлиять на общую агрегированную оценку качества сайта.
Что такое Smoothing (Сглаживание) и зачем оно нужно?
Smoothing — это механизм защиты от манипуляций и статистических выбросов. Он активируется, если небольшое количество фраз оказывает слишком сильное влияние на итоговую оценку. В этом случае система «разбавляет» рассчитанную агрегированную оценку нейтральной (средней по интернету) оценкой с помощью линейной интерполяции. Это гарантирует, что оценка качества основана на широком наборе лингвистических сигналов.
Как оптимизировать сайт под этот алгоритм?
Оптимизация заключается в том, чтобы лингвистические характеристики вашего сайта соответствовали характеристикам высококачественных сайтов в вашей нише. Это достигается через использование экспертной терминологии, уникального авторского стиля, грамотности и естественного распределения тем и фраз по страницам сайта. Избегайте паттернов, свойственных спаму или сгенерированному контенту.
Какие N-граммы используются в модели?
В патенте упоминается использование 2-грамм, 3-грамм, 4-грамм или 5-грамм. Система может использовать N-граммы разной длины или фиксированной длины. Также упоминается, что редкие N-граммы (встречающиеся на очень малом количестве сайтов) могут исключаться из анализа.
Применяется ли этот алгоритм для оценки отдельных страниц?
Патент фокусируется на прогнозировании качества сайта (Site Quality). Однако в описании патента (не в Claims) упоминается, что в некоторых реализациях Phrase Model может использоваться для прогнозирования качества меньших коллекций текста, например, отдельной страницы, абзаца, предложения или даже запроса.
Заменяет ли Predicted Site Quality Score другие сигналы качества?
Нет, не обязательно заменяет. Он используется как входной сигнал для Ranking Engine. Его основная цель, согласно патенту, — обеспечить оценку качества для сайтов, у которых отсутствует Baseline Site Quality Score. Для сайтов, у которых есть базовая оценка, система использует её.

Антиспам
Семантика и интент
Мультимедиа

SERP
Семантика и интент

EEAT и качество
Антиспам
Индексация

SERP
Поведенческие сигналы

Краулинг
EEAT и качество
SERP

Ссылки
Индексация
Поведенческие сигналы

Антиспам
SERP
Ссылки

Семантика и интент
Поведенческие сигналы
Персонализация

Семантика и интент
Персонализация
SERP

Поведенческие сигналы
Мультимедиа
SERP

Свежесть контента
Антиспам
Ссылки

Поведенческие сигналы

Свежесть контента
Поведенческие сигналы
SERP

Ссылки
Индексация
Техническое SEO

SERP
Поведенческие сигналы
Семантика и интент
