
Патент Google, описывающий фундаментальную методологию создания систем оценки качества сайтов. Google использует машинное обучение (например, SVM), чтобы найти корреляции между оценками асессоров и измеримыми сигналами сайта (PageRank, клики). Для повышения точности применяется метод «предвзятой выборки» (Biased Sampling): система намеренно собирает больше оценок для сайтов среднего качества («сложных случаев»), чем для очевидно плохих или хороших.
Патент решает фундаментальную проблему масштабирования оценки качества контента. В условиях экспоненциального роста количества веб-сайтов (особенно блогов, которые часто упоминаются в патенте) невозможно оценить каждый ресурс вручную. Изобретение предлагает методологию для автоматического присвоения оценок качества сайтам, которые не были просмотрены человеком, путем обучения машинных моделей на основе данных, полученных от асессоров (raters).
Запатентована система и метод генерации автоматизированного сигнала качества сайта (calculated quality rating). Суть заключается в обучении модели машинного обучения (например, Support Vector Machine) на основе сопоставления оценок асессоров с измеримыми атрибутами сайтов (website signals). Ключевой особенностью является специфический метод отбора сайтов для разметки (biased sampling), который фокусируется на сайтах среднего качества для более точного обучения модели.
Система работает в несколько этапов:
initial quality score). Затем формируется выборка сайтов для асессоров, намеренно смещенная в сторону сайтов среднего качества, а не экстремально плохих или хороших.aggregate quality) всех страниц и связанного контента.SVM/SVR), система выявляет корреляции между сигналами сайта (упомянуты клики, PageRank, подписки) и оценками асессоров.calculated quality rating.Критически высокая. Описанная методология — использование оценок асессоров для обучения моделей машинного обучения, которые затем генерируют сигналы качества в масштабе всего интернета — является основой современных алгоритмов Google (таких как Helpful Content System и Core Updates). Инфраструктура и подход к обучению ML на основе Quality Rater Guidelines остаются центральными.
Патент имеет критическое значение (10/10) для понимания SEO-стратегии. Он описывает фундаментальный механизм того, как Google преобразует человеческое восприятие качества (E-E-A-T) в измеримый и масштабируемый сигнал ранжирования. Понимание того, что модели качества обучаются на основе человеческих оценок и используют измеримые сигналы в качестве входных данных, является ключом к разработке эффективной стратегии, ориентированной на качество.
broad appeal) или нишевую (niche appeal) привлекательность.Aggregate Quality.Click rate (частота кликов), blog subscription rate (уровень подписки на блог), PageRank.Claim 1 (Независимый пункт): Описывает основной метод генерации сигналов качества, включающий специфический метод выборки данных.
Initial Quality Score для множества сайтов на основе их атрибутов.Specified Quality Distribution.Website Quality Ratings, основанных на агрегированном качестве нескольких страниц сайта.Website Signals.machine learned model), характеризующей взаимосвязь между рейтингами и сигналами.Calculated Quality Ratings.Claim 2 и 3 (Зависимые): Уточняют применение изобретения в поиске.
Система использует сгенерированный Calculated Quality Rating для фильтрации (возвращая только сайты выше определенного порога) (Claim 2) и/или упорядочивания списка результатов поиска (Claim 3).
Claim 4, 5, 6 и 7 (Зависимые): Детализируют процесс сбора данных асессорами.
Асессоры также предоставляют классификацию категорий (например, Спам, Непристойное, Не загрузилось) и индикаторы привлекательности (Viewing Appeal). Сайты, классифицированные как Спам, Непристойное или Не загрузилось, фильтруются и не используются для обучения модели качества.
Claim 10 и 11 (Зависимые): Уточняют тип машинного обучения.
Модель может быть Support Vector Machine (SVM). Обучение SVM включает идентификацию гиперплоскости, которая максимизирует расстояние между опорными векторами (support vectors) и гиперплоскостью.
Этот патент описывает инфраструктурный процесс, который происходит преимущественно офлайн, но его результаты напрямую влияют на этапы индексирования и ранжирования.
INDEXING – Индексирование и извлечение признаков
На этом этапе система собирает и вычисляет исходные Website Signals (например, PageRank, данные о кликах), которые хранятся в Signal Store. После обучения модели, сгенерированный Calculated Quality Rating также сохраняется в индексе как важный признак (feature) сайта.
Офлайн-процессы (ML Training / Data Analysis)
Основная логика патента выполняется здесь:
Initial Quality Scores и формирование предвзятой выборки.SVM/SVR).Calculated Quality Rating для всего индекса.RANKING и RERANKING
Поисковая система (Search Device) использует сохраненный Calculated Quality Rating как фактор ранжирования для упорядочивания результатов или как фильтр для исключения сайтов, не достигающих определенного порога качества.
Входные данные:
Website Signals для большого количества сайтов.Website Quality Ratings, Category Classifications, Appeal Signals.Выходные данные:
Calculated Quality Ratings, присвоенные сайтам в индексе.blogs) как пример контента с сильно варьирующимся качеством. Методология применима к любым типам веб-сайтов.Calculated Quality Rating и понижать/фильтровать сайты с низким.Website Signals (например, если сигнал изменился более чем на 10%) или по расписанию.Процесс А: Подготовка данных и обучение модели (Офлайн)
Website Signals, которые предположительно коррелируют с качеством (например, PageRank, Click rate).Initial Quality Score (предварительная оценка качества).Quality Distribution (например, 10% низкое, 80% среднее, 10% высокое качество).Website Quality Rating, основанный на агрегированном качестве.Viewing Appeal.Website Signals.SVM или SVR).Процесс Б: Применение модели и использование в поиске
Website Signals всех неразмеченных сайтов в индексе.Calculated Quality Rating для каждого сайта.Signal Store.Calculated Quality Rating для фильтрации и ранжирования результатов по запросу пользователя.Система использует два основных типа входных данных: измеряемые сигналы сайта (для входа в модель) и данные человеческой оценки (для обучения модели).
Измеряемые сигналы сайта (Website Signals):
PageRank явно упоминается как мера важности сайта и индикатор качества.Click rate (частота кликов): Количество кликов или CTR по URL сайта в результатах поиска (упоминаются как общий поиск, так и поиск по блогам). Может быть нормализован по позиции.Blog subscription rate (уровень подписки): Количество пользователей, подписавшихся на блог (например, через Google Reader). Указывает на вовлеченность и лояльность аудитории.Данные человеческой оценки (Ground Truth):
Website Quality Rating: Оценка (например, 1-5). Факторы, упомянутые для оценки асессорами: оригинальность контента/аргументов, соотношение оригинального и скопированного контента, макет сайта, грамматика/орфография, наличие неполных страниц.Category classifications: Метки для фильтрации (спам, непристойный контент, не загрузился).Viewing Appeal: Классификация привлекательности (широкая или нишевая).Support Vector Machine (SVM) или Support Vector Regression (SVR). Также упоминаются логистическая регрессия и нейронные сети. SVM работает путем нахождения гиперплоскости, которая наилучшим образом разделяет сайты с разными оценками качества, максимизируя зазор между опорными векторами и гиперплоскостью.Calculated Quality Rating: Итоговая метрика качества сайта, являющаяся выходом обученной модели.PageRank (ссылочная авторитетность) и вовлеченность пользователей (click rate, subscription rate), используются как входные признаки для прогнозирования того, как человек оценил бы качество сайта.Support Vector Machines (одним из изобретателей является Corinna Cortes, эксперт по SVM) подтверждает использование сложных методов для нахождения нелинейных зависимостей и построения точных классификаторов качества.Calculated Quality Rating напрямую используется для упорядочивания и фильтрации результатов поиска.aggregate quality), и модель учится этому. Наличие большого количества низкокачественных страниц негативно повлияет на общую оценку.Website Signals для предсказания качества (примеры: PageRank, Click Rate), необходимо сосредоточиться на стратегиях, которые улучшают эти метрики естественным образом: получение качественных ссылок и создание контента, который привлекает и удерживает аудиторию.E-E-A-T и полезности, чтобы выделиться из среднего диапазона.Этот патент имеет фундаментальное значение для SEO. Он описывает инфраструктуру, лежащую в основе алгоритмов оценки качества (Core Updates, Helpful Content System). Стратегически это подтверждает, что E-E-A-T и пользовательский опыт — это не просто концепции, а характеристики, которые активно измеряются и моделируются с помощью сложного машинного обучения. Долгосрочная стратегия должна быть направлена на то, чтобы измеряемые сигналы сайта отражали реальное качество, которое воспринимают люди (асессоры).
Сценарий: Создание нового алгоритма качества (например, Helpful Content Update)
Патент описывает методологию, как такой алгоритм мог быть создан.
SVM или другую ML-модель для поиска корреляций между оценками полезности и сотнями доступных Website Signals (структура текста, ссылочный профиль, данные о кликах и т.д.). Модель учится на 800 сложных случаях.Calculated Quality Rating (оценку полезности) для каждого сайта.Что является источником истины (Ground Truth) для обучения моделей качества Google согласно этому патенту?
Источником истины являются Website Quality Ratings, присвоенные людьми-асессорами (raters). Цель модели машинного обучения — максимально точно предсказать, какую оценку поставил бы человек, основываясь только на измеримых сигналах сайта. Это подчеркивает критическую важность понимания и применения Google Quality Rater Guidelines (QRG) в SEO.
Какие конкретные сигналы используются для прогнозирования качества сайта?
Патент приводит три примера Website Signals, используемых как входные данные: PageRank (ссылочная авторитетность), Click rate (частота кликов в поиске) и Blog subscription rate (уровень подписки). Важно понимать, что это примеры 2008 года; современные системы используют гораздо больше сигналов, но типы сигналов (авторитетность, поведение, вовлеченность) остаются актуальными.
Оценивается ли качество отдельных страниц или сайта в целом?
Патент четко указывает, что асессоры присваивают рейтинг, основанный на агрегированном качестве (aggregate quality) нескольких веб-страниц сайта. Это означает, что оценивается общее впечатление от сайта, а не качество одной конкретной страницы. SEO-специалистам необходимо обеспечивать высокое качество на всем домене.
Что такое "смещенная выборка" (biased sampling) и зачем Google ее использует?
Это метод отбора сайтов для оценки, при котором система намеренно выбирает больше сайтов предполагаемого среднего качества и меньше сайтов экстремально низкого или высокого качества. Это делается для того, чтобы модель машинного обучения (особенно SVM) получила достаточно данных для выявления сложных нюансов качества и точного определения границы принятия решений в «пограничных» случаях.
Какой тип машинного обучения используется для создания модели качества?
Патент делает акцент на использовании Support Vector Machine (SVM) и Support Vector Regression (SVR). Это сложные алгоритмы, способные находить нелинейные зависимости между входными сигналами и оценками качества путем построения оптимальных гиперплоскостей в многомерном пространстве признаков. Также упоминаются нейронные сети.
Учитывает ли система тематику сайта или его направленность?
Да, косвенно. Патент упоминает, что асессоры определяют Viewing Appeal — является ли сайт привлекательным для широкой аудитории (broad appeal) или нишевым (niche appeal). Эти данные также могут быть использованы для обучения моделей или для корректировки ранжирования, например, для обеспечения разнообразия выдачи.
Как система обрабатывает спамные или непристойные сайты?
Асессоры специально маркируют такие сайты с помощью Category classifications. Патент указывает, что сайты, помеченные как спам, непристойные или незагрузившиеся, фильтруются и исключаются из набора данных перед обучением основной модели качества. Это делается для того, чтобы эти выбросы не искажали модель.
Как часто обновляются эти модели качества?
Патент указывает, что процесс обучения выполняется периодически, поскольку контент и сигналы сайтов меняются со временем. Также обновление может быть инициировано при значительном изменении ключевых сигналов (например, изменении PageRank на определенный процент). На практике это соответствует периодическим Core Updates и постоянной работе систем типа Helpful Content System.
Как этот патент связан с E-E-A-T?
Этот патент описывает техническую инфраструктуру для измерения E-E-A-T в масштабе. E-E-A-T — это концепция, используемая асессорами для присвоения Website Quality Rating (Ground Truth). Модель машинного обучения находит корреляцию между измеримыми сигналами и Ground Truth, генерируя Calculated Quality Rating, который и является алгоритмическим сигналом качества.
Стоит ли пытаться манипулировать входными сигналами, такими как Click Rate?
Манипулирование сигналами является рискованной тактикой. Модель обучается на комплексном наборе сигналов с помощью сложных алгоритмов (SVM), которые ищут естественные корреляции. Несоответствие между искусственно завышенными сигналами и реальным качеством контента может быть выявлено как аномалия. Лучшая стратегия — улучшать реальное качество, что естественным образом приведет к улучшению сигналов.

Свежесть контента
Индексация
Поведенческие сигналы

Поведенческие сигналы
SERP

SERP
Поведенческие сигналы

Поведенческие сигналы
SERP

SERP

Семантика и интент
Поведенческие сигналы
SERP

Поведенческие сигналы
SERP

Ссылки
Индексация
Техническое SEO

Мультиязычность
Семантика и интент
Ссылки

SERP
Поведенческие сигналы
Семантика и интент

EEAT и качество
Ссылки
SERP

Антиспам
SERP
Поведенческие сигналы

Knowledge Graph
Ссылки
EEAT и качество

Семантика и интент
Поведенческие сигналы
SERP

Семантика и интент
Персонализация
Поведенческие сигналы
