Как Google обучает ИИ-модели для автоматической оценки качества сайтов на основе данных асессоров и предвзятой выборки

Патент Google, описывающий фундаментальную методологию создания систем оценки качества сайтов. Google использует машинное обучение (например, SVM), чтобы найти корреляции между оценками асессоров и измеримыми сигналами сайта (PageRank, клики). Для повышения точности применяется метод «предвзятой выборки» (Biased Sampling): система намеренно собирает больше оценок для сайтов среднего качества («сложных случаев»), чем для очевидно плохих или хороших.

Описание

Какую задачу решает

Патент решает фундаментальную проблему масштабирования оценки качества контента. В условиях экспоненциального роста количества веб-сайтов (особенно блогов, которые часто упоминаются в патенте) невозможно оценить каждый ресурс вручную. Изобретение предлагает методологию для автоматического присвоения оценок качества сайтам, которые не были просмотрены человеком, путем обучения машинных моделей на основе данных, полученных от асессоров (raters).

Что запатентовано

Запатентована система и метод генерации автоматизированного сигнала качества сайта (calculated quality rating). Суть заключается в обучении модели машинного обучения (например, Support Vector Machine) на основе сопоставления оценок асессоров с измеримыми атрибутами сайтов (website signals). Ключевой особенностью является специфический метод отбора сайтов для разметки (biased sampling), который фокусируется на сайтах среднего качества для более точного обучения модели.

Как это работает

Система работает в несколько этапов:

Предварительная оценка и выборка (Biased Sampling): Система вычисляет начальную прогнозируемую оценку качества (initial quality score). Затем формируется выборка сайтов для асессоров, намеренно смещенная в сторону сайтов среднего качества, а не экстремально плохих или хороших.
Сбор оценок: Асессоры оценивают сайты по совокупному качеству (aggregate quality) всех страниц и связанного контента.
Обучение модели: Используя алгоритмы машинного обучения (например, SVM/SVR), система выявляет корреляции между сигналами сайта (упомянуты клики, PageRank, подписки) и оценками асессоров.
Применение: Обученная модель применяется к неразмеченным сайтам для генерации calculated quality rating.
Использование в поиске: Поисковая система использует этот расчетный рейтинг для фильтрации и/или ранжирования результатов.

Актуальность для SEO

Критически высокая. Описанная методология — использование оценок асессоров для обучения моделей машинного обучения, которые затем генерируют сигналы качества в масштабе всего интернета — является основой современных алгоритмов Google (таких как Helpful Content System и Core Updates). Инфраструктура и подход к обучению ML на основе Quality Rater Guidelines остаются центральными.

Важность для SEO

Патент имеет критическое значение (10/10) для понимания SEO-стратегии. Он описывает фундаментальный механизм того, как Google преобразует человеческое восприятие качества (E-E-A-T) в измеримый и масштабируемый сигнал ранжирования. Понимание того, что модели качества обучаются на основе человеческих оценок и используют измеримые сигналы в качестве входных данных, является ключом к разработке эффективной стратегии, ориентированной на качество.

Детальный разбор

Термины и определения

Aggregate Quality (Совокупное качество): Оценка качества веб-сайта в целом, основанная на анализе нескольких его страниц, а не только одной посадочной страницы.
Biased Sampling / Specified Quality Distribution (Предвзятая выборка / Заданное распределение качества): Метод отбора выборки сайтов для асессоров. Выборка намеренно смещается так, чтобы включить больше сайтов среднего качества, чем очень низкого или очень высокого. Это улучшает обучение модели на сложных случаях.
Calculated Quality Rating (Расчетный рейтинг качества): Оценка качества сайта, сгенерированная моделью машинного обучения для сайтов, которые не оценивались людьми. Используется в ранжировании.
Initial Quality Score / Normalized Quality Indicator (Начальная оценка качества): Предварительная оценка качества сайта, рассчитанная на основе известных сигналов. Используется для формирования предвзятой выборки.
Raters (Асессоры): Люди, которые оценивают веб-сайты (аналог Google Quality Raters), предоставляя обучающие данные (Ground Truth).
Support Vector Machine (SVM) / Support Vector Regression (SVR) (Метод опорных векторов): Алгоритмы машинного обучения. Они строят гиперплоскость в многомерном пространстве признаков (сигналов), которая наилучшим образом разделяет сайты разных классов качества.
Viewing Appeal (Привлекательность просмотра): Классификация контента асессором как имеющего широкую (broad appeal) или нишевую (niche appeal) привлекательность.
Website Quality Rating (Рейтинг качества веб-сайта): Оценка качества, присвоенная сайту человеком-асессором на основе Aggregate Quality.
Website Signals (Сигналы веб-сайта): Измеримые атрибуты сайта. Примеры в патенте: Click rate (частота кликов), blog subscription rate (уровень подписки на блог), PageRank.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод генерации сигналов качества, включающий специфический метод выборки данных.

Вычисление Initial Quality Score для множества сайтов на основе их атрибутов.
Отбор сайтов для оценки асессорами на основе этих начальных оценок И согласно заданной Specified Quality Distribution.
Ключевое условие выборки (Biased Sampling): Выборка должна включать:
- Первое количество (Q1) сайтов среднего качества (между низким и высоким порогом).
- Второе количество (Q2) сайтов низкого качества (ниже низкого порога).
- Третье количество (Q3) сайтов высокого качества (выше высокого порога).
- При этом Q1 должно быть больше, чем Q2 и Q3. (Система намеренно отбирает больше сайтов среднего качества).
Предоставление асессорам групп сайтов, включающих образцы из всех трех категорий (низкое, среднее, высокое качество).
Получение от асессоров Website Quality Ratings, основанных на агрегированном качестве нескольких страниц сайта.
Сопоставление этих рейтингов с Website Signals.
Создание модели машинного обучения (machine learned model), характеризующей взаимосвязь между рейтингами и сигналами.
Применение модели к неразмеченным сайтам для генерации Calculated Quality Ratings.

Claim 2 и 3 (Зависимые): Уточняют применение изобретения в поиске.

Система использует сгенерированный Calculated Quality Rating для фильтрации (возвращая только сайты выше определенного порога) (Claim 2) и/или упорядочивания списка результатов поиска (Claim 3).

Claim 4, 5, 6 и 7 (Зависимые): Детализируют процесс сбора данных асессорами.

Асессоры также предоставляют классификацию категорий (например, Спам, Непристойное, Не загрузилось) и индикаторы привлекательности (Viewing Appeal). Сайты, классифицированные как Спам, Непристойное или Не загрузилось, фильтруются и не используются для обучения модели качества.

Claim 10 и 11 (Зависимые): Уточняют тип машинного обучения.

Модель может быть Support Vector Machine (SVM). Обучение SVM включает идентификацию гиперплоскости, которая максимизирует расстояние между опорными векторами (support vectors) и гиперплоскостью.

Где и как применяется

Этот патент описывает инфраструктурный процесс, который происходит преимущественно офлайн, но его результаты напрямую влияют на этапы индексирования и ранжирования.

INDEXING – Индексирование и извлечение признаков
На этом этапе система собирает и вычисляет исходные Website Signals (например, PageRank, данные о кликах), которые хранятся в Signal Store. После обучения модели, сгенерированный Calculated Quality Rating также сохраняется в индексе как важный признак (feature) сайта.

Офлайн-процессы (ML Training / Data Analysis)
Основная логика патента выполняется здесь:

Предварительная оценка и Выборка: Вычисление Initial Quality Scores и формирование предвзятой выборки.
Оценка (Rating): Сбор данных от асессоров.
Обучение (Training): Генерация модели машинного обучения (SVM/SVR).
Применение (Inference): Расчет Calculated Quality Rating для всего индекса.

RANKING и RERANKING
Поисковая система (Search Device) использует сохраненный Calculated Quality Rating как фактор ранжирования для упорядочивания результатов или как фильтр для исключения сайтов, не достигающих определенного порога качества.

Входные данные:

Набор Website Signals для большого количества сайтов.
Данные от асессоров: Website Quality Ratings, Category Classifications, Appeal Signals.

Выходные данные:

Обученная модель машинного обучения (например, формула гиперплоскости SVM).
Calculated Quality Ratings, присвоенные сайтам в индексе.

На что влияет

Конкретные типы контента: Патент особо выделяет блоги (blogs) как пример контента с сильно варьирующимся качеством. Методология применима к любым типам веб-сайтов.
Качество выдачи: Влияет на все типы запросов, позволяя поисковой системе повышать сайты с высоким Calculated Quality Rating и понижать/фильтровать сайты с низким.

Когда применяется

Обучение модели: Происходит периодически офлайн. Это необходимо, так как сайты и их сигналы постоянно меняются.
Триггеры активации: Обновление модели может быть запущено при значительном изменении Website Signals (например, если сигнал изменился более чем на 10%) или по расписанию.
Применение модели: Происходит на этапе индексирования или обновления данных о сайте.
Использование рейтинга: Происходит при каждом поисковом запросе для ранжирования и фильтрации результатов.

Пошаговый алгоритм

Процесс А: Подготовка данных и обучение модели (Офлайн)

Идентификация предиктивных сигналов: Определение Website Signals, которые предположительно коррелируют с качеством (например, PageRank, Click rate).
Предварительный расчет и нормализация:
1. Нормализация значений сигналов (приведение к единой шкале, например, 0-1).
2. Расчет Initial Quality Score (предварительная оценка качества).
Формирование смещенной выборки (Biased Sampling):
1. Определение Quality Distribution (например, 10% низкое, 80% среднее, 10% высокое качество).
2. Отбор сайтов для заполнения этих сегментов (биннов).
Сбор человеческих оценок:
1. Асессоры просматривают сайты (несколько страниц) из выборки.
2. Присваивают Website Quality Rating, основанный на агрегированном качестве.
3. Классифицируют сайт (спам и т.д.) и определяют Viewing Appeal.
Подготовка данных для обучения: Фильтрация сайтов, помеченных как спам или незагрузившиеся. Ассоциация оставшихся оценок с соответствующими Website Signals.
Обучение модели (Model Training):
1. Использование алгоритма машинного обучения (например, SVM или SVR).
2. Модель определяет взаимосвязи, находя оптимальную гиперплоскость в n-мерном пространстве признаков, которая разделяет сайты разного качества. Фокус на сайтах среднего качества (которые с большей вероятностью станут опорными векторами).
3. Генерация математической формулы этой гиперплоскости (готовая модель).

Процесс Б: Применение модели и использование в поиске

Применение модели (Model Application): Модель применяется к Website Signals всех неразмеченных сайтов в индексе.
Генерация рейтинга: Расчет Calculated Quality Rating для каждого сайта.
Сохранение: Сохранение этих рейтингов в Signal Store.
Использование в поиске: Поисковая система использует Calculated Quality Rating для фильтрации и ранжирования результатов по запросу пользователя.

Какие данные и как использует

Данные на входе

Система использует два основных типа входных данных: измеряемые сигналы сайта (для входа в модель) и данные человеческой оценки (для обучения модели).

Измеряемые сигналы сайта (Website Signals):

Ссылочные факторы: PageRank явно упоминается как мера важности сайта и индикатор качества.
Поведенческие факторы:
- Click rate (частота кликов): Количество кликов или CTR по URL сайта в результатах поиска (упоминаются как общий поиск, так и поиск по блогам). Может быть нормализован по позиции.
- Blog subscription rate (уровень подписки): Количество пользователей, подписавшихся на блог (например, через Google Reader). Указывает на вовлеченность и лояльность аудитории.

Данные человеческой оценки (Ground Truth):

Website Quality Rating: Оценка (например, 1-5). Факторы, упомянутые для оценки асессорами: оригинальность контента/аргументов, соотношение оригинального и скопированного контента, макет сайта, грамматика/орфография, наличие неполных страниц.
Category classifications: Метки для фильтрации (спам, непристойный контент, не загрузился).
Viewing Appeal: Классификация привлекательности (широкая или нишевая).

Какие метрики используются и как они считаются

Методы машинного обучения: Основной метод — Support Vector Machine (SVM) или Support Vector Regression (SVR). Также упоминаются логистическая регрессия и нейронные сети. SVM работает путем нахождения гиперплоскости, которая наилучшим образом разделяет сайты с разными оценками качества, максимизируя зазор между опорными векторами и гиперплоскостью.
Нормализация сигналов: Для приведения различных сигналов к единой шкале (например, 0-1) при формировании выборки. Используется стандартная формула Min-Max Normalization: $\frac{SignalValue — MinValue}{MaxValue — MinValue}$ .
Calculated Quality Rating: Итоговая метрика качества сайта, являющаяся выходом обученной модели.

Выводы

Масштабирование человеческих суждений: Патент описывает фундаментальный механизм, позволяющий Google переводить субъективные оценки качества асессоров в алгоритмические сигналы, применимые ко всему вебу. Модели качества обучаются на основе данных асессоров (Quality Raters).
Агрегированная оценка качества (Aggregate Quality): Асессоры оценивают сайт в целом, просматривая несколько страниц. Это подчеркивает важность общего качества всего сайта, а не оптимизации отдельных страниц.
Важность методологии обучения (Biased Sampling): Ключевой аспект патента — использование смещенной выборки с акцентом на сайты среднего качества. Это позволяет модели лучше улавливать нюансы и строить более точные прогнозы в сложных случаях, а не просто отделять очевидный спам от супер-авторитетных сайтов.
Сигналы как предикторы качества: Патент явно указывает, что измеримые сигналы, такие как PageRank (ссылочная авторитетность) и вовлеченность пользователей (click rate, subscription rate), используются как входные признаки для прогнозирования того, как человек оценил бы качество сайта.
Использование продвинутого ML (SVM): Применение Support Vector Machines (одним из изобретателей является Corinna Cortes, эксперт по SVM) подтверждает использование сложных методов для нахождения нелинейных зависимостей и построения точных классификаторов качества.
Качество как фактор ранжирования и фильтрации: Сгенерированный Calculated Quality Rating напрямую используется для упорядочивания и фильтрации результатов поиска.

Практика

Best practices (это мы делаем)

Ориентация на Quality Rater Guidelines (QRG) и E-E-A-T: Поскольку система обучает модель машинного обучения на основе человеческих оценок, QRG является прямым источником информации о том, что Google считает качеством. Стратегия должна быть направлена на соответствие этим критериям, так как они служат эталоном (Ground Truth) для обучения алгоритмов.
Улучшение агрегированного качества сайта: Необходимо работать над качеством всего сайта, включая дизайн, юзабилити, оригинальность контента и техническое состояние. Асессоры оценивают сайт целиком (aggregate quality), и модель учится этому. Наличие большого количества низкокачественных страниц негативно повлияет на общую оценку.
Стимулирование естественных сигналов авторитетности и вовлеченности: Поскольку модель использует Website Signals для предсказания качества (примеры: PageRank, Click Rate), необходимо сосредоточиться на стратегиях, которые улучшают эти метрики естественным образом: получение качественных ссылок и создание контента, который привлекает и удерживает аудиторию.
Работа над «средней зоной» качества: Помните о предвзятой выборке. Google активно тренирует модели различать средние и хорошие сайты. Недостаточно быть просто «не спамом». Необходимо демонстрировать четкие сигналы E-E-A-T и полезности, чтобы выделиться из среднего диапазона.

Worst practices (это делать не надо)

Имитация сигналов без реального качества: Попытки искусственно завысить входные сигналы (например, накрутка кликов, покупка низкокачественных ссылок). Поскольку модель обучается предсказывать человеческую оценку, несоответствие между завышенными сигналами и реальным качеством контента может быть выявлено как аномалия.
Фокус на одной странице в ущерб сайту: Создание нескольких высококачественных страниц на сайте, который в остальном состоит из низкокачественного или скопированного контента. Агрегированная оценка качества будет низкой.
Игнорирование базовых показателей качества: Наличие грамматических ошибок, плохого макета, преимущественно скопированного контента или технических проблем приведет к низким оценкам асессоров и, как следствие, к низкой алгоритмической оценке.

Стратегическое значение

Этот патент имеет фундаментальное значение для SEO. Он описывает инфраструктуру, лежащую в основе алгоритмов оценки качества (Core Updates, Helpful Content System). Стратегически это подтверждает, что E-E-A-T и пользовательский опыт — это не просто концепции, а характеристики, которые активно измеряются и моделируются с помощью сложного машинного обучения. Долгосрочная стратегия должна быть направлена на то, чтобы измеряемые сигналы сайта отражали реальное качество, которое воспринимают люди (асессоры).

Практические примеры

Сценарий: Создание нового алгоритма качества (например, Helpful Content Update)

Патент описывает методологию, как такой алгоритм мог быть создан.

Постановка задачи: Google хочет идентифицировать «неполезный контент, созданный для поисковых систем».
Формирование выборки (Biased Sampling): Используя предварительные сигналы, Google отбирает 1000 сайтов: 100 очевидно полезных, 100 очевидного SEO-спама и 800 сайтов смешанного качества (фокус на сложных случаях).
Сбор оценок: Асессоры получают инструкции (QRG) по определению «полезности» и оценивают эти 1000 сайтов.
Обучение модели: Google запускает SVM или другую ML-модель для поиска корреляций между оценками полезности и сотнями доступных Website Signals (структура текста, ссылочный профиль, данные о кликах и т.д.). Модель учится на 800 сложных случаях.
Результат: Создается классификатор «полезности контента» (модель).
Применение: Модель применяется ко всему индексу, генерируя Calculated Quality Rating (оценку полезности) для каждого сайта.
Влияние на поиск: Сайты с низкой оценкой полезности понижаются в ранжировании.

Вопросы и ответы

Что является источником истины (Ground Truth) для обучения моделей качества Google согласно этому патенту?

Источником истины являются Website Quality Ratings, присвоенные людьми-асессорами (raters). Цель модели машинного обучения — максимально точно предсказать, какую оценку поставил бы человек, основываясь только на измеримых сигналах сайта. Это подчеркивает критическую важность понимания и применения Google Quality Rater Guidelines (QRG) в SEO.

Какие конкретные сигналы используются для прогнозирования качества сайта?

Патент приводит три примера Website Signals, используемых как входные данные: PageRank (ссылочная авторитетность), Click rate (частота кликов в поиске) и Blog subscription rate (уровень подписки). Важно понимать, что это примеры 2008 года; современные системы используют гораздо больше сигналов, но типы сигналов (авторитетность, поведение, вовлеченность) остаются актуальными.

Оценивается ли качество отдельных страниц или сайта в целом?

Патент четко указывает, что асессоры присваивают рейтинг, основанный на агрегированном качестве (aggregate quality) нескольких веб-страниц сайта. Это означает, что оценивается общее впечатление от сайта, а не качество одной конкретной страницы. SEO-специалистам необходимо обеспечивать высокое качество на всем домене.

Что такое «смещенная выборка» (biased sampling) и зачем Google ее использует?

Это метод отбора сайтов для оценки, при котором система намеренно выбирает больше сайтов предполагаемого среднего качества и меньше сайтов экстремально низкого или высокого качества. Это делается для того, чтобы модель машинного обучения (особенно SVM) получила достаточно данных для выявления сложных нюансов качества и точного определения границы принятия решений в «пограничных» случаях.

Какой тип машинного обучения используется для создания модели качества?

Патент делает акцент на использовании Support Vector Machine (SVM) и Support Vector Regression (SVR). Это сложные алгоритмы, способные находить нелинейные зависимости между входными сигналами и оценками качества путем построения оптимальных гиперплоскостей в многомерном пространстве признаков. Также упоминаются нейронные сети.

Учитывает ли система тематику сайта или его направленность?

Да, косвенно. Патент упоминает, что асессоры определяют Viewing Appeal — является ли сайт привлекательным для широкой аудитории (broad appeal) или нишевым (niche appeal). Эти данные также могут быть использованы для обучения моделей или для корректировки ранжирования, например, для обеспечения разнообразия выдачи.

Как система обрабатывает спамные или непристойные сайты?

Асессоры специально маркируют такие сайты с помощью Category classifications. Патент указывает, что сайты, помеченные как спам, непристойные или незагрузившиеся, фильтруются и исключаются из набора данных перед обучением основной модели качества. Это делается для того, чтобы эти выбросы не искажали модель.

Как часто обновляются эти модели качества?

Патент указывает, что процесс обучения выполняется периодически, поскольку контент и сигналы сайтов меняются со временем. Также обновление может быть инициировано при значительном изменении ключевых сигналов (например, изменении PageRank на определенный процент). На практике это соответствует периодическим Core Updates и постоянной работе систем типа Helpful Content System.

Как этот патент связан с E-E-A-T?

Этот патент описывает техническую инфраструктуру для измерения E-E-A-T в масштабе. E-E-A-T — это концепция, используемая асессорами для присвоения Website Quality Rating (Ground Truth). Модель машинного обучения находит корреляцию между измеримыми сигналами и Ground Truth, генерируя Calculated Quality Rating, который и является алгоритмическим сигналом качества.

Стоит ли пытаться манипулировать входными сигналами, такими как Click Rate?

Манипулирование сигналами является рискованной тактикой. Модель обучается на комплексном наборе сигналов с помощью сложных алгоритмов (SVM), которые ищут естественные корреляции. Несоответствие между искусственно завышенными сигналами и реальным качеством контента может быть выявлено как аномалия. Лучшая стратегия — улучшать реальное качество, что естественным образом приведет к улучшению сигналов.