Как Google комбинирует сигналы и оптимизирует данные для создания высокоточных классификаторов контента (Спам, YMYL, SafeSearch)

Патент описывает инфраструктуру Google для создания высокоточных классификаторов. Он включает метод отбора разнообразных обучающих данных (Bootstrapping/Bucketing) и математическую модель (Monotonic Regression) для объединения оценок от разных классификаторов (например, текста, изображений, ссылок) в единую вероятностную оценку.

Описание

Какую задачу решает

Патент решает две фундаментальные проблемы в автоматической классификации контента:

Недостаточная уверенность отдельных классификаторов: Отдельные классификаторы часто не обеспечивают достаточного уровня уверенности (confidence level) для принятия автоматических действий (например, фильтрации), особенно на уровне сайта (site level), где ошибка затрагивает все страницы.
Неэффективность отбора обучающих данных: Случайная выборка документов для обучения (с помощью асессоров) неэффективна, если целевое свойство встречается редко или если сигналы разных классификаторов сильно скоррелированы. Трудно обеспечить покрытие всех комбинаций сигналов, включая пограничные случаи.

Что запатентовано

Запатентована система для повышения точности классификации путем объединения оценок (scores) от нескольких классификаторов в единую вероятностную оценку. Для этого используется модель Монотонной Регрессии (Monotonic Regression). Ключевой частью изобретения (и фокусом Claims этого патента) является метод оптимизированного отбора обучающих данных (Bootstrapping или Bucketing), который гарантирует сбалансированность и разнообразие выборки.

Как это работает

Система работает в двух режимах:

Обучение: Сначала система оптимизирует выборку документов для разметки асессорами (human raters) с помощью Bootstrapping, гарантируя разнообразие комбинаций сигналов и баланс классов. Затем на основе размеченных данных строится multiple classifier model с использованием Monotonic Regression. Эта модель предполагает, что чем выше оценка отдельного классификатора, тем выше (или не ниже) итоговая вероятность.

Применение: При анализе нового документа каждый классификатор (например, текстовый, визуальный, ссылочный) выдает свою оценку. Модель комбинирует их и вычисляет итоговый Combined Score — калиброванную вероятность наличия свойства. Если она превышает порог, документ классифицируется соответствующим образом.

Актуальность для SEO

Высокая. Классификация контента (Helpful Content System, Spam Detection, YMYL, SafeSearch) критически важна для Google. Этот патент описывает фундаментальный и вычислительно эффективный подход к агрегации сигналов и оптимизации обучающих данных, который остается актуальным в современной инфраструктуре машинного обучения.

Важность для SEO

Влияние на SEO значительное, но косвенное (6.5/10). Патент описывает не факторы ранжирования, а инфраструктуру для создания классификаторов. Он демонстрирует способность Google объединять множество разнородных сигналов (текстовых, визуальных, ссылочных) в сильную итоговую классификацию (например, Quality Score или Spam Score), которая затем используется в ранжировании или фильтрации выдачи. Это подчеркивает важность комплексного подхода к качеству сайта.

Детальный разбор

Термины и определения

Bootstrapping / Bucketing (Бутстрэппинг / Бакетирование): Метод отбора обучающей выборки. Включает разделение диапазонов оценок классификаторов на интервалы (бакеты) и выборку документов из разных комбинаций этих интервалов для обеспечения разнообразия и сбалансированности данных.
Classifier (Классификатор): Алгоритм, анализирующий определенные признаки документа (текст, изображения, ссылки) и выдающий оценку (score) вероятности наличия свойства.
Combined Score (Комбинированная оценка): Итоговая оценка, вычисленная моделью путем агрегации оценок отдельных классификаторов. Интерпретируется как калиброванная вероятность.
Document Property (Свойство документа): Характеристика, по которой классифицируется документ. Примеры в патенте: adult-контент (porn), финансовая тематика (finance), язык.
Maximum Likelihood Estimation (MLE, Оценка максимального правдоподобия): Статистический метод для построения модели. Цель — найти параметры модели, которые максимизируют вероятность наблюдения фактических данных (оценок асессоров) из обучающей выборки.
Monotonic Regression (Монотонная регрессия): Метод машинного обучения для комбинирования оценок. Основан на предположении монотонности: если оценка одного классификатора увеличивается, итоговая вероятность также увеличивается или остается неизменной.
Training Documents / Training Group (Обучающая выборка): Набор документов, размеченных асессорами (human raters). Используется для построения модели.
Transitive Reduction (Транзитивное сокращение): Метод оптимизации вычислений. Используется для ускорения построения модели монотонной регрессии на больших наборах данных путем удаления избыточных связей (сокращения ограничений монотонности) в графе зависимостей.

Ключевые утверждения (Анализ Claims)

Важно отметить, что данный патент (US9104972B1) является продолжением (continuation) более ранней заявки. В то время как описание (Description) патента подробно обсуждает механизм монотонной регрессии, формула изобретения (Claims 1-20) этого конкретного патента фокусируется исключительно на методе выбора обучающих данных (Bootstrapping/Bucketing).

Claim 1 (Независимый пункт): Описывает метод выбора обучающей выборки для тренировки модели множественных классификаторов (D distinct classifiers).

Вычисление оценок: Для коллекции документов вычисляются оценки с помощью D классификаторов.
Определение порогов: Для каждого классификатора (j) определяются нижний (a_j) и верхний (b_j) пороги вероятности наличия свойства P.
Определение интервалов: Диапазон между a_j и b_j для каждого классификатора делится на несколько интервалов.
Группировка (Бакетизация): Каждый документ назначается в определенную комбинацию интервалов (бакет) на основе его оценок.
Идентификация комбинаций: Определяются все существующие (непустые) комбинации интервалов.
Выборка: Из каждой существующей комбинации интервалов выбирается не более M документов.
Обучение: Multiple classifier model обучается с использованием этих выбранных документов.

Ядро изобретения — это метод формирования обучающей выборки, который гарантирует, что модель будет обучена на разнообразных комбинациях сигналов, а не только на самых частотных. Это позволяет построить робастную модель, корректно обрабатывающую пограничные случаи и документы с противоречивыми сигналами (например, когда один классификатор дает высокую оценку, а другой — низкую).

Claim 5 (Зависимый): Уточняет, как делятся интервалы.

Определяется «средняя» оценка (m_j) для каждого классификатора. Интервалы делятся поровну (K/2) между нижним порогом и средним [a_j, m_j] и между средним и верхним [m_j, b_j]. Это обеспечивает сбалансированное покрытие оценок.

Claim 7 (Зависимый от 1): Утверждает, что примерно половина выбранных для обучения документов должна обладать свойством P.

Это обеспечивает баланс классов в обучающей выборке, что критически важно для эффективного обучения, особенно если свойство P редко встречается в общем корпусе документов.

Где и как применяется

Изобретение затрагивает офлайн-процессы подготовки данных, этап индексирования и влияет на финальное ранжирование.

Офлайн-процессы (Model Training)
На этом этапе происходит построение классификаторов:

Bootstrapping/Bucketing: Система анализирует оценки классификаторов на большом корпусе и выбирает оптимальную обучающую выборку (запатентованный метод из Claims).
Human Rating: Выбранные документы отправляются асессорам (human raters) для разметки.
Model Training: На основе разметки обучается multiple classifier model с использованием Monotonic Regression (описано в Description).

INDEXING – Индексирование и извлечение признаков
Во время индексации документа:

Feature Extraction: Применяются отдельные классификаторы для расчета их оценок (scores).
Classification: Обученная модель используется для расчета Combined Score.
Annotation: Итоговая классификация (например, метки «Spam», «YMYL», «Adult», «Language») сохраняется в индексе.

RERANKING – Переранжирование (Filtering)
Результаты классификации используются на финальных этапах. Например, при активации Restricted Search (SafeSearch) система использует сохраненные классификации или списки (lists/blacklist) для фильтрации результатов.

Входные данные (для обученной модели):

Оценки (scores) от D различных классификаторов, примененных к документу.

Выходные данные:

Combined Score (вероятность наличия свойства).
Бинарная классификация на основе порога.

На что влияет

Специфические ниши и тематики: Наибольшее влияние в областях, требующих высокой точности классификации: фильтрация нежелательного контента (Adult, насилие) или идентификация специфических тем. Патент явно упоминает porn, finance, sports. Метод универсален и применим для определения спама, качества контента и YMYL-тематик.
Типы контента: Влияет на все типы контента, так как комбинирует классификаторы, работающие с текстом, изображениями, ссылками.
Уровень анализа: Применимо как к отдельным документам (Web pages), так и к сайтам в целом (Web sites). Классификация на уровне сайта требует высокой уверенности (high confidence).
Язык документа: Патент упоминает применение метода для определения основного языка документа.

Когда применяется

Обучение модели: Происходит периодически офлайн для создания или обновления классификаторов.
Применение модели: Происходит во время индексации каждого документа для его классификации.
Использование результатов: В реальном времени при обработке запросов для ранжирования (если классификация используется как сигнал) или фильтрации.

Пошаговый алгоритм

Процесс состоит из трех основных фаз.

Фаза 1: Отбор обучающих данных (Bootstrapping/Bucketing – защищено в Claims)

Сбор данных: Вычисление оценок D классификаторов для большой коллекции документов.
Определение параметров: Установка желаемого размера выборки N. Определение необходимого количества интервалов K. Установка порогов (нижний aj, верхний bj, средний mj) для каждого классификатора.
Создание интервалов: Разделение диапазона оценок [aj, bj] на K интервалов для каждого классификатора, сбалансированных вокруг mj.
Бакетирование: Распределение документов по многомерным бакетам (корзинам). Каждый бакет соответствует уникальной комбинации интервалов.
Отбор выборки: Выбор ограниченного числа документов из каждого непустого бакета для формирования Training Group, обеспечивая максимальное разнообразие комбинаций сигналов.
Итеративная настройка: При необходимости параметры K и mj корректируются для достижения баланса классов (цель ~50% положительных примеров) и нужного размера N.
Ручная разметка: Передача отобранных документов асессорам (human raters).

Фаза 2: Построение модели (Monotonic Regression – описано в Description)

Подготовка данных: Использование размеченных данных из Фазы 1.
Построение графа монотонности: Создание направленного графа, где узлы — документы. Ребро от i к j проводится, если все оценки у j не ниже, чем у i (ограничение монотонности).
Оптимизация графа: Применение Transitive Reduction для удаления избыточных связей и ускорения вычислений.
Вычисление модели: Решение задачи выпуклой оптимизации (например, с использованием алгоритма Max Flow/Min Cut) для нахождения вероятностей, которые максимизируют правдоподобие (MLE) при соблюдении ограничений монотонности.

Фаза 3: Применение модели (Классификация)

Получение документа и оценок: Расчет Scores с помощью D классификаторов для нового документа.
Обработка отсутствующих оценок (Missing Scores): Если классификатор не сработал, система может использовать значение по умолчанию или применить альтернативную модель, обученную на подмножестве доступных классификаторов.
Расчет вероятности: Использование обученной модели для вычисления Combined Score.
Классификация: Сравнение Combined Score с заданным порогом уверенности (threshold value). Упоминается возможность установки разных порогов (например, 98% для высокой уверенности).
Действие: Присвоение метки или добавление документа в список (например, blacklist).

Какие данные и как использует

Данные на входе

Патент описывает методологию и не специфицирует конкретные факторы. Однако он приводит примеры данных, которые могут использовать классификаторы:

Контентные факторы: Текстовое содержание. Упоминаются классификаторы (text classifiers), анализирующие текст, заголовок (title) и URL. Пример: подсчет тематических ключевых слов.
Мультимедиа факторы: Изображения. Упоминаются image classifiers и возможность использования OCR для извлечения текста из изображений.
Ссылочные факторы: В примере упоминается классификатор, подсчитывающий количество ссылок на известные авторитетные сайты определенной тематики (например, финансовые).
Данные асессоров (Human Rater Data): Бинарная разметка (0 или 1) для обучающей выборки. Критически важны для обучения.

Какие метрики используются и как они считаются

Classifier Score: Оценка, выдаваемая отдельным классификатором.
Combined Score (p): Итоговая вероятность, рассчитанная моделью.
Алгоритмы машинного обучения: Monotonic Regression для комбинирования сигналов. Maximum Likelihood Estimation (MLE) для построения модели.
Статистические методы и оптимизация: Convex Optimization, Max Flow/Min Cut problem, Transitive Reduction.
Параметры Bootstrapping (a_j, b_j, m_j, K, N): Метрики для управления процессом отбора обучающих данных.

Выводы

Инфраструктура для агрегации сигналов: Google обладает мощной и вычислительно эффективной методологией для объединения множества разнородных сигналов в единую, высокоточную классификацию. Это основа для создания классификаторов качества (E-E-A-T, HCU), тематики, спама и т.д.
Критичность и оптимизация обучающих данных: Все Claims патента посвящены сложному методу отбора данных (Bootstrapping). Google прилагает значительные усилия, чтобы обучающие выборки (размеченные асессорами) были сбалансированными и покрывали все возможные комбинации признаков, включая пограничные и противоречивые случаи. Это делает итоговые классификаторы очень надежными и робастными.
Принцип Монотонности (Monotonicity): Ключевое предположение системы — улучшение любого релевантного сигнала должно улучшать (или не ухудшать) итоговую оценку. Это означает, что все положительные сигналы вносят вклад в финальный результат.
Цель — Высокая Уверенность (High Confidence): Метод направлен на достижение высокой степени уверенности в классификации, что особенно важно для автоматических действий на уровне всего сайта (site level).
Универсальность подхода: Описанный фреймворк может применяться для любых задач бинарной классификации в поиске.

Практика

Best practices (это мы делаем)

Комплексное улучшение сигналов качества (Принцип Монотонности): Необходимо работать над всеми аспектами сайта (контент, медиа, ссылочный профиль, техническое состояние). Из-за принципа монотонности улучшение любого сигнала, используемого классификаторами, вносит положительный вклад в итоговую классификацию сайта.
Обеспечение консистентности сигналов: Сигналы тематики и качества должны быть согласованными по всему сайту и во всех типах контента (текст, изображения, ссылки). Противоречивые сигналы могут привести к негативной итоговой классификации, так как система специально обучена (через Bootstrapping) распознавать такие комбинации.
Анализ с точки зрения асессоров: Поскольку модели обучаются на данных асессоров (Training Group), критически важно понимать критерии оценки качества (Quality Rater Guidelines) и стремиться к их удовлетворению. Эти данные являются «ground truth» для описанных моделей.

Worst practices (это делать не надо)

Изолированная оптимизация и манипуляции: Попытки оптимизировать только один аспект (например, текст), игнорируя другие (например, качество изображений или ссылок), или попытки обмануть один конкретный классификатор. Система агрегирует все доступные сигналы с помощью multiple classifier model и устойчива к таким манипуляциям.
Игнорирование нетекстовых сигналов: Фокусироваться только на тексте и игнорировать качество изображений, видео или ссылочного профиля. Патент явно указывает на объединение сигналов от разных типов классификаторов (например, text classifiers и image classifiers).
Смешивание контента разного качества/типа: Размещение низкокачественного или нежелательного контента (например, Adult) на в целом качественном сайте. Метод позволяет достичь высокой уверенности для действий на уровне всего сайта (site level) на основе совокупности сигналов.

Стратегическое значение

Патент подтверждает стратегию Google на использование машинного обучения для агрегации сигналов. Это инфраструктурная основа для работы систем Helpful Content, Spam Detection и оценки E-E-A-T. Для SEO это означает, что успех зависит от комплексного подхода к качеству и созданию сильных, консистентных сигналов авторитетности и релевантности во всех аспектах сайта. Попытки найти «лазейки» в отдельных классификаторах неэффективны, так как система оценивает картину в целом.

Практические примеры

Сценарий: Обучение классификатора качества контента (например, для Helpful Content System)

Цель: Обучить модель отличать качественный контент от некачественного.
Классификаторы (Гипотетические): C1 (Текстовая глубина/Полезность), C2 (Сигналы E-E-A-T автора), C3 (Поведенческие сигналы), C4 (Спамность ссылок).
Отбор данных (Bootstrapping): Система отбирает документы для асессоров. Благодаря бакетированию, в выборку попадут не только очевидные примеры, но и пограничные:
- Бакет A: Высокие C1, C2, C3, C4 (Идеальный сайт).
- Бакет B: Низкие C1, C2, C3, C4 (Очевидный спам).
- Бакет C: Высокий C1 (хороший текст), но низкий C2 (анонимный автор) и низкий C4 (спамные ссылки).
- Бакет D: Низкий C1 (слабый текст), но высокий C2 (известный автор).
Обучение (Monotonic Regression): Модель учится, как эти комбинации влияют на итоговую оценку качества, основываясь на разметке асессоров.
Результат: Итоговая модель способна точно классифицировать контент, учитывая сложные взаимодействия между разными факторами качества.

Вопросы и ответы

Что такое Монотонная Регрессия (Monotonic Regression) простыми словами?

Это метод объединения нескольких оценок в одну, при котором соблюдается правило: если любая из входных оценок увеличивается, итоговый результат не может уменьшиться. В контексте SEO это гарантирует, что улучшение любого релевантного сигнала (например, качества текста или ссылок) всегда положительно или нейтрально влияет на общую классификацию документа.

Что такое Bootstrapping/Bucketing, описанный в патенте, и почему он важен?

Это сложный процесс отбора документов для обучения модели асессорами (и основной предмет Claims этого патента). Вместо случайной выборки система делит оценки на интервалы (бакеты) и целенаправленно выбирает документы с разнообразными и даже противоречивыми комбинациями сигналов. Это критически важно для создания надежной модели, которая корректно обрабатывает не только типичные, но и сложные пограничные случаи.

Как этот патент связан с E-E-A-T и Helpful Content System (HCU)?

Патент описывает инфраструктуру, которая используется для создания таких классификаторов. Google может создать множество классификаторов, оценивающих отдельные сигналы (экспертизу, авторитетность ссылок, качество контента), а затем использовать описанный метод Monotonic Regression для их объединения в единый мощный классификатор качества (например, HCU Score или E-E-A-T Score).

Может ли улучшение одного фактора (например, ссылок) компенсировать низкое качество другого (например, контента)?

Модель Monotonic Regression комбинирует все сигналы. Высокая оценка одного классификатора увеличит итоговую вероятность, но низкие оценки других будут ее ограничивать. Чтобы достичь высокой итоговой уверенности (high confidence), необходимо иметь достаточно высокие оценки по совокупности классификаторов. Компенсация возможна, но ограничена.

Для каких задач Google использует этот метод?

Метод универсален. В патенте явно упоминаются: определение тематики (Финансы, Спорт), фильтрация нежелательного контента (Porn, Violence – для SafeSearch) и определение основного языка документа. Логично предположить его использование для определения спама и классификации качества контента.

Применяется ли этот метод для оценки страниц или сайтов целиком?

В патенте указано, что метод может применяться как для классификации отдельных документов (Web pages), так и для сайтов целиком (Web sites). Для классификации на уровне сайта система требует более высокого уровня уверенности (high confidence).

Что происходит, если у документа нет данных для одного из классификаторов (например, нет изображений)?

Патент рассматривает эту ситуацию (Missing Scores). Система может использовать значение по умолчанию (например, 0). Альтернативно, она может построить несколько моделей для разных подмножеств классификаторов и использовать ту модель, для которой у документа есть все необходимые входные данные.

Учитывает ли модель, что разные классификаторы имеют разный «вес»?

Да. Хотя модель требует монотонности от всех классификаторов, их влияние не одинаково. В процессе обучения (Maximum Likelihood Estimation) модель автоматически определяет, насколько сильно изменение оценки каждого классификатора влияет на итоговую вероятность. «Веса» определяются автоматически на основе обучающих данных.

Означает ли использование human raters, что Google использует ручную разметку для ранжирования моего сайта?

Нет. Ручная разметка (асессорами) используется исключительно для обучения и валидации автоматических моделей, описанных в патенте (Training Group). После обучения модель применяется автоматически ко всему вебу. Цель патента — именно автоматическая классификация с высокой точностью без ручного вмешательства.

Какова основная практическая польза этого патента для SEO-специалиста?

Основная польза — стратегическое понимание необходимости комплексной работы над сайтом. Google не полагается на отдельные сигналы, а использует сложные математические модели для их агрегации. Нельзя игнорировать отдельные аспекты (текст, визуал, технику, ссылки), так как все они вносят вклад в финальную классификацию сайта системой.