Как Google использует классификаторы запросов и контента для фильтрации и понижения оскорбительных результатов, связанных с защищенными группами

Google применяет систему двойной классификации для защиты пользователей от неуместного или оскорбительного контента. Система оценивает, относится ли запрос к «защищенной группе людей» и содержит ли он деликатные термины. Параллельно анализируется, содержат ли результаты поиска оскорбительный контент. На основе комбинации этих классификаций и анализа сессии пользователя результаты могут быть отфильтрованы или понижены в ранжировании.

Описание

Какую задачу решает

Патент решает проблему непроизвольного воздействия на пользователей неуместного, деликатного или оскорбительного контента (inappropriate sensitive or offensive content) в результатах поиска. Он направлен на улучшение механизмов фильтрации (например, SafeSearch), особенно в ситуациях, когда контент является оскорбительным, подстрекательским или издевательским (spoof) по отношению к определенным «защищенным классам людей» (protected class of people), таким как демографические группы или профессии.

Что запатентовано

Запатентована система, которая применяет комбинаторную логику для модификации поисковой выдачи. Система использует два ключевых классификатора: Query Classifier (для анализа запроса) и Search Result Classifier (для анализа контента). Решение о фильтрации (удалении) или понижении (демоутинге) результата принимается на основе сочетания этих классификаций. Также учитываются данные сессии пользователя (user session data) для уточнения намерений.

Как это работает

Механизм работает следующим образом:

Классификация запроса: Система определяет, содержит ли запрос термины, относящиеся к protected class (например, «подростки», «политики»), и содержит ли он деликатные/оскорбительные термины (например, «шутки», «мемы», «банды»).
Классификация результатов: Каждый кандидат оценивается на предмет наличия sensitive or offensive content (например, насилие, порнография, издевательства, разжигание ненависти).
Применение правил: Система применяет логику, основанную на пересечении классификаций. Например:
- Если запрос относится к protected class И содержит деликатные термины, А результат содержит оскорбительный контент, то результат фильтруется (удаляется).
- Если запрос относится к protected class, но НЕ содержит деликатных терминов, А результат содержит оскорбительный контент, то результат понижается в ранжировании.
Анализ сессии: Система может анализировать предыдущие запросы в текущей сессии, чтобы определить, ищет ли пользователь целенаправленно неуместный контент, и соответствующим образом ужесточить фильтрацию.

Актуальность для SEO

Высокая. Защита пользователей от оскорбительного контента, hate speech и шокирующих материалов является приоритетной задачей для поисковых систем. Этот патент описывает базовую архитектуру для реализации сложных сценариев фильтрации, которые лежат в основе современных систем SafeSearch и механизмов обеспечения качества выдачи в деликатных тематиках.

Важность для SEO

Патент имеет существенное значение (75/100) для SEO, особенно в нишах, связанных с юмором, политикой, социальными темами, новостями и YMYL. Он демонстрирует, что оценка контента происходит не изолированно, а в контексте запроса и его связи с защищенными группами. Контент, классифицированный как оскорбительный или неуместный в этом контексте, подвергается риску полного исключения из выдачи или значительного понижения, даже если он релевантен запросу.

Детальный разбор

Термины и определения

Candidate set of search results (Набор результатов-кандидатов): Предварительный набор результатов, полученный в ответ на поисковый запрос до применения фильтрации или модификации ранжирования, описанных в патенте.
Classification signals (Сигналы классификации): Данные, полученные от классификаторов (запросов, результатов, сессий), которые используются поисковой системой для принятия решения о модификации выдачи.
Inappropriate sensitive or offensive content (Неуместный деликатный или оскорбительный контент): Подкатегория Sensitive or offensive content. Включает контент, который является незаконным, оскорбительным или крайне нежелательным для protected class. Примеры: контент для вербовки в банды, подстрекательство к насилию, высмеивание (mocking) или издевательства (spoof content), разжигание ненависти против группы.
Protected class of people / Particular class of people (Защищенный класс людей): Группа людей, имеющих по крайней мере одну общую демографическую характеристику, для которой желательна защита от неуместного контента. Примеры в патенте включают детей/подростков (по возрасту) и профессии (патентные поверенные, политики).
Query Classifier (Классификатор запросов): Компонент системы, который классифицирует поисковый запрос на основе наличия терминов, связанных с protected class, и наличия sensitive or offensive terms.
Search Result Classifier (Классификатор результатов поиска): Компонент системы, который классифицирует документы результатов поиска на основе вероятности содержания sensitive or offensive content. Может включать специализированные классификаторы (например, классификатор насилия, порнографии, spoof).
Sensitive or offensive content (Деликатный или оскорбительный контент): Общая категория контента, включающая порнографию, кровавые изображения (gore) и контент с насилием.
User session data (Данные сессии пользователя): Данные об активности пользователя в текущей сессии (предыдущие запросы, клики), которые могут использоваться для определения вероятной темы интереса (likely topic of interest) и дополнительной модификации результатов.

Ключевые утверждения (Анализ Claims)

Патент содержит несколько независимых пунктов (Claims 1, 4, 5), описывающих логику системы фильтрации.

Claim 1 (Независимый пункт): Описывает общий метод обработки запроса с учетом классификаций и данных сессии.

Система получает запрос и набор кандидатов.
Получается классификация запроса по трем категориям: (i) не связан с защищенной группой, (ii) связан с защищенной группой, (iii) связан с защищенной группой И содержит деликатные/оскорбительные термины.
Получается классификация каждого результата по двум категориям: (i) не содержит деликатный/оскорбительный контент, (ii) содержит его.
Система генерирует оценки релевантности (relevance score) и определяет ранжирование.
Система получает данные сессии пользователя (user session data) и атрибуты устройства.
Происходит выбор презентационного набора на основе комбинации классификаций (I) и (II). Этот выбор включает:
- Модификацию ранжирования на основе user session data.
- Для каждого документа: присвоение метки (label), указывающей на тематику контента, на основе классификации результата как оскорбительного, и принятие решения о фильтрации или модификации ранжирования на основе этой метки.

Claim 4 и 5 (Независимые пункты): Детализируют конкретные правила модификации выдачи на основе классификаций.

Выбор презентационного набора включает следующие действия:

Понижение ранга (Demotion) (Claim 4): Ранг результата понижается, если (i) запрос классифицирован как связанный с защищенной группой (категория ii), И (ii) результат классифицирован как содержащий деликатный/оскорбительный контент.
Фильтрация (Filtering/Removal) (Claim 4, 5): Результат удаляется из выдачи, если (i) запрос классифицирован как связанный с защищенной группой И содержащий деликатные/оскорбительные термины (категория iii), И (ii) результат классифицирован как содержащий деликатный/оскорбительный контент.
Включение без изменений (Inclusion) (Claim 4, 5): Результат может включаться без изменений, если запрос классифицирован как не связанный с защищенной группой (категория i), независимо от того, содержит ли он деликатные термины или нет (при условии, что не активированы общие фильтры типа SafeSearch).

Где и как применяется

Изобретение затрагивает несколько этапов поиска, используя предварительно вычисленные данные и влияя на финальный этап выдачи.

INDEXING – Индексирование и извлечение признаков
На этом этапе Search Result Classifier анализирует контент и присваивает документам метки (labels) или оценки, указывающие на наличие sensitive or offensive content (порнография, насилие, spoof и т.д.). Эти данные сохраняются в индексе.

QUNDERSTANDING – Понимание Запросов
Query Classifier анализирует входящий запрос в реальном времени, чтобы определить его связь с protected class of people и наличие деликатных терминов. Также на этом этапе могут анализироваться user session data для определения контекста и намерений пользователя.

RANKING – Ранжирование
На этом этапе генерируется исходный Candidate set of search results с базовыми оценками релевантности (relevance scores).

RERANKING – Переранжирование (Twiddlers)
Основное применение патента. Система действует как Twiddler (механизм корректировки выдачи):

Получает classification signals от классификаторов запросов, результатов и данных сессии.
Применяет правила (логику фильтрации и понижения) к набору кандидатов.
Модифицирует ранжирование или удаляет результаты для формирования финального Presentation set.

Входные данные:

Поисковый запрос.
Набор результатов-кандидатов с оценками релевантности.
Классификация запроса (от Query Classifier).
Классификация результатов/меток контента (от Search Result Classifier).
User session data и атрибуты устройства (например, настройки SafeSearch).

Выходные данные:

Презентационный набор результатов поиска (отфильтрованный и/или переранжированный).

На что влияет

Конкретные ниши или тематики: Наибольшее влияние оказывается на ниши, связанные с демографическими группами (возраст, профессия, социальные группы), особенно если они пересекаются с деликатными темами (насилие, юмор, критика). Это напрямую затрагивает YMYL-тематики, политику, новости о происшествиях и социальные вопросы.
Типы контента: Влияет на контент, который может быть классифицирован как высмеивающий (spoof), разжигающий ненависть, содержащий насилие или порнографию. Это может включать мемы, шутки, сатиру, а также новостной контент о скандалах.

Когда применяется

Алгоритм применяется при обработке запроса, но его действия (фильтрация или понижение) активируются только при выполнении определенных условий, основанных на комбинации классификаций.

Триггеры активации модификации выдачи:

Триггер для Понижения: Запрос связан с protected class И результат содержит sensitive or offensive content.
Триггер для Фильтрации: Запрос связан с protected class И содержит деликатные термины, И результат содержит sensitive or offensive content.
Дополнительные триггеры: Данные сессии указывают на целенаправленный поиск неуместного контента, или активированы настройки безопасного поиска (SafeSearch setting).

Пошаговый алгоритм

Получение запроса и Генерация кандидатов: Система получает запрос и генерирует Candidate set of search results с базовыми relevance scores.
Классификация запроса: Query Classifier анализирует запрос и определяет его класс:
- Класс A: Не связан с protected class.
- Класс B: Связан с protected class (но не содержит деликатных терминов).
- Класс C: Связан с protected class И содержит sensitive or offensive terms.
Классификация результатов: Для каждого результата извлекается его классификация (на основе анализа Search Result Classifier):
- Класс X: Не содержит sensitive or offensive content.
- Класс Y: Содержит sensitive or offensive content (с возможным присвоением меток тематики).
Получение данных сессии: Извлечение user session data для определения контекста сессии.
Выбор и Модификация результатов: Система применяет правила на основе комбинации классов запроса, результата и данных сессии:
- Запрос Класса A: Результаты (X или Y) обычно выбираются без модификации (если не активирован SafeSearch или данные сессии не требуют иного).
- Запрос Класса B:
  - Результат Класса X: Выбирается.
  - Результат Класса Y: Выбирается, но ранг значительно понижается (Demotion).
- Запрос Класса C:
  - Результат Класса X: Выбирается.
  - Результат Класса Y: Фильтруется (удаляется) (Filtering).
Дополнительная модификация по сессии: Если данные сессии указывают на поиск неуместного контента, система может дополнительно отфильтровать результаты Класса Y.
Вывод результатов: Предоставление финального Presentation set of search results.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании классификаций. Для их вычисления и применения используются следующие данные:

Контентные и Мультимедиа факторы: Текст, метаданные, теги изображений, URL-адреса, изображения и видео. Анализируются Search Result Classifier с использованием методов сопоставления ключевых слов и обработки изображений для выявления деликатного контента.
Запросные данные: Термины запроса анализируются Query Classifier. Система использует обученные данные (training data), которые могут быть проверены людьми (human reviewer), для идентификации терминов, связанных с protected classes и sensitive content.
Поведенческие факторы (User Session Data): История запросов и кликов в рамках текущей сессии. Используются для определения контекста и вероятной темы интереса пользователя.
Пользовательские факторы: Атрибуты устройства или настройки аккаунта (например, активация SafeSearch).

Какие метрики используются и как они считаются

Классификация Запроса: Категориальная оценка наличия терминов, связанных с защищенными группами и деликатными темами.
Классификация Контента (Метки и Пороги): Метрики, определяющие наличие sensitive or offensive content. Патент упоминает использование пороговых значений (thresholds). Например, если количество терминов, связанных с насилием, превышает порог, документ классифицируется как содержащий насилие. Пороги могут различаться для разных тем (например, порог для spoof может быть выше, чем для насилия). Документам присваиваются метки (labels) тематики.
Relevance Score: Стандартная оценка релевантности документа запросу, которая используется для базового ранжирования и может быть модифицирована.

Выводы

Контекстуальная фильтрация (Двойная классификация): Ключевым механизмом является оценка допустимости контента не изолированно, а в контексте запроса. Фильтрация или понижение происходит на пересечении классификаций запроса и результата.
Приоритет защиты групп (Protected Classes): Система специально разработана для идентификации запросов, связанных с определенными демографическими или социальными группами, и применения более строгой фильтрации контента в этих контекстах. Определение protected class достаточно широкое.
Градация санкций зависит от явности интента: Система применяет разные уровни санкций. Если пользователь явно ищет деликатный контент о защищенной группе (Query Class C), система агрессивно фильтрует (удаляет) результаты. Если запрос нейтрален, но относится к защищенной группе (Query Class B), система понижает деликатные результаты.
Широкое определение неуместного контента: Патент выделяет не только стандартные категории (насилие, порнография), но и inappropriate content, такой как высмеивание (spoof/mocking), разжигание ненависти и подстрекательство.
Контекст сессии имеет значение: User session data используется для корректировки результатов. Поведение пользователя в рамках сессии может активировать более строгие фильтры, если система определяет паттерн поиска неприемлемого контента.

Практика

Best practices (это мы делаем)

Мониторинг классификации контента: Необходимо понимать, как ваш контент может быть классифицирован системой. Если вы работаете в нишах, связанных с демографическими группами (protected classes), избегайте контента, который может быть воспринят как высмеивание (spoof), разжигание ненависти или подстрекательство.
Аккуратная работа с деликатными темами и медиа: Если ваш контент затрагивает деликатные темы (насилие, скандалы, медицинские фото) и при этом связан с защищенными группами, будьте готовы к возможному понижению в выдаче по нейтральным запросам (Query Class B). Подавайте информацию нейтрально и авторитетно, избегайте шокирующих изображений, если это возможно.
Сегментация контента: Если сайт содержит как нейтральный, так и потенциально sensitive контент (например, сайт с юмором или новостями), убедитесь, что нейтральный контент четко отделен и не «загрязнен» сигналами, которые могут привести к классификации раздела как offensive.
Понимание классификации запросов в нише: Анализируйте, какие запросы в вашей тематике могут быть отнесены к Классу B или C. Например, при продвижении сайта по запросам о политиках или знаменитостях, учитывайте, что запросы типа «мемы о [имя]» или «шутки о [группа]» могут активировать строгую фильтрацию вашего контента, если он классифицирован как spoof.

Worst practices (это делать не надо)

Создание оскорбительного или высмеивающего контента (Spoof/Mocking): Создание контента (текста, изображений, мемов), который высмеивает, оскорбляет или разжигает ненависть по отношению к любым демографическим или социальным группам, крайне рискованно. Этот патент напрямую нацелен на фильтрацию такого контента.
Манипуляция интентом в деликатных нишах: Попытки ранжироваться по запросам, связанным с protected classes, с помощью кликбейта или шок-контента. Даже если контент релевантен, он будет понижен или удален, если классифицирован как sensitive/offensive.
Игнорирование сигналов о насилии и жестокости (Gore/Violence): Размещение шокирующего, кровавого или жестокого контента делает его уязвимым для понижения, особенно если он связан с запросами о людях (например, новости о происшествиях).

Стратегическое значение

Патент подтверждает стратегическое стремление Google выступать в роли модератора контента для обеспечения безопасности выдачи. Это подтверждает, что релевантность может быть отменена классификацией контента как оскорбительного или неприемлемого. Для SEO это означает, что работа над качеством контента включает не только E-E-A-T, но и этические аспекты, нейтральность и отсутствие материалов, которые могут быть классифицированы как inappropriate.

Практические примеры

Сценарий: Ранжирование сайта с юмористическим контентом о профессиях

Сайт публикует статью «Топ-10 злых шуток и мемов про патентных поверенных». Классификатор помечает контент как offensive (spoof/mocking). Патентные поверенные определены как protected class.

Запрос 1 (Общий): «Смешные мемы про работу».
- Классификация запроса: Класс A (Не связан с защищенной группой).
- Результат: Статья может ранжироваться нормально.
Запрос 2 (Нейтральный о группе): «Жизнь патентного поверенного».
- Классификация запроса: Класс B (Связан с защищенной группой, без деликатных терминов).
- Результат: Так как статья содержит offensive контент, ее ранг будет значительно понижен (Demotion).
Запрос 3 (Деликатный о группе): «Шутки про патентных поверенных».
- Классификация запроса: Класс C (Связан с защищенной группой И содержит деликатный термин «шутки»).
- Результат: Так как статья содержит offensive контент, она будет отфильтрована из выдачи (Filtering).
Запрос 4 (Контекст сессии): Пользователь вводит Запрос 2, но до этого искал «как оскорбить юриста».
- Классификация сессии: Намерение найти неуместный контент.
- Результат: Статья может быть дополнительно отфильтрована на основе данных сессии, даже если по правилам для Запроса 2 она должна была быть только понижена.

Вопросы и ответы

Что такое «Protected class of people» (Защищенный класс людей) согласно патенту?

Это любая группа людей, имеющая общую демографическую характеристику, для которой система стремится обеспечить защиту от неуместного контента. Примеры в патенте включают детей и подростков (teenagers), а также профессии, такие как политики (politicians) или патентные поверенные (patent attorneys). Это определение достаточно широкое и может применяться к различным социальным и демографическим группам.

В чем разница между «Sensitive content» и «Inappropriate sensitive content»?

Sensitive content — это общая категория, включающая насилие, порнографию и шок-контент (gore). Inappropriate sensitive content — это подкатегория, которая включает более сложные случаи: разжигание ненависти, высмеивание (mocking/spoof) демографических групп, подстрекательство к насилию или вербовку в банды. Система особенно агрессивно борется с Inappropriate content, когда он связан с защищенными группами.

Как система решает, понизить результат или полностью его удалить (отфильтровать)?

Решение зависит от явности интента в запросе. Если запрос относится к защищенной группе, но сформулирован нейтрально (Класс B, например, «подростковые группы»), а результат содержит деликатный контент, он будет понижен. Если запрос явно ищет деликатный контент о защищенной группе (Класс C, например, «банды подростков насилие»), то деликатный результат будет полностью отфильтрован.

Влияет ли этот механизм на контент, который не связан с защищенными группами?

Согласно описанным правилам (Claims 4, 5), если запрос классифицирован как не связанный с protected class (Класс A), результаты обычно выбираются без модификации, даже если они содержат sensitive content. Однако патент также упоминает общие механизмы SafeSearch и использование данных сессии, которые могут привести к фильтрации даже в этом случае (например, если у пользователя активирован SafeSearch).

Как система использует данные сессии пользователя (User session data)?

Система анализирует предыдущие запросы и клики в рамках текущей сессии, чтобы определить вероятную тему интереса. Если система обнаруживает паттерн поиска неприемлемого контента (например, несколько запросов о spoof-контенте), она может применить более строгую фильтрацию к последующим запросам в этой сессии, даже если они сформулированы нейтрально.

Может ли сатира, юмор или мемы быть отфильтрованы этой системой?

Да, абсолютно. Патент явно упоминает spoof (высмеивание/пародия) и mocking как примеры inappropriate sensitive content. Если юмористический или сатирический контент направлен на демографическую или социальную группу и классифицируется как оскорбительный или издевательский, он будет подвергнут фильтрации или понижению по соответствующим запросам.

Как SEO-специалисту определить, классифицируется ли его контент как «sensitive» или «offensive»?

Патент не дает точных метрик, но упоминает использование классификаторов, обученных на training data, и пороговых значений (thresholds) для количества деликатных терминов или анализа изображений. На практике следует критически оценивать контент на предмет наличия насилия, шок-контента, языка вражды, оскорблений или высмеивания социальных/демографических групп.

Влияет ли этот патент на новостные сайты, публикующие информацию о скандалах или насилии?

Да, влияет. Если новостной сайт публикует статью о насилии (sensitive content), связанном с определенной группой людей (protected class), эта статья может быть понижена в выдаче по общим запросам об этой группе. Это делается для защиты пользователей, которые искали общую информацию, от непроизвольного столкновения с контентом о насилии.

На каком этапе поиска работает этот механизм?

Он работает на этапе переранжирования (Reranking), после того как основной алгоритм ранжирования сформировал список кандидатов. Он использует классификации, которые были присвоены документам на этапе индексирования (Indexing) и классификации запроса на этапе его понимания (Query Understanding).

Применяется ли эта логика только к органическому поиску или также к изображениям и видео?

Патент указывает, что sensitive or offensive content включает изображения и видео. Search Result Classifier использует методы обработки изображений для анализа мультимедийного контента. Следовательно, описанная логика фильтрации применяется ко всем типам контента в поиске.