Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)

Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.

Описание

Какую задачу решает

Патент решает проблему определения истинного намерения пользователя (интента) для неоднозначных запросов, особенно когда интент связан с контентом, подлежащим фильтрации (например, порнография). Традиционные методы, основанные на анализе терминов запроса, могут быть неэффективны, если запрос не содержит явных ключевых слов или использует эвфемизмы (например, запрос «amateur»). Изобретение позволяет классифицировать интент запроса независимо от его содержания, основываясь на поведении пользователей при настройке фильтров поиска.

Что запатентовано

Запатентована система классификации запросов, которая определяет вероятность того, что запрос направлен на поиск контента определенного типа. Классификация основывается на анализе частоты использования этого запроса в unfiltered search operations (поиск с выключенным фильтром) по сравнению с filtered search operations (поиск с включенным фильтром). Система вычисляет нормализованное значение (Content Type Value), и если оно превышает порог, запрос классифицируется как Content Type Seeking Query.

Как это работает

Система анализирует логи поиска (Search Logs) и для каждого запроса подсчитывает, сколько раз он был отправлен с включенным контентным фильтром и сколько раз — с выключенным. Эти данные нормализуются относительно общего объема всех фильтрованных и нефильтрованных поисковых операций в системе. Затем вычисляется соотношение между этими двумя нормализованными значениями (Content Type Value). Если запрос непропорционально часто используется в нефильтрованном поиске, система классифицирует его как ищущий данный тип контента. Эта классификация затем используется для корректировки relevance scores: повышая или понижая результаты, содержащие контент данного типа.

Актуальность для SEO

Высокая. Понимание интента пользователя, особенно для неоднозначных запросов и чувствительных тем (включая взрослый контент, регулируемый SafeSearch), остается ключевой задачей поисковых систем. Описанный метод обеспечивает мощный поведенческий сигнал для классификации запросов, который не зависит от языка или конкретных терминов и адаптируется к изменениям в поведении пользователей.

Важность для SEO

Патент имеет высокое значение для SEO (75/100), особенно для сайтов, работающих в нишах с неоднозначным контентом или для брендов, чьи названия могут пересекаться с чувствительными тематиками. Он описывает конкретный механизм, как Google определяет, ищет ли пользователь «взрослый» (или иной фильтруемый) контент по запросу, который сам по себе не содержит стоп-слов. Это напрямую влияет на то, будут ли результаты определенного типа повышены или понижены в выдаче при отключенном фильтре.

Детальный разбор

Термины и определения

Content Type Seeking Query (CTSQ) (Запрос, ищущий контент определенного типа): Классификация запроса, указывающая на вероятный интерес пользователя к контенту определенного типа (например, adult). Присваивается, если Content Type Value превышает порог.
Content Type Independent Query (Запрос, не зависящий от типа контента): Классификация запроса, указывающая на маловероятный интерес пользователя к контенту определенного типа. Присваивается, если Content Type Value не достигает порога.
Content Type Value (CTV) (Значение типа контента): Метрика, рассчитываемая для запроса на основе соотношения First Value и Second Value. Используется для классификации запроса.
Filtered Search Operation (Фильтрованная поисковая операция): Поисковая операция, при которой результаты, содержащие контент определенного типа, не могут быть возвращены в ответ на запрос (например, SafeSearch включен).
Unfiltered Search Operation (Нефильтрованная поисковая операция): Поисковая операция, при которой результаты, содержащие контент определенного типа, могут быть возвращены в ответ на запрос (например, SafeSearch выключен).
First Value (FV) (Первое значение): Нормализованное значение. Рассчитывается как отношение числа нефильтрованных операций для данного запроса к общему числу всех нефильтрованных операций в системе.
Second Value (SV) (Второе значение): Нормализованное значение. Рассчитывается как отношение числа фильтрованных операций для данного запроса к общему числу всех фильтрованных операций в системе.
Search Logs (Логи поиска): Хранилище данных о запросах, результатах и настройках фильтрации (filter settings) для каждой поисковой операции.
Session (Сессия): Коллекция запросов, полученных от одного пользовательского устройства в течение определенного периода времени. Используется для уточнения интента.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод классификации запросов с использованием нормализации данных об использовании фильтров.

Система получает множество запросов.
Для каждого запроса определяется первое количество вхождений (Noff) в Unfiltered Search Operations и второе количество вхождений (Non) в Filtered Search Operations.
Вычисляется общее количество всех нефильтрованных операций (NoffTot) и всех фильтрованных операций (NonTot) на основе данных по всем запросам.
Для каждого запроса вычисляются нормализованные значения:
- First Value (FV) = Noff / NoffTot.
- Second Value (SV) = Non / NonTot.
Для каждого запроса вычисляется First Content Type Value (CTV) как отношение FV к SV.
Если CTV достигает первого порога (first threshold), запрос классифицируется как First Content Type Seeking Query (CTSQ).
Если CTV не достигает первого порога, запрос классифицируется как First Content Type Independent Query.

Ядро изобретения заключается в использовании нормализованных частот (FV и SV). Это позволяет учесть базовое распределение фильтрованных и нефильтрованных операций в системе. Например, если 90% всех поисков фильтрованные, нормализация позволяет выявить запросы, для которых пользователи отключают фильтр значительно чаще, чем в среднем по системе.

Claim 2 (Зависимый): Уточняет, что контент первого типа — это порнографический контент.

Claim 5 и 6 (Зависимые): Описывают механизм корректировки подсчета вхождений на основе сессий. Если в течение одной сессии запрос был отправлен сначала с одной настройкой фильтра, а затем с другой, то первое вхождение дисконтируется (не учитывается), а учитывается только последнее. Это повышает точность определения истинного намерения.

Claim 7 (Зависимый): Описывает применение классификации для понижения ранжирования. Если получен запрос для Unfiltered Search Operation (фильтр выключен) и этот запрос НЕ классифицирован как CTSQ, система понижает relevance score для всех ресурсов, содержащих контент первого типа.

Claim 8 (Зависимый): Описывает применение классификации для повышения ранжирования. Если получен запрос для Unfiltered Search Operation и этот запрос классифицирован как CTSQ, система повышает relevance score для всех ресурсов, содержащих контент первого типа.

Где и как применяется

Изобретение затрагивает этапы понимания запросов и ранжирования/переранжирования.

QUNDERSTANDING – Понимание Запросов
Основное применение патента. Система Query Classification System работает преимущественно в офлайн-режиме, анализируя Search Logs для классификации запросов. Этот процесс определяет интент запроса на основе исторических данных о фильтрации.

RANKING / RERANKING – Ранжирование и Переранжирование
На этих этапах используются результаты классификации. Когда поступает новый запрос в реальном времени, система проверяет его классификацию и настройки фильтрации текущей операции. В зависимости от этого (Claims 7 и 8), система корректирует relevance scores результатов, содержащих контент соответствующего типа.

Входные данные (Офлайн-процесс):

Search Logs, содержащие исторические данные о запросах (Qx).
Настройки фильтрации (Fx) для каждого вхождения запроса в логах.
Данные о сессиях.

Выходные данные (Офлайн-процесс):

База данных классификаций (Classifications Store), где запросам присвоены метки (например, CTSQ или Independent).

Входные данные (Онлайн-процесс):

Текущий запрос и его настройка фильтрации.
База данных классификаций.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на неоднозначные запросы (ambiguous queries), которые могут иметь разный интент. Например, запросы, которые могут интерпретироваться как информационные или как направленные на поиск adult-контента.
Конкретные типы контента: Влияет на видимость контента, который подпадает под действие фильтров (например, SafeSearch). В патенте явно упоминается порнографический контент, но механизм может применяться к любым фильтруемым типам контента (например, насилие, или даже фильтры типа «только новости» или «только черно-белые изображения»).
Конкретные ниши или тематики: Сильно влияет на adult-нишу и смежные тематики, где часто используются нейтральные термины для поиска деликатного контента.

Когда применяется

Офлайн-классификация: Применяется периодически для анализа накопленных логов поиска и обновления базы классификаций запросов.
Онлайн-корректировка ранжирования: Применяется в реальном времени при обработке запроса, но только если это Unfiltered Search Operation (Claim 7, 8).
Пороговые значения: Классификация происходит только тогда, когда рассчитанный Content Type Value (CTV) достигает определенного порога (например, >1, или как указано в примере патента, >3 или <0.8).

Пошаговый алгоритм

Процесс А: Классификация запросов (Офлайн)

Сбор данных: Система получает доступ к Search Logs, содержащим множество запросов и соответствующие им настройки фильтрации.
Очистка данных (Обработка сессий):
- Для каждого запроса в рамках одной сессии проверяется, был ли он отправлен более одного раза с разными настройками фильтрации.
- Если да, то учитывается только последняя настройка фильтрации в сессии, а предыдущие дисконтируются (игнорируются).
Подсчет вхождений: Для каждого уникального запроса определяется:
- Первое количество (Noff): число нефильтрованных операций.
- Второе количество (Non): число фильтрованных операций.
Расчет общих значений: Определяется общее количество всех нефильтрованных операций (NoffTot) и всех фильтрованных операций (NonTot) в системе.
Нормализация: Для каждого запроса вычисляются:
- First Value (FV) = Noff / NoffTot.
- Second Value (SV) = Non / NonTot.
Вычисление CTV: Для каждого запроса рассчитывается Content Type Value (CTV) = FV / SV.
Классификация:
- Сравнение CTV с порогом (Threshold).
- Если CTV соответствует порогу (например, значительно больше 1), запрос классифицируется как Content Type Seeking Query (CTSQ).
- Если нет, запрос классифицируется как Content Type Independent.
Сохранение: Классификации сохраняются в базе данных.

Процесс Б: Использование классификации при ранжировании (Онлайн)

Получение запроса: Система получает запрос для Unfiltered Search Operation (фильтр выключен).
Проверка классификации: Система проверяет в базе данных, классифицирован ли запрос как CTSQ.
Корректировка релевантности:
- Если запрос классифицирован как CTSQ: Система увеличивает relevance score для ресурсов, содержащих контент данного типа.
- Если запрос НЕ классифицирован как CTSQ (т.е. Content Type Independent): Система уменьшает relevance score для ресурсов, содержащих контент данного типа.
Формирование выдачи: Результаты ранжируются на основе скорректированных оценок.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на анализе логов поиска и настроек фильтрации. Он не использует контентные, ссылочные или технические факторы для классификации запросов.

Поведенческие факторы:
- Настройки фильтрации (Filter Settings): Ключевой элемент данных. Для каждой поисковой операции система знает, была ли она фильтрованной или нефильтрованной (например, статус SafeSearch ON/OFF).
- Данные сессий (Session Data): Используются для определения контекста и очистки данных. Система анализирует последовательность запросов и изменение настроек фильтра в рамках одной сессии.
Данные запросов: Текст запросов из Search Logs.

Какие метрики используются и как они считаются

Система использует несколько ключевых метрики и строгий процесс нормализации.

Noff (для запроса): Количество нефильтрованных операций для конкретного запроса (скорректированное по сессиям).
Non (для запроса): Количество фильтрованных операций для конкретного запроса (скорректированное по сессиям).
NoffTot: Общее количество всех нефильтрованных операций в системе (сумма всех Noff).
NonTot: Общее количество всех фильтрованных операций в системе (сумма всех Non).
First Value (FV): Нормализованная частота нефильтрованных операций. $FV = \frac{Noff}{NoffTot}$ .
Second Value (SV): Нормализованная частота фильтрованных операций. $SV = \frac{Non}{NonTot}$ .
Content Type Value (CTV): Соотношение нормализованных частот. $CTV = \frac{FV}{SV}$ .
Threshold (Порог): Значение, с которым сравнивается CTV. В патенте упоминается, что порог может быть больше 1. В примере используются пороги > 3 для CTSQ и < 0.8 для Content Type Independent.

Выводы

Классификация интента без анализа контента: Патент описывает механизм для определения интента запроса, который полностью игнорирует термины запроса и содержание результатов. Он основан исключительно на том, как пользователи взаимодействуют с настройками фильтрации (например, SafeSearch).
Важность нормализации данных: Ключевым элементом является нормализация. Система не просто считает абсолютное количество включений/выключений фильтра, а сравнивает поведение пользователей по конкретному запросу со средним поведением по всем запросам. Это позволяет точно выявлять статистические аномалии в использовании фильтров.
Обработка ошибок пользователя (Session Refinement): Система учитывает изменение настроек фильтра в рамках одной сессии. Если пользователь сначала искал с фильтром, а потом без (или наоборот) и повторил запрос, учитывается только последняя настройка. Это повышает точность определения истинного намерения.
Прямое влияние на ранжирование в нефильтрованном поиске: Классификация запроса напрямую используется для корректировки relevance scores. Если запрос признан ищущим определенный контент (CTSQ), этот контент бустится. Если запрос признан нейтральным (Independent), то контент деликатного типа пессимизируется, даже если фильтр у пользователя выключен.
Решение проблемы неоднозначных запросов: Этот механизм особенно эффективен для запросов с двойным смыслом, где один из интентов связан с фильтруемым контентом. Система определяет доминирующий интент на основе агрегированных пользовательских данных.

Практика

Best practices (это мы делаем)

Анализ интента с учетом SafeSearch: При анализе семантики в нишах с двойным интентом (например, здоровье, развлечения, определенные товары), необходимо учитывать, как Google классифицирует запрос. Если ваш контент не связан с adult, но вы таргетируетесь на запросы, которые могут быть классифицированы как CTSQ (например, из-за сленга), вы будете конкурировать с adult-контентом, получающим бустинг в нефильтрованной выдаче.
Четкое позиционирование контента: Убедитесь, что ваш контент четко соответствует основному интенту запроса. Если запрос классифицирован как Content Type Independent, Google будет активно понижать любые результаты, которые классифицированы как adult, даже в нефильтрованной выдаче. Это подчеркивает важность избегания случайного использования терминов или изображений, которые могут привести к неверной классификации страницы.
Мониторинг выдачи в разных режимах: Для пограничных запросов проверяйте выдачу как с включенным SafeSearch, так и с выключенным. Значительные различия указывают на то, как система классифицирует запрос и какие корректировки ранжирования применяются.
Стратегия для Adult-сегмента: Для сайтов соответствующей тематики этот патент подчеркивает важность таргетинга на запросы, которые система классифицировала как CTSQ. По этим запросам система будет активно повышать релевантные результаты при выключенном фильтре.

Worst practices (это делать не надо)

Использование неоднозначных терминов без необходимости: Использование ключевых слов, которые часто ассоциируются с adult-тематикой (высокий CTV), на информационных или коммерческих сайтах может привести к проблемам. Страница может быть ошибочно классифицирована как adult, и если запрос признан нейтральным (Independent), страница будет понижена в ранжировании.
Игнорирование классификации контента: Попытки ранжировать контент деликатного типа по общим запросам, которые Google классифицировал как Content Type Independent, будут неэффективны. Система активно борется с показом такого контента по нейтральным запросам, даже если у пользователя отключен фильтр.

Стратегическое значение

Патент подтверждает, что Google использует агрегированные данные о поведении пользователей для понимания интента на уровне отдельных запросов. Это механизм «мудрости толпы» для интерпретации неоднозначности. Стратегически это означает, что интент запроса определяется не только семантикой слов, но и историческими паттернами взаимодействия пользователей с интерфейсом поиска (в данном случае, с фильтрами). Это снижает зависимость Google от лингвистического анализа и делает систему более устойчивой к новым терминам и сленгу.

Практические примеры

Сценарий 1: Классификация неоднозначного запроса (Пример из патента: «Nurse»)

Исходные данные (гипотетические): Общий объем поиска: 9000 фильтрованных операций (NonTot), 1000 нефильтрованных (NoffTot). Запрос «Nurse»: 55 раз в фильтрованном поиске (Non), 25 раз в нефильтрованном (Noff).
Нормализация:
- SV (фильтрованный) = 55 / 9000 = 0.0061.
- FV (нефильтрованный) = 25 / 1000 = 0.025.
Расчет CTV: CTV = FV / SV = 0.025 / 0.0061 = 4.091.
Классификация: Если порог для CTSQ равен 3.0, то запрос «Nurse» (CTV 4.091) классифицируется как ищущий данный тип контента (например, adult).
Результат: Когда пользователь вводит запрос «Nurse» с выключенным фильтром, Google применяет бустинг к adult-результатам (Claim 8).

Сценарий 2: Классификация нейтрального запроса (Пример из патента: «Calculator»)

Исходные данные: Запрос «Calculator»: 75 раз в фильтрованном (Non), 7 раз в нефильтрованном (Noff).
Нормализация и расчет CTV:
- SV = 75 / 9000 = 0.008333.
- FV = 7 / 1000 = 0.007.
- CTV = 0.007 / 0.008333 = 0.84.
Классификация: CTV 0.84 ниже порога. Запрос классифицируется как Independent.
Результат: Когда пользователь вводит запрос «Calculator» с выключенным фильтром, Google понижает любые adult-результаты по этому запросу (Claim 7), защищая чистоту выдачи.

Вопросы и ответы

Что такое Content Type Value (CTV) и почему важна нормализация при его расчете?

CTV — это соотношение между частотой использования запроса в нефильтрованном поиске и частотой его использования в фильтрованном поиске, при этом обе частоты нормализованы. Нормализация критически важна, потому что она учитывает базовое распределение использования фильтров в системе. Например, если 90% всех поисков происходят с включенным фильтром, нормализация позволяет выявить запросы, для которых пользователи отключают фильтр значительно чаще, чем эти базовые 10%, что является сильным сигналом интента.

Как система обрабатывает ситуации, когда пользователь меняет настройки фильтра во время поиска?

Патент описывает механизм обработки сессий (Claims 5 и 6). Если один и тот же запрос отправляется несколько раз в течение одной сессии с разными настройками фильтрации, система учитывает только последнюю настройку. Предыдущие считаются ошибками пользователя и дисконтируются при подсчете. Это повышает точность определения истинного намерения пользователя.

Влияет ли эта классификация на ранжирование, если у пользователя включен SafeSearch (Filtered Search Operation)?

Нет. Патент фокусируется на корректировке ранжирования только для Unfiltered Search Operations (SafeSearch выключен), как указано в Claims 7 и 8. Если фильтр включен, то контент соответствующего типа и так не будет показан по определению фильтрованной операции. Механизм корректировки применяется именно тогда, когда контент может быть показан.

Что произойдет, если мой сайт ошибочно классифицирован как adult, а запрос классифицирован как нейтральный (Content Type Independent)?

Это проблемный сценарий. Согласно Claim 7, если запрос классифицирован как нейтральный, а пользователь ищет в нефильтрованном режиме, система активно понизит relevance score для всех ресурсов, содержащих контент данного типа (в данном случае, adult). Ваш сайт будет пессимизирован в выдаче по этому запросу, даже если он релевантен по тексту.

Может ли этот патент использоваться для других типов контента, кроме adult?

Да. Хотя в патенте в качестве основного примера используется порнографический контент (Claim 2), описанный механизм является общим. Он может применяться к любым типам контента, для которых существуют фильтры, например, контент с насилием, или даже не связанные с безопасностью фильтры, такие как фильтры изображений («черно-белые») или тематические фильтры («только новости»).

Как узнать, классифицирован ли мой целевой запрос как Content Type Seeking Query (CTSQ)?

Google не предоставляет эту информацию напрямую. Однако можно провести косвенный анализ. Сравните выдачу по запросу в режиме с включенным и выключенным SafeSearch. Если при выключенном SafeSearch в топе появляется много adult-контента, который сильно опережает другие результаты, вероятно, запрос имеет высокий CTV и классифицирован как CTSQ.

Заменяет ли этот механизм анализ ключевых слов для определения интента?

Нет, он дополняет его. Этот механизм особенно полезен, когда анализ ключевых слов не дает однозначного ответа (неоднозначные запросы) или когда используются новые термины/сленг, которые еще не известны лингвистическим моделям. Он обеспечивает основанный на данных способ классификации, независимый от языка и содержания.

Какие пороги (Thresholds) используются для классификации?

Патент не указывает точных значений, но утверждает, что порог для CTSQ должен быть больше 1 (Claim 3). В описании приводится пример, где порог для CTSQ может быть >3, а порог для Content Type Independent <0.8. Запросы в промежуточном диапазоне могут оставаться неклассифицированными в рамках этой системы.

Что делать, если мой информационный контент конкурирует с adult по неоднозначному запросу?

Если запрос классифицирован как CTSQ, конкурировать напрямую будет сложно, так как adult-контент получает преимущество (бустинг) в нефильтрованном поиске. Стратегия должна заключаться в уточнении семантики и таргетинге на более длинные, специфические запросы (long-tail), которые с меньшей вероятностью будут классифицированы как CTSQ.

Как быстро система реагирует на появление новых трендов или сленга?

Поскольку система основана на анализе Search Logs и не требует машинного обучения на контенте, она может реагировать относительно быстро. Как только новый термин начинает использоваться в поиске и пользователи начинают взаимодействовать с фильтрами при его вводе, система накапливает данные для расчета CTV. Скорость реакции зависит от частоты обновления офлайн-процесса классификации.