
Google анализирует поисковые сессии пользователей для обучения классификатора, выявляющего запросы о неприемлемом контенте (например, насилии, CSAM, терроризме). Система отслеживает, какие еще запросы вводил пользователь незадолго до или после ввода уже известного "плохого" запроса. Это позволяет автоматически расширять базу данных для фильтрации и модерации поисковой выдачи.
Патент решает задачу автоматической идентификации поисковых запросов, направленных на поиск inappropriate sensitive or offensive content (неприемлемого чувствительного или оскорбительного контента). В качестве примеров такого контента приводятся детская порнография (CSAM), сцены насилия (gore), материалы для вербовки террористов. Цель — автоматизировать и расширить базу данных таких запросов для обучения классификатора (search query classifier), минимизируя ручной труд и защищая пользователей от нежелательного контента.
Запатентована система и метод для обучения классификатора поисковых запросов. Суть изобретения заключается в использовании поведения совместного поиска пользователей (user co-search behavior) для расширения существующей базы данных запросов, связанных с неприемлемым контентом. Система анализирует, какие дополнительные запросы пользователи вводят в течение короткого периода времени до или после ввода уже известного "плохого" запроса.
Система работает в офлайн-режиме для генерации обучающих данных:
Reference Queries (референсных запросов), которые точно связаны с неприемлемым контентом.Co-occurring Queries — запросы, введенные тем же пользователем в рамках определенного временного окна от Reference Query.Co-occurrence Value — метрика, показывающая, как часто этот запрос встречается рядом с референсными запросами по сравнению с его общей частотой.Co-occurrence Value становятся Кандидатами. Они проходят дополнительные проверки (например, не являются ли они новостными или слишком частыми для данного пользователя), чтобы исключить ложные срабатывания.Высокая. Обеспечение безопасности контента, модерация выдачи и борьба с распространением незаконных и неприемлемых материалов (CSAM, терроризм, экстремизм) являются критически важными и постоянно актуальными задачами для Google. Методы машинного обучения и анализа поведения пользователей для автоматизации этого процесса активно развиваются.
Минимальное влияние (1/10). Патент описывает инфраструктуру для модерации контента и систем безопасности (таких как SafeSearch или специализированные фильтры для незаконного контента), а не алгоритмы ранжирования общего веб-поиска. Он не дает практических рекомендаций для SEO-продвижения стандартных коммерческих или информационных сайтов. Его ценность для SEO заключается в понимании того, как Google использует анализ поисковых сессий (co-search behavior) для классификации интента запросов.
Inappropriate.Co-occurrence Value превысило установленный порог и который подлежит дальнейшей проверке.Reference Query в рамках одной сессии.Reference Queries. Часто представляет собой соотношение (ii) к (i).Reference Queries. Делятся на два набора (например, Набор 1: общий тип контента, Набор 2: неприемлемый аспект/подмножество).Claim 1 (Независимый пункт): Описывает основной метод сбора обучающих данных для классификатора.
Reference Queries (известные "плохие" запросы).Co-occurring Queries, которые встречаются рядом с референсными запросами в логах поиска.Candidate Query или нет.training data) для классификатора.Claim 8 (Независимый пункт): Детализирует полный цикл, включая генерацию референсных запросов и расчет метрик.
Seed Terms.Reference Queries.Co-occurring Queries.Co-occurrence Value на основе этих метрик.Candidate Query (на основе Co-occurrence Value).Claim 5 и Claim 11 (Зависимые): Уточняют механизм классификации в Кандидаты.
Классификация происходит, если Co-occurrence Value удовлетворяет пороговому значению (co-occurrence threshold).
Claim 6 и Claim 12 (Зависимые): Определяют критически важные критерии для финальной валидации Кандидата.
Критерии включают одно или несколько из следующих условий:
Reference Query был получен от того же пользователя в течение определенного времени до или после Кандидата (подтверждение связи в сессии).Appropriate sensitive content (исключение ложных срабатываний на приемлемый контент, например, новости).Изобретение связано с этапами Понимания Запросов и Фильтрации (Переранжирования).
QUNDERSTANDING – Понимание Запросов
Основная часть патента описывает офлайн-процесс, который является частью глобального понимания пространства запросов:
Training Data) по описанному методу (анализ co-search behavior), и на их основе тренируется Classifier.RERANKING – Переранжирование (Фильтрация)
На финальном этапе формирования выдачи система использует результаты работы классификатора для модерации (например, через Twiddlers типа SafeSearch).
Inappropriate content.User Preference/Behavior).Входные данные (для офлайн-процесса):
Seed Terms) или существующие Reference Queries.Выходные данные (офлайн-процесса):
Training Data) для классификатора.Фаза 1: Генерация Референсных Запросов (Офлайн)
Seed Terms (например, общая тема) и второго набора Seed Terms (например, неприемлемый аспект).Reference Queries.Фаза 2: Идентификация Кандидатов (Офлайн)
Co-occurring Queries — запросов, введенных тем же пользователем в течение определенного временного окна (например, 2-60 минут) до или после Reference Query.Co-occurring Query подсчитывается общее количество его появлений и количество его совместных появлений с любым Reference Query.Co-occurrence Value с установленным порогом (Co-occurrence Threshold). Если значение выше порога, запрос классифицируется как Candidate Query.Фаза 3: Фильтрация и Маркировка (Офлайн)
Candidate Query: Reference Query был введен тем же пользователем в рамках временного окна.Candidate Query ранее в тот же календарный день (фильтр повторов).Candidate Query с Appropriate sensitive content (например, новости, исследования).Candidate Query маркируется как "вероятно связанный с неприемлемым контентом" и добавляется в Training Data. (Опционально: генерация вариантов написания, опечаток для расширения данных - Claim 19).Фаза 4: Применение Классификатора (Онлайн)
Query Logs), временные метки запросов, идентификаторы пользователей (для связывания запросов в сессию). Анализируется последовательность и временная близость запросов (co-search behavior), а также частота запросов в течение дня.Seed Terms) для генерации стартового набора Reference Queries. Также используются данные для классификации контента как Appropriate или Inappropriate.User Preference/Behavior, например, SafeSearch) используются на этапе применения классификатора для принятия решения о модификации выдачи.Reference Query. Метрика обычно нормализована, например, как отношение (ii)/(i). Co-occurrence Value≈Общее число вхождений запросаЧисло совместных вхождений с Reference QueriesCo-occurrence Value, необходимое для того, чтобы запрос стал Кандидатом.Патент описывает внутренние процессы Google, направленные на модерацию контента и обеспечение безопасности поиска, без прямых рекомендаций для SEO. Он дает следующее понимание работы системы:
co-search behavior). Система исходит из предположения, что запросы, часто вводимые незадолго до или после известных "плохих" запросов, также, вероятно, являются "плохими".Co-occurrence Value, сравнение с порогами и применение специфических поведенческих критериев (например, фильтр запросов, повторяющихся в течение дня - Claim 6).Inappropriate (неприемлемый) и Appropriate (приемлемый) чувствительный контент. Это указывает на попытку Google различать контекст, например, между новостями о насилии и поиском инструкций к насилию.Патент является инфраструктурным и фокусируется на безопасности контента. Он не дает практических выводов для SEO-продвижения большинства стандартных сайтов.
Appropriate sensitive content, а не Inappropriate.co-search behavior) для классификации запросов. Этот общий принцип используется не только для безопасности, но и для лучшего понимания интента в общем поиске, что подтверждает важность оптимизации под задачи пользователя (user journey).Inappropriate. Система будет активно модифицировать выдачу (понижать или удалять результаты), даже если пользователь явно ищет такой контент (если это не запрещено законом).Патент подтверждает высокую степень развития технологий Google в анализе поведения пользователей на уровне сессий. Способность использовать контекст соседних запросов (co-search behavior) для классификации текущего запроса является мощным инструментом. Хотя в данном патенте он применяется для обеспечения безопасности, аналогичные механизмы анализа сессий используются и в общем поиске для уточнения намерений пользователя и улучшения релевантности.
Практических примеров для применения в SEO нет, так как патент направлен на фильтрацию и подавление контента, а не на его продвижение или оптимизацию.
Влияет ли этот патент на ранжирование моего интернет-магазина или информационного блога?
Нет, напрямую не влияет. Этот патент описывает не алгоритмы ранжирования, а систему для обучения классификатора, который выявляет запросы о крайне неприемлемом или незаконном контенте (насилие, терроризм, CSAM). Он относится к инфраструктуре безопасности и модерации контента (например, SafeSearch).
Что такое "Co-search behavior" и как Google его использует?
Co-search behavior (поведение совместного поиска) — это анализ последовательности запросов, которые пользователь вводит в течение короткого периода времени (сессии). В контексте этого патента Google использует его для выявления новых "плохих" запросов. Если неизвестный запрос часто вводят сразу после или до известного "плохого" запроса, система помечает его как подозрительный.
Что считается "неприемлемым чувствительным контентом" (Inappropriate sensitive content) согласно патенту?
Патент приводит конкретные примеры: детская порнография (CSAM), сцены жестокости и насилия (gore scenes and images), контент для вербовки террористов или банд (terrorist or gang recruitment content). Это контент, доступ к которому Google стремится ограничить или полностью заблокировать.
Как система отличает новостной запрос о трагедии от запроса о том, как ее совершить?
Патент вводит разделение на Appropriate (приемлемый) и Inappropriate (неприемлемый) контент. Для отделения одного от другого используются специальные фильтры (Claim 6 и 12). Например, если запрос связан с новостями или исследованиями, он может быть помечен как Appropriate, даже если тема чувствительная, и исключен из обучающих данных для "плохого" классификатора.
Используется ли анализ поисковых сессий только для фильтрации плохого контента?
Нет. Анализ поисковых сессий (co-search behavior) — это общий метод в Information Retrieval. Хотя в этом патенте он используется для безопасности, Google также использует анализ сессий в общем поиске для лучшего понимания контекста, уточнения намерения пользователя и улучшения релевантности.
Что такое "Co-occurrence Value"?
Это метрика, которая показывает, насколько сильно запрос связан с неприемлемым контентом. Она рассчитывается как отношение: насколько часто запрос X встречается рядом с известными "плохими" запросами (Reference Queries) по сравнению с тем, насколько часто запрос X встречается всего. Чем выше значение, тем сильнее связь.
Какие поведенческие фильтры использует система, чтобы избежать ложных срабатываний?
Система применяет несколько критериев. Например, она проверяет, вводил ли пользователь этот же запрос ранее в тот же день (Claim 6 и 12). Если да, то запрос, скорее всего, не связан с поиском неприемлемого контента в данной конкретной сессии (возможно, это привычный запрос), и он исключается из анализа.
Может ли мой сайт быть пессимизирован из-за этого алгоритма?
Только если ваш сайт содержит контент, который классифицируется как Inappropriate sensitive or offensive content. Если классификатор определит, что запрос пользователя направлен на поиск такого контента, система модифицирует выдачу и может понизить или удалить ваш ресурс из результатов поиска (Claim 13, 14).
Как этот патент связан с SafeSearch?
Этот патент описывает механизм для обучения классификатора, который, вероятно, используется системами типа SafeSearch. Классификатор определяет, является ли запрос "чувствительным" или "неприемлемым". Затем SafeSearch, в зависимости от настроек пользователя (User Preference/Behavior), принимает решение о фильтрации результатов.
Зачем SEO-специалисту знать об этом патенте, если он не влияет на ранжирование?
Знание этого патента полезно для глубокого понимания того, как работают компоненты поисковой системы. Он демонстрирует продвинутые методы анализа поведения пользователей в сессиях для классификации запросов. Понимание этих механизмов помогает лучше понять общие принципы работы Google с интентом пользователя.

Семантика и интент
Поведенческие сигналы

Безопасный поиск
Семантика и интент
SERP

Безопасный поиск
SERP
Семантика и интент

Поведенческие сигналы
Персонализация

Поведенческие сигналы
SERP
Мультимедиа

SERP
Поведенческие сигналы

EEAT и качество
Ссылки

Поведенческие сигналы

Семантика и интент
Персонализация
Поведенческие сигналы

Ссылки
Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы
Персонализация

Персонализация
Поведенческие сигналы
SERP

Поведенческие сигналы
Семантика и интент
Мультимедиа

Ссылки
EEAT и качество
SERP

Поведенческие сигналы
Персонализация
Local SEO
