Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует контекст всего сайта для выявления и фильтрации нежелательного контента (SafeSearch)

    SCORING ITEMS (Оценка элементов контента)
    • US8989450B1
    • Google LLC
    • 2015-03-24
    • 2006-01-13
    2006 Антиспам Безопасный поиск Мультимедиа Патенты Google

    Патент описывает систему оценки изображений на предмет нежелательного (например, взрослого) контента. Система анализирует не только само изображение и страницу, на которой оно размещено, но и агрегированные статистические данные по другим изображениям и страницам на том же сайте. Этот общесайтовый контекст позволяет точнее классифицировать спорный контент и применяется для фильтрации результатов, например, через SafeSearch.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему ненадежной классификации отдельных элементов контента (в частности, изображений) на предмет содержания inappropriate content (нежелательного или оскорбительного контента, например, порнографии). Индивидуальные классификаторы, анализирующие только пиксели изображения или только текст вмещающей страницы, могут давать слабый или неопределенный сигнал.

    Что запатентовано

    Запатентована система, которая повышает точность классификации контента за счет анализа общесайтового контекста. Система агрегирует сигналы не только с анализируемого изображения и вмещающего его документа, но и собирает статистику (set of statistics) по другим изображениям и документам с того же web site. Это позволяет превратить слабые индивидуальные сигналы в надежную итоговую оценку за счет выявления паттернов на уровне сайта.

    Как это работает

    Система использует многоуровневый подход:

    • Индивидуальная оценка: Text Classifiers анализируют текст документа, а Image Classifiers анализируют признаки изображения (например, наличие телесных тонов), генерируя первичные оценки.
    • Общесайтовый анализ: Система анализирует другие документы и изображения на том же сайте.
    • Генерация статистики: Statistics Generators вычисляют статистическое распределение оценок и признаков по всему сайту (например, средняя оценка всех изображений, дисперсия признаков).
    • Финальная классификация: Final Classifier объединяет индивидуальные оценки и общесайтовую статистику для вынесения итогового решения (Image Score) о том, содержит ли изображение нежелательный контент.

    Актуальность для SEO

    Высокая. Фильтрация нежелательного контента (SafeSearch) является ключевой функцией поиска Google, особенно Поиска по картинкам. Описанная методология, использующая агрегацию общесайтовых сигналов для уточнения оценки отдельных элементов, является фундаментальной для современных алгоритмов Google, даже если этот конкретный патент (с приоритетом от 2006 года) фокусируется именно на inappropriate content.

    Важность для SEO

    Влияние на SEO значительное, особенно для оптимизации Поиска по картинкам и сайтов, работающих с пограничным контентом. Патент демонстрирует механизм, при котором проблемы с контентом на одной части сайта могут повлиять на классификацию изображений на других его частях. Если система обнаруживает паттерн нежелательного контента на сайте, это может привести к массовому исключению изображений сайта из выдачи при активном SafeSearch.

    Детальный разбор

    Термины и определения

    Final Classifier (Финальный классификатор)
    Компонент системы, который получает на вход индивидуальные оценки от текстовых и графических классификаторов, а также общесайтовую статистику, и генерирует итоговую оценку (Image Score) для изображения.
    Image Classifiers (Графические классификаторы)
    Системы (например, нейронные сети, байесовские классификаторы), которые анализируют признаки (features) изображения и генерируют оценку вероятности наличия нежелательного контента на основе визуальных данных.
    Image Features (Признаки изображения)
    Характеристики контента изображения. Примеры в патенте включают количество обнаруженных лиц, пропорцию изображения, занятую лицами, количество пикселей телесного цвета (skin-colored pixels), средний цвет, процент телесных тонов (skin-tone color).
    Inappropriate Content (Нежелательный контент)
    Контент, который пользователь может счесть оскорбительным или нежелательным (например, порнография).
    Image Score (Оценка изображения)
    Итоговая оценка, представляющая вероятность того, что изображение содержит inappropriate content. Может быть реализована в виде числового значения или тега (tag).
    Statistics Generators (Генераторы статистики)
    Компоненты, которые вычисляют статистические показатели на основе текстовых и графических данных всего сайта. Например, распределение оценок или признаков по всем документам/изображениям сайта.
    Text Classifiers (Текстовые классификаторы)
    Системы, которые анализируют текст документа (например, наличие слов, связанных с нежелательным контентом) и генерируют оценку вероятности наличия нежелательного контента на основе текстовых данных.
    Web Site (Веб-сайт)
    Группа связанных документов. Патент подчеркивает гибкость определения: это может быть домен (somedomain.com), директория (www.somedomain.com//) или хост (.somedomain.com). Выбор группировки может производиться автоматически.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод оценки элемента контента (item) на сайте.

    1. Система идентифицирует элемент (например, изображение), связанный с веб-сайтом. Веб-сайт включает первую веб-страницу (содержащую или ссылающуюся на элемент) и вторую веб-страницу.
    2. Генерируется оценка (score) вероятности того, что элемент содержит inappropriate content.
    3. Эта оценка основана на (А) контенте самого элемента И (Б) как минимум одном из следующего: контенте первой веб-страницы, контенте другого элемента на сайте, ИЛИ контенте второй веб-страницы.
    4. С элементом ассоциируется тег (tag) на основе этой оценки. Тег определяет, будет ли элемент показан в результатах поиска.

    Ядро изобретения — это обязательное использование контекста, выходящего за рамки самого элемента (пункт 3), для определения его оценки.

    Claim 3 и 4 (Зависимые): Уточняют, какие признаки элемента могут использоваться.

    1. Извлекается признак (feature) из контента элемента.
    2. Этот признак включает информацию, идентифицирующую часть элемента, содержащую определенный цвет (в частности, skin-tone color).
    3. Генерируется частная оценка на основе этого признака, которая затем используется для генерации итоговой оценки.

    Это подтверждает использование анализа пикселей и детекции телесных тонов как одного из сигналов.

    Claim 5 (Зависимый): Уточняет анализ вмещающей страницы.

    1. Определяется количество слов на первой веб-странице, связанных с inappropriate content.
    2. Определяется частная оценка на основе этого количества слов, которая затем используется для генерации итоговой оценки.

    Это подтверждает использование текстового анализа вмещающей страницы как сигнала.

    Claim 6 и 7 (Зависимые): Описывают применение оценки в поиске.

    1. Идентифицируется набор элементов по поисковому запросу.
    2. На основе тега определяется, что элемент содержит inappropriate content.
    3. Определяются предпочтения пользователя относительно нежелательного контента.
    4. Если предпочтения указывают на необходимость фильтрации, элемент удаляется из набора результатов перед показом пользователю.

    Это описывает механизм работы функции SafeSearch.

    Где и как применяется

    Изобретение применяется на этапах индексирования и ранжирования, преимущественно в контексте Поиска по картинкам.

    CRAWLING – Сканирование и Сбор данных
    Система собирает изображения и документы (веб-страницы) с сайтов.

    INDEXING – Индексирование и извлечение признаков
    Основной этап работы алгоритма.

    1. Извлечение признаков: Анализируются изображения для извлечения Image Features (например, телесные тона). Анализируется текст документов.
    2. Первичная оценка: Text Classifiers и Image Classifiers генерируют первичные оценки для каждого элемента и документа.
    3. Агрегация и Статистика (Site-Level): Система определяет границы web site (домен, директория и т.д.). Statistics Generators обрабатывают все первичные оценки и признаки в пределах этого сайта и вычисляют статистическое распределение.
    4. Финальная оценка: Final Classifier использует индивидуальные оценки и общесайтовую статистику для определения итогового Image Score или tag. Эти данные сохраняются в индексе.

    RANKING / RERANKING – Ранжирование и Переранжирование
    На этом этапе система использует сохраненные оценки для фильтрации выдачи. Если у пользователя активирован SafeSearch (user preference), изображения с соответствующим тегом или высокой оценкой inappropriate content удаляются из результатов поиска.

    Входные данные:

    • Содержимое изображения (пиксели).
    • Текст документа, вмещающего изображение или ссылающегося на него.
    • Содержимое других изображений и документов на том же сайте.
    • Структура сайта (для определения границ анализа).

    Выходные данные:

    • Image Score или Tag, ассоциированный с изображением в индексе, указывающий на вероятность наличия нежелательного контента.

    На что влияет

    • Типы контента: В первую очередь влияет на изображения и их видимость в Поиске по картинкам и в универсальной выдаче.
    • Специфические запросы: Влияет на все запросы, когда у пользователя активированы настройки фильтрации (SafeSearch).
    • Конкретные ниши или тематики: Наибольшее влияние оказывается на ниши, связанные с контентом для взрослых. Также критично для тематик, где могут возникать ложные срабатывания: медицина, искусство, анатомия, сайты о нижнем белье или купальниках.

    Когда применяется

    • Триггеры активации: Алгоритм анализа и оценки применяется ко всем индексируемым изображениям.
    • Временные рамки: Оценка происходит в процессе индексирования и может периодически обновляться при пересканировании сайта. Фильтрация применяется в реальном времени при обработке запроса пользователя.
    • Условия применения фильтра: Фильтрация активируется, если Image Score превышает порог И если пользователь установил предпочтение не получать inappropriate content (например, включил SafeSearch). Патент упоминает возможность разных уровней фильтрации (низкий, умеренный, высокий), что подразумевает использование разных пороговых значений.

    Пошаговый алгоритм

    Процесс определения оценки (Image Score) для изображения:

    1. Анализ текста и генерация текстовых оценок: Использование текстовых классификаторов для генерации текстовой оценки (text score) для документа, который содержит изображение (или ссылается на него), а также для других документов с того же веб-сайта.
    2. Генерация текстовой статистики сайта: Вычисление набора статистических данных для веб-сайта на основе полученных текстовых оценок. Это характеризует распределение текстовых оценок по сайту (например, среднее значение, медиана, дисперсия).
    3. Извлечение признаков изображения: Извлечение набора признаков (features) из анализируемого изображения (например, процент телесных тонов).
    4. Анализ изображений и генерация графических оценок: Генерация графических оценок (image scores) для анализируемого изображения и других изображений с того же веб-сайта с использованием извлеченных признаков.
    5. Генерация статистики признаков изображения: Вычисление набора статистических данных для каждого признака изображения. Это характеризует распределение признака по другим изображениям на сайте.
    6. Генерация статистики графических оценок: Вычисление набора статистических данных на основе полученных графических оценок. Это характеризует распределение графических оценок по сайту.
    7. Передача данных в финальный классификатор: Ввод текстовой оценки, текстовой статистики, графической оценки, статистики признаков и статистики графических оценок в Final Classifier.
    8. Определение финальной оценки: Вычисление финальной оценки (final score) для изображения с использованием всех входных данных. Классификатор может взвешивать разные источники данных.
    9. Ассоциация оценки с изображением: Сохранение финальной оценки или установка тега (tag), если оценка превышает порог, в базе данных.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст документов на сайте анализируется на предмет наличия слов, связанных с inappropriate content.
    • Мультимедиа факторы: Изображения анализируются для извлечения визуальных признаков. Упомянуты:
      • Количество пикселей телесного цвета (skin-colored pixels) / процент телесных тонов (skin-tone color).
      • Количество обнаруженных лиц (detected faces).
      • Пропорция изображения, занятая лицами.
      • Средний цвет (например, верхней половины изображения).
    • Структурные факторы: Структура URL используется для определения границ web site (домен, хост, директория). Также учитывается, на каком сайте хостится изображение и на каком сайте находится документ, ссылающийся на него (они могут различаться).

    Какие метрики используются и как они считаются

    • Text-based score (Текстовая оценка): Вероятность того, что документ содержит нежелательный контент, основанная на анализе текста.
    • Image-based score (Графическая оценка): Вероятность того, что изображение содержит нежелательный контент, основанная на анализе его признаков.
    • Set of Statistics (Набор статистических данных): Метрики, характеризующие распределение оценок или признаков по всему сайту. Патент упоминает:
      • Mean (среднее значение).
      • Median (медиана).
      • Variance (дисперсия) / Standard deviation (стандартное отклонение).
      • Quantiles (квантили).
      • Sum (сумма).
    • Final Score (Финальная оценка): Итоговая оценка, вычисляемая Final Classifier путем комбинации (например, взвешенной суммы) индивидуальных оценок и общесайтовой статистики. Формула в патенте представлена как функция: F(text-based score, image-based score, text-based statistics, image feature statistics, image score statistics).
    • Методы машинного обучения: Для классификаторов (Text, Image, Final) упоминается использование деревьев решений (decision trees), байесовских классификаторов (Bayesian classifiers) и нейронных сетей (neural networks), обученных на размеченных данных.

    Выводы

    1. Контекст сайта имеет решающее значение для классификации контента. Патент явно указывает, что оценка элемента не основывается только на нем самом. Система обязана учитывать данные других страниц или других элементов с того же сайта.
    2. Усиление слабых сигналов через агрегацию. Ключевая идея патента — повышение надежности классификации спорного контента. Изображение с пограничной индивидуальной оценкой будет классифицировано как inappropriate, если оно находится на сайте, где много других изображений также имеют пограничные оценки или где текст указывает на нежелательный контент.
    3. Гибкое определение границ сайта. Система может автоматически определять, что считать «сайтом» для анализа — домен, поддомен (хост) или директорию. Это позволяет адаптироваться к структуре ресурса и группировать контент, созданный одним автором или имеющий общую тематику.
    4. Механизм работы SafeSearch. Патент детально описывает техническую реализацию того, как Google оценивает контент для фильтрации в SafeSearch, используя комбинацию анализа текста, визуальных признаков (таких как телесные тона) и общесайтовых статистических паттернов.
    5. Модель для общесайтовых оценок. Хотя патент сфокусирован на нежелательном контенте, описанная архитектура (индивидуальные классификаторы + генераторы общесайтовой статистики -> финальный классификатор) представляет собой общую модель того, как Google может реализовывать общесайтовые оценки качества или тематичности.

    Практика

    Best practices (это мы делаем)

    • Поддерживайте четкое тематическое разделение на сайте. Поскольку система агрегирует статистику на уровне сайта (домена, хоста или директории), важно не смешивать потенциально inappropriate content с основным контентом. Если необходимо размещать контент, который может быть классифицирован как нежелательный, его следует изолировать (например, на отдельном поддомене), чтобы он не влиял на статистику основного сайта.
    • Обеспечивайте четкий контекст для пограничных изображений. Для сайтов в нишах, подверженных ложным срабатываниям (медицина, искусство, белье), критически важно, чтобы окружающий текст и общая тематика сайта ясно указывали на не-порнографический контекст. Если Text-based statistics сайта будут чистыми, это поможет Final Classifier корректно оценить изображения, даже если их визуальные признаки (например, телесные тона) спорные.
    • Мониторинг видимости в Image Search с SafeSearch. Регулярно проверяйте, как изображения сайта ранжируются при включенном и выключенном SafeSearch. Резкое падение видимости при включенном фильтре указывает на то, что система классифицирует контент как inappropriate.
    • Комплексный подход к устранению проблем с SafeSearch. Если сайт попал под фильтр SafeSearch, недостаточно исправить несколько страниц или изображений. Патент показывает, что проблема может быть в общесайтовой статистике. Необходимо провести аудит всего сайта (или сегмента, который Google определил как web site), чтобы улучшить общие сигналы и изменить статистическое распределение оценок.

    Worst practices (это делать не надо)

    • Игнорирование общесайтового контекста при анализе изображений. Ошибка считать, что если изображение само по себе «чистое», оно не попадет под фильтр. Если оно размещено на сайте с плохой статистикой по inappropriate content, оно может быть отфильтровано.
    • Размещение UGC контента без модерации на основном домене. Если пользователи могут загружать изображения или текст, который может быть классифицирован как inappropriate, это ухудшит общесайтовую статистику и поставит под угрозу видимость всего контента сайта в поиске.
    • Использование большого количества пограничных сигналов на многих страницах. Создание множества страниц с умеренно «взрослым» текстом или слегка откровенными изображениями. Хотя каждая отдельная страница может не превышать порог, Statistics Generators обнаружат этот паттерн на уровне сайта, что приведет к пессимизации.

    Стратегическое значение

    Патент подтверждает фундаментальный принцип работы поиска Google: оценка отдельного элемента контента неразрывно связана с оценкой сайта в целом. Он предоставляет техническое описание того, как именно агрегируются и используются общесайтовые сигналы (site-wide signals). Это критически важно для стратегии в Поиске по картинкам и для понимания работы фильтров безопасности. Стратегически важно строить сайт так, чтобы его общее статистическое распределение сигналов соответствовало целевой тематике и не вызывало ложных срабатываний классификаторов.

    Практические примеры

    Сценарий 1: Медицинский сайт и ложные срабатывания

    • Ситуация: Сайт клиники пластической хирургии размещает фотографии «до и после». Визуально эти изображения содержат много skin-tone color.
    • Как работает алгоритм: Image Classifiers могут дать пограничные оценки из-за визуальных признаков. Однако Text Classifiers анализируют текст (медицинские термины, описание процедур) и дают низкие оценки inappropriate content. Statistics Generators показывают, что весь сайт имеет чистую текстовую статистику.
    • Результат: Final Classifier учитывает чистый общесайтовый контекст и классифицирует изображения как безопасные, предотвращая попадание под SafeSearch.

    Сценарий 2: Новостной сайт с разделом светской хроники

    • Ситуация: Крупный новостной портал имеет раздел светской хроники в отдельной директории (news.com/gossip), где часто публикуются фото звезд в купальниках и используется более «желтая» лексика.
    • Как работает алгоритм: Google может автоматически определить /gossip/ как отдельный web site для анализа (так как патент позволяет группировку по директории). В этом разделе Image Classifiers и Text Classifiers дают более высокие оценки inappropriate content, чем в основном разделе новостей. Statistics Generators фиксируют это отличие.
    • Результат: Изображения из раздела /gossip/ могут быть отфильтрованы SafeSearch, но это не повлияет на статистику и видимость основного новостного раздела, так как они анализируются раздельно.

    Вопросы и ответы

    Как система определяет границы «веб-сайта» для анализа статистики?

    Патент указывает на гибкий подход. «Веб-сайт» определяется как группа документов и может соответствовать домену (например, site.com), хосту (например, subdomain.site.com) или директории (например, site.com/blog/). Система может автоматически выбирать оптимальную группировку для анализа, чтобы наилучшим образом сгруппировать контент, который, вероятно, был создан одним автором или имеет схожую тематику.

    Влияет ли этот патент на обычный веб-поиск или только на Поиск по картинкам?

    Патент в первую очередь описывает оценку изображений (Scoring Items) и их последующую фильтрацию в результатах поиска (SafeSearch), что наиболее актуально для Поиска по картинкам. Однако механизм также анализирует текст документов. Если документ классифицирован как содержащий inappropriate content, это может повлиять и на его видимость в обычном веб-поиске при активной фильтрации.

    Какие именно визуальные признаки используются для обнаружения нежелательного контента?

    Патент перечисляет несколько конкретных примеров Image Features. Ключевыми являются обнаружение и подсчет пикселей телесного цвета (skin-colored pixels) и процент содержания телесных тонов (skin-tone color). Также упоминаются обнаружение лиц (detected faces), пропорция изображения, занятая лицами, и средний цвет изображения.

    Что такое «Генераторы статистики» и почему они важны?

    Statistics Generators — это ключевой компонент, который отличает этот подход от простой классификации. Они вычисляют статистическое распределение (среднее, дисперсию и т.д.) оценок и признаков по всему сайту. Это позволяет системе понять общий контекст: является ли спорное изображение исключением на «чистом» сайте или это часть общесайтового паттерна нежелательного контента.

    Может ли наличие нескольких «взрослых» страниц привести к фильтрации всего сайта в SafeSearch?

    Да, это возможно, и именно этот сценарий описывает патент. Если наличие этих страниц значительно изменит общесайтовую статистику (site-wide statistics), то Final Classifier может начать более агрессивно маркировать даже пограничные изображения на других страницах этого сайта как inappropriate content.

    Как бороться с ложным срабатыванием SafeSearch, основываясь на этом патенте?

    Для борьбы с ложными срабатываниями (например, на медицинских или художественных сайтах) необходимо работать над улучшением сигналов, которые использует Final Classifier. Убедитесь, что текстовый контент на сайте четко указывает на безопасный контекст (снижая Text-based statistics). Также можно попытаться снизить количество визуальных триггеров, если это возможно без потери смысла контента.

    Влияет ли хостинг изображений на их оценку?

    Да. Патент отмечает, что система учитывает два адреса: адрес хостинга изображения и адрес документа, который на него ссылается. Сигналы могут группироваться по хостингу изображения. Если сайт хостит много нежелательных изображений (даже если они отображаются на других сайтах), все изображения с этого хостинга могут быть помечены как inappropriate.

    Если я изолирую спорный контент на поддомене, защитит ли это основной домен?

    Согласно патенту, это должно помочь. Система может рассматривать хост (поддомен) как отдельный web site для анализа статистики. Если спорный контент находится на adult.site.com, его статистика не должна напрямую влиять на статистику www.site.com, при условии, что система решила анализировать их раздельно.

    Является ли этот механизм единственным способом, которым Google определяет нежелательный контент?

    Нет. Патент описывает сложную систему, объединяющую различные классификаторы (нейронные сети, деревья решений и т.д.). Вероятно, Google использует множество моделей для анализа изображений и текста. Однако этот патент подчеркивает важность интеграции общесайтового контекста в финальную оценку, независимо от используемых базовых классификаторов.

    Насколько старые данные использует система для расчета статистики сайта?

    Патент не указывает конкретные временные рамки. Предполагается, что статистика рассчитывается на основе текущего состояния проиндексированного контента сайта. При значительном обновлении контента сайта статистика будет пересчитана после переиндексации, что может привести к изменению классификации изображений.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.