Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google автоматизирует модерацию и рейтинг изображений и рекламы, используя машинный анализ и оценки доверия

    SYSTEM AND METHOD FOR RATING DOCUMENTS COMPRISING AN IMAGE (Система и метод для рейтинга документов, содержащих изображение)
    • US7801738B2
    • Google LLC
    • 2010-09-21
    • 2004-05-10
    2004 EEAT и качество Безопасный поиск Мультимедиа Патенты Google

    Google использует гибридную систему для оценки контента, содержащего изображения (например, рекламных баннеров). Система автоматически анализирует изображения (распознает текст, объекты, определяет наличие обнаженной натуры) и агрегирует эти данные с оценками людей-эвалуаторов и обратной связью пользователей. Итоговый рейтинг, взвешенный с учетом доверия к оценщику и чувствительности аудитории, определяет, будет ли контент одобрен и кому он будет показан.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему масштабируемой и эффективной оценки большого количества документов, содержащих изображения (в частности, графической рекламы), на предмет их уместности для различной аудитории. Он устраняет ограничения, высокую стоимость и временные затраты, связанные исключительно с ручной проверкой контента, путем внедрения автоматизированных процессов анализа изображений и структурированного подхода к агрегации оценок.

    Что запатентовано

    Запатентована система рейтинга документов с изображениями, использующая гибридный подход. Суть изобретения заключается в комбинации автоматизированной оценки контента, выполняемой процессорами (Optical Processor, Image File Processor), с оценками, полученными от других субъектов (людей-эвалуаторов, конечных пользователей). Система агрегирует эти оценки, учитывая Trust Score (доверие к оценщику) и Sensitivity Score (чувствительность аудитории), для принятия решения об одобрении и распространении контента.

    Как это работает

    Система функционирует следующим образом:

    • Получение документа: Сервер получает документ (например, рекламный баннер).
    • Автоматизированная оценка: Процессоры анализируют изображение, используя такие методы, как оптическое распознавание символов (OCR) для извлечения текста, распознавание образов и Flesh Detection (обнаружение обнаженной натуры).
    • Сбор оценок: Система также собирает оценки от других Rating Entities, включая назначенных эвалуаторов или обратную связь от конечных пользователей через Feedback Mechanism.
    • Агрегация и взвешивание: Все полученные оценки агрегируются. Оценки могут взвешиваться на основе Trust Score каждого оценщика.
    • Принятие решения: На основе Aggregate Rating принимается решение об одобрении документа.
    • Доставка контента: При запросе контента система сопоставляет Aggregate Rating документа с Suitability Standard или Sensitivity Score получателя (веб-сайта или пользователя), чтобы предоставить уместный контент.

    Актуальность для SEO

    Высокая. Автоматизированная модерация контента является критически важной для современных платформ. Хотя конкретные технологии, упомянутые в патенте (например, OCR), значительно эволюционировали в сторону сложного компьютерного зрения и машинного обучения, базовые принципы — автоматический анализ изображений, гибридная оценка, учет доверия к источнику и контекста получателя — лежат в основе современных систем Google, таких как SafeSearch и модерация Google Ads.

    Важность для SEO

    Влияние на органическое SEO оценивается как среднее (6/10), но влияние на Google Ads и Image Search — как высокое. Патент в первую очередь описывает инфраструктуру для рекламных сетей и модерации контента. Для органического SEO он важен тем, что подтверждает способность Google алгоритмически понимать содержание изображений (текст, объекты, уместность) за пределами ALT-тегов. Это напрямую влияет на работу фильтров (например, SafeSearch) и ранжирование в поиске по картинкам.

    Детальный разбор

    Термины и определения

    Aggregate Rating (Агрегированный рейтинг)
    Итоговая оценка документа, рассчитанная путем обработки одной или нескольких оценок контента от различных эвалуаторов. Может учитывать Trust Scores и Sensitivity Scores.
    Document (Документ)
    Любой электронный контент, включая рекламу, веб-страницы, результаты поиска, электронные письма, аудио/видео файлы. В контексте патента часто подразумевается графическая реклама (Image Ad).
    Evaluator / Rating Entity (Эвалуатор / Субъект оценки)
    Любой субъект, предоставляющий информацию о рейтинге документа. Может включать людей, процессоры (Optical Processor, Image File Processor), рекламодателей, издателей или конечных пользователей.
    Feedback Mechanism (Механизм обратной связи)
    Элемент документа (например, ссылка в рекламном объявлении), позволяющий получателям оценить документ.
    Flesh Detection (Обнаружение обнаженной натуры)
    Автоматизированный процесс, используемый процессорами для определения количества обнаженной человеческой плоти в изображении.
    Image File Processor (Процессор файлов изображений)
    Автоматизированная система, которая определяет рейтинг путем анализа компьютерного файла, хранящего документ (например, .pdf, .tiff), без оптического считывания.
    OCR (Optical Character Recognition)
    Оптическое распознавание символов. Технология, используемая процессорами для идентификации и извлечения текста из изображений.
    Optical Processor (Оптический процессор)
    Автоматизированная система, оснащенная оптическими сенсорами для считывания и анализа физического воплощения документа или его электронного файла с целью определения рейтинга.
    Sensitivity Score (Оценка чувствительности)
    Метрика, связанная с получателем контента (пользователем или издателем), указывающая на уровень консерватизма при оценке контента. Высокая чувствительность требует более строгого соответствия критериям уместности.
    Suitability Standard (Стандарт пригодности)
    Набор критериев, связанных с получателем контента (например, возраст, пол, демография), используемый для определения того, подходит ли ему конкретный документ.
    Trust Score (Оценка доверия)
    Метрика, присваиваемая эвалуатору, которая определяет вес его оценки при расчете Aggregate Rating. Основывается на репутации, прошлых оценках, отрасли и т.д.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод рейтинга документа с изображением.

    1. Система получает документ с изображением для распространения.
    2. Система получает рейтинговую информацию о документе от двух или более субъектов оценки (Rating Entities).
    3. Критическое условие: По крайней мере один из этих субъектов является процессором, который определяет содержание изображения и генерирует рейтинговую информацию на основе этого содержания (т.е. автоматизированный анализ изображения).
    4. Система определяет Aggregate Rating путем агрегирования полученной информации.
    5. Система одобряет документ для распространения на основе этого Aggregate Rating.

    Claim 3 (Зависимый от 1): Уточняет работу процессора.

    Процессор включает оптический считыватель. Он считывает оптические данные с изображения, переводит их в компьютерно-читаемый формат и обрабатывает эти данные для генерации рейтинга.

    Claim 11 (Зависимый от 1): Уточняет функцию процессора.

    Процессор идентифицирует содержание человеческой плоти (human flesh content) в изображении.

    Claim 23 (Зависимый от 1): Вводит понятие доверия.

    Одобрение документа также основывается на Trust Score, где каждая оценка доверия связана с конкретным субъектом оценки, предоставившим рейтинг.

    Claim 39 (Зависимый от 1): Описывает процесс доставки контента.

    1. Система получает сигнал, релевантный определенному критерию (например, поисковый запрос или запрос на рекламу).
    2. Система доставляет (показывает) одобренный документ в ответ на сигнал, основываясь как на критерии (релевантности), так и на рейтинговой информации (уместности).

    Claim 52 (Зависимый от 1): Описывает использование обратной связи.

    Документ включает Feedback Mechanism. Если система получает негативный рейтинг от получателя через этот механизм, она передает документ человеку-эвалуатору для проверки.

    Где и как применяется

    Изобретение затрагивает этапы индексирования контента и финальной доставки контента пользователю.

    CRAWLING & INDEXING – Сканирование, Индексирование и Извлечение Признаков
    На этом этапе система получает или обнаруживает контент (например, рекламные баннеры или изображения в сети). Optical Processor и Image File Processor анализируют изображения для извлечения признаков (текст через OCR, объекты, наличие обнаженной натуры) и генерации первичного автоматизированного рейтинга. Эти данные сохраняются в базах данных (Content Database, Content Rating Database).

    RANKING / RERANKING / METASEARCH – Ранжирование, Переранжирование и Смешивание
    Основное применение патента происходит при доставке контента. Когда поступает запрос (например, на показ рекламы на сайте или результаты поиска по картинкам):

    1. Система отбирает кандидатов на основе релевантности (критериев запроса).
    2. Система извлекает Aggregate Rating для этих кандидатов.
    3. Система определяет Suitability Standard или Sensitivity Score получателя (пользователя или веб-сайта).
    4. Система фильтрует или переранжирует результаты, сопоставляя рейтинг документа с чувствительностью получателя. Неуместный контент отфильтровывается (например, активация SafeSearch или отказ в показе рекламы).

    Входные данные:

    • Документ, содержащий изображение (файл или оптические данные).
    • Данные об эвалуаторах (для расчета Trust Score).
    • Данные о получателях (для определения Sensitivity Score/Suitability Standard).
    • Обратная связь от пользователей (Feedback).
    • Данные о производительности документа (Click-through rate, Transaction rate).

    Выходные данные:

    • Aggregate Rating документа.
    • Статус одобрения (Approved/Disapproved/Pending Review).
    • Доставка уместного документа получателю.

    На что влияет

    • Типы контента: В первую очередь влияет на графическую рекламу (баннеры), изображения в поиске по картинкам, а также любой контент, где визуальная составляющая критична для оценки уместности.
    • Конкретные ниши или тематики: Оказывает значительное влияние на ниши, связанные с деликатным контентом: контент для взрослых, медицина (YMYL), тематики, связанные с насилием, алкоголем, наркотиками.
    • Форматы контента: Влияет на форматы, где используется автоматическая вставка контента (например, рекламные сети типа AdSense).

    Когда применяется

    • При индексации/загрузке контента: Алгоритм автоматической оценки применяется при получении нового документа (например, загрузка новой рекламной кампании или индексация нового изображения).
    • При получении оценок: Aggregate Rating обновляется при поступлении новых данных от эвалуаторов или обратной связи от пользователей.
    • При запросе контента: Процесс сопоставления рейтинга и чувствительности активируется в реальном времени при каждом запросе на доставку документа.
    • Триггеры для пересмотра: Негативная обратная связь, жалобы издателей, аномально низкие или высокие показатели производительности (CTR), или значительное расхождение в оценках эвалуаторов могут инициировать повторную (часто ручную) проверку документа.

    Пошаговый алгоритм

    Фаза 1: Получение документа и инициация оценки

    1. Прием документа: Сервер получает документ с изображением.
    2. Автоматизированная обработка: Документ направляется на Optical Processor или Image File Processor. Процессор анализирует данные: извлекает текст (OCR), идентифицирует объекты, оценивает наличие обнаженной натуры (Flesh Detection), проверяет работоспособность ссылок. Генерируется автоматизированный рейтинг.
    3. Выборка для ручной оценки (Опционально): Document Selection Module может выбрать документ для дополнительной ручной проверки на основе случайности, тематики, источника или результатов автоматической проверки.
    4. Назначение эвалуаторов (Опционально): Evaluator Selection Module выбирает одного или нескольких людей-эвалуаторов и отправляет им документ и запрос на оценку.

    Фаза 2: Сбор и агрегация рейтингов

    1. Получение оценок: Система получает рейтинги от всех источников: автоматических процессоров, назначенных эвалуаторов, а также обратную связь от конечных пользователей (если документ уже распространялся).
    2. Определение Trust Scores: Trust Score Module определяет или обновляет оценки доверия для каждого эвалуатора, основываясь на их истории и профиле.
    3. Расчет Aggregate Rating: Rating Aggregation Module вычисляет итоговый рейтинг. Рейтинги взвешиваются с учетом Trust Scores. Методы расчета могут включать среднее, медиану, моду или более сложные алгоритмы.
    4. Определение статуса: На основе Aggregate Rating документу присваивается статус (например, Approved, Disapproved).

    Фаза 3: Доставка контента

    1. Получение запроса: Поступает запрос на доставку документа (например, запрос на рекламу от веб-сайта).
    2. Определение контекста получателя: Suitability Standard Module и Sensitivity Module определяют стандарты пригодности и уровень чувствительности получателя (издателя или пользователя).
    3. Выбор документа: Document Provision Module выбирает одобренные документы, которые релевантны запросу.
    4. Фильтрация по уместности: Система сопоставляет Aggregate Rating выбранных документов с Sensitivity Score получателя. Документы, не соответствующие уровню чувствительности, отфильтровываются.
    5. Доставка: Уместный документ доставляется получателю.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы (Изображения): Система анализирует непосредственно данные изображения (пиксели, паттерны). Используется для обнаружения объектов, лиц, а также для Flesh Detection.
    • Контентные факторы (Текст в изображениях): Текст, извлеченный из изображений с помощью OCR.
    • Технические факторы: Работоспособность ссылок (URLs), встроенных в документ. Система проверяет, не ведут ли ссылки на неработающие страницы (broken links).
    • Поведенческие факторы (Производительность): Данные о взаимодействии пользователей с документом: Click through rate (CTR), Transaction rate (коэффициент транзакций), Transaction volume (объем транзакций).
    • Пользовательские факторы (Обратная связь): Прямые оценки и комментарии, полученные от конечных пользователей через Feedback Mechanism.
    • Данные об эвалуаторах: История оценок, географическое положение, отрасль, репутация компании-эвалуатора. Используются для расчета Trust Score.
    • Данные о получателях: Возраст, пол, страна происхождения, заявленные предпочтения пользователей или издателей. Используются для определения Suitability Standard и Sensitivity Score.

    Какие метрики используются и как они считаются

    • Content Ratings (Оценки контента): Оценки по различным критериям (насилие, сексуальный контент, алкоголь, пригодность для детей и т.д.). Могут быть числовыми (например, 1-10), бинарными (Да/Нет) или текстовыми.
    • Flesh Detection Score: Процентное содержание обнаженной натуры, определенное автоматическим процессором.
    • Trust Score (Оценка доверия): Метрика надежности эвалуатора. Рассчитывается на основе сравнения прошлых оценок эвалуатора с агрегированными оценками других эвалуаторов, а также на основе профиля эвалуатора.
    • Sensitivity Score (Оценка чувствительности): Метрика консерватизма получателя. Может быть задана явно или выведена на основе прошлых жалоб или профиля.
    • Aggregate Rating (Агрегированный рейтинг): Итоговая оценка. Рассчитывается путем агрегации Content Ratings. Патент упоминает различные методы:
      • Взвешивание: Оценки умножаются на соответствующие Trust Scores.
      • Статистические методы: Среднее (mean), медиана (median), мода (mode), процентили.
      • Консервативная агрегация: При высокой Sensitivity Score даже одна негативная оценка может определить итоговый агрегированный рейтинг (например, если хоть один эвалуатор пометил контент как непригодный для детей, он таковым и признается).

    Выводы

    1. Автоматизация понимания изображений: Патент подчеркивает стремление Google автоматизировать анализ визуального контента. Системы не полагаются только на метаданные (вроде ALT-тегов), а анализируют само изображение для извлечения текста (OCR), идентификации объектов и оценки деликатного контента (Flesh Detection).
    2. Гибридная оценка как стандарт: Для масштабируемой модерации используется комбинация машинных оценок и человеческого суждения (эвалуаторы, обратная связь пользователей). Машинная оценка обеспечивает широкий охват, а человеческая — глубину и обработку сложных случаев.
    3. Доверие к оценщику (Trust Score): Система признает, что не все оценки одинаково надежны. Внедрение Trust Score позволяет взвешивать оценки, отдавая предпочтение более авторитетным или точным эвалуаторам и потенциально дисконтируя оценки от автоматических процессоров или менее надежных источников.
    4. Контекстуальная уместность (Sensitivity Score): Уместность контента не абсолютна, а зависит от контекста получателя. Sensitivity Score и Suitability Standard позволяют адаптировать доставку контента под конкретную аудиторию (например, дети, пользователи из разных стран или веб-сайты с разной тематикой).
    5. Производительность влияет на одобрение: Документ может быть не одобрен не только из-за неуместного контента, но и из-за плохих показателей производительности (например, низкий CTR для рекламы) или технических проблем (например, битые ссылки).

    Практика

    Best practices (это мы делаем)

    • Обеспечение уместности визуального контента: Убедитесь, что изображения на сайте соответствуют контексту страницы и ожиданиям целевой аудитории. Это важно для минимизации риска попадания под фильтры типа SafeSearch, которые используют принципы, схожие с описанными в патенте (автоматический анализ уместности).
    • Оптимизация текста на изображениях (OCR): Помните, что Google может извлекать и понимать текст с изображений. Используйте четкие шрифты. Хотя не следует полагаться только на изображения для передачи ключевой информации, убедитесь, что любой текст на изображениях (например, инфографике) точен и не содержит спама или вводящей в заблуждение информации.
    • Проверка целевых страниц (для рекламы и ссылок): Система проверяет не только сам документ (баннер), но и контент по ссылкам. Убедитесь, что все исходящие ссылки работают и ведут на качественные, уместные ресурсы. Битые ссылки могут привести к неодобрению контента.
    • Мониторинг производительности (для Google Ads): Если вы используете графическую рекламу, регулярно отслеживайте CTR и конверсии. Как указано в патенте, низкая производительность может быть причиной для неодобрения или пессимизации контента системой.

    Worst practices (это делать не надо)

    • Скрытие неуместного контента в изображениях: Попытки обойти текстовые фильтры путем размещения запрещенного или деликатного контента (насилие, обнаженная натура, спамные предложения) внутри изображений неэффективны. Системы типа Optical Processor с функциями OCR и Flesh Detection предназначены для выявления такого контента.
    • Использование вводящих в заблуждение изображений (Clickbait): Использование изображений, которые не соответствуют содержанию целевой страницы, может привести к негативной обратной связи от пользователей (если механизм доступен) и потенциальной пессимизации.
    • Игнорирование контекста аудитории: Размещение контента, который может быть сочтен неуместным для широкой аудитории, без соответствующей маркировки или контекста увеличивает риск фильтрации контента для пользователей с высокими Sensitivity Scores (например, при активном SafeSearch).

    Стратегическое значение

    Патент подтверждает стратегическое направление Google на глубокое понимание мультимедийного контента с помощью автоматизированных систем. Для SEO-специалистов это означает, что оптимизация изображений выходит далеко за рамки скорости загрузки и ALT-тегов. Важно понимание того, как алгоритмы интерпретируют визуальное содержание, извлекают из него семантику и оценивают его уместность в контексте пользователя. Это особенно критично для успеха в Image Search и обеспечения видимости контента в условиях работы фильтров безопасности.

    Практические примеры

    Сценарий 1: Фильтрация SafeSearch в поиске по картинкам

    1. Задача: Обеспечить видимость изображений медицинского характера (например, дерматологические фотографии) в Image Search.
    2. Применение патента: Автоматический процессор Google (аналог Image File Processor) анализирует изображение. Функция Flesh Detection может ошибочно классифицировать медицинское изображение как контент для взрослых из-за наличия обнаженной натуры.
    3. Действие SEO: Размещать такие изображения в четком медицинском и образовательном контексте. Хотя автоматический анализ является первичным фильтром, контекст страницы и авторитетность сайта могут служить дополнительными сигналами для корректной классификации или успешной апелляции, если изображение было скрыто фильтром SafeSearch.

    Сценарий 2: Использование OCR для ранжирования инфографики

    1. Задача: Продвижение сложной инфографики в финансовой нише.
    2. Применение патента: Optical Processor использует OCR для извлечения текста и ключевых понятий из изображения инфографики.
    3. Действие SEO: Убедиться, что текст на инфографике хорошо читается (контрастность, размер шрифта). Дублировать ключевые выводы инфографики в тексте страницы или в развернутом ALT-теге. Это помогает системе корректно интерпретировать содержание и повышает шансы на ранжирование по релевантным запросам, содержащимся в тексте изображения.

    Вопросы и ответы

    Означает ли этот патент, что Google полностью понимает содержание изображений?

    Патент демонстрирует систему для автоматического анализа изображений с целью их рейтинга и модерации. Используются технологии распознавания текста (OCR), идентификации объектов и обнаружения деликатного контента (Flesh Detection). Хотя технологии значительно продвинулись с момента подачи патента, система направлена в первую очередь на классификацию уместности контента, а не на полное семантическое понимание всех нюансов изображения.

    Как этот патент связан с фильтром Google SafeSearch?

    Описанные механизмы напрямую связаны с SafeSearch. Optical Processor и Image File Processor выполняют функции автоматического анализа изображений для выявления неуместного контента (например, порнографии или насилия). SafeSearch действует как предустановленный высокий Sensitivity Score для пользователя, фильтруя контент, чей Aggregate Rating не соответствует этому уровню чувствительности.

    Влияет ли текст, размещенный на изображении, на ранжирование?

    Да, патент явно указывает на использование OCR (Optical Character Recognition) для извлечения текста из изображений в процессе их оценки. Если система может извлечь текст, она может использовать его для понимания содержания и релевантности изображения. Это важно как для поиска по картинкам, так и для оценки содержания веб-страницы в целом.

    Что такое Trust Score эвалуатора и как он влияет на результат?

    Trust Score — это мера доверия системы к конкретному источнику оценки (эвалуатору). При расчете итогового рейтинга документа (Aggregate Rating) оценки от эвалуаторов с высоким Trust Score имеют больший вес, чем оценки от менее надежных или неизвестных источников. Это позволяет снизить влияние ошибок или предвзятости отдельных оценщиков.

    Что произойдет, если автоматическая система и человек-эвалуатор дадут разные оценки одному и тому же изображению?

    Система агрегирует все оценки. Расхождение будет учтено при расчете Aggregate Rating, часто с учетом Trust Score каждого источника. Если расхождение значительно или если оценка от высоко доверенного источника противоречит другим, документ может быть помечен для дополнительной проверки (Claim 52), чтобы разрешить конфликт.

    Какое значение этот патент имеет для сайтов в YMYL-тематиках?

    Для YMYL-сайтов уместность и точность визуального контента критически важны. Системы автоматической оценки могут анализировать медицинские изображения, финансовую инфографику и т.д. Неуместные, вводящие в заблуждение или шокирующие изображения могут быть автоматически пессимизированы или скрыты для чувствительной аудитории, что повлияет на видимость контента.

    Патент упоминает “Flesh Detection”. Означает ли это, что любое изображение с обнаженной натурой будет заблокировано?

    Не обязательно. Система определяет количество обнаженной натуры. Решение о блокировке принимается путем сопоставления этого показателя (в составе Aggregate Rating) с Sensitivity Score получателя. Контент может быть приемлем для взрослой аудитории с низким уровнем чувствительности, но будет заблокирован для детей или при активации SafeSearch.

    Может ли низкий CTR изображения повлиять на его показ?

    Да. Патент указывает, что производительность документа (включая Click-Through Rate для рекламы) может использоваться для принятия решения об одобрении или неодобрении. Контент с низкой вовлеченностью может быть сочтен неэффективным и его показ может быть прекращен, даже если он не содержит неуместного материала.

    Как система определяет “чувствительность” (Sensitivity Score) пользователя?

    Sensitivity Score может определяться на основе явных настроек пользователя (например, включение SafeSearch), демографических данных (возраст), истории взаимодействия с контентом, а также контекста запроса (например, время суток). Для издателей (веб-сайтов) он может определяться тематикой сайта или их собственными настройками в рекламной сети.

    Применяется ли эта система только к рекламе?

    Хотя многие примеры в патенте относятся к графической рекламе (Image Ads), в описании и формуле изобретения используется общий термин “документ, содержащий изображение”. Это позволяет применять описанные принципы к любому визуальному контенту, обрабатываемому Google, включая результаты органического поиска по картинкам и изображения на веб-страницах.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.