Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google обнаруживает и фильтрует страницы с утечками конфиденциальных персональных данных (PII)

    PERSONALLY IDENTIFIABLE INFORMATION DETECTION (Обнаружение персонально идентифицируемой информации)
    • US9015802B1
    • Google LLC
    • 2015-04-21
    • 2011-05-17
    2011 Paul Haahr Безопасный поиск Индексация Патенты Google

    Google использует систему для защиты пользователей от утечек конфиденциальных данных (PII), таких как номера кредитных карт или SSN. Система анализирует контент на соответствие форматам PII и ищет связанные ключевые слова поблизости для подтверждения утечки. Если оценка риска превышает порог, страница классифицируется как угроза и может быть удалена из результатов поиска или понижена в ранжировании.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему непреднамеренного распространения через поисковую систему конфиденциальной персональной информации (Personally Identifiable Information, PII). Злоумышленники (malefactors) часто публикуют украденные данные (номера кредитных карт, банковских счетов, SSN) на общедоступных ресурсах, таких как форумы или UGC-платформы. Индексация этих страниц создает риск кражи личности и финансового мошенничества. Цель изобретения — автоматически обнаруживать такой контент и предотвращать его появление в результатах поиска.

    Что запатентовано

    Запатентована система для обнаружения PII в контенте веб-страниц и классификации этих страниц как представляющих риск раскрытия личной информации (Personal Information Exposure Risk). Система использует комбинацию сопоставления с шаблонами (PII Type Definitions) для идентификации форматов PII и анализа контекстной близости (Secondary Information) для подтверждения утечки. На основе этой комбинации рассчитывается Risk Score, определяющий вероятность того, что найденная информация является реальной PII.

    Как это работает

    Система работает следующим образом:

    • Идентификация кандидатов: Контент сканируется на соответствие предопределенным шаблонам PII (например, формату номера кредитной карты). Найденные совпадения называются PII Type Information.
    • Фильтрация ложных срабатываний: Применяются проверки для исключения тестовых данных (PII Test Data), случайных чисел, данных, не проходящих проверку контрольных сумм (например, Luhn formula), информации рядом с полями ввода или повторяющихся шаблонов сайта (boilerplate).
    • Анализ контекста: Система ищет Secondary Information (ключевые слова типа «CVV», «срок действия») в пределах заданного текстового расстояния от кандидата.
    • Расчет оценки риска (Risk Score): Каждому ключевому слову присвоен вес (Component Risk Score). Итоговый Risk Score рассчитывается на основе этих весов, скорректированных по расстоянию (чем ближе слово, тем выше вес).
    • Классификация и действие: Если Risk Score превышает порог конфиденциальности (Confidentiality Threshold), страница помечается как Personal Information Exposure Risk. Такие страницы могут быть исключены из результатов поиска или понижены в ранжировании.

    Актуальность для SEO

    Высокая. Защита пользователей от вредоносного контента, спама и утечек данных остается критически важной задачей Google. Учитывая, что среди изобретателей значатся ключевые фигуры по качеству поиска и борьбе со спамом (Paul Haahr, Matt Cutts), этот механизм является важной частью инфраструктуры Google для обеспечения безопасности поиска.

    Важность для SEO

    Патент имеет высокое значение, но его влияние на SEO носит преимущественно защитный (defensive) характер. Это не фактор ранжирования, а классификатор безопасности, который может привести к полному удалению страницы из индекса или резкому понижению позиций. Это критически важно для сайтов с пользовательским контентом (UGC), таких как форумы и комментарии, которые подвержены риску публикации PII злоумышленниками. Также это актуально для E-commerce сайтов, которые должны избегать ложных срабатываний из-за примеров данных.

    Детальный разбор

    Термины и определения

    Component Risk Score (Компонентная оценка риска)
    Числовое значение (вес), присвоенное ключевому слову (Secondary Information). Положительные значения повышают уверенность, что информация является PII (например, для «CVV»). Отрицательные значения снижают уверенность (например, для «test number», «sample»).
    Confidentiality Threshold (Порог конфиденциальности)
    Предопределенное значение, с которым сравнивается Risk Score ресурса. Превышение этого порога приводит к классификации ресурса как риска.
    Personal Information Exposure Risk (Риск раскрытия личной информации)
    Классификация, присваиваемая ресурсу, если его Risk Score превышает Confidentiality Threshold. Указывает на высокую вероятность содержания вредоносной PII.
    Personally Identifiable Information (PII) (Персонально идентифицируемая информация)
    Информация для идентификации личности. В контексте патента фокус на конфиденциальных данных, раскрытие которых несет риск (финансовые данные, государственные идентификаторы).
    PII Test Data (Тестовые данные PII)
    Данные, соответствующие формату PII, но являющиеся общеизвестными тестовыми номерами. Используются для фильтрации ложных срабатываний.
    PII Type Definitions (Определения типов PII)
    Набор правил или шаблонов (например, регулярных выражений), которые характеризуют форматы конкретных типов PII (например, формат номера кредитной карты, SSN).
    PII Type Information (Информация типа PII)
    Контент на странице, который соответствует одному из PII Type Definitions. Это кандидат на PII, требующий подтверждения контекстом.
    Risk Score (RS) (Оценка риска)
    Итоговая оценка, рассчитываемая для ресурса. Является мерой уверенности системы в том, что на странице содержится реальная PII.
    Secondary Information (Вторичная информация)
    Контент (обычно ключевые слова), предопределенный как связанный с типами PII (например, «billing address», «expiration date», «CVV»). Обнаружение этой информации вблизи PII Type Information влияет на Risk Score.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод обнаружения PII.

    1. Система получает доступ к PII Type Definitions.
    2. Идентифицирует в контенте веб-страницы PII Type Information.
    3. Определяет подраздел контента (окно / sub-portion), включающий эту информацию и окружающий текст, исключая остальной контент страницы.
    4. Внутри этого окна ищет Secondary Information.
    5. Рассчитывает Risk Score на основе найденной PII Type Information и Secondary Information.
    6. Классифицирует страницу как Personal Information Exposure Risk, если Risk Score достигает Confidentiality Threshold.

    Claim 3 и 4 (Зависимые): Уточняют структуру шаблонов на примере платежных карт.

    Шаблоны для платежных карт включают данные о длине номера (length data) и данные о подмножестве (subset data), например, префикс номера эмитента.

    Claim 6 и 7 (Зависимые): Детализируют механизм скоринга.

    Идентификация Secondary Information включает сравнение текста в пределах предопределенной текстовой дистанции с набором ключевых слов. Каждое ключевое слово имеет Component Risk Score. Итоговый Risk Score определяется на основе этих компонентных оценок.

    Claim 8 и 9 (Зависимые): Вводят концепцию взвешивания по расстоянию.

    Component Risk Score ключевого слова корректируется на основе его текстовой дистанции до PII Type Information. Эта корректировка обратно пропорциональна (inverse proportion) расстоянию — чем ближе ключевое слово к потенциальной PII, тем сильнее оно влияет на итоговый Risk Score.

    Где и как применяется

    Изобретение применяется преимущественно на этапе обработки контента для обеспечения безопасности данных.

    INDEXING – Индексирование и извлечение признаков
    Основной этап применения. Во время анализа и индексации контента система (Personal Identifying Information System) обрабатывает ресурс, вычисляет Risk Score и присваивает классификацию (Personal Information Exposure Risk). Эта классификация сохраняется как признак документа в индексе.

    RANKING / RERANKING – Ранжирование / Переранжирование
    На этих этапах используется результат классификации. Если ресурс классифицирован как Personal Information Exposure Risk, поисковая система предпринимает действия:

    • Полностью исключить ресурс из результатов поиска (как указано в Summary патента).
    • Значительно снизить его оценку релевантности (relevancy score).

    Патент также упоминает возможность обработки ресурсов во время запроса (at query time), если они не были предварительно кэшированы и проанализированы.

    Входные данные:

    • Контент ресурса (текст; текст, распознанный из изображений через OCR).
    • PII Type Definitions (шаблоны).
    • Secondary Content Definitions (ключевые слова и их Component Risk Scores).
    • Данные о структуре документа (DOM) или рендеринге.

    Выходные данные:

    • Risk Score для ресурса.
    • Классификация ресурса (например, Personal Information Exposure Risk или clean).

    На что влияет

    • Конкретные типы контента: Наибольшее влияние оказывается на пользовательский контент (UGC) — форумы, доски объявлений, комментарии, профили пользователей. Также влияет на взломанные страницы, используемые для публикации украденных данных.
    • Мультимедиа: Патент упоминает использование оптического распознавания символов (OCR) для обнаружения текстовой информации в изображениях, чтобы предотвратить попытки скрыть PII от текстового анализа.
    • Языковые и географические ограничения: Система поддерживает локализацию. Шаблоны PII (например, форматы государственных идентификаторов) и ключевые слова адаптируются для разных стран и языков.

    Когда применяется

    Алгоритм применяется при обработке (индексации или переиндексации) веб-страниц или в реальном времени при запросе.

    Условия срабатывания классификации риска:

    • Обнаружение информации, соответствующей PII Type Definitions.
    • Отсутствие признаков ложного срабатывания (тестовые данные, инструкции к формам, неверная контрольная сумма и т.д.).
    • Наличие достаточного количества Secondary Information в непосредственной близости.
    • Итоговый Risk Score должен превысить Confidentiality Threshold.

    Пошаговый алгоритм

    Этап 1: Парсинг и первичная обработка

    1. Получение контента: Система получает контент ресурса. При необходимости применяется OCR для извлечения текста из изображений.
    2. Парсинг: Контент анализируется, часто с использованием скользящего окна (например, 40 слов) для последовательной проверки фрагментов текста.

    Этап 2: Идентификация PII Type Information и снижение ложных срабатываний

    1. Проверка формата и сопоставление с шаблоном: Система проверяет числовые последовательности на соответствие длине, формату (например, минимальная длина термина, последовательность цифр) и PII Type Definitions (например, префиксы кредитных карт).
    2. Валидация чек-суммы: Применяются алгоритмы (например, формула Луна / Luhn formula) для проверки валидности номера.
    3. Исключение тестовых данных: Проверяется, не является ли номер известным тестовым образцом PII (PII Test Data).
    4. Анализ расположения (DOM/Rendering): Проверяется, не находится ли информация в непосредственной близости (rendering distance) от полей ввода (input data fields) или выпадающих меню (что указывает на инструктивный текст).
    5. Проверка на повторяемость (Boilerplate): Анализируются другие страницы домена для выявления повторяющихся паттернов, которые не являются реальной PII.
    6. Идентификация кандидата: Если все проверки пройдены, фрагмент идентифицируется как PII Type Information.

    Этап 3: Анализ контекста и расчет Risk Score

    1. Поиск Secondary Information: Текст вокруг PII Type Information сравнивается с ключевыми словами.
    2. Извлечение Component Risk Scores: Для найденных ключевых слов извлекаются их оценки (положительные или отрицательные).
    3. Корректировка оценок: Component Risk Scores корректируются обратно пропорционально текстовой дистанции до PII Type Information.
    4. Агрегация: Скорректированные оценки агрегируются для получения итогового Risk Score ресурса.

    Этап 4: Классификация и применение мер

    1. Сравнение с порогом: Итоговый Risk Score сравнивается с Confidentiality Threshold.
    2. Присвоение классификации: Если порог превышен, ресурс классифицируется как Personal Information Exposure Risk, что ведет к понижению в ранжировании или удалению из индекса.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст страницы является основным источником данных для поиска числовых последовательностей и ключевых слов.
    • Мультимедиа факторы: Текст, извлеченный из изображений с помощью OCR (Optical Character Recognition).
    • Структурные факторы: Анализ DOM (Document Object Model) или данных рендеринга используется для определения визуальной близости потенциальной PII к полям ввода данных, что помогает исключить ложные срабатывания на инструкциях.
    • Технические факторы (Межстраничные): Информация о других страницах домена используется для выявления повторяющихся паттернов (boilerplate).

    Какие метрики используются и как они считаются

    • PII Type Definitions (Шаблоны): Используются для сопоставления форматов. Например, данные о длине (length data) и префиксе (subset data).
    • Component Risk Score (CR): Предопределенные веса для ключевых слов. Примеры из патента:
      • Положительные веса: «CVV» (0.8), «CVV2» (1.0), «SSN» (0.8), «expiration» (0.6).
      • Отрицательные веса: «dummy» (-2.0), «test number» (-3.0), «sample» (-1.0).
    • Text Distance (D) (Текстовая дистанция): Расстояние (в словах или символах) между PII Type Information и Secondary Information.
    • Risk Score (RS): Рассчитывается как функция от наличия PII Type Information и агрегации скорректированных CR. Корректировка происходит обратно пропорционально D. Например, в патенте указано, что при максимальном расстоянии в 40 слов вклад может составлять только 2.5% от исходного CR. Формула из патента: RS = f(PII[1,0], [CR1,D1; CR2,D2; … CRn, Dn]).
    • Confidentiality Threshold: Пороговое значение для Risk Score.

    Выводы

    1. Google активно фильтрует утечки PII: Существует специализированная система для обнаружения и предотвращения распространения конфиденциальных данных (кредитные карты, SSN) через поиск. Это система безопасности, а не алгоритм ранжирования.
    2. Формат плюс контекст: Система не полагается только на совпадение формата. Ключевым элементом является наличие подтверждающей Secondary Information (ключевых слов) поблизости.
    3. Взвешивание по близости (Proximity): Чем ближе ключевое слово (например, «CVV») к потенциальной PII, тем выше его вес в расчете Risk Score (обратно пропорциональная зависимость от расстояния).
    4. Сложная система снижения ложных срабатываний: Патент описывает множество механизмов для исключения ложных срабатываний: проверка чек-сумм (Luhn), исключение тестовых номеров (PII Test Data), анализ близости к полям ввода (DOM/Rendering) и исключение повторяющегося контента (boilerplate).
    5. Серьезность последствий: Классификация Personal Information Exposure Risk приводит к жестким мерам: исключению из результатов поиска или значительному понижению релевантности.
    6. Риски для UGC-платформ: Сайты с пользовательским контентом находятся в зоне повышенного риска и требуют строгой модерации для предотвращения публикации PII злоумышленниками.

    Практика

    Best practices (это мы делаем)

    • Агрессивная модерация UGC: Для форумов, комментариев и других UGC-платформ необходимо внедрять строгую модерацию и автоматизированные фильтры для обнаружения потенциальных PII. Это критически важно для предотвращения классификации страниц как Personal Information Exposure Risk.
    • Использование стандартных тестовых данных: При разработке E-commerce сайтов или документации API для демонстрации примеров используйте только официально признанные тестовые номера (PII Test Data), которые система Google умеет игнорировать.
    • Использование негативных маркеров: Явно маркируйте примеры данных, используя ключевые слова с отрицательным Component Risk Score, упомянутые в патенте: «dummy», «test number», «sample».
    • Правильное оформление инструкций к формам: Размещайте инструкции по заполнению форм в непосредственной близости от полей ввода. Система учитывает близость к input data field (анализируя DOM или rendering distance) для исключения ложных срабатываний.
    • Мониторинг безопасности сайта: Регулярно проверяйте сайт на предмет взлома и несанкционированного размещения контента, так как хакеры могут размещать страницы с PII на скомпрометированных доменах.

    Worst practices (это делать не надо)

    • Игнорирование пользовательского контента: Разрешение публикации немодерируемого UGC значительно повышает риск размещения PII злоумышленниками, что приведет к потере трафика с этих страниц.
    • Использование реалистичных PII в примерах: Использование номеров, которые выглядят как настоящие (проходят валидацию по формату и чек-сумме), но не являются официальными тестовыми данными, в сочетании с контекстными ключевыми словами может привести к ложному срабатыванию.
    • Попытки скрыть PII в изображениях: Размещение конфиденциальной информации в виде изображений неэффективно, так как система может использовать OCR для ее обнаружения.

    Стратегическое значение

    Этот патент подчеркивает, что безопасность сайта и качество модерации контента являются неотъемлемыми частями SEO. Google стремится создать безопасную среду, и сайты, которые этому угрожают (даже непреднамеренно, через UGC или в результате взлома), будут пессимизированы. Стратегия для Senior SEO должна включать процессы мониторинга и реагирования на инциденты безопасности контента.

    Практические примеры

    Сценарий 1: Избежание ложного срабатывания в документации API

    • Задача: Опубликовать документацию для платежного шлюза с примером ответа API.
    • Неправильно: {«card_number»: «4063123456709123», «cvv»: «444», «exp_date»: «01/2028»}. Используется номер, похожий на реальный, и присутствуют ключевые слова («cvv», «exp_date») с высоким Component Risk Score. Высокий риск пессимизации.
    • Правильно (согласно патенту): Использовать известный тестовый номер и добавить негативные маркеры. Пример (Sample) ответа API. Используются тестовые номера (test numbers). {«card_number»: «[Известный Тестовый Номер]»…}. Система распознает тестовый номер и/или применит отрицательные Component Risk Scores для слов «Sample» и «test numbers». Risk Score останется низким.

    Сценарий 2: Пессимизация страницы форума (UGC)

    • Ситуация: На форуме злоумышленник создает тред «Продаю КК данные» и публикует реальные данные: Имя, Номер карты, Срок действия, SSN.
    • Анализ системы: Система обнаруживает множественные совпадения с шаблонами (Карта, SSN). Вокруг них много Secondary Information («Срок действия», «SSN»). Risk Score будет очень высоким.
    • Результат: Страница классифицируется как Personal Information Exposure Risk и удаляется из результатов поиска Google.
    • Действие SEO: Необходимо как можно быстрее обнаружить и удалить этот контент с сайта и обеспечить переобход страницы.

    Вопросы и ответы

    На какие типы PII нацелен этот патент?

    Патент фокусируется на PII, раскрытие которых несет риск для пользователя, например, финансовый риск или кражу личности. Конкретно упоминаются номера платежных карт (кредитных, дебетовых), номера социального страхования (SSN), номера банковских счетов, паспорта и правительственные записи. Система не предназначена для обнаружения общедоступной PII, такой как имя человека на странице социальной сети.

    Как система отличает реальный номер кредитной карты от случайного набора цифр?

    Система использует многоуровневый подход. Проверяется соответствие формату (длина, префикс) и валидность чек-суммы (например, по формуле Луна). Критически важно наличие Secondary Information (ключевых слов типа «CVV», «срок действия») в непосредственной близости. Отсутствие таких слов значительно снижает Risk Score, позволяя избежать ложных срабатываний.

    Что произойдет, если страница будет классифицирована как Personal Information Exposure Risk?

    Последствия серьезны. В патенте упоминаются два основных варианта действий поисковой системы: полное исключение ресурса из результатов поиска или значительное снижение его оценки релевантности (relevancy score). В любом случае это приведет к потере практически всего поискового трафика на данную страницу.

    Как наличие ключевых слов «Пример» или «Тест» влияет на обнаружение PII?

    Патент предусматривает использование отрицательных Component Risk Scores для определенных ключевых слов. Слова вроде «dummy», «test number» или «sample» имеют отрицательные оценки (например, -2.0, -3.0). Их наличие вблизи потенциальной PII снижает итоговый Risk Score, помогая системе понять, что это демонстрационные данные, а не реальная утечка.

    Насколько важна близость (Proximity) ключевых слов к PII?

    Близость критически важна. Component Risk Scores ключевых слов корректируются обратно пропорционально их текстовой дистанции до PII Type Information. Ключевое слово непосредственно рядом с номером окажет максимальное влияние на Risk Score, в то время как ключевое слово на расстоянии (например, 40 слов) окажет минимальное влияние.

    Может ли эта система повлиять на мой сайт, если я не публикую PII?

    Да, может. Если ваш сайт поддерживает пользовательский контент (UGC), такой как комментарии или форумы, злоумышленники могут опубликовать PII там без вашего ведома. Кроме того, если ваш сайт будет взломан, хакеры могут разместить страницы с утечками данных. В обоих случаях страницы вашего сайта могут быть пессимизированы.

    Как защитить E-commerce сайт или страницу оплаты от ложных срабатываний на инструкциях к формам?

    Система анализирует расположение элемента на странице (DOM или рендеринг). Убедитесь, что примеры размещены непосредственно рядом с полями ввода (input data fields), так как система исключает контент в пределах определенного расстояния рендеринга (rendering distance) от этих полей. Также используйте официально признанные тестовые номера (PII test data).

    Умеет ли система распознавать PII в изображениях?

    Да. В патенте упоминается, что система может включать подсистему обработки изображений, реализующую оптическое распознавание символов (OCR) для обнаружения текстовой информации в изображениях. Это сделано для борьбы со злоумышленниками, которые публикуют PII в виде картинок, чтобы обойти текстовые фильтры.

    Что такое анализ повторяющегося контента (boilerplate) в контексте этого патента?

    Система проверяет, повторяется ли обнаруженный паттерн данных на нескольких страницах домена. Если да, это сильный сигнал того, что информация является частью шаблона сайта (например, инструкция в шапке), а не уникальной утечкой PII. Это еще один механизм для снижения ложных срабатываний.

    Какова связь этого патента с алгоритмами борьбы со спамом?

    Связь прямая. Изобретателями являются ключевые сотрудники Google, ответственные за качество поиска и борьбу со спамом (Paul Haahr, Matt Cutts). Обнаружение PII рассматривается как часть обеспечения безопасности поиска и борьбы с вредоносным контентом, что тесно пересекается с задачами антиспам-систем.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.