Как Google автоматизирует удаление персональных данных (PII) из поиска и расширяет блокировку на связанные запросы и дубликаты контента

Google использует гибридную систему, сочетающую правила и модели машинного обучения, для автоматизации обработки запросов на удаление контента (например, PII). Система оценивает легитимность запроса, анализируя тип сайта, данные аккаунта пользователя и сам контент. При одобрении запроса Google не только удаляет результат для исходного запроса, но и автоматически расширяет блокировку на семантически близкие запросы и идентифицирует похожие или дублирующиеся веб-документы для их превентивного удаления из выдачи.

Описание

Какую задачу решает

Патент решает проблему масштабирования и эффективности обработки запросов пользователей на удаление результатов поиска, содержащих персональную (PII) или потенциально вредоносную информацию. Традиционные методы требуют значительного объема ручной проверки (manual review), что приводит к задержкам и высоким затратам ресурсов. Кроме того, существующие методы часто ограничивают удаление только одним конкретным результатом для одного конкретного запроса, позволяя той же информации появляться по другим запросам или на зеркальных сайтах.

Что запатентовано

Запатентована система (Request Processing System) для автоматизированного определения того, следует ли удовлетворить запрос пользователя на удаление результата поиска, и определения объема этого удаления. Система использует правила (Rules) и/или модели машинного обучения (MLM) для классификации запросов на автоматическое одобрение, автоматический отказ или ручную проверку. При одобрении система определяет, следует ли расширить удаление на дополнительные связанные запросы и/или на другие веб-документы, содержащие аналогичную информацию.

Как это работает

Система работает следующим образом:

Получение запроса: Пользователь идентифицирует результат поиска, указывает тип содержащейся в нем информации (например, PII) и отправляет запрос через свой аккаунт.
Обработка запроса: Request Processing System анализирует запрос, используя Prevention Determination Engine.
Принятие решения (Гибридный подход): Система может использовать предопределенные правила (например, автоматический отказ для Public Interest Websites) и/или MLM.
MLM Оценка: MLM обрабатывает вектор запроса (Request Vector), включающий данные о запросе, документе и аккаунте пользователя, и генерирует оценку вероятности одобрения.
Автоматизация и Пороги: Если оценка MLM превышает верхний порог — запрос автоматически одобряется. Если ниже нижнего порога — автоматически отклоняется. Если находится между порогами — отправляется на ручную проверку.
Определение объема (Expansion): При одобрении Prevention Extent Engine определяет, нужно ли расширить блокировку. Query Extent идентифицирует связанные запросы (например, через эмбеддинги), а Document Extent ищет похожие или дублирующиеся документы.

Актуальность для SEO

Высокая. Учитывая растущее внимание к конфиденциальности данных (GDPR, CCPA) и проблемам, связанным с раскрытием личной информации (doxxing), Google активно развивает и внедряет механизмы для управления удалением PII из поиска. Этот патент, поданный в 2023 и выданный в 2024 году, описывает современные методы автоматизации этого процесса с использованием машинного обучения и семантического анализа.

Важность для SEO

Влияние на SEO среднее (6/10), но критическое для Online Reputation Management (ORM). Патент не описывает алгоритмы ранжирования, но детально раскрывает инфраструктуру удаления контента. Для SEO-специалистов важно понимать, как Google оценивает легитимность сайтов (Public Interest Website) и как система может превентивно удалять дублированный или перемещенный контент, который был помечен как нарушающий правила (например, PII). Это знание необходимо для стратегий ORM и управления контентом, нарушающим конфиденциальность.

Детальный разбор

Термины и определения

Document Extent (Объем по документам): Модуль, идентифицирующий другие веб-документы, похожие на исходный, которые также следует заблокировать.
Embedding Space (Пространство эмбеддингов): Векторное пространство, в котором поисковые запросы представлены в виде векторов (эмбеддингов). Используется для определения семантической близости между запросами для Query Extent.
MLM (Machine Learning Model / Модель машинного обучения): Модель, обученная на основе предыдущих запросов и решений ревьюеров, используемая для прогнозирования того, следует ли одобрить или отклонить запрос.
New Document Monitor (Монитор новых документов): Компонент, который проверяет новые или недавно обнаруженные веб-документы на схожесть с контентом, который был ранее удален по запросу.
Prevention Determination Engine (Механизм определения предотвращения): Компонент, который определяет, следует ли удовлетворить запрос. Может использовать Rules и/или MLM.
Prevention Extent Engine (Механизм определения объема предотвращения): Компонент, определяющий, следует ли расширить удаление за пределы исходного запроса и результата.
Public Interest Website (Сайт, представляющий общественный интерес): Категория сайтов (например, .edu, .gov, новостные ресурсы), запросы на удаление контента с которых часто автоматически отклоняются, если информация служит законным общественным интересам.
Query Extent (Объем по запросам): Модуль, идентифицирующий дополнительные поисковые запросы, для которых следует заблокировать показ веб-документа.
Request Vector (Вектор запроса): Структурированное представление запроса на удаление, используемое как входные данные для MLM. Включает информацию о поисковом запросе, результате поиска, веб-документе и аккаунте пользователя.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс обработки запроса на удаление с расширением блокировки по запросам.

Система получает запрос от пользователя на удаление конкретного результата поиска (для веб-документа), появляющегося по определенному поисковому запросу. Запрос включает данные аккаунта пользователя.
Определяется, следует ли предотвратить показ этого результата по этому запросу.
Если ДА (запрос одобрен): Конкретный результат блокируется для будущих показов по этому запросу.
Система определяет, следует ли предотвратить показ любого результата для этого же веб-документа по одному или нескольким дополнительным запросам.
Если ДА (расширение одобрено): Веб-документ блокируется для показа по этим дополнительным запросам.

Ядро изобретения — это автоматизированное принятие решения о расширении блокировки на другие запросы, связанные с тем же документом.

Claim 2 (Зависимый от 1): Описывает расширение блокировки на другие документы (Document Extent).

Идентифицируется второй веб-документ.
На основе сходства (similarity) между исходным и вторым документом определяется, следует ли заблокировать показ второго документа по дополнительным запросам.
Если ДА: Второй документ блокируется.

Это механизм борьбы с дублированием или перемещением контента (зеркалами).

Claim 3 (Зависимый от 1): Детализирует использование машинного обучения для определения расширения блокировки по запросам (Query Extent).

Решение о том, следует ли блокировать документ по дополнительным запросам, принимается путем обработки части запроса с помощью MLM, который генерирует выходные данные (output). Решение принимается на основе этих данных.

Claim 4 (Зависимый от 3): Описывает определение списка дополнительных запросов на основе «магнитуды» (значения) выходных данных MLM.

Чем выше уверенность MLM в необходимости удаления, тем шире может быть список блокируемых дополнительных запросов.

Claim 8 (Зависимый от 3): Описывает использование разных порогов для удаления по исходному запросу и для расширения блокировки.

Решение об удалении по исходному запросу принимается, если выходные данные MLM удовлетворяют первому порогу.
Решение о расширении блокировки на дополнительные запросы принимается, если выходные данные MLM удовлетворяют второму порогу, который является более строгим (more restrictive), чем первый порог.

Для расширения блокировки требуется более высокая степень уверенности системы.

Где и как применяется

Изобретение в основном функционирует на финальных этапах поисковой архитектуры, но зависит от данных, собранных на ранних этапах.

CRAWLING & INDEXING
На этих этапах система собирает и индексирует веб-документы. Происходит классификация сайтов (например, определение Public Interest Website, спам-сайтов) и анализ контента. New Document Monitor (упомянутый в описании) работает на этом этапе, проверяя новые документы на сходство с ранее заблокированным контентом, чтобы предотвратить повторное появление информации.

QUNDERSTANDING – Понимание Запросов
Модуль Query Extent использует методы понимания запросов, такие как анализ Embedding Space, для идентификации семантически связанных запросов, на которые следует расширить блокировку.

RERANKING (Переранжирование и Фильтры)
Основное применение патента. Система функционирует как фильтр на этапе формирования финальной выдачи (SERP). Одобренные запросы (включая расширенные блокировки по запросам и документам) применяются как фильтры. Если документ должен быть показан в ответ на запрос, но он заблокирован, он удаляется из SERP.

Входные данные (для системы обработки запросов):

Поисковый запрос, указанный пользователем.
Идентификатор результата поиска (URL/документа).
Тип информации, которую пользователь хочет удалить (например, адрес, телефон).
Данные аккаунта пользователя (возраст аккаунта, история запросов на удаление, PII, связанная с аккаунтом).
Данные о веб-документе (контент, домен, классификация сайта).

Выходные данные:

Решение по запросу (Одобрено / Отклонено / Ручная проверка).
Объем блокировки (только исходный запрос / дополнительные запросы / дополнительные документы).
Данные для обучения MLM (на основе результатов ручной проверки).

На что влияет

Конкретные типы контента: В первую очередь влияет на контент, содержащий персональные данные (PII), финансовую информацию, медицинские данные, интимные изображения.
Специфические запросы: Наибольшее влияние на запросы, связанные с именами людей, контактной информацией или другими идентификаторами (например, «Имя Фамилия адрес», «Имя Фамилия номер телефона»).
Конкретные ниши или тематики: Сайты-справочники, агрегаторы персональных данных, форумы и социальные сети, где может происходить несанкционированное раскрытие личной информации (doxxing).
Исключения: Минимальное влияние на Public Interest Websites.

Когда применяется

Триггеры активации: Система активируется при получении запроса от пользователя на удаление результата поиска.
Пороговые значения (MLM): Используются настраиваемые пороги уверенности (low threshold и high threshold) для автоматического принятия решений. Например, порог 0.25 для отказа и 0.75 для одобрения.
Пороговые значения (Расширение): Для расширения блокировки на дополнительные запросы или документы могут использоваться более строгие пороги уверенности MLM, а также пороги сходства документов (similarity measure).

Пошаговый алгоритм

Процесс А: Обработка запроса на удаление (Триаж)

Получение запроса: Система получает запрос от пользователя (Q1, R1 для документа D1) и данные аккаунта (A1).
Генерация вектора запроса: Request Processor формирует Request Vector.
Предварительная проверка (Rules — Гибридный подход): Система проверяет запрос по набору правил.
1. Проверка домена D1: Является ли D1 Public Interest Website? Если да, автоматический отказ.
2. Проверка аккаунта: Возраст аккаунта, история предыдущих запросов. Если подозрительно, может быть отправлено на ручную проверку.
Обработка с помощью MLM: Если правила не дали окончательного ответа, Request Vector обрабатывается моделью машинного обучения.
Генерация оценки: MLM генерирует оценку (Score), например, от 0 до 1.
Принятие решения:
1. Если Score > High Threshold: Автоматическое одобрение.
2. Если Score < Low Threshold: Автоматический отказ.
3. Иначе: Отправка на ручную проверку. Результаты используются для дообучения MLM.
Применение блокировки (если одобрено): R1 блокируется для будущих показов по запросу Q1.

Процесс Б: Определение объема предотвращения (Expansion)

Активация (если запрос одобрен): Prevention Extent Engine активируется.
Определение Query Extent:
1. Система определяет, нужно ли расширить блокировку (может зависеть от оценки MLM, требуя более высокого порога).
2. Идентификация связанных запросов (Q2, Q3…): Используются методы манипуляции терминами или анализ расстояния в Embedding Space.
3. Применение блокировки: D1 блокируется для показа по Q2, Q3…
Определение Document Extent:
1. Система ищет документы (D2, D3…), похожие на D1 (используя similarity measure).
2. Применение блокировки: Если сходство превышает порог, D2, D3… блокируются для показа по Q1 и/или дополнительным запросам.

Процесс В: Мониторинг нового контента

Обнаружение нового документа (DN): Краулер находит новый документ.
Проверка сходства: New Document Monitor сравнивает DN с ранее заблокированными документами (D1).
Превентивная блокировка: Если сходство превышает порог, DN может быть не проиндексирован или помечен как заблокированный.

Какие данные и как использует

Данные на входе

Система использует разнообразные данные для принятия решений об удалении контента, формирующие Request Vector:

Контентные факторы: Текст веб-документа анализируется для идентификации персональной информации (PII), указанной в запросе (например, с помощью регулярных выражений).
Технические факторы (Доменные/Сайтовые): Домен веб-документа (URL) используется для определения категории сайта. Упоминается проверка на принадлежность к Public Interest Website (.edu, .gov, новостные сайты) или к известным спам-сайтам.
Поведенческие/Пользовательские факторы (Метрики популярности): Упоминается возможность использования популярности документа (количество кликов на результат, количество и продолжительность просмотров) как фактора при принятии решения.
Пользовательские факторы (Данные аккаунта): Критически важные данные для верификации запроса.
- PII аккаунта: Телефон, email, адрес, используемые для сравнения с данными в документе.
- Возраст аккаунта: Время с момента создания (например, проверка, старше ли аккаунт 48 часов).
- Стабильность данных: Как давно менялась информация в аккаунте.
- История запросов: Количество предыдущих запросов на удаление от этого пользователя и процент их одобрения/отклонения.

Какие метрики используются и как они считаются

MLM Output Score (Оценка MLM): Числовое значение (например, от 0 до 1), генерируемое моделью машинного обучения, указывающее на вероятность того, что запрос следует одобрить.
Thresholds (Пороги):
- High Threshold: Порог для автоматического одобрения.
- Low Threshold: Порог для автоматического отказа.
- Пороги расширения: Могут быть более строгими, чем High Threshold, для активации Query Extent или Document Extent (Claim 8).
Similarity Measure (Мера сходства): Метрика, указывающая, насколько похожи два веб-документа. Может основываться на текстовом сходстве, сходстве HTML/XML тегов, источниках и доменах.
Embedding Distance (Расстояние между эмбеддингами): Мера семантической близости между поисковыми запросами в векторном пространстве. Используется для идентификации связанных запросов для расширения блокировки.
Алгоритмы машинного обучения: Используется MLM, обученный с учителем (supervised training) на основе исторических данных о запросах и решениях ручных ревьюеров.

Выводы

Автоматизация удаления контента — приоритет: Google активно инвестирует в автоматизацию обработки запросов на удаление (PII, ORM), используя гибридный подход (правила и MLM) для снижения нагрузки на ручных ревьюеров и ускорения процесса.
Критерии оценки запросов многофакторны: Система учитывает не только сам контент, но и авторитетность источника (Public Interest Website vs спам) и надежность запрашивающего пользователя (возраст аккаунта, история запросов).
Расширенная блокировка (Expansion) как ключевой механизм: Патент фокусируется на том, что удаление не ограничивается исходным запросом. Система активно ищет связанные запросы (Query Extent) и дубликаты контента (Document Extent) для превентивной блокировки.
Использование эмбеддингов для определения объема блокировки: Для идентификации связанных запросов используются современные NLP-технологии, такие как эмбеддинги запросов. Это позволяет блокировать семантически близкие запросы, даже если они не содержат тех же ключевых слов.
Динамические пороги уверенности: Система использует разные пороги уверенности MLM для разных действий. Для расширения блокировки требуются более высокие (строгие) пороги, чем для базового удаления, что указывает на стремление сбалансировать полноту удаления и точность.
Превентивное удаление (New Document Monitor): Система может отслеживать новые документы во время сканирования и превентивно блокировать их, если они похожи на ранее удаленный контент.

Практика

Best practices (это мы делаем)

Хотя патент описывает внутренние механизмы Google по удалению контента, он дает важные инсайты для SEO, особенно в области управления репутацией (ORM) и работы с нежелательным контентом.

Использование официальных каналов и доверенных аккаунтов: При работе над ORM-проектами необходимо использовать официальные формы Google для запросов на удаление PII. Подавайте запросы с устоявшихся аккаунтов Google. Патент подтверждает, что возраст аккаунта и история успешных запросов являются сигналами для автоматического одобрения.
Предоставление точной информации в запросе: Необходимо точно указывать тип PII и контактные данные. Эта информация используется для верификации (сравнение данных аккаунта с данными на странице) и включается в Request Vector для обработки MLM.
Мониторинг связанных запросов и дубликатов: При успешном удалении нежелательного контента не стоит полагаться только на исходный запрос. Патент указывает, что Google пытается расширить блокировку, но SEO/ORM-специалисты должны самостоятельно отслеживать семантически связанные запросы и появление дубликатов контента на других доменах.
Поддержание качества и авторитетности сайтов (для защиты от удаления): Для контентных проектов, новостных сайтов и образовательных ресурсов критически важно поддерживать сигналы авторитетности. Патент явно выделяет Public Interest Websites как категорию, защищенную от автоматического удаления. Работа над E-E-A-T помогает попасть в эту категорию.

Worst practices (это делать не надо)

Попытки обойти удаление путем перемещения контента: Если контент был удален за нарушение правил (например, PII), попытка переопубликовать его на другом URL или домене будет неэффективной. Система Document Extent и New Document Monitor предназначены для обнаружения и превентивной блокировки такого контента на основе сходства.
Манипуляции с запросами на удаление и использование «одноразовых» аккаунтов: Попытки использовать систему для удаления легитимного контента или создание фейковых/новых аккаунтов для подачи запросов рискованны. Система анализирует возраст аккаунта, историю запросов и процент отказов для выявления злоупотреблений, что может привести к ручной проверке или отказу.
Игнорирование статуса «Public Interest»: Не тратьте ресурсы на попытки удалить информацию с правительственных сайтов или авторитетных новостных ресурсов через стандартные формы удаления PII. Система запрограммирована на автоматический отказ в таких случаях.

Стратегическое значение

Патент демонстрирует сложность инфраструктуры Google для управления контентом на стыке конфиденциальности, права и доступности информации. Для SEO это подчеркивает важность семантического понимания контента и запросов (через эмбеддинги) не только для ранжирования, но и для модерации контента. Стратегически, это подтверждает, что Google рассматривает контент не изолированно, а в контексте всего интернета, активно борясь с распространением нежелательной информации путем блокировки как по запросам, так и по сходству контента.

Практические примеры

Сценарий: Управление репутацией (ORM) и удаление PII (Doxxing)

Клиент обнаружил, что по запросу «[Имя Клиента] контакты» в выдаче появляется сайт (example-dox.com), публикующий его домашний адрес и телефон без согласия.

Действие SEO/ORM специалиста: Подача запроса на удаление PII через официальную форму Google с использованием устоявшегося аккаунта.
Работа системы (согласно патенту):
- Prevention Determination Engine анализирует запрос. example-dox.com не является Public Interest Website.
- Данные аккаунта надежны (возраст, история).
- MLM выдает высокую оценку (например, 0.90), что приводит к автоматическому одобрению.
Расширение блокировки (Query Extent): Оценка 0.90 превышает строгий порог для расширения. Система анализирует эмбеддинг запроса и автоматически блокирует показ документа также по запросам «[Имя Клиента] адрес», «[Имя Клиента] телефон».
Расширение блокировки (Document Extent): Система обнаруживает другой сайт (mirror-dox.com) с идентичным контентом (высокая similarity measure) и также блокирует его.
Ожидаемый результат: Быстрое и комплексное удаление PII из выдачи по нескольким связанным запросам и с нескольких сайтов на основе одного запроса пользователя.

Вопросы и ответы

Что такое «Public interest website» согласно патенту и как это влияет на SEO/ORM?

Это категория сайтов, контент которых считается представляющим законный общественный интерес. Патент упоминает домены .edu и .gov, а также новостные ресурсы. Если система классифицирует сайт как Public Interest Website, запросы на удаление контента с него часто автоматически отклоняются. Для SEO/ORM это означает, что попытки удалить легитимную информацию с таких ресурсов через стандартные формы PII, скорее всего, будут безуспешны.

Как система определяет, нужно ли расширять блокировку на другие запросы (Query Extent)?

Система использует Prevention Extent Engine. Решение может приниматься на основе оценки MLM – если уверенность системы превышает строгий порог, она идентифицирует связанные запросы. Это делается путем анализа синонимов или, что более современно, путем измерения расстояния между эмбеддингами исходного запроса и других запросов в семантическом пространстве.

Может ли система удалить контент, если он был перемещен на новый домен (Document Extent)?

Да, это одна из ключевых функций. Система сравнивает ранее заблокированный контент с другими индексируемыми и новыми документами (используя New Document Monitor), используя меру сходства (similarity measure). Если сходство превышает порог, новый документ также блокируется. Это делает стратегию перемещения нарушающего контента неэффективной.

Какие факторы учитывает модель машинного обучения (MLM) при оценке запроса на удаление?

MLM обрабатывает Request Vector, который включает множество факторов. Ключевые из них: тип веб-документа (является ли он спамом или Public Interest), тип удаляемой информации (PII), а также данные аккаунта пользователя — возраст аккаунта, совпадение PII пользователя с контентом, история предыдущих запросов и процент их успешности.

Все ли запросы на удаление обрабатываются автоматически?

Нет. Система использует гибридный подход. Запросы автоматически одобряются или отклоняются, только если уверенность MLM очень высока или очень низка (выходит за установленные пороги) или если срабатывают четкие правила (например, домен .gov). Если оценка находится в «серой зоне» между порогами, запрос отправляется на ручную проверку.

Как этот патент влияет на стратегии Online Reputation Management (ORM)?

Он подчеркивает эффективность использования официальных инструментов Google для удаления PII. Для ORM-специалистов это означает, что один хорошо сформулированный запрос от доверенного аккаунта может привести к комплексному результату — удалению информации по множеству связанных запросов и с нескольких сайтов-копий.

Имеет ли значение история моего аккаунта Google при подаче запроса на удаление?

Да, имеет существенное значение. Патент явно указывает, что возраст аккаунта, количество предыдущих запросов и процент их успешности используются как сигналы при автоматизированной обработке запроса (включаются в Request Vector для MLM). Новые или подозрительные аккаунты чаще отправляются на ручную проверку.

Что такое «пороги расширения» и почему они строже?

Патент описывает (Claim 8), что для базового удаления результата требуется преодолеть определенный порог уверенности MLM (например, 0.75). Однако для того, чтобы система расширила блокировку на другие запросы или документы, может потребоваться более высокий порог (например, 0.85). Это сделано для минимизации ошибок — система должна быть очень уверена, прежде чем начнет блокировать контент, который пользователь явно не указывал.

На каком этапе поиска происходит удаление контента?

Обработка запросов происходит асинхронно. Однако само удаление (фильтрация) происходит на финальном этапе — RERANKING. После того как основной алгоритм ранжирования сформировал список результатов, система фильтрации проверяет этот список на наличие заблокированных документов и удаляет их перед показом пользователю.

Может ли этот механизм использоваться для обработки DMCA-запросов (удаление авторского контента)?

Хотя патент в примерах фокусируется на персональной информации (PII), описанные механизмы, особенно Document Extent (поиск похожих документов) и New Document Monitor, идеально подходят для борьбы с нарушением авторских прав. Логично предположить, что схожая инфраструктура используется для масштабирования обработки DMCA-запросов и удаления дубликатов пиратского контента.