
Google использует гибридную систему, сочетающую правила и модели машинного обучения, для автоматизации обработки запросов на удаление контента (например, PII). Система оценивает легитимность запроса, анализируя тип сайта, данные аккаунта пользователя и сам контент. При одобрении запроса Google не только удаляет результат для исходного запроса, но и автоматически расширяет блокировку на семантически близкие запросы и идентифицирует похожие или дублирующиеся веб-документы для их превентивного удаления из выдачи.
Патент решает проблему масштабирования и эффективности обработки запросов пользователей на удаление результатов поиска, содержащих персональную (PII) или потенциально вредоносную информацию. Традиционные методы требуют значительного объема ручной проверки (manual review), что приводит к задержкам и высоким затратам ресурсов. Кроме того, существующие методы часто ограничивают удаление только одним конкретным результатом для одного конкретного запроса, позволяя той же информации появляться по другим запросам или на зеркальных сайтах.
Запатентована система (Request Processing System) для автоматизированного определения того, следует ли удовлетворить запрос пользователя на удаление результата поиска, и определения объема этого удаления. Система использует правила (Rules) и/или модели машинного обучения (MLM) для классификации запросов на автоматическое одобрение, автоматический отказ или ручную проверку. При одобрении система определяет, следует ли расширить удаление на дополнительные связанные запросы и/или на другие веб-документы, содержащие аналогичную информацию.
Система работает следующим образом:
Request Processing System анализирует запрос, используя Prevention Determination Engine.Public Interest Websites) и/или MLM.MLM обрабатывает вектор запроса (Request Vector), включающий данные о запросе, документе и аккаунте пользователя, и генерирует оценку вероятности одобрения.MLM превышает верхний порог — запрос автоматически одобряется. Если ниже нижнего порога — автоматически отклоняется. Если находится между порогами — отправляется на ручную проверку.Prevention Extent Engine определяет, нужно ли расширить блокировку. Query Extent идентифицирует связанные запросы (например, через эмбеддинги), а Document Extent ищет похожие или дублирующиеся документы.Высокая. Учитывая растущее внимание к конфиденциальности данных (GDPR, CCPA) и проблемам, связанным с раскрытием личной информации (doxxing), Google активно развивает и внедряет механизмы для управления удалением PII из поиска. Этот патент, поданный в 2023 и выданный в 2024 году, описывает современные методы автоматизации этого процесса с использованием машинного обучения и семантического анализа.
Влияние на SEO среднее (6/10), но критическое для Online Reputation Management (ORM). Патент не описывает алгоритмы ранжирования, но детально раскрывает инфраструктуру удаления контента. Для SEO-специалистов важно понимать, как Google оценивает легитимность сайтов (Public Interest Website) и как система может превентивно удалять дублированный или перемещенный контент, который был помечен как нарушающий правила (например, PII). Это знание необходимо для стратегий ORM и управления контентом, нарушающим конфиденциальность.
Query Extent.Rules и/или MLM.MLM. Включает информацию о поисковом запросе, результате поиска, веб-документе и аккаунте пользователя.Claim 1 (Независимый пункт): Описывает основной процесс обработки запроса на удаление с расширением блокировки по запросам.
Ядро изобретения — это автоматизированное принятие решения о расширении блокировки на другие запросы, связанные с тем же документом.
Claim 2 (Зависимый от 1): Описывает расширение блокировки на другие документы (Document Extent).
similarity) между исходным и вторым документом определяется, следует ли заблокировать показ второго документа по дополнительным запросам.Это механизм борьбы с дублированием или перемещением контента (зеркалами).
Claim 3 (Зависимый от 1): Детализирует использование машинного обучения для определения расширения блокировки по запросам (Query Extent).
Решение о том, следует ли блокировать документ по дополнительным запросам, принимается путем обработки части запроса с помощью MLM, который генерирует выходные данные (output). Решение принимается на основе этих данных.
Claim 4 (Зависимый от 3): Описывает определение списка дополнительных запросов на основе "магнитуды" (значения) выходных данных MLM.
Чем выше уверенность MLM в необходимости удаления, тем шире может быть список блокируемых дополнительных запросов.
Claim 8 (Зависимый от 3): Описывает использование разных порогов для удаления по исходному запросу и для расширения блокировки.
MLM удовлетворяют первому порогу.MLM удовлетворяют второму порогу, который является более строгим (more restrictive), чем первый порог.Для расширения блокировки требуется более высокая степень уверенности системы.
Изобретение в основном функционирует на финальных этапах поисковой архитектуры, но зависит от данных, собранных на ранних этапах.
CRAWLING & INDEXING
На этих этапах система собирает и индексирует веб-документы. Происходит классификация сайтов (например, определение Public Interest Website, спам-сайтов) и анализ контента. New Document Monitor (упомянутый в описании) работает на этом этапе, проверяя новые документы на сходство с ранее заблокированным контентом, чтобы предотвратить повторное появление информации.
QUNDERSTANDING – Понимание Запросов
Модуль Query Extent использует методы понимания запросов, такие как анализ Embedding Space, для идентификации семантически связанных запросов, на которые следует расширить блокировку.
RERANKING (Переранжирование и Фильтры)
Основное применение патента. Система функционирует как фильтр на этапе формирования финальной выдачи (SERP). Одобренные запросы (включая расширенные блокировки по запросам и документам) применяются как фильтры. Если документ должен быть показан в ответ на запрос, но он заблокирован, он удаляется из SERP.
Входные данные (для системы обработки запросов):
Выходные данные:
MLM (на основе результатов ручной проверки).Public Interest Websites.low threshold и high threshold) для автоматического принятия решений. Например, порог 0.25 для отказа и 0.75 для одобрения.MLM, а также пороги сходства документов (similarity measure).Процесс А: Обработка запроса на удаление (Триаж)
Request Processor формирует Request Vector.Public Interest Website? Если да, автоматический отказ.Request Vector обрабатывается моделью машинного обучения.MLM генерирует оценку (Score), например, от 0 до 1.High Threshold: Автоматическое одобрение.Low Threshold: Автоматический отказ.MLM.Процесс Б: Определение объема предотвращения (Expansion)
Prevention Extent Engine активируется.MLM, требуя более высокого порога).Embedding Space.similarity measure).Процесс В: Мониторинг нового контента
New Document Monitor сравнивает DN с ранее заблокированными документами (D1).Система использует разнообразные данные для принятия решений об удалении контента, формирующие Request Vector:
Public Interest Website (.edu, .gov, новостные сайты) или к известным спам-сайтам.High Threshold: Порог для автоматического одобрения.Low Threshold: Порог для автоматического отказа.High Threshold, для активации Query Extent или Document Extent (Claim 8).MLM, обученный с учителем (supervised training) на основе исторических данных о запросах и решениях ручных ревьюеров.MLM) для снижения нагрузки на ручных ревьюеров и ускорения процесса.Public Interest Website vs спам) и надежность запрашивающего пользователя (возраст аккаунта, история запросов).Query Extent) и дубликаты контента (Document Extent) для превентивной блокировки.MLM для разных действий. Для расширения блокировки требуются более высокие (строгие) пороги, чем для базового удаления, что указывает на стремление сбалансировать полноту удаления и точность.Хотя патент описывает внутренние механизмы Google по удалению контента, он дает важные инсайты для SEO, особенно в области управления репутацией (ORM) и работы с нежелательным контентом.
Request Vector для обработки MLM.Public Interest Websites как категорию, защищенную от автоматического удаления. Работа над E-E-A-T помогает попасть в эту категорию.Document Extent и New Document Monitor предназначены для обнаружения и превентивной блокировки такого контента на основе сходства.Патент демонстрирует сложность инфраструктуры Google для управления контентом на стыке конфиденциальности, права и доступности информации. Для SEO это подчеркивает важность семантического понимания контента и запросов (через эмбеддинги) не только для ранжирования, но и для модерации контента. Стратегически, это подтверждает, что Google рассматривает контент не изолированно, а в контексте всего интернета, активно борясь с распространением нежелательной информации путем блокировки как по запросам, так и по сходству контента.
Сценарий: Управление репутацией (ORM) и удаление PII (Doxxing)
Клиент обнаружил, что по запросу "[Имя Клиента] контакты" в выдаче появляется сайт (example-dox.com), публикующий его домашний адрес и телефон без согласия.
Prevention Determination Engine анализирует запрос. example-dox.com не является Public Interest Website.MLM выдает высокую оценку (например, 0.90), что приводит к автоматическому одобрению.similarity measure) и также блокирует его.Что такое "Public interest website" согласно патенту и как это влияет на SEO/ORM?
Это категория сайтов, контент которых считается представляющим законный общественный интерес. Патент упоминает домены .edu и .gov, а также новостные ресурсы. Если система классифицирует сайт как Public Interest Website, запросы на удаление контента с него часто автоматически отклоняются. Для SEO/ORM это означает, что попытки удалить легитимную информацию с таких ресурсов через стандартные формы PII, скорее всего, будут безуспешны.
Как система определяет, нужно ли расширять блокировку на другие запросы (Query Extent)?
Система использует Prevention Extent Engine. Решение может приниматься на основе оценки MLM – если уверенность системы превышает строгий порог, она идентифицирует связанные запросы. Это делается путем анализа синонимов или, что более современно, путем измерения расстояния между эмбеддингами исходного запроса и других запросов в семантическом пространстве.
Может ли система удалить контент, если он был перемещен на новый домен (Document Extent)?
Да, это одна из ключевых функций. Система сравнивает ранее заблокированный контент с другими индексируемыми и новыми документами (используя New Document Monitor), используя меру сходства (similarity measure). Если сходство превышает порог, новый документ также блокируется. Это делает стратегию перемещения нарушающего контента неэффективной.
Какие факторы учитывает модель машинного обучения (MLM) при оценке запроса на удаление?
MLM обрабатывает Request Vector, который включает множество факторов. Ключевые из них: тип веб-документа (является ли он спамом или Public Interest), тип удаляемой информации (PII), а также данные аккаунта пользователя — возраст аккаунта, совпадение PII пользователя с контентом, история предыдущих запросов и процент их успешности.
Все ли запросы на удаление обрабатываются автоматически?
Нет. Система использует гибридный подход. Запросы автоматически одобряются или отклоняются, только если уверенность MLM очень высока или очень низка (выходит за установленные пороги) или если срабатывают четкие правила (например, домен .gov). Если оценка находится в "серой зоне" между порогами, запрос отправляется на ручную проверку.
Как этот патент влияет на стратегии Online Reputation Management (ORM)?
Он подчеркивает эффективность использования официальных инструментов Google для удаления PII. Для ORM-специалистов это означает, что один хорошо сформулированный запрос от доверенного аккаунта может привести к комплексному результату — удалению информации по множеству связанных запросов и с нескольких сайтов-копий.
Имеет ли значение история моего аккаунта Google при подаче запроса на удаление?
Да, имеет существенное значение. Патент явно указывает, что возраст аккаунта, количество предыдущих запросов и процент их успешности используются как сигналы при автоматизированной обработке запроса (включаются в Request Vector для MLM). Новые или подозрительные аккаунты чаще отправляются на ручную проверку.
Что такое "пороги расширения" и почему они строже?
Патент описывает (Claim 8), что для базового удаления результата требуется преодолеть определенный порог уверенности MLM (например, 0.75). Однако для того, чтобы система расширила блокировку на другие запросы или документы, может потребоваться более высокий порог (например, 0.85). Это сделано для минимизации ошибок — система должна быть очень уверена, прежде чем начнет блокировать контент, который пользователь явно не указывал.
На каком этапе поиска происходит удаление контента?
Обработка запросов происходит асинхронно. Однако само удаление (фильтрация) происходит на финальном этапе — RERANKING. После того как основной алгоритм ранжирования сформировал список результатов, система фильтрации проверяет этот список на наличие заблокированных документов и удаляет их перед показом пользователю.
Может ли этот механизм использоваться для обработки DMCA-запросов (удаление авторского контента)?
Хотя патент в примерах фокусируется на персональной информации (PII), описанные механизмы, особенно Document Extent (поиск похожих документов) и New Document Monitor, идеально подходят для борьбы с нарушением авторских прав. Логично предположить, что схожая инфраструктура используется для масштабирования обработки DMCA-запросов и удаления дубликатов пиратского контента.

Безопасный поиск
SERP
Семантика и интент

EEAT и качество
Ссылки
SERP

Индексация
Поведенческие сигналы

Персонализация
Поведенческие сигналы
Антиспам

Индексация
SERP
Краулинг

Ссылки
Семантика и интент
SERP

Поведенческие сигналы
SERP

Мультимедиа
Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы

SERP
EEAT и качество
Поведенческие сигналы

Поведенческие сигналы
Персонализация
Семантика и интент

Семантика и интент
Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы

Семантика и интент
EEAT и качество
Индексация

Семантика и интент
Поведенческие сигналы
SERP
