SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google автоматизирует удаление персональных данных (PII) из поиска и расширяет блокировку на связанные запросы и дубликаты контента

DETERMINING WHETHER AND/OR HOW TO IMPLEMENT REQUEST TO PREVENT PROVISION OF SEARCH RESULT(S) (Определение того, следует ли и/или как выполнить запрос на предотвращение предоставления результата(ов) поиска)
  • US12045302B2
  • Google LLC
  • 2023-02-07
  • 2024-07-23
  • Безопасный поиск
  • Семантика и интент
  • Антиспам
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует гибридную систему, сочетающую правила и модели машинного обучения, для автоматизации обработки запросов на удаление контента (например, PII). Система оценивает легитимность запроса, анализируя тип сайта, данные аккаунта пользователя и сам контент. При одобрении запроса Google не только удаляет результат для исходного запроса, но и автоматически расширяет блокировку на семантически близкие запросы и идентифицирует похожие или дублирующиеся веб-документы для их превентивного удаления из выдачи.

Описание

Какую проблему решает

Патент решает проблему масштабирования и эффективности обработки запросов пользователей на удаление результатов поиска, содержащих персональную (PII) или потенциально вредоносную информацию. Традиционные методы требуют значительного объема ручной проверки (manual review), что приводит к задержкам и высоким затратам ресурсов. Кроме того, существующие методы часто ограничивают удаление только одним конкретным результатом для одного конкретного запроса, позволяя той же информации появляться по другим запросам или на зеркальных сайтах.

Что запатентовано

Запатентована система (Request Processing System) для автоматизированного определения того, следует ли удовлетворить запрос пользователя на удаление результата поиска, и определения объема этого удаления. Система использует правила (Rules) и/или модели машинного обучения (MLM) для классификации запросов на автоматическое одобрение, автоматический отказ или ручную проверку. При одобрении система определяет, следует ли расширить удаление на дополнительные связанные запросы и/или на другие веб-документы, содержащие аналогичную информацию.

Как это работает

Система работает следующим образом:

  • Получение запроса: Пользователь идентифицирует результат поиска, указывает тип содержащейся в нем информации (например, PII) и отправляет запрос через свой аккаунт.
  • Обработка запроса: Request Processing System анализирует запрос, используя Prevention Determination Engine.
  • Принятие решения (Гибридный подход): Система может использовать предопределенные правила (например, автоматический отказ для Public Interest Websites) и/или MLM.
  • MLM Оценка: MLM обрабатывает вектор запроса (Request Vector), включающий данные о запросе, документе и аккаунте пользователя, и генерирует оценку вероятности одобрения.
  • Автоматизация и Пороги: Если оценка MLM превышает верхний порог — запрос автоматически одобряется. Если ниже нижнего порога — автоматически отклоняется. Если находится между порогами — отправляется на ручную проверку.
  • Определение объема (Expansion): При одобрении Prevention Extent Engine определяет, нужно ли расширить блокировку. Query Extent идентифицирует связанные запросы (например, через эмбеддинги), а Document Extent ищет похожие или дублирующиеся документы.

Актуальность для SEO

Высокая. Учитывая растущее внимание к конфиденциальности данных (GDPR, CCPA) и проблемам, связанным с раскрытием личной информации (doxxing), Google активно развивает и внедряет механизмы для управления удалением PII из поиска. Этот патент, поданный в 2023 и выданный в 2024 году, описывает современные методы автоматизации этого процесса с использованием машинного обучения и семантического анализа.

Важность для SEO

Влияние на SEO среднее (6/10), но критическое для Online Reputation Management (ORM). Патент не описывает алгоритмы ранжирования, но детально раскрывает инфраструктуру удаления контента. Для SEO-специалистов важно понимать, как Google оценивает легитимность сайтов (Public Interest Website) и как система может превентивно удалять дублированный или перемещенный контент, который был помечен как нарушающий правила (например, PII). Это знание необходимо для стратегий ORM и управления контентом, нарушающим конфиденциальность.

Детальный разбор

Термины и определения

Document Extent (Объем по документам)
Модуль, идентифицирующий другие веб-документы, похожие на исходный, которые также следует заблокировать.
Embedding Space (Пространство эмбеддингов)
Векторное пространство, в котором поисковые запросы представлены в виде векторов (эмбеддингов). Используется для определения семантической близости между запросами для Query Extent.
MLM (Machine Learning Model / Модель машинного обучения)
Модель, обученная на основе предыдущих запросов и решений ревьюеров, используемая для прогнозирования того, следует ли одобрить или отклонить запрос.
New Document Monitor (Монитор новых документов)
Компонент, который проверяет новые или недавно обнаруженные веб-документы на схожесть с контентом, который был ранее удален по запросу.
Prevention Determination Engine (Механизм определения предотвращения)
Компонент, который определяет, следует ли удовлетворить запрос. Может использовать Rules и/или MLM.
Prevention Extent Engine (Механизм определения объема предотвращения)
Компонент, определяющий, следует ли расширить удаление за пределы исходного запроса и результата.
Public Interest Website (Сайт, представляющий общественный интерес)
Категория сайтов (например, .edu, .gov, новостные ресурсы), запросы на удаление контента с которых часто автоматически отклоняются, если информация служит законным общественным интересам.
Query Extent (Объем по запросам)
Модуль, идентифицирующий дополнительные поисковые запросы, для которых следует заблокировать показ веб-документа.
Request Vector (Вектор запроса)
Структурированное представление запроса на удаление, используемое как входные данные для MLM. Включает информацию о поисковом запросе, результате поиска, веб-документе и аккаунте пользователя.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс обработки запроса на удаление с расширением блокировки по запросам.

  1. Система получает запрос от пользователя на удаление конкретного результата поиска (для веб-документа), появляющегося по определенному поисковому запросу. Запрос включает данные аккаунта пользователя.
  2. Определяется, следует ли предотвратить показ этого результата по этому запросу.
  3. Если ДА (запрос одобрен): Конкретный результат блокируется для будущих показов по этому запросу.
  4. Система определяет, следует ли предотвратить показ любого результата для этого же веб-документа по одному или нескольким дополнительным запросам.
  5. Если ДА (расширение одобрено): Веб-документ блокируется для показа по этим дополнительным запросам.

Ядро изобретения — это автоматизированное принятие решения о расширении блокировки на другие запросы, связанные с тем же документом.

Claim 2 (Зависимый от 1): Описывает расширение блокировки на другие документы (Document Extent).

  1. Идентифицируется второй веб-документ.
  2. На основе сходства (similarity) между исходным и вторым документом определяется, следует ли заблокировать показ второго документа по дополнительным запросам.
  3. Если ДА: Второй документ блокируется.

Это механизм борьбы с дублированием или перемещением контента (зеркалами).

Claim 3 (Зависимый от 1): Детализирует использование машинного обучения для определения расширения блокировки по запросам (Query Extent).

Решение о том, следует ли блокировать документ по дополнительным запросам, принимается путем обработки части запроса с помощью MLM, который генерирует выходные данные (output). Решение принимается на основе этих данных.

Claim 4 (Зависимый от 3): Описывает определение списка дополнительных запросов на основе "магнитуды" (значения) выходных данных MLM.

Чем выше уверенность MLM в необходимости удаления, тем шире может быть список блокируемых дополнительных запросов.

Claim 8 (Зависимый от 3): Описывает использование разных порогов для удаления по исходному запросу и для расширения блокировки.

  1. Решение об удалении по исходному запросу принимается, если выходные данные MLM удовлетворяют первому порогу.
  2. Решение о расширении блокировки на дополнительные запросы принимается, если выходные данные MLM удовлетворяют второму порогу, который является более строгим (more restrictive), чем первый порог.

Для расширения блокировки требуется более высокая степень уверенности системы.

Где и как применяется

Изобретение в основном функционирует на финальных этапах поисковой архитектуры, но зависит от данных, собранных на ранних этапах.

CRAWLING & INDEXING
На этих этапах система собирает и индексирует веб-документы. Происходит классификация сайтов (например, определение Public Interest Website, спам-сайтов) и анализ контента. New Document Monitor (упомянутый в описании) работает на этом этапе, проверяя новые документы на сходство с ранее заблокированным контентом, чтобы предотвратить повторное появление информации.

QUNDERSTANDING – Понимание Запросов
Модуль Query Extent использует методы понимания запросов, такие как анализ Embedding Space, для идентификации семантически связанных запросов, на которые следует расширить блокировку.

RERANKING (Переранжирование и Фильтры)
Основное применение патента. Система функционирует как фильтр на этапе формирования финальной выдачи (SERP). Одобренные запросы (включая расширенные блокировки по запросам и документам) применяются как фильтры. Если документ должен быть показан в ответ на запрос, но он заблокирован, он удаляется из SERP.

Входные данные (для системы обработки запросов):

  • Поисковый запрос, указанный пользователем.
  • Идентификатор результата поиска (URL/документа).
  • Тип информации, которую пользователь хочет удалить (например, адрес, телефон).
  • Данные аккаунта пользователя (возраст аккаунта, история запросов на удаление, PII, связанная с аккаунтом).
  • Данные о веб-документе (контент, домен, классификация сайта).

Выходные данные:

  • Решение по запросу (Одобрено / Отклонено / Ручная проверка).
  • Объем блокировки (только исходный запрос / дополнительные запросы / дополнительные документы).
  • Данные для обучения MLM (на основе результатов ручной проверки).

На что влияет

  • Конкретные типы контента: В первую очередь влияет на контент, содержащий персональные данные (PII), финансовую информацию, медицинские данные, интимные изображения.
  • Специфические запросы: Наибольшее влияние на запросы, связанные с именами людей, контактной информацией или другими идентификаторами (например, "Имя Фамилия адрес", "Имя Фамилия номер телефона").
  • Конкретные ниши или тематики: Сайты-справочники, агрегаторы персональных данных, форумы и социальные сети, где может происходить несанкционированное раскрытие личной информации (doxxing).
  • Исключения: Минимальное влияние на Public Interest Websites.

Когда применяется

  • Триггеры активации: Система активируется при получении запроса от пользователя на удаление результата поиска.
  • Пороговые значения (MLM): Используются настраиваемые пороги уверенности (low threshold и high threshold) для автоматического принятия решений. Например, порог 0.25 для отказа и 0.75 для одобрения.
  • Пороговые значения (Расширение): Для расширения блокировки на дополнительные запросы или документы могут использоваться более строгие пороги уверенности MLM, а также пороги сходства документов (similarity measure).

Пошаговый алгоритм

Процесс А: Обработка запроса на удаление (Триаж)

  1. Получение запроса: Система получает запрос от пользователя (Q1, R1 для документа D1) и данные аккаунта (A1).
  2. Генерация вектора запроса: Request Processor формирует Request Vector.
  3. Предварительная проверка (Rules - Гибридный подход): Система проверяет запрос по набору правил.
    1. Проверка домена D1: Является ли D1 Public Interest Website? Если да, автоматический отказ.
    2. Проверка аккаунта: Возраст аккаунта, история предыдущих запросов. Если подозрительно, может быть отправлено на ручную проверку.
  4. Обработка с помощью MLM: Если правила не дали окончательного ответа, Request Vector обрабатывается моделью машинного обучения.
  5. Генерация оценки: MLM генерирует оценку (Score), например, от 0 до 1.
  6. Принятие решения:
    1. Если Score > High Threshold: Автоматическое одобрение.
    2. Если Score < Low Threshold: Автоматический отказ.
    3. Иначе: Отправка на ручную проверку. Результаты используются для дообучения MLM.
  7. Применение блокировки (если одобрено): R1 блокируется для будущих показов по запросу Q1.

Процесс Б: Определение объема предотвращения (Expansion)

  1. Активация (если запрос одобрен): Prevention Extent Engine активируется.
  2. Определение Query Extent:
    1. Система определяет, нужно ли расширить блокировку (может зависеть от оценки MLM, требуя более высокого порога).
    2. Идентификация связанных запросов (Q2, Q3...): Используются методы манипуляции терминами или анализ расстояния в Embedding Space.
    3. Применение блокировки: D1 блокируется для показа по Q2, Q3...
  3. Определение Document Extent:
    1. Система ищет документы (D2, D3...), похожие на D1 (используя similarity measure).
    2. Применение блокировки: Если сходство превышает порог, D2, D3... блокируются для показа по Q1 и/или дополнительным запросам.

Процесс В: Мониторинг нового контента

  1. Обнаружение нового документа (DN): Краулер находит новый документ.
  2. Проверка сходства: New Document Monitor сравнивает DN с ранее заблокированными документами (D1).
  3. Превентивная блокировка: Если сходство превышает порог, DN может быть не проиндексирован или помечен как заблокированный.

Какие данные и как использует

Данные на входе

Система использует разнообразные данные для принятия решений об удалении контента, формирующие Request Vector:

  • Контентные факторы: Текст веб-документа анализируется для идентификации персональной информации (PII), указанной в запросе (например, с помощью регулярных выражений).
  • Технические факторы (Доменные/Сайтовые): Домен веб-документа (URL) используется для определения категории сайта. Упоминается проверка на принадлежность к Public Interest Website (.edu, .gov, новостные сайты) или к известным спам-сайтам.
  • Поведенческие/Пользовательские факторы (Метрики популярности): Упоминается возможность использования популярности документа (количество кликов на результат, количество и продолжительность просмотров) как фактора при принятии решения.
  • Пользовательские факторы (Данные аккаунта): Критически важные данные для верификации запроса.
    • PII аккаунта: Телефон, email, адрес, используемые для сравнения с данными в документе.
    • Возраст аккаунта: Время с момента создания (например, проверка, старше ли аккаунт 48 часов).
    • Стабильность данных: Как давно менялась информация в аккаунте.
    • История запросов: Количество предыдущих запросов на удаление от этого пользователя и процент их одобрения/отклонения.

Какие метрики используются и как они считаются

  • MLM Output Score (Оценка MLM): Числовое значение (например, от 0 до 1), генерируемое моделью машинного обучения, указывающее на вероятность того, что запрос следует одобрить.
  • Thresholds (Пороги):
    • High Threshold: Порог для автоматического одобрения.
    • Low Threshold: Порог для автоматического отказа.
    • Пороги расширения: Могут быть более строгими, чем High Threshold, для активации Query Extent или Document Extent (Claim 8).
  • Similarity Measure (Мера сходства): Метрика, указывающая, насколько похожи два веб-документа. Может основываться на текстовом сходстве, сходстве HTML/XML тегов, источниках и доменах.
  • Embedding Distance (Расстояние между эмбеддингами): Мера семантической близости между поисковыми запросами в векторном пространстве. Используется для идентификации связанных запросов для расширения блокировки.
  • Алгоритмы машинного обучения: Используется MLM, обученный с учителем (supervised training) на основе исторических данных о запросах и решениях ручных ревьюеров.

Выводы

  1. Автоматизация удаления контента — приоритет: Google активно инвестирует в автоматизацию обработки запросов на удаление (PII, ORM), используя гибридный подход (правила и MLM) для снижения нагрузки на ручных ревьюеров и ускорения процесса.
  2. Критерии оценки запросов многофакторны: Система учитывает не только сам контент, но и авторитетность источника (Public Interest Website vs спам) и надежность запрашивающего пользователя (возраст аккаунта, история запросов).
  3. Расширенная блокировка (Expansion) как ключевой механизм: Патент фокусируется на том, что удаление не ограничивается исходным запросом. Система активно ищет связанные запросы (Query Extent) и дубликаты контента (Document Extent) для превентивной блокировки.
  4. Использование эмбеддингов для определения объема блокировки: Для идентификации связанных запросов используются современные NLP-технологии, такие как эмбеддинги запросов. Это позволяет блокировать семантически близкие запросы, даже если они не содержат тех же ключевых слов.
  5. Динамические пороги уверенности: Система использует разные пороги уверенности MLM для разных действий. Для расширения блокировки требуются более высокие (строгие) пороги, чем для базового удаления, что указывает на стремление сбалансировать полноту удаления и точность.
  6. Превентивное удаление (New Document Monitor): Система может отслеживать новые документы во время сканирования и превентивно блокировать их, если они похожи на ранее удаленный контент.

Практика

Best practices (это мы делаем)

Хотя патент описывает внутренние механизмы Google по удалению контента, он дает важные инсайты для SEO, особенно в области управления репутацией (ORM) и работы с нежелательным контентом.

  • Использование официальных каналов и доверенных аккаунтов: При работе над ORM-проектами необходимо использовать официальные формы Google для запросов на удаление PII. Подавайте запросы с устоявшихся аккаунтов Google. Патент подтверждает, что возраст аккаунта и история успешных запросов являются сигналами для автоматического одобрения.
  • Предоставление точной информации в запросе: Необходимо точно указывать тип PII и контактные данные. Эта информация используется для верификации (сравнение данных аккаунта с данными на странице) и включается в Request Vector для обработки MLM.
  • Мониторинг связанных запросов и дубликатов: При успешном удалении нежелательного контента не стоит полагаться только на исходный запрос. Патент указывает, что Google пытается расширить блокировку, но SEO/ORM-специалисты должны самостоятельно отслеживать семантически связанные запросы и появление дубликатов контента на других доменах.
  • Поддержание качества и авторитетности сайтов (для защиты от удаления): Для контентных проектов, новостных сайтов и образовательных ресурсов критически важно поддерживать сигналы авторитетности. Патент явно выделяет Public Interest Websites как категорию, защищенную от автоматического удаления. Работа над E-E-A-T помогает попасть в эту категорию.

Worst practices (это делать не надо)

  • Попытки обойти удаление путем перемещения контента: Если контент был удален за нарушение правил (например, PII), попытка переопубликовать его на другом URL или домене будет неэффективной. Система Document Extent и New Document Monitor предназначены для обнаружения и превентивной блокировки такого контента на основе сходства.
  • Манипуляции с запросами на удаление и использование "одноразовых" аккаунтов: Попытки использовать систему для удаления легитимного контента или создание фейковых/новых аккаунтов для подачи запросов рискованны. Система анализирует возраст аккаунта, историю запросов и процент отказов для выявления злоупотреблений, что может привести к ручной проверке или отказу.
  • Игнорирование статуса "Public Interest": Не тратьте ресурсы на попытки удалить информацию с правительственных сайтов или авторитетных новостных ресурсов через стандартные формы удаления PII. Система запрограммирована на автоматический отказ в таких случаях.

Стратегическое значение

Патент демонстрирует сложность инфраструктуры Google для управления контентом на стыке конфиденциальности, права и доступности информации. Для SEO это подчеркивает важность семантического понимания контента и запросов (через эмбеддинги) не только для ранжирования, но и для модерации контента. Стратегически, это подтверждает, что Google рассматривает контент не изолированно, а в контексте всего интернета, активно борясь с распространением нежелательной информации путем блокировки как по запросам, так и по сходству контента.

Практические примеры

Сценарий: Управление репутацией (ORM) и удаление PII (Doxxing)

Клиент обнаружил, что по запросу "[Имя Клиента] контакты" в выдаче появляется сайт (example-dox.com), публикующий его домашний адрес и телефон без согласия.

  1. Действие SEO/ORM специалиста: Подача запроса на удаление PII через официальную форму Google с использованием устоявшегося аккаунта.
  2. Работа системы (согласно патенту):
    • Prevention Determination Engine анализирует запрос. example-dox.com не является Public Interest Website.
    • Данные аккаунта надежны (возраст, история).
    • MLM выдает высокую оценку (например, 0.90), что приводит к автоматическому одобрению.
  3. Расширение блокировки (Query Extent): Оценка 0.90 превышает строгий порог для расширения. Система анализирует эмбеддинг запроса и автоматически блокирует показ документа также по запросам "[Имя Клиента] адрес", "[Имя Клиента] телефон".
  4. Расширение блокировки (Document Extent): Система обнаруживает другой сайт (mirror-dox.com) с идентичным контентом (высокая similarity measure) и также блокирует его.
  5. Ожидаемый результат: Быстрое и комплексное удаление PII из выдачи по нескольким связанным запросам и с нескольких сайтов на основе одного запроса пользователя.

Вопросы и ответы

Что такое "Public interest website" согласно патенту и как это влияет на SEO/ORM?

Это категория сайтов, контент которых считается представляющим законный общественный интерес. Патент упоминает домены .edu и .gov, а также новостные ресурсы. Если система классифицирует сайт как Public Interest Website, запросы на удаление контента с него часто автоматически отклоняются. Для SEO/ORM это означает, что попытки удалить легитимную информацию с таких ресурсов через стандартные формы PII, скорее всего, будут безуспешны.

Как система определяет, нужно ли расширять блокировку на другие запросы (Query Extent)?

Система использует Prevention Extent Engine. Решение может приниматься на основе оценки MLM – если уверенность системы превышает строгий порог, она идентифицирует связанные запросы. Это делается путем анализа синонимов или, что более современно, путем измерения расстояния между эмбеддингами исходного запроса и других запросов в семантическом пространстве.

Может ли система удалить контент, если он был перемещен на новый домен (Document Extent)?

Да, это одна из ключевых функций. Система сравнивает ранее заблокированный контент с другими индексируемыми и новыми документами (используя New Document Monitor), используя меру сходства (similarity measure). Если сходство превышает порог, новый документ также блокируется. Это делает стратегию перемещения нарушающего контента неэффективной.

Какие факторы учитывает модель машинного обучения (MLM) при оценке запроса на удаление?

MLM обрабатывает Request Vector, который включает множество факторов. Ключевые из них: тип веб-документа (является ли он спамом или Public Interest), тип удаляемой информации (PII), а также данные аккаунта пользователя — возраст аккаунта, совпадение PII пользователя с контентом, история предыдущих запросов и процент их успешности.

Все ли запросы на удаление обрабатываются автоматически?

Нет. Система использует гибридный подход. Запросы автоматически одобряются или отклоняются, только если уверенность MLM очень высока или очень низка (выходит за установленные пороги) или если срабатывают четкие правила (например, домен .gov). Если оценка находится в "серой зоне" между порогами, запрос отправляется на ручную проверку.

Как этот патент влияет на стратегии Online Reputation Management (ORM)?

Он подчеркивает эффективность использования официальных инструментов Google для удаления PII. Для ORM-специалистов это означает, что один хорошо сформулированный запрос от доверенного аккаунта может привести к комплексному результату — удалению информации по множеству связанных запросов и с нескольких сайтов-копий.

Имеет ли значение история моего аккаунта Google при подаче запроса на удаление?

Да, имеет существенное значение. Патент явно указывает, что возраст аккаунта, количество предыдущих запросов и процент их успешности используются как сигналы при автоматизированной обработке запроса (включаются в Request Vector для MLM). Новые или подозрительные аккаунты чаще отправляются на ручную проверку.

Что такое "пороги расширения" и почему они строже?

Патент описывает (Claim 8), что для базового удаления результата требуется преодолеть определенный порог уверенности MLM (например, 0.75). Однако для того, чтобы система расширила блокировку на другие запросы или документы, может потребоваться более высокий порог (например, 0.85). Это сделано для минимизации ошибок — система должна быть очень уверена, прежде чем начнет блокировать контент, который пользователь явно не указывал.

На каком этапе поиска происходит удаление контента?

Обработка запросов происходит асинхронно. Однако само удаление (фильтрация) происходит на финальном этапе — RERANKING. После того как основной алгоритм ранжирования сформировал список результатов, система фильтрации проверяет этот список на наличие заблокированных документов и удаляет их перед показом пользователю.

Может ли этот механизм использоваться для обработки DMCA-запросов (удаление авторского контента)?

Хотя патент в примерах фокусируется на персональной информации (PII), описанные механизмы, особенно Document Extent (поиск похожих документов) и New Document Monitor, идеально подходят для борьбы с нарушением авторских прав. Логично предположить, что схожая инфраструктура используется для масштабирования обработки DMCA-запросов и удаления дубликатов пиратского контента.

Похожие патенты

Как Google использует машинное обучение для обнаружения и удаления "revenge porn" и другого неконсенсусного контента из поиска
Google использует систему для борьбы с лично нежелательным контентом (например, «revenge porn»). Система применяет два классификатора: один определяет, является ли контент нежелательным (например, порнографическим), а второй — является ли он любительским. Если контент одновременно нежелательный и любительский, он удаляется из выдачи. Система также проактивно анализирует запросы с низкой популярностью для выявления нового такого контента.
  • US10795926B1
  • 2020-10-06
  • Безопасный поиск

  • SERP

  • Семантика и интент

Как Google использует LLM для генерации поисковых сводок (SGE), основываясь на контенте веб-сайтов, и итеративно уточняет ответы
Google использует Большие Языковые Модели (LLM) для создания сводок (AI-ответов) в результатах поиска. Для повышения точности и актуальности система подает в LLM не только запрос, но и контент из топовых результатов поиска (SRDs). Патент описывает, как система выбирает источники, генерирует сводку, проверяет факты, добавляет ссылки на источники (linkifying) и аннотации уверенности. Кроме того, система может динамически переписывать сводку, если пользователь взаимодействует с одним из источников.
  • US11769017B1
  • 2023-09-26
  • EEAT и качество

  • Ссылки

  • SERP

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс
Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.
  • US8255386B1
  • 2012-08-28
  • Индексация

  • Поведенческие сигналы

Как Google использует блокировку сайтов пользователями для персонализации выдачи и как глобальный сигнал ранжирования (Remove List Score)
Google позволяет пользователям удалять нежелательные документы или целые сайты из своей поисковой выдачи. Система агрегирует эти данные о блокировках от множества пользователей и использует их как глобальный сигнал ранжирования — «Remove List Score» — для выявления низкокачественного контента и улучшения качества поиска для всех.
  • US8417697B2
  • 2013-04-09
  • Персонализация

  • Поведенческие сигналы

  • Антиспам

Как Google использует машинное обучение для обнаружения дубликатов, анализируя контент до и после рендеринга
Google использует комплексную систему для обнаружения дубликатов, которая сравнивает как исходный HTML-код (Fetched Body), так и финальную версию страницы после выполнения JavaScript (Synthetic Body). Система вычисляет множество сигналов сравнения, включая основанные на контексте запроса (сниппеты), и использует модель машинного обучения для определения вероятности того, что страницы являются дубликатами.
  • US20140188919A1
  • 2014-07-03
  • Индексация

  • SERP

  • Краулинг

Популярные патенты

Как Google использует генеративный ИИ для создания чата с конкретным сайтом прямо в поисковой выдаче и предоставления глубинных ссылок
Google патентует механизм, позволяющий пользователям взаимодействовать с конкретным результатом поиска через интерфейс чата (prompt input interface) прямо на странице выдачи. Искусственный интеллект анализирует запрос пользователя и его последующий промпт, определяет намерение (поиск информации, действие или навигация) и предоставляет глубинные ссылки (deep links) на конкретные внутренние страницы этого же домена в виде conversational response.
  • US12353458B2
  • 2025-07-08
  • Ссылки

  • Семантика и интент

  • SERP

Как Google использует клики и пропуски пользователей для оценки и корректировки правил близости терминов (Proximity Rules)
Google анализирует поведение пользователей для оценки эффективности правил близости (Proximity Rules), которые влияют на ранжирование в зависимости от расстояния между ключевыми словами на странице. Система отслеживает, кликают ли пользователи на результаты, где термины расположены далеко друг от друга, или пропускают их. На основе этих данных (Click Count, Skip Count) вычисляется оценка качества правила, что позволяет Google динамически адаптировать важность фактора близости.
  • US9146966B1
  • 2015-09-29
  • Поведенческие сигналы

  • SERP

Как Google (YouTube) ранжирует видео, повышая те, которые начинают сессию просмотра и приводят внешний трафик ("Lead Video")
Google использует систему ранжирования для видеоплатформ, которая идентифицирует "ведущее видео" (Lead Video), инициирующее сессию просмотра. Система применяет повышающие коэффициенты (Scaling Factors) ко времени просмотра этого видео. Видео, привлекшие пользователя на платформу из внешних источников (например, из социальных сетей или поиска Google), получают значительно больший коэффициент, чем те, что были найдены через внутренние рекомендации.
  • US10346417B2
  • 2019-07-09
  • Мультимедиа

  • Поведенческие сигналы

  • SERP

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента
Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.
  • US8145636B1
  • 2012-03-27
  • Семантика и интент

  • Поведенческие сигналы

Как Google обучает ИИ-модели для автоматической оценки качества сайтов на основе данных асессоров и предвзятой выборки
Патент Google, описывающий фундаментальную методологию создания систем оценки качества сайтов. Google использует машинное обучение (например, SVM), чтобы найти корреляции между оценками асессоров и измеримыми сигналами сайта (PageRank, клики). Для повышения точности применяется метод «предвзятой выборки» (Biased Sampling): система намеренно собирает больше оценок для сайтов среднего качества («сложных случаев»), чем для очевидно плохих или хороших.
  • US8442984B1
  • 2013-05-14
  • SERP

  • EEAT и качество

  • Поведенческие сигналы

Как Google использует паттерны просмотра пользователей (co-visitation) для определения связанности документов и улучшения поиска
Google использует систему для определения того, насколько тесно связаны два документа, основываясь на агрегированных данных о поведении пользователей. Система рассчитывает вероятность того, что пользователь просмотрит Документ B в течение определенного времени после того, как Документ А был показан ему в результатах поиска. Эти данные используются для персонализации выдачи, предложения рекомендаций и улучшения релевантности на основе контекста сессии пользователя.
  • US8447760B1
  • 2013-05-21
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google использует исторические паттерны CTR для предсказания сезонных и циклических изменений интента пользователя
Google анализирует исторические данные о кликах (CTR) для выявления предсказуемых изменений в интересах пользователей по неоднозначным запросам. Если интент меняется в зависимости от сезона, дня недели или времени суток, система корректирует ранжирование, чтобы соответствовать доминирующему в данный момент интенту. Например, по запросу "turkey" в ноябре приоритет получат рецепты, а не информация о стране.
  • US8909655B1
  • 2014-12-09
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google интерпретирует последовательные запросы для автоматического уточнения поискового намерения пользователя
Google использует механизм для понимания контекста сессии, анализируя последовательные запросы (например, Q1: [рестораны в Москве], затем Q2: [итальянские]). Система автоматически объединяет их в уточненный запрос (Q3: [итальянские рестораны в Москве]), основываясь на исторических данных о том, как пользователи обычно уточняют запросы. Это позволяет системе лучше понимать намерение пользователя в диалоговом режиме.
  • US9116952B1
  • 2015-08-25
  • Семантика и интент

  • Поведенческие сигналы

Как Google извлекает готовые ответы из авторитетных источников для формирования Featured Snippets
Google использует систему для предоставления прямых ответов на естественном языке (в виде абзацев или списков) на запросы с четким намерением. Система заранее анализирует авторитетные источники, извлекает пары «заголовок-текст», соответствующие популярным шаблонам вопросов, и сохраняет их в специальной базе данных. При получении соответствующего запроса система извлекает готовый ответ из этой базы и отображает его в выдаче.
  • US9448992B2
  • 2016-09-20
  • Семантика и интент

  • EEAT и качество

  • Индексация

Как Google использует визуальный анализ кликов по картинкам для понимания интента запроса и переранжирования выдачи
Google анализирует визуальное содержимое изображений, которые пользователи чаще всего выбирают в ответ на определенный запрос. На основе этого анализа (наличие лиц, текста, графиков, доминирующих цветов) система определяет категорию запроса (например, «запрос о конкретном человеке» или «запрос на определенный цвет»). Эти категории затем используются для переранжирования будущих результатов поиска, повышая изображения, которые визуально соответствуют выявленному интенту.
  • US9836482B2
  • 2017-12-05
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

seohardcore