Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google создает и защищает пользовательские (Custom) индексы для приватного или корпоративного контента

    CUSTOM SEARCH INDEX DATA SECURITY (Безопасность данных пользовательского поискового индекса)
    • US8442994B1
    • Google LLC
    • 2013-05-14
    • 2008-09-12
    2008 Безопасный поиск Индексация Патенты Google

    Патент описывает инфраструктуру Google для создания пользовательских поисковых индексов (Custom Search Indexes), отдельных от основного веб-индекса. Он фокусируется на методах защиты конфиденциального контента, включая шифрование результатов и индексирование только метаданных, в то время как сам контент хранится на защищенных внешних серверах.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу интеграции частного, конфиденциального, корпоративного или платного (subscription-based) контента в инфраструктуру поисковой системы без компрометации его безопасности. Он обеспечивает механизмы поиска по данным (Custom Content), которые владелец не хочет делать общедоступными или, в некоторых сценариях, даже раскрывать самой поисковой системе (Content Searching System).

    Что запатентовано

    Запатентована система для создания, управления и обеспечения безопасности пользовательских поисковых индексов (Custom Search Indexes), которые существуют отдельно от основного веб-индекса (Web Search Index). Изобретение описывает различные архитектурные модели безопасности, позволяющие индексировать либо сам контент, либо только его метаданные (Metadata), когда контент хранится в зашифрованном виде или на удаленных серверах провайдера (Custom Content Server).

    Как это работает

    Система позволяет провайдерам загружать контент или метаданные через API или путем указания источников для сканирования. На основе этих данных создается отдельный Custom Search Index. Патент описывает несколько моделей безопасности:

    • Модель 1 (Доверенная система): Поисковая система хранит незашифрованный контент, но шифрует результаты и сам контент перед отправкой аутентифицированному пользователю.
    • Модель 2 (Индекс метаданных + Зашифрованный контент): Система хранит предварительно зашифрованный контент и индексирует только его метаданные. Пользователь получает зашифрованный контент от системы, а ключ дешифровки (Decryption Key) — от внешнего сервера.
    • Модель 3 (Индекс метаданных + Внешний контент): Система индексирует только метаданные. Контент хранится на внешнем Custom Content Server. Пользователь получает результаты и ссылку на внешний сервер для доступа к контенту.

    Актуальность для SEO

    Средняя. Базовая архитектура разделения индексов и обеспечения безопасности частного контента остается актуальной, особенно в сфере корпоративного поиска (Enterprise Search) и облачных сервисов. Однако для SEO-специалистов, работающих с публичным веб-поиском, актуальность патента низкая, так как он не затрагивает алгоритмы ранжирования публичного веба.

    Важность для SEO

    Патент имеет минимальное прямое влияние (15/100) на SEO-стратегии для публичного веб-поиска. Он описывает инфраструктурные и архитектурные решения для обработки защищенного контента. Патент не содержит информации о факторах ранжирования или оценке качества. Он полезен исключительно для понимания того, как Google технически разделяет индексы и может смешивать публичные и частные данные в выдаче для аутентифицированных пользователей.

    Детальный разбор

    Термины и определения

    Content Searching System (CSS) (Система поиска контента)
    Поисковая система (например, Google), которая управляет индексированием и поиском.
    Custom Content (Пользовательский контент)
    Контент, загруженный пользователем, указанный пользователем для индексации (например, конкретные сайты) или доступный только по подписке. Противопоставляется общедоступному веб-контенту.
    Custom Content Metadata (Метаданные пользовательского контента)
    Данные, которые описывают Custom Content. Используются для индексирования в сценариях, когда сам контент недоступен поисковой системе.
    Custom Content Server (CCS) (Сервер пользовательского контента)
    Внешний сервер, контролируемый провайдером контента. Может хранить оригинальный контент и ключи шифрования, особенно когда Content Searching System считается недоверенной.
    Custom Search Index (Пользовательский поисковый индекс)
    Поисковый индекс, созданный на основе Custom Content или Custom Content Metadata. Он отделен от основного Web Search Index.
    Web Search Index (Индекс веб-поиска)
    Основной индекс поисковой системы, содержащий данные из публичного интернета.
    Access Control Data (Данные контроля доступа)
    Информация (например, логины, пароли), используемая для аутентификации пользователей и определения их прав доступа к конкретным Custom Search Indexes.
    Encryption/Decryption Key (Ключ шифрования/дешифровки)
    Симметричный или асимметричный ключ, используемый для защиты контента и результатов поиска при передаче.

    Ключевые утверждения (Анализ Claims)

    Патент описывает несколько моделей безопасности. Основные независимые пункты (Claims 1, 8, 15) фокусируются на модели, где поисковая система индексирует метаданные, а контент хранится в другом месте (Модель 3).

    Claim 1 (Независимый пункт): Описывает метод безопасного поиска по внешним данным.

    1. Система поиска (first device) получает метаданные (user-selected metadata).
    2. Эти метаданные описывают зашифрованные данные (encrypted data), хранящиеся на втором устройстве (second device, т.е. Custom Content Server), отличном от системы поиска.
    3. Система индексирует метаданные, создавая metadata search index.
    4. Система получает поисковый запрос от клиента.
    5. Система ищет по индексу метаданных, чтобы получить результаты (metadata search results).
    6. Система также идентифицирует веб-контент (web content) на основе запроса (т.е. ищет и в основном индексе).
    7. Система отправляет клиенту: веб-контент, результаты поиска по метаданным и ссылку (link) на второе устройство.
    8. Ссылка позволяет клиенту получить доступ к зашифрованным данным на втором устройстве.

    Это описывает архитектуру, в которой Google индексирует только описание контента, в то время как сам защищенный контент остается на серверах провайдера. При поиске Google смешивает стандартные веб-результаты с результатами из индекса метаданных.

    Claim 7 (Зависимый от 1): Уточняет механизм доступа.

    Система поиска (first device) также предоставляет ключ (key) для дешифровки зашифрованных данных, хранящихся на втором устройстве. В этой реализации Google не только дает ссылку, но и управляет ключом доступа (получив его ранее от провайдера).

    Зависимые Claims (например, 3, 6): Добавляют этап аутентификации. Поиск в индексе метаданных выполняется только после успешной аутентификации пользователя на основе access control data.

    Где и как применяется

    Изобретение является инфраструктурным и затрагивает этапы сбора, индексирования и предоставления результатов для специализированного контента.

    CRAWLING – Сканирование и Сбор данных
    Система использует специализированные методы. Custom Content или Metadata загружаются через Custom Content Upload API или собираются Custom Content Crawler из источников, указанных провайдером.

    INDEXING – Индексирование и извлечение признаков
    Custom Content Indexer обрабатывает полученные данные. Создается Custom Search Index, который физически или логически отделен от Web Search Index. Система также хранит Access Control Data.

    QUNDERSTANDING – Понимание Запросов
    Запрос анализируется для определения, нужно ли активировать поиск в Custom Search Index, что зависит от статуса аутентификации пользователя или явного выбора режима поиска.

    RANKING – Ранжирование
    Custom Search Engine и Web Search Engine выполняют поиск по своим соответствующим индексам. Поиск в Custom Search Index часто требует предварительной аутентификации (Security unit).

    METASEARCH – Метапоиск и Смешивание
    Result formatter объединяет результаты из веб-индекса и пользовательского индекса в единую выдачу. На этом этапе применяются механизмы безопасности: шифрование результатов или добавление ссылок и/или ключей дешифровки.

    Входные данные:

    • Custom Content (незашифрованный или зашифрованный) или Custom Content Metadata.
    • Access Control Data.
    • Ключи шифрования (в некоторых реализациях).
    • Поисковый запрос и учетные данные пользователя.

    Выходные данные:

    • Смешанная страница результатов поиска (SERP).
    • Результаты пользовательского поиска (в открытом, зашифрованном виде или в виде метаданных).
    • Ссылки на Custom Content Server.
    • Ключи дешифровки (в некоторых реализациях).

    На что влияет

    • Конкретные типы контента: Влияет исключительно на обработку частного, корпоративного контента (интранет, базы знаний) или контента, распространяемого по подписке.
    • Влияние на публичный веб-поиск: Патент не оказывает влияния на процессы ранжирования в основном публичном веб-индексе.

    Когда применяется

    • Триггеры активации: Когда пользователь выполняет поиск и при этом аутентифицирован для доступа к одному или нескольким Custom Search Indexes, или когда пользователь явно выбирает поиск только по пользовательскому контенту.
    • Условия работы: Наличие предварительно созданного Custom Search Index и соответствующих прав доступа у пользователя.

    Пошаговый алгоритм

    Алгоритм зависит от модели безопасности. Ниже описан процесс для Модели 3 (индексирование метаданных с внешним хранением контента, согласно Claim 1).

    Этап А: Индексирование (Офлайн)

    1. Получение данных: Провайдер загружает Custom Content Metadata в поисковую систему (CSS) и сохраняет зашифрованный Custom Content на своем сервере (Custom Content Server — CCS).
    2. Получение контроля доступа: Провайдер предоставляет CSS данные для аутентификации пользователей (Access Control Data).
    3. Индексирование: CSS индексирует метаданные для создания Custom Search Index.

    Этап Б: Обработка запроса (Реальное время)

    1. Аутентификация и Запрос: Пользователь отправляет запрос и аутентифицируется в CSS.
    2. Параллельный поиск: CSS ищет по Web Search Index и по релевантным Custom Search Indexes (индексам метаданных).
    3. Формирование результатов: CSS генерирует Metadata search results и Web search results.
    4. Добавление доступа: CSS добавляет к результатам метаданных ссылку (Link) на CCS, где хранится зашифрованный контент.
    5. Предоставление выдачи: CSS отправляет смешанные результаты пользователю.

    Этап В: Получение контента (Реальное время)

    1. Запрос контента: Пользователь использует ссылку для запроса контента у CCS.
    2. Получение ключа (Вариативно):
      • Вариант А (Claim 7): Пользователь получил ключ дешифровки от CSS на Этапе Б.
      • Вариант Б: Пользователь выполняет обмен ключами (Key exchange) напрямую с CCS.
    3. Передача и Дешифровка: CCS отправляет зашифрованный контент. Пользователь расшифровывает его, используя полученный ключ.

    Какие данные и как использует

    Патент фокусируется на инфраструктуре и безопасности и не детализирует факторы ранжирования.

    Данные на входе

    • Контентные факторы (Метаданные): Custom Content Metadata (заголовки, описания, теги). В доверенной модели используется полный Custom Content.
    • Технические факторы: Ссылки (Links) на расположение зашифрованного контента на Custom Content Server.
    • Пользовательские факторы (Аутентификация): Access Control Data (логины, пароли, токены), используемые для подтверждения прав доступа.
    • Системные данные: Encryption Keys (симметричные или асимметричные), используемые для шифрования и дешифровки контента и результатов.

    Какие метрики используются и как они считаются

    • Патент не описывает метрики ранжирования (например, Ranking Scores, релевантность или качество).
    • Он описывает механизмы безопасности: Аутентификация (проверка учетных данных) и Шифрование (упоминаются стандартные симметричные методы, такие как AES, RC4, и асимметричные, такие как RSA, PGP, SSL).

    Выводы

    Патент является чисто техническим и описывает внутренние инфраструктурные процессы Google, связанные с безопасностью кастомных индексов. Он не содержит прямых рекомендаций для SEO публичных сайтов.

    1. Изоляция индексов: Google имеет развитую инфраструктуру для создания и поддержания множества Custom Search Indexes, полностью изолированных от основного Web Search Index.
    2. Фокус на безопасности данных (Data Security): Основная цель патента — обеспечение безопасности частного или платного контента. Описаны гибкие модели безопасности (Доверенная и Недоверенные).
    3. Индексирование без доступа к контенту: Ключевой механизм — возможность индексировать метаданные (Metadata), не получая доступ к самому контенту, который хранится на внешнем Custom Content Server. Это критически важно для корпоративного поиска.
    4. Смешивание результатов (Blending): Патент демонстрирует техническую возможность смешивания результатов из публичного веба и частных/кастомных источников в единой выдаче для авторизованных пользователей.
    5. Отсутствие влияния на публичное SEO: Механизмы, описанные в патенте, не влияют на алгоритмы ранжирования, оценку качества или оптимизацию сайтов в основном индексе Google.

    Практика

    ВАЖНО: Патент является инфраструктурным и не дает практических выводов для SEO продвижения сайтов в публичном веб-поиске.

    Best practices (это мы делаем)

    Для стандартного SEO практических рекомендаций на основе этого патента нет.

    Для специалистов, занимающихся корпоративным поиском (Enterprise Search) или использующих Google Programmable Search Engine:

    • Качество метаданных: Если используется модель, где индексируются только метаданные (Custom Content Metadata), критически важно обеспечить их максимальную полноту и точность. Так как поиск будет осуществляться исключительно по ним, они должны эффективно представлять основной контент.
    • Управление доступом: Необходимо тщательно настраивать Access Control Data, чтобы гарантировать доступ к нужным индексам только для авторизованных пользователей.

    Worst practices (это делать не надо)

    Не применимо. Патент не направлен против каких-либо SEO-манипуляций в основном веб-индексе.

    Стратегическое значение

    Патент имеет низкое стратегическое значение для SEO. Он важен для понимания общей архитектуры поиска Google и того, как технически реализуется изоляция и смешивание данных из разных источников (публичный веб, корпоративные данные). Это подтверждает, что Google рассматривает поиск как универсальный инструмент доступа к информации, независимо от ее расположения и уровня конфиденциальности.

    Практические примеры

    Практических примеров для SEO нет.

    Пример использования в корпоративной среде (Модель Недоверенной системы):

    1. Задача: Компания хочет сделать внутренние документы доступными для поиска через инфраструктуру Google, но не хочет передавать сами документы во внешнюю систему.
    2. Реализация: Документы хранятся на внутреннем сервере (Custom Content Server). Компания генерирует метаданные (названия, авторы, резюме) для каждого документа.
    3. Индексирование: Компания загружает только метаданные в Google через API. Google создает Custom Search Index на основе метаданных.
    4. Поиск: Сотрудник аутентифицируется и выполняет поиск. Google возвращает результаты на основе метаданных и предоставляет ссылку на документ на внутреннем сервере.
    5. Доступ: Сотрудник переходит по ссылке и получает доступ к документу напрямую с внутреннего сервера. Google никогда не видел содержимое документа.

    Вопросы и ответы

    Влияет ли этот патент на ранжирование моего сайта в органической выдаче Google?

    Нет, этот патент не влияет на ранжирование в публичном органическом поиске. Он описывает инфраструктуру и протоколы безопасности для создания и управления отдельными, часто приватными, пользовательскими индексами (Custom Search Indexes). В нем не рассматриваются алгоритмы оценки релевантности или качества контента для основного индекса.

    Что такое Custom Search Index и чем он отличается от основного индекса Google?

    Custom Search Index — это отдельный поисковый индекс, созданный на основе контента, предоставленного или указанного конкретной организацией (Custom Content). Он отличается от основного Web Search Index тем, что содержит специализированный набор данных и имеет собственные настройки контроля доступа, часто требуя аутентификации.

    Что означает модель, в которой поисковая система является «недоверенной» (Untrusted)?

    В этой модели провайдер контента не доверяет поисковой системе хранение своего контента в открытом виде. Поисковая система получает и индексирует только метаданные (Metadata), а сам контент хранится в зашифрованном виде или на удаленных серверах провайдера (Custom Content Server). Это гарантирует, что система может найти контент, но не может его прочитать.

    В чем разница между индексированием контента и индексированием метаданных?

    При индексировании контента поисковая система имеет полный доступ к данным и хранит их в индексе. При индексировании метаданных система обрабатывает только описание контента (заголовки, теги), в то время как сам контент остается недоступным для системы. Поиск в последнем случае ведется только по метаданным.

    Может ли контент из Custom Search Index появляться в обычной выдаче Google?

    Да, патент предусматривает смешивание (blending) результатов. Если пользователь аутентифицирован и имеет доступ к Custom Search Index, система может отображать результаты из этого индекса вместе с результатами из основного Web Search Index на одной странице выдачи. Для других пользователей этот контент останется невидимым.

    Какова основная цель этого изобретения?

    Основная цель — обеспечить безопасность данных (Data Security) при интеграции частного или конфиденциального контента в поисковую систему. Патент предлагает различные архитектурные решения, чтобы позволить пользователям искать по защищенному контенту, минимизируя риски утечки данных.

    Применим ли этот патент к продукту Google Programmable Search Engine (ранее Custom Search Engine — CSE)?

    Да, этот патент описывает часть базовой инфраструктуры, которая позволяет функционировать таким продуктам, как CSE или решениям для корпоративного поиска. Он предоставляет архитектурную основу для создания изолированных индексов и управления доступом к ним.

    Как обеспечивается безопасность, если Google сам хранит пользовательский контент (Доверенная Модель)?

    В доверенной модели Google хранит контент. Безопасность обеспечивается на этапе выдачи: система шифрует как сами результаты поиска, так и запрошенный контент перед отправкой пользователю. Пользователь должен иметь соответствующий ключ для дешифровки и пройти строгую аутентификацию.

    Как пользователь получает ключ для дешифровки контента?

    Патент описывает несколько вариантов. Ключ может быть получен пользователем от самой поисковой системы вместе с результатами поиска (если система им располагает). В других вариантах пользователь должен запросить ключ напрямую у провайдера контента (Custom Content Server), например, через процедуру обмена ключами (Key Exchange).

    Что делать SEO-специалисту с информацией из этого патента?

    Для стандартного SEO этот патент не требует никаких действий. Он полезен для общего понимания технической инфраструктуры Google, в частности, как система обрабатывает различные корпуса документов и управляет доступом. Это знание может быть полезно при анализе персонализированной выдачи, где смешиваются публичные и частные данные.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.