Патент Google, описывающий инфраструктурный механизм для эффективной обработки запросов в корпоративном поиске (Enterprise Search). Система индексирует как публичные, так и закрытые (access controlled) документы. Для ускорения работы она сначала ранжирует все документы, а затем проверяет права доступа (используя токены и кэширование) только для топовых результатов, необходимых для заполнения выдачи. Патент не имеет отношения к ранжированию в публичном веб-поиске.
Описание
Какую задачу решает
Патент решает проблему производительности и безопасности при поиске в среде, содержащей как публичные (public documents), так и документы с ограниченным доступом (access controlled documents), что типично для корпоративных интранетов (Enterprise Search). Задача состоит в том, чтобы быстро предоставить пользователю результаты, к которым у него есть доступ, не тратя ресурсы на проверку авторизации для всех найденных документов и не раскрывая информацию о существовании закрытых документов неавторизованным пользователям.
Что запатентовано
Запатентована система и метод для эффективной обработки поисковых запросов в рамках поискового устройства (Search Appliance). Суть изобретения заключается в оптимизации проверки авторизации: система ранжирует все релевантные документы (и публичные, и закрытые), но проверяет права доступа только для небольшого подмножества топовых результатов, необходимого для заполнения страницы выдачи (SERP). Для верификации используются постоянные токены доступа (persistent access token, например, cookies).
Как это работает
Система (Search Appliance) работает следующим образом:
- Аутентификация: Система проверяет учетные данные пользователя (credential) или persistent access token. Это может происходить до поиска, чтобы предотвратить утечку информации.
- Поиск и Ранжирование: Выполняется поиск по всему индексу. Результаты ранжируются независимо от прав доступа.
- Оптимизированная Авторизация: Система определяет, какие из топовых результатов являются закрытыми. Проверка авторизации выполняется только для этого подмножества.
- Верификация: Авторизация проверяется с помощью кэша (Authorization Cache) или путем отправки легких запросов (например, HTTP HEAD) к серверу контента с использованием токена пользователя.
- Формирование SERP: Список результатов заполняется доступными публичными и авторизованными закрытыми документами. Если их не хватает, проверяются следующие по рангу документы.
Актуальность для SEO
Низкая для публичного веб-поиска. Патент подан в 2004 году и описывает инфраструктуру, характерную для Google Search Appliance (GSA) — продукта для корпоративного поиска, поддержка которого прекращена. Описанные технологии касаются авторизации в закрытых системах (Enterprise Search) и не имеют отношения к алгоритмам ранжирования или оценки качества в публичном поиске Google.
Важность для SEO
Влияние на современные SEO-стратегии минимальное (1/10). Патент является чисто техническим и описывает внутренние процессы обработки авторизации в корпоративной среде. Он не раскрывает механизмов ранжирования, факторов качества контента или любых других сигналов, используемых в публичном поиске. Для SEO-специалистов, работающих с общедоступными сайтами, этот патент не дает практических рекомендаций.
Детальный разбор
Термины и определения
- Access controlled documents (Документы с контролируемым доступом)
- Документы в индексе (веб-страницы, файлы и т.д.), доступ к которым ограничен определенными пользователями или группами. Закрытые или приватные документы.
- Authorization Cache (Кэш авторизации)
- Компонент поискового устройства, который временно хранит статус авторизации пользователя для конкретного документа, чтобы избежать повторных проверок.
- Credential (Учетные данные)
- Информация, предоставляемая пользователем для аутентификации (например, логин и пароль).
- HEAD Requester (Отправитель HEAD запросов)
- Компонент поискового устройства, который отправляет HTTP HEAD запросы (или HTTP GET с заголовком range 0) к серверам контента для проверки авторизации без загрузки всего документа.
- Persistent access token (Постоянный токен доступа)
- Механизм (например, cookie), позволяющий верифицировать доступ пользователя без повторного ввода учетных данных при каждом запросе. Может быть Client Cookie (выдан клиенту) или Search Appliance Cookie.
- Public documents (Публичные документы)
- Документы в индексе, не имеющие ограничений доступа.
- Search Appliance (Поисковое устройство)
- Сервер или устройство (например, Google Search Appliance), которое индексирует контент корпоративных серверов и обрабатывает поисковые запросы пользователей.
- User Impersonation (Имперсонация пользователя)
- Механизм, при котором Search Appliance использует учетные данные пользователя, чтобы получить собственный токен доступа (Search Appliance Cookie) и действовать от его имени. Используется для обхода ограничений (например, IP-restricted cookies).
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод обработки поискового запроса с контролем доступа, фокусируясь на оптимизации.
- Система получает запрос.
- Выполняется поиск по индексу, включающему публичные и access controlled documents.
- Система получает persistent access token.
- Ядро изобретения: Результаты ранжируются, но проверке авторизации подвергается только подмножество (subset) результатов.
- Токен используется для верификации доступа к этому подмножеству закрытых документов.
- Ядро изобретения: Если необходимо (на основе результатов проверки), система продолжает оценивать ниже ранжированные закрытые документы, чтобы вернуть список результатов.
Это защищает стратегию оптимизации производительности: ранжировать все, а затем выборочно проверять авторизацию, начиная сверху, пока страница выдачи не будет заполнена.
Claim 4, 6, 7 (Зависимые): Уточняют технические методы верификации авторизации без загрузки контента.
Верификация может включать отправку HTTP HEAD запроса (Claim 4), HTTP GET запроса (Claim 6) или HTTP GET запроса с заголовками range (Claim 7).
Claim 9 (Зависимый): Уточняет использование оптимизации через кэширование.
Система проверяет, кэширована ли авторизация для доступа к документу в Authorization Cache.
Claim 13, 14 (Зависимые): Описывают механизм имперсонации пользователя.
Persistent access token может быть выдан поисковому устройству (search appliance) с использованием учетных данных пользователя (Claim 13) и сохранен у пользователя (Claim 14).
Где и как применяется
Патент описывает инфраструктурные процессы, не связанные с публичным веб-поиском. Он применяется исключительно в контексте Enterprise Search (корпоративного поиска).
INDEXING – Индексирование
На этом этапе система (Search Appliance) собирает и индексирует как публичные, так и закрытые документы. В индексе сохраняется информация о том, является ли документ access controlled.
RANKING – Ранжирование
На этом этапе система ранжирует все найденные документы (публичные и закрытые) на основе их релевантности запросу, игнорируя права доступа пользователя.
RERANKING – Переранжирование (Фильтрация)
Основное применение патента происходит после ранжирования. Это процесс фильтрации по безопасности (Security Trimming).
- Аутентификация: Проверка валидности persistent access token пользователя.
- Определение подмножества: Анализ топовых результатов этапа RANKING для определения, какие из них требуют проверки авторизации.
- Проверка авторизации: Эффективная проверка прав доступа для выбранного подмножества с использованием кэша или HTTP HEAD запросов.
- Финальное формирование SERP: Удаление документов, к которым у пользователя нет доступа, и дополнение списка следующими по рангу доступными документами.
Входные данные:
- Поисковый запрос.
- Persistent access token пользователя.
- Отранжированный список всех релевантных документов.
- Статус документа (public/access controlled) из индекса.
Выходные данные:
- Отфильтрованный список результатов поиска, содержащий только те документы, к которым у пользователя есть доступ.
На что влияет
Патент влияет исключительно на отображение access controlled documents в корпоративных системах (интранет, базы знаний). Он не влияет на публичный веб-поиск, ранжирование сайтов, типы контента или тематики в контексте SEO.
Когда применяется
- Условия работы: Алгоритм применяется при каждом поисковом запросе к системе, которая индексирует access controlled documents.
- Триггер активации: Наличие в отранжированном списке результатов документов, требующих проверки авторизации.
- Безопасность: Патент упоминает, что система может быть настроена на обязательный запрос credentials перед любым поиском. Это предотвращает утечку информации о существовании закрытых документов через сам факт запроса авторизации.
Пошаговый алгоритм
Процесс обработки запроса и формирования выдачи
- Получение запроса: Система получает запрос от клиентского устройства.
- Аутентификация: Система запрашивает credential или проверяет валидность существующего persistent access token.
- Поиск и Ранжирование: Выполняется поиск по всему индексу. Все найденные документы ранжируются.
- Анализ топовых результатов: Определяется, сколько документов в топе выдачи (например, топ-20) являются access controlled.
- Определение объема проверки: Рассчитывается количество закрытых документов, которые нужно проверить, чтобы с высокой вероятностью заполнить список результатов.
- Проверка авторизации (цикл): Для каждого закрытого документа из выбранного подмножества:
- Проверяется Authorization Cache. Если доступ разрешен, документ добавляется в список.
- Если в кэше нет, HEAD Requester отправляет HTTP HEAD запрос (или GET с range 0) к серверу контента с токеном пользователя.
- Анализируется ответ сервера (HTTP статус код). Если ответ валиден, документ добавляется в список.
- Формирование списка результатов: Список заполняется доступными публичными и авторизованными закрытыми документами.
- Дополнительная проверка (если нужно): Если список не полон, система переходит к следующей партии результатов (ниже ранжированных) и повторяет шаги 5-7.
- Возврат результата: Финальный список отправляется пользователю.
Какие данные и как использует
Патент чисто технический и фокусируется на инфраструктуре авторизации. Он не использует стандартные SEO-факторы для ранжирования.
Данные на входе
- Пользовательские факторы (Аутентификация): Credentials (логин/пароль), Persistent access token (Cookies).
- Технические факторы: Метка в индексе, указывающая, является ли документ access controlled или public; URL документа; Коды ответа HTTP от сервера контента.
Какие метрики используются и как они считаются
В патенте не описываются метрики ранжирования или качества. Используются только технические параметры и состояния:
- Валидность токена: Проверка срока действия (expiration) токена.
- Статус авторизации: Бинарный результат (Разрешено/Запрещено), полученный из Authorization Cache или как ответ на HTTP HEAD/GET запрос.
- Количество результатов: Используется для определения, нужно ли проверять дополнительные документы для заполнения страницы выдачи (например, порог в 20 результатов).
Выводы
Патент описывает внутренние процессы Google (в контексте Enterprise Search) без прямых рекомендаций для SEO.
- Фокус на эффективности авторизации: Основная цель патента — оптимизация производительности при поиске в смешанных индексах. Ранжирование выполняется до проверки прав доступа, а сама проверка выполняется только для необходимого минимума документов (Lazy Evaluation).
- Механизмы верификации: Система использует стандартные веб-технологии для проверки доступа без загрузки контента: кэширование (Authorization Cache), HTTP HEAD запросы и HTTP GET с range заголовками.
- Предотвращение утечек информации: Патент подчеркивает важность запроса аутентификации до выполнения поиска, чтобы неавторизованные пользователи не могли узнать о существовании закрытых документов по косвенным признакам.
- Имперсонация пользователя: Описан механизм (User Impersonation), позволяющий поисковому устройству действовать от имени пользователя для обхода технических ограничений безопасности (например, IP-restricted cookies).
- Отсутствие связи с публичным SEO: Патент не содержит информации о факторах ранжирования, оценке качества контента, E-E-A-T или любых других аспектах, релевантных для оптимизации общедоступных веб-сайтов.
Практика
ВАЖНО: Патент является инфраструктурным и не дает практических выводов для SEO-специалистов, работающих с публичным веб-поиском.
Best practices (это мы делаем)
Для SEO-специалистов, работающих с публичным поиском, практических рекомендаций на основе этого патента нет.
(Примечание для специалистов по Enterprise Search: Патент подчеркивает важность корректной обработки HTTP HEAD запросов серверами контента для эффективной интеграции с внутренними поисковыми системами).
Worst practices (это делать не надо)
Для SEO-специалистов, работающих с публичным поиском, худших практик на основе этого патента нет.
Стратегическое значение
Стратегическое значение для публичного SEO отсутствует. Патент демонстрирует инженерные подходы Google к решению инфраструктурных задач в области корпоративного поиска и безопасности данных, но не меняет понимание приоритетов Google в ранжировании веб-сайтов.
Практические примеры
Практических примеров для применения в публичном SEO нет.
Вопросы и ответы
Имеет ли этот патент отношение к тому, как Google ранжирует сайты в публичной выдаче (Google.com)?
Нет. Патент описывает исключительно инфраструктурные механизмы для обработки контроля доступа (авторизации) в контексте корпоративного поиска (Enterprise Search / Search Appliance). Он не затрагивает алгоритмы ранжирования, оценки качества или релевантности контента в публичном поиске.
Что такое Search Appliance, упоминаемый в патенте?
Это Google Search Appliance (GSA) — аппаратно-программное решение, которое компании использовали для индексирования и поиска по своим внутренним ресурсам (интранету). Поддержка GSA прекращена. Механизмы патента специфичны для этой среды Enterprise Search.
Зачем система ранжирует документы до проверки прав доступа?
Это делается для оптимизации производительности. Проверка авторизации — ресурсоемкая операция, требующая обращения к внешним серверам. Вместо того чтобы проверять тысячи релевантных документов, система сначала ранжирует их, а затем проверяет только топовые результаты, необходимые для заполнения первой страницы выдачи.
Как именно система проверяет доступ, не загружая документ?
Система использует иерархию проверок. Сначала она проверяет Authorization Cache. Если информации там нет, она отправляет HTTP HEAD запрос к серверу контента, передавая токен пользователя (cookie). Ответ сервера позволяет понять, есть ли у пользователя доступ, без загрузки тела документа.
Что произойдет, если сервер блокирует HTTP HEAD запросы?
Патент предусматривает альтернативные методы. Если HTTP HEAD заблокирован или не поддерживается, система может отправить HTTP GET запрос с заголовком Range, запрашивая 0 байт данных. Это также позволяет проверить авторизацию без загрузки всего контента.
Может ли неавторизованный пользователь узнать о существовании закрытых документов по своему запросу?
Патент предлагает решение для предотвращения этой уязвимости. Рекомендуется, чтобы система запрашивала учетные данные (Challenge for Credential) до выполнения поиска, а не только тогда, когда в выдаче найден закрытый документ. Это гарантирует, что сам факт запроса авторизации не выдаст наличие секретной информации.
Что такое «имперсонация пользователя» (User Impersonation)?
Это механизм, при котором поисковое устройство (Search Appliance) использует учетные данные пользователя, чтобы получить собственный токен доступа (Search Appliance Cookie) от имени пользователя. Это необходимо для обхода ограничений безопасности, таких как привязка клиентских cookies к IP-адресу или узкому домену.
Влияет ли этот патент на понимание E-E-A-T или других сигналов качества?
Нет. Патент не затрагивает вопросы оценки качества контента, авторитетности или релевантности. Он полностью посвящен инфраструктуре управления доступом и авторизации в корпоративной среде.
Имеет ли этот патент отношение к тому, как Google обрабатывает страницы, закрытые паролем на моем публичном сайте?
Нет. Googlebot в публичном поиске обычно не имеет учетных данных для доступа к защищенным паролем разделам и не индексирует их. Этот патент описывает ситуацию, когда поисковая система работает внутри защищенного периметра и интегрирована с корпоративной системой авторизации пользователей.
Есть ли в этом патенте хоть что-то полезное для SEO-специалиста, продвигающего общедоступный сайт?
Нет. Этот патент полностью посвящен инфраструктуре и безопасности Enterprise Search. Он не дает никаких инсайтов или практических рекомендаций для оптимизации общедоступных веб-сайтов и их ранжирования в публичном поиске Google.