SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google эффективно проверяет права доступа к защищенным документам во время поиска

DOCUMENT ACCESS CONTROL (Контроль доступа к документам)
  • US7627569B2
  • Google LLC
  • 2005-06-30
  • 2009-12-01
  • SERP
  • Безопасный поиск
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент Google, описывающий инфраструктурный механизм для быстрой проверки прав доступа к защищенным документам. Вместо рекурсивной проверки групп в реальном времени, система заранее рассчитывает полный список членства пользователя (Membership List) и сравнивает его со списком доступа документа (ACL). Это позволяет мгновенно фильтровать результаты поиска (например, в Google Workspace или корпоративном поиске).

Описание

Какую проблему решает

Патент решает проблему низкой производительности и высоких задержек при поиске по защищенным документам. Традиционные системы контроля доступа требуют рекурсивной проверки членства пользователя в группах (Aliases) непосредственно в момент запроса. Это медленно и ресурсоемко, особенно при сложных, глубоко вложенных иерархиях групп, и может требовать взаимодействия между разными серверами. Изобретение повышает скорость и масштабируемость поисковых систем при работе с приватным контентом.

Что запатентовано

Запатентован метод оптимизации проверки прав доступа к документам. Суть изобретения — отказ от рекурсивного анализа структуры групп в реальном времени. Вместо этого система заранее вычисляет и кэширует полный список членства пользователя (Membership List) — все группы, в которые он входит прямо или косвенно. Доступ определяется путем выполнения быстрой операции пересечения (Intersection) этого списка со списком контроля доступа (ACL) документа.

Как это работает

Система работает в двух режимах:

  • Офлайн (Предварительные вычисления): Система заранее анализирует иерархию групп и вычисляет Membership List для каждого пользователя. Этот список обновляется при изменении структуры групп.
  • Онлайн (Обработка запроса): Когда пользователь выполняет поиск:
    1. Система извлекает ACL потенциального результата поиска.
    2. Система извлекает из кэша Membership List пользователя.
    3. Выполняется операция пересечения двух списков.
    4. Если пересечение не пустое (есть хотя бы одна общая группа), доступ разрешается, и документ может быть показан в выдаче. В противном случае документ фильтруется.

Актуальность для SEO

Высокая (для инфраструктуры). Эффективное управление доступом критически важно для систем, обрабатывающих приватные данные в масштабе (Google Workspace, корпоративный поиск). Описанный механизм предварительного расчета и быстрого пересечения остается фундаментальным подходом для высокопроизводительных систем авторизации.

Важность для SEO

Влияние на публичное SEO минимальное (1/10). Патент имеет чисто инфраструктурное значение и не влияет на стратегии публичного веб-поиска. Он описывает внутренние процессы Google для управления доступом к защищенным (непубличным) документам. Он не содержит информации о ранжировании, оценке качества контента или любых других факторах, используемых в Google.com.

Детальный разбор

Термины и определения

ACL (Access Control List)
Список контроля доступа. Структура данных, ассоциированная с документом, которая определяет, какие пользователи или группы (Aliases) имеют права доступа к этому документу. В патенте ACL рассматривается как специфический тип Alias.
Alias (Псевдоним/Группа)
Идентификатор, представляющий группу участников. Участниками могут быть пользователи и/или другие группы (вложенные Aliases).
Membership List (Список членства)
Ключевой компонент изобретения. Заранее вычисленный список всех Aliases (групп), в которые пользователь входит прямо (Direct Member) или косвенно (Indirect Member), т.е. через членство во вложенных группах.
Intersection (Пересечение)
Операция сравнения Membership List пользователя и ACL документа для нахождения общих элементов (Alias). Ненулевое пересечение означает наличие прав доступа.
Direct Member (Прямой участник)
Пользователь или Alias, который непосредственно указан в составе другого Alias или ACL.
Indirect Member (Косвенный участник)
Пользователь, который является членом Alias, который, в свою очередь, является членом другого Alias или ACL.
ACL Map (Карта ACL)
Структура данных, отображающая соответствие между документами и их ACLs.

Ключевые утверждения (Анализ Claims)

Патент описывает внутренние процессы Google без прямых рекомендаций для SEO.

Claim 1 (Независимый пункт): Описывает основной метод контроля доступа.

  1. Система ассоциирует пользователя с первым набором псевдонимов (Membership List). Важное условие: эта ассоциация происходит до получения запроса от пользователя.
  2. Система ассоциирует документ со вторым набором псевдонимов (ACL).
  3. При получении запроса система определяет, имеют ли первый и второй наборы общий псевдоним.
  4. Ключевой механизм: определение происходит путем пересечения (intersecting) наборов без рекурсивного анализа (without recursively analyzing) этих наборов в реальном времени.
  5. Доступ предоставляется, если общий псевдоним найден, и запрещается, если нет.
  6. Описан механизм обновления: если членство пользователя в группе меняется или меняется структура групп, первый набор (Membership List) подвергается действию (инвалидация, пересчет или модификация).

Ядро изобретения — замена медленного рекурсивного анализа в реальном времени на быстрое пересечение предварительно рассчитанных списков.

Claim 3 (Независимый пункт): Альтернативное описание метода, сфокусированное на процессе генерации.

  1. Генерация Membership List для пользователя (включая прямое и косвенное членство) до запроса пользователя.
  2. Назначение документу ACL.
  3. В ответ на запрос: пересечение Membership List и ACL для определения наличия общего псевдонима без рекурсивного анализа.
  4. Предоставление или запрет доступа на основе результата пересечения.
  5. Обновление (инвалидация, пересчет) Membership List при изменении структуры членства.

Где и как применяется

Изобретение применяется в инфраструктуре поиска для управления доступом к непубличному контенту (например, Google Workspace, Enterprise Search, персонализированный поиск).

INDEXING – Индексирование и извлечение признаков
На этом этапе система индексирует защищенные документы и ассоциирует с ними соответствующие ACL. Эта информация сохраняется в индексе (например, в ACL Map).

(Офлайн-процессы / Обслуживание данных)
Система заранее рассчитывает и кэширует Membership Lists для всех пользователей. Эти списки обновляются при любых изменениях в структуре групп (Aliases). Этот процесс может быть рекурсивным, но он выполняется заранее, а не в момент запроса.

RANKING / RERANKING (Фильтрация результатов)
Основное применение патента в контексте поиска. Система должна гарантировать, что пользователь увидит только доступные ему результаты. Патент предлагает два варианта реализации:

  1. Вариант 1: Фильтрация после поиска (Post-filtering, FIG. 6).
    1. Система выполняет стандартный поиск (RANKING) по всему корпусу и получает набор результатов.
    2. На этапе RERANKING для каждого документа выполняется проверка доступа: пересечение ACL документа и Membership List пользователя.
    3. Если пересечение пустое, документ удаляется из выдачи.
  2. Вариант 2: Фильтрация до поиска (Pre-filtering, FIG. 7).
    1. Система анализирует Membership List пользователя, чтобы определить все доступные ему ACL.
    2. Система определяет множество документов, ассоциированных с этими доступными ACL.
    3. Поиск (RANKING) выполняется только по этому подмножеству доступных документов.

Входные данные:

  • Идентификатор пользователя и его запрос.
  • Предварительно вычисленный Membership List пользователя.
  • Корпус документов с ассоциированными ACL.

Выходные данные:

  • Отфильтрованный список результатов поиска, содержащий только те документы, к которым у пользователя есть доступ.

На что влияет

  • Типы контента и Среды: Влияет исключительно на системы поиска по защищенным (приватным) данным, где требуется контроль доступа. Примеры: корпоративный поиск, поиск в Google Drive, поиск по Gmail.
  • Публичный веб-поиск: Не оказывает никакого влияния на ранжирование или отображение общедоступных веб-страниц на Google.com.

Когда применяется

  • Условия работы: Применяется при каждом поисковом запросе в системе, которая управляет доступом к документам с помощью ACL и Aliases, и когда пользователь идентифицирован (залогинен).

Пошаговый алгоритм

Процесс проверки доступа к документу (Real-time)

  1. Получение запроса: Система получает запрос на доступ к документу (например, как часть поискового запроса).
  2. Идентификация субъектов: Идентифицируется запрашивающий пользователь и запрашиваемый документ.
  3. Получение данных доступа: Система извлекает ACL документа и заранее вычисленный Membership List пользователя (например, из кэша).
  4. Пересечение (Intersection): Выполняется операция пересечения множеств Membership List и ACL.
  5. Принятие решения:
    1. Если результат пересечения не пустой (Intersection != Null), это означает наличие общего Alias. Доступ разрешается.
    2. Если результат пересечения пустой (Intersection = Null), общих Alias нет. Доступ запрещается (документ фильтруется из выдачи).

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на инфраструктурных данных для управления доступом. Он не упоминает никаких факторов, используемых в публичном SEO (контентных, ссылочных, поведенческих и т.д.).

  • Инфраструктурные данные:
    • Идентификаторы пользователей и групп (Aliases).
    • Access Control Lists (ACLs): Права доступа, назначенные документам.
    • Membership Lists: Предварительно вычисленные списки членства пользователей.
    • Структуры данных, описывающие иерархию групп (используются в офлайн-процессе).

Какие метрики используются и как они считаются

В патенте не используются метрики ранжирования или оценки качества. Используется одна ключевая операция над множествами.

  • Проверка пересечения: Основная операция — это булева проверка пересечения множеств. Доступ разрешен, если: (MembershipList∩ACL)≠∅(Membership List \cap ACL) \neq \emptyset(MembershipList∩ACL)=​/∅
  • Условие срабатывания: Результат пересечения не равен нулю (Non-Null), что означает наличие хотя бы одного общего элемента.

Выводы

Патент описывает внутренние инфраструктурные процессы Google и не дает практических выводов для публичного SEO.

  1. Фокус на производительности и масштабируемости: Основная цель изобретения — обеспечить быструю проверку прав доступа в крупных системах, не замедляя при этом поиск.
  2. Предварительные вычисления вместо реального времени: Ключевая инновация заключается в отказе от ресурсоемкой рекурсивной проверки прав доступа в момент запроса. Вместо этого используется предварительный расчет полных списков членства (Membership Lists).
  3. Проверка через пересечение: Проверка доступа сводится к быстрой математической операции пересечения двух множеств (Membership List и ACL).
  4. Применимость к приватному поиску: Этот механизм является ключевым для работы сервисов с ограниченным доступом, таких как Google Workspace или корпоративный поиск, позволяя быстро фильтровать результаты.
  5. Отсутствие связи с ранжированием: Описанный механизм является бинарным фильтром (доступен/недоступен). Он не влияет на то, как ранжируются доступные документы между собой в публичном вебе.

Практика

ВАЖНО: Патент является инфраструктурным и не дает практических выводов для SEO-специалистов, работающих с публичным веб-поиском (Google.com).

Best practices (это мы делаем)

Практических рекомендаций для стандартного SEO, основанных на механизмах этого патента, нет.

Worst practices (это делать не надо)

Практических рекомендаций для стандартного SEO, основанных на механизмах этого патента, нет. Патент не направлен против каких-либо SEO-тактик.

Стратегическое значение

Для публичного SEO стратегическое значение нулевое. Патент важен для понимания того, как Google решает инженерные задачи масштабирования при обработке персонализированных и приватных данных, но он не дает никаких инсайтов о работе алгоритмов ранжирования Google.com.

Практические примеры

Практических примеров для публичного SEO нет. Ниже приведен пример работы механизма в контексте приватного поиска (например, Google Workspace) для иллюстрации.

Сценарий: Поиск по корпоративным документам

  1. Структура групп: Пользователь User_A входит в группу "Инженеры". Группа "Инженеры" входит в группу "Технический департамент".
  2. Предварительное вычисление (Офлайн): Система заранее рассчитала Membership List для User_A: ["Инженеры", "Технический департамент"].
  3. Документ: Документ "Стратегия развития" имеет ACL: ["Менеджмент", "Технический департамент"].
  4. Поиск (Онлайн): User_A ищет "Стратегия развития". Система находит документ.
  5. Проверка доступа (Онлайн): Система выполняет пересечение: Membership List ["Инженеры", "Технический департамент"] ∩ ACL ["Менеджмент", "Технический департамент"].
  6. Результат: Пересечение = ["Технический департамент"]. Оно не пустое. Доступ разрешен. Документ показывается в выдаче. Этот процесс занимает миллисекунды.

Вопросы и ответы

Влияет ли этот патент на ранжирование сайтов в публичном поиске Google.com?

Нет, не влияет. Патент описывает исключительно инфраструктурный механизм для управления правами доступа (ACL) к приватным, защищенным документам. Он применяется в таких системах, как корпоративный поиск или Google Workspace, и не имеет отношения к алгоритмам ранжирования публичных веб-страниц.

Что такое ACL и Membership List в контексте этого патента?

ACL (Access Control List) — это список групп, которым разрешен доступ к конкретному документу. Membership List — это заранее рассчитанный полный список всех групп, в которые входит пользователь (прямо или косвенно). Система проверяет доступ, ища пересечение между этими двумя списками.

Зачем Google понадобился этот механизм? Разве нельзя просто проверить права в момент запроса?

Проверка прав в момент запроса (рекурсивный анализ иерархии групп) может быть очень медленной, особенно если структура групп сложная, многоуровневая и распределена по разным серверам. Этот патент предлагает способ значительно ускорить поиск по приватным данным, перенеся сложную работу по вычислению членства в офлайн-процесс.

Что означает "без рекурсивного анализа" (without recursively analyzing) в формуле изобретения (Claims)?

Это ключевой момент патента. Это означает, что система не тратит время на обход иерархии групп (например, проверку, входит ли Группа А в Группу Б, а та в Группу В) в момент обработки запроса пользователя. Вся сложная иерархия уже учтена в заранее рассчитанном Membership List. Проверка сводится к простому сравнению двух списков.

Применяется ли этот механизм в Google Workspace (Gmail, Drive)?

Хотя патент прямо не упоминает эти продукты, это идеальный сценарий использования описанной технологии. Управление доступом к файлам на Диске или письмам в Gmail требует быстрого и эффективного способа фильтрации контента на основе прав доступа пользователя и групп, что и решает данный патент.

Описывает ли патент, как ранжируются доступные документы?

Нет. Патент сфокусирован исключительно на механизме определения доступности документа для пользователя (бинарный фильтр: да/нет). Он не затрагивает вопросы релевантности или ранжирования тех документов, которые прошли фильтр доступа.

Патент описывает фильтрацию до поиска и после поиска. В чем разница?

Фильтрация после поиска (Post-filtering): система сначала ищет везде, а затем удаляет недоступные результаты из выдачи. Фильтрация до поиска (Pre-filtering): система сначала определяет множество доступных документов и ищет только среди них. Второй вариант эффективнее, если пользователь имеет доступ лишь к малой части общего корпуса документов.

Что происходит, когда администратор меняет состав группы?

Когда состав группы меняется, система инвалидирует (помечает как устаревшие) Membership Lists всех затронутых пользователей. Затем эти списки пересчитываются (в офлайн-режиме), чтобы отразить актуальную структуру доступа. Это гарантирует актуальность данных о правах.

Влияет ли сложность иерархии групп на скорость проверки доступа?

При использовании этого механизма — нет. Сложность иерархии влияет только на время предварительного расчета Membership List (офлайн). Сама проверка доступа в реальном времени (онлайн) происходит быстро, так как это простая операция пересечения двух списков.

Есть ли хоть какая-то польза от этого патента для SEO-специалиста?

Практическая польза для SEO минимальна. Патент дает общее представление об инфраструктуре, которую Google использует для обработки непубличных данных и решения задач масштабирования. Однако он не предоставляет никаких инсайтов или рекомендаций для оптимизации и продвижения публичных веб-сайтов.

Похожие патенты

Как Google оптимизирует управление правами доступа (ACL) в индексе для ускорения персонализированного и приватного поиска
Система Google оптимизирует обработку списков контроля доступа (ACL) для приватного контента. Для повышения производительности система балансирует между размером индекса и сложностью запроса, динамически решая, хранить ли разрешения для целой группы (Group Restrict) или развернуть их в индивидуальные разрешения (Searcher Restrict), основываясь на размере группы и активности пользователя.
  • US9165079B1
  • 2015-10-20
  • Индексация

  • Персонализация

  • Техническое SEO

Как Google мгновенно обновляет права доступа к документам в индексе без полного переиндексирования (для корпоративного поиска)
Патент описывает инфраструктурный механизм для корпоративных поисковых систем (Search Appliances). Он позволяет мгновенно отражать изменения прав доступа к документам в поисковой выдаче, не дожидаясь полного переиндексирования. Система использует "отпечатки безопасности" для маркировки общедоступных документов и фильтрации результатов в реальном времени.
  • US8473480B1
  • 2013-06-25
  • Индексация

  • Безопасный поиск

  • Свежесть контента

Как Google использует составные индексные ключи и упреждающую выборку для ускорения извлечения данных
Этот патент описывает инфраструктурную оптимизацию для быстрого поиска данных. Система генерирует уникальные индексные ключи путем объединения извлеченных значений данных из документов. Эти ключи используются автоматизированным агентом для упреждающей выборки (pre-fetching) документов в локальную память до того, как они будут запрошены, что значительно сокращает задержку при извлечении.
  • US20130073558A1
  • 2013-03-21
  • Индексация

Как Google реализует SafeSearch и верификацию возраста путем фильтрации чувствительных запросов и результатов
Google использует систему для обнаружения «фильтрующих терминов» в запросах или результатах поиска. При обнаружении Google немедленно показывает только «отфильтрованные» (безопасные) результаты и предлагает доступ к службе верификации (например, подтверждение возраста). Если пользователь верифицирован, отображаются «нефильтрованные» (потенциально чувствительные) результаты. Это предотвращает полную блокировку выдачи при использовании чувствительных терминов.
  • US8032527B2
  • 2011-10-04
  • Безопасный поиск

Как Google использует мониторинг настроек доступа (ACL) для быстрой индексации публичного контента из облачных сервисов и социальных сетей
Google использует систему для эффективного обнаружения контента в облачных сервисах (например, Google Drive, социальные сети), который стал публичным. Вместо ожидания краулера система отслеживает изменения в настройках доступа (ACL). Когда контент становится публичным, его URL немедленно добавляется в список (например, Sitemap) и передается поисковой системе для индексации. Когда контент снова становится приватным, он удаляется из списка для деиндексации.
  • US9239931B2
  • 2016-01-19
  • Индексация

  • Техническое SEO

  • Краулинг

Популярные патенты

Как Google обучается на поведении пользователя для персонализации весов источников в поисковой выдаче
Google использует сигналы интереса пользователя (клики, время просмотра) для динамической корректировки весов различных источников данных (например, ключевых слов, тем, типов контента). Система определяет, какие источники наиболее полезны для конкретного пользователя, и повышает их значимость при ранжировании последующих результатов поиска, тем самым персонализируя выдачу.
  • US8631001B2
  • 2014-01-14
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google создает и использует базу «идеальных» ответов (Canonical Content Items) для ответов на вопросы пользователей
Google использует систему для идентификации и создания «канонических элементов контента» — образцовых объяснений тем, часто в формате вопрос-ответ. Система анализирует огромные массивы существующего контента, кластеризует похожие вопросы и ответы и выбирает или синтезирует идеальную версию. Когда пользователь задает вопрос, система сопоставляет его с этой базой данных, чтобы мгновенно предоставить высококачественный, модельный ответ.
  • US9396263B1
  • 2016-07-19
  • Семантика и интент

  • EEAT и качество

Как Google использует нормализованные сигналы удовлетворенности пользователей для переранжирования выдачи и управления краулингом/индексацией
Google анализирует вовлеченность пользователей (полезность), сравнивая фактическую удовлетворенность (Good Utilization Events) с ожидаемой вовлеченностью для данной позиции ранжирования. На основе этого рассчитывается Correction Factor для повышения документов, превосходящих ожидания, и понижения тех, которые им не соответствуют. Эта система также влияет на приоритеты сканирования и решения об индексации.
  • US9223897B1
  • 2015-12-29
  • Поведенческие сигналы

  • Индексация

  • Техническое SEO

Как Google использует нейросетевые эмбеддинги (Two-Tower Model) для семантического поиска изображений с учетом контекста страницы
Google использует систему поиска изображений, основанную на нейронных сетях (модель "Две Башни"). Система создает векторные представления (эмбеддинги) для поисковых запросов и для пар "изображение + посадочная страница", помещая их в общее семантическое пространство. Это позволяет находить релевантные изображения не по ключевым словам, а по близости векторов, учитывая как содержание картинки, так и контекст страницы, на которой она размещена.
  • US11782998B2
  • 2023-10-10
  • Семантика и интент

  • Индексация

  • Мультимедиа

Как Google использует повторные клики, прямой трафик и время на сайте для расчета оценки качества домена и корректировки ранжирования
Google анализирует поведение пользователей на уровне домена (группы ресурсов) для вычисления модификатора ранжирования. Ключевые метрики включают долю повторных кликов (Repeat Click Fraction), долю прямого трафика (Deliberate Visit Fraction) и среднюю продолжительность визита (Average Duration). Эти данные используются для корректировки исходных оценок страниц сайта, понижая ресурсы с низкими показателями пользовательской лояльности и вовлеченности.
  • US9684697B1
  • 2017-06-20
  • Поведенческие сигналы

  • SERP

Как Google переносит вес поведенческих сигналов (кликов) между связанными запросами для улучшения ранжирования
Google улучшает ранжирование по редким или новым запросам, для которых недостаточно собственных данных, используя поведенческие сигналы (Clickthrough Data) из связанных запросов. Если пользователи часто вводят запросы последовательно, система идентифицирует связь и переносит данные о кликах с одного запроса на другой, позволяя документам с высоким engagement ранжироваться выше по всему кластеру.
  • US7505964B2
  • 2009-03-17
  • Поведенческие сигналы

  • SERP

Как Google использует время просмотра (Watch Time) и поведение пользователей для расчета независимой от запроса оценки качества видео
Google рассчитывает независимый от запроса сигнал качества (Q) для видео, анализируя корреляции между поведенческими метриками: временем просмотра, рейтингами и количеством просмотров. Система использует математические функции (Predictor и Voting) для моделирования качества и определения достоверности данных, а также активно фильтрует спам в рейтингах. Этот сигнал Q затем используется для ранжирования видео в поиске.
  • US8903812B1
  • 2014-12-02
  • Поведенческие сигналы

  • SERP

  • Антиспам

Как Google использует данные из Local Search и Google Maps для распознавания географических названий в основном поиске
Google анализирует поведение пользователей в интерфейсах с отдельными полями ввода "Что?" и "Где?" (например, в Google Maps). На основе этой статистики система определяет, является ли термин однозначным названием местоположения ("Нью-Йорк") или нет ("Пицца"). Это позволяет поиску отличать локальные запросы от общих и формировать "черные списки" для терминов, которые похожи на города, но ими не являются (например, "Орландо Блум").
  • US8782030B1
  • 2014-07-15
  • Local SEO

  • Семантика и интент

  • Поведенческие сигналы

Как Google позволяет вебмастерам управлять весом и интерпретацией исходящих ссылок через атрибуты тега (Основа nofollow)
Google запатентовал механизм, позволяющий вебмастерам добавлять в теги ссылок () специальные пары "параметр=значение" (например, rel=nofollow или linkweight=0.5). Эта информация используется краулером и поисковой системой для изменения способа обработки ссылки, например, для корректировки передаваемого веса (PageRank) или блокировки ее учета.
  • US7979417B1
  • 2011-07-12
  • Ссылки

  • Краулинг

  • Техническое SEO

Как Google комбинирует визуальное сходство и поведение пользователей для переранжирования поиска по картинкам
Google использует механизм для перекрестной проверки релевантности изображений, объединяя поведенческие сигналы (клики) с визуальным анализом. Если изображение часто кликают и оно визуально похоже на другие релевантные изображения по запросу (совместная релевантность), его рейтинг агрессивно повышается. Если оно редко кликается и визуально отличается (совместная нерелевантность), его рейтинг понижается. Это защищает выдачу от кликбейта.
  • US8209330B1
  • 2012-06-26
  • Поведенческие сигналы

  • SERP

  • Мультимедиа

seohardcore