Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует мониторинг настроек доступа (ACL) для быстрой индексации публичного контента из облачных сервисов и социальных сетей

    IDENTIFYING SHARED CONTENT STORED BY A SERVICE (Идентификация общего контента, хранящегося в сервисе)
    • US9239931B2
    • Google LLC
    • 2016-01-19
    • 2012-10-19
    2012 Индексация Краулинг Патенты Google Свежесть контента

    Google использует систему для эффективного обнаружения контента в облачных сервисах (например, Google Drive, социальные сети), который стал публичным. Вместо ожидания краулера система отслеживает изменения в настройках доступа (ACL). Когда контент становится публичным, его URL немедленно добавляется в список (например, Sitemap) и передается поисковой системе для индексации. Когда контент снова становится приватным, он удаляется из списка для деиндексации.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему эффективности обнаружения и индексации контента, размещенного на сторонних сервисах (например, облачные хранилища, социальные сети). Традиционным краулерам сложно найти публичный контент на таких платформах, если на него нет внешних ссылок. Кроме того, существует задержка между изменением статуса контента (с приватного на публичный или наоборот) и его индексацией или деиндексацией поисковой системой. Изобретение ускоряет обнаружение нового публичного контента и гарантирует своевременное удаление из индекса контента, который стал приватным.

    Что запатентовано

    Запатентована система, которая отслеживает изменения в свойствах общего доступа (sharing properties), таких как Списки контроля доступа (Access Control List — ACL), для контента, хранящегося в первом сервисе (например, облачном хранилище). Когда обнаруживается, что контент стал доступен более широкому кругу пользователей (например, публике), система обновляет список общедоступных элементов (например, файл Sitemap). Этот обновленный список затем предоставляется второму сервису (поисковой системе) для ускорения индексации или деиндексации.

    Как это работает

    Система работает путем прямой интеграции с сервисом, хранящим контент:

    • Мониторинг изменений: Система получает уведомления или ленту обновлений об изменениях в ACL или sharing properties контента.
    • Определение статуса: Анализируется, привело ли изменение к тому, что контент стал публично доступным или, наоборот, приватным.
    • Обновление списка: Если контент стал публичным, его ссылка добавляется в список общедоступных элементов. Если он стал приватным, ссылка удаляется.
    • Предоставление данных поисковой системе: Обновленный список (например, Sitemap) предоставляется поисковой системе путем прямой отправки (submitting), пинга или публикации на веб-сайте (publishing).

    Актуальность для SEO

    Высокая. В условиях огромного объема контента, создаваемого в социальных сетях и облачных приложениях (Google Docs, Google Photos и т.д.), эффективное и быстрое управление индексацией этого контента критически важно для полноты и актуальности поисковой выдачи, а также для соблюдения приватности пользователей.

    Важность для SEO

    Влияние на традиционные SEO-стратегии для веб-сайтов минимальное (3/10). Патент описывает инфраструктурный механизм, относящийся к этапу сканирования и сбора данных (CRAWLING), а не к ранжированию (RANKING). Он не раскрывает сигналов качества или релевантности. Однако он имеет значение для понимания того, как Google индексирует контент, размещенный не на стандартных веб-сайтах, а на платформах, таких как социальные сети или облачные сервисы, обеспечивая более быструю индексацию такого контента.

    Детальный разбор

    Термины и определения

    ACL (Access Control List / Список контроля доступа)
    Структура данных, связанная с элементом контента, которая определяет права доступа или sharing properties. Она указывает, какие пользователи или группы пользователей (включая «публику» / general public) могут выполнять определенные действия (например, просмотр, редактирование).
    Content Item (Элемент контента)
    Любая единица данных, хранящаяся в сервисе. Примеры включают документы, электронные таблицы, изображения, обновления в социальных сетях, электронные письма.
    First Service (Первый сервис)
    Сервис, который хранит контент и управляет его доступом. Например, облачное хранилище (cloud-based content storage service) или социальная сеть (social networking service).
    Second Service (Второй сервис)
    Сервис, который получает список общедоступного контента от Первого сервиса. В контексте патента это, как правило, поисковая система (search engine).
    Sharing Property (Свойство общего доступа)
    Настройка, связанная с элементом контента, которая указывает, доступен ли этот элемент различным наборам пользователей (например, приватный, доступный определенной группе или публичный).
    Sitemap / XML file (Файл Sitemap / XML-файл)
    Формат списка общедоступных элементов контента, который предоставляется поисковой системе. Он содержит ссылки (URL/URI) и метаданные (например, дату последнего изменения, частоту изменений, приоритет).

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод идентификации и предоставления контента, который стал публичным.

    1. Система хранит элемент контента в первом сервисе, изначально доступный «первому набору пользователей».
    2. Система определяет, что sharing property элемента было изменено, чтобы разрешить распространение «второму набору пользователей» (который больше первого, например, публика).
    3. В ответ на это система обновляет первый список элементов контента.
    4. Обновление включает создание записи для элемента и вставку этой записи в список, формируя второй (обновленный) список.
    5. Второй список предоставляется второму сервису (поисковой системе).
    6. Второй набор пользователей может получить доступ к элементам из второго списка через второй сервис.

    Claim 2 (Зависимый от 1): Дополняет процесс механизмом удаления (деиндексации).

    1. Система определяет, что sharing property было изменено, чтобы запретить общий доступ второму набору пользователей (т.е. контент стал приватным).
    2. В ответ на это система обновляет список, удаляя запись, соответствующую этому элементу контента.

    Claim 7 (Зависимый от 1): Уточняет механизм обнаружения изменений.

    Определение того, что sharing property было изменено, включает определение того, что был изменен Access Control List (ACL), связанный с элементом контента.

    Claim 8 и 10 (Зависимые от 1): Определяют контекст применения.

    Второй список элементов контента представляет собой файл Sitemap (Claim 8). Первый сервис — это облачный сервис или социальная сеть, второй сервис — поисковая система, а второй набор пользователей — широкая публика (Claim 10).

    Где и как применяется

    Патент описывает инфраструктурное решение, которое оптимизирует взаимодействие между сервисами хранения контента и поисковой системой.

    CRAWLING – Сканирование и Сбор данных
    Это основной этап применения изобретения. Система заменяет или дополняет традиционный процесс обнаружения контента (когда краулер должен найти ссылку на контент) механизмом прямой подачи (push mechanism) или высокоэффективного получения (pull) через Sitemap.

    • Вместо того чтобы краулер «искал» публичный контент на облачном сервисе, сам сервис «сообщает» поисковой системе о том, какой контент является публичным, отслеживая изменения ACL.
    • Это значительно ускоряет обнаружение нового публичного контента и обеспечивает более точное знание о его доступности.

    INDEXING – Индексирование
    Получив список публичных элементов (Sitemap), поисковая система может эффективно планировать их сканирование и индексацию. Если элемент удален из списка (стал приватным), система индексации получает сигнал о необходимости деиндексации этого элемента.

    Входные данные:

    • Уведомления или лента (feed) об изменениях в sharing properties или ACL элементов контента от Первого сервиса.
    • Ссылки (URL или URI) на обновленные элементы контента.
    • Текущий список публичных элементов контента.

    Выходные данные:

    • Обновленный список публичных элементов контента (например, файл Sitemap).
    • Передача этого списка Второму сервису (поисковой системе).

    На что влияет

    • Конкретные типы контента: В первую очередь влияет на контент, хранящийся в облачных сервисах и социальных сетях: документы (Docs, Spreadsheets), презентации, фотографии (Photos), посты в социальных сетях, профили пользователей.
    • Обнаружение контента без ссылок: Механизм позволяет индексировать публичный контент, на который нет ссылок с других веб-страниц (т.н. «сиротский контент»).

    Когда применяется

    • Триггеры активации: Алгоритм активируется в момент изменения sharing property или ACL элемента контента на Первом сервисе (например, пользователь нажимает кнопку «Поделиться публично»).
    • Временные рамки и частота применения: Обновление списка может происходить в реальном времени при каждом изменении ACL. Предоставление обновленного списка поисковой системе может происходить периодически, либо при накоплении определенного порогового числа обновлений (threshold number of updates) (Claim 6).

    Пошаговый алгоритм

    Описан процесс обновления списка публичного контента при изменении существующего элемента (на основе FIG. 4C).

    1. Получение обновления: Система получает ссылку на обновленный элемент контента и связанные с ним sharing properties (например, ACL) от Первого сервиса.
    2. Проверка на публичность (Активация): Система определяет, были ли sharing properties изменены так, чтобы разрешить общий доступ широкой публике.
      • Если ДА: Система создает запись, соответствующую элементу контента, и вставляет эту запись в список публичных элементов контента (или обновляет существующую запись, например, дату модификации). Переход к шагу 4.
      • Если НЕТ: Переход к шагу 3.
    3. Проверка на приватность (Деактивация): Система определяет, были ли sharing properties изменены так, чтобы запретить общий доступ широкой публике.
      • Если ДА: Система удаляет запись, соответствующую элементу контента, из списка публичных элементов. Переход к шагу 4.
      • Если НЕТ: (Изменение не повлияло на публичный статус, например, контент был приватным и остался приватным). Система не обновляет список публичных элементов. Процесс завершается.
    4. Предоставление данных: Система предоставляет обновленный список публичных элементов контента поисковой системе (например, публикует обновленный Sitemap или отправляет его напрямую).

    Какие данные и как использует

    Данные на входе

    Патент фокусируется исключительно на данных, необходимых для управления обнаружением и индексацией, и не упоминает факторы ранжирования (контентные, ссылочные, поведенческие).

    • Технические факторы: Ссылки (references) на элементы контента, такие как URL или URI. Протокол (http, https), необходимый для доступа к элементу контента.
    • Системные данные (Sharing Data): Sharing properties и Access Control Lists (ACL). Эти данные определяют, является ли контент публичным или приватным.
    • Временные факторы: Дата последнего изменения (Last Modified) элемента контента (включая изменения его содержимого или свойств доступа).

    Какие метрики используются и как они считаются

    Патент не описывает сложных метрик ранжирования. Он использует бинарную логику и стандартные метаданные Sitemap.

    • Статус публичности: Определяется путем анализа ACL. Если широкой публике разрешен доступ, статус положителен.
    • Метаданные в списке (Sitemap): Система использует стандартные поля Sitemap (упомянутые в FIG. 3):
      • <Location>: URL элемента.
      • <Last Modified>: Дата последнего изменения.
      • <Change Frequency>: Как часто контент может меняться.
      • <Priority>: Приоритет элемента относительно других элементов в сервисе.
    • Пороговые значения: Может использоваться порог количества обновлений (threshold number of updates). Если число обновлений ACL превышает порог, обновленный список отправляется поисковой системе (Claim 6).

    Выводы

    Патент описывает внутренние инфраструктурные процессы Google, направленные на повышение эффективности сканирования. Он не дает прямых рекомендаций для SEO-специалистов по оптимизации ранжирования стандартных веб-сайтов.

    1. Фокус на эффективности сканирования (Crawl Efficiency): Основная цель патента — снизить нагрузку на краулеры и ускорить обнаружение контента, размещенного на сложных платформах (облако, социальные сети), используя механизм прямой подачи (push/efficient pull) вместо традиционного поиска по ссылкам (discovery).
    2. ACL как источник истины о доступности: Система полагается на Списки контроля доступа (ACL) сервиса-хоста для определения того, должен ли контент быть проиндексирован. Это обеспечивает соблюдение настроек приватности пользователя на уровне инфраструктуры.
    3. Использование стандартных протоколов (Sitemaps): Механизм использует стандартные форматы, такие как Sitemap и XML, для передачи информации о публичном контенте поисковой системе.
    4. Быстрая индексация и деиндексация: Мониторинг изменений ACL позволяет практически мгновенно добавлять новый публичный контент в очередь на индексацию и, что критически важно для приватности, быстро удалять контент, который стал приватным.
    5. Индексация без ссылок: Этот механизм позволяет Google индексировать «сиротский» контент (например, публичный Google Doc), на который нет ссылок с других веб-страниц.

    Практика

    Best practices (это мы делаем)

    Хотя патент инфраструктурный, он подтверждает важность следующих практик:

    • Использование Sitemaps для стандартных сайтов: Патент демонстрирует, что Google активно использует Sitemaps как эффективный механизм для получения информации об URL и их обновлениях. Для обычных веб-сайтов критически важно поддерживать актуальные файлы Sitemap (включая корректный Last Modified) и сообщать о них Google (через Search Console или robots.txt).
    • Корректное управление доступом к контенту на облачных платформах: Если вы используете облачные сервисы (например, Google Drive) для размещения контента, который должен быть проиндексирован (например, публичные PDF, документы), убедитесь, что настройки доступа (sharing properties) установлены как «Публично доступно». Этот механизм гарантирует, что Google быстро обнаружит этот контент.
    • Мониторинг индексации контента из социальных сетей (SERM): Понимание этого механизма объясняет, как посты и профили из социальных сетей быстро попадают в индекс. При работе с управлением репутацией (SERM) важно учитывать скорость индексации публичных обновлений на этих платформах.

    Worst practices (это делать не надо)

    • Полагаться на «безопасность через неясность» (Security by Obscurity): Нельзя предполагать, что публичный файл в облачном сервисе не будет проиндексирован только потому, что на него нет внешних ссылок. Если настройки доступа публичные, система может обнаружить его напрямую.
    • Ожидание индексации приватного контента: Попытки «скормить» краулеру контент, который защищен настройками приватности (ACL) на уровне сервиса, бесполезны. Система явно проверяет статус доступа перед добавлением в список на индексацию.
    • Предоставление устаревших Sitemaps: Полагаться на то, что Google сам обнаружит изменения на сайте, менее эффективно, чем предоставлять актуальные данные через Sitemap. Патент подтверждает приоритет эффективности обнаружения обновлений.

    Стратегическое значение

    Патент подчеркивает стремление Google к максимальной эффективности инфраструктуры сканирования и индексации. Он показывает, как Google интегрируется с крупными платформами для получения прямого доступа к данным о контенте, минуя ограничения традиционного краулинга. Для SEO-специалистов это напоминание о том, что управление тем, как поисковая система обнаруживает контент (Crawl Management), является фундаментальной частью технического SEO.

    Практические примеры

    Сценарий: Быстрая индексация и деиндексация публичного документа в Google Docs

    1. Задача: Компания готовит пресс-релиз в Google Docs. Изначально он приватный.
    2. Активация индексации: В момент публикации сотрудник меняет настройки доступа (ACL) документа на «Публично в Интернете».
    3. Реакция системы (по патенту): Система, интегрированная с Google Docs (Первый сервис), обнаруживает изменение ACL. URL документа добавляется в специальный Sitemap. Обновленный Sitemap передается Google Search (Второй сервис).
    4. Результат 1: Документ попадает в очередь на индексацию практически немедленно, даже без внешних ссылок.
    5. Активация деиндексации: Компания обнаруживает ошибку в релизе и меняет настройки доступа обратно на «Приватный».
    6. Реакция системы (по патенту): Система обнаруживает изменение ACL. URL документа удаляется из специального Sitemap. Обновленный Sitemap передается Google Search.
    7. Результат 2: Поисковая система получает сигнал о необходимости удалить документ из индекса, что происходит оперативно.

    Вопросы и ответы

    Означает ли этот патент, что Google может индексировать мои личные файлы в облаке?

    Нет. Патент явно указывает, что система строго соблюдает Списки контроля доступа (ACL) и sharing properties. В список для индексации добавляется только тот контент, чьи настройки были изменены пользователем, чтобы разрешить публичный доступ. Если контент остается приватным, он исключается из этого списка.

    Как этот патент влияет на SEO для обычного веб-сайта (например, интернет-магазина)?

    Напрямую он почти не влияет, так как описывает механизм для сканирования облачных сервисов и социальных сетей. Однако он подтверждает общую философию Google: использование актуальных Sitemaps является предпочтительным и эффективным способом информирования поисковой системы об URL и их обновлениях.

    Ускоряет ли этот механизм индексацию новых постов в социальных сетях?

    Да, это одно из ключевых применений. Если социальная сеть (Первый сервис) использует этот механизм, она может отслеживать публичные посты и немедленно передавать их URL поисковой системе (Второй сервис) через обновляемый список (Sitemap), минуя необходимость традиционного краулинга.

    Что такое ACL (Access Control List) в контексте этого патента?

    ACL — это техническое определение настроек доступа. На пользовательском уровне это выглядит как выбор опций «Поделиться с…» (например, «Приватно», «Доступ по ссылке», «Публично»). Система отслеживает изменения в этом ACL, чтобы понять, стал ли контент публичным.

    Может ли контент быть проиндексирован, если на него нет ни одной ссылки?

    Да. Если контент размещен на платформе, использующей этот механизм (например, публичный Google Doc), и его настройки доступа установлены как публичные, он будет добавлен в список для индексации напрямую, даже если на него нет внешних ссылок.

    Как быстро происходит деиндексация, если я изменю доступ с публичного на приватный?

    Согласно патенту, обновление списка (удаление URL) происходит быстро после изменения ACL. Обновленный список затем передается поисковой системе. Фактическое удаление из индекса произойдет после того, как поисковая система обработает этот обновленный список, что должно быть значительно быстрее, чем ожидание повторного сканирования традиционным краулером.

    Использует ли система какие-либо факторы ранжирования?

    Патент не упоминает никаких факторов ранжирования (качество, релевантность, ссылки). Он строго сфокусирован на этапе обнаружения контента (Crawling & Data Acquisition) и определении его доступности на основе ACL.

    Могу ли я использовать этот механизм для своего сайта?

    Механизм, описанный в патенте, требует глубокой интеграции между сервисом хранения и поисковой системой для мониторинга ACL. Для стандартных веб-сайтов аналогом является использование актуальных Sitemaps и, потенциально, протоколов типа IndexNow или Indexing API для уведомления поисковых систем об обновлениях.

    Влияет ли этот патент на индексацию контента, доступного только по ссылке (Unlisted)?

    Патент упоминает разные наборы пользователей. Если «доступ по ссылке» классифицируется системой как публичный доступ (доступный «второму набору пользователей», который шире исходного), то да, такой контент может быть включен в список для индексации. Это зависит от конкретной реализации и политики сервиса.

    Какие метаданные передаются поисковой системе вместе с URL?

    Список (Sitemap) может включать стандартные метаданные (упомянутые в FIG. 3): Location (URL), Last Modified (дата последнего изменения, что важно для определения свежести), Change Frequency (частота изменений) и Priority (приоритет сканирования).

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.