Как Google индексирует контент из сторонних приложений и проприетарных форматов (например, в Google Drive)

Google позволяет сторонним приложениям передавать индексируемые метаданные (текст или HTML) о файлах, которые хранятся на их серверах или в форматах, которые Google не может обработать напрямую. Это позволяет пользователям находить этот контент через поиск платформы (например, Google Drive), даже если у Google нет прямого доступа к исходным данным.

Описание

Какую задачу решает

Патент решает проблему индексации контента, который недоступен для стандартных механизмов сетевой системы хранения (Online Storage System или Network System, например, Google Drive). Это включает данные, хранящиеся на внешних серверах третьих сторон (Third-Party Servers), и данные, сохраненные в проприетарных, бинарных или сложных форматах, которые система не может интерпретировать. Патент отмечает ограничения традиционных краулеров (Web crawlers), которые не могут получить доступ к не-HTML форматам (упоминаются MPEG, ZIP) или контенту за файрволами. Изобретение позволяет сделать этот «скрытый» контент видимым для поиска внутри платформы.

Что запатентовано

Запатентован механизм, позволяющий сторонним приложениям активно предоставлять индексируемое представление своих данных (Indexable Metadata) основной сетевой системе через API. Третья сторона самостоятельно генерирует текстовое (Indexable Text) или HTML (Indexable HTML) представление своего контента. Сетевая система индексирует эти метаданные, а не исходные файлы, обеспечивая возможность поиска по стороннему контенту.

Как это работает

Механизм работает по Push-модели:

Генерация метаданных: Когда пользователь сохраняет данные в стороннем приложении, это приложение использует Metadata Converter для преобразования проприетарных данных в текст или HTML.
Передача через API: Стороннее приложение отправляет эти индексируемые метаданные в сетевую систему через API.
Контроль доступа и Валидация: Система проверяет права доступа (Access Control Module, ACL) и соблюдение лимитов на размер метаданных.
Индексация: Сетевая система обрабатывает метаданные с помощью Indexing Utility и добавляет их в свой поисковый индекс.
Поиск: Данные становятся доступными через стандартный поиск сетевой системы только для авторизованных пользователей.

Актуальность для SEO

Высокая (для платформенных экосистем). Этот механизм критически важен для сред, таких как Google Workspace и Google Drive, где множество сторонних приложений интегрируются с хранилищем Google, но используют собственные форматы данных. Он обеспечивает унифицированный поиск по всем данным пользователя. Актуальность для публичного веб-поиска (Google.com) низкая.

Важность для SEO

Влияние на традиционное SEO (продвижение сайтов в публичном веб-поиске Google) минимально (1/10). Патент не описывает механизмы краулинга или ранжирования веб-страниц в интернете. Он описывает инфраструктуру для индексации данных внутри закрытых или полузакрытых платформ с использованием Push-модели через API. Он не предоставляет практических инсайтов для SEO-специалистов, работающих с публичными веб-сайтами.

Детальный разбор

Термины и определения

Access Control Module / ACL (Модуль контроля доступа): Компонент, управляющий правами доступа. Гарантирует, что индексируемые метаданные наследуют разрешения (permissions) исходного ресурса для предотвращения утечки приватных данных.
API (Application Programming Interface): Интерфейс, используемый для передачи Indexable Metadata от стороннего сервера к сетевой системе.
Indexable Metadata (Индексируемые метаданные): Данные, предоставляемые третьей стороной, представляющие контент исходного ресурса. Форматы: простой текст (indexable text) или HTML (indexable html).
Indexing Utility (Утилита индексации): Компонент сетевой системы, который обрабатывает полученные метаданные и организует их для поиска.
Install record (Запись об установке): Запись, подтверждающая, что пользователь установил и авторизовал стороннее приложение.
Metadata Converter (Конвертер метаданных): Компонент на стороне третьего лица, отвечающий за преобразование проприетарных данных в индексируемый формат (текст/HTML).
Network System / Online Storage System (Сетевая система / Онлайн-хранилище): Основная платформа (например, Google Drive), предоставляющая услуги хранения и поиска.
Security Token (Токен безопасности): Средство аутентификации для авторизации доступа стороннего приложения. Включает ID пользователя, ID приложения и область доступа.
Third-Party Server/Application (Сторонний сервер/Приложение): Серверы и приложения, контролируемые стороной, отличной от владельца сетевой системы.

Ключевые утверждения (Анализ Claims)

Патент US11599499B1 является продолжением (continuation) более ранних патентов.

Claim 1 (Независимый пункт): Описывает сетевую систему и процесс индексации стороннего контента.

Сетевая система поддерживает индексированные данные (searchable data) для первого набора файлов (нативных).
Система получает индикацию о ресурсе (user-accessible resource), связанном с отдельной сторонней системой (third-party system). Этот ресурс (второй набор файлов) отличается и имеет другие форматы.
Система получает от сторонней системы через API indexable metadata, связанные с контентом этого ресурса.
Система организует эти метаданные так, чтобы сторонний ресурс стал частью данных, доступных для поиска через поисковый компонент системы.

Claim 4 (Зависимый): Уточняет причину использования механизма.

Второй набор файлов имеет форматы, которые являются проприетарными (proprietary) для сторонней системы и не могут быть напрямую обработаны (not searchable) поисковым компонентом сетевой системы.

Claim 6 (Зависимый): Описывает механизм защиты от злоупотреблений.

Система ограничивает объем принимаемых метаданных, проверяя, что объем удовлетворяет пороговому значению (threshold amount), указывающему максимальный объем для хранения.

Claims 2 и 3 (Зависимые): Детализируют контроль доступа.

Метаданные связаны с информацией о контроле доступа к ресурсу. Система записывает эту связь, включая данные о том, что пользователь или приложение находятся в ACL ресурса, или что пользователь установил (installed) это приложение.

Где и как применяется

Патент описывает инфраструктурные процессы для платформенных решений (например, Google Drive/Workspace), а не публичный веб-поиск.

CRAWLING – Сбор данных (Data Acquisition)
Вместо традиционного сканирования (Pull-модель), система использует Push-модель: данные активно передаются сторонними приложениями в сетевую систему через API. Это позволяет обойти ограничения краулинга (форматы, файрволы).

INDEXING – Индексирование и извлечение признаков
Это основной этап применения. Indexing Utility получает предварительно подготовленные Indexable Metadata (текст или HTML). Система обрабатывает эти данные и добавляет их в индекс. На этом этапе также происходит ассоциация данных с правами доступа (ACL) и проверка лимитов на размер.

RANKING – Ранжирование
Проиндексированные метаданные используются стандартными алгоритмами поиска и ранжирования, действующими внутри этой сетевой системы.

Входные данные:

Indexable metadata (простой текст или HTML).
Информация о контроле доступа (ACL, Security Tokens).
Идентификаторы ресурса, пользователя и приложения.

Выходные данные:

Индексированное представление стороннего ресурса в базе данных сетевой системы, доступное для поиска.

На что влияет

Конкретные типы контента: Влияет на данные в проприетарных форматах (например, файлы дизайна, диаграммы, специализированные документы) или данные, хранящиеся на внешних серверах, интегрированных с платформой.
Специфические запросы: Влияет на поиск внутри платформы (например, поиск в Google Drive), а не на публичный веб-поиск.

Когда применяется

Триггеры активации: Момент сохранения, создания или обновления ресурса пользователем в стороннем приложении, что инициирует вызов API для передачи метаданных.
Условия применения: Пользователь должен установить и авторизовать стороннее приложение (наличие Install record и Security Token).
Пороговые значения: Объем передаваемых метаданных не должен превышать установленный лимит (Threshold Amount). В патенте приводятся примеры: 128 КБ, 2 МБ, 10 МБ.
Исключения: Система может запрещать изменять индексируемый текст для ресурсов, которые не принадлежат исключительно этому приложению, чтобы не мешать индексации стандартных форматов (например, PDF, Word).

Пошаговый алгоритм

Создание/Обновление Ресурса: Пользователь изменяет данные в стороннем приложении. Данные сохраняются (на Third-Party Server или в Online Storage System в проприетарном формате).
Генерация Метаданных: Стороннее приложение активирует Metadata Converter для преобразования данных в indexable text или indexable html.
Вызов API и Аутентификация: Приложение вызывает API сетевой системы, используя Security Tokens.
Передача Данных: Индексируемые метаданные и ACL передаются в сетевую систему.
Валидация и Ограничения: Система проверяет права доступа через Access Control Module и проверяет соблюдение лимитов на размер метаданных.
Индексация: Indexing Utility обрабатывает данные. Патент указывает, что для простого текста (plain text) используется парсинг по словам (parsed by word), а для HTML — с учетом тегов (parsed as html, paying special attention to html tags). Данные сохраняются в Metadata Storage.
Обработка устаревания (Stale Data Handling): Если ресурс изменяется (возможно, другим приложением), старые метаданные могут быть очищены (cleared), даже если новые не предоставлены, чтобы предотвратить наличие устаревшего индекса (stale indexable text). При поступлении новых данных они перезаписывают старые.
Поиск: Пользователь выполняет поиск в сетевой системе. Система находит соответствующие индексированные метаданные и возвращает ссылку на ресурс с учетом ACL.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке данных, поступающих от третьих сторон для индексации.

Контентные факторы: Ключевыми данными являются indexable text (простой текст) и indexable html. Это единственное представление контента, которое получает сетевая система от третьей стороны.
Пользовательские и Системные факторы (Авторизация):
- Списки контроля доступа (ACL).
- Токены безопасности (Security Tokens).
- Записи об установке приложения (Install record).
- Идентификаторы пользователя и приложения.

Какие метрики используются и как они считаются

Threshold Amount / Capped Value (Пороговый объем): Система измеряет объем передаваемых метаданных и сравнивает его с установленным максимальным порогом для предотвращения злоупотреблений. Примеры лимитов: от 128 КБ до 10 МБ.
Методы анализа текста: Патент явно разделяет обработку:
- Для простого текста используется парсинг по словам.
- Для HTML используется парсинг с учетом HTML-тегов.

Выводы

Патент описывает внутренние инфраструктурные процессы Google без прямых рекомендаций для SEO в публичном веб-поиске.

Патент не имеет отношения к SEO публичного веб-поиска: Он описывает механизм индексации для закрытых платформенных систем (таких как Google Drive/Workspace), а не для google.com.
Делегирование интерпретации данных: Google не пытается понять проприетарные форматы. Задача преобразования данных в индексируемый вид делегируется сторонним разработчикам (через Metadata Converter).
Push-модель вместо краулинга: Для сбора этих данных используется не сканирование (Pull), а активная передача данных через API (Push) по инициативе стороннего приложения.
Критичность контроля доступа и авторизации: Система требует явной авторизации пользователя (Install record) и использует строгий контроль доступа (ACL, Security Tokens) для обеспечения безопасности данных. Метаданные наследуют права доступа исходных файлов.
Защита инфраструктуры и актуальность индекса: Внедрены механизмы защиты от злоупотреблений (ограничение размера метаданных) и механизмы поддержания актуальности индекса (очистка устаревших данных — stale indexable text).

Практика

ВАЖНО: Патент является инфраструктурным и описывает интеграцию приложений с платформами Google. Он не дает практических выводов для традиционного SEO (продвижения сайтов в веб-поиске).

Best practices (это мы делаем)

Рекомендации применимы только для разработчиков приложений, интегрирующихся с Google Drive/Workspace (Platform SEO/ASO), а не для SEO-специалистов:

Генерация качественных метаданных: Разработчикам следует реализовать эффективный Metadata Converter, который извлекает максимум полезной информации из проприетарных файлов.
Использование HTML для лучшей индексации: При возможности следует предоставлять indexable html, а не простой текст, так как патент указывает, что HTML обрабатывается с учетом тегов. Использование семантической разметки может улучшить индексацию.
Соблюдение лимитов и актуальность: Учитывать ограничения на размер (например, до 2 МБ) и обеспечивать своевременное обновление метаданных при изменении файла, чтобы избежать устаревания индекса.

Worst practices (это делать не надо)

Для разработчиков приложений:

Игнорирование механизма: Приведет к тому, что данные приложения будут невидимы для поиска на платформе.
Передача некачественных или устаревших данных: Отправка зашумленных метаданных или отсутствие обновлений при изменении контента ухудшит поисковый опыт пользователя и приведет к наличию stale indexable text в индексе.

Стратегическое значение

Патент подтверждает стратегию Google по созданию интегрированных экосистем, где централизованный поиск работает поверх разнородных источников данных, включая сторонние приложения. Это повышает ценность платформы для пользователя. Для стратегии публичного веб-SEO этот патент значения не имеет.

Практические примеры

Практических примеров для SEO нет.

Пример для разработчика приложения (не SEO):

Сценарий: Индексация файла дизайна (например, Figma) в Google Drive

Задача: Пользователь хочет найти в Google Drive проект Figma по тексту, который использовался в макете. Google Drive не умеет читать формат .fig.
Реализация: Разработчики Figma (третья сторона) интегрируются с Google Drive (сетевая система). Когда пользователь сохраняет макет, приложение Figma извлекает все текстовые слои и комментарии.
Передача данных: Figma формирует indexable html, содержащий этот текст, и отправляет его через API в Google Drive, связывая его с файлом проекта и его ACL.
Результат: Google Drive индексирует этот HTML. Теперь пользователь может ввести текст из макета в строку поиска Google Drive и найти соответствующий файл Figma.

Вопросы и ответы

Влияет ли этот патент на ранжирование моего сайта в Google Поиске?

Нет. Патент описывает индексацию данных в закрытых экосистемах, таких как Google Drive или Workspace. Он не связан с алгоритмами ранжирования публичных веб-сайтов и не дает рекомендаций для традиционного SEO.

Описывает ли патент, как Google сканирует сайты?

Нет. Патент описывает альтернативу сканированию для случаев, когда оно невозможно. Вместо того чтобы Googlebot сканировал контент (Pull model), стороннее приложение само передает индексируемые данные через API (Push model).

Что такое «Indexable Metadata» в контексте патента?

Это текстовое (Indexable Text) или HTML (Indexable HTML) представление контента, которое стороннее приложение генерирует из своих исходных (часто проприетарных) данных. Google индексирует эти метаданные, так как не может проиндексировать исходный файл.

В чем разница между индексацией простого текста и HTML согласно патенту?

Патент четко разделяет их обработку. Простой текст (plain text) парсится по словам. HTML парсится с особым вниманием к HTML-тегам, что позволяет системе лучше понять структуру и важность контента при индексации.

Кто отвечает за генерацию индексируемого текста?

Ответственность полностью лежит на стороннем приложении. Именно оно должно преобразовать свои данные в формат текста или HTML с помощью собственного компонента Metadata Converter.

Упоминаются ли в патенте ограничения на объем передаваемых данных?

Да, патент явно указывает на наличие ограничений (Threshold Amount или Capped Value) для предотвращения злоупотреблений и перегрузки системы. Приводятся примеры лимитов: 128 КБ, 2 МБ, 10 МБ.

Как обеспечивается приватность данных, если Google их индексирует?

Индексация строго ограничена правами доступа (ACL) исходных файлов. Доступ к результатам поиска предоставляется только авторизованным пользователям, которые явно установили и разрешили доступ приложению (Install record, Security Token).

Что происходит, если файл в стороннем приложении изменился?

Стороннее приложение должно отправить новые метаданные. Патент также предусматривает механизм очистки (cleared) старых метаданных, если файл был изменен (даже другим приложением), чтобы предотвратить наличие устаревшего текста (stale indexable text) в индексе.

Могут ли несколько приложений предоставлять метаданные для одного файла?

Да, патент рассматривает это. В одной из реализаций, если несколько приложений имеют доступ к ресурсу, последние отправленные метаданные могут перезаписать предыдущие. Система также предотвращает вмешательство приложений в индексацию ресурсов, которыми они не владеют.

Какова основная ценность этого патента для понимания работы Google?

Патент раскрывает архитектуру взаимодействия Google с экосистемой сторонних приложений (например, в Google Drive). Он показывает, как Google решает проблему унифицированного поиска по распределенным и разнородным данным, делегируя задачу интерпретации контента самим приложениям, которые эти данные создают.