
Google использует механизм для индексации данных, хранящихся на сторонних серверах или в проприетарных форматах, которые поисковая система не может обработать напрямую. Вместо сканирования исходных данных система получает от третьей стороны готовый для индексации текст или HTML-метаданные, представляющие этот контент. Это позволяет сделать данные доступными для поиска через систему Google, соблюдая при этом контроль доступа и ограничения на размер метаданных.
Патент решает проблему невозможности индексации данных, которые поисковая система (network system или online storage system) не может получить или обработать напрямую. Это касается данных, хранящихся на сторонних серверах (third-party servers), к которым у системы нет доступа, или данных, сохраненных в проприетарных, бинарных или сложных мультимедийных форматах (упоминаются MPEG, SHOCKWAVE, ZIP), которые стандартные краулеры не могут распарсить. Цель — сделать этот контент доступным для поиска через основную систему.
Запатентована система, позволяющая сторонним приложениям предоставлять индексируемое представление своих данных поисковой системе. Если исходные данные недоступны или нечитаемы, третья сторона генерирует indexable metadata (индексируемые метаданные) в виде простого текста или HTML. Эти метаданные передаются в поисковую систему (например, через API), которая индексирует их вместо исходных данных, обеспечивая возможность поиска по контенту третьей стороны.
Механизм работает по принципу push-модели, а не pull (сканирования):
Metadata Converter для преобразования своей сложной или проприетарной модели данных в упрощенное представление (текст или HTML).Access Control Information).threshold amount) на размер принимаемых метаданных (например, 128 КБ или 2 МБ) для предотвращения злоупотреблений.Indexing Utility обрабатывает их и добавляет в индекс системы, делая исходный ресурс доступным для поиска.Высокая. Проблема индексации сложного контента, динамических приложений (SPA) и данных внутри закрытых экосистем (например, Google Workspace, Drive, App Indexing) остается крайне актуальной. Патент описывает инфраструктурный механизм, позволяющий Google получать данные, которые невозможно собрать краулерами. Существование таких инструментов, как Indexing API или механизмов пререндеринга, подтверждает актуальность этого подхода.
Влияние на SEO умеренное (55/100). Это инфраструктурный патент, который в первую очередь важен для разработчиков приложений, интегрированных в экосистемы Google (Platform SEO и App SEO). Для общего веб-поиска патент ценен тем, что демонстрирует механизм индексации "несканируемого" контента (сложные SPA, проприетарные форматы) через активное предоставление индексируемого представления со стороны владельца контента.
Access Control List (ACL).indexable text (простой текст) или indexable html.Claim 1 (Независимый пункт): Описывает основной процесс индексации ресурса, хранящегося на стороннем сервере.
access control information) для ресурса на стороннем сервере.indexable metadata, описывающие контент ресурса. Уточняется, что сам контент не может быть обработан поисковой функциональностью системы (not searchable).threshold amount) для размера принимаемых метаданных.reject).Claim 3 (Зависимый от 1): Детализирует требования к контролю доступа в экосистеме приложений.
Система проверяет, что: (i) пользователь находится в списке контроля доступа (ACL) для ресурса, (ii) стороннее приложение находится в ACL для ресурса, и (iii) пользователь установил это стороннее приложение. Это подтверждает фокус патента на платформенных интеграциях.
Claim 9 (Зависимый от 1): Уточняет сценарий применения.
Уточняется, что сторонний сервер управляется стороной, отличной от оператора сетевой системы. Контент ресурса не может быть обработан поисковой системой, потому что он находится в формате, проприетарном (proprietary format) для оператора стороннего сервера.
Claim 13 (Зависимый от 11): Приводит конкретный пример порогового значения.
Объем метаданных, принимаемых от стороннего сервера, ограничен 128 килобайтами данных.
Изобретение изменяет стандартный процесс сбора данных и фокусируется на этапе индексации.
CRAWLING – Сканирование и Сбор данных
Этот механизм обходит традиционное сканирование (crawling). Вместо того чтобы краулер пытался получить и распарсить контент (PULL), система использует PUSH-модель сбора данных. Стороннее приложение активно отправляет данные через API.
INDEXING – Индексирование и извлечение признаков
Основное применение патента. Indexing Utility получает indexable metadata. Система не обрабатывает исходные данные (Raw Data). Вместо этого она парсит предоставленный текст или HTML. Если предоставлен HTML, система обращает особое внимание на HTML-теги и индексирует их на основе этих тегов. Метаданные сохраняются и ассоциируются с исходным ресурсом и его Access Control Information (ACLs).
RANKING / RERANKING – Ранжирование / Переранжирование
Индексированные метаданные используются на этих этапах для определения релевантности ресурса поисковым запросам (внутри платформы).
Входные данные:
Indexable Metadata (текст или HTML), полученные от третьей стороны через API.Access Control Information (ACLs) для ресурса.Выходные данные:
Алгоритм применяется при соблюдении следующих условий:
indexable metadata через предоставленный API. Обычно это происходит в момент, когда пользователь сохраняет или обновляет данные в стороннем приложении.Threshold Amount). Если размер превышен, механизм не сработает (данные будут отклонены).Процесс инициируется третьей стороной и завершается сетевой системой.
Metadata Converter для преобразования своей модели данных в упрощенное представление (indexable text или indexable html).API сетевой системы, передавая сгенерированные метаданные и информацию о контроле доступа (ACL).Threshold Amount).Indexing Utility обрабатывает метаданные. Простой текст парсится по словам; HTML парсится с учетом тегов. Старые метаданные могут быть очищены или перезаписаны. Данные добавляются в поисковый индекс.Патент фокусируется на механизме приема и обработки данных, предоставленных извне.
Indexable Metadata. Это текст или HTML, который представляет собой исходный контент (документы, презентации, изображения, видео и т.д.). Система не получает исходные файлы.Access Control Information (ACLs). Они используются для определения того, кто имеет право видеть этот контент в результатах поиска и какое приложение имеет право обновлять метаданные.API.indexable metadata. Google индексирует только то, что ему предоставили.Threshold Amount, например, 128 КБ - 2 МБ) на размер принимаемых метаданных. Это необходимо для управления хранилищем и предотвращения злоупотреблений (например, спама ключевыми словами).Примечание: Практики разделены на прямое применение (App/Platform SEO) и концептуальное применение для Web SEO.
Для App/Platform SEO (Google Drive, App Indexing):
Indexable Metadata для обеспечения видимости контента приложения в поиске платформы.Threshold Amount (например, 128 КБ - 2 МБ).Для Web SEO (Концептуальное применение):
indexable text, описанным в патенте.API. Система имеет жесткие пороги (Threshold Amount) и отклонит данные.API.Патент подтверждает стремление Google индексировать контент за пределами стандартного HTML и подчеркивает ограничения стандартного краулинга. Для SEO-специалистов это сигнал о том, что индексация современных сложных веб-приложений и контента внутри платформ требует активного участия разработчиков. Стратегия индексации смещается от пассивного ожидания краулера к активному управлению тем, как контент представляется поисковой системе (через рендеринг или API).
Сценарий 1: Индексация приложения в Google Workspace (Прямое применение, Platform SEO)
indexable metadata в Google Drive через API. Размер резюме 5 КБ (ниже порога).Сценарий 2: Индексация сложного SPA (Косвенное применение принципов, Web SEO)
indexable html).Означает ли этот патент, что Google больше не сканирует сайты, а ждет, пока они отправят ему данные?
Нет. Стандартное сканирование (crawling) остается основным методом для веб-поиска. Этот патент описывает альтернативный механизм (PUSH-модель), предназначенный специально для контента, который невозможно просканировать — например, данные внутри интегрированных приложений (как в Google Drive) или контент в проприетарных форматах.
Насколько важны ограничения по размеру (Threshold Amount) и какие они?
Ограничения критически важны для предотвращения злоупотреблений и перегрузки системы. Если предоставляемые метаданные превышают порог, они будут полностью отклонены. Патент упоминает различные лимиты: 128 килобайт (указано в Claims), а также 2 МБ, 10 МБ и различные диапазоны (указано в Description).
Как этот патент связан с индексацией Single Page Applications (SPA)?
Патент напрямую связан с проблемой индексации сложного контента. SPA часто представляют собой сложную модель данных, которую краулеру трудно интерпретировать. Техники вроде пререндеринга или динамического рендеринга по сути реализуют идею патента: они создают indexable html (статический снапшот) из сложного приложения и предоставляют его поисковой системе для индексации.
Кто отвечает за генерацию этого индексируемого текста?
Ответственность полностью лежит на третьей стороне (Third-Party Application). Именно стороннее приложение должно преобразовать свои данные в текст или HTML. Качество этой генерации напрямую влияет на то, как контент будет находиться в поиске.
Может ли этот механизм использоваться для спама или клоакинга?
Теоретически, третья сторона может попытаться включить в indexable metadata нерелевантный контент. Однако патент предусматривает защиту: жесткие ограничения на размер (Threshold Amount) значительно усложняют массовый спам ключевыми словами. Также Google может применять стандартные антиспам-алгоритмы к индексированному тексту.
Что лучше предоставлять: простой текст или HTML?
HTML предпочтительнее. Патент четко указывает, что простой текст парсится "по словам", а HTML парсится с "особым вниманием к HTML-тегам" и индексируется на основе этих тегов. Это подчеркивает важность использования семантической разметки для лучшего понимания структуры контента.
Применяется ли этот патент к стандартному веб-поиску (google.com) или только к системам вроде Google Drive?
Текст патента и требования к доступу (например, необходимость установки приложения пользователем) в основном описывают сценарии использования в рамках Online Storage System (Google Drive/Workspace) или App Indexing. Однако описанные принципы применимы концептуально к любой ситуации, где Google нужно проиндексировать нечитаемый контент.
Что происходит с метаданными, если исходный контент обновляется?
Патент описывает механизм обновления. Когда данные изменяются, третья сторона должна сгенерировать и отправить новые indexable metadata. В некоторых реализациях система может автоматически очищать старые метаданные при изменении контента, чтобы предотвратить хранение устаревшего текста (stale indexable text).
Как обеспечивается приватность данных, если они индексируются Google?
Приватность обеспечивается за счет интеграции информации о контроле доступа (Access Control Information или ACL). Метаданные наследуют права доступа исходного ресурса. Даже если данные проиндексированы, они появятся в результатах поиска только у тех пользователей, которые авторизованы для доступа к исходному ресурсу.
Как SEO-специалисту использовать этот патент при работе с медиаконтентом (видео, аудио)?
Медиаконтент является примером данных, которые сложно индексировать напрямую. Этот патент подтверждает, что для успешной индексации необходимо предоставить текстовое представление. На практике это означает необходимость использования транскрипций, субтитров, структурированных данных (Schema.org), которые выступают в роли indexable metadata для медиафайлов.

Ссылки
Индексация
Мультимедиа

SERP

Индексация
Краулинг
Техническое SEO

SERP
EEAT и качество

Индексация
Мультимедиа

Ссылки
Поведенческие сигналы
Антиспам

Антиспам
Ссылки
Техническое SEO

Ссылки
Индексация
Техническое SEO

Семантика и интент
Структура сайта
Ссылки

SERP
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
SERP

Персонализация
Поведенческие сигналы

Поведенческие сигналы
Ссылки
SERP

Ссылки
Структура сайта
Семантика и интент

Local SEO
Семантика и интент
Поведенческие сигналы
