Как Google создает поисковый индекс для NFT и интегрирует блокчейн (Web3) в результаты поиска

Google разрабатывает инфраструктуру для индексации данных напрямую из блокчейнов, фокусируясь на NFT. Система извлекает описания, историю транзакций и сами цифровые активы, следуя по ссылкам в блокчейне. Она оценивает качество и подлинность NFT, дедуплицирует контент и интегрирует проверенные NFT в поисковую выдачу как специализированные результаты.

Описание

Какую задачу решает

Патент решает проблему неспособности традиционных поисковых систем напрямую взаимодействовать с данными блокчейна для идентификации, верификации и индексирования невзаимозаменяемых токенов (NFT). Существующие поисковые механизмы ограничены поиском веб-страниц (например, маркетплейсов), которые ссылаются на NFT, но не могут обрабатывать сами NFT как первичные объекты поиска. Изобретение создает инфраструктуру для извлечения структурированной информации из блокчейнов и интеграции Web3 контента в поисковую выдачу.

Что запатентовано

Запатентована система для систематического извлечения, обработки и индексирования данных о NFT непосредственно из вычислительных систем блокчейна. Система идентифицирует Token Data внутри кода блокчейна, извлекает описательные и транзакционные данные, а также сканирует связанные оффчейн-ресурсы (цифровые активы) по ссылкам (URI/URL). Ключевыми компонентами являются создание специализированной NFT Index Database, оценка качества (Quality) и определение подлинности (Authenticity) токенов.

Как это работает

Система функционирует как специализированный краулер и процессор для блокчейн-данных:

Сбор данных: Получение сырых Blockchain Data (например, байт-кода) через доступ к узлам блокчейна (Blockchain Nodes).
Идентификация NFT: Анализ данных для выявления NFT с использованием стандартов (например, EIP/ERC), обнаружения триггерных событий смарт-контрактов или моделей машинного обучения (Identification Model).
Извлечение данных: Сегментация и извлечение Descriptive Data (текст, названия) и Transaction Data (история, дата минтинга).
Сканирование Off-chain: Идентификация ссылок (URI/URL) в данных токена и сканирование внешних ресурсов (включая вложенное сканирование) для получения фактического цифрового актива (Digital Resource).
Генерация превью: Создание Synthetic Representation (превью) цифрового актива.
Оценка и Индексирование: Оценка качества и подлинности NFT, дедупликация и сохранение данных в NFT Index Database.

Актуальность для SEO

Высокая. Патент опубликован в конце 2024 года и отражает стратегическое направление развития поиска в сторону интеграции Web3 и цифровых активов. Создание надежных механизмов для индексации и верификации блокчейн-данных является актуальной задачей для крупных поисковых систем.

Важность для SEO

Стратегическое влияние высокое (8.5/10). Этот патент описывает инфраструктуру для создания нового крупного вертикального поиска — NFT Search. Он не влияет напрямую на ранжирование традиционных веб-сайтов, но фундаментально меняет подход к видимости цифровых активов. Для создателей NFT, маркетплейсов и брендов в Web3 понимание этих механизмов критически важно, поскольку Authenticity (Подлинность) и Quality (Качество) вводятся как ключевые сигналы для этого типа контента.

Детальный разбор

Термины и определения

Authenticity Determination (Определение подлинности): Процесс верификации NFT, особенно при обнаружении дубликатов. Включает анализ источника данных, даты минтинга (Mint Date) и обнаружение мошенничества (Fraud Detection).
Blockchain Data (Данные блокчейна): Сырые данные (код, байт-код, записи транзакций), полученные из системы блокчейна.
Blockchain Trigger Event (Триггерное событие блокчейна): Событие в смарт-контракте, которое может указывать на существование или передачу NFT. Используется для идентификации потенциальных токенов.
Content Data (Данные контента): Данные, относящиеся к цифровому активу (payload) NFT, часто получаемые путем сканирования оффчейн-ссылок. Включают Synthetic Representation.
Deduplication (Дедупликация): Процесс идентификации и обработки нескольких записей в индексе, относящихся к одному и тому же цифровому активу или NFT (например, если данные получены из блокчейна и с маркетплейса).
Descriptive Data (Описательные данные): Метаданные, описывающие NFT, такие как название, описание, идентификация создателя или неструктурированный текст (freeform text data).
Digital Resource / Digital Asset (Цифровой ресурс / Цифровой актив): Контент (изображение, видео, аудио и т.д.), который является полезной нагрузкой (payload) NFT.
Identification Model (Модель идентификации): Модель машинного обучения, используемая для обнаружения Token Data в сырых Blockchain Data.
NFT Index Database (База данных индекса NFT): Специализированное хранилище для проиндексированных данных NFT.
Quality Model (Модель качества): Система оценки качества NFT по таким параметрам, как разрешение (Resolution), уникальность (Differentiating) и безопасность контента (Offensive/Vulgar).
Synthetic Representation (Синтетическое представление): Сгенерированное Google превью или миниатюра цифрового актива, используемая для отображения в результатах поиска.
Token Data (Данные токена): Агрегированный набор данных, извлеченный из блокчейна и связанный с конкретным NFT.
Transaction Data (Транзакционные данные): Данные из электронного реестра (electronic ledger), описывающие историю транзакций NFT.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод извлечения описательных данных (Descriptive Data).

Получение blockchain data, содержащих код NFT.
Хранение данных в blockchain log.
Обработка данных для определения token data конкретного NFT.
Идентификация descriptive data внутри token data.
Сегментация (извлечение) descriptive data.
Хранение извлеченных данных.

Это определяет основной конвейер для идентификации NFT и извлечения его метаданных (например, названия, описания) непосредственно из структур блокчейна.

Claim 3 (Зависимый от 1): Детализирует использование ML/NLP для извлечения описаний.

Процесс идентификации descriptive data включает парсинг token data на сегменты и обработку каждого сегмента с помощью машинно-обученной модели NLP (machine-learned natural language processing model) для классификации сегментов. Это позволяет извлекать значимую информацию даже из неструктурированного текста в коде.

Claim 8 (Независимый пункт): Описывает метод извлечения контента путем сканирования ссылок (Off-chain crawling).

Получение blockchain data.
Обнаружение ссылки (link — URI/URL/IPFS) в этих данных.
Получение целевой страницы (landing page) по ссылке.
Определение content data (цифрового актива) на этой странице.
Хранение content data.

Это критически важный механизм, описывающий, как Google получает доступ к фактическому цифровому активу, который часто хранится вне блокчейна.

Claim 12 (Зависимый от 8): Уточняет механизм вложенного сканирования (Nested Crawling).

Система может определить вторую ссылку на первой целевой странице и перейти на вторую целевую страницу, чтобы найти content data. Это позволяет обрабатывать редиректы или сложные структуры хранения активов.

Claim 15 (Независимый пункт): Описывает комплексное извлечение разных типов данных.

Система извлекает как минимум два разных набора данных для одного NFT (например, freeform text data и transactional data из электронного реестра) и сохраняет их. Это обеспечивает создание полной индексной записи для NFT.

Где и как применяется

Изобретение описывает создание новой инфраструктуры сбора данных и вертикали поиска, затрагивая несколько этапов архитектуры.

CRAWLING – Сканирование и Сбор данных
Внедряется новый тип сканирования: система получает доступ к Blockchain Nodes для сбора Blockchain Data. Также критически важным является сканирование вне блокчейна (off-chain crawling): система следует по URI/URL, найденным внутри Blockchain Data, для получения Digital Assets (включая nested crawling).

INDEXING – Индексирование и извлечение признаков
Это ядро патента. Происходит анализ сырых данных, идентификация NFT и извлечение признаков (Descriptive Data, Transaction Data, Content Data). На этом этапе также происходит:

Генерация Synthetic Representations (превью).
Оценка качества (Quality Assessment): анализ разрешения, уникальности, безопасности контента.
Дедупликация и Определение подлинности (Deduplication и Authenticity Determination): обработка дубликатов и верификация на основе даты минтинга, источника и т.д.

Извлеченные данные сохраняются в специализированной NFT Index Database.

RANKING – Ранжирование
Патент явно упоминает, что для ранжирования результатов NFT используются специфические сигналы: Релевантность (Relevance), Подлинность (Authenticity) и Контекст (Context).

METASEARCH – Метапоиск и Смешивание
Процесс смешивания четко описан. Результаты из NFT Index Database (NFT Search Results) объединяются с результатами из Web Database (General Web Results) для создания финальной SERP. Возможны различные форматы отображения (карусели, смешанные списки, Knowledge Panels).

Входные данные:

Сырые Blockchain Data (байт-код, транзакции).
Стандарты токенов (EIP/ERC).
Цифровые активы и метаданные, полученные путем сканирования URI (off-chain).

Выходные данные:

Структурированные данные в NFT Index Database.
Synthetic Representations (превью активов).
Сигналы качества и подлинности.

На что влияет

Конкретные типы контента: Цифровые активы, представленные как NFT (изображения, видео, аудио, AR/VR активы, домены).
Специфические запросы: Информационные и коммерческие запросы, связанные с цифровым искусством, коллекционированием, конкретными коллекциями или авторами NFT.
Конкретные ниши или тематики: Web3, искусство, гейминг (GameFi), музыка, цифровая идентификация.

Когда применяется

Во время сканирования: Непрерывное или периодическое сканирование блокчейнов (recursively crawling).
Триггеры активации: Обнаружение новых блоков, идентификация кода, соответствующего стандартам NFT, или обнаружение Blockchain Trigger Events.
Во время ранжирования: Когда запрос пользователя релевантен проиндексированным NFT, применяются сигналы Authenticity и Quality.

Пошаговый алгоритм

Этап 1: Сбор данных и Идентификация

Получение данных: Доступ к Blockchain Node и извлечение сырых Blockchain Data.
Хранение и Безопасность: Сохранение данных в Blockchain Log (возможно, с предварительной обработкой в песочнице (sandbox)).
Идентификация токенов: Обработка данных для поиска кандидатов NFT. Используются Identification Models (ML), проверка стандартов (EIP/ERC) или поиск Blockchain Trigger Events.

Этап 2: Извлечение и Сегментация Данных

Извлечение метаданных: Использование Segmentation Model и NLP для парсинга и извлечения Descriptive Data (названия, описания).
Агрегация транзакций: Извлечение Transaction Data на основе Token ID и Contract Address.
Идентификация контента: Поиск ссылок (URI/URL/IPFS) в данных токена.

Этап 3: Получение Контента (Off-chain Crawling)

Сканирование ссылок: Переход по ссылкам. Выполнение вложенного сканирования (nested crawling) при необходимости (если первая ссылка ведет на страницу со второй ссылкой).
Получение актива: Извлечение фактического Digital Resource.
Генерация представления: Обработка актива с помощью Representation Model для создания Synthetic Representation (превью).

Этап 4: Оценка Качества и Индексирование

Оценка качества: Анализ актива с помощью Quality Model (разрешение, уникальность, безопасность контента). Принятие решения об индексации (полностью, частично или отказ).
Дедупликация: Сравнение с существующим индексом (включая данные из веб-источников).
Определение подлинности (Authenticity Determination): При обнаружении дубликатов запускается анализ для выбора канонической версии или объединения данных. Учитываются источник данных, Mint Date, обнаружение мошенничества. Принятие решения: сохранить (Keep), объединить (Merge) или удалить (Remove) запись.
Индексирование: Сохранение финальных данных в NFT Index Database.

Какие данные и как использует

Данные на входе

Технические факторы (Blockchain):
- Байт-код блокчейна (Blockchain Data).
- Смарт-контракты и их структура.
- Token ID и Contract Address.
- Ссылки (URI/URL/IPFS), найденные в блокчейне.
Контентные факторы:
- Descriptive Data (названия, описания, неструктурированный текст), извлеченные из кода или связанных метаданных.
- Digital Assets (изображения, видео, аудио), полученные в результате off-chain сканирования.
Транзакционные факторы:
- История транзакций (Transaction Data).
- Временные метки и Mint Date (Дата минтинга).
- Данные об участниках транзакций (адреса).
Структурные факторы:
- Соответствие стандартам токенов (Standard Data, например, EIP/ERC). Используется для идентификации NFT в коде блокчейна.

Какие метрики используются и как они считаются

Метрики Идентификации:
- Соответствие стандартам (детерминированное).
- Выходные данные Identification Model (вероятностные).
Метрики Качества (Quality): Используются для фильтрации и потенциального ранжирования.
- Resolution (Техническое качество актива).
- Differentiating (Уникальность актива, защита от спама/копий).
- Offensive/Vulgar (Безопасность контента).
Метрики Подлинности (Authenticity): Ключевой сигнал для ранжирования и дедупликации. Рассчитывается на основе:
- Анализа источника данных (Source Data) (приоритет on-chain).
- Сравнения дат минтинга (Mint Date) для определения оригинала.
- Анализа URL/URI (стабильность ссылок).
- Сигналов обнаружения мошенничества (Fraud Detection).
Сигналы Ранжирования: Патент явно упоминает Relevance, Authenticity и Context как факторы для ранжирования NFT результатов.
Алгоритмы машинного обучения:
- Identification Model, Segmentation Model, NLP models (для извлечения и классификации данных).
- Representation Model (для генерации превью).
- Quality Model (для оценки качества).

Выводы

Google строит выделенную инфраструктуру для Web3 поиска. Это не адаптация существующего веб-краулера, а разработка специализированных систем для сканирования блокчейнов, интерпретации смарт-контрактов и индексации NFT как нативных сущностей в отдельный NFT Index Database.
Критическая роль Off-Chain сканирования. Система активно использует ссылки (URI/URL) в блокчейне для доступа к цифровым активам, хранящимся вне его. Доступность и стабильность этих оффчейн-ресурсов являются обязательным условием для полноценной индексации и генерации превью (Synthetic Representations).
Подлинность (Authenticity) как новый фактор ранжирования. Патент вводит сложный механизм дедупликации и определения подлинности, используя дату минтинга, анализ транзакций и верификацию источников. Authenticity явно указана как один из трех ключевых сигналов ранжирования для NFT, наряду с Релевантностью и Контекстом.
Многоуровневая оценка качества контента. Google применяет к NFT фильтры качества, аналогичные тем, что используются для веб-контента, оценивая техническое качество (Resolution), уникальность (Differentiating) и безопасность контента (Offensive/Vulgar).
Активное использование ML и NLP для интерпретации блокчейна. Система полагается на модели машинного обучения (Identification и Segmentation Models) и NLP для понимания кода смарт-контрактов и извлечения описательных данных, что позволяет обрабатывать даже нестандартные реализации.
Интеграция в основной SERP. Подтверждено намерение отображать результаты NFT непосредственно в основной выдаче (Blended SERP), смешивая их с традиционными веб-результатами.

Практика

Best practices (это мы делаем)

Рекомендации для SEO-специалистов, работающих с NFT-проектами, маркетплейсами и креаторами (Web3 SEO):

Соблюдение стандартов токенов (EIP/ERC): Критически важно использовать стандартизированные смарт-контракты. Это основной способ, которым Identification Model Google обнаруживает и корректно парсит Token Data.
Обеспечение надежного и доступного хостинга активов: Убедитесь, что цифровой актив доступен по URI/URL, указанному в токене. Используйте стабильные решения (например, IPFS с надежным шлюзом). Если Google не сможет получить доступ к активу для генерации Synthetic Representation, индексация будет неполной.
Оптимизация метаданных (Descriptive Data): Включайте четкие, релевантные названия и подробные описания в метаданные NFT. Google использует NLP для извлечения этих данных, что формирует текстовую релевантность.
Приоритет качества и уникальности активов: Создавайте активы с высоким разрешением и уникальным содержанием. Метрики Resolution и Differentiating используются для фильтрации низкокачественного контента и спама.
Обеспечение чистоты транзакций: Поскольку Authenticity является фактором ранжирования и система использует Fraud Detection, избегайте подозрительных схем транзакций и стремитесь к прозрачности происхождения активов.

Worst practices (это делать не надо)

Использование нестабильных или временных ссылок на активы: Неработающие ссылки или частая смена URI без обновления данных в блокчейне приведут к ошибкам сканирования и потере видимости в поиске.
Создание массовых дубликатов или низкокачественного контента: Активы, помеченные как неуникальные или низкокачественные, будут пессимизированы системой оценки качества.
Использование нестандартных или обфусцированных смарт-контрактов: Сложный или нестандартный код может помешать системам идентификации Google распознать токен как NFT.
Игнорирование безопасности контента: Публикация вульгарного или оскорбительного контента без соответствующей маркировки приведет к его фильтрации в общем поиске (Vulgar/Offensive).

Стратегическое значение

Этот патент подтверждает намерение Google стать основным шлюзом для поиска в Web3. Он вводит новую парадигму SEO — Оптимизацию Цифровых Активов (Digital Asset Optimization). Видимость NFT теперь будет зависеть не только от популярности маркетплейсов, но и от того, насколько хорошо сам актив и его данные в блокчейне оптимизированы под требования сканирования, оценки качества и подлинности Google. Это может существенно изменить распределение трафика в экосистеме Web3.

Практические примеры

Сценарий: Обеспечение видимости и верификации новой коллекции NFT в Google

Задача: Запустить новую коллекцию NFT так, чтобы она корректно индексировалась и ранжировалась в Google как подлинная.
Действия по оптимизации:
1. Стандарт: Использовать стандарт ERC-721 для смарт-контракта.
2. Метаданные: Включить подробные Descriptive Data (название коллекции, номер токена, описание) в метаданные.
3. Хостинг: Разместить цифровые активы высокого разрешения на IPFS и убедиться, что URI в контракте ведут на надежный шлюз без редиректов.
4. Качество: Убедиться, что активы уникальны и не содержат запрещенного контента.
Процесс Google:
1. Google сканирует блокчейн и легко идентифицирует токены благодаря стандарту ERC-721.
2. Система извлекает метаданные и следует по URI.
3. Цифровой актив успешно получен, его высокое качество подтверждено, генерируется Synthetic Representation.
4. Authenticity Determination подтверждает, что это оригинальный минтинг.
Результат: Коллекция индексируется в NFT Index Database. При поиске по названию коллекции NFT появляются в SERP с превью и, возможно, значком подлинности (badge), опережая копии или мошеннические токены.

Вопросы и ответы

Что такое «Подлинность» (Authenticity) и как она влияет на ранжирование NFT?

Authenticity — это ключевой сигнал ранжирования, упомянутый в патенте наряду с релевантностью и контекстом. Она определяется путем сложного анализа, включающего проверку даты минтинга (Mint Date), анализ источника данных (on-chain надежнее off-chain), историю транзакций и обнаружение мошенничества (Fraud Detection). Цель — отделить оригинальные активы от копий или скама.

Как Google обрабатывает NFT, если цифровой актив (изображение/видео) хранится вне блокчейна (off-chain)?

Это стандартный сценарий, и система специально для него разработана. Она находит ссылку (URI/URL/IPFS) в данных блокчейна и выполняет сканирование (crawling) этой ссылки, чтобы получить фактический цифровой актив. Патент также описывает вложенное сканирование (nested crawling) для обработки редиректов. Доступность актива критически важна для индексации.

Какие критерии качества (Quality) Google применяет к NFT?

Патент описывает несколько критериев оценки качества. К ним относятся техническое качество актива (Resolution), его уникальность (Differentiating — защита от спама и незначительных вариаций), а также безопасность контента (отсутствие Offensive или Vulgar материалов). Низкое качество может привести к исключению из индекса.

Что происходит, если один и тот же NFT проиндексирован из разных источников (например, из блокчейна и с маркетплейса)?

Запускается процесс дедупликации (Deduplication). Система идентифицирует, что записи относятся к одному активу, и проводит Authenticity Determination. В результате система может выбрать каноническую запись (часто предпочитая данные из блокчейна), объединить (Merge) данные для обогащения индекса или удалить (Remove) менее надежную или дублирующую запись.

Что такое «Синтетическое представление» (Synthetic Representation) и как оно влияет на SEO?

Synthetic Representation — это превью или миниатюра цифрового актива, которую Google генерирует самостоятельно для отображения в SERP. Влияние на SEO значительно: качество и привлекательность этого превью будут напрямую влиять на CTR (Click-Through Rate) результатов поиска NFT.

Какие методы Google использует для обнаружения NFT в сложном коде блокчейна?

Используется гибридный подход. Во-первых, проверяется соответствие известным стандартам (например, EIP/ERC). Во-вторых, система ищет Blockchain Trigger Events (события смарт-контрактов). В-третьих, применяются модели машинного обучения (Identification Model) для распознавания паттернов, характерных для NFT, даже при отклонении от стандартов.

Какова роль NLP (обработки естественного языка) в индексации NFT?

NLP играет важную роль в извлечении Descriptive Data. Патент указывает на использование machine-learned natural language processing models для анализа сегментов данных токена (включая неструктурированный текст), чтобы понять название, описание и другие атрибуты NFT, что критично для определения текстовой релевантности.

Что должны делать создатели NFT для оптимизации своих активов под эту систему?

Ключевые действия: строгое соблюдение стандартов токенов, включение полных и точных описательных метаданных, а также обеспечение стабильного и доступного хостинга для цифрового актива по указанному в токене URI. Это три столпа для успешной индексации NFT в Google.

Как будут отображаться результаты NFT в поисковой выдаче?

Патент предлагает несколько вариантов интеграции. NFT Search Results могут смешиваться с общими веб-результатами, отображаться в виде выделенных блоков (например, каруселей изображений), появляться в Панелях Знаний (Knowledge Panel) и, вероятно, в вертикальных поисках, таких как Google Картинки. Они могут сопровождаться значками верификации (badge) или предупреждениями (warning).

Влияет ли этот патент на традиционное SEO для веб-сайтов?

Прямого влияния на ранжирование обычных сайтов нет. Однако косвенное влияние значительно: появление нативных результатов NFT в выдаче усилит конкуренцию за пространство в SERP и может снизить органический трафик на сайты маркетплейсов, так как пользователи смогут просматривать активы прямо в Google.