Чтение, индексация, анализ и краткое описание трассы индексации данных Web3

Данный документ исследует историю развития доступности данных в Блокчейне, сравнивает особенности архитектуры и применение технологий искусственного интеллекта трех сервисов данных: The Graph, Chainbase и Space and Time, указывая на направление развития услуг данных в Блокчейне в сторону интеллектуализации и обеспечения безопасности, их дальнейшую важную роль в качестве базовой инфраструктуры отрасли.

1. Введение

С самого начала волны dApp Etheroll, ETHLend и CryptoKitties в 2017 году до сегодняшнего дня, когда появилось множество финансовых, игровых и социальных dApp, основанных на разных блокчейнах, когда мы говорим о применении децентрализации в блокчейне, когда-нибудь ли мы задумывались о том, откуда берутся данные, которые используются во взаимодействии с этими dApp?

В 2024 году фокус будет сосредоточен на AI и Web3. В мире искусственного интеллекта данные подобны источнику его роста и эволюции. Как растение зависит от солнечного света и влаги для своего здоровья, также и системы искусственного интеллекта зависят от огромного объема данных для непрерывного «обучения» и «размышления». Без данных, даже самый утонченный алгоритм AI будет всего лишь воздушным замком, неспособным проявить свой должный интеллект и эффективность.

В данной статье с точки зрения доступности данных в блокчейне (Data Accessibility) подробно анализируется эволюция индексирования данных в индустрии развития блокчейна, а также сравниваются традиционный протокол индексирования данных The Graph с новыми развивающимися протоколами Chainbase и Space and Time. Особое внимание уделяется сравнению этих двух протоколов на основе их технологий и особенностей архитектуры данных и продуктов.

2. Сложность и простота индексации данных: от узлов блокчейна до базы данных всей цепочки

2.1 数据源头:Блок链节点

С самого начала, когда мы понимаем, «что такое цепочка Блок», мы часто встречаем фразу: цепочка Блок — это бухгалтерская книга Децентрализации. Блок Chain Узел является основой всей сети Блок Chain и берет на себя ответственность за запись, хранение и распространение всех данных о транзакциях в цепочке. Каждый узел имеет полную копию данных цепочки блоков, что обеспечивает сохранение характеристик децентрализации сети. Тем не менее, среднестатистическому пользователю непросто построить и поддерживать Блок цепной узел самостоятельно. Это не только требует технических знаний, но и сопряжено с высокими затратами на оборудование и пропускную способность. В то же время обычные возможности запросов Узел ограничены и не могут запрашивать данные в том формате, который нужен разработчикам. Таким образом, если теоретически каждый может запустить свой собственный Узел, то на практике пользователи часто более склонны полагаться на сторонние сервисы.

Для решения этой проблемы появились провайдеры Узлов RPC (удаленный вызов процедуры). Эти провайдеры ответственны за стоимость и управление Узлами и предоставляют данные через конечные точки RPC. Это позволяет пользователям легко получать доступ к данным блокчейна без необходимости создания своих собственных Узлов. Общедоступные конечные точки RPC бесплатны, но имеют ограничения скорости, которые могут негативно сказаться на пользовательском опыте дApp. Частные конечные точки RPC предоставляют лучшую производительность за счет снижения нагрузки, но даже простой запрос данных требует много общения туда и обратно. Это делает их запросы тяжеловесными и неэффективными для сложных запросов данных. Кроме того, частные конечные точки RPC часто сложно масштабировать и не совместимы между различными сетями. Однако стандартизированные API-интерфейсы провайдеров Узлов предоставляют пользователям более низкий порог доступа к данным в блокчейне, что положило основу для последующего анализа данных и разработки приложений.

2.2 Разбор данных: от исходных данных до используемых данных

Данные, полученные с узлов Блокчейна, часто представляют собой исходные данные, которые были зашифрованы и закодированы. Эти данные, хотя и сохраняют целостность и безопасность Блокчейна, также увеличивают сложность анализа данных. Для обычных пользователей или разработчиков прямая обработка этих исходных данных требует большого объема технических знаний и вычислительных ресурсов.

В процессе анализа данных в этом контексте особенно важно процесс разбора данных. Путем анализа сложных исходных данных и преобразования их в более понятный и удобный формат пользователи могут более наглядно понимать и использовать эти данные. Успех анализа данных напрямую определяет эффективность и эффект использования данных на блокчейне, являясь ключевым этапом всего процесса индексации данных.

2.3 Эволюция индексатора данных

С увеличением объема данных в блокчейне растет и спрос на индексаторы данных. Индексаторы играют жизненно важную роль в организации данных в блокчейне и их отправке в базу данных для последующего запроса. Принцип работы индексатора заключается в индексации данных блокчейна и предоставлении их в любое время с помощью языка запросов, подобного SQL (например, API GraphQL). Предоставляя унифицированный интерфейс для запросов данных, индексаторы позволяют разработчикам быстро и точно извлекать необходимую информацию с помощью стандартизированного языка запросов, что значительно упрощает процесс.

Различные типы индексов оптимизируют поиск данных различными способами:

· Полный индексатор узла: эти индексаторы запускают полный узел Блокчейна и извлекают данные непосредственно из него, обеспечивая целостность и точность данных, но требуют большого объема хранения и вычислительных ресурсов.

· Легковесный индексатор: эти индексаторы зависят от полного Узела для извлечения конкретных данных по мере необходимости, что позволяет сократить требования к хранению, но может увеличить время запроса.

· Специальные индексаторы: Эти индексаторы предназначены специально для определенных типов данных или конкретных блокчейнов и могут оптимизировать поиск для определенных случаев использования, таких как данные о Невзаимозаменяемом токене или сделки с Децентрализованными финансами.

· Агрегатор индексов: эти индексаторы извлекают данные из нескольких блокчейнов и источников, включая информацию вне блокчейна, и предоставляют единый интерфейс запросов, что особенно полезно для многоцепных dApp.

В настоящее время архивный узел Ethereum (Archive Node) в клиенте Geth занимает около 13,5 ТБ места для хранения, а в клиенте Erigon требуется около 3 ТБ для архива. С увеличением блокчейна объем хранения данных архивного узла также будет расти. С таким огромным объемом данных основной протокол индексации не только поддерживает индексацию нескольких цепей, но также специально разработал фреймворк для анализа данных различных приложений. Например, фреймворк "подграф" (Subgraph) The Graph - это типичный случай.

Появление индексатора значительно повысило эффективность индексации и запросов данных. По сравнению с традиционными конечными точками RPC, индексатор может эффективно индексировать большое количество данных и поддерживать быстрые запросы. Эти индексаторы позволяют пользователям выполнять сложные запросы, легко фильтровать данные и проводить анализ после извлечения. Кроме того, некоторые индексаторы поддерживают агрегацию данных из нескольких источников блокчейна, избегая проблемы необходимости развертывания нескольких API в многоканальном dApp. За счет распределенного выполнения на нескольких узлах, индексаторы обеспечивают не только большую безопасность и производительность, но и уменьшают риск прерываний и простоев, которые могут возникнуть у централизованных поставщиков RPC.

По сравнению с этим, индексатор позволяет пользователям напрямую получать необходимую информацию без необходимости обрабатывать сложные базовые данные с помощью заранее определенного языка запросов. Этот механизм значительно повышает эффективность и надежность поиска данных и является важным инновационным элементом доступа к данным 01928374656574839201.

2.4 Полная цепочка баз данных: выравнивание с приоритетом потока

Использование Узла индекса для запроса данных часто означает, что API становится единственным порталом для обработки данных в блокчейне. Однако, когда проект переходит в стадию масштабирования, часто требуется более гибкий источник данных, который не может быть предоставлен стандартным API. С развитием потребностей приложений, примитивные индексаторы данных и их стандартизированные форматы индекса постепенно становятся непригодными для удовлетворения все более разнообразных запросов, таких как поиск, взаимодействие через кросс-чейн или отображение данных вне блокчейна.

В современной архитектуре потоковых данных «метод приоритета потоков» стал одним из решений ограничений традиционной пакетной обработки, что позволяет осуществлять получение, обработку и анализ данных в реальном времени. Этот сдвиг в парадигме позволяет организациям немедленно реагировать на поступающие данные и практически мгновенно получать представления и принимать решения. Аналогично, развитие провайдеров услуг по блокчейн-данным также идет в направлении создания потоков данных блокчейна, и традиционные поставщики индексаторов постепенно выпускают продукты, позволяющие получать реальные данные блокчейна в виде потока, например Substreams от The Graph, Mirror от Goldsky, а также Chainbase и SubSquid, которые генерируют поток данных в реальном времени на основе блокчейна.

Эти услуги направлены на решение потребностей в реальном времени анализе транзакций в блокчейне и предоставлении более полных возможностей для запросов. Как и архитектура с приоритетом потока, которая уменьшает задержку и улучшает отклик, инновируя обработку и потребление данных в традиционных каналах передачи данных, эти поставщики потока данных в блокчейне также надеются на более продвинутые и зрелые источники данных, чтобы поддерживать развитие большего числа приложений и помогать в анализе данных в блокчейне.

С точки зрения современного конвейера данных переопределение вызовов данных в блокчейне, мы можем рассматривать управление, хранение и предоставление данных в блокчейне с совершенно новой точки зрения. Когда мы начинаем рассматривать индексаторы, такие как подграфики и ETH ETL, как потоки данных в конвейере данных, а не как окончательный результат, мы можем представить мир, способный настроить высокопроизводительные наборы данных для любого бизнес-кейса.

3. ИИ + база данных? Глубокое сравнение The Graph, Chainbase, Space and Time

3.1 Граф

Сеть The Graph реализует многоканальный индекс и сервис запросов данных через Децентрализация сеть Узел, способствуя удобному индексированию данных блокчейна разработчиками и созданию Децентрализация приложений. Основная модель продукта - это рынок выполнения запросов данных и рынок кэширования индексов данных, оба эти рынки по сути служат запросам пользователей продуктов, причем рынок выполнения запросов данных конкретно означает, что потребители выбирают подходящего Узел для предоставления данных и оплачивают его, а рынок кэширования индексов данных - это рынок, на котором Узел согласно исторической популярности подграфов, сбору сборов за запросы, и в блокчейне активации потребностей куратора подграфов, распределяет ресурсы.

Subgraphs - это базовая структура данных в сети The Graph. Они определяют, как извлекать и преобразовывать данные из блокчейна в формат, доступный для запросов (например, с помощью схемы GraphQL). Любой может создать субграф, и несколько приложений могут повторно использовать эти субграфы, что повышает их повторное использование и эффективность использования данных.

Сеть The Graph состоит из четырех ключевых ролей: индексаторов, кураторов, делегатов и разработчиков, которые вместе обеспечивают поддержку данных для приложений web3. Вот их соответствующие обязанности:

· Индексатор: Индексатор - это оператор узла в сети The Graph, который участвует в сети, застейкав GRT (оригинальный токен The Graph) и предоставляет услуги индексации и обработки запросов.

· Delegator: Delegator - это пользователи, которые застейкают токены GRT для поддержки работы узла индексации. Delegator получает часть вознаграждения от узла, на который он делегировал свои токены.

· Куратор: Куратор отвечает за то, какие подграфы должны быть индексированы в сети. Куратор помогает гарантировать, что ценные подграфы обрабатываются в приоритетном порядке.

· Разработчик (Developer): В отличие от предыдущих трех, разработчик является потребителем, основным пользователем The Graph. Они создают и отправляют подграфы в сеть The Graph, ожидая удовлетворения запросов на данные.

В настоящее время The Graph полностью перешел к децентрализованным услугам хостинга подграфов, где между различными участниками существует экономический стимул для обеспечения функционирования системы:

· Награда узла индекса: Узел индекса получает доход от платы за запросы потребителя и части награды за блок в виде токенов GRT.

· Вознаграждение заказчика: Заказчик получает часть вознаграждения через Узел индекса, который он поддерживает.

· Награда за кураторство: если куратор сигнализирует о ценной подграфике, он может получить часть вознаграждения из сборов за запросы.

Фактически, продукты The Graph также быстро развиваются в волне искусственного интеллекта. Как одна из основных команд разработчиков экосистемы The Graph, Semiotic Labs постоянно стремится использовать технологии AI для оптимизации ценообразования индексов и опыта запроса пользователей. В настоящее время инструменты AutoAgora, Allocation Optimizer и AgentC, разработанные Semiotic Labs, улучшают производительность экосистемы в нескольких аспектах.

· AutoAgora внедряет механизм динамического ценообразования, который в режиме реального времени корректирует цены на основе объема запросов и использования ресурсов, оптимизируя стратегию ценообразования для максимизации конкурентоспособности и доходности индексатора.

· Оптимизатор выделения решает сложную проблему выделения ресурсов подграфа, помогая индексатору достичь оптимальной конфигурации ресурсов для увеличения дохода и производительности.

· AgentC - это экспериментальный инструмент, который позволяет пользователям получать доступ к блокчейн-данным The Graph на естественном языке, тем самым улучшая пользовательский опыт.

Применение этих инструментов позволяет The Graph в сочетании с искусственным интеллектом дальше повышать интеллектуальность и пользовательскую дружественность системы.

3.2 База цепи

Chainbase - это сеть данных всей цепочки, которая объединяет все данные Блокчейна на одной платформе, что облегчает разработчикам создание и поддержку приложений. Его уникальные возможности включают:

· Реальное время хранения данных: Chainbase предоставляет специальное хранилище данных в режиме реального времени для потоков данных в Блокчейне, что позволяет получать доступ к данным сразу после их генерации.

· Двухцепочечная архитектура: Chainbase создает исполняющий слой на основе Eigenlayer AVS, который параллельно работает с алгоритмом согласования CometBFT. Такой дизайн повышает программирование и комбинируемость взаимодействия данных между цепями, обеспечивает высокую пропускную способность, низкую задержку и окончательность, а также повышает безопасность сети с помощью двойной стейкинг модели.

· Инновационный стандарт формата данных: Chainbase представляет новый стандарт формата данных, называемый «manuscripts», который оптимизирует структурирование и использование данных в области шифрования.

· Модель мира шифрования: С помощью своих огромных ресурсов данных Блокчейна, Chainbase, совместно с технологией моделей искусственного интеллекта, создала модель искусственного интеллекта Theia, способную эффективно понимать, прогнозировать и взаимодействовать с транзакциями Блокчейна. В настоящее время базовая версия модели Theia доступна для публичного использования.

Эти функции выделяют Chainbase в Протоколе индексации блокчейна, особенно уделяют внимание доступности данных в реальном времени, инновационному формату данных и созданию более интеллектуальных моделей для повышения проницательности путем комбинирования данных в блокчейне и вне блокчейна.

AI-модель Theia Chainbase - ключевая особенность, которая отличает ее от других служб данных Протокола. Theia основана на модели DORA, разработанной NVIDIA, которая объединяет данные в блокчейне и вне блокчейна, а также пространственно-временные активности, изучает и анализирует шифрование и реагирует на него с использованием причинно-следственного вывода, чтобы более глубоко раскрыть потенциальную ценность и закономерности данных в блокчейне и предоставить пользователям более интеллектуальные службы данных.

Служба данных, поддерживаемая искусственным интеллектом, делает Chainbase более конкурентоспособным по сравнению с простым Блокчейн-сервисом, превращая его в интеллектуального поставщика данных. Благодаря мощным данным и активному анализу искусственного интеллекта Chainbase способен предоставлять более широкие инсайты и оптимизировать процесс обработки данных пользователей.

3.3 Пространство и время

Space and Time (SxT) стремится создать верифицируемый вычислительный слой, расширяя Доказательство с нулевым разглашением на Децентрализация хранилище данных, обеспечивая надежную обработку данных для Смарт-контракт, больших языковых моделей и предприятий. В настоящее время Space and Time получила последний раунд финансирования серии A в размере 20 миллионов долларов, за которым последовали Framework Ventures, Lightspeed Faction, Arrington Capital и Hivemind Capital.

В области индексации и проверки данных Space and Time представляет новый технологический путь - Proof of SQL. Это инновационная технология Proof of SQL, разработанная Space and Time, обеспечивает неподдельность и проверяемость SQL-запросов, выполняемых на децентрализованном хранилище данных. При выполнении запроса Proof of SQL генерирует доказательство шифрования, проверяющее целостность и точность результатов запроса. Это доказательство прикрепляется к результату запроса, позволяя независимо подтверждать, что данные не подверглись подмене в процессе обработки, любым валидаторам (например, смарт-контрактам). Традиционные блокчейн-сети обычно полагаются на механизмы консенсуса для проверки подлинности данных, в то время как Proof of SQL Space and Time реализует более эффективный способ проверки данных. В системе Space and Time один узел отвечает за получение данных, а другие узлы проверяют подлинность этих данных с помощью zk-технологии. Этот подход изменяет расход ресурсов на множественную индексацию одних и тех же данных разными узлами в рамках механизма консенсуса, повышая общую производительность системы. С развитием этой технологии она становится основой для создания продуктов на блокчейне, ориентированных на надежность данных, в различных традиционных отраслях.

В то же время SxT тесно сотрудничает с исследовательской лабораторией искусственного интеллекта Microsoft, ускоряя разработку инструментов генерации искусственного интеллекта, чтобы облегчить пользователям обработку данных блокчейна с помощью естественного языка. В настоящее время пользователи могут воспользоваться возможностью ввода запросов на естественном языке в Space and Time Studio, и искусственный интеллект автоматически преобразует их в SQL и выполняет запросы для представления пользователю конечных результатов, которые ему необходимы.

3.4 сравнение различий

4. Заключение и перспективы

В целом, технология индексации данных блокчейна претерпела постепенное совершенствование от исходного источника данных Узла до развития анализатора данных и индексатора, и, наконец, до полной сервисной поддержки данных, обеспеченной искусственным интеллектом. Этот постоянный процесс улучшения технологий не только повысил эффективность и точность доступа к данным, но и предоставил пользователям непревзойденный интеллектуальный опыт.

Взглянув в будущее, с развитием технологий и новых технологий, таких как Доказательство с нулевым разглашением, услуги данных Блокчейн будут становиться более интеллектуальными и безопасными. Мы имеем все основания полагать, что услуги данных Блокчейн и впредь будут играть важную роль в качестве инфраструктуры, обеспечивая мощную поддержку для прогресса и инноваций в отрасли.

Заявление:

  1. Эта статья была опубликована на [Trustless Labs](https://x.com/TrustlessLabs/status/1833815530647834843)] и является авторским переводом [Trustless Labs]. Если у вас возникли возражения по поводу публикации, пожалуйста, свяжитесь с командой [Gate Learn](https://www.gate.io/questionnaire/3967, и мы постараемся решить вопрос в кратчайшие сроки.

  2. Отказ от ответственности: высказывания и мнения, выраженные в данной статье, представляют собой только личное мнение автора и не являются инвестиционным советом.

  3. Другие языковые версии статьи переведены командой Gate Learn. Нельзя копировать, распространять или плагиатировать переведенные статьи без упоминания Gate.io.

Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить