Lapisan Data Terdesentralisasi: Infrastruktur Baru untuk Era Kecerdasan Buatan #247

Menengah

11/26/2024, 4:28:16 AM

Sebelumnya kami membahas bagaimana AI dan Web3 dapat melengkapi satu sama lain di berbagai industri seperti jaringan komputasi, platform perantara, dan aplikasi konsumen. Ketika fokus pada sumber daya data sebagai bidang vertikal, proyek Web yang muncul menawarkan kemungkinan baru untuk perolehan, berbagi, dan pemanfaatan data.

TL/DR

Kami sebelumnya membahas bagaimana AI dan Web3 dapat melengkapi satu sama lain di berbagai industri seperti jaringan komputasi, platform perantara, dan aplikasi konsumen. Ketika fokus pada sumber daya data sebagai bidang vertikal, proyek Web baru menawarkan kemungkinan baru untuk perolehan, berbagi, dan pemanfaatan data.

Penyedia data tradisional berjuang untuk memenuhi permintaan data berkualitas tinggi, real-time, dan dapat diverifikasi dalam AI dan industri lain yang berbasis data, terutama dalam hal transparansi, kontrol pengguna, dan perlindungan privasi.
Solusi Web3 sedang mengubah ekosistem data. Teknologi seperti MPC (Multi-Party Computation), bukti pengetahuan nol, dan Notaris TLS memastikan keaslian dan privasi data selama aliran di antara beberapa sumber, sementara penyimpanan terdistribusi dan komputasi tepi menawarkan fleksibilitas dan efisiensi yang lebih tinggi dalam pemrosesan data real-time.
Jaringan data terdesentralisasi sebagai infrastruktur yang sedang berkembang telah melahirkan beberapa proyek representatif seperti OpenLayer (sebuah lapisan data nyata modular), Grass (memanfaatkan bandwidth idle pengguna dan jaringan node crawler terdesentralisasi), dan Vana (sebuah jaringan Layer 1 kedaulatan data pengguna), yang membuka prospek baru untuk bidang-bidang seperti pelatihan dan aplikasi AI melalui jalur teknologi yang berbeda.
Dengan memanfaatkan kapasitas kolaboratif, lapisan abstraksi tanpa kepercayaan, dan mekanisme insentif berbasis token, infrastruktur data terdesentralisasi dapat memberikan solusi yang lebih pribadi, aman, efisien, dan hemat biaya dibandingkan dengan raksasa Web2. Ini juga memberdayakan pengguna dengan kontrol atas data dan sumber daya terkait mereka, membangun ekosistem digital yang lebih terbuka, aman, dan saling terhubung.

1. Lonjakan Permintaan Data

Data telah menjadi pendorong utama inovasi dan pengambilan keputusan di seluruh industri. UBS memprediksi bahwa volume data global akan tumbuh sepuluh kali lipat dari 2020 hingga 2030, mencapai 660 ZB. Pada tahun 2025, setiap individu secara global diharapkan menghasilkan 463 EB (Exabytes, 1 EB = 1 miliar GB) data setiap hari. Pasar Data-as-a-Service (DaaS) berkembang pesat. Menurut Grand View Research, pasar DaaS global bernilai $14.36 miliar pada tahun 2023 dan diperkirakan akan tumbuh pada tingkat pertumbuhan tahunan gabungan (CAGR) sebesar 28.1%, mencapai $76.8 miliar pada tahun 2030.

Pelatihan model AI sangat bergantung pada kumpulan data besar untuk mengidentifikasi pola dan menyesuaikan parameter. Setelah pelatihan, kumpulan data juga diperlukan untuk menguji kinerja model dan kemampuan generalisasi. Selain itu, agen AI, sebagai bentuk aplikasi cerdas yang muncul, memerlukan sumber data real-time dan dapat diandalkan untuk memastikan pengambilan keputusan yang akurat dan pelaksanaan tugas.

(Sumber: Leewayhertz)

Permintaan untuk analitik bisnis juga menjadi lebih beragam dan luas, menjadi alat inti yang mendorong inovasi perusahaan. Misalnya, platform media sosial dan perusahaan riset pasar membutuhkan data perilaku pengguna yang dapat diandalkan untuk merumuskan strategi dan menganalisis tren, mengintegrasikan data yang beragam dari berbagai platform sosial untuk membangun gambaran yang lebih komprehensif.

Untuk ekosistem Web3, data yang dapat diandalkan dan otentik juga diperlukan di rantai untuk mendukung produk keuangan baru. Ketika aset yang lebih inovatif ditokenisasi, antarmuka data yang fleksibel dan dapat diandalkan diperlukan untuk mendukung pengembangan produk dan manajemen risiko, memungkinkan kontrak pintar untuk dieksekusi berdasarkan data real-time yang dapat diverifikasi.

Selain itu, kasus penggunaan dalam penelitian ilmiah, IoT, dan bidang lainnya menunjukkan permintaan yang melonjak untuk data yang beragam, otentik, dan real-time. Sistem tradisional mungkin kesulitan mengatasi volume data yang terus meningkat dan tuntutan yang selalu berubah.

2. Batasan dan Tantangan dari Ekosistem Data Tradisional

Ekosistem data tipikal mencakup pengumpulan data, penyimpanan, pemrosesan, analisis, dan aplikasi. Model terpusat ditandai dengan pengumpulan dan penyimpanan data terpusat, dikelola oleh tim IT inti dengan kontrol akses yang ketat. Misalnya, ekosistem data Google mencakup berbagai sumber data seperti mesin pencari, Gmail, dan sistem operasi Android. Platform-platform ini mengumpulkan data pengguna, menyimpannya di pusat data yang didistribusikan secara global, dan memprosesnya menggunakan algoritma untuk mendukung pengembangan dan optimasi berbagai produk dan layanan.

Di pasar keuangan, LSEG (sebelumnya Refinitiv) mengumpulkan data real-time dan historis dari bursa global, bank, dan lembaga keuangan utama, sambil menggunakan jaringan Reuters News miliknya untuk mengumpulkan berita terkait pasar. Mereka memproses informasi ini menggunakan algoritma dan model miliknya untuk menghasilkan produk analisis dan penilaian risiko sebagai layanan tambahan bernilai.

(Sumber: kdnuggets.com)

Sementara arsitektur data tradisional efektif dalam layanan profesional, batasan model terpusat menjadi semakin jelas, terutama dalam mencakup sumber data baru, transparansi, dan perlindungan privasi pengguna. Berikut adalah beberapa masalah utama:

Cakupan Data yang Kurang Memadai: Penyedia data tradisional kesulitan untuk menangkap dan menganalisis sumber data yang muncul seperti sentimen media sosial dan data perangkat IoT dengan cepat. Sistem terpusat merasa sulit untuk memperoleh dan mengintegrasikan data “panjang ekor” secara efisien dari berbagai sumber kecil atau non-mainstream.

Sebagai contoh, peristiwa GameStop 2021 mengungkapkan keterbatasan penyedia data keuangan tradisional dalam menganalisis sentimen media sosial. Sentimen investor di platform seperti Reddit dengan cepat mempengaruhi tren pasar, tetapi terminal data seperti Bloomberg dan Reuters gagal menangkap dinamika ini tepat waktu, sehingga menyebabkan proyeksi pasar terlambat.

Akses Data Terbatas: Monopoli membatasi akses. Banyak penyedia tradisional membuka bagian dari data mereka melalui API/layanan cloud, namun biaya akses tinggi dan proses otorisasi yang kompleks meningkatkan kesulitan integrasi data. Pengembang on-chain kesulitan mengakses data off-chain yang dapat diandalkan dengan cepat, dengan data berkualitas tinggi dimonopoli oleh beberapa raksasa dengan biaya tinggi.
Masalah Transparansi dan Kepercayaan Data: Banyak penyedia data terpusat kurang transparansi dalam metode pengumpulan dan pemrosesan datanya. Mekanisme yang efektif untuk memverifikasi keaslian dan kelengkapan data dalam skala besar juga kurang. Memverifikasi data real-time dalam skala besar tetap kompleks, dan sifat terpusat meningkatkan risiko manipulasi atau pemalsuan data.
Perlindungan Privasi dan Kepemilikan Data: Perusahaan teknologi besar telah mengkomersialisasi data pengguna secara luas. Pengguna, sebagai pencipta data pribadi, jarang mendapatkan nilai yang pantas darinya. Mereka seringkali tidak dapat memahami bagaimana data mereka dikumpulkan, diproses, atau digunakan, juga tidak dapat menentukan lingkup dan cara penggunaannya. Pengumpulan berlebihan dan penyalahgunaan juga mengakibatkan risiko privasi yang serius. Sebagai contoh, skandal Cambridge Analytica Facebook mengekspos kelemahan yang signifikan dalam transparansi dan perlindungan privasi dalam ekosistem data tradisional.
Silo Data: Data real-time dari berbagai sumber dan format menantang untuk diintegrasikan dengan cepat, menghambat analisis komprehensif. Sebagian besar data ini tetap terkunci dalam organisasi, membatasi berbagi dan inovasi lintas industri dan lintas organisasi. Efek "silo data" ini menghambat integrasi dan analisis data lintas domain. Misalnya, dalam industri konsumen, merek perlu mengintegrasikan data dari platform e-commerce, toko fisik, media sosial, dan riset pasar, tetapi kumpulan data ini mungkin terisolasi karena ketidakkonsistenan atau pemisahan platform. Demikian pula, perusahaan berbagi tumpangan seperti Uber dan Lyft mengumpulkan sejumlah besar data real-time tentang lalu lintas, permintaan penumpang, dan lokasi geografis, tetapi dinamika persaingan mencegah kumpulan data ini dibagikan atau diintegrasikan.

Di luar masalah-masalah ini, penyedia data tradisional menghadapi tantangan terkait efisiensi biaya dan fleksibilitas. Meskipun mereka sedang aktif mengatasi masalah-masalah ini, teknologi Web3 yang muncul memberikan perspektif dan kemungkinan baru untuk mengatasinya.

3. Ekosistem Data Web3

Sejak diluncurkannya solusi penyimpanan terdesentralisasi seperti IPFS (InterPlanetary File System) pada tahun 2014, sejumlah proyek yang muncul bertujuan untuk mengatasi keterbatasan ekosistem data tradisional. Solusi data terdesentralisasi telah berkembang menjadi ekosistem berlapis-lapis yang saling terhubung yang mencakup semua tahap siklus hidup data, termasuk generasi data, penyimpanan, pertukaran, pemrosesan dan analisis data, verifikasi dan keamanan, serta privasi dan kepemilikan.

Penyimpanan Data: Perkembangan pesat Filecoin dan Arweave menunjukkan bahwa penyimpanan terdesentralisasi (DCS) menjadi pergeseran paradigma di bidang penyimpanan. DCS mengurangi titik kegagalan tunggal melalui arsitektur terdistribusi sambil menarik peserta dengan efisiensi biaya yang kompetitif. Dengan munculnya aplikasi berskala besar, kapasitas penyimpanan DCS telah berkembang secara eksponensial (misalnya, kapasitas penyimpanan jaringan total Filecoin mencapai 22 eksabyte pada tahun 2024).
Pemrosesan dan Analisis: Platform komputasi data terdesentralisasi seperti Fluence meningkatkan kinerja dan efisiensi pemrosesan data real-time melalui edge computing, terutama untuk skenario aplikasi real-time seperti IoT dan inferensi AI. Proyek Web3 memanfaatkan teknologi seperti federated learning, differential privacy, trusted execution environments, dan fully homomorphic encryption untuk menyediakan perlindungan privasi yang fleksibel di lapisan komputasi.
Pasar Data / Platform Pertukaran: Untuk memfasilitasi penilaian dan sirkulasi data, Ocean Protocol menggunakan mekanisme tokenisasi dan DEX untuk menciptakan saluran pertukaran data yang efisien dan terbuka. Sebagai contoh, mereka telah bekerja sama dengan Daimler (perusahaan induk Mercedes-Benz) untuk mengembangkan pasar pertukaran data untuk manajemen rantai pasokan. Di sisi lain, Streamr telah mengembangkan jaringan aliran data berbasis langganan yang tanpa izin yang disesuaikan untuk IoT dan skenario analitik real-time, menunjukkan potensi luar biasa dalam proyek transportasi dan logistik (misalnya, bekerja sama dengan proyek kota pintar di Finlandia).

Dengan peningkatan pertukaran dan pemanfaatan data, memastikan keaslian, kepercayaan, dan privasi telah menjadi hal yang kritis. Hal ini mendorong ekosistem Web3 untuk berinovasi dalam verifikasi data dan perlindungan privasi, yang mengarah pada solusi-solusi terobosan.

3.1 Inovasi dalam Verifikasi Data dan Perlindungan Privasi

Banyak teknologi Web3 dan proyek asli yang fokus pada mengatasi masalah otentikasi data dan perlindungan privasi. Selain adopsi teknologi seperti Zero-Knowledge Proofs (ZK) dan Multi-Party Computation (MPC), TLS Notary telah muncul sebagai metode verifikasi baru yang patut diperhatikan.

Pengenalan tentang TLS Notary

Protokol Keamanan Lapisan Transport (TLS) adalah protokol enkripsi yang banyak digunakan untuk komunikasi jaringan. Tujuan utamanya adalah untuk memastikan keamanan, integritas, dan kerahasiaan transmisi data antara klien dan server. TLS adalah standar enkripsi umum dalam komunikasi jaringan modern, diterapkan dalam skenario seperti HTTPS, email, dan pesan instan.

(Prinsip Enkripsi TLS, Sumber: TechTarget)

Ketika TLS Notary pertama kali diperkenalkan satu dekade yang lalu, tujuannya adalah untuk memverifikasi keaslian sesi TLS dengan memperkenalkan pihak ketiga "notaris" di luar klien (prover) dan server.

Dengan teknologi pembelahan kunci, kunci utama sesi TLS dibagi menjadi dua bagian, dipegang secara terpisah oleh klien dan notaris. Desain ini memungkinkan notaris untuk berpartisipasi sebagai pihak ketiga terpercaya dalam proses verifikasi tanpa mengakses konten komunikasi sebenarnya. Mekanisme ini bertujuan untuk mendeteksi serangan man-in-the-middle, mencegah sertifikat palsu, dan memastikan bahwa data komunikasi tidak dimanipulasi selama transmisi. Ini juga memungkinkan pihak ketiga terpercaya untuk mengonfirmasi legitimasi komunikasi sambil melindungi privasi.

Dengan demikian, TLS Notary menawarkan verifikasi data yang aman dan efektif dalam menyeimbangkan kebutuhan verifikasi dengan perlindungan privasi.

Pada tahun 2022, proyek TLS Notary diubah strukturnya oleh laboratorium riset Privacy and Scaling Exploration (PSE) dari Ethereum Foundation. Versi baru dari protokol TLS Notary ditulis ulang dari awal dalam bahasa pemrograman Rust dan diintegrasikan dengan protokol kriptografi yang lebih canggih seperti MPC. Pembaruan ini memungkinkan pengguna untuk membuktikan keaslian data yang diterima dari server kepada pihak ketiga tanpa harus mengungkapkan konten data. Sementara mempertahankan kemampuan verifikasi inti, TLS Notary baru secara signifikan meningkatkan perlindungan privasi, menjadikannya lebih sesuai untuk persyaratan privasi data saat ini dan masa depan.

3.2 Variasi dan Ekstensi TLS Notary

Dalam beberapa tahun terakhir, teknologi TLS Notary terus berkembang, menghasilkan berbagai turunan yang lebih meningkatkan kemampuan privasi dan verifikasinya:

zkTLS: Versi yang ditingkatkan privasinya dari TLS Notary yang mengintegrasikan teknologi ZKP, memungkinkan pengguna untuk menghasilkan bukti kriptografis dari data halaman web tanpa mengekspos informasi sensitif apa pun. Ini sangat cocok untuk skenario komunikasi yang membutuhkan perlindungan privasi tinggi.
3P-TLS (Three-Party TLS): Protokol ini memperkenalkan tiga pihak—klien, server, dan auditor—memungkinkan auditor untuk memverifikasi keamanan komunikasi tanpa mengungkapkan konten. Protokol ini berguna dalam skenario yang membutuhkan transparansi dan privasi, seperti audit kepatuhan atau tinjauan transaksi keuangan.

Proyek Web3 memanfaatkan teknologi kriptografi ini untuk meningkatkan verifikasi data dan perlindungan privasi, menangani masalah seperti monopoli data, silo, dan transmisi terpercaya. Pengguna dapat memverifikasi kepemilikan akun media sosial, catatan belanja untuk pinjaman keuangan, riwayat kredit perbankan, latar belakang profesional, dan kredensial akademis secara aman tanpa mengorbankan privasi mereka. Contohnya termasuk:

Protokol Reclaim: Menggunakan zkTLS untuk menghasilkan bukti kebenaran nol lalu lintas HTTPS, memungkinkan pengguna untuk mengimpor aktivitas, reputasi, dan data identitas dari situs web eksternal secara aman tanpa mengekspos informasi sensitif.
zkPass: Menggabungkan teknologi 3P-TLS untuk memungkinkan pengguna memverifikasi data dunia nyata secara aman, dengan aplikasi dalam layanan KYC dan kredit. Juga kompatibel dengan jaringan HTTPS.
Jaringan Opacity: Dibangun di atas zkTLS, memungkinkan pengguna untuk membuktikan secara aman aktivitas mereka di platform seperti Uber, Spotify, dan Netflix tanpa langsung mengakses API platform-platform ini, memungkinkan verifikasi aktivitas lintas platform.

(Proyek yang Bekerja pada Oracle TLS, Sumber: Bastian Wetzel)

Verifikasi data dalam Web3 adalah tautan penting dalam ekosistem data, dengan prospek aplikasi yang luas. Berkembangnya ekosistem ini mengarahkan ekonomi digital menuju model yang lebih terbuka, dinamis, dan berpusat pada pengguna. Namun, pengembangan teknologi verifikasi keaslian hanya merupakan awal dari membangun infrastruktur data generasi berikutnya.

4. Jaringan Data Terdesentralisasi

Beberapa proyek telah menggabungkan teknologi verifikasi data yang disebutkan di atas dengan eksplorasi lebih lanjut pada ekosistem data hulu, seperti pelacakan data, pengumpulan data terdistribusi, dan transmisi terpercaya. Di bawah ini, kami menyoroti tiga proyek perwakilan—OpenLayer, Grass, dan Vana—yang menunjukkan potensi unik dalam membangun infrastruktur data generasi mendatang.

4.1 OpenLayer

OpenLayer, salah satu proyek dari a16z Crypto 2024 Spring Startup Accelerator, adalah lapisan data otentik modular pertama. Tujuannya adalah menyediakan solusi modular inovatif untuk mengkoordinasikan pengumpulan data, verifikasi, dan transformasi, memenuhi kebutuhan perusahaan Web2 dan Web3. OpenLayer telah mendapatkan dukungan dari dana terkemuka dan investor malaikat, termasuk Geometry Ventures dan LongHash Ventures.

Lapisan data tradisional menghadapi banyak tantangan: kurangnya mekanisme verifikasi yang dapat diandalkan, ketergantungan pada arsitektur terpusat yang membatasi aksesibilitas, kurangnya interoperabilitas dan aliran antara sistem yang berbeda, serta absennya mekanisme distribusi nilai data yang adil.

Masalah yang lebih spesifik adalah semakin langkanya data pelatihan untuk kecerdasan buatan. Di internet publik, banyak situs web kini menerapkan langkah-langkah anti-pencabutan untuk mencegah pencabutan data dalam skala besar oleh perusahaan kecerdasan buatan. Di data properti pribadi, situasinya bahkan lebih kompleks. Data berharga sering disimpan dengan cara yang dilindungi privasi karena sifatnya yang sensitif, kurangnya mekanisme insentif yang efektif. Pengguna tidak dapat dengan aman memonetisasi data pribadi mereka dan oleh karena itu enggan untuk berbagi informasi sensitif.

Untuk mengatasi masalah ini, OpenLayer menggabungkan teknologi verifikasi data untuk membangun Data Layer Otoritatif Modular. Melalui desentralisasi dan insentif ekonomi, OpenLayer mengoordinasikan proses pengumpulan, verifikasi, dan transformasi data, menyediakan infrastruktur data yang lebih aman, efisien, dan fleksibel untuk perusahaan Web2 dan Web3.

4.1.1 Komponen Inti Desain Modular OpenLayer

OpenLayer menyediakan platform modular yang menyederhanakan proses pengumpulan data, verifikasi yang dapat dipercaya, dan transformasi.

a) OpenNodes

OpenNodes adalah komponen inti yang bertanggung jawab atas pengumpulan data terdesentralisasi dalam ekosistem OpenLayer. Melalui aplikasi seluler, ekstensi browser, dan saluran lainnya, pengguna dapat mengumpulkan data. Operator/node yang berbeda dapat mengoptimalkan imbalan mereka dengan melakukan tugas yang paling sesuai dengan spesifikasi perangkat keras mereka.

OpenNodes mendukung tiga jenis data utama:

Data internet publik yang tersedia secara umum (misalnya data keuangan, cuaca, olahraga, dan media sosial)
Data pribadi pengguna (misalnya, riwayat penontonan Netflix, catatan pesanan Amazon)
Data diri yang dilaporkan dari sumber terpercaya (misalnya, data yang diverifikasi oleh pemilik atau perangkat keras terpercaya tertentu).

Pengembang dapat dengan mudah menambahkan jenis data baru, menentukan sumber data, dan menentukan persyaratan dan metode pengambilan. Pengguna dapat menyediakan data yang anonim sebagai imbalan. Desain ini memungkinkan sistem untuk terus berkembang untuk memenuhi permintaan data baru. Sumber data yang beragam membuat OpenLayer cocok untuk berbagai skenario aplikasi dan menurunkan ambang batas untuk penyediaan data.

b) OpenValidators

OpenValidators menangani verifikasi data yang dikumpulkan, memungkinkan pengguna data untuk mengkonfirmasi keakuratan data yang diberikan oleh pengguna terhadap sumbernya. Metode verifikasi menggunakan bukti kriptografis, dan hasilnya dapat divalidasi secara retrospektif. Beberapa penyedia dapat menawarkan layanan verifikasi untuk jenis bukti yang sama, memungkinkan pengembang untuk memilih penyedia yang paling sesuai untuk kebutuhan mereka.

Dalam kasus penggunaan awal, terutama untuk data publik atau pribadi dari API internet, OpenLayer menggunakan TLS Notary sebagai solusi verifikasi. Ini mengekspor data dari aplikasi web apa pun dan memverifikasi keasliannya tanpa mengorbankan privasi.

Selain TLS Notary, berkat desain modularnya, sistem verifikasi dapat dengan mudah mengintegrasikan metode lain untuk menyesuaikan beragam data dan kebutuhan verifikasi, termasuk:

Koneksi TLS yang Terverifikasi: Memanfaatkan Lingkungan Eksekusi Terpercaya (TEEs) untuk menjalin koneksi TLS yang tercertifikasi, memastikan integritas dan keaslian data selama transmisi.
Secure Enclaves: Menggunakan lingkungan isolasi aman tingkat perangkat keras (misalnya, Intel SGX) untuk memproses dan memverifikasi data sensitif, menawarkan perlindungan data tingkat yang lebih tinggi.
Generator Bukti ZK: Mengintegrasikan Bukti Zero-Knowledge untuk memverifikasi atribut data atau hasil komputasi tanpa mengungkapkan data yang mendasarinya.

c) OpenConnect

OpenConnect adalah modul yang bertanggung jawab untuk transformasi data dan kegunaan dalam ekosistem OpenLayer. Ini memproses data dari berbagai sumber, memastikan interoperabilitas di seluruh sistem yang berbeda untuk memenuhi persyaratan aplikasi yang beragam. Sebagai contoh:

Mengonversi data ke format Oracle on-chain untuk digunakan langsung oleh kontrak pintar.
Mempersiapkan data mentah yang tidak terstruktur menjadi data terstruktur untuk pelatihan AI.

Menyediakan anonimisasi data yang menjaga privasi akun pribadi pengguna sambil meningkatkan keamanan saat berbagi data untuk mengurangi kebocoran dan penyalahgunaan.

Untuk memenuhi tuntutan data real-time aplikasi AI dan blockchain, OpenConnect mendukung transformasi data real-time yang efisien.

Saat ini, melalui integrasi dengan EigenLayer, operator OpenLayer AVS (Active Validation Service) memantau tugas permintaan data, mengumpulkan data, memverifikasinya, dan melaporkan hasil kembali ke sistem. Operator bertaruh atau meletakkan kembali aset pada EigenLayer untuk memberikan jaminan ekonomi untuk tindakan mereka. Perilaku jahat akan mengakibatkan pemotongan aset. Sebagai salah satu proyek AVS terawal pada mainnet EigenLayer, OpenLayer telah menarik lebih dari 50 operator dan aset yang di letakkan kembali senilai $4 miliar.

4.2 Rumput

Grass, proyek unggulan yang dikembangkan oleh Wynd Network, dirancang untuk menciptakan crawler jaringan terdesentralisasi dan platform data pelatihan AI. Pada akhir 2023, Grass menyelesaikan putaran pendanaan awal sebesar $3.5 juta yang dipimpin oleh Polychain Capital dan Tribe Capital. Pada September 2024, Grass mendapatkan pendanaan Seri A, dengan jumlah $5 juta yang dipimpin oleh HackVC dan partisipasi tambahan dari Polychain, Delphi, Lattice, dan Brevan Howard.

Saat pelatihan AI semakin bergantung pada beragam sumber data yang luas, Grass mengatasi kebutuhan ini dengan menciptakan jaringan node web crawler terdistribusi. Jaringan ini memanfaatkan infrastruktur fisik terdesentralisasi dan bandwidth pengguna yang tidak terpakai untuk mengumpulkan dan menyediakan dataset yang dapat diverifikasi untuk pelatihan AI. Node-node ini mengarahkan permintaan web melalui koneksi internet pengguna, mengakses situs web publik dan menyusun dataset terstruktur. Pembersihan data awal dan formatting dilakukan menggunakan teknologi komputasi tepi, memastikan keluaran berkualitas tinggi.

Grass memanfaatkan arsitektur Solana Layer 2 Data Rollup untuk meningkatkan efisiensi pemrosesan. Validator menerima, memverifikasi, dan memproses transaksi web dari node, menghasilkan bukti Zero-Knowledge (ZK) untuk mengkonfirmasi keaslian data. Data yang diverifikasi disimpan di Grass Data Ledger (L2), dengan bukti yang sesuai terhubung ke blockchain Solana L1.

4.2.1 Komponen Kunci Rumput

a) Node Rumput:

Pengguna menginstal aplikasi Grass atau ekstensi browser, memungkinkan bandwidth menganggur mereka untuk menggerakkan web crawling terdesentralisasi. Node-node mengarahkan permintaan web, mengakses situs web publik, dan menyusun dataset terstruktur. Dengan menggunakan komputasi tepi, mereka melakukan pembersihan data awal dan formatting. Pengguna mendapatkan token GRASS sebagai imbalan berdasarkan kontribusi bandwidth dan volume data yang disediakan.

b) Router:

Bertindak sebagai perantara, router menghubungkan node Grass ke validator. Mereka mengelola jaringan node, dan meneruskan bandwidth, dan menerima insentif berdasarkan total bandwidth yang diverifikasi yang mereka fasilitasi.

c) Validator:

Validator menerima dan memverifikasi transaksi web yang disiarkan oleh router. Mereka menghasilkan bukti ZK untuk mengonfirmasi kevalidan data, memanfaatkan set kunci unik untuk membentuk koneksi TLS yang aman dan paket enkripsi. Sementara Grass saat ini menggunakan validator terpusat, rencana sedang disusun untuk beralih ke komite validator terdesentralisasi.

d) Prosesor ZK:

Prosesor-prosesor ini memvalidasi bukti data sesi node dan mengelompokkan semua bukti permintaan web untuk diserahkan ke Lapisan 1 Solana.

e) Grass Data Ledger (Grass L2):

Ledger Data Grass menyimpan rangkaian data lengkap dan menghubungkannya ke bukti L1 yang sesuai di Solana, memastikan transparansi dan jejak

f) Model Penanaman Tepi:

Model-model ini mentransformasi data web yang tidak terstruktur menjadi dataset terstruktur yang cocok untuk pelatihan AI.

Sumber: Rumput

Perbandingan: Rumput vs. OpenLayer

Grass dan OpenLayer berbagi komitmen untuk memanfaatkan jaringan terdistribusi untuk memberikan akses pada perusahaan terhadap data internet terbuka dan data pribadi yang terotentikasi. Keduanya memanfaatkan mekanisme insentif untuk mempromosikan berbagi data dan produksi dataset berkualitas tinggi, tetapi arsitektur teknis dan model bisnis mereka berbeda.

Arsitektur Teknis:

Grass menggunakan arsitektur Solana Layer 2 Data Rollup dengan validasi terpusat, mengandalkan satu validator. Sebagai pengguna awal EigenLayer AVS (Active Validation Service), OpenLayer menggunakan mekanisme validasi terdesentralisasi dengan insentif ekonomi dan hukuman slashing. Desain modularnya menekankan skalabilitas dan fleksibilitas dalam layanan verifikasi data.

Fokus Produk:

Kedua proyek ini memungkinkan pengguna untuk memonetisasi data melalui node, tetapi kasus penggunaan bisnis mereka berbeda:

Grass memiliki model pasar data menggunakan L2 untuk menyimpan dataset terstruktur dan berkualitas tinggi secara dapat diverifikasi. Dataset ini disesuaikan untuk perusahaan kecerdasan buatan sebagai sumber daya pelatihan.
OpenLayer berfokus pada verifikasi aliran data real-time (VaaS) daripada penyimpanan data yang khusus. Ini melayani skenario dinamis seperti orakel untuk pasar RWA/DeFi/prediksi, data sosial real-time, dan aplikasi AI yang memerlukan input data instan.

Grass terutama ditujukan untuk perusahaan AI dan ilmuwan data yang membutuhkan dataset berstruktur dalam skala besar, serta lembaga penelitian dan perusahaan yang membutuhkan data berbasis web. OpenLayer melayani pengembang Web3 yang membutuhkan sumber data di luar rantai, perusahaan AI yang membutuhkan aliran real-time yang dapat diverifikasi, dan bisnis yang mengejar strategi inovatif seperti memverifikasi penggunaan produk pesaing.

Persaingan dan Sinergi di Masa Depan

Sementara kedua proyek saat ini memiliki niche yang berbeda, fungsionalitas mereka mungkin bertemu seiring dengan perkembangan industri:

Rumput bisa berkembang untuk menawarkan data terstruktur real-time.
OpenLayer mungkin mengembangkan buku besar data khusus untuk pengelolaan dataset.

Kedua proyek juga dapat mengintegrasikan pelabelan data sebagai langkah kritis untuk pelatihan dataset. Grass, dengan jaringan luasnya yang terdiri dari lebih dari 2,2 juta node aktif, dapat dengan cepat menerapkan layanan Penguatan Pembelajaran dengan Umpan Balik Manusia (RLHF) untuk mengoptimalkan model AI. OpenLayer, dengan keahliannya dalam verifikasi data real-time dan pemrosesan, dapat menjaga keunggulan dalam kredibilitas dan kualitas data, khususnya untuk dataset pribadi.

Meskipun ada potensi tumpang tindih, kekuatan unik dan pendekatan teknologi mereka mungkin memungkinkan mereka mendominasi niche yang berbeda dalam ekosistem data terdesentralisasi.

（Sumber: IOSG, David）

4.3 Vana: Jaringan Kolam Data Berbasis Pengguna

Vana adalah jaringan kolam data yang berorientasi pada pengguna yang dirancang untuk menyediakan data berkualitas tinggi untuk AI dan aplikasi terkait. Dibandingkan dengan OpenLayer dan Grass, Vana mengambil pendekatan teknologi dan bisnis yang berbeda. Pada September 2024, Vana mengamankan $5 juta pendanaan yang dipimpin oleh Coinbase Ventures, setelah putaran Seri A sebesar $18 juta di mana Paradigm bertindak sebagai investor utama, dengan partisipasi dari Polychain dan Casey Caruso.

Awalnya diluncurkan pada tahun 2018 sebagai proyek penelitian MIT, Vana adalah blockchain Layer 1 yang didedikasikan untuk data pengguna pribadi. Inovasinya dalam kepemilikan data dan distribusi nilai memungkinkan pengguna untuk mendapatkan keuntungan dari model AI yang dilatih dengan data mereka. Vana mencapai hal ini melalui Trustless, private, dan Data Liquidity Pools yang dapat diatribusikan (DLPs) dan mekanisme Proof of Contribution inovatif yang memfasilitasi aliran dan monetisasi data pribadi.

4.3.1. Data Liquidity Pools (DLPs)

Vana memperkenalkan konsep unik Data Liquidity Pools (DLP), yang menjadi inti dari jaringan Vana. Setiap DLP adalah jaringan peer-to-peer independen yang mengumpulkan jenis aset data tertentu. Pengguna dapat mengunggah data pribadi mereka—seperti catatan belanja, kebiasaan penjelajahan, dan aktivitas media sosial—ke dalam DLP yang ditentukan dan memutuskan apakah akan memberikan izin penggunaan pihak ketiga tertentu.

Data dalam kolam ini menjalani de-identifikasi untuk melindungi privasi pengguna sambil tetap dapat digunakan untuk aplikasi komersial, seperti pelatihan model AI dan riset pasar. Pengguna yang menyumbangkan data ke DLP ini akan mendapatkan imbalan dalam bentuk token DLP yang sesuai. Token-token ini mewakili kontribusi pengguna ke dalam kolam, memberikan hak tata kelola, dan memberi pengguna hak atas bagian dari keuntungan di masa depan.

Tidak seperti penjualan data sekali pakai tradisional, Vana memungkinkan data untuk terus berpartisipasi dalam siklus ekonomi, memungkinan pengguna untuk menerima imbalan yang berkelanjutan dengan pelacakan penggunaan yang transparan dan tervisualisasi.

4.3.2. Mekanisme Bukti Kontribusi

Mekanisme Proof of Contribution (PoC) merupakan dasar pendekatan Vana dalam memastikan kualitas data. Setiap DLP dapat menentukan fungsi PoC yang unik sesuai dengan karakteristiknya, memverifikasi keaslian dan kelengkapan data yang diajukan, serta mengevaluasi kontribusinya dalam meningkatkan kinerja model AI. Mekanisme ini mengukur kontribusi pengguna, mencatatnya untuk alokasi imbalan. Mirip dengan konsep 'Proof of Work' dalam cryptocurrency, PoC memberikan imbalan kepada pengguna berdasarkan kualitas, jumlah, dan frekuensi penggunaan data. Kontrak pintar mengotomatisasi proses ini, memastikan kontributor diberi kompensasi dengan adil dan transparan.

Arsitektur Teknis Vana

Data Layer Likuiditas：

Lapisan inti ini memungkinkan kontribusi, verifikasi, dan pencatatan data ke dalam DLP, mengubah data menjadi aset digital yang dapat ditransfer di atas rantai. Pembuat DLP menyebarkan kontrak pintar untuk menetapkan tujuan, metode verifikasi, dan parameter kontribusi. Kontributor data mengirimkan data untuk divalidasi, dan modul PoC mengevaluasi kualitas data dan memberikan hak pengelolaan dan imbalan.

Lapisan Portabilitas Data:

Berfungsi sebagai lapisan aplikasi Vana, platform ini memfasilitasi kolaborasi antara kontributor data dan pengembang. Ini menyediakan infrastruktur untuk membangun model pelatihan AI terdistribusi dan AI DApps menggunakan likuiditas di DLPs.

Connectome:

Ledger terdesentralisasi yang mendasari ekosistem Vana, Connectome bertindak sebagai peta aliran data real-time. Ini mencatat semua transaksi data real-time menggunakan konsensus Proof of Stake, memastikan transfer efisien token DLP dan memungkinkan akses data lintas-DLP. Sepenuhnya kompatibel dengan EVM, ini memungkinkan interoperabilitas dengan jaringan, protokol, dan aplikasi DeFi lainnya.

（Sumber: Vana）

Vana memberikan pendekatan baru dengan fokus pada likuiditas dan pemberdayaan data pengguna. Model pertukaran data terdesentralisasi ini tidak hanya mendukung pelatihan AI dan pasar data tetapi juga memungkinkan berbagi data lintas platform dan kepemilikan yang mulus di ekosistem Web3. Pada akhirnya, ini mendorong internet terbuka di mana pengguna dapat memiliki dan mengelola data mereka serta produk cerdas yang dibuat darinya.

5. Usulan Nilai Jaringan Data Terdesentralisasi

Pada tahun 2006, ilmuwan data Clive Humby dengan terkenal mengatakan, "Data adalah minyak baru." Selama dua dekade terakhir, kita telah menyaksikan evolusi teknologi yang cepat yang "memurnikan" sumber daya ini, seperti analitik big data dan pembelajaran mesin, yang telah membuka nilai yang belum pernah terjadi sebelumnya dari data. Menurut IDC, pada tahun 2025, ruang data global akan berkembang menjadi 163 ZB, dengan sebagian besar berasal dari individu. Ketika IoT, perangkat wearable, kecerdasan buatan, dan layanan yang dipersonalisasi menjadi lebih luas, sebagian besar data yang diperlukan untuk penggunaan komersial akan berasal dari individu.

Tantangan dari Solusi Tradisional dan Inovasi Web3

Solusi data Web3 mengatasi batasan infrastruktur tradisional dengan memanfaatkan jaringan node terdistribusi. Jaringan ini memungkinkan pengumpulan data yang lebih luas dan efisien sambil meningkatkan aksesibilitas dan verifikasi waktu nyata dari dataset tertentu. Teknologi Web3 memastikan keaslian dan integritas data sambil melindungi privasi pengguna, mendorong model pemanfaatan data yang lebih adil. Arsitektur terdesentralisasi ini mendemokratisasi akses data dan memberdayakan pengguna untuk berbagi manfaat ekonomi dari ekonomi data.

Baik OpenLayer maupun Grass mengandalkan model pengguna-node untuk meningkatkan proses pengumpulan data tertentu, sementara Vana memonetisasi data pengguna pribadi. Pendekatan-pendekatan ini tidak hanya meningkatkan efisiensi tetapi juga memungkinkan pengguna biasa untuk berpartisipasi dalam nilai yang diciptakan oleh ekonomi data, menciptakan situasi saling menguntungkan bagi pengguna dan pengembang.

Melalui tokenomics, solusi data Web3 mendesain ulang model insentif, membentuk mekanisme distribusi nilai yang lebih adil. Sistem-sistem ini menarik partisipasi pengguna yang signifikan, sumber daya perangkat keras, dan investasi modal, mengoptimalkan operasi seluruh jaringan data.

Solusi Web3 menawarkan modularitas dan skalabilitas, memungkinkan untuk iterasi teknologi dan ekspansi ekosistem. Misalnya: desain modular OpenLayer memberikan fleksibilitas untuk kemajuan di masa depan; arsitektur terdistribusi Grass mengoptimalkan pelatihan model AI dengan menyediakan dataset yang beragam dan berkualitas tinggi.

Dari generasi data, penyimpanan, dan verifikasi hingga pertukaran dan analisis, solusi yang didukung oleh Web3 mengatasi kekurangan infrastruktur tradisional. Dengan memungkinkan pengguna memonetisasi data mereka, solusi-solusi ini secara mendasar mengubah ekonomi data.

Saat teknologi berkembang dan skenario aplikasi meluas, lapisan data terdesentralisasi siap menjadi pondasi infrastruktur generasi mendatang. Mereka akan mendukung berbagai industri yang didorong data sambil memberdayakan pengguna untuk mengambil kontrol atas data dan potensi ekonominya.

Disclaimer:

Artikel ini dicetak ulang dari [IOSG Ventures]. Semua hak cipta dimiliki oleh penulis asli [IOSG Ventures]. Jika ada keberatan terhadap penerbitan ulang ini, silakan hubungi Gate Learntim, dan mereka akan menanganinya dengan segera.
Persetujuan Tanggung Jawab: Pandangan dan opini yang terdapat dalam artikel ini semata-mata milik penulis dan tidak merupakan nasihat investasi.
Tim Belajar Gate menerjemahkan artikel ke dalam bahasa lain. Menyalin, mendistribusikan, atau menjiplak artikel yang diterjemahkan dilarang kecuali disebutkan.

Nội dung

TL/DR

1. Lonjakan Permintaan Data

2. Batasan dan Tantangan Ekosistem Data Tradisional

3. Ekosistem Data Web3

4. Jaringan Data Terdesentralisasi

5. Proposisi Nilai Jaringan Data Terdesentralisasi

Lapisan Data Terdesentralisasi: Infrastruktur Baru untuk Era Kecerdasan Buatan #247

Menengah11/26/2024, 4:28:16 AM

Tren Makro Teknologi AI

TL/DR

1. Lonjakan Permintaan Data

2. Batasan dan Tantangan Ekosistem Data Tradisional

3. Ekosistem Data Web3

4. Jaringan Data Terdesentralisasi

5. Proposisi Nilai Jaringan Data Terdesentralisasi

TL/DR

Penyedia data tradisional berjuang untuk memenuhi permintaan data berkualitas tinggi, real-time, dan dapat diverifikasi dalam AI dan industri lain yang berbasis data, terutama dalam hal transparansi, kontrol pengguna, dan perlindungan privasi.
Solusi Web3 sedang mengubah ekosistem data. Teknologi seperti MPC (Multi-Party Computation), bukti pengetahuan nol, dan Notaris TLS memastikan keaslian dan privasi data selama aliran di antara beberapa sumber, sementara penyimpanan terdistribusi dan komputasi tepi menawarkan fleksibilitas dan efisiensi yang lebih tinggi dalam pemrosesan data real-time.
Jaringan data terdesentralisasi sebagai infrastruktur yang sedang berkembang telah melahirkan beberapa proyek representatif seperti OpenLayer (sebuah lapisan data nyata modular), Grass (memanfaatkan bandwidth idle pengguna dan jaringan node crawler terdesentralisasi), dan Vana (sebuah jaringan Layer 1 kedaulatan data pengguna), yang membuka prospek baru untuk bidang-bidang seperti pelatihan dan aplikasi AI melalui jalur teknologi yang berbeda.
Dengan memanfaatkan kapasitas kolaboratif, lapisan abstraksi tanpa kepercayaan, dan mekanisme insentif berbasis token, infrastruktur data terdesentralisasi dapat memberikan solusi yang lebih pribadi, aman, efisien, dan hemat biaya dibandingkan dengan raksasa Web2. Ini juga memberdayakan pengguna dengan kontrol atas data dan sumber daya terkait mereka, membangun ekosistem digital yang lebih terbuka, aman, dan saling terhubung.

1. Lonjakan Permintaan Data

(Sumber: Leewayhertz)

2. Batasan dan Tantangan dari Ekosistem Data Tradisional

(Sumber: kdnuggets.com)

Cakupan Data yang Kurang Memadai: Penyedia data tradisional kesulitan untuk menangkap dan menganalisis sumber data yang muncul seperti sentimen media sosial dan data perangkat IoT dengan cepat. Sistem terpusat merasa sulit untuk memperoleh dan mengintegrasikan data “panjang ekor” secara efisien dari berbagai sumber kecil atau non-mainstream.

Akses Data Terbatas: Monopoli membatasi akses. Banyak penyedia tradisional membuka bagian dari data mereka melalui API/layanan cloud, namun biaya akses tinggi dan proses otorisasi yang kompleks meningkatkan kesulitan integrasi data. Pengembang on-chain kesulitan mengakses data off-chain yang dapat diandalkan dengan cepat, dengan data berkualitas tinggi dimonopoli oleh beberapa raksasa dengan biaya tinggi.
Masalah Transparansi dan Kepercayaan Data: Banyak penyedia data terpusat kurang transparansi dalam metode pengumpulan dan pemrosesan datanya. Mekanisme yang efektif untuk memverifikasi keaslian dan kelengkapan data dalam skala besar juga kurang. Memverifikasi data real-time dalam skala besar tetap kompleks, dan sifat terpusat meningkatkan risiko manipulasi atau pemalsuan data.
Perlindungan Privasi dan Kepemilikan Data: Perusahaan teknologi besar telah mengkomersialisasi data pengguna secara luas. Pengguna, sebagai pencipta data pribadi, jarang mendapatkan nilai yang pantas darinya. Mereka seringkali tidak dapat memahami bagaimana data mereka dikumpulkan, diproses, atau digunakan, juga tidak dapat menentukan lingkup dan cara penggunaannya. Pengumpulan berlebihan dan penyalahgunaan juga mengakibatkan risiko privasi yang serius. Sebagai contoh, skandal Cambridge Analytica Facebook mengekspos kelemahan yang signifikan dalam transparansi dan perlindungan privasi dalam ekosistem data tradisional.
Silo Data: Data real-time dari berbagai sumber dan format menantang untuk diintegrasikan dengan cepat, menghambat analisis komprehensif. Sebagian besar data ini tetap terkunci dalam organisasi, membatasi berbagi dan inovasi lintas industri dan lintas organisasi. Efek "silo data" ini menghambat integrasi dan analisis data lintas domain. Misalnya, dalam industri konsumen, merek perlu mengintegrasikan data dari platform e-commerce, toko fisik, media sosial, dan riset pasar, tetapi kumpulan data ini mungkin terisolasi karena ketidakkonsistenan atau pemisahan platform. Demikian pula, perusahaan berbagi tumpangan seperti Uber dan Lyft mengumpulkan sejumlah besar data real-time tentang lalu lintas, permintaan penumpang, dan lokasi geografis, tetapi dinamika persaingan mencegah kumpulan data ini dibagikan atau diintegrasikan.

3. Ekosistem Data Web3

Penyimpanan Data: Perkembangan pesat Filecoin dan Arweave menunjukkan bahwa penyimpanan terdesentralisasi (DCS) menjadi pergeseran paradigma di bidang penyimpanan. DCS mengurangi titik kegagalan tunggal melalui arsitektur terdistribusi sambil menarik peserta dengan efisiensi biaya yang kompetitif. Dengan munculnya aplikasi berskala besar, kapasitas penyimpanan DCS telah berkembang secara eksponensial (misalnya, kapasitas penyimpanan jaringan total Filecoin mencapai 22 eksabyte pada tahun 2024).
Pemrosesan dan Analisis: Platform komputasi data terdesentralisasi seperti Fluence meningkatkan kinerja dan efisiensi pemrosesan data real-time melalui edge computing, terutama untuk skenario aplikasi real-time seperti IoT dan inferensi AI. Proyek Web3 memanfaatkan teknologi seperti federated learning, differential privacy, trusted execution environments, dan fully homomorphic encryption untuk menyediakan perlindungan privasi yang fleksibel di lapisan komputasi.
Pasar Data / Platform Pertukaran: Untuk memfasilitasi penilaian dan sirkulasi data, Ocean Protocol menggunakan mekanisme tokenisasi dan DEX untuk menciptakan saluran pertukaran data yang efisien dan terbuka. Sebagai contoh, mereka telah bekerja sama dengan Daimler (perusahaan induk Mercedes-Benz) untuk mengembangkan pasar pertukaran data untuk manajemen rantai pasokan. Di sisi lain, Streamr telah mengembangkan jaringan aliran data berbasis langganan yang tanpa izin yang disesuaikan untuk IoT dan skenario analitik real-time, menunjukkan potensi luar biasa dalam proyek transportasi dan logistik (misalnya, bekerja sama dengan proyek kota pintar di Finlandia).