Dalam kronik kemajuan teknologi, seringkali teknologi revolusioner muncul secara independen, masing-masing memimpin perubahan dalam sebuah era. Dan ketika dua teknologi revolusioner bertemu, tabrakan mereka sering memiliki dampak eksponensial. Hari ini, kita berada di momen sejarah seperti itu: kecerdasan buatan dan teknologi enkripsi, dua teknologi baru yang sama-sama mengganggu, memasuki pusat panggung bersama-sama.
Kami membayangkan bahwa banyak tantangan di bidang AI dapat diselesaikan oleh teknologi enkripsi; kami berharap AI Agent membangun jaringan ekonomi otonom dan mempromosikan adopsi teknologi enkripsi dalam skala besar; kami juga berharap AI dapat mempercepat pengembangan skenario yang ada di bidang enkripsi. Banyak mata tertuju pada hal ini, dan dana besar mengalir masuk. Sama seperti kata-kata yang sedang populer, hal ini mencerminkan keinginan orang-orang untuk inovasi, visi masa depan, dan juga mengandung ambisi dan keserakahan yang tidak terkendali.
Namun dalam semua kehebohan ini, kita tahu sangat sedikit tentang masalah-masalah paling dasar. Seberapa baik AI mengetahui tentang enkripsi? Apakah seorang Agen yang dilengkapi dengan model bahasa besar memiliki kemampuan sebenarnya untuk menggunakan alat enkripsi? Seberapa besar perbedaan yang dilakukan oleh model-model berbeda dalam tugas enkripsi?
Jawaban dari pertanyaan-pertanyaan ini akan menentukan pengaruh saling antara teknologi AI dan enkripsi, dan juga sangat penting untuk arah produk dan pemilihan rute teknologi dalam bidang yang saling terkait ini. Untuk mengeksplorasi masalah-masalah ini, saya melakukan beberapa eksperimen evaluasi pada model bahasa besar. Dengan menilai pengetahuan dan kemampuan mereka dalam bidang enkripsi, kami mengukur tingkat aplikasi enkripsi dari AI dan menentukan potensi dan tantangan dari integrasi AI dan teknologi enkripsi.
Model bahasa besar bekerja dengan baik dalam pengetahuan dasar kriptografi dan blockchain, dan memiliki pemahaman yang baik tentang ekosistem enkripsi, namun performanya buruk dalam perhitungan matematika dan analisis logika bisnis yang kompleks. Dalam hal kunci pribadi dan operasi dompet dasar, model memiliki dasar yang memuaskan, namun menghadapi tantangan serius tentang bagaimana menjaga kunci pribadi di cloud. Banyak model dapat menghasilkan kode kontrak pintar yang efektif untuk skenario yang sederhana, namun tidak dapat melakukan tugas yang sulit secara mandiri seperti audit kontrak dan penciptaan kontrak yang kompleks.
Model-model komersial yang tertutup umumnya memiliki keunggulan yang besar. Di kubu sumber terbuka, hanya Llama 3.1-405B yang tampil baik, sedangkan semua model sumber terbuka dengan ukuran parameter yang lebih kecil gagal. Namun, ada potensi. Melalui bimbingan kata prompt, penalaran rantai pemikiran, dan teknologi pembelajaran few-shot, kinerja semua model telah meningkat secara signifikan. Model-model terdepan sudah memiliki kelayakan teknis yang kuat dalam beberapa skenario aplikasi vertikal.
18 model bahasa perwakilan dipilih sebagai objek evaluasi, termasuk:
Model-model ini mencakup model-model komersial utama dan sumber terbuka populer, dengan jumlah parameter berkisar lebih dari seratus kali lipat dari 3.8B hingga 405B. Mengingat hubungan erat antara teknologi enkripsi dan matematika, dua model optimisasi matematika khusus dipilih untuk eksperimen.
Area pengetahuan yang dicakup oleh eksperimen ini meliputi kriptografi, dasar-dasar blockchain, operasi kunci pribadi dan dompet, kontrak pintar, DAO dan tata kelola, konsensus dan model ekonomi, Dapp/DeFi/NFT, analisis data on-chain, dll. Setiap bidang terdiri dari serangkaian pertanyaan dan tugas mulai dari yang mudah hingga sulit, yang tidak hanya menguji cadangan pengetahuan model, tetapi juga menguji kinerjanya dalam skenario aplikasi melalui tugas simulasi.
Desain tugas berasal dari berbagai sumber. Beberapa berasal dari masukan beberapa ahli di bidang enkripsi, dan bagian lainnya dihasilkan dengan bantuan AI dan dibuktikan secara manual untuk memastikan akurasi dan tantangan dari tugas-tugas tersebut. Beberapa dari tugas-tugas menggunakan pertanyaan pilihan ganda dalam format yang relatif sederhana untuk memfasilitasi pengujian dan penilaian otomatis yang terstandarisasi. Bagian lain dari tes mengadopsi format pertanyaan yang lebih kompleks, dan proses pengujian dilakukan dengan kombinasi otomasi program + manual + AI. Semua tugas pengujian dievaluasi menggunakan metode penalaran sampel nol, tanpa memberikan contoh, bimbingan pikiran, atau perintah instruksional.
Karena desain eksperimen itu sendiri relatif kasar dan tidak memiliki ketelitian akademik yang memadai, pertanyaan dan tugas yang digunakan untuk pengujian jauh dari mencakup sepenuhnya bidang enkripsi, dan kerangka pengujian juga belum matang. Oleh karena itu, artikel ini tidak mencantumkan data eksperimen yang spesifik, tetapi berfokus pada berbagi beberapa wawasan dari eksperimen.
Selama proses evaluasi,Model bahasa besar berkinerja baik dalam tes pengetahuan dasar di berbagai bidang seperti algoritma enkripsi, dasar-dasar blockchain, dan aplikasi DeFi. Misalnya, semua model memberikan jawaban akurat untuk pertanyaan yang menguji pemahaman tentang konsep ketersediaan data. Adapun pertanyaan yang mengevaluasi pemahaman model tentang struktur transaksi Ethereum, meskipun setiap model memiliki jawaban yang sedikit berbeda secara rinci, mereka umumnya berisi informasi kunci yang benar. Pertanyaan pilihan ganda yang memeriksa konsep bahkan lebih mudah, dan akurasi hampir semua model di atas 95%.
Pertanyaan dan jawaban konseptual sangat sulit bagi model-model besar.
Namun, situasinya berbalik ketika menyangkut masalah yang memerlukan perhitungan khusus. Sebuah masalah perhitungan algoritma RSA sederhana membuat sebagian besar model mengalami kesulitan. Mudah dipahami: model bahasa besar beroperasi terutama dengan mengidentifikasi dan mereplikasi pola dalam data pelatihan, daripada dengan memahami secara mendalam sifat konsep matematika. Keterbatasan ini terutama jelas saat berurusan dengan konsep matematika abstrak seperti operasi modular dan operasi eksponensial. Mengingat bahwa bidang kriptografi erat kaitannya dengan matematika, ini berarti Mengandalkan langsung pada model untuk perhitungan matematika yang terkait dengan enkripsi tidak dapat diandalkan。
Dalam masalah komputasi lainnya, kinerja model bahasa besar juga tidak memuaskan. Sebagai contoh, untuk pertanyaan sederhana tentang menghitung kerugian yang tidak permanen dari AMM, meskipun tidak melibatkan operasi matematika kompleks, hanya 4 dari 18 model memberikan jawaban yang benar. Adapun untuk pertanyaan dasar lainnya tentang menghitung probabilitas sebuah blok, semua model memberikan jawaban yang salah. Hal ini membuat semua model bingung, dan tidak ada satupun yang benar. Hal ini tidak hanya mengekspos kelemahan model bahasa besar dalam perhitungan yang akurat, tetapi juga mencerminkan masalah utama mereka dalam analisis logika bisnis. Perlu dicatat bahwa bahkan model optimisasi matematika gagal menunjukkan keunggulan yang jelas dalam pertanyaan perhitungan, dan kinerjanya mengecewakan.
Namun, masalah perhitungan matematika bukanlah masalah yang tak terpecahkan. Jika kita melakukan penyesuaian kecil dan menuntut LLM untuk memberikan kode Python yang sesuai daripada menghitung hasil secara langsung, tingkat akurasi akan meningkat secara signifikan. Mengambil masalah perhitungan RSA yang disebutkan di atas sebagai contoh, kode Python yang diberikan oleh sebagian besar model dapat dieksekusi dengan lancar dan menghasilkan hasil yang benar. Di lingkungan produksi yang sebenarnya, kode algoritma yang telah disiapkan dapat disediakan untuk menghindari perhitungan sendiri dari LLM, yang serupa dengan bagaimana manusia menangani tugas-tugas tersebut. Pada level logika bisnis, performa model juga dapat ditingkatkan secara efektif melalui bimbingan kata-kata prompt yang dirancang dengan hati-hati.
Jika Anda bertanya apa skenario pertama untuk Agen menggunakan cryptocurrency, jawaban saya adalah pembayaran. Cryptocurrency hampir dapat dianggap sebagai bentuk mata uang yang berasal dari AI. Dibandingkan dengan banyak hambatan yang dihadapi oleh agen dalam sistem keuangan tradisional, penggunaan teknologi enkripsi untuk melengkapi diri mereka dengan identitas digital dan mengelola dana melalui dompet terenkripsi adalah pilihan alami. Oleh karena itu, pembuatan dan pengelolaan kunci privat dan berbagai operasi dompet merupakan persyaratan keterampilan paling dasar bagi seorang Agen untuk dapat menggunakan jaringan enkripsi secara independen.
Inti dari pembuatan kunci pribadi yang aman terletak pada angka acak berkualitas tinggi, yang jelas merupakan kemampuan yang tidak dimiliki oleh model bahasa besar. Namun, model-model tersebut memiliki pemahaman yang cukup tentang keamanan kunci pribadi. Ketika diminta untuk menghasilkan kunci pribadi, sebagian besar model memilih untuk menggunakan kode (seperti perpustakaan terkait Python) untuk memandu pengguna dalam menghasilkan kunci pribadi secara independen. Bahkan jika model tersebut secara langsung menyediakan kunci pribadi, jelas dinyatakan bahwa ini hanya untuk tujuan demonstrasi dan bukan kunci pribadi yang aman yang dapat digunakan secara langsung. Dalam hal ini, semua model besar menunjukkan performa yang memuaskan.
Manajemen kunci pribadi menghadapi beberapa tantangan, yang terutama disebabkan oleh keterbatasan yang melekat pada arsitektur teknis daripada kurangnya kemampuan model. Saat menggunakan model yang disebarkan secara lokal, kunci privat yang dihasilkan dapat dianggap relatif aman. Namun, jika model cloud komersial digunakan, kita harus berasumsi bahwa kunci privat telah diekspos ke operator model saat dihasilkan. Tetapi untuk Agen yang bertujuan untuk bekerja secara independen, perlu memiliki izin kunci pribadi, yang berarti bahwa kunci pribadi tidak hanya bersifat lokal bagi pengguna. Dalam hal ini, hanya mengandalkan model itu sendiri tidak lagi cukup untuk memastikan keamanan kunci privat, dan layanan keamanan tambahan seperti lingkungan eksekusi tepercaya atau HSM perlu diperkenalkan.
Jika diasumsikan bahwa Agen sudah menguasai kunci pribadi dengan aman dan melakukan berbagai operasi dasar berdasarkan ini, berbagai model dalam pengujian telah menunjukkan kemampuan yang baik. Meskipun sering terjadi kesalahan dalam langkah-langkah dan kode yang dihasilkan, masalah tersebut dapat diselesaikan sebagian besar dengan struktur rekayasa yang sesuai. Dapat dikatakan bahwa dari segi teknis, tidak ada banyak hambatan lagi bagi Agen untuk melakukan operasi dompet dasar secara independen.
Kemampuan untuk memahami, memanfaatkan, menulis, dan mengidentifikasi risiko kontrak pintar adalah kunci bagi AI Agents untuk melakukan tugas kompleks di dunia on-chain, dan oleh karena itu juga merupakan area pengujian kunci untuk percobaan. Model bahasa besar telah menunjukkan potensi yang signifikan dalam hal ini, tetapi mereka juga telah mengungkapkan beberapa masalah yang jelas.
Hampir semua model dalam uji coba ini dengan benar menjawab konsep kontrak yang mendasari, mengidentifikasi bug sederhana. Dalam hal optimasi gas kontrak, sebagian besar model dapat mengidentifikasi titik optimasi kunci dan menganalisis konflik yang mungkin terjadi akibat optimasi. Namun, ketika logika bisnis yang mendalam terlibat, keterbatasan model yang besar mulai terlihat.
Ambil kontrak vesting token sebagai contoh: semua model memahami dengan benar fungsi kontrak, dan sebagian besar model menemukan beberapa kerentanan risiko menengah dan rendah. Namun, tidak ada model yang dapat secara independen menemukan kerentanan risiko tinggi yang tersembunyi dalam logika bisnis yang dapat menyebabkan sejumlah dana terkunci dalam keadaan khusus. Selama beberapa pengujian menggunakan kontrak nyata, model tersebut memberikan hasil yang hampir sama.
Ini menunjukkan bahwa pemahaman model besar terhadap kontrak masih tetap berada pada tingkat formal dan kurang memahami logika bisnis yang dalam. Namun, setelah diberikan petunjuk tambahan, beberapa model akhirnya dapat secara independen mengidentifikasi kerentanan yang sangat tersembunyi dalam kontrak-kontrak yang disebutkan di atas. Berdasarkan penilaian kinerja ini, dengan dukungan desain rekayasa yang baik, model besar pada dasarnya memiliki kemampuan untuk bertindak sebagai co-pilot di bidang kontrak pintar. Namun, masih ada jalan panjang sebelum kita dapat secara independen menangani tugas-tugas penting seperti audit kontrak.
Satu hal yang perlu diperhatikan adalah bahwa tugas-tugas yang berkaitan dengan kode dalam eksperimen ini hanya untuk kontrak dengan logika sederhana dan tidak lebih dari 2.000 baris kode. Untuk proyek-proyek kompleks dalam skala yang lebih besar, tanpa penyesuaian halus atau rekayasa kata yang kompleks, saya rasa jelas melebihi kapabilitas pemrosesan yang efektif dari model saat ini dan tidak termasuk dalam pengujian. Selain itu, pengujian ini hanya melibatkan Solidity dan tidak termasuk bahasa kontrak pintar lainnya seperti Rust dan Move.
Selain konten uji coba di atas, eksperimen juga mencakup banyak aspek termasuk skenario DeFi, DAO dan tata kelolaannya, analisis data on-chain, desain mekanisme konsensus, dan Tokenomics. Model bahasa besar telah menunjukkan kemampuan tertentu dalam hal-hal ini. Mengingat banyak uji coba masih dalam proses dan metode serta kerangka kerja pengujian terus dioptimalkan, artikel ini saat ini tidak akan membahas area-area tersebut.
Di antara semua model bahasa besar yang berpartisipasi dalam evaluasi, GPT-4o dan Claude 3.5 Sonnet melanjutkan kinerja luar biasa mereka di bidang lain dan merupakan pemimpin yang tidak perlu dipersoalkan. Ketika dihadapkan dengan pertanyaan dasar, kedua model hampir selalu dapat memberikan jawaban yang akurat; Dalam analisis skenario yang kompleks, mereka dapat memberikan wawasan yang mendalam dan terdokumentasi dengan baik. Bahkan menunjukkan tingkat kemenangan yang tinggi dalam tugas-tugas komputasi yang tidak dikuasai oleh model besar. Tentu saja, tingkat keberhasilan "tinggi" ini relatif dan belum mencapai tingkat output yang stabil dalam lingkungan produksi.
Di kamp model sumber terbuka, Llama 3.1-405B jauh lebih unggul dari pesaingnya berkat skala parameter yang besar dan algoritma model yang canggih. Pada model sumber terbuka lainnya dengan ukuran parameter yang lebih kecil, tidak ada perbedaan performa yang signifikan antara model-model tersebut. Meskipun skornya sedikit berbeda, secara keseluruhan mereka jauh dari garis lulus.
Oleh karena itu, jika Anda ingin membangun aplikasi AI terkait enkripsi saat ini, model-model dengan parameter kecil dan menengah bukan pilihan yang tepat.
Dua model terutama menonjol dalam tinjauan kami. Yang pertama adalah model Phi-3 3.8B yang diluncurkan oleh Microsoft. Ini adalah model terkecil yang berpartisipasi dalam eksperimen ini. Namun, mencapai tingkat kinerja yang setara dengan model 8B-12B dengan kurang dari separuh jumlah parameter. Pada beberapa kategori tertentu, bahkan lebih baik pada masalah tersebut. Hasil ini menekankan pentingnya optimasi arsitektur model dan strategi pelatihan yang tidak hanya bergantung pada peningkatan ukuran parameter.
Dan model Command-R dari Cohere telah menjadi "kuda hitam" yang mengejutkan - sebaliknya. Command-R tidak sepopuler model lain, tetapi Cohere adalah perusahaan model besar yang fokus pada pasar 2B. Saya pikir masih banyak titik konvergensi dengan area seperti pengembangan Agen, jadi model ini secara khusus dimasukkan dalam lingkup uji. Namun, Command-R dengan 35B parameter menempati peringkat terakhir dalam sebagian besar uji, kalah dari banyak model di bawah 10B.
Hasil ini memicu pemikiran: ketika Command-R dirilis, itu berfokus pada peningkatan pemulihan dan kemampuan generasi, dan bahkan tidak mempublikasikan hasil uji benchmark reguler. Apakah ini berarti itu adalah “kunci pribadi” yang membuka potensi penuhnya hanya dalam skenario tertentu?
Dalam serangkaian tes ini, kami mendapatkan pemahaman awal tentang kemampuan AI dalam bidang enkripsi. Tentu saja, tes-tes ini jauh dari standar profesional. Cakupan set data masih jauh dari cukup, standar kuantitatif untuk jawaban masih relatif kasar, dan masih kurangnya mekanisme penilaian yang lebih rinci dan akurat. Hal ini akan mempengaruhi akurasi hasil evaluasi dan dapat menyebabkan pengunderestimasian kinerja beberapa model.
Dalam hal metode pengujian, eksperimen hanya menggunakan satu metode pembelajaran nol-tembakan, dan tidak mengeksplorasi metode seperti rantai berpikir dan pembelajaran beberapa tembakan yang dapat menginspirasi potensi lebih besar dari model. Dalam hal parameter model, parameter model standar digunakan dalam eksperimen, dan dampak pengaturan parameter yang berbeda pada kinerja model tidak diperiksa. Metode pengujian tunggal secara keseluruhan ini membatasi evaluasi komprehensif kami terhadap potensi model dan gagal untuk sepenuhnya mengeksplorasi perbedaan dalam kinerja model di bawah kondisi-kondisi tertentu.
Meskipun kondisi pengujian relatif sederhana, eksperimen ini masih menghasilkan banyak wawasan berharga dan memberikan referensi bagi para pengembang untuk membangun aplikasi.
Di bidang kecerdasan buatan, benchmark memainkan peran kunci. Perkembangan pesat teknologi pembelajaran mendalam modern berasal dari ImageNET yang diselesaikan oleh Profesor Li Feifei pada tahun 2012, yang merupakan benchmark standar dan kumpulan data di bidang visi komputer.
Dengan menyediakan standar terpadu untuk evaluasi, tolok ukur tidak hanya memberi pengembang tujuan dan titik referensi yang jelas, tetapi juga mendorong kemajuan teknologi di seluruh industri. Ini menjelaskan mengapa setiap model bahasa besar yang baru dirilis akan fokus pada pengumuman hasilnya pada berbagai tolok ukur. Hasil ini menjadi "bahasa universal" kemampuan model, memungkinkan peneliti untuk menemukan terobosan, pengembang untuk memilih model yang paling cocok untuk tugas-tugas tertentu, dan pengguna untuk membuat pilihan berdasarkan informasi berdasarkan data obyektif. Lebih penting lagi, tes benchmark sering kali menandai arah masa depan aplikasi AI, memandu investasi sumber daya dan fokus penelitian.
Jika kita percaya bahwa ada potensi besar di perpotongan AI dan kriptografi, maka menetapkan patokan kriptografi yang didedikasikan menjadi tugas yang mendesak. Pendirian patokan dapat menjadi jembatan kunci yang menghubungkan dua bidang AI dan enkripsi, mempercepat inovasi, dan memberikan panduan yang jelas untuk aplikasi di masa depan.
Namun, dibandingkan dengan tolok ukur yang matang di bidang lain, membangun tolok ukur di bidang enkripsi menghadapi tantangan unik: teknologi enkripsi berkembang pesat, sistem pengetahuan industri belum dipadatkan, dan kurangnya konsensus di berbagai arah inti. Sebagai bidang interdisipliner, enkripsi mencakup kriptografi, sistem terdistribusi, ekonomi, dll., Dan kompleksitasnya jauh melampaui satu bidang. Yang lebih menantang adalah bahwa tolok ukur enkripsi tidak hanya perlu menilai pengetahuan, tetapi juga memeriksa kemampuan praktis AI untuk menggunakan teknologi enkripsi, yang memerlukan desain arsitektur penilaian baru. Kurangnya kumpulan data yang relevan semakin meningkatkan kesulitan.
Kompleksitas dan pentingnya tugas ini menentukan bahwa hal ini tidak dapat dicapai oleh satu orang atau tim saja. Ini perlu menggabungkan kebijaksanaan dari banyak pihak mulai dari pengguna, pengembang, pakar kriptografi, peneliti enkripsi hingga lebih banyak orang di bidang lintas disiplin, dan bergantung pada partisipasi komunitas yang luas dan konsensus yang luas. Oleh karena itu, benchmark enkripsi memerlukan diskusi yang lebih luas, karena ini bukan hanya pekerjaan teknis, tetapi juga refleksi mendalam tentang bagaimana kita memahami teknologi yang sedang berkembang ini.
Dalam kronik kemajuan teknologi, seringkali teknologi revolusioner muncul secara independen, masing-masing memimpin perubahan dalam sebuah era. Dan ketika dua teknologi revolusioner bertemu, tabrakan mereka sering memiliki dampak eksponensial. Hari ini, kita berada di momen sejarah seperti itu: kecerdasan buatan dan teknologi enkripsi, dua teknologi baru yang sama-sama mengganggu, memasuki pusat panggung bersama-sama.
Kami membayangkan bahwa banyak tantangan di bidang AI dapat diselesaikan oleh teknologi enkripsi; kami berharap AI Agent membangun jaringan ekonomi otonom dan mempromosikan adopsi teknologi enkripsi dalam skala besar; kami juga berharap AI dapat mempercepat pengembangan skenario yang ada di bidang enkripsi. Banyak mata tertuju pada hal ini, dan dana besar mengalir masuk. Sama seperti kata-kata yang sedang populer, hal ini mencerminkan keinginan orang-orang untuk inovasi, visi masa depan, dan juga mengandung ambisi dan keserakahan yang tidak terkendali.
Namun dalam semua kehebohan ini, kita tahu sangat sedikit tentang masalah-masalah paling dasar. Seberapa baik AI mengetahui tentang enkripsi? Apakah seorang Agen yang dilengkapi dengan model bahasa besar memiliki kemampuan sebenarnya untuk menggunakan alat enkripsi? Seberapa besar perbedaan yang dilakukan oleh model-model berbeda dalam tugas enkripsi?
Jawaban dari pertanyaan-pertanyaan ini akan menentukan pengaruh saling antara teknologi AI dan enkripsi, dan juga sangat penting untuk arah produk dan pemilihan rute teknologi dalam bidang yang saling terkait ini. Untuk mengeksplorasi masalah-masalah ini, saya melakukan beberapa eksperimen evaluasi pada model bahasa besar. Dengan menilai pengetahuan dan kemampuan mereka dalam bidang enkripsi, kami mengukur tingkat aplikasi enkripsi dari AI dan menentukan potensi dan tantangan dari integrasi AI dan teknologi enkripsi.
Model bahasa besar bekerja dengan baik dalam pengetahuan dasar kriptografi dan blockchain, dan memiliki pemahaman yang baik tentang ekosistem enkripsi, namun performanya buruk dalam perhitungan matematika dan analisis logika bisnis yang kompleks. Dalam hal kunci pribadi dan operasi dompet dasar, model memiliki dasar yang memuaskan, namun menghadapi tantangan serius tentang bagaimana menjaga kunci pribadi di cloud. Banyak model dapat menghasilkan kode kontrak pintar yang efektif untuk skenario yang sederhana, namun tidak dapat melakukan tugas yang sulit secara mandiri seperti audit kontrak dan penciptaan kontrak yang kompleks.
Model-model komersial yang tertutup umumnya memiliki keunggulan yang besar. Di kubu sumber terbuka, hanya Llama 3.1-405B yang tampil baik, sedangkan semua model sumber terbuka dengan ukuran parameter yang lebih kecil gagal. Namun, ada potensi. Melalui bimbingan kata prompt, penalaran rantai pemikiran, dan teknologi pembelajaran few-shot, kinerja semua model telah meningkat secara signifikan. Model-model terdepan sudah memiliki kelayakan teknis yang kuat dalam beberapa skenario aplikasi vertikal.
18 model bahasa perwakilan dipilih sebagai objek evaluasi, termasuk:
Model-model ini mencakup model-model komersial utama dan sumber terbuka populer, dengan jumlah parameter berkisar lebih dari seratus kali lipat dari 3.8B hingga 405B. Mengingat hubungan erat antara teknologi enkripsi dan matematika, dua model optimisasi matematika khusus dipilih untuk eksperimen.
Area pengetahuan yang dicakup oleh eksperimen ini meliputi kriptografi, dasar-dasar blockchain, operasi kunci pribadi dan dompet, kontrak pintar, DAO dan tata kelola, konsensus dan model ekonomi, Dapp/DeFi/NFT, analisis data on-chain, dll. Setiap bidang terdiri dari serangkaian pertanyaan dan tugas mulai dari yang mudah hingga sulit, yang tidak hanya menguji cadangan pengetahuan model, tetapi juga menguji kinerjanya dalam skenario aplikasi melalui tugas simulasi.
Desain tugas berasal dari berbagai sumber. Beberapa berasal dari masukan beberapa ahli di bidang enkripsi, dan bagian lainnya dihasilkan dengan bantuan AI dan dibuktikan secara manual untuk memastikan akurasi dan tantangan dari tugas-tugas tersebut. Beberapa dari tugas-tugas menggunakan pertanyaan pilihan ganda dalam format yang relatif sederhana untuk memfasilitasi pengujian dan penilaian otomatis yang terstandarisasi. Bagian lain dari tes mengadopsi format pertanyaan yang lebih kompleks, dan proses pengujian dilakukan dengan kombinasi otomasi program + manual + AI. Semua tugas pengujian dievaluasi menggunakan metode penalaran sampel nol, tanpa memberikan contoh, bimbingan pikiran, atau perintah instruksional.
Karena desain eksperimen itu sendiri relatif kasar dan tidak memiliki ketelitian akademik yang memadai, pertanyaan dan tugas yang digunakan untuk pengujian jauh dari mencakup sepenuhnya bidang enkripsi, dan kerangka pengujian juga belum matang. Oleh karena itu, artikel ini tidak mencantumkan data eksperimen yang spesifik, tetapi berfokus pada berbagi beberapa wawasan dari eksperimen.
Selama proses evaluasi,Model bahasa besar berkinerja baik dalam tes pengetahuan dasar di berbagai bidang seperti algoritma enkripsi, dasar-dasar blockchain, dan aplikasi DeFi. Misalnya, semua model memberikan jawaban akurat untuk pertanyaan yang menguji pemahaman tentang konsep ketersediaan data. Adapun pertanyaan yang mengevaluasi pemahaman model tentang struktur transaksi Ethereum, meskipun setiap model memiliki jawaban yang sedikit berbeda secara rinci, mereka umumnya berisi informasi kunci yang benar. Pertanyaan pilihan ganda yang memeriksa konsep bahkan lebih mudah, dan akurasi hampir semua model di atas 95%.
Pertanyaan dan jawaban konseptual sangat sulit bagi model-model besar.
Namun, situasinya berbalik ketika menyangkut masalah yang memerlukan perhitungan khusus. Sebuah masalah perhitungan algoritma RSA sederhana membuat sebagian besar model mengalami kesulitan. Mudah dipahami: model bahasa besar beroperasi terutama dengan mengidentifikasi dan mereplikasi pola dalam data pelatihan, daripada dengan memahami secara mendalam sifat konsep matematika. Keterbatasan ini terutama jelas saat berurusan dengan konsep matematika abstrak seperti operasi modular dan operasi eksponensial. Mengingat bahwa bidang kriptografi erat kaitannya dengan matematika, ini berarti Mengandalkan langsung pada model untuk perhitungan matematika yang terkait dengan enkripsi tidak dapat diandalkan。
Dalam masalah komputasi lainnya, kinerja model bahasa besar juga tidak memuaskan. Sebagai contoh, untuk pertanyaan sederhana tentang menghitung kerugian yang tidak permanen dari AMM, meskipun tidak melibatkan operasi matematika kompleks, hanya 4 dari 18 model memberikan jawaban yang benar. Adapun untuk pertanyaan dasar lainnya tentang menghitung probabilitas sebuah blok, semua model memberikan jawaban yang salah. Hal ini membuat semua model bingung, dan tidak ada satupun yang benar. Hal ini tidak hanya mengekspos kelemahan model bahasa besar dalam perhitungan yang akurat, tetapi juga mencerminkan masalah utama mereka dalam analisis logika bisnis. Perlu dicatat bahwa bahkan model optimisasi matematika gagal menunjukkan keunggulan yang jelas dalam pertanyaan perhitungan, dan kinerjanya mengecewakan.
Namun, masalah perhitungan matematika bukanlah masalah yang tak terpecahkan. Jika kita melakukan penyesuaian kecil dan menuntut LLM untuk memberikan kode Python yang sesuai daripada menghitung hasil secara langsung, tingkat akurasi akan meningkat secara signifikan. Mengambil masalah perhitungan RSA yang disebutkan di atas sebagai contoh, kode Python yang diberikan oleh sebagian besar model dapat dieksekusi dengan lancar dan menghasilkan hasil yang benar. Di lingkungan produksi yang sebenarnya, kode algoritma yang telah disiapkan dapat disediakan untuk menghindari perhitungan sendiri dari LLM, yang serupa dengan bagaimana manusia menangani tugas-tugas tersebut. Pada level logika bisnis, performa model juga dapat ditingkatkan secara efektif melalui bimbingan kata-kata prompt yang dirancang dengan hati-hati.
Jika Anda bertanya apa skenario pertama untuk Agen menggunakan cryptocurrency, jawaban saya adalah pembayaran. Cryptocurrency hampir dapat dianggap sebagai bentuk mata uang yang berasal dari AI. Dibandingkan dengan banyak hambatan yang dihadapi oleh agen dalam sistem keuangan tradisional, penggunaan teknologi enkripsi untuk melengkapi diri mereka dengan identitas digital dan mengelola dana melalui dompet terenkripsi adalah pilihan alami. Oleh karena itu, pembuatan dan pengelolaan kunci privat dan berbagai operasi dompet merupakan persyaratan keterampilan paling dasar bagi seorang Agen untuk dapat menggunakan jaringan enkripsi secara independen.
Inti dari pembuatan kunci pribadi yang aman terletak pada angka acak berkualitas tinggi, yang jelas merupakan kemampuan yang tidak dimiliki oleh model bahasa besar. Namun, model-model tersebut memiliki pemahaman yang cukup tentang keamanan kunci pribadi. Ketika diminta untuk menghasilkan kunci pribadi, sebagian besar model memilih untuk menggunakan kode (seperti perpustakaan terkait Python) untuk memandu pengguna dalam menghasilkan kunci pribadi secara independen. Bahkan jika model tersebut secara langsung menyediakan kunci pribadi, jelas dinyatakan bahwa ini hanya untuk tujuan demonstrasi dan bukan kunci pribadi yang aman yang dapat digunakan secara langsung. Dalam hal ini, semua model besar menunjukkan performa yang memuaskan.
Manajemen kunci pribadi menghadapi beberapa tantangan, yang terutama disebabkan oleh keterbatasan yang melekat pada arsitektur teknis daripada kurangnya kemampuan model. Saat menggunakan model yang disebarkan secara lokal, kunci privat yang dihasilkan dapat dianggap relatif aman. Namun, jika model cloud komersial digunakan, kita harus berasumsi bahwa kunci privat telah diekspos ke operator model saat dihasilkan. Tetapi untuk Agen yang bertujuan untuk bekerja secara independen, perlu memiliki izin kunci pribadi, yang berarti bahwa kunci pribadi tidak hanya bersifat lokal bagi pengguna. Dalam hal ini, hanya mengandalkan model itu sendiri tidak lagi cukup untuk memastikan keamanan kunci privat, dan layanan keamanan tambahan seperti lingkungan eksekusi tepercaya atau HSM perlu diperkenalkan.
Jika diasumsikan bahwa Agen sudah menguasai kunci pribadi dengan aman dan melakukan berbagai operasi dasar berdasarkan ini, berbagai model dalam pengujian telah menunjukkan kemampuan yang baik. Meskipun sering terjadi kesalahan dalam langkah-langkah dan kode yang dihasilkan, masalah tersebut dapat diselesaikan sebagian besar dengan struktur rekayasa yang sesuai. Dapat dikatakan bahwa dari segi teknis, tidak ada banyak hambatan lagi bagi Agen untuk melakukan operasi dompet dasar secara independen.
Kemampuan untuk memahami, memanfaatkan, menulis, dan mengidentifikasi risiko kontrak pintar adalah kunci bagi AI Agents untuk melakukan tugas kompleks di dunia on-chain, dan oleh karena itu juga merupakan area pengujian kunci untuk percobaan. Model bahasa besar telah menunjukkan potensi yang signifikan dalam hal ini, tetapi mereka juga telah mengungkapkan beberapa masalah yang jelas.
Hampir semua model dalam uji coba ini dengan benar menjawab konsep kontrak yang mendasari, mengidentifikasi bug sederhana. Dalam hal optimasi gas kontrak, sebagian besar model dapat mengidentifikasi titik optimasi kunci dan menganalisis konflik yang mungkin terjadi akibat optimasi. Namun, ketika logika bisnis yang mendalam terlibat, keterbatasan model yang besar mulai terlihat.
Ambil kontrak vesting token sebagai contoh: semua model memahami dengan benar fungsi kontrak, dan sebagian besar model menemukan beberapa kerentanan risiko menengah dan rendah. Namun, tidak ada model yang dapat secara independen menemukan kerentanan risiko tinggi yang tersembunyi dalam logika bisnis yang dapat menyebabkan sejumlah dana terkunci dalam keadaan khusus. Selama beberapa pengujian menggunakan kontrak nyata, model tersebut memberikan hasil yang hampir sama.
Ini menunjukkan bahwa pemahaman model besar terhadap kontrak masih tetap berada pada tingkat formal dan kurang memahami logika bisnis yang dalam. Namun, setelah diberikan petunjuk tambahan, beberapa model akhirnya dapat secara independen mengidentifikasi kerentanan yang sangat tersembunyi dalam kontrak-kontrak yang disebutkan di atas. Berdasarkan penilaian kinerja ini, dengan dukungan desain rekayasa yang baik, model besar pada dasarnya memiliki kemampuan untuk bertindak sebagai co-pilot di bidang kontrak pintar. Namun, masih ada jalan panjang sebelum kita dapat secara independen menangani tugas-tugas penting seperti audit kontrak.
Satu hal yang perlu diperhatikan adalah bahwa tugas-tugas yang berkaitan dengan kode dalam eksperimen ini hanya untuk kontrak dengan logika sederhana dan tidak lebih dari 2.000 baris kode. Untuk proyek-proyek kompleks dalam skala yang lebih besar, tanpa penyesuaian halus atau rekayasa kata yang kompleks, saya rasa jelas melebihi kapabilitas pemrosesan yang efektif dari model saat ini dan tidak termasuk dalam pengujian. Selain itu, pengujian ini hanya melibatkan Solidity dan tidak termasuk bahasa kontrak pintar lainnya seperti Rust dan Move.
Selain konten uji coba di atas, eksperimen juga mencakup banyak aspek termasuk skenario DeFi, DAO dan tata kelolaannya, analisis data on-chain, desain mekanisme konsensus, dan Tokenomics. Model bahasa besar telah menunjukkan kemampuan tertentu dalam hal-hal ini. Mengingat banyak uji coba masih dalam proses dan metode serta kerangka kerja pengujian terus dioptimalkan, artikel ini saat ini tidak akan membahas area-area tersebut.
Di antara semua model bahasa besar yang berpartisipasi dalam evaluasi, GPT-4o dan Claude 3.5 Sonnet melanjutkan kinerja luar biasa mereka di bidang lain dan merupakan pemimpin yang tidak perlu dipersoalkan. Ketika dihadapkan dengan pertanyaan dasar, kedua model hampir selalu dapat memberikan jawaban yang akurat; Dalam analisis skenario yang kompleks, mereka dapat memberikan wawasan yang mendalam dan terdokumentasi dengan baik. Bahkan menunjukkan tingkat kemenangan yang tinggi dalam tugas-tugas komputasi yang tidak dikuasai oleh model besar. Tentu saja, tingkat keberhasilan "tinggi" ini relatif dan belum mencapai tingkat output yang stabil dalam lingkungan produksi.
Di kamp model sumber terbuka, Llama 3.1-405B jauh lebih unggul dari pesaingnya berkat skala parameter yang besar dan algoritma model yang canggih. Pada model sumber terbuka lainnya dengan ukuran parameter yang lebih kecil, tidak ada perbedaan performa yang signifikan antara model-model tersebut. Meskipun skornya sedikit berbeda, secara keseluruhan mereka jauh dari garis lulus.
Oleh karena itu, jika Anda ingin membangun aplikasi AI terkait enkripsi saat ini, model-model dengan parameter kecil dan menengah bukan pilihan yang tepat.
Dua model terutama menonjol dalam tinjauan kami. Yang pertama adalah model Phi-3 3.8B yang diluncurkan oleh Microsoft. Ini adalah model terkecil yang berpartisipasi dalam eksperimen ini. Namun, mencapai tingkat kinerja yang setara dengan model 8B-12B dengan kurang dari separuh jumlah parameter. Pada beberapa kategori tertentu, bahkan lebih baik pada masalah tersebut. Hasil ini menekankan pentingnya optimasi arsitektur model dan strategi pelatihan yang tidak hanya bergantung pada peningkatan ukuran parameter.
Dan model Command-R dari Cohere telah menjadi "kuda hitam" yang mengejutkan - sebaliknya. Command-R tidak sepopuler model lain, tetapi Cohere adalah perusahaan model besar yang fokus pada pasar 2B. Saya pikir masih banyak titik konvergensi dengan area seperti pengembangan Agen, jadi model ini secara khusus dimasukkan dalam lingkup uji. Namun, Command-R dengan 35B parameter menempati peringkat terakhir dalam sebagian besar uji, kalah dari banyak model di bawah 10B.
Hasil ini memicu pemikiran: ketika Command-R dirilis, itu berfokus pada peningkatan pemulihan dan kemampuan generasi, dan bahkan tidak mempublikasikan hasil uji benchmark reguler. Apakah ini berarti itu adalah “kunci pribadi” yang membuka potensi penuhnya hanya dalam skenario tertentu?
Dalam serangkaian tes ini, kami mendapatkan pemahaman awal tentang kemampuan AI dalam bidang enkripsi. Tentu saja, tes-tes ini jauh dari standar profesional. Cakupan set data masih jauh dari cukup, standar kuantitatif untuk jawaban masih relatif kasar, dan masih kurangnya mekanisme penilaian yang lebih rinci dan akurat. Hal ini akan mempengaruhi akurasi hasil evaluasi dan dapat menyebabkan pengunderestimasian kinerja beberapa model.
Dalam hal metode pengujian, eksperimen hanya menggunakan satu metode pembelajaran nol-tembakan, dan tidak mengeksplorasi metode seperti rantai berpikir dan pembelajaran beberapa tembakan yang dapat menginspirasi potensi lebih besar dari model. Dalam hal parameter model, parameter model standar digunakan dalam eksperimen, dan dampak pengaturan parameter yang berbeda pada kinerja model tidak diperiksa. Metode pengujian tunggal secara keseluruhan ini membatasi evaluasi komprehensif kami terhadap potensi model dan gagal untuk sepenuhnya mengeksplorasi perbedaan dalam kinerja model di bawah kondisi-kondisi tertentu.
Meskipun kondisi pengujian relatif sederhana, eksperimen ini masih menghasilkan banyak wawasan berharga dan memberikan referensi bagi para pengembang untuk membangun aplikasi.
Di bidang kecerdasan buatan, benchmark memainkan peran kunci. Perkembangan pesat teknologi pembelajaran mendalam modern berasal dari ImageNET yang diselesaikan oleh Profesor Li Feifei pada tahun 2012, yang merupakan benchmark standar dan kumpulan data di bidang visi komputer.
Dengan menyediakan standar terpadu untuk evaluasi, tolok ukur tidak hanya memberi pengembang tujuan dan titik referensi yang jelas, tetapi juga mendorong kemajuan teknologi di seluruh industri. Ini menjelaskan mengapa setiap model bahasa besar yang baru dirilis akan fokus pada pengumuman hasilnya pada berbagai tolok ukur. Hasil ini menjadi "bahasa universal" kemampuan model, memungkinkan peneliti untuk menemukan terobosan, pengembang untuk memilih model yang paling cocok untuk tugas-tugas tertentu, dan pengguna untuk membuat pilihan berdasarkan informasi berdasarkan data obyektif. Lebih penting lagi, tes benchmark sering kali menandai arah masa depan aplikasi AI, memandu investasi sumber daya dan fokus penelitian.
Jika kita percaya bahwa ada potensi besar di perpotongan AI dan kriptografi, maka menetapkan patokan kriptografi yang didedikasikan menjadi tugas yang mendesak. Pendirian patokan dapat menjadi jembatan kunci yang menghubungkan dua bidang AI dan enkripsi, mempercepat inovasi, dan memberikan panduan yang jelas untuk aplikasi di masa depan.
Namun, dibandingkan dengan tolok ukur yang matang di bidang lain, membangun tolok ukur di bidang enkripsi menghadapi tantangan unik: teknologi enkripsi berkembang pesat, sistem pengetahuan industri belum dipadatkan, dan kurangnya konsensus di berbagai arah inti. Sebagai bidang interdisipliner, enkripsi mencakup kriptografi, sistem terdistribusi, ekonomi, dll., Dan kompleksitasnya jauh melampaui satu bidang. Yang lebih menantang adalah bahwa tolok ukur enkripsi tidak hanya perlu menilai pengetahuan, tetapi juga memeriksa kemampuan praktis AI untuk menggunakan teknologi enkripsi, yang memerlukan desain arsitektur penilaian baru. Kurangnya kumpulan data yang relevan semakin meningkatkan kesulitan.
Kompleksitas dan pentingnya tugas ini menentukan bahwa hal ini tidak dapat dicapai oleh satu orang atau tim saja. Ini perlu menggabungkan kebijaksanaan dari banyak pihak mulai dari pengguna, pengembang, pakar kriptografi, peneliti enkripsi hingga lebih banyak orang di bidang lintas disiplin, dan bergantung pada partisipasi komunitas yang luas dan konsensus yang luas. Oleh karena itu, benchmark enkripsi memerlukan diskusi yang lebih luas, karena ini bukan hanya pekerjaan teknis, tetapi juga refleksi mendalam tentang bagaimana kita memahami teknologi yang sedang berkembang ini.