Teknolojik ilerlemenin tarihçesinde, devrim niteliğindeki teknolojiler genellikle bağımsız olarak ortaya çıkar ve her biri bir çağdaki değişikliklere öncülük eder. Ve iki devrim niteliğindeki teknoloji bir araya geldiğinde, çarpışmaları genellikle üstel bir etkiye sahiptir. Bugün, böyle tarihi bir anda duruyoruz: eşit derecede yıkıcı iki yeni teknoloji olan yapay zeka ve şifreleme teknolojisi, sahnenin merkezine el ele giriyor.
Yapay zeka alanındaki birçok zorluğun şifreleme teknolojisi ile çözülebileceğini hayal ediyoruz; AI Agent'ın özerk ekonomik ağlar kurmasını ve şifreleme teknolojisinin geniş çapta benimsenmesini teşvik etmesini dört gözle bekliyoruz; Ayrıca yapay zekanın şifreleme alanındaki mevcut senaryoların geliştirilmesini hızlandırabileceğini umuyoruz. Sayısız göz buna odaklanmış durumda ve büyük fonlar akıyor. Tıpkı herhangi bir moda kelime gibi, insanların yenilik arzusunu, gelecek vizyonunu somutlaştırır ve aynı zamanda kontrol edilemez hırs ve açgözlülük içerir.
Ancak tüm bu kargaşada, en temel konular hakkında çok az şey biliyoruz. Yapay zeka şifreleme konusunda ne kadar iyi bilgi sahibi? Büyük bir dil modeliyle donatılmış bir Ajan, gerçekten şifreleme araçlarını kullanma yeteneğine sahip mi? Farklı modeller şifreleme görevlerinde ne kadar farklılık gösterir?
Bu soruların cevapları, yapay zeka ve şifreleme teknolojisinin karşılıklı etkisini belirleyecek ve aynı zamanda bu çapraz alandaki ürün yönü ve teknoloji rotası seçimi için de çok önemlidir. Bu sorunları araştırmak için büyük dil modelleri üzerinde bazı değerlendirme deneyleri yaptım. Şifreleme alanındaki bilgi ve yeteneklerini değerlendirerek, yapay zekanın şifreleme uygulama seviyesini ölçüyor ve yapay zeka ile şifreleme teknolojisinin entegrasyonunun potansiyelini ve zorluklarını belirliyoruz.
Büyük dil modeli, kriptografi ve blok zinciri temel bilgisinde iyi performans gösterir ve şifreleme ekosistemini iyi anlar, ancak matematiksel hesaplamalarda ve karmaşık iş mantığı analizinde kötü performans gösterir. Özel anahtarlar ve temel cüzdan işlemleri açısından, model tatmin edici bir temele sahiptir, ancak özel anahtarların bulut üzerinde nasıl tutulacağına dair ciddi bir zorlukla karşı karşıyadır. Birçok model, basit senaryolar için etkili bir akıllı sözleşme kodu oluşturabilir, ancak sözleşme denetimi ve karmaşık sözleşme oluşturma gibi zorlu görevleri bağımsız olarak gerçekleştiremez.
Ticari kapalı kaynak modeller genellikle büyük bir avantaja sahiptir. Açık kaynak kampında, yalnızca Llama 3.1-405B iyi performans sergiledi, diğer tüm açık kaynak modelleri daha küçük parametre boyutlarına sahip olduğu için başarısız oldu. Ancak, potansiyel var. Hızlı kelime rehberliği, düşünce zinciri muhakemesi ve az-shot öğrenme teknolojisi sayesinde tüm modellerin performansı büyük ölçüde iyileştirildi. Öncü modeller zaten bazı dikey uygulama senaryolarında güçlü teknik uygulanabilirliğe sahiptir.
18 temsilci dil modeli değerlendirme nesneleri olarak seçildi, dahil:
Bu modeller, 3.8B ile 405B arasında değişen parametre miktarlarına sahip yaygın ticari ve popüler açık kaynaklı modelleri kapsamaktadır. Şifreleme teknolojisi ve matematik arasındaki yakın ilişki dikkate alındığında, deney için özel olarak iki matematiksel optimizasyon modeli seçildi.
Deney tarafından kapsanan bilgi alanları, şifreleme, blok zinciri temelleri, özel anahtar ve cüzdan işlemleri, akıllı sözleşmeler, DAO ve yönetişim, fikir birliği ve ekonomik modeller, Dapp/DeFi/NFT, zincir üzerindeki veri analizi vb. konularını içermektedir. Her alan, kolaydan zora kadar uzanan bir dizi soru ve görevden oluşur ve modelin bilgi birikimini sınamanın yanı sıra, simülasyon görevleri aracılığıyla uygulama senaryolarındaki performansını da test eder.
Görev tasarımları çeşitli kaynaklardan gelmektedir. Bazıları şifreleme alanında çoklu uzmanların girdilerinden gelirken, diğer kısmı AI'nın yardımıyla oluşturulur ve doğruluğu ve görevlerin zorluğu sağlamak için manuel olarak düzeltme yapılır. Görevlerin bazıları, ayrı standartlaştırılmış otomatik test ve puanlama için nispeten basit bir çoktan seçmeli soru formatını kullanır. Testin diğer bir kısmı daha karmaşık bir soru formatını benimser ve test süreci program otomasyonu + manuel + AI kombinasyonuyla yapılır. Tüm test görevleri, herhangi bir örnek, düşünce rehberliği veya talimat ipucu sağlamadan sıfır örnekleme mantığı yöntemi kullanılarak değerlendirilir.
Deneyin tasarımı kendisi oldukça kaba ve yeterli akademik titizliğe sahip değil, test için kullanılan sorular ve görevler şifreleme alanını tamamen kapsamaktan uzaktır ve test çerçevesi de olgunlaşmamıştır. Bu nedenle, bu makalede belirli deneysel veriler listelenmemekte, ancak deneylerden bazı içgörüler paylaşılmaktadır.
Değerlendirme süreci sırasında, büyük dil modeli şifreleme algoritmaları, blockchain temelleri ve DeFi uygulamaları gibi çeşitli alanlardaki temel bilgi testlerinde iyi performans gösterdi. Örneğin, tüm modeller veri erişilebilirlik kavramının anlayışını test eden sorulara doğru cevaplar verdi. Ethereum işlem yapısıyla ilgili modelin anlayışını değerlendiren soruya gelince, her bir model ayrıntılarda hafif farklı cevaplar verse de genellikle doğru anahtar bilgiler içeriyor. Kavramları inceleyen çoktan seçmeli sorular daha az zorlayıcıdır ve neredeyse tüm modellerin doğruluk oranı %95'in üzerindedir.
Kavramsal sorular ve cevaplar, büyük modeller için tamamen zorlayıcıdır.
Ancak, belirli hesaplamaları gerektiren sorunlar söz konusu olduğunda durum tersine döner. Basit bir RSA algoritma hesaplama problemi, çoğu modeli zor duruma sokar. Kolay anlaşılabilir: büyük dil modelleri, matematiksel kavramların doğasını derinlemesine anlamak yerine, eğitim verilerindeki desenleri tanımlayarak ve çoğaltarak çalışır. Bu kısıtlama, modüler operasyonlar ve üstel operasyonlar gibi soyut matematiksel kavramlarla uğraşırken özellikle açıktır. Kriptografi alanının matematikle yakından ilişkili olması göz önüne alındığında, bu, şifrelemeyle ilgili matematiksel hesaplamalar için modellere doğrudan güvenmenin güvenilmez olduğu anlamına gelir。
Diğer hesaplama problemlerinde de, büyük dil modellerinin performansı tatmin edici değildir. Örneğin, AMM'nin geçici kaybını hesaplama gibi basit bir soru için, karmaşık matematiksel işlemleri içermese bile, 18 modelin sadece 4'ü doğru cevabı verdi. Bir bloğun olasılığını hesaplama hakkında başka bir daha temel soru için, tüm modeller yanlış cevap aldı. Tüm modelleri şaşırttı ve hiçbiri doğru değildi. Bu, büyük dil modellerinin doğru hesaplamalardaki eksikliklerini ortaya çıkarmanın yanı sıra, iş mantığı analizindeki büyük sorunlarını da yansıtmaktadır. Matematiksel optimizasyon modeli bile hesaplama sorularında belirgin avantajlar gösterememesine rağmen, performansı hayal kırıklığına uğratıcıdır.
Ancak, matematiksel hesaplama sorunu çözülemez değildir. Eğer küçük bir ayarlama yaparsak ve LLM'lerin doğrudan sonuçları hesaplamak yerine ilgili Python kodlarını sağlamasını talep edersek, doğruluk oranı büyük ölçüde artacaktır. Yukarıda bahsedilen RSA hesaplama problemi örneğini ele alalım, çoğu model tarafından verilen Python kodları sorunsuz bir şekilde yürütülebilir ve doğru sonuçlar üretebilir. Gerçek üretim ortamlarında, LLM'lerin öz-yoğunluklarını atlamak için önceden belirlenmiş algoritma kodları sağlanabilir, bu da insanların bu tür görevleri nasıl ele aldığına benzer. İş mantığı seviyesinde, modelin performansı dikkatle tasarlanmış bir ipucu kelime rehberliği ile etkili bir şekilde artırılabilir.
Eğer bir Ajanın kripto para birimini kullanmak için ilk senaryo nedir diye sorarsanız, cevabım ödeme olacaktır. Kripto para birimi neredeyse yapay zekâya özgü bir para birimi olarak kabul edilebilir. Geleneksel finansal sistemde ajanların karşılaştığı birçok engelle karşılaştırıldığında, kendilerini dijital kimliklerle donatmak ve paralarını şifrelenmiş cüzdanlar aracılığıyla yönetmek için şifreleme teknolojisini kullanmak doğal bir tercihtir. Bu nedenle, özel anahtarların oluşturulması ve yönetilmesi ile çeşitli cüzdan işlemleri, bir Ajanın şifreleme ağını bağımsız olarak kullanabilmesi için en temel beceri gereksinimlerini oluşturur.
Güvenli olarak özel anahtarların oluşturulmasının temeli, açıkça büyük dil modellerinin sahip olmadığı yüksek kaliteli rasgele sayılardır. Bununla birlikte, modeller özel anahtar güvenliği konusunda yeterli bir anlayışa sahiptir. Bir özel anahtar oluşturması istendiğinde, çoğu model kullanıcıları özel anahtarları bağımsız olarak oluşturmaları için kodu (örneğin Python ile ilgili kütüphaneleri) kullanmayı seçer. Bir model doğrudan bir özel anahtar sağlasa bile, bu sadece gösterim amaçlı olduğu ve doğrudan kullanılamayan güvenli bir özel anahtar olduğu açıkça belirtilir. Bu konuda, tüm büyük modeller tatmin edici bir performans sergiledi.
Özel anahtar yönetimi bazı zorluklarla karşılaşmaktadır, bunlar daha çok teknik mimarinin doğal sınırlamalarından kaynaklanmaktadır ve model yeteneklerinin eksikliği değildir. Yerel olarak dağıtılan bir model kullanıldığında, üretilen özel anahtar nispeten güvenli kabul edilebilir. Ancak, ticari bir bulut modeli kullanılıyorsa, özel anahtarın üretildiği anda model operatörüne maruz kaldığını varsaymamız gerekmektedir. Ancak bağımsız olarak çalışmayı amaçlayan bir Ajan için özel anahtar izinlerine sahip olmak gerekmektedir, bu da özel anahtarın sadece kullanıcıya özgü olamayacağı anlamına gelir. Bu durumda, yalnızca modele güvenmek özel anahtarın güvenliğini sağlamak için yeterli değildir ve güvenilir bir yürütme ortamı veya HSM gibi ek güvenlik hizmetlerinin tanıtılması gerekmektedir.
Eğer Ajansın özel anahtarı güvenli bir şekilde tutulduğunu ve bu temel üzerinde çeşitli temel işlemlerin gerçekleştirildiğini varsayarsak, testteki çeşitli modeller iyi yeteneklerini göstermiştir. Oluşturulan adımlar ve kodlarda sıklıkla hatalar olsa da, bu sorunlar uygun bir mühendislik yapısıyla büyük ölçüde çözülebilir. Teknik bir perspektiften bakıldığında, Ajansın temel cüzdan işlemlerini bağımsız bir şekilde gerçekleştirmekte artık pek çok engel olmadığı söylenebilir.
Akıllı sözleşmelerin risklerini anlama, kullanma, yazma ve tanımlama yeteneği, AI ajanlarının zincir üzerinde karmaşık görevleri yerine getirmesi için temel bir unsurdur ve bu nedenle deneyler için de temel bir test alanıdır. Büyük dil modelleri bu alanda önemli potansiyel göstermiştir, ancak bazı açık problemleri de ortaya çıkarmıştır.
Testte neredeyse tüm modeller, temel sözleşme kavramlarını doğru bir şekilde yanıtladı, basit hataları belirledi. Sözleşme gazı optimizasyonu açısından, çoğu model, temel optimizasyon noktalarını belirleyebilir ve optimizasyonun neden olabileceği çatışmaları analiz edebilir. Ancak derin iş mantığı devreye girdiğinde, büyük modellerin sınırlamaları ortaya çıkmaya başlar.
Bir jeton serbest bırakma sözleşmesini örnek alalım: tüm modeller sözleşme işlevlerini doğru bir şekilde anladı ve çoğu model birkaç orta ve düşük riskli güvenlik açığı buldu. Bununla birlikte, hiçbir model özel durumlarda bazı fonların kilitlenmesine neden olabilecek iş mantığında gizlenmiş yüksek riskli bir güvenlik açığı keşfedemedi. Gerçek sözleşmeler kullanılarak yapılan çoklu testlerde, model yaklaşık olarak aynı performansı sergiledi.
Bu, büyük modelin sözleşme anlayışının hala resmi düzeyde kaldığını ve derin iş mantığını anlamadığını göstermektedir. Bununla birlikte, ek ipuçları sağlandıktan sonra, bazı modeller sonunda yukarıda belirtilen sözleşmelerdeki derinden gizlenmiş güvenlik açıklarını bağımsız olarak tanımlayabildi. Bu performans değerlendirmesine dayanarak, iyi mühendislik tasarımının desteğiyle, büyük model temel olarak akıllı sözleşmeler alanında yardımcı pilot olarak hizmet etme yeteneğine sahiptir. Ancak, sözleşme denetimleri gibi önemli görevleri bağımsız olarak üstlenebilmemiz için daha kat etmemiz gereken uzun bir yol var.
Dikkat edilmesi gereken bir şey, deneydeki kodla ilgili görevlerin, basit mantığa ve 2.000 satırdan az kod içeren sözleşmelere yönelik olduğudur. Daha büyük ölçekli karmaşık projeler için, ince ayar veya karmaşık ipucu sözcük mühendisliği olmadan, mevcut modelin etkili işleme yeteneklerinin açıkça ötesinde olduğunu ve test kapsamında yer almadığını düşünüyorum. Ayrıca, bu test yalnızca Solidity'yi içermekte olup, Rust ve Move gibi diğer akıllı sözleşme dillerini içermemektedir.
Yukarıdaki test içeriğine ek olarak deney, DeFi senaryoları, DAO ve yönetişimi, zincir üstü veri analizi, konsensüs mekanizması tasarımı ve Token ekonomisi dahil olmak üzere birçok yönü de kapsar. Büyük dil modelleri bu yönlerden belirli yetenekler göstermiştir. Birçok testin hala devam ettiği ve test yöntemlerinin ve çerçevelerinin sürekli olarak optimize edildiği göz önüne alındığında, bu makale şimdilik bu alanlara girmeyecektir.
Değerlendirmeye katılan tüm büyük dil modelleri arasında GPT-4o ve Claude 3.5 Sonnet, diğer alanlarda mükemmel performanslarını sürdürdüler ve tartışmasız liderler oldular. Temel sorularla karşılaşıldığında, her iki model de neredeyse her zaman doğru cevaplar verebilir; Karmaşık senaryoların analizinde, derinlemesine ve iyi belgelenmiş içgörüler sağlayabilirler. Hatta büyük modellerin iyi olmadığı bilgi işlem görevlerinde yüksek bir kazanma oranı gösterir. Tabii ki, bu "yüksek" başarı oranı görecelidir ve henüz bir üretim ortamında istikrarlı çıktı seviyesine ulaşmamıştır.
Açık kaynak model kampında, Llama 3.1-405B, büyük parametre ölçeği ve gelişmiş model algoritmaları sayesinde rakiplerinin çok ilerisindedir. Daha küçük parametre boyutlarına sahip diğer açık kaynak modellerde modeller arasında önemli bir performans farkı yoktur. Puanlar biraz farklı olsa da, genel olarak geçme çizgisinden oldukça uzaktırlar.
Bu nedenle, şu anda şifreleme ile ilgili yapay zeka uygulamaları geliştirmek istiyorsanız, küçük ve orta boy parametrelere sahip bu modeller uygun bir seçenek değil.
İncelememizde özellikle iki model göze çarpıyordu. Birincisi, Microsoft tarafından piyasaya sürülen Phi-3 3.8B modelidir. Bu deneye katılan en küçük modeldir. Bununla birlikte, parametre sayısının yarısından daha azı ile 8B-12B modeline eşdeğer bir performans seviyesine ulaşır. Bazı belirli kategorilerde, bu konuda daha da iyi. Bu sonuç, yalnızca parametre boyutundaki artışlara dayanmayan model mimarisi optimizasyonunun ve eğitim stratejilerinin önemini vurgulamaktadır.
Ve Cohere’in Command-R modeli şaşırtıcı bir “dark horse” haline geldi - tersi. Command-R diğer modellere kıyasla pek bilinmese de, Cohere 2B pazarına odaklanan büyük bir model şirketidir. Ajan geliştirme gibi alanlarda hala birçok yakınsama noktası olduğunu düşünüyorum, bu yüzden özellikle test kapsamına dahil edildi. Ancak, 35B parametreye sahip Command-R çoğu testte en son sırada yer alarak, 10B'nin altındaki birçok modele yenildi.
Bu sonuç düşünmeye yol açtı: Command-R piyasaya sürüldüğünde, geri alma iyileştirme ve üretim yeteneklerine odaklandı ve hatta düzenli benchmark test sonuçları bile yayınlamadı. Bu, yalnızca belirli senaryolarda tam potansiyelini açan bir "özel anahtar" mı demek?
Bu test serisinde, yapay zekanın şifreleme alanındaki yetenekleri hakkında bir ön anlayış elde ettik. Tabii ki, bu testler profesyonel standartlardan uzaktır. Veri setinin kapsamı yeterli olmaktan uzaktır, cevaplar için nicel standartlar nispeten kabadır ve hala rafine ve daha doğru bir puanlama mekanizması eksikliği vardır. Bu, değerlendirme sonuçlarının doğruluğunu etkileyecektir ve bazı modellerin performansının hafife alınmasına yol açabilir.
Deneme yöntemi açısından, deney sadece sıfır-vuru öğrenme gibi tek bir yöntem kullanmış ve modelin daha büyük potansiyelini ortaya çıkarabilen düşünce zincirleri ve birkaç-vuru öğrenme gibi yöntemleri keşfetmemiştir. Model parametreleri açısından, deneylerde standart model parametreleri kullanılmış ve farklı parametre ayarlarının model performansı üzerindeki etkisi incelenmemiştir. Bu genel olarak tek bir test yöntemi, modelin potansiyelini kapsamlı bir şekilde değerlendirmemizi sınırlar ve model performansındaki farklılıkları belirli koşullar altında tam olarak keşfetmemizi engeller.
Test koşulları nispeten basit olsa da, bu deneyler hala birçok değerli bilgi üretti ve geliştiricilerin uygulamalar inşa etmek için bir referans sağladı.
Yapay zeka alanında, ölçütler önemli bir rol oynar. Modern derin öğrenme teknolojisinin hızlı gelişimi, 2012 yılında Li Feifei profesör tarafından tamamlanan ImageNET'ten kaynaklanmaktadır. ImageNET, bilgisayar görüşü alanında standartlaştırılmış bir ölçüt ve veri setidir.
Birleşik bir değerlendirme standardı sağlayarak, ölçütler sadece geliştiricilere net hedefler ve referans noktaları sağlamakla kalmaz, aynı zamanda endüstri genelinde teknolojik ilerlemeyi de hızlandırır. Bu, neden her yeni çıkan büyük dil modelinin sonuçlarını çeşitli ölçütler üzerinde duyurmak için odaklanacağını açıklar. Bu sonuçlar model yeteneklerinin “evrensel dili” haline gelir, araştırmacıların çığır açan buluşları bulmasına, geliştiricilerin belirli görevler için en uygun modelleri seçmesine ve kullanıcıların objektif verilere dayalı bilinçli tercihler yapmasına olanak tanır. Daha da önemlisi, ölçüt testleri genellikle yapay zeka uygulamalarının gelecekteki yönünü müjdeleyerek, kaynak yatırımını ve araştırma odaklarını yönlendirir.
Eğer yapay zeka ve şifreleme arasındaki kesişimde büyük potansiyel olduğuna inanıyorsak, o zaman özel şifreleme ölçütlerinin belirlenmesi acil bir görev haline gelir. Ölçütlerin belirlenmesi, AI ve şifreleme alanlarını birleştiren anahtar bir köprü haline gelebilir, yeniliği katalize edebilir ve gelecekteki uygulamalar için açık bir rehberlik sağlayabilir.
Ancak, diğer alanlardaki olgun ölçütlerle karşılaştırıldığında, şifreleme alanında ölçüt oluşturmak benzersiz zorluklarla karşılaşır: şifreleme teknolojisi hızla gelişmektedir, endüstri bilgi sistemi henüz sağlamlaşmamıştır ve birden çok temel yönde bir fikir birliği yoktur. Disiplinlerarası bir alan olarak, şifreleme kriptografi, dağıtık sistemler, ekonomi vb. alanları kapsar ve karmaşıklığı tek bir alanın ötesindedir. Daha da zorlayıcı olan şey, şifreleme ölçütünün sadece bilgiyi değerlendirmesi gerekmekle kalmayıp aynı zamanda AI'nın şifreleme teknolojisini kullanma pratik yeteneğini de sınamasıdır, bu da yeni bir değerlendirme mimarisi tasarımını gerektirir. İlgili veri setlerinin eksikliği zorluğu daha da artırır.
Bu görevin karmaşıklığı ve önemi, tek bir kişi veya ekip tarafından gerçekleştirilemeyeceğini belirtir. Kullanıcılardan, geliştiricilerden, kriptografi uzmanlarından, şifreleme araştırmacılarından disiplinler arası alanlarda daha fazla insana kadar birçok tarafın bilgeliğini bir araya getirmesi gerekiyor ve kapsamlı topluluk katılımına ve fikir birliğine dayanıyor. Bu nedenle, şifreleme ölçütünün daha geniş bir tartışmaya ihtiyacı var, çünkü bu sadece teknik bir çalışma değil, aynı zamanda bu gelişmekte olan teknolojiyi nasıl anladığımızın derin bir yansıması.
Teknolojik ilerlemenin tarihçesinde, devrim niteliğindeki teknolojiler genellikle bağımsız olarak ortaya çıkar ve her biri bir çağdaki değişikliklere öncülük eder. Ve iki devrim niteliğindeki teknoloji bir araya geldiğinde, çarpışmaları genellikle üstel bir etkiye sahiptir. Bugün, böyle tarihi bir anda duruyoruz: eşit derecede yıkıcı iki yeni teknoloji olan yapay zeka ve şifreleme teknolojisi, sahnenin merkezine el ele giriyor.
Yapay zeka alanındaki birçok zorluğun şifreleme teknolojisi ile çözülebileceğini hayal ediyoruz; AI Agent'ın özerk ekonomik ağlar kurmasını ve şifreleme teknolojisinin geniş çapta benimsenmesini teşvik etmesini dört gözle bekliyoruz; Ayrıca yapay zekanın şifreleme alanındaki mevcut senaryoların geliştirilmesini hızlandırabileceğini umuyoruz. Sayısız göz buna odaklanmış durumda ve büyük fonlar akıyor. Tıpkı herhangi bir moda kelime gibi, insanların yenilik arzusunu, gelecek vizyonunu somutlaştırır ve aynı zamanda kontrol edilemez hırs ve açgözlülük içerir.
Ancak tüm bu kargaşada, en temel konular hakkında çok az şey biliyoruz. Yapay zeka şifreleme konusunda ne kadar iyi bilgi sahibi? Büyük bir dil modeliyle donatılmış bir Ajan, gerçekten şifreleme araçlarını kullanma yeteneğine sahip mi? Farklı modeller şifreleme görevlerinde ne kadar farklılık gösterir?
Bu soruların cevapları, yapay zeka ve şifreleme teknolojisinin karşılıklı etkisini belirleyecek ve aynı zamanda bu çapraz alandaki ürün yönü ve teknoloji rotası seçimi için de çok önemlidir. Bu sorunları araştırmak için büyük dil modelleri üzerinde bazı değerlendirme deneyleri yaptım. Şifreleme alanındaki bilgi ve yeteneklerini değerlendirerek, yapay zekanın şifreleme uygulama seviyesini ölçüyor ve yapay zeka ile şifreleme teknolojisinin entegrasyonunun potansiyelini ve zorluklarını belirliyoruz.
Büyük dil modeli, kriptografi ve blok zinciri temel bilgisinde iyi performans gösterir ve şifreleme ekosistemini iyi anlar, ancak matematiksel hesaplamalarda ve karmaşık iş mantığı analizinde kötü performans gösterir. Özel anahtarlar ve temel cüzdan işlemleri açısından, model tatmin edici bir temele sahiptir, ancak özel anahtarların bulut üzerinde nasıl tutulacağına dair ciddi bir zorlukla karşı karşıyadır. Birçok model, basit senaryolar için etkili bir akıllı sözleşme kodu oluşturabilir, ancak sözleşme denetimi ve karmaşık sözleşme oluşturma gibi zorlu görevleri bağımsız olarak gerçekleştiremez.
Ticari kapalı kaynak modeller genellikle büyük bir avantaja sahiptir. Açık kaynak kampında, yalnızca Llama 3.1-405B iyi performans sergiledi, diğer tüm açık kaynak modelleri daha küçük parametre boyutlarına sahip olduğu için başarısız oldu. Ancak, potansiyel var. Hızlı kelime rehberliği, düşünce zinciri muhakemesi ve az-shot öğrenme teknolojisi sayesinde tüm modellerin performansı büyük ölçüde iyileştirildi. Öncü modeller zaten bazı dikey uygulama senaryolarında güçlü teknik uygulanabilirliğe sahiptir.
18 temsilci dil modeli değerlendirme nesneleri olarak seçildi, dahil:
Bu modeller, 3.8B ile 405B arasında değişen parametre miktarlarına sahip yaygın ticari ve popüler açık kaynaklı modelleri kapsamaktadır. Şifreleme teknolojisi ve matematik arasındaki yakın ilişki dikkate alındığında, deney için özel olarak iki matematiksel optimizasyon modeli seçildi.
Deney tarafından kapsanan bilgi alanları, şifreleme, blok zinciri temelleri, özel anahtar ve cüzdan işlemleri, akıllı sözleşmeler, DAO ve yönetişim, fikir birliği ve ekonomik modeller, Dapp/DeFi/NFT, zincir üzerindeki veri analizi vb. konularını içermektedir. Her alan, kolaydan zora kadar uzanan bir dizi soru ve görevden oluşur ve modelin bilgi birikimini sınamanın yanı sıra, simülasyon görevleri aracılığıyla uygulama senaryolarındaki performansını da test eder.
Görev tasarımları çeşitli kaynaklardan gelmektedir. Bazıları şifreleme alanında çoklu uzmanların girdilerinden gelirken, diğer kısmı AI'nın yardımıyla oluşturulur ve doğruluğu ve görevlerin zorluğu sağlamak için manuel olarak düzeltme yapılır. Görevlerin bazıları, ayrı standartlaştırılmış otomatik test ve puanlama için nispeten basit bir çoktan seçmeli soru formatını kullanır. Testin diğer bir kısmı daha karmaşık bir soru formatını benimser ve test süreci program otomasyonu + manuel + AI kombinasyonuyla yapılır. Tüm test görevleri, herhangi bir örnek, düşünce rehberliği veya talimat ipucu sağlamadan sıfır örnekleme mantığı yöntemi kullanılarak değerlendirilir.
Deneyin tasarımı kendisi oldukça kaba ve yeterli akademik titizliğe sahip değil, test için kullanılan sorular ve görevler şifreleme alanını tamamen kapsamaktan uzaktır ve test çerçevesi de olgunlaşmamıştır. Bu nedenle, bu makalede belirli deneysel veriler listelenmemekte, ancak deneylerden bazı içgörüler paylaşılmaktadır.
Değerlendirme süreci sırasında, büyük dil modeli şifreleme algoritmaları, blockchain temelleri ve DeFi uygulamaları gibi çeşitli alanlardaki temel bilgi testlerinde iyi performans gösterdi. Örneğin, tüm modeller veri erişilebilirlik kavramının anlayışını test eden sorulara doğru cevaplar verdi. Ethereum işlem yapısıyla ilgili modelin anlayışını değerlendiren soruya gelince, her bir model ayrıntılarda hafif farklı cevaplar verse de genellikle doğru anahtar bilgiler içeriyor. Kavramları inceleyen çoktan seçmeli sorular daha az zorlayıcıdır ve neredeyse tüm modellerin doğruluk oranı %95'in üzerindedir.
Kavramsal sorular ve cevaplar, büyük modeller için tamamen zorlayıcıdır.
Ancak, belirli hesaplamaları gerektiren sorunlar söz konusu olduğunda durum tersine döner. Basit bir RSA algoritma hesaplama problemi, çoğu modeli zor duruma sokar. Kolay anlaşılabilir: büyük dil modelleri, matematiksel kavramların doğasını derinlemesine anlamak yerine, eğitim verilerindeki desenleri tanımlayarak ve çoğaltarak çalışır. Bu kısıtlama, modüler operasyonlar ve üstel operasyonlar gibi soyut matematiksel kavramlarla uğraşırken özellikle açıktır. Kriptografi alanının matematikle yakından ilişkili olması göz önüne alındığında, bu, şifrelemeyle ilgili matematiksel hesaplamalar için modellere doğrudan güvenmenin güvenilmez olduğu anlamına gelir。
Diğer hesaplama problemlerinde de, büyük dil modellerinin performansı tatmin edici değildir. Örneğin, AMM'nin geçici kaybını hesaplama gibi basit bir soru için, karmaşık matematiksel işlemleri içermese bile, 18 modelin sadece 4'ü doğru cevabı verdi. Bir bloğun olasılığını hesaplama hakkında başka bir daha temel soru için, tüm modeller yanlış cevap aldı. Tüm modelleri şaşırttı ve hiçbiri doğru değildi. Bu, büyük dil modellerinin doğru hesaplamalardaki eksikliklerini ortaya çıkarmanın yanı sıra, iş mantığı analizindeki büyük sorunlarını da yansıtmaktadır. Matematiksel optimizasyon modeli bile hesaplama sorularında belirgin avantajlar gösterememesine rağmen, performansı hayal kırıklığına uğratıcıdır.
Ancak, matematiksel hesaplama sorunu çözülemez değildir. Eğer küçük bir ayarlama yaparsak ve LLM'lerin doğrudan sonuçları hesaplamak yerine ilgili Python kodlarını sağlamasını talep edersek, doğruluk oranı büyük ölçüde artacaktır. Yukarıda bahsedilen RSA hesaplama problemi örneğini ele alalım, çoğu model tarafından verilen Python kodları sorunsuz bir şekilde yürütülebilir ve doğru sonuçlar üretebilir. Gerçek üretim ortamlarında, LLM'lerin öz-yoğunluklarını atlamak için önceden belirlenmiş algoritma kodları sağlanabilir, bu da insanların bu tür görevleri nasıl ele aldığına benzer. İş mantığı seviyesinde, modelin performansı dikkatle tasarlanmış bir ipucu kelime rehberliği ile etkili bir şekilde artırılabilir.
Eğer bir Ajanın kripto para birimini kullanmak için ilk senaryo nedir diye sorarsanız, cevabım ödeme olacaktır. Kripto para birimi neredeyse yapay zekâya özgü bir para birimi olarak kabul edilebilir. Geleneksel finansal sistemde ajanların karşılaştığı birçok engelle karşılaştırıldığında, kendilerini dijital kimliklerle donatmak ve paralarını şifrelenmiş cüzdanlar aracılığıyla yönetmek için şifreleme teknolojisini kullanmak doğal bir tercihtir. Bu nedenle, özel anahtarların oluşturulması ve yönetilmesi ile çeşitli cüzdan işlemleri, bir Ajanın şifreleme ağını bağımsız olarak kullanabilmesi için en temel beceri gereksinimlerini oluşturur.
Güvenli olarak özel anahtarların oluşturulmasının temeli, açıkça büyük dil modellerinin sahip olmadığı yüksek kaliteli rasgele sayılardır. Bununla birlikte, modeller özel anahtar güvenliği konusunda yeterli bir anlayışa sahiptir. Bir özel anahtar oluşturması istendiğinde, çoğu model kullanıcıları özel anahtarları bağımsız olarak oluşturmaları için kodu (örneğin Python ile ilgili kütüphaneleri) kullanmayı seçer. Bir model doğrudan bir özel anahtar sağlasa bile, bu sadece gösterim amaçlı olduğu ve doğrudan kullanılamayan güvenli bir özel anahtar olduğu açıkça belirtilir. Bu konuda, tüm büyük modeller tatmin edici bir performans sergiledi.
Özel anahtar yönetimi bazı zorluklarla karşılaşmaktadır, bunlar daha çok teknik mimarinin doğal sınırlamalarından kaynaklanmaktadır ve model yeteneklerinin eksikliği değildir. Yerel olarak dağıtılan bir model kullanıldığında, üretilen özel anahtar nispeten güvenli kabul edilebilir. Ancak, ticari bir bulut modeli kullanılıyorsa, özel anahtarın üretildiği anda model operatörüne maruz kaldığını varsaymamız gerekmektedir. Ancak bağımsız olarak çalışmayı amaçlayan bir Ajan için özel anahtar izinlerine sahip olmak gerekmektedir, bu da özel anahtarın sadece kullanıcıya özgü olamayacağı anlamına gelir. Bu durumda, yalnızca modele güvenmek özel anahtarın güvenliğini sağlamak için yeterli değildir ve güvenilir bir yürütme ortamı veya HSM gibi ek güvenlik hizmetlerinin tanıtılması gerekmektedir.
Eğer Ajansın özel anahtarı güvenli bir şekilde tutulduğunu ve bu temel üzerinde çeşitli temel işlemlerin gerçekleştirildiğini varsayarsak, testteki çeşitli modeller iyi yeteneklerini göstermiştir. Oluşturulan adımlar ve kodlarda sıklıkla hatalar olsa da, bu sorunlar uygun bir mühendislik yapısıyla büyük ölçüde çözülebilir. Teknik bir perspektiften bakıldığında, Ajansın temel cüzdan işlemlerini bağımsız bir şekilde gerçekleştirmekte artık pek çok engel olmadığı söylenebilir.
Akıllı sözleşmelerin risklerini anlama, kullanma, yazma ve tanımlama yeteneği, AI ajanlarının zincir üzerinde karmaşık görevleri yerine getirmesi için temel bir unsurdur ve bu nedenle deneyler için de temel bir test alanıdır. Büyük dil modelleri bu alanda önemli potansiyel göstermiştir, ancak bazı açık problemleri de ortaya çıkarmıştır.
Testte neredeyse tüm modeller, temel sözleşme kavramlarını doğru bir şekilde yanıtladı, basit hataları belirledi. Sözleşme gazı optimizasyonu açısından, çoğu model, temel optimizasyon noktalarını belirleyebilir ve optimizasyonun neden olabileceği çatışmaları analiz edebilir. Ancak derin iş mantığı devreye girdiğinde, büyük modellerin sınırlamaları ortaya çıkmaya başlar.
Bir jeton serbest bırakma sözleşmesini örnek alalım: tüm modeller sözleşme işlevlerini doğru bir şekilde anladı ve çoğu model birkaç orta ve düşük riskli güvenlik açığı buldu. Bununla birlikte, hiçbir model özel durumlarda bazı fonların kilitlenmesine neden olabilecek iş mantığında gizlenmiş yüksek riskli bir güvenlik açığı keşfedemedi. Gerçek sözleşmeler kullanılarak yapılan çoklu testlerde, model yaklaşık olarak aynı performansı sergiledi.
Bu, büyük modelin sözleşme anlayışının hala resmi düzeyde kaldığını ve derin iş mantığını anlamadığını göstermektedir. Bununla birlikte, ek ipuçları sağlandıktan sonra, bazı modeller sonunda yukarıda belirtilen sözleşmelerdeki derinden gizlenmiş güvenlik açıklarını bağımsız olarak tanımlayabildi. Bu performans değerlendirmesine dayanarak, iyi mühendislik tasarımının desteğiyle, büyük model temel olarak akıllı sözleşmeler alanında yardımcı pilot olarak hizmet etme yeteneğine sahiptir. Ancak, sözleşme denetimleri gibi önemli görevleri bağımsız olarak üstlenebilmemiz için daha kat etmemiz gereken uzun bir yol var.
Dikkat edilmesi gereken bir şey, deneydeki kodla ilgili görevlerin, basit mantığa ve 2.000 satırdan az kod içeren sözleşmelere yönelik olduğudur. Daha büyük ölçekli karmaşık projeler için, ince ayar veya karmaşık ipucu sözcük mühendisliği olmadan, mevcut modelin etkili işleme yeteneklerinin açıkça ötesinde olduğunu ve test kapsamında yer almadığını düşünüyorum. Ayrıca, bu test yalnızca Solidity'yi içermekte olup, Rust ve Move gibi diğer akıllı sözleşme dillerini içermemektedir.
Yukarıdaki test içeriğine ek olarak deney, DeFi senaryoları, DAO ve yönetişimi, zincir üstü veri analizi, konsensüs mekanizması tasarımı ve Token ekonomisi dahil olmak üzere birçok yönü de kapsar. Büyük dil modelleri bu yönlerden belirli yetenekler göstermiştir. Birçok testin hala devam ettiği ve test yöntemlerinin ve çerçevelerinin sürekli olarak optimize edildiği göz önüne alındığında, bu makale şimdilik bu alanlara girmeyecektir.
Değerlendirmeye katılan tüm büyük dil modelleri arasında GPT-4o ve Claude 3.5 Sonnet, diğer alanlarda mükemmel performanslarını sürdürdüler ve tartışmasız liderler oldular. Temel sorularla karşılaşıldığında, her iki model de neredeyse her zaman doğru cevaplar verebilir; Karmaşık senaryoların analizinde, derinlemesine ve iyi belgelenmiş içgörüler sağlayabilirler. Hatta büyük modellerin iyi olmadığı bilgi işlem görevlerinde yüksek bir kazanma oranı gösterir. Tabii ki, bu "yüksek" başarı oranı görecelidir ve henüz bir üretim ortamında istikrarlı çıktı seviyesine ulaşmamıştır.
Açık kaynak model kampında, Llama 3.1-405B, büyük parametre ölçeği ve gelişmiş model algoritmaları sayesinde rakiplerinin çok ilerisindedir. Daha küçük parametre boyutlarına sahip diğer açık kaynak modellerde modeller arasında önemli bir performans farkı yoktur. Puanlar biraz farklı olsa da, genel olarak geçme çizgisinden oldukça uzaktırlar.
Bu nedenle, şu anda şifreleme ile ilgili yapay zeka uygulamaları geliştirmek istiyorsanız, küçük ve orta boy parametrelere sahip bu modeller uygun bir seçenek değil.
İncelememizde özellikle iki model göze çarpıyordu. Birincisi, Microsoft tarafından piyasaya sürülen Phi-3 3.8B modelidir. Bu deneye katılan en küçük modeldir. Bununla birlikte, parametre sayısının yarısından daha azı ile 8B-12B modeline eşdeğer bir performans seviyesine ulaşır. Bazı belirli kategorilerde, bu konuda daha da iyi. Bu sonuç, yalnızca parametre boyutundaki artışlara dayanmayan model mimarisi optimizasyonunun ve eğitim stratejilerinin önemini vurgulamaktadır.
Ve Cohere’in Command-R modeli şaşırtıcı bir “dark horse” haline geldi - tersi. Command-R diğer modellere kıyasla pek bilinmese de, Cohere 2B pazarına odaklanan büyük bir model şirketidir. Ajan geliştirme gibi alanlarda hala birçok yakınsama noktası olduğunu düşünüyorum, bu yüzden özellikle test kapsamına dahil edildi. Ancak, 35B parametreye sahip Command-R çoğu testte en son sırada yer alarak, 10B'nin altındaki birçok modele yenildi.
Bu sonuç düşünmeye yol açtı: Command-R piyasaya sürüldüğünde, geri alma iyileştirme ve üretim yeteneklerine odaklandı ve hatta düzenli benchmark test sonuçları bile yayınlamadı. Bu, yalnızca belirli senaryolarda tam potansiyelini açan bir "özel anahtar" mı demek?
Bu test serisinde, yapay zekanın şifreleme alanındaki yetenekleri hakkında bir ön anlayış elde ettik. Tabii ki, bu testler profesyonel standartlardan uzaktır. Veri setinin kapsamı yeterli olmaktan uzaktır, cevaplar için nicel standartlar nispeten kabadır ve hala rafine ve daha doğru bir puanlama mekanizması eksikliği vardır. Bu, değerlendirme sonuçlarının doğruluğunu etkileyecektir ve bazı modellerin performansının hafife alınmasına yol açabilir.
Deneme yöntemi açısından, deney sadece sıfır-vuru öğrenme gibi tek bir yöntem kullanmış ve modelin daha büyük potansiyelini ortaya çıkarabilen düşünce zincirleri ve birkaç-vuru öğrenme gibi yöntemleri keşfetmemiştir. Model parametreleri açısından, deneylerde standart model parametreleri kullanılmış ve farklı parametre ayarlarının model performansı üzerindeki etkisi incelenmemiştir. Bu genel olarak tek bir test yöntemi, modelin potansiyelini kapsamlı bir şekilde değerlendirmemizi sınırlar ve model performansındaki farklılıkları belirli koşullar altında tam olarak keşfetmemizi engeller.
Test koşulları nispeten basit olsa da, bu deneyler hala birçok değerli bilgi üretti ve geliştiricilerin uygulamalar inşa etmek için bir referans sağladı.
Yapay zeka alanında, ölçütler önemli bir rol oynar. Modern derin öğrenme teknolojisinin hızlı gelişimi, 2012 yılında Li Feifei profesör tarafından tamamlanan ImageNET'ten kaynaklanmaktadır. ImageNET, bilgisayar görüşü alanında standartlaştırılmış bir ölçüt ve veri setidir.
Birleşik bir değerlendirme standardı sağlayarak, ölçütler sadece geliştiricilere net hedefler ve referans noktaları sağlamakla kalmaz, aynı zamanda endüstri genelinde teknolojik ilerlemeyi de hızlandırır. Bu, neden her yeni çıkan büyük dil modelinin sonuçlarını çeşitli ölçütler üzerinde duyurmak için odaklanacağını açıklar. Bu sonuçlar model yeteneklerinin “evrensel dili” haline gelir, araştırmacıların çığır açan buluşları bulmasına, geliştiricilerin belirli görevler için en uygun modelleri seçmesine ve kullanıcıların objektif verilere dayalı bilinçli tercihler yapmasına olanak tanır. Daha da önemlisi, ölçüt testleri genellikle yapay zeka uygulamalarının gelecekteki yönünü müjdeleyerek, kaynak yatırımını ve araştırma odaklarını yönlendirir.
Eğer yapay zeka ve şifreleme arasındaki kesişimde büyük potansiyel olduğuna inanıyorsak, o zaman özel şifreleme ölçütlerinin belirlenmesi acil bir görev haline gelir. Ölçütlerin belirlenmesi, AI ve şifreleme alanlarını birleştiren anahtar bir köprü haline gelebilir, yeniliği katalize edebilir ve gelecekteki uygulamalar için açık bir rehberlik sağlayabilir.
Ancak, diğer alanlardaki olgun ölçütlerle karşılaştırıldığında, şifreleme alanında ölçüt oluşturmak benzersiz zorluklarla karşılaşır: şifreleme teknolojisi hızla gelişmektedir, endüstri bilgi sistemi henüz sağlamlaşmamıştır ve birden çok temel yönde bir fikir birliği yoktur. Disiplinlerarası bir alan olarak, şifreleme kriptografi, dağıtık sistemler, ekonomi vb. alanları kapsar ve karmaşıklığı tek bir alanın ötesindedir. Daha da zorlayıcı olan şey, şifreleme ölçütünün sadece bilgiyi değerlendirmesi gerekmekle kalmayıp aynı zamanda AI'nın şifreleme teknolojisini kullanma pratik yeteneğini de sınamasıdır, bu da yeni bir değerlendirme mimarisi tasarımını gerektirir. İlgili veri setlerinin eksikliği zorluğu daha da artırır.
Bu görevin karmaşıklığı ve önemi, tek bir kişi veya ekip tarafından gerçekleştirilemeyeceğini belirtir. Kullanıcılardan, geliştiricilerden, kriptografi uzmanlarından, şifreleme araştırmacılarından disiplinler arası alanlarda daha fazla insana kadar birçok tarafın bilgeliğini bir araya getirmesi gerekiyor ve kapsamlı topluluk katılımına ve fikir birliğine dayanıyor. Bu nedenle, şifreleme ölçütünün daha geniş bir tartışmaya ihtiyacı var, çünkü bu sadece teknik bir çalışma değil, aynı zamanda bu gelişmekte olan teknolojiyi nasıl anladığımızın derin bir yansıması.