In der Chronik des technologischen Fortschritts tauchen oft revolutionäre Technologien unabhängig voneinander auf, die jeweils Veränderungen in einer Ära führen. Und wenn sich zwei revolutionäre Technologien treffen, hat ihre Kollision oft eine exponentielle Wirkung. Heute stehen wir an einem solchen historischen Moment: Künstliche Intelligenz und Verschlüsselungstechnologie, zwei ebenso disruptiven neuen Technologien, treten Hand in Hand in den Mittelpunkt der Bühne.
Wir stellen uns vor, dass viele Herausforderungen im KI-Bereich durch Verschlüsselungstechnologie gelöst werden können; wir freuen uns auf den Aufbau autonomer Wirtschaftsnetzwerke durch KI-Agenten und die Förderung der großflächigen Nutzung von Verschlüsselungstechnologie; wir hoffen auch, dass KI die Entwicklung bestehender Szenarien im Bereich der Verschlüsselung beschleunigen kann. Zahllose Augen sind darauf gerichtet und massive Geldmittel fließen ein. Wie bei jedem Schlagwort verkörpert es den Wunsch nach Innovation, die Vision für die Zukunft und beinhaltet auch unkontrollierbare Ambitionen und Gier.
Doch in all dem Trubel wissen wir sehr wenig über die grundlegendsten Fragen. Wie gut kennt KI Verschlüsselung? Hat ein Agent mit einem großen Sprachmodell tatsächlich die Fähigkeit, Verschlüsselungswerkzeuge zu verwenden? Wie viel Unterschied machen unterschiedliche Modelle bei Verschlüsselungsaufgaben?
Die Antworten auf diese Fragen werden den gegenseitigen Einfluss von KI und Verschlüsselungstechnologie bestimmen und sind auch für die Produktrichtung und die Auswahl der Technologieroute in diesem Querschnittsfeld entscheidend. Um diese Fragen zu erkunden, habe ich einige Evaluierungsexperimente an großen Sprachmodellen durchgeführt. Durch die Bewertung ihres Wissens und ihrer Fähigkeiten auf dem Gebiet der Verschlüsselung messen wir das Verschlüsselungsanwendungsniveau von KI und bestimmen das Potenzial und die Herausforderungen der Integration von KI und Verschlüsselungstechnologie.
Das große Sprachmodell hat eine gute Leistung im grundlegenden Wissen der Kryptographie und Blockchain und versteht das Verschlüsselungsumfeld gut, aber es hat eine schlechte Leistung bei mathematischen Berechnungen und komplexen Geschäftslogikanalysen. In Bezug auf private Schlüssel und grundlegende Wallet-Operationen hat das Modell eine zufriedenstellende Grundlage, aber es steht vor der ernsten Herausforderung, private Schlüssel in der Cloud zu halten. Viele Modelle können effektiven Smart-Contract-Code für einfache Szenarien generieren, können jedoch schwierige Aufgaben wie Vertragsprüfung und komplexe Vertragsentwicklung nicht eigenständig durchführen.
Kommerzielle Closed-Source-Modelle haben in der Regel einen großen Vorsprung. Im Open-Source-Lager schnitt nur Llama 3.1-405B gut ab, während alle Open-Source-Modelle mit kleineren Parametergrößen versagten. Es gibt jedoch Potenzial. Durch prompte Wortführung, Gedankenketten-Argumentation und Few-Shot-Learning-Technologie wurde die Leistung aller Modelle erheblich verbessert. Die führenden Modelle haben bereits eine starke technische Machbarkeit in einigen vertikalen Anwendungsszenarien.
18 repräsentative Sprachmodelle wurden als Evaluierungsobjekte ausgewählt, darunter:
Diese Modelle umfassen gängige kommerzielle und beliebte Open-Source-Modelle mit Parametermengen, die sich um mehr als das Hundertfache von 3,8B bis 405B erstrecken. Angesichts der engen Beziehung zwischen Verschlüsselungstechnologie und Mathematik wurden speziell zwei mathematische Optimierungsmodelle für das Experiment ausgewählt.
Die von dem Experiment abgedeckten Wissensbereiche umfassen Kryptographie, Grundlagen der Blockchain, private Schlüssel und Wallet-Operationen, Smart Contracts, DAO und Governance, Konsens- und Wirtschaftsmodelle, Dapp/DeFi/NFT, Analyse von On-Chain-Daten usw. Jedes Feld besteht aus einer Reihe von Fragen und Aufgaben, die von einfach bis schwierig reichen. Dadurch werden nicht nur die Wissensreserve des Modells getestet, sondern auch seine Leistung in Anwendungsszenarien durch Simulationstasks.
Die Gestaltung der Aufgaben stammt aus unterschiedlichen Quellen. Einige stammen aus dem Input mehrerer Experten auf dem Gebiet der Verschlüsselung, und der andere Teil wird mit Hilfe von KI generiert und manuell Korrektur gelesen, um die Genauigkeit und Herausforderung der Aufgaben zu gewährleisten. Einige der Aufgaben verwenden Multiple-Choice-Fragen in einem relativ einfachen Format, um separate standardisierte automatisierte Tests und Bewertungen zu ermöglichen. Ein anderer Teil des Tests verwendet ein komplexeres Frageformat, und der Testprozess wird durch eine Kombination aus Programmautomatisierung + manuell + KI durchgeführt. Alle Testaufgaben werden mit einer Zero-Sample-Reasoning-Methode ausgewertet, ohne Beispiele, Denkanleitungen oder Anweisungen.
Da das Design des Experiments selbst relativ grob ist und nicht über ausreichende akademische Strenge verfügt, decken die für Tests verwendeten Fragen und Aufgaben das Verschlüsselungsfeld bei weitem nicht vollständig ab und das Testframework ist auch unreif. Daher liste dieser Artikel keine spezifischen experimentellen Daten auf, sondern konzentriert sich darauf, einige Erkenntnisse aus Experimenten zu teilen.
Während des Evaluierungsprozesses hat das große Sprachmodell in verschiedenen Bereichen wie Verschlüsselungsalgorithmen, Blockchain-Grundlagen und DeFi-Anwendungen gute Leistungen erbracht. Zum Beispiel haben alle Modelle genaue Antworten auf Fragen gegeben, die das Verständnis des Konzepts der Datenverfügbarkeit testen. Was die Frage betrifft, die die Kenntnisse des Modells über die Ethereum-Transaktionsstruktur bewertet, obwohl jedes Modell leicht unterschiedliche Antworten in den Details hat, enthalten sie im Allgemeinen korrekte Schlüsselinformationen. Die Multiple-Choice-Fragen, die Konzepte überprüfen, sind noch weniger schwierig, und die Genauigkeit fast aller Modelle liegt über 95%.
Konzeptuelle Fragen und Antworten sind für große Modelle völlig schwierig.
Allerdings ist die Situation umgekehrt, wenn es um Probleme geht, die spezifische Berechnungen erfordern. Ein einfaches RSA-Algorithmus-Berechnungsproblem bringt die meisten Modelle in Schwierigkeiten. Es ist leicht zu verstehen: Große Sprachmodelle arbeiten hauptsächlich durch Identifizierung und Nachahmung von Mustern in den Trainingsdaten, anstatt das Wesen mathematischer Konzepte tiefgehend zu verstehen. Diese Begrenzung ist besonders offensichtlich, wenn es um abstrakte mathematische Konzepte wie modulare Operationen und exponentielle Operationen geht. Angesichts der Tatsache, dass das Gebiet der Kryptographie eng mit der Mathematik verbunden ist, bedeutet dies, dass es unzuverlässig ist, sich direkt auf Modelle für verschlüsselungsbezogene mathematische Berechnungen zu verlassen。
Bei anderen Rechenproblemen ist auch die Leistung großer Sprachmodelle unbefriedigend. Zum Beispiel haben nur 4 der 18 Modelle die richtige Antwort auf die einfache Frage nach der Berechnung des vorübergehenden Verlusts von AMM gegeben, obwohl dabei keine komplexen mathematischen Operationen erforderlich sind. Bei einer weiteren grundlegenderen Frage zur Berechnung der Wahrscheinlichkeit eines Blocks hatten alle Modelle die falsche Antwort. Es hat alle Modelle verwirrt und keines von ihnen war richtig. Dies zeigt nicht nur die Mängel großer Sprachmodelle bei genauen Berechnungen auf, sondern spiegelt auch ihre Hauptprobleme bei der Analyse von Geschäftslogik wider. Es ist erwähnenswert, dass selbst das mathematische Optimierungsmodell bei Berechnungsfragen keine offensichtlichen Vorteile zeigte und seine Leistung enttäuschend war.
Das Problem der mathematischen Berechnung ist jedoch nicht unlösbar. Wenn wir eine leichte Anpassung vornehmen und von LLMs verlangen, dass sie entsprechenden Python-Code bereitstellen, anstatt die Ergebnisse direkt zu berechnen, wird die Genauigkeitsrate erheblich verbessert. Am Beispiel des oben erwähnten RSA-Berechnungsproblems können die von den meisten Modellen vorgegebenen Python-Codes reibungslos ausgeführt werden und korrekte Ergebnisse liefern. In realen Produktionsumgebungen können voreingestellte Algorithmuscodes bereitgestellt werden, um die Selbstberechnung von LLMs zu umgehen, die der Art und Weise ähnelt, wie Menschen solche Aufgaben erledigen. Auf der Ebene der Geschäftslogik kann die Leistung des Modells auch durch sorgfältig entworfene Eingabeworte effektiv verbessert werden.
Wenn Sie fragen, was das erste Szenario für einen Agenten ist, um Kryptowährungen zu nutzen, ist meine Antwort Zahlung. Kryptowährungen können fast als eine Form von Währung betrachtet werden, die nativ für KI ist. Im Vergleich zu den vielen Hindernissen, mit denen Agenten im traditionellen Finanzsystem konfrontiert sind, ist es eine natürliche Wahl, sich mit digitalen Identitäten und der Verwaltung von Geldern über verschlüsselte Geldbörsen mit Verschlüsselungstechnologie auszustatten. Daher bilden die Erzeugung und Verwaltung privater Schlüssel und verschiedene Geldbörsenoperationen die grundlegenden Anforderungen an die Fähigkeit eines Agenten, das Verschlüsselungsnetzwerk unabhängig zu nutzen.
Der Kern der sicheren Generierung privater Schlüssel liegt in hochwertigen Zufallszahlen, was offensichtlich eine Fähigkeit ist, die große Sprachmodelle nicht haben. Die Modelle haben jedoch ausreichendes Verständnis für die Sicherheit privater Schlüssel. Wenn sie gebeten werden, einen privaten Schlüssel zu generieren, wählen die meisten Modelle, Code (wie z.B. Python-basierte Bibliotheken) zu verwenden, um Benutzer unabhängig private Schlüssel zu generieren. Selbst wenn ein Modell direkt einen privaten Schlüssel bereitstellt, wird klar darauf hingewiesen, dass dies nur zu Demonstrationszwecken dient und kein sicherer privater Schlüssel ist, der direkt verwendet werden kann. In dieser Hinsicht zeigten alle großen Modelle eine zufriedenstellende Leistung.
Die Verwaltung privater Schlüssel steht vor einigen Herausforderungen, die hauptsächlich auf die inhärenten Einschränkungen der technischen Architektur und nicht auf den Mangel an Modellfähigkeiten zurückzuführen sind. Bei Verwendung eines lokal bereitgestellten Modells kann der generierte private Schlüssel als relativ sicher angesehen werden. Wenn jedoch ein kommerzielles Cloud-Modell verwendet wird, müssen wir davon ausgehen, dass der private Schlüssel in dem Moment, in dem er generiert wird, dem Modellbetreiber zur Verfügung gestellt wurde. Für einen Agenten, der unabhängig arbeiten möchte, ist es jedoch erforderlich, über Berechtigungen für den privaten Schlüssel zu verfügen, was bedeutet, dass der private Schlüssel nicht nur lokal für den Benutzer sein kann. In diesem Fall reicht es nicht mehr aus, sich allein auf das Modell selbst zu verlassen, um die Sicherheit des privaten Schlüssels zu gewährleisten, und es müssen zusätzliche Sicherheitsdienste wie eine vertrauenswürdige Ausführungsumgebung oder HSM eingeführt werden.
Wenn davon ausgegangen wird, dass der Agent den privaten Schlüssel bereits sicher aufbewahrt und auf dieser Grundlage verschiedene grundlegende Operationen durchführt, haben die verschiedenen Modelle im Test gute Fähigkeiten gezeigt. Obwohl es oft Fehler in den generierten Schritten und Codes gibt, können diese Probleme weitgehend mit einer geeigneten technischen Struktur gelöst werden. Man kann sagen, dass aus technischer Sicht Agent keine großen Hindernisse mehr hat, um eigenständig grundlegende Wallet-Operationen durchzuführen.
Die Fähigkeit, intelligente Verträge zu verstehen, zu nutzen, zu schreiben und Risiken zu erkennen, ist für KI-Agenten der Schlüssel, um komplexe Aufgaben in der On-Chain-Welt auszuführen und daher auch ein wichtiger Bereich für Experimente. Große Sprachmodelle haben in diesem Bereich ein erhebliches Potenzial gezeigt, aber sie haben auch einige offensichtliche Probleme aufgedeckt.
Fast alle Modelle im Test haben die zugrunde liegenden Vertragskonzepte richtig beantwortet und einfache Fehler identifiziert. In Bezug auf die Optimierung des Vertragsgases können die meisten Modelle Schlüsseloptimierungspunkte identifizieren und Konflikte analysieren, die durch Optimierung verursacht werden können. Wenn es jedoch um tiefe Geschäftslogik geht, beginnen die Einschränkungen großer Modelle sichtbar zu werden.
Nehmen Sie einen Token-Vesting-Vertrag als Beispiel: Alle Modelle haben die Vertragsfunktionen korrekt verstanden, und die meisten Modelle haben mehrere mittel- und niedrigrisikoreiche Sicherheitslücken gefunden. Kein Modell kann jedoch eigenständig eine hochriskante Sicherheitslücke in der Geschäftslogik entdecken, die unter besonderen Umständen dazu führen kann, dass einige Mittel gesperrt werden. Bei mehreren Tests mit echten Verträgen hat das Modell in etwa gleich gut abgeschnitten.
Dies zeigt, dass das Verständnis des großen Modells für Verträge immer noch auf formaler Ebene bleibt und das Verständnis der tiefen Geschäftslogik fehlt. Nachdem jedoch zusätzliche Hinweise gegeben wurden, waren einige Modelle schließlich in der Lage, die tief versteckten Schwachstellen in den oben genannten Verträgen unabhängig zu identifizieren. Basierend auf dieser Leistungsbeurteilung hat das große Modell mit Unterstützung guter Ingenieurleistungen im Grunde die Fähigkeit, als Co-Pilot auf dem Gebiet der Smart Contracts zu dienen. Es steht jedoch noch ein langer Weg bevor, bevor wir wichtige Aufgaben wie Vertragsprüfungen eigenständig übernehmen können.
Eine Sache ist zu beachten, dass die Code-bezogenen Aufgaben im Experiment hauptsächlich für Verträge mit einfacher Logik und weniger als 2000 Zeilen Code sind. Für größere komplexe Projekte, ohne Feinabstimmung oder komplexe prompt Worttechnik, denke ich, dass es klar über die effektiven Verarbeitungsfähigkeiten des aktuellen Modells hinausgeht und nicht in den Test einbezogen wurde. Darüber hinaus bezieht sich dieser Test nur auf Solidity und enthält keine anderen Smart Contract-Sprachen wie Rust und Move.
Neben dem oben genannten Testinhalt umfasst das Experiment auch viele Aspekte wie DeFi-Szenarien, DAO und deren Governance, On-Chain-Datenanalyse, Konsensmechanismusdesign und Tokenomics. Große Sprachmodelle haben in diesen Bereichen bestimmte Fähigkeiten gezeigt. Da viele Tests noch in Arbeit sind und Testmethoden und -rahmenbedingungen ständig optimiert werden, wird dieser Artikel vorerst nicht auf diese Bereiche eingehen.
Unter allen großen Sprachmodellen, die an der Bewertung teilnehmen, haben GPT-4o und Claude 3.5 Sonnet ihre hervorragende Leistung in anderen Bereichen fortgesetzt und sind die unbestrittenen Führer. Wenn sie mit grundlegenden Fragen konfrontiert werden, können beide Modelle fast immer genaue Antworten geben; bei der Analyse komplexer Szenarien können sie tiefgreifende und gut dokumentierte Einblicke bieten. Sie zeigen sogar eine hohe Erfolgsquote bei Rechenaufgaben, die große Modelle nicht gut beherrschen. Natürlich ist diese "hohe" Erfolgsquote relativ und hat noch nicht das Niveau einer stabilen Ausgabe in einer Produktionsumgebung erreicht.
Im Open-Source-Modelllager ist Llama 3.1-405B dank seiner großen Parametergröße und fortschrittlichen Modellalgorithmen seinen Mitbewerbern weit voraus. In anderen Open-Source-Modellen mit kleineren Parametergrößen besteht kein signifikanter Leistungsunterschied zwischen den Modellen. Obwohl die Punktzahlen geringfügig unterschiedlich sind, liegen sie insgesamt weit unter der Passlinie.
Daher sind diese Modelle mit kleinen und mittleren Parametern derzeit keine geeignete Wahl, wenn Sie kryptografiebezogene KI-Anwendungen erstellen möchten.
Zwei Modelle haben sich in unserem Test besonders hervorgetan. Das erste ist das Phi-3 3.8B-Modell, das von Microsoft eingeführt wurde. Es ist das kleinste Modell, das an diesem Experiment teilnimmt. Dennoch erreicht es eine Leistung, die dem 8B-12B-Modell mit weniger als der Hälfte der Parameter entspricht. In einigen spezifischen Kategorien sogar noch besser. Dieses Ergebnis unterstreicht die Bedeutung der Optimierung der Modellarchitektur und der Trainingsstrategien, die nicht ausschließlich auf einer Erhöhung der Parametergröße beruhen.
Und Cohere's Command-R-Modell ist zu einem überraschenden "dark horse" - dem Gegenteil - geworden. Command-R ist im Vergleich zu anderen Modellen nicht so bekannt, aber Cohere ist ein großes Modellunternehmen, das sich auf den 2B-Markt konzentriert. Ich denke, es gibt immer noch viele Punkte der Konvergenz mit Bereichen wie der Agentenentwicklung, daher wurde es gezielt in den Testumfang aufgenommen. Allerdings belegte das Command-R mit 35B Parametern in den meisten Tests den letzten Platz und verlor gegen viele Modelle unter 10B.
Dieses Ergebnis hat zum Nachdenken angeregt: Als Command-R veröffentlicht wurde, lag der Fokus auf der Verbesserung der Wiederherstellung und Generierungsfähigkeiten und es wurden nicht einmal regelmäßige Benchmark-Testergebnisse veröffentlicht. Bedeutet dies, dass es ein "privater Schlüssel" ist, der sein volles Potenzial nur in bestimmten Szenarien freischaltet?
In dieser Testreihe haben wir ein vorläufiges Verständnis für die Fähigkeiten von KI im Bereich der Verschlüsselung erhalten. Natürlich entsprechen diese Tests bei weitem nicht professionellen Standards. Die Abdeckung des Datensatzes ist bei weitem nicht ausreichend, die quantitativen Standards für Antworten sind relativ grob und es fehlt immer noch ein verfeinertes und genauer Bewertungsmechanismus. Dies wird die Genauigkeit der Bewertungsergebnisse beeinflussen und kann zu einer Unterschätzung der Leistung einiger Modelle führen.
In Bezug auf die Testmethode wurde das Experiment nur mit einer Methode des Zero-Shot-Lernens durchgeführt und hat nicht Methoden wie Denk-Ketten und Few-Shot-Lernen erforscht, die ein größeres Potenzial des Modells inspirieren können. In Bezug auf die Modellparameter wurden Standard-Modellparameter in den Experimenten verwendet, und der Einfluss unterschiedlicher Parameter-Einstellungen auf die Modellleistung wurde nicht untersucht. Diese insgesamt einzigen Testmethoden begrenzen unsere umfassende Bewertung des Potenzials des Modells und versäumen es, die Unterschiede in der Modellleistung unter spezifischen Bedingungen vollständig zu erkunden.
Obwohl die Testbedingungen relativ einfach waren, haben diese Experimente dennoch viele wertvolle Erkenntnisse hervorgebracht und den Entwicklern eine Referenz für den Bau von Anwendungen geliefert.
Im Bereich der KI spielen Benchmarks eine wichtige Rolle. Die rasante Entwicklung der modernen Deep-Learning-Technologie stammt aus ImageNET, das 2012 von Professor Li Feifei abgeschlossen wurde und ein standardisierter Benchmark und Datensatz im Bereich der Computer Vision ist.
Indem sie einen einheitlichen Bewertungsstandard bereitstellen, bieten Benchmarks Entwicklern nicht nur klare Ziele und Referenzpunkte, sondern treiben auch den technologischen Fortschritt in der gesamten Branche voran. Dies erklärt, warum jedes neu veröffentlichte große Sprachmodell den Fokus darauf legt, seine Ergebnisse auf verschiedenen Benchmarks anzukündigen. Diese Ergebnisse werden zu einer „Universalsprache“ der Modellfähigkeiten, die es Forschern ermöglicht, Durchbrüche zu identifizieren, Entwicklern, die am besten für bestimmte Aufgaben geeigneten Modelle auszuwählen, und Benutzern, fundierte Entscheidungen auf der Grundlage objektiver Daten zu treffen. Noch wichtiger ist, dass Benchmark-Tests oft die zukünftige Richtung von KI-Anwendungen ankündigen und Ressourceninvestitionen und Forschungsschwerpunkte lenken.
Wenn wir glauben, dass es ein riesiges Potenzial an der Schnittstelle von KI und Kryptographie gibt, dann wird die Einrichtung dedizierter kryptographischer Benchmarks zu einer dringenden Aufgabe. Die Einrichtung von Benchmarks kann zu einer wichtigen Brücke zwischen den beiden Bereichen KI und Verschlüsselung werden, Innovationen katalysieren und klare Richtlinien für zukünftige Anwendungen bieten.
Verglichen mit ausgereiften Benchmarks in anderen Bereichen stehen beim Aufbau von Benchmarks im Verschlüsselungsbereich jedoch einzigartige Herausforderungen: Die Verschlüsselungstechnologie entwickelt sich rapide weiter, das Wissenssystem der Branche ist noch nicht gefestigt, und es mangelt an Konsens in mehreren Kernrichtungen. Als interdisziplinäres Feld umfasst die Verschlüsselung Kryptographie, verteilte Systeme, Wirtschaft usw., und ihre Komplexität geht weit über die eines einzigen Feldes hinaus. Noch anspruchsvoller ist, dass der Verschlüsselungsbenchmark nicht nur das Wissen bewerten muss, sondern auch die praktische Fähigkeit von KI zur Nutzung der Verschlüsselungstechnologie prüft, was die Gestaltung einer neuen Bewertungsarchitektur erfordert. Der Mangel an relevanten Datensätzen erhöht die Schwierigkeit zusätzlich.
Die Komplexität und Bedeutung dieser Aufgabe erfordern, dass sie nicht von einer einzigen Person oder einem Team erledigt werden kann. Es erfordert die Zusammenführung der Weisheit vieler Parteien, von Benutzern, Entwicklern, Kryptografie-Experten, Verschlüsselungsforschern bis hin zu Menschen in interdisziplinären Bereichen und beruht auf umfangreicher Beteiligung und Konsens in der Community. Daher bedarf es einer breiteren Diskussion über den Verschlüsselungsbenchmark, da es nicht nur eine technische Arbeit ist, sondern auch eine tiefgreifende Reflexion darüber, wie wir diese aufstrebende Technologie verstehen.
In der Chronik des technologischen Fortschritts tauchen oft revolutionäre Technologien unabhängig voneinander auf, die jeweils Veränderungen in einer Ära führen. Und wenn sich zwei revolutionäre Technologien treffen, hat ihre Kollision oft eine exponentielle Wirkung. Heute stehen wir an einem solchen historischen Moment: Künstliche Intelligenz und Verschlüsselungstechnologie, zwei ebenso disruptiven neuen Technologien, treten Hand in Hand in den Mittelpunkt der Bühne.
Wir stellen uns vor, dass viele Herausforderungen im KI-Bereich durch Verschlüsselungstechnologie gelöst werden können; wir freuen uns auf den Aufbau autonomer Wirtschaftsnetzwerke durch KI-Agenten und die Förderung der großflächigen Nutzung von Verschlüsselungstechnologie; wir hoffen auch, dass KI die Entwicklung bestehender Szenarien im Bereich der Verschlüsselung beschleunigen kann. Zahllose Augen sind darauf gerichtet und massive Geldmittel fließen ein. Wie bei jedem Schlagwort verkörpert es den Wunsch nach Innovation, die Vision für die Zukunft und beinhaltet auch unkontrollierbare Ambitionen und Gier.
Doch in all dem Trubel wissen wir sehr wenig über die grundlegendsten Fragen. Wie gut kennt KI Verschlüsselung? Hat ein Agent mit einem großen Sprachmodell tatsächlich die Fähigkeit, Verschlüsselungswerkzeuge zu verwenden? Wie viel Unterschied machen unterschiedliche Modelle bei Verschlüsselungsaufgaben?
Die Antworten auf diese Fragen werden den gegenseitigen Einfluss von KI und Verschlüsselungstechnologie bestimmen und sind auch für die Produktrichtung und die Auswahl der Technologieroute in diesem Querschnittsfeld entscheidend. Um diese Fragen zu erkunden, habe ich einige Evaluierungsexperimente an großen Sprachmodellen durchgeführt. Durch die Bewertung ihres Wissens und ihrer Fähigkeiten auf dem Gebiet der Verschlüsselung messen wir das Verschlüsselungsanwendungsniveau von KI und bestimmen das Potenzial und die Herausforderungen der Integration von KI und Verschlüsselungstechnologie.
Das große Sprachmodell hat eine gute Leistung im grundlegenden Wissen der Kryptographie und Blockchain und versteht das Verschlüsselungsumfeld gut, aber es hat eine schlechte Leistung bei mathematischen Berechnungen und komplexen Geschäftslogikanalysen. In Bezug auf private Schlüssel und grundlegende Wallet-Operationen hat das Modell eine zufriedenstellende Grundlage, aber es steht vor der ernsten Herausforderung, private Schlüssel in der Cloud zu halten. Viele Modelle können effektiven Smart-Contract-Code für einfache Szenarien generieren, können jedoch schwierige Aufgaben wie Vertragsprüfung und komplexe Vertragsentwicklung nicht eigenständig durchführen.
Kommerzielle Closed-Source-Modelle haben in der Regel einen großen Vorsprung. Im Open-Source-Lager schnitt nur Llama 3.1-405B gut ab, während alle Open-Source-Modelle mit kleineren Parametergrößen versagten. Es gibt jedoch Potenzial. Durch prompte Wortführung, Gedankenketten-Argumentation und Few-Shot-Learning-Technologie wurde die Leistung aller Modelle erheblich verbessert. Die führenden Modelle haben bereits eine starke technische Machbarkeit in einigen vertikalen Anwendungsszenarien.
18 repräsentative Sprachmodelle wurden als Evaluierungsobjekte ausgewählt, darunter:
Diese Modelle umfassen gängige kommerzielle und beliebte Open-Source-Modelle mit Parametermengen, die sich um mehr als das Hundertfache von 3,8B bis 405B erstrecken. Angesichts der engen Beziehung zwischen Verschlüsselungstechnologie und Mathematik wurden speziell zwei mathematische Optimierungsmodelle für das Experiment ausgewählt.
Die von dem Experiment abgedeckten Wissensbereiche umfassen Kryptographie, Grundlagen der Blockchain, private Schlüssel und Wallet-Operationen, Smart Contracts, DAO und Governance, Konsens- und Wirtschaftsmodelle, Dapp/DeFi/NFT, Analyse von On-Chain-Daten usw. Jedes Feld besteht aus einer Reihe von Fragen und Aufgaben, die von einfach bis schwierig reichen. Dadurch werden nicht nur die Wissensreserve des Modells getestet, sondern auch seine Leistung in Anwendungsszenarien durch Simulationstasks.
Die Gestaltung der Aufgaben stammt aus unterschiedlichen Quellen. Einige stammen aus dem Input mehrerer Experten auf dem Gebiet der Verschlüsselung, und der andere Teil wird mit Hilfe von KI generiert und manuell Korrektur gelesen, um die Genauigkeit und Herausforderung der Aufgaben zu gewährleisten. Einige der Aufgaben verwenden Multiple-Choice-Fragen in einem relativ einfachen Format, um separate standardisierte automatisierte Tests und Bewertungen zu ermöglichen. Ein anderer Teil des Tests verwendet ein komplexeres Frageformat, und der Testprozess wird durch eine Kombination aus Programmautomatisierung + manuell + KI durchgeführt. Alle Testaufgaben werden mit einer Zero-Sample-Reasoning-Methode ausgewertet, ohne Beispiele, Denkanleitungen oder Anweisungen.
Da das Design des Experiments selbst relativ grob ist und nicht über ausreichende akademische Strenge verfügt, decken die für Tests verwendeten Fragen und Aufgaben das Verschlüsselungsfeld bei weitem nicht vollständig ab und das Testframework ist auch unreif. Daher liste dieser Artikel keine spezifischen experimentellen Daten auf, sondern konzentriert sich darauf, einige Erkenntnisse aus Experimenten zu teilen.
Während des Evaluierungsprozesses hat das große Sprachmodell in verschiedenen Bereichen wie Verschlüsselungsalgorithmen, Blockchain-Grundlagen und DeFi-Anwendungen gute Leistungen erbracht. Zum Beispiel haben alle Modelle genaue Antworten auf Fragen gegeben, die das Verständnis des Konzepts der Datenverfügbarkeit testen. Was die Frage betrifft, die die Kenntnisse des Modells über die Ethereum-Transaktionsstruktur bewertet, obwohl jedes Modell leicht unterschiedliche Antworten in den Details hat, enthalten sie im Allgemeinen korrekte Schlüsselinformationen. Die Multiple-Choice-Fragen, die Konzepte überprüfen, sind noch weniger schwierig, und die Genauigkeit fast aller Modelle liegt über 95%.
Konzeptuelle Fragen und Antworten sind für große Modelle völlig schwierig.
Allerdings ist die Situation umgekehrt, wenn es um Probleme geht, die spezifische Berechnungen erfordern. Ein einfaches RSA-Algorithmus-Berechnungsproblem bringt die meisten Modelle in Schwierigkeiten. Es ist leicht zu verstehen: Große Sprachmodelle arbeiten hauptsächlich durch Identifizierung und Nachahmung von Mustern in den Trainingsdaten, anstatt das Wesen mathematischer Konzepte tiefgehend zu verstehen. Diese Begrenzung ist besonders offensichtlich, wenn es um abstrakte mathematische Konzepte wie modulare Operationen und exponentielle Operationen geht. Angesichts der Tatsache, dass das Gebiet der Kryptographie eng mit der Mathematik verbunden ist, bedeutet dies, dass es unzuverlässig ist, sich direkt auf Modelle für verschlüsselungsbezogene mathematische Berechnungen zu verlassen。
Bei anderen Rechenproblemen ist auch die Leistung großer Sprachmodelle unbefriedigend. Zum Beispiel haben nur 4 der 18 Modelle die richtige Antwort auf die einfache Frage nach der Berechnung des vorübergehenden Verlusts von AMM gegeben, obwohl dabei keine komplexen mathematischen Operationen erforderlich sind. Bei einer weiteren grundlegenderen Frage zur Berechnung der Wahrscheinlichkeit eines Blocks hatten alle Modelle die falsche Antwort. Es hat alle Modelle verwirrt und keines von ihnen war richtig. Dies zeigt nicht nur die Mängel großer Sprachmodelle bei genauen Berechnungen auf, sondern spiegelt auch ihre Hauptprobleme bei der Analyse von Geschäftslogik wider. Es ist erwähnenswert, dass selbst das mathematische Optimierungsmodell bei Berechnungsfragen keine offensichtlichen Vorteile zeigte und seine Leistung enttäuschend war.
Das Problem der mathematischen Berechnung ist jedoch nicht unlösbar. Wenn wir eine leichte Anpassung vornehmen und von LLMs verlangen, dass sie entsprechenden Python-Code bereitstellen, anstatt die Ergebnisse direkt zu berechnen, wird die Genauigkeitsrate erheblich verbessert. Am Beispiel des oben erwähnten RSA-Berechnungsproblems können die von den meisten Modellen vorgegebenen Python-Codes reibungslos ausgeführt werden und korrekte Ergebnisse liefern. In realen Produktionsumgebungen können voreingestellte Algorithmuscodes bereitgestellt werden, um die Selbstberechnung von LLMs zu umgehen, die der Art und Weise ähnelt, wie Menschen solche Aufgaben erledigen. Auf der Ebene der Geschäftslogik kann die Leistung des Modells auch durch sorgfältig entworfene Eingabeworte effektiv verbessert werden.
Wenn Sie fragen, was das erste Szenario für einen Agenten ist, um Kryptowährungen zu nutzen, ist meine Antwort Zahlung. Kryptowährungen können fast als eine Form von Währung betrachtet werden, die nativ für KI ist. Im Vergleich zu den vielen Hindernissen, mit denen Agenten im traditionellen Finanzsystem konfrontiert sind, ist es eine natürliche Wahl, sich mit digitalen Identitäten und der Verwaltung von Geldern über verschlüsselte Geldbörsen mit Verschlüsselungstechnologie auszustatten. Daher bilden die Erzeugung und Verwaltung privater Schlüssel und verschiedene Geldbörsenoperationen die grundlegenden Anforderungen an die Fähigkeit eines Agenten, das Verschlüsselungsnetzwerk unabhängig zu nutzen.
Der Kern der sicheren Generierung privater Schlüssel liegt in hochwertigen Zufallszahlen, was offensichtlich eine Fähigkeit ist, die große Sprachmodelle nicht haben. Die Modelle haben jedoch ausreichendes Verständnis für die Sicherheit privater Schlüssel. Wenn sie gebeten werden, einen privaten Schlüssel zu generieren, wählen die meisten Modelle, Code (wie z.B. Python-basierte Bibliotheken) zu verwenden, um Benutzer unabhängig private Schlüssel zu generieren. Selbst wenn ein Modell direkt einen privaten Schlüssel bereitstellt, wird klar darauf hingewiesen, dass dies nur zu Demonstrationszwecken dient und kein sicherer privater Schlüssel ist, der direkt verwendet werden kann. In dieser Hinsicht zeigten alle großen Modelle eine zufriedenstellende Leistung.
Die Verwaltung privater Schlüssel steht vor einigen Herausforderungen, die hauptsächlich auf die inhärenten Einschränkungen der technischen Architektur und nicht auf den Mangel an Modellfähigkeiten zurückzuführen sind. Bei Verwendung eines lokal bereitgestellten Modells kann der generierte private Schlüssel als relativ sicher angesehen werden. Wenn jedoch ein kommerzielles Cloud-Modell verwendet wird, müssen wir davon ausgehen, dass der private Schlüssel in dem Moment, in dem er generiert wird, dem Modellbetreiber zur Verfügung gestellt wurde. Für einen Agenten, der unabhängig arbeiten möchte, ist es jedoch erforderlich, über Berechtigungen für den privaten Schlüssel zu verfügen, was bedeutet, dass der private Schlüssel nicht nur lokal für den Benutzer sein kann. In diesem Fall reicht es nicht mehr aus, sich allein auf das Modell selbst zu verlassen, um die Sicherheit des privaten Schlüssels zu gewährleisten, und es müssen zusätzliche Sicherheitsdienste wie eine vertrauenswürdige Ausführungsumgebung oder HSM eingeführt werden.
Wenn davon ausgegangen wird, dass der Agent den privaten Schlüssel bereits sicher aufbewahrt und auf dieser Grundlage verschiedene grundlegende Operationen durchführt, haben die verschiedenen Modelle im Test gute Fähigkeiten gezeigt. Obwohl es oft Fehler in den generierten Schritten und Codes gibt, können diese Probleme weitgehend mit einer geeigneten technischen Struktur gelöst werden. Man kann sagen, dass aus technischer Sicht Agent keine großen Hindernisse mehr hat, um eigenständig grundlegende Wallet-Operationen durchzuführen.
Die Fähigkeit, intelligente Verträge zu verstehen, zu nutzen, zu schreiben und Risiken zu erkennen, ist für KI-Agenten der Schlüssel, um komplexe Aufgaben in der On-Chain-Welt auszuführen und daher auch ein wichtiger Bereich für Experimente. Große Sprachmodelle haben in diesem Bereich ein erhebliches Potenzial gezeigt, aber sie haben auch einige offensichtliche Probleme aufgedeckt.
Fast alle Modelle im Test haben die zugrunde liegenden Vertragskonzepte richtig beantwortet und einfache Fehler identifiziert. In Bezug auf die Optimierung des Vertragsgases können die meisten Modelle Schlüsseloptimierungspunkte identifizieren und Konflikte analysieren, die durch Optimierung verursacht werden können. Wenn es jedoch um tiefe Geschäftslogik geht, beginnen die Einschränkungen großer Modelle sichtbar zu werden.
Nehmen Sie einen Token-Vesting-Vertrag als Beispiel: Alle Modelle haben die Vertragsfunktionen korrekt verstanden, und die meisten Modelle haben mehrere mittel- und niedrigrisikoreiche Sicherheitslücken gefunden. Kein Modell kann jedoch eigenständig eine hochriskante Sicherheitslücke in der Geschäftslogik entdecken, die unter besonderen Umständen dazu führen kann, dass einige Mittel gesperrt werden. Bei mehreren Tests mit echten Verträgen hat das Modell in etwa gleich gut abgeschnitten.
Dies zeigt, dass das Verständnis des großen Modells für Verträge immer noch auf formaler Ebene bleibt und das Verständnis der tiefen Geschäftslogik fehlt. Nachdem jedoch zusätzliche Hinweise gegeben wurden, waren einige Modelle schließlich in der Lage, die tief versteckten Schwachstellen in den oben genannten Verträgen unabhängig zu identifizieren. Basierend auf dieser Leistungsbeurteilung hat das große Modell mit Unterstützung guter Ingenieurleistungen im Grunde die Fähigkeit, als Co-Pilot auf dem Gebiet der Smart Contracts zu dienen. Es steht jedoch noch ein langer Weg bevor, bevor wir wichtige Aufgaben wie Vertragsprüfungen eigenständig übernehmen können.
Eine Sache ist zu beachten, dass die Code-bezogenen Aufgaben im Experiment hauptsächlich für Verträge mit einfacher Logik und weniger als 2000 Zeilen Code sind. Für größere komplexe Projekte, ohne Feinabstimmung oder komplexe prompt Worttechnik, denke ich, dass es klar über die effektiven Verarbeitungsfähigkeiten des aktuellen Modells hinausgeht und nicht in den Test einbezogen wurde. Darüber hinaus bezieht sich dieser Test nur auf Solidity und enthält keine anderen Smart Contract-Sprachen wie Rust und Move.
Neben dem oben genannten Testinhalt umfasst das Experiment auch viele Aspekte wie DeFi-Szenarien, DAO und deren Governance, On-Chain-Datenanalyse, Konsensmechanismusdesign und Tokenomics. Große Sprachmodelle haben in diesen Bereichen bestimmte Fähigkeiten gezeigt. Da viele Tests noch in Arbeit sind und Testmethoden und -rahmenbedingungen ständig optimiert werden, wird dieser Artikel vorerst nicht auf diese Bereiche eingehen.
Unter allen großen Sprachmodellen, die an der Bewertung teilnehmen, haben GPT-4o und Claude 3.5 Sonnet ihre hervorragende Leistung in anderen Bereichen fortgesetzt und sind die unbestrittenen Führer. Wenn sie mit grundlegenden Fragen konfrontiert werden, können beide Modelle fast immer genaue Antworten geben; bei der Analyse komplexer Szenarien können sie tiefgreifende und gut dokumentierte Einblicke bieten. Sie zeigen sogar eine hohe Erfolgsquote bei Rechenaufgaben, die große Modelle nicht gut beherrschen. Natürlich ist diese "hohe" Erfolgsquote relativ und hat noch nicht das Niveau einer stabilen Ausgabe in einer Produktionsumgebung erreicht.
Im Open-Source-Modelllager ist Llama 3.1-405B dank seiner großen Parametergröße und fortschrittlichen Modellalgorithmen seinen Mitbewerbern weit voraus. In anderen Open-Source-Modellen mit kleineren Parametergrößen besteht kein signifikanter Leistungsunterschied zwischen den Modellen. Obwohl die Punktzahlen geringfügig unterschiedlich sind, liegen sie insgesamt weit unter der Passlinie.
Daher sind diese Modelle mit kleinen und mittleren Parametern derzeit keine geeignete Wahl, wenn Sie kryptografiebezogene KI-Anwendungen erstellen möchten.
Zwei Modelle haben sich in unserem Test besonders hervorgetan. Das erste ist das Phi-3 3.8B-Modell, das von Microsoft eingeführt wurde. Es ist das kleinste Modell, das an diesem Experiment teilnimmt. Dennoch erreicht es eine Leistung, die dem 8B-12B-Modell mit weniger als der Hälfte der Parameter entspricht. In einigen spezifischen Kategorien sogar noch besser. Dieses Ergebnis unterstreicht die Bedeutung der Optimierung der Modellarchitektur und der Trainingsstrategien, die nicht ausschließlich auf einer Erhöhung der Parametergröße beruhen.
Und Cohere's Command-R-Modell ist zu einem überraschenden "dark horse" - dem Gegenteil - geworden. Command-R ist im Vergleich zu anderen Modellen nicht so bekannt, aber Cohere ist ein großes Modellunternehmen, das sich auf den 2B-Markt konzentriert. Ich denke, es gibt immer noch viele Punkte der Konvergenz mit Bereichen wie der Agentenentwicklung, daher wurde es gezielt in den Testumfang aufgenommen. Allerdings belegte das Command-R mit 35B Parametern in den meisten Tests den letzten Platz und verlor gegen viele Modelle unter 10B.
Dieses Ergebnis hat zum Nachdenken angeregt: Als Command-R veröffentlicht wurde, lag der Fokus auf der Verbesserung der Wiederherstellung und Generierungsfähigkeiten und es wurden nicht einmal regelmäßige Benchmark-Testergebnisse veröffentlicht. Bedeutet dies, dass es ein "privater Schlüssel" ist, der sein volles Potenzial nur in bestimmten Szenarien freischaltet?
In dieser Testreihe haben wir ein vorläufiges Verständnis für die Fähigkeiten von KI im Bereich der Verschlüsselung erhalten. Natürlich entsprechen diese Tests bei weitem nicht professionellen Standards. Die Abdeckung des Datensatzes ist bei weitem nicht ausreichend, die quantitativen Standards für Antworten sind relativ grob und es fehlt immer noch ein verfeinertes und genauer Bewertungsmechanismus. Dies wird die Genauigkeit der Bewertungsergebnisse beeinflussen und kann zu einer Unterschätzung der Leistung einiger Modelle führen.
In Bezug auf die Testmethode wurde das Experiment nur mit einer Methode des Zero-Shot-Lernens durchgeführt und hat nicht Methoden wie Denk-Ketten und Few-Shot-Lernen erforscht, die ein größeres Potenzial des Modells inspirieren können. In Bezug auf die Modellparameter wurden Standard-Modellparameter in den Experimenten verwendet, und der Einfluss unterschiedlicher Parameter-Einstellungen auf die Modellleistung wurde nicht untersucht. Diese insgesamt einzigen Testmethoden begrenzen unsere umfassende Bewertung des Potenzials des Modells und versäumen es, die Unterschiede in der Modellleistung unter spezifischen Bedingungen vollständig zu erkunden.
Obwohl die Testbedingungen relativ einfach waren, haben diese Experimente dennoch viele wertvolle Erkenntnisse hervorgebracht und den Entwicklern eine Referenz für den Bau von Anwendungen geliefert.
Im Bereich der KI spielen Benchmarks eine wichtige Rolle. Die rasante Entwicklung der modernen Deep-Learning-Technologie stammt aus ImageNET, das 2012 von Professor Li Feifei abgeschlossen wurde und ein standardisierter Benchmark und Datensatz im Bereich der Computer Vision ist.
Indem sie einen einheitlichen Bewertungsstandard bereitstellen, bieten Benchmarks Entwicklern nicht nur klare Ziele und Referenzpunkte, sondern treiben auch den technologischen Fortschritt in der gesamten Branche voran. Dies erklärt, warum jedes neu veröffentlichte große Sprachmodell den Fokus darauf legt, seine Ergebnisse auf verschiedenen Benchmarks anzukündigen. Diese Ergebnisse werden zu einer „Universalsprache“ der Modellfähigkeiten, die es Forschern ermöglicht, Durchbrüche zu identifizieren, Entwicklern, die am besten für bestimmte Aufgaben geeigneten Modelle auszuwählen, und Benutzern, fundierte Entscheidungen auf der Grundlage objektiver Daten zu treffen. Noch wichtiger ist, dass Benchmark-Tests oft die zukünftige Richtung von KI-Anwendungen ankündigen und Ressourceninvestitionen und Forschungsschwerpunkte lenken.
Wenn wir glauben, dass es ein riesiges Potenzial an der Schnittstelle von KI und Kryptographie gibt, dann wird die Einrichtung dedizierter kryptographischer Benchmarks zu einer dringenden Aufgabe. Die Einrichtung von Benchmarks kann zu einer wichtigen Brücke zwischen den beiden Bereichen KI und Verschlüsselung werden, Innovationen katalysieren und klare Richtlinien für zukünftige Anwendungen bieten.
Verglichen mit ausgereiften Benchmarks in anderen Bereichen stehen beim Aufbau von Benchmarks im Verschlüsselungsbereich jedoch einzigartige Herausforderungen: Die Verschlüsselungstechnologie entwickelt sich rapide weiter, das Wissenssystem der Branche ist noch nicht gefestigt, und es mangelt an Konsens in mehreren Kernrichtungen. Als interdisziplinäres Feld umfasst die Verschlüsselung Kryptographie, verteilte Systeme, Wirtschaft usw., und ihre Komplexität geht weit über die eines einzigen Feldes hinaus. Noch anspruchsvoller ist, dass der Verschlüsselungsbenchmark nicht nur das Wissen bewerten muss, sondern auch die praktische Fähigkeit von KI zur Nutzung der Verschlüsselungstechnologie prüft, was die Gestaltung einer neuen Bewertungsarchitektur erfordert. Der Mangel an relevanten Datensätzen erhöht die Schwierigkeit zusätzlich.
Die Komplexität und Bedeutung dieser Aufgabe erfordern, dass sie nicht von einer einzigen Person oder einem Team erledigt werden kann. Es erfordert die Zusammenführung der Weisheit vieler Parteien, von Benutzern, Entwicklern, Kryptografie-Experten, Verschlüsselungsforschern bis hin zu Menschen in interdisziplinären Bereichen und beruht auf umfangreicher Beteiligung und Konsens in der Community. Daher bedarf es einer breiteren Diskussion über den Verschlüsselungsbenchmark, da es nicht nur eine technische Arbeit ist, sondern auch eine tiefgreifende Reflexion darüber, wie wir diese aufstrebende Technologie verstehen.