L'IA peut-elle survivre dans l'univers de la cryptomonnaie: 18 grands modèles d'expérimentations cryptos

Avancé9/26/2024, 3:17:02 AM
L'IA se débrouille bien sur les algorithmes de cryptage et les connaissances en blockchain, mais elle ne se débrouille pas bien sur les calculs mathématiques et les analyses logiques complexes. Il est très important de développer des références spécifiques à l'IA pour le cryptage, ce qui fournira une référence importante pour l'application de l'IA dans le domaine du cryptage.
https://gimg.gateimg.com/learn/15cb54cbcd6041c0bd93b0bdcf0acd007a1449a0.jpg

Dans la chronique du progrès technologique, des technologies révolutionnaires apparaissent souvent indépendamment, chacune entraînant des changements dans une époque. Et lorsque deux technologies révolutionnaires se rencontrent, leur collision a souvent un impact exponentiel. Aujourd'hui, nous sommes à un tel moment historique : l'intelligence artificielle et la technologie de cryptage, deux nouvelles technologies tout aussi perturbatrices, entrent ensemble au centre de la scène.

Nous imaginons que de nombreux défis dans le domaine de l'IA peuvent être résolus par la technologie de chiffrement; nous attendons avec impatience que l'agent AI construise des réseaux économiques autonomes et promeuve l'adoption à grande échelle de la technologie de chiffrement; nous espérons également que l'IA pourra accélérer le développement de scénarios existants dans le domaine du chiffrement. Des yeux innombrables sont rivés sur cela, et des fonds massifs affluent. Tout comme tout mot à la mode, il incarne le désir d'innovation des gens, la vision de l'avenir, et contient également une ambition et une cupidité incontrôlables.

Pourtant, dans tout ce brouhaha, nous savons très peu de choses sur les questions les plus fondamentales. Dans quelle mesure l'IA connaît-elle le chiffrement ? Un agent équipé d'un grand modèle linguistique a-t-il réellement la capacité d'utiliser des outils de chiffrement ? Quelle est la différence de performance entre les différents modèles sur les tâches de chiffrement ?

Les réponses à ces questions détermineront l'influence mutuelle de l'IA et de la technologie de cryptage, et sont également cruciales pour la direction du produit et la sélection de la route technologique dans ce domaine croisé. Pour explorer ces problèmes, j'ai réalisé quelques expériences d'évaluation sur de grands modèles linguistiques. En évaluant leurs connaissances et leurs capacités dans le domaine du cryptage, nous mesurons le niveau d'application du cryptage de l'IA et déterminons le potentiel et les défis de l'intégration de l'IA et de la technologie de cryptage.

Parlons d'abord de la conclusion

Le grand modèle linguistique se comporte bien dans la connaissance de base de la cryptographie et de la blockchain, et comprend bien l'écosystème de chiffrement, mais se comporte mal dans les calculs mathématiques et l'analyse de la logique commerciale complexe. En ce qui concerne les clés privées et les opérations de portefeuille de base, le modèle a des bases satisfaisantes, mais il est confronté au défi sérieux de savoir comment conserver les clés privées dans le cloud. De nombreux modèles peuvent générer un code de contrat intelligent efficace pour des scénarios simples, mais ils ne peuvent pas effectuer indépendamment des tâches difficiles telles que l'audit de contrat et la création de contrat complexe.

Les modèles commerciaux à source fermée ont généralement une grande avance. Dans le camp de l’open-source, seul Llama 3.1-405B a bien fonctionné, tandis que tous les modèles open-source avec des tailles de paramètres plus petites ont échoué. Cependant, il y a du potentiel. Grâce à des conseils de mots rapides, à un raisonnement en chaîne de pensées et à une technologie d’apprentissage à quelques coups, les performances de tous les modèles ont été considérablement améliorées. Les modèles leaders ont déjà une forte faisabilité technique dans certains scénarios d’application verticale.

Détails de l'expérience

18 modèles linguistiques représentatifs ont été sélectionnés comme objets d'évaluation, notamment :

  • Modèles à source fermée : GPT-4o, GPT-4o Mini, Claude 3.5 Sonnet, Gemini 1.5 Pro, Grok2 beta (temporairement à source fermée)
  • Modèles open source : Llama 3.1 8B/70b/405B, Mistral Nemo 12B, DeepSeek-coder-v2, Nous-hermes2, Phi3 3.8B/14b, Gemma2 9B\27B, Command-R
  • Modèles d'optimisation mathématique: Qwen2-math-72B, MathΣtral

Ces modèles couvrent les modèles commerciaux grand public et populaires, ainsi que les modèles open source, avec des quantités de paramètres variant de plus de cent fois de 3,8 milliards à 405 milliards. Étant donné la relation étroite entre la technologie de chiffrement et les mathématiques, deux modèles d'optimisation mathématique ont été spécialement sélectionnés pour l'expérience.

Les domaines de connaissances couverts par l'expérience comprennent la cryptographie, les bases de la blockchain, les opérations de clé privée et de portefeuille, les contrats intelligents, le DAO et la gouvernance, les modèles de consensus et économiques, Dapp/DeFi/NFT, l'analyse de données on-chain, etc. Chaque domaine est composé d'une série de questions et de tâches allant de facile à difficile, ce qui teste non seulement la réserve de connaissances du modèle, mais teste également ses performances dans des scénarios d'application à travers des tâches de simulation.

La conception des tâches provient de sources diverses. Certaines proviennent de l'apport de plusieurs experts dans le domaine de la cryptomonnaie, et l'autre partie est générée avec l'assistance de l'IA et corrigée manuellement pour garantir l'exactitude et la difficulté des tâches. Certaines tâches utilisent des questions à choix multiples dans un format relativement simple pour faciliter des tests automatisés standardisés séparés et une évaluation. Une autre partie du test adopte un format de question plus complexe, et le processus de test est effectué par une combinaison d'automatisation de programme + manuelle + IA. Toutes les tâches de test sont évaluées à l'aide d'une méthode de raisonnement à zéro échantillon, sans fournir d'exemples, de guidage de la pensée ou d'indications pédagogiques.

Étant donné que la conception de l'expérience elle-même est relativement rudimentaire et manque de rigueur académique suffisante, les questions et tâches utilisées pour les tests ne couvrent pas pleinement le domaine de la cryptographie, et le cadre de test est également immature. Par conséquent, cet article ne répertorie pas de données expérimentales spécifiques, mais se concentre sur le partage de certaines idées issues des expériences.

connaissance/concept

Au cours du processus d’évaluation, le grand modèle de langage a bien fonctionné dans les tests de connaissances de base dans divers domaines tels que les algorithmes de cryptage, les bases de la blockchain et les applications DeFi. Par exemple, tous les modèles ont donné des réponses précises à des questions qui testaient la compréhension du concept de disponibilité des données. En ce qui concerne la question qui évalue la compréhension de la structure de transaction Ethereum par le modèle, bien que chaque modèle ait des réponses légèrement différentes dans les détails, ils contiennent généralement des informations clés correctes. Les questions à choix multiples qui examinent les concepts sont encore moins difficiles, et la précision de presque tous les modèles est supérieure à 95 %.

Les questions et réponses conceptuelles sont complètement difficiles pour les grands modèles.

Logique de calcul / Logique commerciale

Cependant, la situation est inversée lorsqu'il s'agit de problèmes nécessitant des calculs spécifiques. Un simple problème de calcul d'algorithme RSA met la plupart des modèles en difficulté. C'est facile à comprendre : les grands modèles linguistiques fonctionnent principalement en identifiant et en reproduisant des motifs dans les données d'entraînement, plutôt qu'en comprenant profondément la nature des concepts mathématiques. Cette limitation est particulièrement évidente lorsqu'il s'agit de concepts mathématiques abstraits tels que les opérations modulaires et les opérations exponentielles. Étant donné que le domaine de la cryptographie est étroitement lié aux mathématiques, cela signifie que se fier directement aux modèles pour les calculs mathématiques liés au chiffrement est peu fiable.

Dans d’autres problèmes informatiques, les performances des grands modèles de langage sont également insatisfaisantes. Par exemple, pour la simple question du calcul de la perte impermanente d’AMM, bien qu’elle n’implique pas d’opérations mathématiques complexes, seuls 4 des 18 modèles ont donné la bonne réponse. En ce qui concerne une autre question plus fondamentale sur le calcul de la probabilité d’un bloc, tous les modèles se sont trompés de réponse. Cela a déconcerté tous les modèles, et aucun d’entre eux n’était correct. Cela met non seulement en évidence les lacunes des grands modèles de langage dans les calculs précis, mais reflète également leurs problèmes majeurs dans l’analyse de la logique métier. Il convient de noter que même le modèle d’optimisation mathématique n’a pas montré d’avantages évidents dans les questions de calcul, et ses performances ont été décevantes.

Cependant, le problème du calcul mathématique n'est pas insoluble. Si nous apportons un léger ajustement et demandons aux LLM de fournir le code Python correspondant au lieu de calculer directement les résultats, le taux de précision sera grandement amélioré. Prenons le problème de calcul RSA susmentionné comme exemple, les codes Python donnés par la plupart des modèles peuvent être exécutés sans problème et produire des résultats corrects. Dans des environnements de production réels, des codes d'algorithme prédéfinis peuvent être fournis pour contourner le calcul automatique des LLM, ce qui est similaire à la manière dont les humains gèrent de telles tâches. Au niveau de la logique métier, la performance du modèle peut également être améliorée de manière efficace grâce à une orientation soigneusement conçue des mots d'incitation.

Gestion des clés privées et opérations de portefeuille

Si vous demandez quel est le premier scénario pour un agent d'utiliser la cryptomonnaie, ma réponse est le paiement. La cryptomonnaie peut presque être considérée comme une forme de monnaie native à l'IA. Par rapport aux nombreux obstacles auxquels les agents sont confrontés dans le système financier traditionnel, il est naturel de choisir d'utiliser la technologie de chiffrement pour s'équiper d'identités numériques et gérer les fonds via des portefeuilles chiffrés. Ainsi, la génération et la gestion des clés privées et diverses opérations de portefeuille constituent les exigences de compétences les plus fondamentales pour qu'un agent puisse utiliser de manière indépendante le réseau de chiffrement.

Le cœur de la génération sécurisée de clés privées réside dans des nombres aléatoires de haute qualité, une capacité que les grands modèles de langage n'ont évidemment pas. Cependant, les modèles comprennent suffisamment la sécurité des clés privées. Lorsqu'on leur demande de générer une clé privée, la plupart des modèles choisissent d'utiliser du code (tel que des bibliothèques Python connexes) pour guider les utilisateurs dans la génération de leurs clés privées de manière indépendante. Même si un modèle fournit directement une clé privée, il est clairement indiqué que cela ne sert qu'à des fins de démonstration et qu'il ne s'agit pas d'une clé privée sécurisée pouvant être utilisée directement. À cet égard, tous les grands modèles ont montré des performances satisfaisantes.

La gestion des clés privées est confrontée à certains défis, qui sont principalement dus aux limites inhérentes à l’architecture technique plutôt qu’au manque de capacités du modèle. Lors de l’utilisation d’un modèle déployé localement, la clé privée générée peut être considérée comme relativement sécurisée. Toutefois, si un modèle de cloud commercial est utilisé, nous devons supposer que la clé privée a été exposée à l’opérateur du modèle au moment où elle est générée. Mais pour un agent qui vise à travailler indépendamment, il est nécessaire d’avoir des autorisations de clé privée, ce qui signifie que la clé privée ne peut pas être uniquement locale pour l’utilisateur. Dans ce cas, il ne suffit plus de s’appuyer uniquement sur le modèle lui-même pour garantir la sécurité de la clé privée, et des services de sécurité supplémentaires tels qu’un environnement d’exécution approuvé ou HSM doivent être introduits.

S'il est supposé que l'Agent détient déjà la clé privée de manière sécurisée et effectue diverses opérations de base sur cette base, les différents modèles de test ont montré de bonnes capacités. Bien qu'il y ait souvent des erreurs dans les étapes et les codes générés, ces problèmes peuvent être résolus dans une large mesure avec une structure d'ingénierie appropriée. On peut dire que d'un point de vue technique, il n'y a plus beaucoup d'obstacles pour que l'Agent effectue indépendamment les opérations de portefeuille de base.

contrat intelligent

La capacité de comprendre, d'utiliser, d'écrire et d'identifier les risques des contrats intelligents est la clé pour que les agents d'IA puissent effectuer des tâches complexes dans le monde on-chain, et constitue donc également un domaine de test clé pour les expériences. Les grands modèles de langage ont montré un potentiel significatif dans ce domaine, mais ont également exposé certains problèmes évidents.

Presque tous les modèles du test ont correctement répondu aux concepts sous-jacents du contrat, identifié des bugs simples. En ce qui concerne l'optimisation du gaz du contrat, la plupart des modèles peuvent identifier les points d'optimisation clés et analyser les conflits qui peuvent être causés par l'optimisation. Cependant, lorsque la logique métier profonde est impliquée, les limitations des grands modèles commencent à apparaître.

Prenons un contrat de libération de jetons comme exemple : tous les modèles ont correctement compris les fonctions du contrat, et la plupart des modèles ont trouvé plusieurs vulnérabilités de risque moyen et faible. Cependant, aucun modèle ne peut découvrir indépendamment une vulnérabilité de haut risque cachée dans la logique métier qui pourrait entraîner le blocage de certains fonds dans des circonstances particulières. Lors de tests multiples utilisant de vrais contrats, le modèle a donné des résultats à peu près similaires.

Cela montre que la compréhension du grand modèle des contrats reste encore au niveau formel et manque de compréhension de la logique commerciale profonde. Cependant, après avoir reçu des indices supplémentaires, certains modèles ont finalement pu identifier de manière indépendante les vulnérabilités profondément cachées dans les contrats mentionnés ci-dessus. Sur la base de ce jugement de performance, avec le soutien d'une bonne conception d'ingénierie, le grand modèle a fondamentalement la capacité de servir de co-pilote dans le domaine des contrats intelligents. Cependant, il reste encore beaucoup de chemin à parcourir avant de pouvoir entreprendre de manière indépendante des tâches importantes telles que les audits de contrats.

Une chose à noter est que les tâches liées au code dans l'expérience sont principalement destinées aux contrats avec une logique simple et moins de 2 000 lignes de code. Pour des projets complexes à plus grande échelle, sans ajustement fin ou ingénierie de mots d'instruction complexes, je pense que cela dépasse clairement les capacités de traitement efficaces du modèle actuel et n'a pas été inclus dans le test. De plus, ce test ne concerne que Solidity et n'inclut pas d'autres langages de contrat intelligents tels que Rust et Move.

En plus du contenu de test ci-dessus, l'expérience couvre également de nombreux aspects, notamment les scénarios DeFi, DAO et sa gouvernance, l'analyse des données on-chain, la conception des mécanismes de consensus et la Tokenomics. Les grands modèles linguistiques ont démontré certaines capacités dans ces domaines. Étant donné que de nombreux tests sont encore en cours et que les méthodes et cadres de test sont constamment optimisés, cet article n'approfondira pas ces domaines pour le moment.

Différences de modèle

Parmi tous les grands modèles de langage participant à l’évaluation, GPT-4o et Claude 3.5 Sonnet ont poursuivi leurs excellentes performances dans d’autres domaines et sont les leaders incontestés. Lorsqu’ils sont confrontés à des questions de base, les deux modèles peuvent presque toujours donner des réponses précises ; Dans l’analyse de scénarios complexes, ils peuvent fournir des informations approfondies et bien documentées. Il montre même un taux de réussite élevé dans les tâches informatiques pour lesquelles les grands modèles ne sont pas bons. Bien sûr, ce taux de réussite « élevé » est relatif et n’a pas encore atteint le niveau d’une production stable dans un environnement de production.

Dans le camp du modèle open source, Llama 3.1-405B est loin devant ses pairs grâce à son ampleur de paramètres et à ses algorithmes de modèle avancés. Dans d'autres modèles open source avec des tailles de paramètres plus petites, il n'y a pas de différence de performance significative entre les modèles. Bien que les scores soient légèrement différents, dans l'ensemble, ils sont loin de la ligne de passage.

Par conséquent, si vous souhaitez créer des applications d'IA liées au chiffrement actuellement, ces modèles avec des paramètres de petite et moyenne taille ne sont pas un choix approprié.

Deux modèles se sont particulièrement démarqués dans notre revue. Le premier est le modèle Phi-3 3.8B lancé par Microsoft. C'est le modèle le plus petit participant à cette expérience. Cependant, il atteint un niveau de performance équivalent au modèle 8B-12B avec moins de la moitié du nombre de paramètres. Dans certaines catégories spécifiques, même mieux sur la question. Ce résultat met en évidence l'importance de l'optimisation de l'architecture du modèle et des stratégies de formation qui ne reposent pas uniquement sur l'augmentation de la taille des paramètres.

Et le modèle Command-R de Cohere est devenu un “dark horse” surprenant - à l'envers. Command-R n'est pas aussi connu par rapport à d'autres modèles, mais Cohere est une grande entreprise de modèles se concentrant sur le marché 2B. Je pense qu'il existe encore de nombreux points de convergence avec des domaines tels que le développement de l'Agent, c'est pourquoi il a été spécifiquement inclus dans le champ d'essai. Cependant, le Command-R avec 35 milliards de paramètres a été classé dernier dans la plupart des tests, perdant face à de nombreux modèles de moins de 10 milliards.

Ce résultat a déclenché une réflexion : lorsque la commande-R a été publiée, elle s'est concentrée sur l'amélioration de la récupération et les capacités de génération, et n'a même pas publié de résultats réguliers de test de référence. Cela signifie-t-il qu'il s'agit d'une « clé privée » qui ne débloque son plein potentiel que dans des scénarios spécifiques ?

Limitations expérimentales

Dans cette série de tests, nous avons obtenu une compréhension préliminaire des capacités de l'IA dans le domaine du chiffrement. Bien sûr, ces tests sont loin des normes professionnelles. La couverture de l'ensemble de données est loin d'être suffisante, les normes quantitatives des réponses sont relativement approximatives, et il manque encore un mécanisme de notation raffiné et plus précis. Cela affectera la précision des résultats de l'évaluation et pourrait conduire à la sous-estimation des performances de certains modèles.

En termes de méthode de test, l'expérience n'a utilisé qu'une seule méthode d'apprentissage sans apprentissage, et n'a pas exploré des méthodes telles que les chaînes de réflexion et l'apprentissage à quelques coups qui peuvent inspirer un plus grand potentiel du modèle. En termes de paramètres de modèle, des paramètres de modèle standard ont été utilisés dans les expériences, et l'impact de différents réglages de paramètres sur les performances du modèle n'a pas été examiné. Ces méthodes de test globalement uniques limitent notre évaluation globale du potentiel du modèle et ne parviennent pas à explorer pleinement les différences de performance du modèle dans des conditions spécifiques.

Bien que les conditions de test étaient relativement simples, ces expériences ont tout de même produit de nombreuses perspectives précieuses et ont fourni une référence aux développeurs pour construire des applications.

L'univers de la cryptomonnaie a besoin de son propre point de référence

Dans le domaine de l'IA, les benchmarks jouent un rôle clé. Le développement rapide de la technologie moderne d'apprentissage profond provient de l'ImageNET réalisée par le professeur Li Feifei en 2012, qui est un benchmark et un ensemble de données standardisés dans le domaine de la vision par ordinateur.

En fournissant une norme unifiée d'évaluation, les benchmarks fournissent non seulement aux développeurs des objectifs clairs et des points de référence, mais stimulent également le progrès technologique dans l'industrie. Cela explique pourquoi chaque nouveau grand modèle de langage publié se concentrera sur l'annonce de ses résultats sur divers benchmarks. Ces résultats deviennent un «langage universel» des capacités du modèle, permettant aux chercheurs de localiser des percées, aux développeurs de sélectionner les modèles les mieux adaptés à des tâches spécifiques et aux utilisateurs de faire des choix éclairés basés sur des données objectives. Plus important encore, les tests de référence annoncent souvent la direction future des applications d'IA, guidant l'investissement en ressources et la focalisation de la recherche.

Si nous croyons qu'il existe un énorme potentiel à l'intersection de l'IA et de la cryptographie, alors l'établissement de références cryptographiques dédiées devient une tâche urgente. La mise en place de références peut devenir un pont clé reliant les deux domaines de l'IA et du chiffrement, catalyser l'innovation et fournir des orientations claires pour les futures applications.

Cependant, par rapport aux références matures dans d'autres domaines, la création de références dans le domaine de la cryptographie est confrontée à des défis uniques : la technologie de cryptage évolue rapidement, le système de connaissances de l'industrie n'a pas encore été solidifié, et il n'y a pas de consensus dans de multiples directions essentielles. En tant que domaine interdisciplinaire, la cryptographie couvre la cryptographie, les systèmes distribués, l'économie, etc., et sa complexité dépasse largement celle d'un seul domaine. Ce qui est encore plus difficile, c'est que la référence en cryptographie doit non seulement évaluer les connaissances, mais aussi examiner la capacité pratique de l'IA à utiliser la technologie de cryptage, ce qui nécessite la conception d'une nouvelle architecture d'évaluation. Le manque de jeux de données pertinents augmente encore la difficulté.

La complexité et l'importance de cette tâche dictent qu'elle ne peut être accomplie par une seule personne ou une seule équipe. Elle doit rassembler la sagesse de nombreuses parties, des utilisateurs aux développeurs, des experts en cryptographie aux chercheurs en cryptage, ainsi que des personnes de divers domaines interdisciplinaires, et repose sur une participation et un consensus communautaires étendus. Par conséquent, l'évaluation du cryptage nécessite une discussion plus large, car il ne s'agit pas seulement d'un travail technique, mais aussi d'une réflexion profonde sur la manière dont nous comprenons cette technologie émergente.

Avertissement:

  1. Cet article est repris de [ Empower Labs]. Tous les droits d'auteur appartiennent à l'auteur original [Wang Chao]. If there are objections to this reprint, please contact the Gate Learn et ils s’en occuperont rapidement.
  2. Clause de non-responsabilité de responsabilité : Les vues et opinions exprimées dans cet article sont uniquement celles de l'auteur et ne constituent aucun conseil en investissement.
  3. Les traductions de l'article dans d'autres langues sont effectuées par l'équipe Gate Learn. Sauf mention contraire, la copie, la distribution ou le plagiat des articles traduits est interdit.

L'IA peut-elle survivre dans l'univers de la cryptomonnaie: 18 grands modèles d'expérimentations cryptos

Avancé9/26/2024, 3:17:02 AM
L'IA se débrouille bien sur les algorithmes de cryptage et les connaissances en blockchain, mais elle ne se débrouille pas bien sur les calculs mathématiques et les analyses logiques complexes. Il est très important de développer des références spécifiques à l'IA pour le cryptage, ce qui fournira une référence importante pour l'application de l'IA dans le domaine du cryptage.

Dans la chronique du progrès technologique, des technologies révolutionnaires apparaissent souvent indépendamment, chacune entraînant des changements dans une époque. Et lorsque deux technologies révolutionnaires se rencontrent, leur collision a souvent un impact exponentiel. Aujourd'hui, nous sommes à un tel moment historique : l'intelligence artificielle et la technologie de cryptage, deux nouvelles technologies tout aussi perturbatrices, entrent ensemble au centre de la scène.

Nous imaginons que de nombreux défis dans le domaine de l'IA peuvent être résolus par la technologie de chiffrement; nous attendons avec impatience que l'agent AI construise des réseaux économiques autonomes et promeuve l'adoption à grande échelle de la technologie de chiffrement; nous espérons également que l'IA pourra accélérer le développement de scénarios existants dans le domaine du chiffrement. Des yeux innombrables sont rivés sur cela, et des fonds massifs affluent. Tout comme tout mot à la mode, il incarne le désir d'innovation des gens, la vision de l'avenir, et contient également une ambition et une cupidité incontrôlables.

Pourtant, dans tout ce brouhaha, nous savons très peu de choses sur les questions les plus fondamentales. Dans quelle mesure l'IA connaît-elle le chiffrement ? Un agent équipé d'un grand modèle linguistique a-t-il réellement la capacité d'utiliser des outils de chiffrement ? Quelle est la différence de performance entre les différents modèles sur les tâches de chiffrement ?

Les réponses à ces questions détermineront l'influence mutuelle de l'IA et de la technologie de cryptage, et sont également cruciales pour la direction du produit et la sélection de la route technologique dans ce domaine croisé. Pour explorer ces problèmes, j'ai réalisé quelques expériences d'évaluation sur de grands modèles linguistiques. En évaluant leurs connaissances et leurs capacités dans le domaine du cryptage, nous mesurons le niveau d'application du cryptage de l'IA et déterminons le potentiel et les défis de l'intégration de l'IA et de la technologie de cryptage.

Parlons d'abord de la conclusion

Le grand modèle linguistique se comporte bien dans la connaissance de base de la cryptographie et de la blockchain, et comprend bien l'écosystème de chiffrement, mais se comporte mal dans les calculs mathématiques et l'analyse de la logique commerciale complexe. En ce qui concerne les clés privées et les opérations de portefeuille de base, le modèle a des bases satisfaisantes, mais il est confronté au défi sérieux de savoir comment conserver les clés privées dans le cloud. De nombreux modèles peuvent générer un code de contrat intelligent efficace pour des scénarios simples, mais ils ne peuvent pas effectuer indépendamment des tâches difficiles telles que l'audit de contrat et la création de contrat complexe.

Les modèles commerciaux à source fermée ont généralement une grande avance. Dans le camp de l’open-source, seul Llama 3.1-405B a bien fonctionné, tandis que tous les modèles open-source avec des tailles de paramètres plus petites ont échoué. Cependant, il y a du potentiel. Grâce à des conseils de mots rapides, à un raisonnement en chaîne de pensées et à une technologie d’apprentissage à quelques coups, les performances de tous les modèles ont été considérablement améliorées. Les modèles leaders ont déjà une forte faisabilité technique dans certains scénarios d’application verticale.

Détails de l'expérience

18 modèles linguistiques représentatifs ont été sélectionnés comme objets d'évaluation, notamment :

  • Modèles à source fermée : GPT-4o, GPT-4o Mini, Claude 3.5 Sonnet, Gemini 1.5 Pro, Grok2 beta (temporairement à source fermée)
  • Modèles open source : Llama 3.1 8B/70b/405B, Mistral Nemo 12B, DeepSeek-coder-v2, Nous-hermes2, Phi3 3.8B/14b, Gemma2 9B\27B, Command-R
  • Modèles d'optimisation mathématique: Qwen2-math-72B, MathΣtral

Ces modèles couvrent les modèles commerciaux grand public et populaires, ainsi que les modèles open source, avec des quantités de paramètres variant de plus de cent fois de 3,8 milliards à 405 milliards. Étant donné la relation étroite entre la technologie de chiffrement et les mathématiques, deux modèles d'optimisation mathématique ont été spécialement sélectionnés pour l'expérience.

Les domaines de connaissances couverts par l'expérience comprennent la cryptographie, les bases de la blockchain, les opérations de clé privée et de portefeuille, les contrats intelligents, le DAO et la gouvernance, les modèles de consensus et économiques, Dapp/DeFi/NFT, l'analyse de données on-chain, etc. Chaque domaine est composé d'une série de questions et de tâches allant de facile à difficile, ce qui teste non seulement la réserve de connaissances du modèle, mais teste également ses performances dans des scénarios d'application à travers des tâches de simulation.

La conception des tâches provient de sources diverses. Certaines proviennent de l'apport de plusieurs experts dans le domaine de la cryptomonnaie, et l'autre partie est générée avec l'assistance de l'IA et corrigée manuellement pour garantir l'exactitude et la difficulté des tâches. Certaines tâches utilisent des questions à choix multiples dans un format relativement simple pour faciliter des tests automatisés standardisés séparés et une évaluation. Une autre partie du test adopte un format de question plus complexe, et le processus de test est effectué par une combinaison d'automatisation de programme + manuelle + IA. Toutes les tâches de test sont évaluées à l'aide d'une méthode de raisonnement à zéro échantillon, sans fournir d'exemples, de guidage de la pensée ou d'indications pédagogiques.

Étant donné que la conception de l'expérience elle-même est relativement rudimentaire et manque de rigueur académique suffisante, les questions et tâches utilisées pour les tests ne couvrent pas pleinement le domaine de la cryptographie, et le cadre de test est également immature. Par conséquent, cet article ne répertorie pas de données expérimentales spécifiques, mais se concentre sur le partage de certaines idées issues des expériences.

connaissance/concept

Au cours du processus d’évaluation, le grand modèle de langage a bien fonctionné dans les tests de connaissances de base dans divers domaines tels que les algorithmes de cryptage, les bases de la blockchain et les applications DeFi. Par exemple, tous les modèles ont donné des réponses précises à des questions qui testaient la compréhension du concept de disponibilité des données. En ce qui concerne la question qui évalue la compréhension de la structure de transaction Ethereum par le modèle, bien que chaque modèle ait des réponses légèrement différentes dans les détails, ils contiennent généralement des informations clés correctes. Les questions à choix multiples qui examinent les concepts sont encore moins difficiles, et la précision de presque tous les modèles est supérieure à 95 %.

Les questions et réponses conceptuelles sont complètement difficiles pour les grands modèles.

Logique de calcul / Logique commerciale

Cependant, la situation est inversée lorsqu'il s'agit de problèmes nécessitant des calculs spécifiques. Un simple problème de calcul d'algorithme RSA met la plupart des modèles en difficulté. C'est facile à comprendre : les grands modèles linguistiques fonctionnent principalement en identifiant et en reproduisant des motifs dans les données d'entraînement, plutôt qu'en comprenant profondément la nature des concepts mathématiques. Cette limitation est particulièrement évidente lorsqu'il s'agit de concepts mathématiques abstraits tels que les opérations modulaires et les opérations exponentielles. Étant donné que le domaine de la cryptographie est étroitement lié aux mathématiques, cela signifie que se fier directement aux modèles pour les calculs mathématiques liés au chiffrement est peu fiable.

Dans d’autres problèmes informatiques, les performances des grands modèles de langage sont également insatisfaisantes. Par exemple, pour la simple question du calcul de la perte impermanente d’AMM, bien qu’elle n’implique pas d’opérations mathématiques complexes, seuls 4 des 18 modèles ont donné la bonne réponse. En ce qui concerne une autre question plus fondamentale sur le calcul de la probabilité d’un bloc, tous les modèles se sont trompés de réponse. Cela a déconcerté tous les modèles, et aucun d’entre eux n’était correct. Cela met non seulement en évidence les lacunes des grands modèles de langage dans les calculs précis, mais reflète également leurs problèmes majeurs dans l’analyse de la logique métier. Il convient de noter que même le modèle d’optimisation mathématique n’a pas montré d’avantages évidents dans les questions de calcul, et ses performances ont été décevantes.

Cependant, le problème du calcul mathématique n'est pas insoluble. Si nous apportons un léger ajustement et demandons aux LLM de fournir le code Python correspondant au lieu de calculer directement les résultats, le taux de précision sera grandement amélioré. Prenons le problème de calcul RSA susmentionné comme exemple, les codes Python donnés par la plupart des modèles peuvent être exécutés sans problème et produire des résultats corrects. Dans des environnements de production réels, des codes d'algorithme prédéfinis peuvent être fournis pour contourner le calcul automatique des LLM, ce qui est similaire à la manière dont les humains gèrent de telles tâches. Au niveau de la logique métier, la performance du modèle peut également être améliorée de manière efficace grâce à une orientation soigneusement conçue des mots d'incitation.

Gestion des clés privées et opérations de portefeuille

Si vous demandez quel est le premier scénario pour un agent d'utiliser la cryptomonnaie, ma réponse est le paiement. La cryptomonnaie peut presque être considérée comme une forme de monnaie native à l'IA. Par rapport aux nombreux obstacles auxquels les agents sont confrontés dans le système financier traditionnel, il est naturel de choisir d'utiliser la technologie de chiffrement pour s'équiper d'identités numériques et gérer les fonds via des portefeuilles chiffrés. Ainsi, la génération et la gestion des clés privées et diverses opérations de portefeuille constituent les exigences de compétences les plus fondamentales pour qu'un agent puisse utiliser de manière indépendante le réseau de chiffrement.

Le cœur de la génération sécurisée de clés privées réside dans des nombres aléatoires de haute qualité, une capacité que les grands modèles de langage n'ont évidemment pas. Cependant, les modèles comprennent suffisamment la sécurité des clés privées. Lorsqu'on leur demande de générer une clé privée, la plupart des modèles choisissent d'utiliser du code (tel que des bibliothèques Python connexes) pour guider les utilisateurs dans la génération de leurs clés privées de manière indépendante. Même si un modèle fournit directement une clé privée, il est clairement indiqué que cela ne sert qu'à des fins de démonstration et qu'il ne s'agit pas d'une clé privée sécurisée pouvant être utilisée directement. À cet égard, tous les grands modèles ont montré des performances satisfaisantes.

La gestion des clés privées est confrontée à certains défis, qui sont principalement dus aux limites inhérentes à l’architecture technique plutôt qu’au manque de capacités du modèle. Lors de l’utilisation d’un modèle déployé localement, la clé privée générée peut être considérée comme relativement sécurisée. Toutefois, si un modèle de cloud commercial est utilisé, nous devons supposer que la clé privée a été exposée à l’opérateur du modèle au moment où elle est générée. Mais pour un agent qui vise à travailler indépendamment, il est nécessaire d’avoir des autorisations de clé privée, ce qui signifie que la clé privée ne peut pas être uniquement locale pour l’utilisateur. Dans ce cas, il ne suffit plus de s’appuyer uniquement sur le modèle lui-même pour garantir la sécurité de la clé privée, et des services de sécurité supplémentaires tels qu’un environnement d’exécution approuvé ou HSM doivent être introduits.

S'il est supposé que l'Agent détient déjà la clé privée de manière sécurisée et effectue diverses opérations de base sur cette base, les différents modèles de test ont montré de bonnes capacités. Bien qu'il y ait souvent des erreurs dans les étapes et les codes générés, ces problèmes peuvent être résolus dans une large mesure avec une structure d'ingénierie appropriée. On peut dire que d'un point de vue technique, il n'y a plus beaucoup d'obstacles pour que l'Agent effectue indépendamment les opérations de portefeuille de base.

contrat intelligent

La capacité de comprendre, d'utiliser, d'écrire et d'identifier les risques des contrats intelligents est la clé pour que les agents d'IA puissent effectuer des tâches complexes dans le monde on-chain, et constitue donc également un domaine de test clé pour les expériences. Les grands modèles de langage ont montré un potentiel significatif dans ce domaine, mais ont également exposé certains problèmes évidents.

Presque tous les modèles du test ont correctement répondu aux concepts sous-jacents du contrat, identifié des bugs simples. En ce qui concerne l'optimisation du gaz du contrat, la plupart des modèles peuvent identifier les points d'optimisation clés et analyser les conflits qui peuvent être causés par l'optimisation. Cependant, lorsque la logique métier profonde est impliquée, les limitations des grands modèles commencent à apparaître.

Prenons un contrat de libération de jetons comme exemple : tous les modèles ont correctement compris les fonctions du contrat, et la plupart des modèles ont trouvé plusieurs vulnérabilités de risque moyen et faible. Cependant, aucun modèle ne peut découvrir indépendamment une vulnérabilité de haut risque cachée dans la logique métier qui pourrait entraîner le blocage de certains fonds dans des circonstances particulières. Lors de tests multiples utilisant de vrais contrats, le modèle a donné des résultats à peu près similaires.

Cela montre que la compréhension du grand modèle des contrats reste encore au niveau formel et manque de compréhension de la logique commerciale profonde. Cependant, après avoir reçu des indices supplémentaires, certains modèles ont finalement pu identifier de manière indépendante les vulnérabilités profondément cachées dans les contrats mentionnés ci-dessus. Sur la base de ce jugement de performance, avec le soutien d'une bonne conception d'ingénierie, le grand modèle a fondamentalement la capacité de servir de co-pilote dans le domaine des contrats intelligents. Cependant, il reste encore beaucoup de chemin à parcourir avant de pouvoir entreprendre de manière indépendante des tâches importantes telles que les audits de contrats.

Une chose à noter est que les tâches liées au code dans l'expérience sont principalement destinées aux contrats avec une logique simple et moins de 2 000 lignes de code. Pour des projets complexes à plus grande échelle, sans ajustement fin ou ingénierie de mots d'instruction complexes, je pense que cela dépasse clairement les capacités de traitement efficaces du modèle actuel et n'a pas été inclus dans le test. De plus, ce test ne concerne que Solidity et n'inclut pas d'autres langages de contrat intelligents tels que Rust et Move.

En plus du contenu de test ci-dessus, l'expérience couvre également de nombreux aspects, notamment les scénarios DeFi, DAO et sa gouvernance, l'analyse des données on-chain, la conception des mécanismes de consensus et la Tokenomics. Les grands modèles linguistiques ont démontré certaines capacités dans ces domaines. Étant donné que de nombreux tests sont encore en cours et que les méthodes et cadres de test sont constamment optimisés, cet article n'approfondira pas ces domaines pour le moment.

Différences de modèle

Parmi tous les grands modèles de langage participant à l’évaluation, GPT-4o et Claude 3.5 Sonnet ont poursuivi leurs excellentes performances dans d’autres domaines et sont les leaders incontestés. Lorsqu’ils sont confrontés à des questions de base, les deux modèles peuvent presque toujours donner des réponses précises ; Dans l’analyse de scénarios complexes, ils peuvent fournir des informations approfondies et bien documentées. Il montre même un taux de réussite élevé dans les tâches informatiques pour lesquelles les grands modèles ne sont pas bons. Bien sûr, ce taux de réussite « élevé » est relatif et n’a pas encore atteint le niveau d’une production stable dans un environnement de production.

Dans le camp du modèle open source, Llama 3.1-405B est loin devant ses pairs grâce à son ampleur de paramètres et à ses algorithmes de modèle avancés. Dans d'autres modèles open source avec des tailles de paramètres plus petites, il n'y a pas de différence de performance significative entre les modèles. Bien que les scores soient légèrement différents, dans l'ensemble, ils sont loin de la ligne de passage.

Par conséquent, si vous souhaitez créer des applications d'IA liées au chiffrement actuellement, ces modèles avec des paramètres de petite et moyenne taille ne sont pas un choix approprié.

Deux modèles se sont particulièrement démarqués dans notre revue. Le premier est le modèle Phi-3 3.8B lancé par Microsoft. C'est le modèle le plus petit participant à cette expérience. Cependant, il atteint un niveau de performance équivalent au modèle 8B-12B avec moins de la moitié du nombre de paramètres. Dans certaines catégories spécifiques, même mieux sur la question. Ce résultat met en évidence l'importance de l'optimisation de l'architecture du modèle et des stratégies de formation qui ne reposent pas uniquement sur l'augmentation de la taille des paramètres.

Et le modèle Command-R de Cohere est devenu un “dark horse” surprenant - à l'envers. Command-R n'est pas aussi connu par rapport à d'autres modèles, mais Cohere est une grande entreprise de modèles se concentrant sur le marché 2B. Je pense qu'il existe encore de nombreux points de convergence avec des domaines tels que le développement de l'Agent, c'est pourquoi il a été spécifiquement inclus dans le champ d'essai. Cependant, le Command-R avec 35 milliards de paramètres a été classé dernier dans la plupart des tests, perdant face à de nombreux modèles de moins de 10 milliards.

Ce résultat a déclenché une réflexion : lorsque la commande-R a été publiée, elle s'est concentrée sur l'amélioration de la récupération et les capacités de génération, et n'a même pas publié de résultats réguliers de test de référence. Cela signifie-t-il qu'il s'agit d'une « clé privée » qui ne débloque son plein potentiel que dans des scénarios spécifiques ?

Limitations expérimentales

Dans cette série de tests, nous avons obtenu une compréhension préliminaire des capacités de l'IA dans le domaine du chiffrement. Bien sûr, ces tests sont loin des normes professionnelles. La couverture de l'ensemble de données est loin d'être suffisante, les normes quantitatives des réponses sont relativement approximatives, et il manque encore un mécanisme de notation raffiné et plus précis. Cela affectera la précision des résultats de l'évaluation et pourrait conduire à la sous-estimation des performances de certains modèles.

En termes de méthode de test, l'expérience n'a utilisé qu'une seule méthode d'apprentissage sans apprentissage, et n'a pas exploré des méthodes telles que les chaînes de réflexion et l'apprentissage à quelques coups qui peuvent inspirer un plus grand potentiel du modèle. En termes de paramètres de modèle, des paramètres de modèle standard ont été utilisés dans les expériences, et l'impact de différents réglages de paramètres sur les performances du modèle n'a pas été examiné. Ces méthodes de test globalement uniques limitent notre évaluation globale du potentiel du modèle et ne parviennent pas à explorer pleinement les différences de performance du modèle dans des conditions spécifiques.

Bien que les conditions de test étaient relativement simples, ces expériences ont tout de même produit de nombreuses perspectives précieuses et ont fourni une référence aux développeurs pour construire des applications.

L'univers de la cryptomonnaie a besoin de son propre point de référence

Dans le domaine de l'IA, les benchmarks jouent un rôle clé. Le développement rapide de la technologie moderne d'apprentissage profond provient de l'ImageNET réalisée par le professeur Li Feifei en 2012, qui est un benchmark et un ensemble de données standardisés dans le domaine de la vision par ordinateur.

En fournissant une norme unifiée d'évaluation, les benchmarks fournissent non seulement aux développeurs des objectifs clairs et des points de référence, mais stimulent également le progrès technologique dans l'industrie. Cela explique pourquoi chaque nouveau grand modèle de langage publié se concentrera sur l'annonce de ses résultats sur divers benchmarks. Ces résultats deviennent un «langage universel» des capacités du modèle, permettant aux chercheurs de localiser des percées, aux développeurs de sélectionner les modèles les mieux adaptés à des tâches spécifiques et aux utilisateurs de faire des choix éclairés basés sur des données objectives. Plus important encore, les tests de référence annoncent souvent la direction future des applications d'IA, guidant l'investissement en ressources et la focalisation de la recherche.

Si nous croyons qu'il existe un énorme potentiel à l'intersection de l'IA et de la cryptographie, alors l'établissement de références cryptographiques dédiées devient une tâche urgente. La mise en place de références peut devenir un pont clé reliant les deux domaines de l'IA et du chiffrement, catalyser l'innovation et fournir des orientations claires pour les futures applications.

Cependant, par rapport aux références matures dans d'autres domaines, la création de références dans le domaine de la cryptographie est confrontée à des défis uniques : la technologie de cryptage évolue rapidement, le système de connaissances de l'industrie n'a pas encore été solidifié, et il n'y a pas de consensus dans de multiples directions essentielles. En tant que domaine interdisciplinaire, la cryptographie couvre la cryptographie, les systèmes distribués, l'économie, etc., et sa complexité dépasse largement celle d'un seul domaine. Ce qui est encore plus difficile, c'est que la référence en cryptographie doit non seulement évaluer les connaissances, mais aussi examiner la capacité pratique de l'IA à utiliser la technologie de cryptage, ce qui nécessite la conception d'une nouvelle architecture d'évaluation. Le manque de jeux de données pertinents augmente encore la difficulté.

La complexité et l'importance de cette tâche dictent qu'elle ne peut être accomplie par une seule personne ou une seule équipe. Elle doit rassembler la sagesse de nombreuses parties, des utilisateurs aux développeurs, des experts en cryptographie aux chercheurs en cryptage, ainsi que des personnes de divers domaines interdisciplinaires, et repose sur une participation et un consensus communautaires étendus. Par conséquent, l'évaluation du cryptage nécessite une discussion plus large, car il ne s'agit pas seulement d'un travail technique, mais aussi d'une réflexion profonde sur la manière dont nous comprenons cette technologie émergente.

Avertissement:

  1. Cet article est repris de [ Empower Labs]. Tous les droits d'auteur appartiennent à l'auteur original [Wang Chao]. If there are objections to this reprint, please contact the Gate Learn et ils s’en occuperont rapidement.
  2. Clause de non-responsabilité de responsabilité : Les vues et opinions exprimées dans cet article sont uniquement celles de l'auteur et ne constituent aucun conseil en investissement.
  3. Les traductions de l'article dans d'autres langues sont effectuées par l'équipe Gate Learn. Sauf mention contraire, la copie, la distribution ou le plagiat des articles traduits est interdit.
即刻开始交易
注册并交易即可获得
$100
和价值
$5500
理财体验金奖励!