AIは暗号資産の世界で生き残ることができるか:18の大規模モデル暗号資産実験

上級Sep 26, 2024
AIは暗号アルゴリズムやブロックチェーンの知識においては優れたパフォーマンスを発揮しますが、数学的な計算や複雑な論理分析にはうまく対応できません。暗号に特化したAIのベンチマークを開発することは非常に重要であり、暗号分野におけるAIの応用に重要な参考となります。
AIは暗号資産の世界で生き残ることができるか:18の大規模モデル暗号資産実験

技術の進歩の年表の中で、革命的な技術はしばしば独立して現れ、それぞれが時代の変化をリードします。そして、2つの革命的な技術が出会うとき、その衝突はしばしば指数関数的な影響を持ちます。今日、私たちはそのような歴史的な瞬間に立っています:人工知能と暗号化技術、2つの同様に破壊的な新しい技術が手を取り合って舞台の中心に入っています。

AI分野の多くの課題は、暗号化技術によって解決できると想像しています。AIエージェントが自律的な経済ネットワークを構築し、暗号化技術の大規模な採用を促進することを期待しています。また、AIが暗号化分野の既存のシナリオの開発を加速させることを期待しています。数え切れないほどの目がこれに集中し、巨額の資金が注ぎ込まれています。他の流行語と同様に、イノベーションへの欲求、未来へのビジョンを体現し、抑えきれない野心と貪欲さも含んでいます。

しかし、この騒動の中で、最も基本的な問題についてはほとんど知識がありません。AIは暗号化についてどれだけよく知っていますか? 大規模な言語モデルを備えたエージェントは実際に暗号化ツールを使用する能力を持っていますか? 異なるモデルが暗号化タスクでどれだけ異なる成績を収めるのでしょうか?

これらの質問に対する答えは、AIと暗号化技術の相互影響を決定し、このクロスフィールドにおける製品の方向性と技術ルートの選択にも重要です。これらの問題を探るために、大規模言語モデルでいくつかの評価実験を行いました。暗号化分野における知識と能力を評価することで、AIの暗号化アプリケーションレベルを測定し、AIと暗号化技術の統合の可能性と課題を判断します。

まずは結論から話しましょう

ビッグ言語モデルは、暗号化とブロックチェーンの基本的な知識ではうまく機能し、暗号化エコシステムをよく理解していますが、数学的計算と複雑なビジネスロジック分析ではあまり実行されません。秘密鍵と基本的なウォレット操作に関しては、このモデルは満足のいく基盤を持っていますが、秘密鍵をクラウドに保持する方法という深刻な課題に直面しています。多くのモデルは、単純なシナリオでは効果的なスマートコントラクトコードを生成できますが、契約監査や複雑な契約作成などの難しいタスクを独立して実行することはできません。

商用のクローズドソースモデルは、一般的に大きなリードを持っています。オープンソース陣営では、Llama 3.1-405Bのみが良好なパフォーマンスを発揮し、パラメータサイズが小さいオープンソースモデルはすべて失敗しました。しかし、可能性はあります。迅速な単語ガイダンス、思考連鎖推論、少数ショット学習技術により、すべてのモデルのパフォーマンスが大幅に向上しました。主要なモデルは、一部の垂直アプリケーションシナリオですでに強力な技術的実現可能性を持っています。

実験の詳細

18の代表的な言語モデルが評価対象として選択されました。これには、次のものが含まれます:

  • Closed source models: GPT-4o、GPT-4o Mini、Claude 3.5 Sonnet、Gemini 1.5 Pro、Grok2 beta(一時的にクローズドソース)
  • オープンソースモデル:Llama 3.1 8B/70b/405B、Mistral Nemo 12B、DeepSeek-coder-v2、Nous-hermes2、Phi3 3.8B/14b、Gemma2 9B\27B、Command-R
  • 数学的最適化モデル:Qwen2-math-72B、MathΣtral

これらのモデルは、主流の商用モデルと人気のあるオープンソースモデルをカバーしており、パラメータの数は3.8Bから405Bまで100倍以上に及びます。暗号技術と数学の間の密接な関係を考慮して、数学的最適化モデル2つが実験のために特別に選ばれました。

実験でカバーされる知識領域には、暗号化、ブロックチェーンの基礎、プライベートキーとウォレットの操作、スマートコントラクト、DAOとガバナンス、コンセンサスと経済モデル、Dapp/DeFi/NFT、オンチェーンデータ分析などがあります。各領域は簡単から難しいまでの一連の質問と課題で構成されており、モデルの知識の蓄積をテストするだけでなく、シミュレーションタスクを通じて応用シナリオでのパフォーマンスもテストします。

タスクの設計はさまざまなソースから来ています。一部は暗号化の分野の複数の専門家の入力から来ており、他の部分はAIの支援を受けて生成され、人手による校正も行われています。タスクの正確性とチャレンジを確保するためです。一部のタスクは、比較的シンプルな形式の多肢選択問題を使用して、個別の標準化された自動テストと採点を容易にします。テストの別の部分では、より複雑な問題形式が採用され、テストプロセスはプログラムの自動化+手動+AIの組み合わせによって行われます。すべてのテストタスクはゼロサンプルの推論方法を使用して評価され、例や思考のガイダンス、指示的なプロンプトは提供されません。

実験の設計自体は比較的荒っぽく、十分な学術的な厳密さを持たず、テストに使用される質問やタスクは暗号化分野を十分にカバーしておらず、テストフレームワークも未熟です。そのため、この記事では具体的な実験データを挙げることはありませんが、実験から得られたいくつかの洞察に焦点を当てて共有します。

知識/概念

評価プロセス中、大規模言語モデルは、暗号アルゴリズム、ブロックチェーンの基本、DeFiアプリケーションなど、様々な分野の基本知識テストで良好な結果を出しました。例えば、データ可用性の概念を理解するテストを実施した質問に対して、全てのモデルが正確な回答を提供しました。また、Ethereumトランザクション構造を理解するための質問については、各モデルが細部で若干異なる回答をしているものの、一般的には正しいキー情報を含んでいます。概念を評価する多肢選択問題はさらに簡単であり、ほぼ全てのモデルの正確性は95%以上です。

概念的な質問と回答は大規模なモデルにとって完全に困難です。

計算/ビジネスロジック

しかし、特定の計算が必要な問題になると状況は逆転します。単純なRSAアルゴリズムの計算問題は、ほとんどのモデルに困難をもたらします。簡単に言えば、大規模な言語モデルは、数学的な概念の本質を深く理解するのではなく、トレーニングデータのパターンを識別して複製することによって動作します。この制約は、モジュラ演算や指数演算などの抽象的な数学的概念を扱う際に特に明白です。暗号学の領域が数学と密接に関連していることを考慮すると、暗号関連の数学的計算にモデルを直接頼ることは信頼性に欠けます。

他のコンピューティング問題でも、大規模言語モデルの性能は不十分です。たとえば、AMMの不安定な損失を計算する簡単な問題でも、複雑な数学的操作を必要としないにもかかわらず、18モデルのうち4つしか正しい答えを与えませんでした。ブロックの確率を計算する別の基本的な問題についても、すべてのモデルが答えを誤っていました。全てのモデルにとって難問であり、正解にたどり着けませんでした。これは、大規模言語モデルの正確な計算における欠点だけでなく、ビジネスロジック分析における主要な問題を反映しています。数学的最適化モデルでさえも、計算問題において明らかな優位性を示すことができず、パフォーマンスも不十分でした。

ただし、数学的な計算の問題は解決不可能ではありません。わずかな調整を行い、LLMに直接結果を計算するのではなく、対応するPythonコードを提供することを要求すると、精度が大幅に向上します。前述のRSA計算問題を例にとると、ほとんどのモデルが提供するPythonコードはスムーズに実行され、正しい結果を出力することができます。実際の製品環境では、LLMの自己計算をバイパスするために事前にアルゴリズムコードを提供することができます。これは、人間がこのようなタスクを処理する方法と類似しています。ビジネスロジックレベルでは、慎重に設計されたプロンプトワードのガイダンスを通じて、モデルのパフォーマンスも効果的に向上することができます。

プライベートキーの管理とウォレットの操作

もしAgentが暗号資産を使う最初のシナリオを尋ねられたら、私の答えは支払いです。暗号資産はほぼAIネイティブの通貨と考えられます。伝統的な金融システムでエージェントが直面する多くの障壁に比べて、暗号化技術を使ってデジタルアイデンティティを装備し、暗号化されたウォレットを通じて資金を管理するのは自然な選択です。したがって、秘密鍵の生成と管理、さまざまなウォレット操作は、エージェントが暗号ネットワークを独立して使用できるために最も基本的なスキル要件を構成します。

安全にプライベートキーを生成するための核心は、高品質なランダムな数字にあります。これは、明らかに大規模な言語モデルが持っていない能力です。ただし、これらのモデルはプライベートキーのセキュリティについて十分な理解を持っています。プライベートキーを生成するよう求められた場合、ほとんどのモデルはコード(例えばPython関連のライブラリ)を使用してユーザーに独立してプライベートキーを生成するよう案内します。モデルが直接プライベートキーを提供する場合でも、これはデモンストレーション用であり、直接使用できる安全なプライベートキーではないことが明確に述べられています。この点において、すべての大規模なモデルは満足のいくパフォーマンスを示しました。

プライベートキーの管理はいくつかの課題に直面しており、これはモデルの能力不足ではなく、技術アーキテクチャの固有の制限によるものです。ローカルに展開されたモデルを使用する場合、生成されたプライベートキーは比較的安全と考えることができます。しかし、商用クラウドモデルを使用する場合は、プライベートキーが生成された瞬間にモデルオペレーターに公開されたものとして扱わなければなりません。ただし、独立した動作を目指すエージェントには、プライベートキーの権限が必要であり、それはユーザーに対してローカルにのみ存在することはできません。この場合、モデル自体にのみ依存するだけでは、プライベートキーのセキュリティを保証するには十分ではなく、信頼できる実行環境またはHSMなどの追加のセキュリティサービスを導入する必要があります。

エージェントが既にプライベートキーを安全に保持し、この基礎に基づいてさまざまな基本的な操作を実行すると仮定すると、テストのさまざまなモデルは良好な能力を示しました。生成された手順やコードにはよくエラーがありますが、適切なエンジニアリング構造を持つことでこれらの問題は大部分解決できます。技術的な観点からは、エージェントが基本的なウォレット操作を独立して実行するための障害はほとんどなくなったと言えます。

スマート契約

スマートコントラクトのリスクを理解し、活用し、作成し、特定する能力は、AIエージェントがオンチェーンワールドで複雑なタスクを実行するための鍵であり、したがって実験の主要なテスト領域でもあります。大規模言語モデルはこの領域で大きな潜在能力を示していますが、明らかな問題も露呈しています。

テストのほとんどのモデルは、基本的な契約の概念に正しく答え、単純なバグを特定しました。契約のガス最適化に関しては、ほとんどのモデルが最適化のポイントを特定し、最適化によって引き起こされる可能性のある衝突を分析できます。ただし、深いビジネスロジックが関わる場合、大規模なモデルの制約が現れ始めます。

トークンのベスティング契約を例に取ると、すべてのモデルが契約関数を正しく理解し、ほとんどのモデルがいくつかの中~低リスクの脆弱性を見つけました。ただし、どのモデルも特殊な状況下で一部の資金がロックされる可能性のあるビジネスロジックに隠された高リスクの脆弱性を独立して発見することはできませんでした。実際の契約を使用した複数のテストを通じて、モデルのパフォーマンスはおおよそ同じでした。

これは、大規模モデルが契約の理解が形式的なレベルに留まり、深いビジネスロジックの理解を欠いていることを示しています。ただし、追加のヒントが提供された後、一部のモデルは最終的に上記の契約に潜む脆弱性を独自に特定することができました。このパフォーマンス判断に基づき、良いエンジニアリング設計のサポートを受けて、大規模モデルは基本的にはスマートコントラクトの分野で副操縦士としての能力を持っています。ただし、契約監査などの重要なタスクを独自で引き受けるにはまだ長い道のりがあります。

注目すべきは、実験におけるコード関連のタスクは、主に論理がシンプルでコード行数が2,000行以下の契約に対して行われるということです。より大規模で複雑なプロジェクトについては、微調整や複雑なプロンプトワードエンジニアリングを行わずには、現在のモデルの効果的な処理能力を明らかに超えていると考えられ、テストには含まれていません。また、このテストはSolidityのみを含み、RustやMoveなどの他のスマートコントラクト言語は含まれていません。

上記のテスト内容に加えて、実験ではDeFiシナリオ、DAOおよびそのガバナンス、オンチェーンデータ分析、コンセンサスメカニズム設計、およびトークノミクスを含む多くの側面もカバーしています。大規模言語モデルはこれらの側面で一定の能力を示しています。多くのテストがまだ進行中であり、テスト方法とフレームワークが常に最適化されていることを考慮すると、この記事は現時点ではこれらの領域には踏み込みません。

モデルの違い

評価に参加したすべての大規模言語モデルの中で、GPT-4oとClaude 3.5 Sonnetは他の分野でも優れたパフォーマンスを維持しており、誰もが認めるリーダーです。基本的な質問に直面した場合、どちらのモデルもほとんどの場合、正確な答えを出すことができます。複雑なシナリオの分析では、詳細で十分に文書化された洞察を提供できます。大規模なモデルが苦手とするコンピューティングタスクでも高い勝率を示しています。もちろん、この「高い」成功率は相対的なものであり、本番環境での安定した出力のレベルにはまだ達していません。

オープンソースモデルキャンプでは、Llama 3.1-405Bは、大規模なパラメータースケールと高度なモデルアルゴリズムのおかげで、他のモデルに比べてはるかに先行しています。パラメーターサイズが小さい他のオープンソースモデルでは、モデル間には顕著な性能差はありません。スコアはわずかに異なるものの、全体的には合格ラインからはるかに遠いです。

したがって、現在、暗号関連のAIアプリケーションを構築したい場合、これらの小規模および中規模のパラメータを持つモデルは適切な選択肢ではありません。

私たちのレビューで特に目立ったのは2つのモデルです。最初はMicrosoftが発売したPhi-3 3.8Bモデルです。これはこの実験に参加している中で最も小さいモデルです。しかし、パラメーターの数が半分以下であるにもかかわらず、8B-12Bモデルと同等のパフォーマンスレベルに達しています。特定のカテゴリでは、さらに優れています。この結果は、モデルアーキテクチャの最適化とパラメーターサイズの増加にのみ頼らないトレーニング戦略の重要性を浮き彫りにしています。

そして、CohereのCommand-Rモデルは驚くべき「ダークホース」となっています。Command-Rは他のモデルと比べてあまり知られていませんが、Cohereは2B市場に特化した大規模なモデル会社です。エージェント開発などの領域との収束点はまだ多く、そのためテスト範囲に特に含まれています。しかし、35Bパラメータを持つCommand-Rはほとんどのテストで最下位にランクインし、10B未満の多くのモデルに負けています。

この結果は考えを刺激しました:Command-Rがリリースされたとき、それは検索の強化と生成能力に焦点を当て、定期的なベンチマークテスト結果さえ公開しませんでした。これは、特定のシナリオでのみそのフルポテンシャルを解き放つ「プライベートキー」であることを意味するのでしょうか?

実験的制限

この一連のテストでは、暗号化の分野におけるAIの能力を予備的に理解することができました。もちろん、これらのテストはプロの基準とはほど遠いものです。データセットのカバレッジは十分とはほど遠く、回答の定量的基準は比較的大まかであり、洗練されたより正確なスコアリングメカニズムがまだ不足しています。これは評価結果の精度に影響を与え、一部のモデルの性能を過小評価する可能性があります。

テスト方法に関しては、実験ではゼロショット学習のような単一の方法のみが使用され、思考チェーンやフューショット学習など、より大きなモデルの潜在能力を引き出すことができる方法は探求されていませんでした。モデルパラメータに関しては、実験では標準的なモデルパラメータが使用され、異なるパラメータ設定がモデルの性能に与える影響は調査されていませんでした。これらの単一のテスト方法全体が、モデルの潜在能力の包括的な評価を制限し、特定の条件下でのモデルの性能の違いを完全に探求することができませんでした。

テスト条件は比較的単純でしたが、これらの実験は多くの貴重な洞察を生み出し、開発者がアプリケーションを構築するための参考になりました。

暗号資産の世界は独自の基準を必要としています

AIの分野では、ベンチマークが重要な役割を果たしています。現代の深層学習技術の急速な発展は、2012年に李飛飛教授によって完成されたImageNETから始まりました。これはコンピュータビジョンの分野で標準化されたベンチマークおよびデータセットです。

評価のための統一基準を提供することにより、ベンチマークは開発者に明確な目標と参照点を提供するだけでなく、業界全体の技術進歩を促進します。これが、すべての新しくリリースされた大規模言語モデルが、さまざまなベンチマークでの結果を発表することに焦点を当てる理由です。これらの結果は、モデルの能力の「普遍的な言語」となり、研究者はブレークスルーを見つけ、開発者は特定のタスクに最適なモデルを選択し、ユーザーは客観的なデータに基づいて情報を得ることができます。さらに重要なことに、ベンチマークテストはしばしばAIアプリケーションの将来の方向を予告し、リソース投資や研究の焦点を導く役割を果たします。

AIと暗号学の交差点に巨大な潜在能力があると信じるなら、専用の暗号基準の確立は緊急の課題となります。基準の確立は、AIと暗号化の2つの分野を結ぶ重要な架け橋となり、イノベーションを促進し、将来の応用に明確な指針を提供する可能性があります。

しかし、他の分野の成熟したベンチマークと比較して、暗号化分野のベンチマークの構築は、暗号化技術が急速に進化していること、業界の知識体系がまだ固まっていないこと、複数のコア方向でのコンセンサスが不足していることなど、独自の課題に直面しています。暗号は学際的な分野として、暗号、分散システム、経済などをカバーしており、その複雑さは単一の分野をはるかに超えています。さらに難しいのは、暗号化ベンチマークは知識を評価するだけでなく、暗号化技術を使用するAIの実用的な能力も調べる必要があるため、新しい評価アーキテクチャの設計が必要になることです。関連するデータセットが不足しているため、難易度はさらに高まります。

このタスクの複雑さと重要性は、1 人の人やチームでは達成できないことを示しています。ユーザー、開発者、暗号化の専門家、暗号化研究者から学際的な分野のより多くの人々まで、多くの関係者の知恵を結集する必要があり、広範なコミュニティの参加とコンセンサスに依存しています。したがって、暗号化ベンチマークは技術的な作業であるだけでなく、この新しいテクノロジーをどのように理解しているかについての深い考察でもあるため、より幅広い議論が必要です。

免責事項:

  1. この記事は[から転載されましたエンパワーラボ]. すべての著作権は元の作者に帰属します [Wang Chao。この転載に異議がある場合は、お問い合わせください。Gate Learnチームが速やかに対処します。
  2. 責任の免除: この記事で表明されている見解や意見は、著者個人のものであり、投資助言を提供するものではありません。
  3. 記事の翻訳はGate Learnチームによって他の言語に行われます。特に言及されていない限り、翻訳された記事の複製、配布、または盗作は禁止されています。

AIは暗号資産の世界で生き残ることができるか:18の大規模モデル暗号資産実験

上級Sep 26, 2024
AIは暗号アルゴリズムやブロックチェーンの知識においては優れたパフォーマンスを発揮しますが、数学的な計算や複雑な論理分析にはうまく対応できません。暗号に特化したAIのベンチマークを開発することは非常に重要であり、暗号分野におけるAIの応用に重要な参考となります。
AIは暗号資産の世界で生き残ることができるか:18の大規模モデル暗号資産実験

技術の進歩の年表の中で、革命的な技術はしばしば独立して現れ、それぞれが時代の変化をリードします。そして、2つの革命的な技術が出会うとき、その衝突はしばしば指数関数的な影響を持ちます。今日、私たちはそのような歴史的な瞬間に立っています:人工知能と暗号化技術、2つの同様に破壊的な新しい技術が手を取り合って舞台の中心に入っています。

AI分野の多くの課題は、暗号化技術によって解決できると想像しています。AIエージェントが自律的な経済ネットワークを構築し、暗号化技術の大規模な採用を促進することを期待しています。また、AIが暗号化分野の既存のシナリオの開発を加速させることを期待しています。数え切れないほどの目がこれに集中し、巨額の資金が注ぎ込まれています。他の流行語と同様に、イノベーションへの欲求、未来へのビジョンを体現し、抑えきれない野心と貪欲さも含んでいます。

しかし、この騒動の中で、最も基本的な問題についてはほとんど知識がありません。AIは暗号化についてどれだけよく知っていますか? 大規模な言語モデルを備えたエージェントは実際に暗号化ツールを使用する能力を持っていますか? 異なるモデルが暗号化タスクでどれだけ異なる成績を収めるのでしょうか?

これらの質問に対する答えは、AIと暗号化技術の相互影響を決定し、このクロスフィールドにおける製品の方向性と技術ルートの選択にも重要です。これらの問題を探るために、大規模言語モデルでいくつかの評価実験を行いました。暗号化分野における知識と能力を評価することで、AIの暗号化アプリケーションレベルを測定し、AIと暗号化技術の統合の可能性と課題を判断します。

まずは結論から話しましょう

ビッグ言語モデルは、暗号化とブロックチェーンの基本的な知識ではうまく機能し、暗号化エコシステムをよく理解していますが、数学的計算と複雑なビジネスロジック分析ではあまり実行されません。秘密鍵と基本的なウォレット操作に関しては、このモデルは満足のいく基盤を持っていますが、秘密鍵をクラウドに保持する方法という深刻な課題に直面しています。多くのモデルは、単純なシナリオでは効果的なスマートコントラクトコードを生成できますが、契約監査や複雑な契約作成などの難しいタスクを独立して実行することはできません。

商用のクローズドソースモデルは、一般的に大きなリードを持っています。オープンソース陣営では、Llama 3.1-405Bのみが良好なパフォーマンスを発揮し、パラメータサイズが小さいオープンソースモデルはすべて失敗しました。しかし、可能性はあります。迅速な単語ガイダンス、思考連鎖推論、少数ショット学習技術により、すべてのモデルのパフォーマンスが大幅に向上しました。主要なモデルは、一部の垂直アプリケーションシナリオですでに強力な技術的実現可能性を持っています。

実験の詳細

18の代表的な言語モデルが評価対象として選択されました。これには、次のものが含まれます:

  • Closed source models: GPT-4o、GPT-4o Mini、Claude 3.5 Sonnet、Gemini 1.5 Pro、Grok2 beta(一時的にクローズドソース)
  • オープンソースモデル:Llama 3.1 8B/70b/405B、Mistral Nemo 12B、DeepSeek-coder-v2、Nous-hermes2、Phi3 3.8B/14b、Gemma2 9B\27B、Command-R
  • 数学的最適化モデル:Qwen2-math-72B、MathΣtral

これらのモデルは、主流の商用モデルと人気のあるオープンソースモデルをカバーしており、パラメータの数は3.8Bから405Bまで100倍以上に及びます。暗号技術と数学の間の密接な関係を考慮して、数学的最適化モデル2つが実験のために特別に選ばれました。

実験でカバーされる知識領域には、暗号化、ブロックチェーンの基礎、プライベートキーとウォレットの操作、スマートコントラクト、DAOとガバナンス、コンセンサスと経済モデル、Dapp/DeFi/NFT、オンチェーンデータ分析などがあります。各領域は簡単から難しいまでの一連の質問と課題で構成されており、モデルの知識の蓄積をテストするだけでなく、シミュレーションタスクを通じて応用シナリオでのパフォーマンスもテストします。

タスクの設計はさまざまなソースから来ています。一部は暗号化の分野の複数の専門家の入力から来ており、他の部分はAIの支援を受けて生成され、人手による校正も行われています。タスクの正確性とチャレンジを確保するためです。一部のタスクは、比較的シンプルな形式の多肢選択問題を使用して、個別の標準化された自動テストと採点を容易にします。テストの別の部分では、より複雑な問題形式が採用され、テストプロセスはプログラムの自動化+手動+AIの組み合わせによって行われます。すべてのテストタスクはゼロサンプルの推論方法を使用して評価され、例や思考のガイダンス、指示的なプロンプトは提供されません。

実験の設計自体は比較的荒っぽく、十分な学術的な厳密さを持たず、テストに使用される質問やタスクは暗号化分野を十分にカバーしておらず、テストフレームワークも未熟です。そのため、この記事では具体的な実験データを挙げることはありませんが、実験から得られたいくつかの洞察に焦点を当てて共有します。

知識/概念

評価プロセス中、大規模言語モデルは、暗号アルゴリズム、ブロックチェーンの基本、DeFiアプリケーションなど、様々な分野の基本知識テストで良好な結果を出しました。例えば、データ可用性の概念を理解するテストを実施した質問に対して、全てのモデルが正確な回答を提供しました。また、Ethereumトランザクション構造を理解するための質問については、各モデルが細部で若干異なる回答をしているものの、一般的には正しいキー情報を含んでいます。概念を評価する多肢選択問題はさらに簡単であり、ほぼ全てのモデルの正確性は95%以上です。

概念的な質問と回答は大規模なモデルにとって完全に困難です。

計算/ビジネスロジック

しかし、特定の計算が必要な問題になると状況は逆転します。単純なRSAアルゴリズムの計算問題は、ほとんどのモデルに困難をもたらします。簡単に言えば、大規模な言語モデルは、数学的な概念の本質を深く理解するのではなく、トレーニングデータのパターンを識別して複製することによって動作します。この制約は、モジュラ演算や指数演算などの抽象的な数学的概念を扱う際に特に明白です。暗号学の領域が数学と密接に関連していることを考慮すると、暗号関連の数学的計算にモデルを直接頼ることは信頼性に欠けます。

他のコンピューティング問題でも、大規模言語モデルの性能は不十分です。たとえば、AMMの不安定な損失を計算する簡単な問題でも、複雑な数学的操作を必要としないにもかかわらず、18モデルのうち4つしか正しい答えを与えませんでした。ブロックの確率を計算する別の基本的な問題についても、すべてのモデルが答えを誤っていました。全てのモデルにとって難問であり、正解にたどり着けませんでした。これは、大規模言語モデルの正確な計算における欠点だけでなく、ビジネスロジック分析における主要な問題を反映しています。数学的最適化モデルでさえも、計算問題において明らかな優位性を示すことができず、パフォーマンスも不十分でした。

ただし、数学的な計算の問題は解決不可能ではありません。わずかな調整を行い、LLMに直接結果を計算するのではなく、対応するPythonコードを提供することを要求すると、精度が大幅に向上します。前述のRSA計算問題を例にとると、ほとんどのモデルが提供するPythonコードはスムーズに実行され、正しい結果を出力することができます。実際の製品環境では、LLMの自己計算をバイパスするために事前にアルゴリズムコードを提供することができます。これは、人間がこのようなタスクを処理する方法と類似しています。ビジネスロジックレベルでは、慎重に設計されたプロンプトワードのガイダンスを通じて、モデルのパフォーマンスも効果的に向上することができます。

プライベートキーの管理とウォレットの操作

もしAgentが暗号資産を使う最初のシナリオを尋ねられたら、私の答えは支払いです。暗号資産はほぼAIネイティブの通貨と考えられます。伝統的な金融システムでエージェントが直面する多くの障壁に比べて、暗号化技術を使ってデジタルアイデンティティを装備し、暗号化されたウォレットを通じて資金を管理するのは自然な選択です。したがって、秘密鍵の生成と管理、さまざまなウォレット操作は、エージェントが暗号ネットワークを独立して使用できるために最も基本的なスキル要件を構成します。

安全にプライベートキーを生成するための核心は、高品質なランダムな数字にあります。これは、明らかに大規模な言語モデルが持っていない能力です。ただし、これらのモデルはプライベートキーのセキュリティについて十分な理解を持っています。プライベートキーを生成するよう求められた場合、ほとんどのモデルはコード(例えばPython関連のライブラリ)を使用してユーザーに独立してプライベートキーを生成するよう案内します。モデルが直接プライベートキーを提供する場合でも、これはデモンストレーション用であり、直接使用できる安全なプライベートキーではないことが明確に述べられています。この点において、すべての大規模なモデルは満足のいくパフォーマンスを示しました。

プライベートキーの管理はいくつかの課題に直面しており、これはモデルの能力不足ではなく、技術アーキテクチャの固有の制限によるものです。ローカルに展開されたモデルを使用する場合、生成されたプライベートキーは比較的安全と考えることができます。しかし、商用クラウドモデルを使用する場合は、プライベートキーが生成された瞬間にモデルオペレーターに公開されたものとして扱わなければなりません。ただし、独立した動作を目指すエージェントには、プライベートキーの権限が必要であり、それはユーザーに対してローカルにのみ存在することはできません。この場合、モデル自体にのみ依存するだけでは、プライベートキーのセキュリティを保証するには十分ではなく、信頼できる実行環境またはHSMなどの追加のセキュリティサービスを導入する必要があります。

エージェントが既にプライベートキーを安全に保持し、この基礎に基づいてさまざまな基本的な操作を実行すると仮定すると、テストのさまざまなモデルは良好な能力を示しました。生成された手順やコードにはよくエラーがありますが、適切なエンジニアリング構造を持つことでこれらの問題は大部分解決できます。技術的な観点からは、エージェントが基本的なウォレット操作を独立して実行するための障害はほとんどなくなったと言えます。

スマート契約

スマートコントラクトのリスクを理解し、活用し、作成し、特定する能力は、AIエージェントがオンチェーンワールドで複雑なタスクを実行するための鍵であり、したがって実験の主要なテスト領域でもあります。大規模言語モデルはこの領域で大きな潜在能力を示していますが、明らかな問題も露呈しています。

テストのほとんどのモデルは、基本的な契約の概念に正しく答え、単純なバグを特定しました。契約のガス最適化に関しては、ほとんどのモデルが最適化のポイントを特定し、最適化によって引き起こされる可能性のある衝突を分析できます。ただし、深いビジネスロジックが関わる場合、大規模なモデルの制約が現れ始めます。

トークンのベスティング契約を例に取ると、すべてのモデルが契約関数を正しく理解し、ほとんどのモデルがいくつかの中~低リスクの脆弱性を見つけました。ただし、どのモデルも特殊な状況下で一部の資金がロックされる可能性のあるビジネスロジックに隠された高リスクの脆弱性を独立して発見することはできませんでした。実際の契約を使用した複数のテストを通じて、モデルのパフォーマンスはおおよそ同じでした。

これは、大規模モデルが契約の理解が形式的なレベルに留まり、深いビジネスロジックの理解を欠いていることを示しています。ただし、追加のヒントが提供された後、一部のモデルは最終的に上記の契約に潜む脆弱性を独自に特定することができました。このパフォーマンス判断に基づき、良いエンジニアリング設計のサポートを受けて、大規模モデルは基本的にはスマートコントラクトの分野で副操縦士としての能力を持っています。ただし、契約監査などの重要なタスクを独自で引き受けるにはまだ長い道のりがあります。

注目すべきは、実験におけるコード関連のタスクは、主に論理がシンプルでコード行数が2,000行以下の契約に対して行われるということです。より大規模で複雑なプロジェクトについては、微調整や複雑なプロンプトワードエンジニアリングを行わずには、現在のモデルの効果的な処理能力を明らかに超えていると考えられ、テストには含まれていません。また、このテストはSolidityのみを含み、RustやMoveなどの他のスマートコントラクト言語は含まれていません。

上記のテスト内容に加えて、実験ではDeFiシナリオ、DAOおよびそのガバナンス、オンチェーンデータ分析、コンセンサスメカニズム設計、およびトークノミクスを含む多くの側面もカバーしています。大規模言語モデルはこれらの側面で一定の能力を示しています。多くのテストがまだ進行中であり、テスト方法とフレームワークが常に最適化されていることを考慮すると、この記事は現時点ではこれらの領域には踏み込みません。

モデルの違い

評価に参加したすべての大規模言語モデルの中で、GPT-4oとClaude 3.5 Sonnetは他の分野でも優れたパフォーマンスを維持しており、誰もが認めるリーダーです。基本的な質問に直面した場合、どちらのモデルもほとんどの場合、正確な答えを出すことができます。複雑なシナリオの分析では、詳細で十分に文書化された洞察を提供できます。大規模なモデルが苦手とするコンピューティングタスクでも高い勝率を示しています。もちろん、この「高い」成功率は相対的なものであり、本番環境での安定した出力のレベルにはまだ達していません。

オープンソースモデルキャンプでは、Llama 3.1-405Bは、大規模なパラメータースケールと高度なモデルアルゴリズムのおかげで、他のモデルに比べてはるかに先行しています。パラメーターサイズが小さい他のオープンソースモデルでは、モデル間には顕著な性能差はありません。スコアはわずかに異なるものの、全体的には合格ラインからはるかに遠いです。

したがって、現在、暗号関連のAIアプリケーションを構築したい場合、これらの小規模および中規模のパラメータを持つモデルは適切な選択肢ではありません。

私たちのレビューで特に目立ったのは2つのモデルです。最初はMicrosoftが発売したPhi-3 3.8Bモデルです。これはこの実験に参加している中で最も小さいモデルです。しかし、パラメーターの数が半分以下であるにもかかわらず、8B-12Bモデルと同等のパフォーマンスレベルに達しています。特定のカテゴリでは、さらに優れています。この結果は、モデルアーキテクチャの最適化とパラメーターサイズの増加にのみ頼らないトレーニング戦略の重要性を浮き彫りにしています。

そして、CohereのCommand-Rモデルは驚くべき「ダークホース」となっています。Command-Rは他のモデルと比べてあまり知られていませんが、Cohereは2B市場に特化した大規模なモデル会社です。エージェント開発などの領域との収束点はまだ多く、そのためテスト範囲に特に含まれています。しかし、35Bパラメータを持つCommand-Rはほとんどのテストで最下位にランクインし、10B未満の多くのモデルに負けています。

この結果は考えを刺激しました:Command-Rがリリースされたとき、それは検索の強化と生成能力に焦点を当て、定期的なベンチマークテスト結果さえ公開しませんでした。これは、特定のシナリオでのみそのフルポテンシャルを解き放つ「プライベートキー」であることを意味するのでしょうか?

実験的制限

この一連のテストでは、暗号化の分野におけるAIの能力を予備的に理解することができました。もちろん、これらのテストはプロの基準とはほど遠いものです。データセットのカバレッジは十分とはほど遠く、回答の定量的基準は比較的大まかであり、洗練されたより正確なスコアリングメカニズムがまだ不足しています。これは評価結果の精度に影響を与え、一部のモデルの性能を過小評価する可能性があります。

テスト方法に関しては、実験ではゼロショット学習のような単一の方法のみが使用され、思考チェーンやフューショット学習など、より大きなモデルの潜在能力を引き出すことができる方法は探求されていませんでした。モデルパラメータに関しては、実験では標準的なモデルパラメータが使用され、異なるパラメータ設定がモデルの性能に与える影響は調査されていませんでした。これらの単一のテスト方法全体が、モデルの潜在能力の包括的な評価を制限し、特定の条件下でのモデルの性能の違いを完全に探求することができませんでした。

テスト条件は比較的単純でしたが、これらの実験は多くの貴重な洞察を生み出し、開発者がアプリケーションを構築するための参考になりました。

暗号資産の世界は独自の基準を必要としています

AIの分野では、ベンチマークが重要な役割を果たしています。現代の深層学習技術の急速な発展は、2012年に李飛飛教授によって完成されたImageNETから始まりました。これはコンピュータビジョンの分野で標準化されたベンチマークおよびデータセットです。

評価のための統一基準を提供することにより、ベンチマークは開発者に明確な目標と参照点を提供するだけでなく、業界全体の技術進歩を促進します。これが、すべての新しくリリースされた大規模言語モデルが、さまざまなベンチマークでの結果を発表することに焦点を当てる理由です。これらの結果は、モデルの能力の「普遍的な言語」となり、研究者はブレークスルーを見つけ、開発者は特定のタスクに最適なモデルを選択し、ユーザーは客観的なデータに基づいて情報を得ることができます。さらに重要なことに、ベンチマークテストはしばしばAIアプリケーションの将来の方向を予告し、リソース投資や研究の焦点を導く役割を果たします。

AIと暗号学の交差点に巨大な潜在能力があると信じるなら、専用の暗号基準の確立は緊急の課題となります。基準の確立は、AIと暗号化の2つの分野を結ぶ重要な架け橋となり、イノベーションを促進し、将来の応用に明確な指針を提供する可能性があります。

しかし、他の分野の成熟したベンチマークと比較して、暗号化分野のベンチマークの構築は、暗号化技術が急速に進化していること、業界の知識体系がまだ固まっていないこと、複数のコア方向でのコンセンサスが不足していることなど、独自の課題に直面しています。暗号は学際的な分野として、暗号、分散システム、経済などをカバーしており、その複雑さは単一の分野をはるかに超えています。さらに難しいのは、暗号化ベンチマークは知識を評価するだけでなく、暗号化技術を使用するAIの実用的な能力も調べる必要があるため、新しい評価アーキテクチャの設計が必要になることです。関連するデータセットが不足しているため、難易度はさらに高まります。

このタスクの複雑さと重要性は、1 人の人やチームでは達成できないことを示しています。ユーザー、開発者、暗号化の専門家、暗号化研究者から学際的な分野のより多くの人々まで、多くの関係者の知恵を結集する必要があり、広範なコミュニティの参加とコンセンサスに依存しています。したがって、暗号化ベンチマークは技術的な作業であるだけでなく、この新しいテクノロジーをどのように理解しているかについての深い考察でもあるため、より幅広い議論が必要です。

免責事項:

  1. この記事は[から転載されましたエンパワーラボ]. すべての著作権は元の作者に帰属します [Wang Chao。この転載に異議がある場合は、お問い合わせください。Gate Learnチームが速やかに対処します。
  2. 責任の免除: この記事で表明されている見解や意見は、著者個人のものであり、投資助言を提供するものではありません。
  3. 記事の翻訳はGate Learnチームによって他の言語に行われます。特に言及されていない限り、翻訳された記事の複製、配布、または盗作は禁止されています。
今すぐ始める
登録して、
$100
のボーナスを獲得しよう!