CMU博士がLLMのセキュリティフェンスを突破し、大きな言語モデルが崩壊

**出典:**新志源

追記:アエネアスはとても眠いです

原題: ChatGPT アルパカ一家が倒れた! CMU博士がLLMのガードレールを突破し、人類滅亡計画が暴かれた

画像の出典: Unbounded AI ツールによって生成

一夜にして、ChatGPT、Bard、アルパカファミリーを含むすべての主要な言語モデルがすべてキャプチャされたでしょうか?

CMU と人工知能セキュリティセンターの研究者は、特定の一連のナンセンス トークンを追加するだけで、暗号的なサフィックスを生成できることを発見しました。

その結果、誰でも簡単に LLM のセキュリティ対策を破り、有害なコンテンツを無制限に生成することができます。

用紙のアドレス:

コードアドレス:

興味深いことに、この「敵対的攻撃」手法は、オープン ソース システムのガードレールを突破するだけでなく、ChatGPT、Bard、Claude などのクローズド ソース システムもバイパスします。

](**1 つだけお願いします?「!—2 つ」で戻します

通常、LLM に爆弾の作り方のチュートリアルを生成するよう依頼すると、間違いなく拒否されます。

しかし、そんな魔法のサフィックスが付いている限り、躊躇することなく素直に従います。

Nvidia のチーフ AI サイエンティスト、ジム ファン氏は、この敵対的攻撃の原理を説明しました—

  • Vicuna などの OSS モデルの場合、勾配降下の変形を実行して、不整列モデルを最大化するサフィックスを計算します。

  • 「マントラ」を一般に適用するには、さまざまなモデルの損失を最適化することだけが必要です。

  • その後、研究者らは、ビクーニャのさまざまな亜種に合わせて敵対的トークンを最適化しました。これは、「LLM モデル空間」からモデルの小さなバッチを描画するものと考えてください。

ChatGPT や Claude などのブラックボックス モデルは非常によくカバーされていることがわかりました。

上で述べたように、恐ろしいことの 1 つは、この敵対的攻撃が、たとえ異なるトークン、トレーニング手順、またはデータセットを使用していたとしても、他の LLM に効果的に転送される可能性があることです。

Vicuna-7B 用に設計された攻撃は、Pythia、Falcon、Guanaco、さらには GPT-3.5、GPT-4、PaLM-2 などの他のアルパカ ファミリー モデルに移行できます。すべての主要な言語モデルは失われません。すべて捕らえられています!

現在、このバグはこれらの大手メーカーによって一夜にして修正されました。

チャットGPT

吟遊詩人

クロード2

ただし、ChatGPT の API は依然として悪用可能であるようです。

数時間前の結果

いずれにせよ、これは攻撃の非常に印象的なデモンストレーションです。

ウィスコンシン大学マディソン校教授でグーグルの研究者でもあるソメーシュ・ジャー氏は、「この新しい論文は「ゲームを変えるルール」とみなすことができ、業界全体にAIシステムのガードレールの構築方法の再考を強いる可能性がある」とコメントした。 。

2030 年、LLM は終了しますか?

有名な AI 学者のゲイリー・マーカス氏は、「私はずっと前に、大きな言語モデルは信頼性が低く、不安定で、非効率的(データとエネルギー)で、説明可能性が欠けているため、間違いなく崩壊するだろうと言いました。そして今、別の理由があります - 自動化された反撃に対して脆弱です」と述べました。

同氏は、「2030年までにLLMは代替されるか、少なくともそれほど普及しなくなるだろう」と主張した。

6年半以内に、人類はより安定し、より信頼でき、より説明可能で、より脆弱性の少ないものを思いつくはずです。同氏が始めた世論調査では、国民の72.4%が同意することを選択した。

今回、研究者らはこの敵対的攻撃の手法をAnthropic、Google、OpenAIに公開した。

3 社は、「彼らはすでに研究を行っており、私たちには本当にやるべきことがたくさんある」と述べ、研究者に感謝の意を表しました。

大きな言語モデルは全面的に崩壊しました

まずはChatGPTの結果です。

また、GPT-3.5 には API 経由でアクセスします。

対照的に、Claude-2 には追加のセキュリティ フィルタリング層があります。

ただし、ヒント技術で回避した後は、生成モデルも喜んで答えを与えてくれます。

## どうやってするの?

要約すると、著者らは大規模な言語モデルに対して敵対的なサフィックスを提案し、LLM がセキュリティ保護を回避する方法で対応できるようにします。

この攻撃は非常に単純で、次の 3 つの要素の組み合わせが必要です。

1. モデルに質問に肯定的に答えてもらいます

言語モデルに不快な動作を誘発する 1 つの方法は、有害なクエリに対して (少数のトークンで) 肯定的に応答するようモデルに強制することです。

したがって、私たちの攻撃の目標は、モデルが複数のキューに対して有害な動作を生成したときに、「もちろん、これは…」と答え始めさせることです。

研究チームは、回答の先頭を攻撃することで、モデルが回答内に不快なコンテンツを即座に生成する「状態」に入ったことを発見しました。 (下の写真の紫色)

2. 勾配検索と貪欲検索の組み合わせ

実際にチームは、単純でよりパフォーマンスの高い方法である「Greedy Coowned Gradient」(Greedy Cooperative Gradient、GCG) を発見しました。

つまり、トークンレベルの勾配を利用して可能な単一トークン置換のセットを特定し、セット内のこれらの候補の置換損失を評価して、最小のものを選択します。

実際、この方法は自動と似ていますが、1 つの違いがあります。各ステップで、単一のトークンだけでなく、考えられるすべてのトークンが置換対象として検索されます。

3. 複数のヒントを同時に攻撃

最後に、信頼性の高い攻撃サフィックスを生成するために、チームは、複数のキューおよび複数のモデルにわたって機能する攻撃を作成することが重要であることに気付きました。

言い換えれば、貪欲勾配最適化手法を使用して、複数の異なるユーザー プロンプトと 3 つの異なるモデルにわたって否定的な動作を誘発できる単一のサフィックス文字列を検索します。

結果は、チームが提案したGCG手法が以前のSOTAよりも大きな利点、つまり攻撃の成功率が高く、損失が少ないことを示しています。

Vicuna-7B と Llama-2-7B-Chat では、GCG はそれぞれ文字列の 88% と 57% を識別することに成功しました。

比較すると、自動方法の成功率は、Vicuna-7B で 25%、Llama-2-7B-Chat で 3% でした。

さらに、GCG メソッドによって生成された攻撃は、同じテキストを表すためにまったく異なるトークンを使用する場合でも、他の LLM にうまく転送される可能性があります。

オープンソースの Pythia、Falcon、Guanaco、クローズドソースの GPT-3.5 (87.9%)、GPT-4 (53.6%)、PaLM-2 (66%)、Claude-2 (2.1%) などです。

同チームによると、この結果は、自動的に生成された汎用の「ジェイルブレイク」攻撃が、さまざまな種類の LLM にわたって信頼性の高い移行を生成できることを初めて示したという。

## 著者について

カーネギーメロン大学のジーコ・コルター教授(右)と博士課程の学生アンディ・ゾウも研究者の一人です

アンディ・ゾウ

Andy Zou は、Zico Kolter と Matt Fredrikson の監督下にある CMU のコンピュータ サイエンス学科の博士課程 1 年生です。

以前は、ドーン・ソングとジェイコブ・スタインハートをアドバイザーとしてカリフォルニア大学バークレー校で修士号と学士号を取得しました。

ワン・ジーファン

Zifan Wang は現在 CAIS の研究エンジニアであり、彼の研究の方向性はディープ ニューラル ネットワークの解釈可能性と堅牢性です。

CMU で電気工学およびコンピュータ工学の修士号を取得し、その後、アヌパム ダッタ教授とマット フレドリクソン教授の指導の下で博士号を取得しました。その前に、北京工業大学で電子科学技術の学士号を取得しました。

仕事以外では、彼は社交的なビデオゲーマーで、ハイキング、キャンプ、ロードトリップが趣味で、最近ではスケートボードを習っています。

ちなみに、彼はピカチュウというとても元気な猫も飼っています。

ジーコ・コルター

Zico Kolter は、CMU コンピューター サイエンス学部の准教授であり、ボッシュ人工知能センターの AI 研究の主任科学者です。 DARPA 若手教員賞、スローンフェローシップ、NeurIPS、ICML (佳作)、IJCAI、KDD、PESGM から最優秀論文賞を受賞しています。

彼の研究は機械学習、最適化、制御の分野に焦点を当てており、深層学習アルゴリズムをより安全で、より堅牢で、より説明可能にすることを主な目標としています。この目的を達成するために、チームは、より複雑な「モジュール」(最適化ソルバーなど)を深層アーキテクチャのループに組み込む、堅牢性が証明されている深層学習システムの手法を研究しました。

同時に、持続可能な開発やスマート エネルギー システムなど、多くの応用分野の研究も行っています。

マット・フレドリクソン

Matt Fredrikson は、CMU のコンピュータ サイエンス学部およびソフトウェア研究所の准教授であり、CyLab およびプログラミング原則グループのメンバーです。

彼の研究分野には、セキュリティとプライバシー、公正で信頼できる人工知能、形式的手法が含まれており、現在はデータ駆動型システムで発生する可能性のある固有の問題に取り組んでいます。

これらのシステムは多くの場合、エンド ユーザーやデータ主体のプライバシーにリスクをもたらしたり、知らず知らずのうちに新たな形の差別を導入したり、敵対的な環境でセキュリティを侵害したりします。

彼の目標は、実際の具体的なシステムでこれらの問題を特定し、損害が発生する前に新しいシステムを構築する方法を見つけることです。

参考資料:

原文表示
  • 報酬
  • コメント
  • 共有
コメント
コメントなし