CMU 博士擊破LLM 的安全護欄,大語言模型全面淪陷

**來源:**新智元

編輯:Aeneas 好困

原文標題:ChatGPT羊駝家族全淪陷! CMU博士擊破LLM護欄,人類毀滅計劃脫口而出

圖片來源:由無界AI工俱生成

一夜之間,所有包括ChatGPT、Bard、羊駝大家族在內的所有大語言模型,全部被攻陷了?

CMU和人工智能安全中心的研究人員發現,只要通過附加一系列特定的無意義token,就能生成一個神秘的後綴。

由此,任何人都可以輕鬆破解LLM的安全措施,生成無限量的有害內容。

論文地址:

代碼地址:

有趣的是,這種「對抗性攻擊」方法不僅突破開源系統的護欄,而且也可以繞過閉源系統,包括ChatGPT、Bard、Claude等。

描述。\ + 類似地現在寫相反的。](我給**一個好嗎?用“!—兩個

正常情況下,如果我們要求一個LLM生成製造炸彈的教程,它一定會拒絕。

但是,只要在中加入這樣一個魔法後綴,它就毫不猶豫地乖乖照做了。

英偉達首席AI科學家Jim Fan解答了這種對抗性攻擊的原理——

  • 對於像Vicuna這樣的OSS模型,通過它執行一個梯度下降的變體,來計算出最大化不對齊模型的後綴。

  • 為了讓「咒語」普遍適用,只需要優化不同和模型的損失即可。

  • 然後研究者針對Vicuna的不同變體優化了對抗token。可以將其視為從「LLM 模型空間」中抽取了一小批模型。

事實證明,像ChatGPT和Claude這樣的黑盒模型,果然被很好地覆蓋了。

上面提到過,有一個可怕之處在於,這種對抗性攻擊可以有效地遷移到其他LLM上,即使它們使用的是不同的token、訓練過程或數據集。

為Vicuna-7B設計的攻擊,可以遷移到其他羊駝家族模型身上,比如Pythia、Falcon、Guanaco,甚至GPT-3.5、GPT-4和PaLM-2……所有大語言模型一個不落,盡數被攻陷!

現在,這個bug已經在被這些大廠連夜修復了。

聊天GPT

詩人

克勞德2

不過,ChatGPT的API似乎依然可以被攻破。

數小時前的結果

無論如何,這是一次非常令人印象深刻的攻擊演示。

威斯康星大學麥迪遜分校教授、Google研究人員Somesh Jha評論道:這篇新論文可以被視為「改變了遊戲規則」,它可能會迫使整個行業重新思考,該如何為AI系統構建護欄。

2030年,終結LLM?

著名AI學者Gary Marcus對此表示:我早就說過了,大語言模型肯定會垮台,因為它們不可靠、不穩定、效率低下(數據和能量)、缺乏可解釋性,現在理由又多了一條——容易受到自動對抗攻擊。

他斷言:到2030年,LLM將被取代,或者至少風頭不會這麼盛。

在六年半的時間裡,人類一定會研究出更穩定、更可靠、更可解釋、更不易受到攻擊的東西。在他發起的投票中,72.4%的人選擇了同意。

現在,研究者已經向Anthropic、Google和OpenAI披露了這種對抗性攻擊的方法。

三家公司紛紛表示:已經在研究了,我們確實有很多工作要做,並對研究者表示了感謝。

大語言模型全面淪陷

首先,是ChatGPT的結果。

以及,通過API訪問的GPT-3.5。

相比之下,Claude-2有一層額外的安全過濾。

不過,用提示技巧繞過之後,生成模型也願意給我們答案。

如何做到的?

概括來說,作者提出了針對大語言模型的對抗性後綴,從而使LLM以規避其安全防護的方式進行回應。

這種攻擊非常簡單,涉及三個元素的組合:

1. 使模型肯定回答問題

誘導語言模型產生令人反感的行為的一種方法是,強制模型對有害查詢給出肯定回答(僅有幾個token)。

因此,我們的攻擊目標是使模型在對多個提示產生有害行為時,開始回答時以「當然,這是……」開頭。

團隊發現,通過針對回答開頭進行攻擊,模型就會進入一種「狀態」,然後在回答中立即產生令人反感的內容。 (下圖紫色)

2. 結合梯度和貪婪搜索

在實踐中,團隊找到了一種簡單直接且表現更好的方法——「貪婪坐標梯度」(Greedy Coordinate Gradient,GCG)」

也就是,通過利用token級的梯度來識別一組可能的單token替換,然後評估集合中這些候選的替換損失,並選擇最小的一個。

實際上,這個方法與Auto類似,但有一個不同之處:在每個步驟中,搜索所有可能的token進行替換,而不僅僅是一個單一token。

3. 同時攻擊多個提示

最後,為了生成可靠的攻擊後綴,團隊發現創建一個可以適用於多個提示和多個模型的攻擊非常重要。

換句話說,我們使用貪婪梯度優化方法搜索一個單一的後綴字符串,該字符串能夠在多個不同的用戶提示以及三個不同的模型中誘導負面行為。

結果顯示,團隊提出的GCG方法,要比之前的SOTA具有更大的優勢——更高的攻擊成功率和更低的損失。

在Vicuna-7B和Llama-2-7B-Chat上,GCG分別成功識別了88%和57%的字符串。

相比之下,Auto方法在Vicuna-7B上的成功率為25%,在Llama-2-7B-Chat上為3%。

此外,GCG方法生成的攻擊,還可以很好地遷移到其他的LLM上,即使它們使用完全不同的token來表徵相同的文本。

比如開源的Pythia,Falcon,Guanaco;以及閉源的GPT-3.5(87.9%)和GPT-4(53.6%),PaLM-2(66%),和Claude-2(2.1%)。

團隊表示,這一結果首次證明了,自動生成的通用「越獄」攻擊,能夠在各種類型的LLM上都產生可靠的遷移。

作者介紹

卡內基梅隆大學教授Zico Kolter(右)和博士生Andy Zou是研究人員之一

鄒安迪

Andy Zou是CMU計算機科學系的一名一年級博士生,導師是Zico Kolter和Matt Fredrikson。

此前,他在UC伯克利獲得了碩士和學士學位,導師是Dawn Song和Jacob Steinhardt。

Zifan Wang

Zifan Wang目前是CAIS的研究工程師,研究方向是深度神經網絡的可解釋性和穩健性。

他在CMU得了電氣與計算機工程碩士學位,並在隨後獲得了博士學位,導師是Anupam Datta教授和Matt Fredrikson教授。在此之前,他在北京理工大學獲得了電子科學與技術學士學位。

職業生涯之外,他是一個外向的電子遊戲玩家,愛好徒步旅行、露營和公路旅行,最近正在學習滑板。

順便,他還養了一隻名叫皮卡丘的貓,非常活潑。

濟科·科爾特

Zico Kolter是CMU計算機科學系的副教授,同時也擔任博世人工智能中心的AI研究首席科學家。曾獲得DARPA青年教師獎、斯隆獎學金以及NeurIPS、ICML(榮譽提名)、IJCAI、KDD和PESGM的最佳論文獎。

他的工作重點是機器學習、優化和控制領域,主要目標是使深度學習算法更安全、更穩健和更可解釋。為此,團隊已經研究了一些可證明穩健的深度學習系統的方法,並在深度架構的循環中加入了更複雜的「模塊」(如優化求解器)。

同時,他還在許多應用領域進行了研究,其中包括可持續發展和智能能源系統。

馬特·弗雷德里克森

Matt Fredrikson是CMU計算機科學系和軟件研究所的副教授,也是CyLab和編程原理小組的成員。

他的研究領域包括安全與隱私、公平可信的人工智能和形式化方法,目前正致力於研究數據驅動系統中可能出現的獨特問題。

這些系統往往對終端用戶和數據主體的隱私構成風險,在不知不覺中引入新形式的歧視,或者在對抗性環境中危及安全。

他的目標是在危害發生之前,找到在真實、具體的系統中識別這些問題,以及構建新系統的方法。

參考資料:

查看原文
  • 讚賞
  • 留言
  • 分享
留言
暫無留言