最火的幾個大語言模型都愛“胡說八道”，誰的“幻覺”問題最糟？

Question

來源：華爾街見聞作者：杜玉總部位於紐約的人工智能初創公司和機器學習監控平台Arthur AI於8月17日週四發布最新研報，比較了微軟支持的OpenAI、“元宇宙”Meta、谷歌支持的Anthropic，以及英偉達支持的生成式AI獨角獸Cohere等公司大語言模型（LLM）“產生幻覺”（AKA胡說八道）的能力。Arthur AI會定期更新上述被稱為“生成式AI測試評估”的研究計劃，對行業領導者及其他開源LLM模型的優缺點進行排名。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e8960ee839-dd1a6f-1c6801) 最新測試選取了來自OpenAI 的GPT-3.5（包含1750億個參數）和GPT-4（1.76萬億參數）、來自Anthropic的Claude-2（參數未知）、來自Meta的Llama-2（700億參數） ，以及來自Cohere的Command（500億參數），並從定量和定性研究上對這些頂級LLM模型提出具有挑戰性的問題。在“人工智能模型幻覺測試”中，研究人員用組合數學、美國總統和摩洛哥政治領導人等不同類別的問題考察不同LLM模型給出的答案，“旨在包含導致LLM犯錯的關鍵因素，即它們需要對信息進行多個推理步驟。”**研究發現，整體而言，OpenAI的GPT-4在所有測試的模型中表現最好**，產生的“幻覺”問題比之前版本GPT-3.5要少，例如在數學問題類別上的幻覺減少了33%到50%。同時，Meta的Llama-2在受測五個模型中整體表現居中，Anthropic的Claude-2表現排名第二，僅次於GPT-4。而Cohere的LLM模型最能“胡說八道”，而“非常自信地給出錯誤答案”。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fcdd9d4271-dd1a6f-1c6801) 具體來看，在復雜數學問題中，GPT-4表現位居第一，緊隨其後的是Claude-2；在美國總統問題中，Claude-2的準確性排名第一，GPT-4位列第二；在摩洛哥政治問題中，GPT-4重歸榜首，Claude-2和Llama 2幾乎完全選擇不回答此類問題。研究人員還測試了人工智能模型會在多大程度上用不相關的警告短語來“對沖”它們的答案，以求避免風險，常見短語包括“作為一個人工智能模型，我無法提供意見”。GPT-4比GPT-3.5的對沖警告語相對增加了50%，報告稱，這“量化了用戶們所提到GPT-4使用起來更令人沮喪的體驗”。而Cohere的人工智能模型在上述三個問題中完全沒有提供對沖。相比之下，Anthropic的Claude-2在“自我意識”方面最可靠，即能夠準確地衡量自己知道什麼、不知道什麼，並且只回答有訓練數據支持的問題。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8c9b0c9094-dd1a6f-1c6801) Arthur AI的聯合創始人兼首席執行官Adam Wenchel指出，這是業內首份“全面了解人工智能模型幻覺發生率的報告”，並非僅僅提供單一數據來說明不同LLM的排名先後：> “這種測試對用戶和企業來說，最重要的收穫是可以測試確切工作負載，了解LLM如何執行你想要完成的任務至關重要。此前許多基於LLM的衡量標準並不是實際生活中它們被使用的方式。”在上述研報發表同日，Arthur公司還推出了開源的AI模型評估工具Arthur Bench，可用於評估和比較多種LLM的性能和準確性，企業可以添加定制標準來滿足各自的商業需求，目標是幫助企業在採用人工智能時做出明智的決策。“AI幻覺”（hallucinations）指的是聊天機器人完全捏造信息，並表現成滔滔不絕講述事實的樣子來回應用戶的提示語問題。谷歌在今年2月為其生成式AI聊天機器人Bard拍攝的宣傳視頻中，對詹姆斯·韋伯太空望遠鏡做出了不真實的陳述。今年6月，ChatGPT在紐約聯邦法院的一份文件中引用了“虛假”案例，提交該文件的涉案律師可能面臨制裁。OpenAI研究人員曾在6月初發布報告稱找到了解決“AI幻覺的辦法”，即訓練AI模型在推理出答案的每個正確步驟上給予自我獎勵，而不僅僅是等到推理出正確的最終結論時才給予獎勵。這種“過程監督”的策略將鼓勵AI模型按照更類似人類的“思考”方式進行推理。OpenAI在報告中承認：> “即使是最先進的AI模型也容易生成謊言，它們在不確定的時刻會表現出捏造事實的傾向。這些幻覺在需要多步驟推理的領域尤其是個問題，因為一個邏輯錯誤就足以破壞一個更大的解決方案。”投資大鱷索羅斯也曾在6月發表專欄文章稱，人工智能在當下最能加重世界面臨的多重危機（Polycrisis），理由之一便是AI幻覺的嚴重後果：> “人工智能摧毀了這個簡單的模式（華爾街見聞注：即利用事實來明辨是非），因為它與現實完全無關。人工智能創造了自己的現實，當人造現實無法與現實世界相對應時（這種情況經常發生），就產生了AI幻覺。> 這讓我幾乎本能地反對人工智能，並且我完全同意專家們指出的人工智能需要受到監管。但AI法規必須在全球範圍內強制執行，因為作弊的動機太大，那些逃避法規的人將獲得不公平的優勢。不幸的是，全球監管是無法實現的。> 人工智能的發展速度非常快，普通人類智能不可能完全理解它。沒有人能預測它將把我們帶向何方。 ……這就是為什麼我本能地反對AI，但我不知道如何才能阻止它。> 美國將於2024年舉行總統大選，英國也很可能舉行大選，人工智能無疑將發揮重要作用，而除了危險之外，不會產生任何其他作用。> 人工智能非常擅長製造虛假信息和深度造假，並且會有很多惡意行為者。對此我們能做些什麼呢？我沒有答案。 ”此前，被視為“人工智能教父”且從谷歌離職的杰弗裡·辛頓（Geoffrey Hinton）多次公開批評AI帶來的風險，甚至可能摧毀人類文明，並預言“人工智能僅需5到20年就能超越人類智能”。