Model bahasa besar terpanas semuanya menyukai "omong kosong". Siapa yang memiliki masalah "ilusi" terburuk?

Question

Sumber: Wall Street NewsPengarang: Du YuArthur AI, startup kecerdasan buatan dan platform pemantauan pembelajaran mesin yang berbasis di New York, merilis laporan penelitian terbarunya pada Kamis, 17 Agustus, membandingkan OpenAI yang didukung Microsoft, Metaverse Meta, Anthropic yang didukung Google, dan generasi yang didukung Nvidia Kemampuan model bahasa besar (LLM) untuk "berhalusinasi" (omong kosong AKA) dari perusahaan seperti AI unicorn Cohere.Arthur AI secara teratur memperbarui program penelitian yang disebutkan di atas, yang dijuluki "Evaluasi Tes AI Generatif", untuk memberi peringkat kekuatan dan kelemahan pemimpin industri dan model LLM sumber terbuka lainnya.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e8960ee839-dd1a6f-1c6801) Tes terbaru memilih GPT-3.5 dari OpenAI (berisi 175 miliar parameter) dan GPT-4 (1,76 triliun parameter), Claude-2 dari Anthropic (parameter tidak diketahui), Llama-2 dari Meta (70 miliar parameter), dan Command (50 miliar parameter) dari Cohere, dan ajukan pertanyaan menantang tentang model LLM teratas ini baik secara kuantitatif maupun kualitatif.Dalam "Tes Halusinasi Model AI", para peneliti memeriksa jawaban yang diberikan oleh berbagai model LLM dengan pertanyaan dalam kategori yang beragam seperti kombinatorik, presiden AS, dan pemimpin politik Maroko. Diperlukan beberapa langkah penalaran tentang informasi tersebut."**Studi ini menemukan bahwa, secara keseluruhan, GPT-4 OpenAI melakukan yang terbaik dari semua model yang diuji**, menghasilkan lebih sedikit masalah "halusinasi" daripada versi sebelumnya, GPT-3.5, seperti berkurangnya halusinasi pada kategori masalah matematika 33% sampai 50%.Pada saat yang sama, Llama-2 Meta tampil di tengah-tengah lima model yang diuji, dan Claude-2 Anthropic menempati peringkat kedua, kedua setelah GPT-4. Dan model LLM Cohere adalah yang paling mampu "omong kosong" dan "dengan sangat percaya diri memberikan jawaban yang salah".![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fcdd9d4271-dd1a6f-1c6801) Secara khusus, dalam masalah matematika yang kompleks, GPT-4 menempati urutan pertama, diikuti oleh Claude-2; dalam pertanyaan presiden AS, akurasi Claude-2 menempati urutan pertama, dan GPT-4 menempati urutan pertama Kedua; pada pertanyaan politik Maroko, GPT -4 kembali ke posisi teratas, dengan Claude-2 dan Llama 2 memilih hampir seluruhnya untuk tidak menjawab pertanyaan seperti itu.Para peneliti juga menguji sejauh mana model AI akan "membatasi" jawaban mereka dengan frasa peringatan yang tidak relevan untuk menghindari risiko, frasa umum termasuk "Sebagai model AI, saya tidak dapat memberikan pendapat."GPT-4 memiliki peningkatan relatif 50% dalam peringatan lindung nilai dibandingkan GPT-3.5, yang menurut laporan tersebut "mengukur pengalaman pengguna yang lebih membuat frustrasi dengan GPT-4." Dan model AI Cohere tidak memberikan lindung nilai sama sekali dalam tiga masalah di atas.Sebaliknya, Anthropic's Claude-2 adalah yang paling andal dalam hal "kesadaran diri", kemampuan untuk secara akurat mengukur apa yang diketahui dan apa yang tidak diketahuinya, dan hanya menjawab pertanyaan yang didukung oleh data pelatihan.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8c9b0c9094-dd1a6f-1c6801) Adam Wenchel, salah satu pendiri dan CEO Arthur AI, menunjukkan bahwa ini adalah laporan pertama di industri yang "memahami secara komprehensif kejadian halusinasi dalam model kecerdasan buatan", dan tidak hanya menyediakan data tunggal untuk mengilustrasikan peringkat dari berbagai LLM:> "Pengambilan paling penting dari jenis pengujian untuk pengguna dan bisnis ini adalah Anda dapat menguji beban kerja yang tepat, dan sangat penting untuk memahami bagaimana LLM melakukan apa yang ingin Anda capai. Banyak metrik berbasis LLM sebelumnya tidak seperti aslinya cara hidup yang digunakan."Pada hari yang sama dengan publikasi laporan penelitian yang disebutkan di atas, Arthur Company juga meluncurkan Arthur Bench, alat evaluasi model AI sumber terbuka, yang dapat digunakan untuk mengevaluasi dan membandingkan kinerja dan akurasi berbagai LLM. Perusahaan dapat menambahkan standar yang disesuaikan untuk memenuhi kebutuhan bisnis mereka sendiri. Tujuannya adalah untuk membantu Bisnis membuat keputusan yang tepat saat mengadopsi AI."Halusinasi AI" (halusinasi) mengacu pada chatbots yang sepenuhnya mengarang informasi dan muncul untuk mengungkapkan fakta sebagai tanggapan atas pertanyaan pengguna.Google membuat pernyataan tidak benar tentang Teleskop Luar Angkasa James Webb dalam video promosi bulan Februari untuk chatbot AI generatif Bard. Pada bulan Juni, ChatGPT mengutip kasus "palsu" dalam pengajuan di pengadilan federal New York, dan pengacara yang terlibat dalam pengajuan tersebut dapat menghadapi sanksi.Peneliti OpenAI melaporkan pada awal Juni bahwa mereka telah menemukan solusi untuk "ilusi AI", yaitu melatih model AI untuk memberikan penghargaan diri untuk setiap langkah yang benar dalam menyimpulkan jawaban, tidak hanya menunggu sampai jawaban yang benar kesimpulan akhir disimpulkan Hanya dihargai. Strategi "pengawasan proses" ini akan mendorong model AI untuk bernalar dengan cara "berpikir" yang lebih mirip manusia.OpenAI mengakui dalam laporan:> "Bahkan model AI yang canggih cenderung menghasilkan kebohongan, dan mereka menunjukkan kecenderungan untuk mengarang fakta di saat-saat ketidakpastian. Halusinasi ini sangat bermasalah di domain yang memerlukan penalaran multi-langkah, di mana satu kesalahan logis bisa cukup untuk menghancurkan solusi yang lebih besar."Soros, taipan investasi, juga menerbitkan kolom pada bulan Juni yang mengatakan bahwa kecerdasan buatan paling dapat memperburuk polikrisis yang dihadapi dunia saat ini.Salah satu alasannya adalah konsekuensi serius dari ilusi AI:> "AI menghancurkan model sederhana ini (Wall Street mencatat: menggunakan fakta untuk membedakan yang benar dari yang salah) karena sama sekali tidak ada hubungannya dengan kenyataan. AI menciptakan realitasnya sendiri ketika realitas buatan tidak sesuai dengan dunia nyata (ini sering terjadi ), ilusi AI dibuat.> Ini membuat saya secara naluriah menentang AI, dan saya sepenuhnya setuju dengan para ahli bahwa AI perlu diatur. Tetapi peraturan AI harus ditegakkan secara global, karena dorongan untuk berbuat curang terlalu besar, dan mereka yang menghindari peraturan tersebut akan mendapatkan keuntungan yang tidak adil. Sayangnya, regulasi global keluar dari pertanyaan.> Kecerdasan buatan berkembang sangat cepat sehingga mustahil bagi kecerdasan manusia biasa untuk memahaminya sepenuhnya. Tidak ada yang bisa memprediksi ke mana ia akan membawa kita. ... itu sebabnya saya secara naluriah menentang AI, tapi saya tidak tahu bagaimana menghentikannya.> Dengan pemilihan presiden di AS pada tahun 2024, dan kemungkinan besar di Inggris, AI tidak diragukan lagi akan memainkan peran penting yang tidak akan berbahaya.> AI sangat bagus dalam menciptakan disinformasi dan deepfake, dan akan ada banyak aktor jahat. Apa boleh buat? Saya tidak punya jawaban. "Sebelumnya, Geoffrey Hinton, yang dianggap sebagai "bapak baptis kecerdasan buatan" dan meninggalkan Google, secara terbuka mengkritik risiko yang dibawa oleh AI berkali-kali, dan bahkan dapat menghancurkan peradaban manusia, dan meramalkan bahwa "kecerdasan buatan hanya membutuhkan waktu 5 untuk dapat melampaui kecerdasan manusia dalam 20 tahun."