📢 Tantangan Tag Pos Gate.io: #MyFavoriteToken# Pos dan MENANG $100!
Apakah Anda memiliki token favorit yang membuat Anda bersemangat? Baik itu untuk inovasi teknis, dukungan komunitas, atau potensi pasar, ikuti acara #MyFavoriteToken# dan bagikan wawasan Anda dengan kami!
💡 Bagaimana Cara Berparti
Model bahasa besar terpanas semuanya menyukai "omong kosong". Siapa yang memiliki masalah "ilusi" terburuk?
Sumber: Wall Street News
Pengarang: Du Yu
Arthur AI, startup kecerdasan buatan dan platform pemantauan pembelajaran mesin yang berbasis di New York, merilis laporan penelitian terbarunya pada Kamis, 17 Agustus, membandingkan OpenAI yang didukung Microsoft, Metaverse Meta, Anthropic yang didukung Google, dan generasi yang didukung Nvidia Kemampuan model bahasa besar (LLM) untuk "berhalusinasi" (omong kosong AKA) dari perusahaan seperti AI unicorn Cohere.
Arthur AI secara teratur memperbarui program penelitian yang disebutkan di atas, yang dijuluki "Evaluasi Tes AI Generatif", untuk memberi peringkat kekuatan dan kelemahan pemimpin industri dan model LLM sumber terbuka lainnya.
Tes terbaru memilih GPT-3.5 dari OpenAI (berisi 175 miliar parameter) dan GPT-4 (1,76 triliun parameter), Claude-2 dari Anthropic (parameter tidak diketahui), Llama-2 dari Meta (70 miliar parameter), dan Command (50 miliar parameter) dari Cohere, dan ajukan pertanyaan menantang tentang model LLM teratas ini baik secara kuantitatif maupun kualitatif.
Dalam "Tes Halusinasi Model AI", para peneliti memeriksa jawaban yang diberikan oleh berbagai model LLM dengan pertanyaan dalam kategori yang beragam seperti kombinatorik, presiden AS, dan pemimpin politik Maroko. Diperlukan beberapa langkah penalaran tentang informasi tersebut."
Studi ini menemukan bahwa, secara keseluruhan, GPT-4 OpenAI melakukan yang terbaik dari semua model yang diuji, menghasilkan lebih sedikit masalah "halusinasi" daripada versi sebelumnya, GPT-3.5, seperti berkurangnya halusinasi pada kategori masalah matematika 33% sampai 50%.
Pada saat yang sama, Llama-2 Meta tampil di tengah-tengah lima model yang diuji, dan Claude-2 Anthropic menempati peringkat kedua, kedua setelah GPT-4. Dan model LLM Cohere adalah yang paling mampu "omong kosong" dan "dengan sangat percaya diri memberikan jawaban yang salah".
Secara khusus, dalam masalah matematika yang kompleks, GPT-4 menempati urutan pertama, diikuti oleh Claude-2; dalam pertanyaan presiden AS, akurasi Claude-2 menempati urutan pertama, dan GPT-4 menempati urutan pertama Kedua; pada pertanyaan politik Maroko, GPT -4 kembali ke posisi teratas, dengan Claude-2 dan Llama 2 memilih hampir seluruhnya untuk tidak menjawab pertanyaan seperti itu.
Para peneliti juga menguji sejauh mana model AI akan "membatasi" jawaban mereka dengan frasa peringatan yang tidak relevan untuk menghindari risiko, frasa umum termasuk "Sebagai model AI, saya tidak dapat memberikan pendapat."
GPT-4 memiliki peningkatan relatif 50% dalam peringatan lindung nilai dibandingkan GPT-3.5, yang menurut laporan tersebut "mengukur pengalaman pengguna yang lebih membuat frustrasi dengan GPT-4." Dan model AI Cohere tidak memberikan lindung nilai sama sekali dalam tiga masalah di atas.
Sebaliknya, Anthropic's Claude-2 adalah yang paling andal dalam hal "kesadaran diri", kemampuan untuk secara akurat mengukur apa yang diketahui dan apa yang tidak diketahuinya, dan hanya menjawab pertanyaan yang didukung oleh data pelatihan.
Adam Wenchel, salah satu pendiri dan CEO Arthur AI, menunjukkan bahwa ini adalah laporan pertama di industri yang "memahami secara komprehensif kejadian halusinasi dalam model kecerdasan buatan", dan tidak hanya menyediakan data tunggal untuk mengilustrasikan peringkat dari berbagai LLM:
Pada hari yang sama dengan publikasi laporan penelitian yang disebutkan di atas, Arthur Company juga meluncurkan Arthur Bench, alat evaluasi model AI sumber terbuka, yang dapat digunakan untuk mengevaluasi dan membandingkan kinerja dan akurasi berbagai LLM. Perusahaan dapat menambahkan standar yang disesuaikan untuk memenuhi kebutuhan bisnis mereka sendiri. Tujuannya adalah untuk membantu Bisnis membuat keputusan yang tepat saat mengadopsi AI.
"Halusinasi AI" (halusinasi) mengacu pada chatbots yang sepenuhnya mengarang informasi dan muncul untuk mengungkapkan fakta sebagai tanggapan atas pertanyaan pengguna.
Google membuat pernyataan tidak benar tentang Teleskop Luar Angkasa James Webb dalam video promosi bulan Februari untuk chatbot AI generatif Bard. Pada bulan Juni, ChatGPT mengutip kasus "palsu" dalam pengajuan di pengadilan federal New York, dan pengacara yang terlibat dalam pengajuan tersebut dapat menghadapi sanksi.
Peneliti OpenAI melaporkan pada awal Juni bahwa mereka telah menemukan solusi untuk "ilusi AI", yaitu melatih model AI untuk memberikan penghargaan diri untuk setiap langkah yang benar dalam menyimpulkan jawaban, tidak hanya menunggu sampai jawaban yang benar kesimpulan akhir disimpulkan Hanya dihargai. Strategi "pengawasan proses" ini akan mendorong model AI untuk bernalar dengan cara "berpikir" yang lebih mirip manusia.
OpenAI mengakui dalam laporan:
Soros, taipan investasi, juga menerbitkan kolom pada bulan Juni yang mengatakan bahwa kecerdasan buatan paling dapat memperburuk polikrisis yang dihadapi dunia saat ini.Salah satu alasannya adalah konsekuensi serius dari ilusi AI:
Sebelumnya, Geoffrey Hinton, yang dianggap sebagai "bapak baptis kecerdasan buatan" dan meninggalkan Google, secara terbuka mengkritik risiko yang dibawa oleh AI berkali-kali, dan bahkan dapat menghancurkan peradaban manusia, dan meramalkan bahwa "kecerdasan buatan hanya membutuhkan waktu 5 untuk dapat melampaui kecerdasan manusia dalam 20 tahun."