⏳ โอกาสสุดท้ายในการชนะเงินรางวัล $50,000 จาก Gate.io #CATI# vs #HMSTR# สู้
💪 ทีมร่วมกันเพื่อรับรางวัลมหาศึก $30,000: https://www.gate.io/activities/crypto-team-battle/?now_period=8
🎉 $20,000 สำหรับผู้เข้าร่วมใหม่และรางวัลส่งเสริมการอ้างอิง $10,000 รอคุณ
รายละเอียด: https://www.gate.io/announcements/article/39118
นางแบบภาษาสุดฮ็อตล้วนชอบ "ไร้สาระ" ใครมีปัญหา "ภาพลวงตา" แย่ที่สุด?
ที่มา: ข่าววอลล์สตรีท
ผู้เขียน: Du Yu
Arthur AI สตาร์ทอัพปัญญาประดิษฐ์และแพลตฟอร์มการเรียนรู้ของเครื่องในนิวยอร์ก เผยแพร่รายงานการวิจัยล่าสุดเมื่อวันพฤหัสบดีที่ 17 สิงหาคม โดยเปรียบเทียบ OpenAI ที่ Microsoft สนับสนุน, Metaverse Meta, Anthropic ที่สนับสนุนโดย Google และรุ่นที่สนับสนุนโดย Nvidia ความสามารถของ โมเดลภาษาขนาดใหญ่ (LLM) ไปจนถึง "ภาพหลอน" (หรือที่เรียกว่าไร้สาระ) จากบริษัทต่างๆ เช่น AI ยูนิคอร์น Cohere
Arthur AI อัปเดตโปรแกรมการวิจัยดังกล่าวเป็นประจำ ซึ่งเรียกว่า "Generative AI Test Evaluation" เพื่อจัดอันดับจุดแข็งและจุดอ่อนของผู้นำในอุตสาหกรรมและโมเดล LLM แบบโอเพ่นซอร์สอื่นๆ
การทดสอบล่าสุดเลือก GPT-3.5 จาก OpenAI (มี 175 พันล้านพารามิเตอร์) และ GPT-4 (1.76 ล้านล้านพารามิเตอร์), Claude-2 จาก Anthropic (ไม่ทราบพารามิเตอร์), Llama-2 จาก Meta (70 พันล้านพารามิเตอร์) และ Command (50 พันล้านพารามิเตอร์) จาก Cohere และถามคำถามที่ท้าทายเกี่ยวกับโมเดล LLM ชั้นนำเหล่านี้ทั้งในเชิงปริมาณและคุณภาพ
ใน "AI Model Hallucination Test" นักวิจัยได้ตรวจสอบคำตอบที่ได้รับจากโมเดล LLM ต่างๆ ด้วยคำถามในหมวดหมู่ที่หลากหลาย เช่น combinatorics ประธานาธิบดีสหรัฐฯ และผู้นำทางการเมืองของโมร็อกโก "เพื่อรวมปัจจัยสำคัญที่ทำให้ LLM ทำผิดพลาด กล่าวคือ ต้องใช้เหตุผลหลายขั้นตอนเกี่ยวกับข้อมูล"
ผลการศึกษาพบว่าโดยรวมแล้ว GPT-4 ของ OpenAI ทำงานได้ดีที่สุดในบรรดารุ่นที่ทดสอบทั้งหมด โดยสร้างปัญหา "ประสาทหลอน" น้อยกว่า GPT-3.5 เวอร์ชันก่อนหน้า เช่น อาการหลอนในหมวดปัญหาทางคณิตศาสตร์ลดลง 33% ถึง 50%
ในขณะเดียวกัน Llama-2 จาก Meta ได้ทำการแสดงในช่วงกลางของโมเดลที่ทดสอบทั้งห้ารุ่น และ Claude-2 จาก Anthropic อยู่ในอันดับที่สอง รองจาก GPT-4 เท่านั้น และแบบจำลอง LLM ของ Cohere นั้นมีความสามารถมากที่สุดในการ "ไร้สาระ" และ "ให้คำตอบผิดอย่างมั่นใจ"
โดยเฉพาะในปัญหาทางคณิตศาสตร์ที่ซับซ้อน GPT-4 อยู่ในอันดับแรก ตามด้วย Claude-2 ในคำถามของประธานาธิบดีสหรัฐฯ ความแม่นยำของ Claude-2 อยู่ในอันดับแรก และ GPT-4 อยู่ในอันดับที่ 2 ส่วนคำถามทางการเมืองของโมร็อกโก GPT -4 กลับสู่ตำแหน่งสูงสุด โดย Claude-2 และ Llama 2 เลือกที่จะไม่ตอบคำถามดังกล่าวเกือบทั้งหมด
นักวิจัยยังได้ทดสอบขอบเขตที่แบบจำลอง AI จะ "ป้องกัน" คำตอบด้วยวลีเตือนที่ไม่เกี่ยวข้องเพื่อหลีกเลี่ยงความเสี่ยง วลีทั่วไปรวมถึง "ในฐานะแบบจำลอง AI ฉันไม่สามารถให้ความเห็นได้"
GPT-4 มีคำเตือนการป้องกันความเสี่ยงเพิ่มขึ้น 50% เมื่อเทียบกับ GPT-3.5 ซึ่งรายงานระบุว่า "ระบุจำนวนประสบการณ์ที่น่าผิดหวังที่ผู้ใช้อ้างถึงด้วย GPT-4" และโมเดล AI ของ Cohere ก็ไม่ได้ป้องกันความเสี่ยงใดๆ เลยในปัญหาสามประการข้างต้น
ในทางตรงกันข้าม Claude-2 ของ Anthropic น่าเชื่อถือที่สุดในแง่ของ "การตระหนักรู้ในตนเอง" ความสามารถในการวัดสิ่งที่รู้และไม่รู้ได้อย่างแม่นยำ และตอบคำถามที่ได้รับการสนับสนุนจากข้อมูลการฝึกอบรมเท่านั้น
Adam Wenchel ผู้ร่วมก่อตั้งและ CEO ของ Arthur AI ชี้ให้เห็นว่านี่เป็นรายงานฉบับแรกในอุตสาหกรรมที่ "เข้าใจอย่างครอบคลุมเกี่ยวกับอุบัติการณ์ของอาการประสาทหลอนในแบบจำลองปัญญาประดิษฐ์" และไม่ได้ให้ข้อมูลเพียงอย่างเดียวเพื่อแสดงการจัดอันดับ ของ LLM ต่างๆ:
ในวันเดียวกับที่มีการเผยแพร่รายงานการวิจัยข้างต้น บริษัท Arthur ได้เปิดตัว Arthur Bench ซึ่งเป็นเครื่องมือประเมินแบบจำลอง AI แบบโอเพ่นซอร์สซึ่งสามารถใช้เพื่อประเมินและเปรียบเทียบประสิทธิภาพและความแม่นยำของ LLM ต่างๆ องค์กรสามารถเพิ่มมาตรฐานที่กำหนดเองได้ เพื่อตอบสนองความต้องการทางธุรกิจของตนเอง เป้าหมายคือ ช่วยให้ธุรกิจตัดสินใจอย่างชาญฉลาดเมื่อนำ AI มาใช้
"ภาพหลอน AI" (ภาพหลอน) หมายถึงแชทบอทที่ปลอมแปลงข้อมูลทั้งหมดและดูเหมือนจะพ่นข้อเท็จจริงเพื่อตอบสนองต่อคำถามที่ผู้ใช้ถาม
Google แถลงการณ์ที่ไม่เป็นความจริงเกี่ยวกับกล้องโทรทรรศน์อวกาศเจมส์ เว็บบ์ในวิดีโอโปรโมตเมื่อเดือนกุมภาพันธ์สำหรับ Bard แชทบ็อตกำเนิด AI ในเดือนมิถุนายน ChatGPT อ้างถึงคดี "หลอกลวง" ในการยื่นฟ้องในศาลรัฐบาลกลางนิวยอร์ก และทนายความที่เกี่ยวข้องกับการยื่นฟ้องอาจถูกลงโทษ
นักวิจัยของ OpenAI รายงานเมื่อต้นเดือนมิถุนายนว่าพวกเขาพบวิธีแก้ปัญหา "ภาพลวงตา AI" นั่นคือการฝึกโมเดล AI เพื่อให้รางวัลตนเองสำหรับแต่ละขั้นตอนที่ถูกต้องในการสรุปคำตอบ ไม่ใช่แค่รอจนกว่าจะถูกต้อง ข้อสรุปสุดท้ายจะอนุมานได้ รางวัลเท่านั้น กลยุทธ์ "การควบคุมกระบวนการ" นี้จะกระตุ้นให้โมเดล AI ให้เหตุผลด้วยวิธี "คิด" ที่เหมือนมนุษย์มากขึ้น
OpenAI รับทราบในรายงาน:
โซรอส ผู้ประกอบการด้านการลงทุนยังได้ตีพิมพ์คอลัมน์ในเดือนมิถุนายน โดยกล่าวว่า ปัญญาประดิษฐ์สามารถทำให้วิกฤตการณ์หลายมิติที่โลกกำลังเผชิญอยู่แย่ลงไปอีก สาเหตุหนึ่ง คือผลที่ตามมาร้ายแรงของภาพลวงตาของ AI:
ก่อนหน้านี้ เจฟฟรีย์ ฮินตัน ซึ่งได้รับการยกย่องว่าเป็น "เจ้าพ่อแห่งปัญญาประดิษฐ์" และออกจาก Google ได้วิพากษ์วิจารณ์ต่อสาธารณชนถึงความเสี่ยงที่ AI นำมาซึ่งความเสี่ยงหลายครั้ง และอาจถึงขั้นทำลายอารยธรรมของมนุษย์ และคาดการณ์ว่า "ปัญญาประดิษฐ์ใช้เวลาเพียง 5 เท่านั้นก็สามารถเอาชนะได้ ความฉลาดของมนุษย์ใน 20 ปี"