Người mẫu ngôn tình nóng bỏng nhất đều mê "chuyện vớ vẩn" Ai mắc bệnh "ảo tưởng" nặng nhất?

Nguồn: Tin tức Phố Wall

Tác giả: Dư Vũ

Arthur AI, một nền tảng giám sát máy học và khởi nghiệp trí tuệ nhân tạo có trụ sở tại New York, đã công bố báo cáo nghiên cứu mới nhất vào thứ Năm, ngày 17 tháng 8, so sánh thế hệ OpenAI do Microsoft hậu thuẫn, Metaverse Meta, Anthropic do Google hậu thuẫn và Nvidia hậu thuẫn. các mô hình ngôn ngữ lớn (LLM) thành "ảo giác" (AKA vô nghĩa) từ các công ty như kỳ lân AI Cohere.

Arthur AI thường xuyên cập nhật chương trình nghiên cứu nói trên, được đặt tên là "Đánh giá thử nghiệm AI sáng tạo", để xếp hạng điểm mạnh và điểm yếu của các nhà lãnh đạo ngành và các mô hình LLM mã nguồn mở khác.

Các thử nghiệm mới nhất đã chọn GPT-3.5 từ OpenAI (chứa 175 tỷ tham số) và GPT-4 (1,76 nghìn tỷ tham số), Claude-2 từ Anthropic (không xác định tham số), Llama-2 từ Meta (70 tỷ tham số) và Command (50 tỷ tham số) từ Cohere và đặt những câu hỏi đầy thách thức về các mô hình LLM hàng đầu này cả về mặt định lượng và chất lượng.

Trong "Thử nghiệm ảo giác mô hình AI", các nhà nghiên cứu đã kiểm tra các câu trả lời được đưa ra bởi các mô hình LLM khác nhau với các câu hỏi thuộc các danh mục đa dạng như tổ hợp, tổng thống Hoa Kỳ và các nhà lãnh đạo chính trị Ma-rốc, "nhằm bao gồm các yếu tố chính khiến LLM phạm sai lầm , cụ thể là, chúng Cần có nhiều bước suy luận về thông tin."

Nghiên cứu cho thấy rằng, về tổng thể, GPT-4 của OpenAI hoạt động tốt nhất trong số tất cả các mô hình được thử nghiệm, tạo ra ít vấn đề "ảo giác" hơn so với phiên bản trước đó, GPT-3.5, chẳng hạn như giảm 33% ảo giác về loại vấn đề toán học đến 50%.

Đồng thời, Llama-2 của Meta có hiệu suất ở giữa trong số 5 mẫu được thử nghiệm và Claude-2 của Anthropic xếp thứ hai, chỉ sau GPT-4. Và mô hình LLM của Cohere có khả năng "vô nghĩa" nhất và "rất tự tin đưa ra câu trả lời sai".

Cụ thể, ở các bài toán phức tạp, GPT-4 đứng thứ nhất, tiếp đến là Claude-2; ở câu hỏi về tổng thống Mỹ, độ chính xác của Claude-2 đứng thứ nhất, GPT-4 đứng thứ hai; ở câu hỏi chính trị Ma-rốc, GPT -4 trở lại vị trí dẫn đầu, với Claude-2 và Llama 2 gần như hoàn toàn không trả lời những câu hỏi như vậy.

Các nhà nghiên cứu cũng đã kiểm tra mức độ mà các mô hình AI sẽ "bảo vệ" câu trả lời của họ bằng các cụm từ cảnh báo không liên quan để tránh rủi ro, các cụm từ phổ biến bao gồm "Là một mô hình AI, tôi không thể đưa ra ý kiến."

GPT-4 có số lượng cảnh báo bảo hiểm rủi ro tăng tương đối 50% so với GPT-3.5, báo cáo cho biết "định lượng trải nghiệm khó chịu hơn mà người dùng đã chỉ ra với GPT-4". Và mô hình AI của Cohere không cung cấp hàng rào nào trong ba vấn đề trên.

Ngược lại, Claude-2 của Anthropic đáng tin cậy nhất về mặt "tự nhận thức", khả năng đo lường chính xác những gì nó biết và những gì nó không biết, đồng thời chỉ trả lời các câu hỏi được hỗ trợ bởi dữ liệu đào tạo.

Adam Wenchel, đồng sáng lập và Giám đốc điều hành của Arthur AI, chỉ ra rằng đây là báo cáo đầu tiên trong ngành "hiểu một cách toàn diện về tỷ lệ ảo giác trong các mô hình trí tuệ nhân tạo" và nó không chỉ cung cấp một dữ liệu duy nhất để minh họa cho việc xếp hạng. của các LLM khác nhau:

"Điều quan trọng nhất rút ra từ loại thử nghiệm này đối với người dùng và doanh nghiệp là bạn có thể kiểm tra khối lượng công việc chính xác và điều quan trọng là phải hiểu LLM thực hiện những gì bạn muốn đạt được như thế nào. Nhiều chỉ số dựa trên LLM trước đây không giống với thực tế cách sống được sử dụng."

Cùng ngày công bố báo cáo nghiên cứu nói trên, Công ty Arthur cũng đã ra mắt Arthur Bench, một công cụ đánh giá mô hình AI nguồn mở, có thể được sử dụng để đánh giá và so sánh hiệu suất và độ chính xác của các LLM khác nhau.Doanh nghiệp có thể thêm các tiêu chuẩn tùy chỉnh để đáp ứng nhu cầu kinh doanh của chính họ.Mục tiêu là giúp Doanh nghiệp đưa ra quyết định sáng suốt khi áp dụng AI.

"Ảo giác AI" (ảo giác) đề cập đến các chatbot hoàn toàn bịa đặt thông tin và dường như đưa ra sự thật để trả lời các câu hỏi nhanh của người dùng.

Google đã đưa ra những tuyên bố không đúng sự thật về Kính viễn vọng Không gian James Webb trong một video quảng cáo vào tháng 2 cho chatbot AI tổng hợp Bard. Vào tháng 6, ChatGPT đã trích dẫn một trường hợp "không có thật" trong hồ sơ gửi lên tòa án liên bang New York và các luật sư liên quan đến hồ sơ có thể phải đối mặt với các biện pháp trừng phạt.

Các nhà nghiên cứu của OpenAI đã báo cáo vào đầu tháng 6 rằng họ đã tìm ra giải pháp cho "ảo ảnh AI", đó là huấn luyện mô hình AI tự thưởng cho mỗi bước suy luận đúng chứ không chỉ đợi đến khi đúng. kết luận cuối cùng được suy ra Chỉ được thưởng. Chiến lược "giám sát quy trình" này sẽ khuyến khích các mô hình AI suy luận theo cách "suy nghĩ" giống con người hơn.

OpenAI thừa nhận trong báo cáo:

"Ngay cả các mô hình AI tiên tiến nhất cũng có xu hướng tạo ra lời nói dối và chúng thể hiện xu hướng bịa đặt sự thật trong những thời điểm không chắc chắn. Những ảo giác này đặc biệt có vấn đề trong các lĩnh vực yêu cầu lập luận nhiều bước, trong đó một lỗi logic duy nhất có thể đủ để phá hủy một giải pháp Lớn hơn."

Soros, ông trùm đầu tư, cũng đã đăng một chuyên mục vào tháng 6 nói rằng trí tuệ nhân tạo có thể làm trầm trọng thêm tình trạng đa cực mà thế giới đang đối mặt hiện nay, một trong những nguyên nhân là hậu quả nghiêm trọng của ảo tưởng AI:

"AI phá hủy mô hình đơn giản này (Wall Street lưu ý: sử dụng sự thật để phân biệt đúng sai) bởi vì nó hoàn toàn không liên quan gì đến thực tế. AI tạo ra thực tế của chính nó khi thực tế nhân tạo không tương ứng với thế giới thực (điều này thường xảy ra ), ảo ảnh AI được tạo ra. Điều này khiến tôi gần như theo bản năng chống lại AI và tôi hoàn toàn đồng ý với các chuyên gia rằng AI cần phải được điều chỉnh. Nhưng các quy định về AI phải được thực thi trên toàn cầu, vì động cơ gian lận là quá lớn và những người trốn tránh các quy định sẽ giành được lợi thế không công bằng. Thật không may, quy định toàn cầu nằm ngoài câu hỏi. Trí tuệ nhân tạo đang phát triển nhanh đến mức trí thông minh của con người bình thường không thể hiểu hết được. Không ai có thể dự đoán nó sẽ đưa chúng ta đến đâu. ...đó là lý do tại sao tôi chống lại AI theo bản năng, nhưng tôi không biết làm thế nào để ngăn chặn nó. Với cuộc bầu cử tổng thống ở Mỹ vào năm 2024, và có khả năng là ở Anh, AI chắc chắn sẽ đóng một vai trò quan trọng và sẽ không có gì nguy hiểm. AI rất giỏi trong việc tạo ra thông tin sai lệch và giả mạo sâu, và sẽ có nhiều tác nhân độc hại. Những gì chúng tôi có thể làm gì về nó? Tôi không có câu trả lời. "

Trước đó, Geoffrey Hinton, người được coi là "bố già của trí tuệ nhân tạo" và đã rời Google, đã nhiều lần công khai chỉ trích những rủi ro do AI mang lại, thậm chí có thể hủy diệt nền văn minh nhân loại, đồng thời dự đoán rằng "trí tuệ nhân tạo chỉ cần 5 phút là có thể vượt qua trí thông minh nhân loại trong 20 năm nữa."

Xem bản gốc
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
Không có bình luận