أصدرت شركة Arthur AI ، وهي شركة ناشئة للذكاء الاصطناعي ومنصة مراقبة التعلم الآلي ومقرها نيويورك ، أحدث تقرير بحثي لها يوم الخميس ، 17 أغسطس ، يقارن بين الجيل المدعوم من Microsoft OpenAI و Metaverse Meta و Anthropic المدعوم من Google والجيل المدعوم من Nvidia. نماذج اللغة الكبيرة (LLMs) من أجل "الهلوسة" (هراء AKA) من شركات مثل AI unicorn Cohere.
يقوم Arthur AI بتحديث برنامج البحث المذكور أعلاه ، والذي يطلق عليه اسم "Generative AI Test Evaluation" ، لتصنيف نقاط القوة والضعف لدى قادة الصناعة ونماذج LLM الأخرى مفتوحة المصدر.
اختارت أحدث الاختبارات GPT-3.5 من OpenAI (يحتوي على 175 مليار معلمة) و GPT-4 (1.76 تريليون معلمة) ، و Claude-2 من Anthropic (المعلمات غير معروفة) ، و Llama-2 من Meta (70 مليار معلمة) ، و Command (50 مليار معلمة) من Cohere ، وطرح أسئلة صعبة حول نماذج LLM هذه من الناحيتين الكمية والنوعية.
في "اختبار الهلوسة النموذجي للذكاء الاصطناعي" ، قام الباحثون بفحص الإجابات التي قدمتها نماذج ماجستير مختلفة مع أسئلة في فئات متنوعة مثل التوليفات ، ورؤساء الولايات المتحدة ، والقادة السياسيين المغاربة. وهناك حاجة إلى خطوات متعددة للتفكير حول المعلومات ".
** وجدت الدراسة أن GPT-4 الخاصة بـ OpenAI كانت أفضل أداء لجميع النماذج التي تم اختبارها ** بشكل عام ، حيث أنتجت مشاكل "هلوسة" أقل من الإصدار السابق ، GPT-3.5 ، مثل تقليل الهلوسة في فئة مشكلة الرياضيات بنسبة 33٪ إلى 50٪.
في الوقت نفسه ، كان أداء Meta Llama-2 في منتصف النماذج الخمسة المختبرة ، واحتلت Anthropic's Claude-2 المرتبة الثانية ، في المرتبة الثانية بعد GPT-4. ونموذج Cohere's LLM هو الأكثر قدرة على "الهراء" و "إعطاء إجابات خاطئة بكل ثقة".
على وجه التحديد ، في المشكلات الرياضية المعقدة ، يحتل GPT-4 المرتبة الأولى ، يليه كلود -2 ؛ في مسألة رئيس الولايات المتحدة ، احتلت دقة Claude-2 المرتبة الأولى ، واحتلت GPT-4 المرتبة الأولى ؛ فيما يتعلق بالمسائل السياسية المغربية ، GPT -4 عاد إلى الصدارة ، مع اختيار كلود 2 ولاما 2 بالكامل تقريبًا عدم الإجابة على مثل هذه الأسئلة.
اختبر الباحثون أيضًا مدى "التحوط" في إجاباتهم بعبارات تحذير غير ملائمة لتجنب المخاطر ، والعبارات الشائعة بما في ذلك "بصفتي نموذجًا للذكاء الاصطناعي ، لا يمكنني تقديم رأي".
شهد GPT-4 زيادة نسبية بنسبة 50٪ في تحذيرات التحوط على GPT-3.5 ، والتي يقول التقرير "تحدد مقدار التجربة المحبطة التي استشهد بها المستخدمون مع GPT-4". ولا يوفر نموذج Cohere's AI أي تحوط على الإطلاق في المشكلات الثلاث المذكورة أعلاه.
على النقيض من ذلك ، كان Anthropic's Claude-2 الأكثر موثوقية من حيث "الوعي الذاتي" ، والقدرة على قياس ما يعرفه بدقة وما لا يعرفه ، والإجابة فقط على الأسئلة المدعومة ببيانات التدريب.
أشار آدم وينشل ، المؤسس المشارك والرئيس التنفيذي لشركة Arthur AI ، إلى أن هذا هو التقرير الأول في الصناعة "لفهم حدوث الهلوسة في نماذج الذكاء الاصطناعي بشكل شامل" ، ولا يقدم فقط بيانات واحدة لتوضيح الترتيب. من LLMs المختلفة:
"أهم استفادة من هذا النوع من الاختبارات للمستخدمين والشركات هو أنه يمكنك اختبار أعباء العمل بالضبط ، ومن الأهمية بمكان فهم كيفية أداء LLM لما تريد تحقيقه. العديد من المقاييس السابقة المستندة إلى LLM ليست كما هي في الواقع طريقة الحياة لاستخدامها ".
في نفس اليوم الذي تم فيه نشر تقرير البحث المذكور أعلاه ، أطلقت شركة Arthur أيضًا Arthur Bench ، وهي أداة تقييم نموذج AI مفتوح المصدر ، والتي يمكن استخدامها لتقييم ومقارنة أداء ودقة العديد من LLMs. يمكن للشركات إضافة معايير مخصصة لتلبية احتياجات العمل الخاصة بهم.الهدف هو مساعدة الشركات على اتخاذ قرارات مستنيرة عند اعتماد الذكاء الاصطناعي.
تشير "هلوسة الذكاء الاصطناعي" (الهلوسة) إلى أن روبوتات المحادثة تلفيق المعلومات تمامًا وتبدو وكأنها تنشر الحقائق ردًا على أسئلة المستخدم السريعة.
أدلت Google ببيانات غير صحيحة حول تلسكوب جيمس ويب الفضائي في مقطع فيديو ترويجي لشهر فبراير من أجل برنامج chatbot المدعوم بالذكاء الاصطناعي Bard. في يونيو ، استشهد موقع ChatGPT بقضية "وهمية" في رفع الدعوى أمام محكمة فيدرالية بنيويورك ، وقد يواجه المحامون المتورطون في رفع الدعوى عقوبات.
أفاد باحثو أوبن إيه آي في أوائل يونيو أنهم وجدوا حلاً لـ "وهم الذكاء الاصطناعي" ، أي تدريب نموذج الذكاء الاصطناعي على إعطاء مكافأة ذاتية لكل خطوة صحيحة في استنتاج الإجابة ، وليس مجرد الانتظار حتى الإجابة الصحيحة. الاستنتاج النهائي يكافأ فقط. ستشجع استراتيجية "الإشراف على العمليات" هذه نماذج الذكاء الاصطناعي على التفكير بطريقة "تفكير" أكثر شبهاً بالإنسان.
أقرت شركة OpenAI في التقرير:
"حتى نماذج الذكاء الاصطناعي الحديثة عرضة لتوليد الكذب ، وهي تظهر ميلًا إلى اختلاق الحقائق في لحظات عدم اليقين. تُعد هذه الهلوسة إشكالية بشكل خاص في المجالات التي تتطلب تفكيرًا متعدد الخطوات ، حيث يوجد خطأ منطقي واحد يمكن أن يكون كافيًا لتدمير حل أكبر ".
كما نشر سوروس ، قطب الاستثمار ، عمودًا في يونيو قال فيه إن الذكاء الاصطناعي يمكن أن يؤدي إلى تفاقم الأزمة المتعددة التي تواجه العالم في الوقت الحالي.أحد الأسباب هو العواقب الوخيمة لوهم الذكاء الاصطناعي:
"الذكاء الاصطناعي يدمر هذا النموذج البسيط (ملاحظات وول ستريت: استخدام الحقائق لمعرفة الصواب من الخطأ) لأنه لا علاقة له بالواقع على الإطلاق. يخلق الذكاء الاصطناعي واقعه عندما لا يتوافق الواقع الاصطناعي مع العالم الحقيقي (يحدث هذا غالبًا ) ، يتم إنشاء وهم الذكاء الاصطناعي.
هذا يجعلني غريزيًا ضد الذكاء الاصطناعي ، وأنا أتفق تمامًا مع الخبراء على أن الذكاء الاصطناعي بحاجة إلى التنظيم. لكن يجب تطبيق لوائح الذكاء الاصطناعي على مستوى العالم ، لأن الحافز على الغش كبير جدًا ، وسيحصل أولئك الذين يتهربون من اللوائح على ميزة غير عادلة. لسوء الحظ ، فإن التنظيم العالمي غير وارد.
يتطور الذكاء الاصطناعي بسرعة كبيرة بحيث يستحيل على الذكاء البشري العادي فهمه بشكل كامل. لا أحد يستطيع أن يتنبأ إلى أين سيأخذنا. ... لهذا السبب أنا غريزيًا ضد الذكاء الاصطناعي ، لكني لا أعرف كيف أوقفه.
مع الانتخابات الرئاسية في الولايات المتحدة في عام 2024 ، وعلى الأرجح في المملكة المتحدة ، سيلعب الذكاء الاصطناعي بلا شك دورًا مهمًا لن يكون شيئًا غير خطير.
الذكاء الاصطناعي جيد جدًا في إنشاء معلومات مضللة وتزييف عميق ، وسيكون هناك العديد من الجهات الخبيثة. مالذي يمكننا فعله حيال هذا؟ ليس لدي إجابة. "
في السابق ، انتقد جيفري هينتون ، الذي كان يُنظر إليه على أنه "الأب الروحي للذكاء الاصطناعي" وترك Google ، بشكل علني المخاطر التي يسببها الذكاء الاصطناعي عدة مرات ، وربما حتى تدمير الحضارة البشرية ، وتوقع أن "الذكاء الاصطناعي لا يتطلب سوى 5 مرات فقط. الذكاء البشري في 20 عامًا ".
أعظم عارضات الأزياء الكبار يحبون "الهراء" ، من لديه أسوأ مشكلة في "الوهم"؟
المصدر: وول ستريت نيوز
المؤلف: Du Yu
أصدرت شركة Arthur AI ، وهي شركة ناشئة للذكاء الاصطناعي ومنصة مراقبة التعلم الآلي ومقرها نيويورك ، أحدث تقرير بحثي لها يوم الخميس ، 17 أغسطس ، يقارن بين الجيل المدعوم من Microsoft OpenAI و Metaverse Meta و Anthropic المدعوم من Google والجيل المدعوم من Nvidia. نماذج اللغة الكبيرة (LLMs) من أجل "الهلوسة" (هراء AKA) من شركات مثل AI unicorn Cohere.
يقوم Arthur AI بتحديث برنامج البحث المذكور أعلاه ، والذي يطلق عليه اسم "Generative AI Test Evaluation" ، لتصنيف نقاط القوة والضعف لدى قادة الصناعة ونماذج LLM الأخرى مفتوحة المصدر.
اختارت أحدث الاختبارات GPT-3.5 من OpenAI (يحتوي على 175 مليار معلمة) و GPT-4 (1.76 تريليون معلمة) ، و Claude-2 من Anthropic (المعلمات غير معروفة) ، و Llama-2 من Meta (70 مليار معلمة) ، و Command (50 مليار معلمة) من Cohere ، وطرح أسئلة صعبة حول نماذج LLM هذه من الناحيتين الكمية والنوعية.
في "اختبار الهلوسة النموذجي للذكاء الاصطناعي" ، قام الباحثون بفحص الإجابات التي قدمتها نماذج ماجستير مختلفة مع أسئلة في فئات متنوعة مثل التوليفات ، ورؤساء الولايات المتحدة ، والقادة السياسيين المغاربة. وهناك حاجة إلى خطوات متعددة للتفكير حول المعلومات ".
** وجدت الدراسة أن GPT-4 الخاصة بـ OpenAI كانت أفضل أداء لجميع النماذج التي تم اختبارها ** بشكل عام ، حيث أنتجت مشاكل "هلوسة" أقل من الإصدار السابق ، GPT-3.5 ، مثل تقليل الهلوسة في فئة مشكلة الرياضيات بنسبة 33٪ إلى 50٪.
في الوقت نفسه ، كان أداء Meta Llama-2 في منتصف النماذج الخمسة المختبرة ، واحتلت Anthropic's Claude-2 المرتبة الثانية ، في المرتبة الثانية بعد GPT-4. ونموذج Cohere's LLM هو الأكثر قدرة على "الهراء" و "إعطاء إجابات خاطئة بكل ثقة".
على وجه التحديد ، في المشكلات الرياضية المعقدة ، يحتل GPT-4 المرتبة الأولى ، يليه كلود -2 ؛ في مسألة رئيس الولايات المتحدة ، احتلت دقة Claude-2 المرتبة الأولى ، واحتلت GPT-4 المرتبة الأولى ؛ فيما يتعلق بالمسائل السياسية المغربية ، GPT -4 عاد إلى الصدارة ، مع اختيار كلود 2 ولاما 2 بالكامل تقريبًا عدم الإجابة على مثل هذه الأسئلة.
اختبر الباحثون أيضًا مدى "التحوط" في إجاباتهم بعبارات تحذير غير ملائمة لتجنب المخاطر ، والعبارات الشائعة بما في ذلك "بصفتي نموذجًا للذكاء الاصطناعي ، لا يمكنني تقديم رأي".
شهد GPT-4 زيادة نسبية بنسبة 50٪ في تحذيرات التحوط على GPT-3.5 ، والتي يقول التقرير "تحدد مقدار التجربة المحبطة التي استشهد بها المستخدمون مع GPT-4". ولا يوفر نموذج Cohere's AI أي تحوط على الإطلاق في المشكلات الثلاث المذكورة أعلاه.
على النقيض من ذلك ، كان Anthropic's Claude-2 الأكثر موثوقية من حيث "الوعي الذاتي" ، والقدرة على قياس ما يعرفه بدقة وما لا يعرفه ، والإجابة فقط على الأسئلة المدعومة ببيانات التدريب.
أشار آدم وينشل ، المؤسس المشارك والرئيس التنفيذي لشركة Arthur AI ، إلى أن هذا هو التقرير الأول في الصناعة "لفهم حدوث الهلوسة في نماذج الذكاء الاصطناعي بشكل شامل" ، ولا يقدم فقط بيانات واحدة لتوضيح الترتيب. من LLMs المختلفة:
في نفس اليوم الذي تم فيه نشر تقرير البحث المذكور أعلاه ، أطلقت شركة Arthur أيضًا Arthur Bench ، وهي أداة تقييم نموذج AI مفتوح المصدر ، والتي يمكن استخدامها لتقييم ومقارنة أداء ودقة العديد من LLMs. يمكن للشركات إضافة معايير مخصصة لتلبية احتياجات العمل الخاصة بهم.الهدف هو مساعدة الشركات على اتخاذ قرارات مستنيرة عند اعتماد الذكاء الاصطناعي.
تشير "هلوسة الذكاء الاصطناعي" (الهلوسة) إلى أن روبوتات المحادثة تلفيق المعلومات تمامًا وتبدو وكأنها تنشر الحقائق ردًا على أسئلة المستخدم السريعة.
أدلت Google ببيانات غير صحيحة حول تلسكوب جيمس ويب الفضائي في مقطع فيديو ترويجي لشهر فبراير من أجل برنامج chatbot المدعوم بالذكاء الاصطناعي Bard. في يونيو ، استشهد موقع ChatGPT بقضية "وهمية" في رفع الدعوى أمام محكمة فيدرالية بنيويورك ، وقد يواجه المحامون المتورطون في رفع الدعوى عقوبات.
أفاد باحثو أوبن إيه آي في أوائل يونيو أنهم وجدوا حلاً لـ "وهم الذكاء الاصطناعي" ، أي تدريب نموذج الذكاء الاصطناعي على إعطاء مكافأة ذاتية لكل خطوة صحيحة في استنتاج الإجابة ، وليس مجرد الانتظار حتى الإجابة الصحيحة. الاستنتاج النهائي يكافأ فقط. ستشجع استراتيجية "الإشراف على العمليات" هذه نماذج الذكاء الاصطناعي على التفكير بطريقة "تفكير" أكثر شبهاً بالإنسان.
أقرت شركة OpenAI في التقرير:
كما نشر سوروس ، قطب الاستثمار ، عمودًا في يونيو قال فيه إن الذكاء الاصطناعي يمكن أن يؤدي إلى تفاقم الأزمة المتعددة التي تواجه العالم في الوقت الحالي.أحد الأسباب هو العواقب الوخيمة لوهم الذكاء الاصطناعي:
في السابق ، انتقد جيفري هينتون ، الذي كان يُنظر إليه على أنه "الأب الروحي للذكاء الاصطناعي" وترك Google ، بشكل علني المخاطر التي يسببها الذكاء الاصطناعي عدة مرات ، وربما حتى تدمير الحضارة البشرية ، وتوقع أن "الذكاء الاصطناعي لا يتطلب سوى 5 مرات فقط. الذكاء البشري في 20 عامًا ".