خطوة كبيرة لروبوت AGI من Google: تأخر فريق مكون من 54 شخصًا لمدة 7 أشهر ، وتعميم قوي واستدلال قوي ، ونتائج جديدة بعد دمج DeepMind و Google Brain

يمكنها حتى التفكير بنشاط والسماح لها "بالتقاط الحيوانات المنقرضة" ، ويمكنها اختيار الديناصورات بدقة من الألعاب البلاستيكية الثلاثة للأسود والحيتان والديناصورات.

على حد تعبير مستخدمي الإنترنت ، لا تقلل من شأن هذه القدرة ، فهذه قفزة منطقية من "الحيوانات المنقرضة" إلى "الديناصورات البلاستيكية".

الأمر الأكثر إثارة للخوف هو أنه يمكن أن يحل بسهولة ** مشكلة التفكير متعددة المراحل ** من "اختيار مشروب لشخص متعب" والتي يجب دمجها مع سلسلة الأفكار - بمجرد سماع الأمر ، ستذهب اليد الصغيرة مباشرة إلى ريد بُل ، لا تكن ذكيًا جدًا.

أعرب بعض مستخدمي الإنترنت عن أسفهم بعد القراءة:

لا يمكنني الانتظار ، تقديم سريع إلى ** غسل الأطباق للبشر ** (رأس كلب يدويًا)

من المفهوم أن إنجاز Google DeepMind تم إنتاجه بالاشتراك مع ** 54 باحثًا ** ، واستغرق الأمر 7 أشهر قبل وبعد ، قبل أن يصبح أخيرًا "السهل جدًا" الذي رأيناه.

وفقًا لصحيفة نيويورك تايمز ، يعتقد فينسينت فانهوك ، مدير الروبوتات في Google DeepMind ، أن النماذج الكبيرة قد غيرت تمامًا اتجاه البحث في قسمها:

بسبب هذا التغيير (النموذج الكبير) ، كان علينا ** إعادة التفكير ** في مشروع البحث بأكمله. أشياء كثيرة درسناها من قبل فشلت تماما.

إذن ، ما نوع التأثيرات التي يمكن أن يحققها RT-2 ، وماذا يدور هذا البحث بالضبط؟

قم بتوصيل النموذج الكبير متعدد الوسائط بالذراع الآلي

مشروع الروبوت ، المسمى ** RT-2 ** (Robotic Transformer 2) ، هو "نسخة تطورية" من RT-1 صدر في نهاية العام الماضي.

مقارنة بأبحاث الروبوت الأخرى ، تتمثل الميزة الأساسية لـ RT-2 في أنها لا تستطيع فقط فهم "الكلمات البشرية" ، ولكن أيضًا أسباب "الكلمات البشرية" وتحويلها إلى تعليمات يمكن للروبوتات فهمها ، وذلك لإكمال المهام على مراحل .

على وجه التحديد ، لديها ثلاث قدرات رئيسية - ** فهم الرمز ** (فهم الرمز) ، ** التفكير ** (الاستدلال) و ** التعرف البشري ** (التعرف البشري).

القدرة الأولى هي "الفهم الرمزي" ، والتي يمكن أن توسع بشكل مباشر معرفة التدريب المسبق للنموذج الكبير إلى البيانات التي لم يسبق للروبوت رؤيتها من قبل. على سبيل المثال ، على الرغم من عدم وجود "Red Bull" في قاعدة بيانات الروبوت ، يمكنه فهم مظهر "Red Bull" وفهمه من خلال معرفة النموذج الكبير ، والتعامل مع الكائنات.

القدرة الثانية هي "التفكير" ، وهي أيضًا ** الميزة الأساسية ** لـ RT-2 ، والتي تتطلب من الروبوت إتقان المهارات الرئيسية الثلاث للرياضيات والتفكير البصري والفهم متعدد اللغات.

المهارة 1 ، بما في ذلك أمر ** التفكير المنطقي الرياضي ** ، "ضع الموز في مجموع 2 + 1":

المهارة الثانية ، ** التفكير البصري ** ، مثل "ضع الفراولة في الوعاء الأيمن":

يمكن للمهارة 3 ، ** فهم متعدد اللغات ** ، إكمال التعليمات حتى بدون اللغة الإنجليزية ، على سبيل المثال ، الأمر باللغة الإسبانية "لاختيار العنصر الأكثر تميزًا من بين مجموعة من العناصر":

القدرة الثالثة هي التعرف البشري ، والذي يتعرف بدقة على السلوك البشري ويفهمه ، ومثال "تسليم الماء إلى تايلور سويفت" الذي ظهر في البداية هو أحد مظاهر القدرة.

إذن ، كيف تتحقق هذه القدرات الثلاث؟

وببساطة ، فإن الأمر يتعلق بدمج قدرات "التفكير" و "التعرف" و "الرياضيات" للنموذج الكبير متعدد الوسائط للنص المرئي (VLM) مع القدرات التشغيلية للروبوتات.

من أجل تحقيق ذلك ، أضاف الباحثون مباشرة وضعًا يسمى "وضع عمل الروبوت" إلى نموذج النص المرئي الكبير (VLM) ، وبالتالي تحويله إلى نموذج كبير للنص المرئي (VLA).

بعد ذلك ، يتم تحويل بيانات إجراء الروبوت الأصلية المحددة للغاية إلى رمز نصي.

على سبيل المثال ، يتم تحويل البيانات مثل درجة الدوران ونقطة الإحداثيات التي سيتم وضعها إلى نص "يتم وضعه في موضع معين".

بهذه الطريقة ، يمكن أيضًا استخدام بيانات الروبوت في مجموعة بيانات اللغة المرئية للتدريب. وفي نفس الوقت ، في عملية التفكير ، سيتم إعادة تحويل التعليمات النصية الأصلية إلى بيانات روبوت لتحقيق سلسلة من العمليات مثل للتحكم في الروبوت.

هذا صحيح ، الأمر بهذه البساطة والوقاحة (رأس كلب يدوي)

في هذا البحث ، "تمت ترقية" الفريق بشكل أساسي استنادًا إلى سلسلة من النماذج الأساسية واسعة النطاق من ** Google ** ، بما في ذلك 5 مليارات و 55 مليارًا ** PaLI-X ** و 3 مليارات ** PaLI ** و 12 مليار ** PaLM-E **.

من أجل تحسين قدرة النموذج الكبير نفسه ، بذل الباحثون أيضًا الكثير من الجهد ، باستخدام سلسلة التفكير الشائعة مؤخرًا ، وقاعدة بيانات المتجهات ، والبنى غير المتدرجة.

تمنح هذه السلسلة من العمليات أيضًا RT-2 الكثير من المزايا الجديدة مقارنةً بـ RT-1 الذي تم إصداره العام الماضي.

دعنا نلقي نظرة على النتائج التجريبية المحددة.

ما يصل إلى ثلاثة أضعاف أداء RT-1

يستخدم RT-2 بيانات الجيل السابق من طراز الروبوت RT-1 للتدريب (أي أن البيانات لم تتغير ، لكن الطريقة مختلفة).

تم جمع البيانات على مدى فترة ** 17 شهرًا ** باستخدام 13 روبوتًا في بيئة مطبخ تم إعدادها في المكتب.

في الاختبار الفعلي (ما مجموعه 6000 مرة) ، أعطى المؤلف RT-2 العديد من الكائنات غير المرئية سابقًا ، مما يتطلب RT-2 لأداء فهم دلالي يتجاوز بيانات الضبط الدقيق لإكمال المهمة.

تمت جميع النتائج بشكل جيد:

بما في ذلك التعرف البسيط على الحروف والأعلام الوطنية والشخصيات للتعرف على الحيوانات الأرضية من الدمى ، واختيار الشخص ذي اللون المختلف ، وحتى الأوامر المعقدة مثل ** التقاط الوجبات الخفيفة التي توشك على السقوط من على الطاولة **.

من منظور إمكانيات التقسيم الفرعي الثلاثة لفهم الرموز والاستدلال والتعرف البشري ، فإن المتغيرين من RT-2 أفضل بكثير من RT-1 وطريقة أخرى للتدريب البصري المسبق VC-1 ، مع أداء يصل إلى 3 مرات .

كما ذكرنا سابقًا ، يتم تدريب المتغيرين على PaLM-E مع 12 مليار معلمة و PaLI-X مع 55 مليار معلمة ، على التوالي.

فيما يتعلق بتقييم قدرة التعميم المحدد ، من خلال اختبارات التقسيمات الفرعية متعددة الفئات مع نماذج أساسية متعددة ، وجد أخيرًا أن أداء RT-2 قد تحسن بنحو مرتين.

(لسوء الحظ ، لم نرها مقارنة بأحدث الطرق الروبوتية المعتمدة على LLM للفرق الأخرى)

من أجل فهم أفضل لكيفية تأثير الإعدادات المختلفة لـ RT-2 على نتائج التعميم ، صمم المؤلف فئتين من التقييمات:

أولاً ، من حيث حجم النموذج ، يستخدم متغير RT-2 PaLI-X فقط 5 مليارات معلمة و 55 مليار معلمة للتدريب ؛

الطريقة الثانية هي طريقة التدريب ، والتي تعتمد على طريقة تدريب النموذج من نقطة الصفر مقابل الضبط الدقيق مقابل الضبط التعاوني.

تظهر النتائج النهائية أن أهمية أوزان VLM المدربة مسبقًا وقدرة التعميم للنموذج تميل إلى الزيادة مع حجم النموذج.

بالإضافة إلى ذلك ، قام المؤلفون أيضًا بتقييم RT-2 على مقياس جدول اللغة مفتوح المصدر ، وأظهرت النتائج أنه يحقق نتائج SOTA على مقياس الأداء المحاكى (90٪ مقابل 77٪ سابقًا).

أخيرًا ، نظرًا لأن متغير RT-2 PaLM-E هو نموذج عمل الرؤية واللغة والذي يمكن أن يعمل كوحدة تحكم LLM و VLM ووحدة تحكم روبوت في شبكة عصبية واحدة ، يمكن لـ RT-2 أيضًا تنفيذ تفكير سلسلة التفكير.

من بين مهام التفكير الخمس الموضحة في الشكل أدناه (خاصةً المهمة الأخيرة مثيرة جدًا للاهتمام: اختر عنصرًا يمكن أن يحل محل المطرقة) ، ستخرج خطوات اللغة الطبيعية بعد تلقي الأمر ، ثم تعطي رمز الإجراء المحدد.

أخيرًا ، باختصار ، لا يمكن تطبيق هذا الطراز الأخير من RT-2 بشكل أفضل فقط على المشاهد المختلفة التي لم يسبق للجهاز رؤيتها من قبل ، بل يتمتع أيضًا بقدرة تعميم أفضل ؛ في نفس الوقت ، نظرًا للأفضل بمباركة نموذج كبير ، لقد أتقن أيضًا بعض القدرات الجديدة الصعبة ، مثل التفكير.

شيء اخر

لا يبدو أن تركيز Google على أبحاث الروبوتات على ** الطرز الكبيرة ** "لا أساس له".

في اليومين الماضيين فقط ، كانت الورقة البحثية "استخدام النماذج الكبيرة للمساعدة في اكتساب المزيد من مهارات تشغيل الروبوت" والتي اشتركت في تأليفها مع جامعة كولومبيا تحظى بشعبية كبيرة أيضًا:

تقترح هذه الورقة إطارًا جديدًا لا يسمح للروبوت بالتكيف بشكل جيد مع النموذج الكبير فحسب ، بل يحتفظ أيضًا بقدرات التشغيل والتحكم الأساسية للروبوت الأصلي:

على عكس RT-2 ، كان هذا المشروع مفتوح المصدر:

صحيح أنه تم استخدام النموذج الكبير لدفع ترقية قسم الروبوت بأكمله.

تذكرنا بالإنجازات الاستخباراتية المجسدة لفريق Li Feifei منذ وقت ليس ببعيد ، يمكن القول أن استخدام النماذج الكبيرة لقيادة الروبوتات أصبح اتجاهًا بحثيًا ، وشهدنا موجة من التقدم الواعد جدًا.

ما هي توقعاتك لهذا الاتجاه البحثي؟

عنوان المشروع:

** رابط مرجعي: **

[1]

[2]

[3]

[4]

شاهد النسخة الأصلية