الروبوت ChatGPT موجود هنا: النموذج الكبير يدخل العالم الحقيقي ، اختراق DeepMind للوزن الثقيل

نحن نعلم أنه بعد إتقان اللغة والصور على الإنترنت ، سيدخل النموذج الكبير في النهاية إلى العالم الحقيقي ، ويجب أن يكون "الذكاء المتجسد" هو اتجاه التطوير التالي.

ربط النموذج الكبير بالروبوت ، باستخدام لغة طبيعية بسيطة بدلاً من التعليمات المعقدة لتشكيل خطة عمل محددة ، بدون بيانات وتدريبات إضافية ، تبدو هذه الرؤية جيدة ، لكنها تبدو بعيدة بعض الشيء. بعد كل شيء ، من المعروف أن مجال الروبوتات صعب للغاية.

ومع ذلك ، فإن الذكاء الاصطناعي يتطور بشكل أسرع مما كنا نظن.

في يوم الجمعة ، أعلنت ** Google ** ** DeepMind ** ** عن إطلاق RT-2: أول نموذج في العالم للرؤية واللغة والحركة (VLA) ** للتحكم في الروبوتات.

الآن بعد أن توقف استخدام الإرشادات المعقدة ، يمكن التعامل مع الروبوت مباشرة مثل ChatGPT.

ما مدى ذكاء RT-2؟ قام باحثو DeepMind بعرضها بذراع آلية ، وطلبوا من الذكاء الاصطناعي اختيار "الحيوانات المنقرضة" ، وتمتد الذراع ، وفتحت المخالب وسقطت ، وأمسك بدمية الديناصور.

قبل ذلك ، لم تكن الروبوتات قادرة على فهم الأشياء التي لم ترها من قبل بشكل موثوق ، وأقل سببًا عن أشياء مثل ربط "الحيوانات المنقرضة" بـ "دمى الديناصورات البلاستيكية".

اطلب من الروبوت أن يعطي لتايلور سويفت علبة الكولا:

يمكن ملاحظة أن هذا الروبوت هو معجب حقيقي ، وهو خبر سار للبشر.

أحدث تطوير نماذج لغة كبيرة مثل ChatGPT ثورة في مجال الروبوتات ، حيث قامت Google بتثبيت نماذج اللغة الأكثر تقدمًا على الروبوتات ، بحيث يكون لديهم أخيرًا عقل اصطناعي.

في ورقة قدمها مؤخرًا DeepMind ، ذكر الباحثون أن نموذج RT-2 يتم تدريبه بناءً على بيانات الشبكة والروبوت ، باستخدام التقدم البحثي لنماذج اللغة واسعة النطاق مثل Bard ، ودمجها مع بيانات الروبوت. النموذج الجديد يمكن أيضًا فهم التعليمات بلغات أخرى غير الإنجليزية.

يقول المسؤولون التنفيذيون في Google إن RT-2 يمثل قفزة نوعية في طريقة بناء الروبوتات وبرمجتها. يقول فينسينت فانهوك ، مدير الروبوتات في DeepMind التابع لشركة Google ، "بسبب هذا التغيير ، كان علينا إعادة التفكير في خطتنا البحثية بأكملها". "الكثير من الأشياء التي فعلتها من قبل لا جدوى منها على الإطلاق."

كيف يتم تنفيذ RT-2؟

يتم تفكيك RT-2 الخاص بـ DeepMind وقراءته على أنه Robotic Transformer - نموذج المحولات للروبوت.

ليس من السهل على الروبوتات فهم الكلام البشري وإثبات القدرة على البقاء كما هو الحال في أفلام الخيال العلمي. بالمقارنة مع البيئة الافتراضية ، فإن العالم المادي الحقيقي معقد وغير منظم ، وعادة ما تحتاج الروبوتات إلى تعليمات معقدة للقيام ببعض الأشياء البسيطة للبشر. بدلاً من ذلك ، يعرف البشر غريزيًا ما يجب عليهم فعله.

في السابق ، كان تدريب الروبوت يستغرق وقتًا طويلاً ، وكان على الباحثين بناء حلول لمهام مختلفة بشكل فردي ، ولكن مع قوة RT-2 ، يمكن للروبوت تحليل المزيد من المعلومات بنفسه واستنتاج ما يجب فعله بعد ذلك.

يعتمد RT-2 على نموذج لغة الرؤية (VLM) ويخلق مفهومًا جديدًا: نموذج الرؤية - اللغة - الإجراء (VLA) ، والذي يمكنه التعلم من بيانات الشبكة والروبوت والجمع بين هذه المعرفة. يتحكم. كان النموذج قادرًا حتى على استخدام إشارات سلسلة الأفكار مثل أي مشروب سيكون أفضل لشخص متعب (مشروبات الطاقة).

* هندسة RT-2 وعملية التدريب *

في الواقع ، في وقت مبكر من العام الماضي ، أطلقت Google إصدار RT-1 من الروبوت ، ولا يلزم سوى نموذج واحد مدرب مسبقًا ، ويمكن لـ RT-1 إنشاء تعليمات من مدخلات حسية مختلفة (مثل الرؤية والنص وما إلى ذلك. ) لتنفيذ مهام متعددة. نوع المهمة.

كنموذج مدرب مسبقًا ، يتطلب بطبيعة الحال الكثير من البيانات للتعلم تحت الإشراف الذاتي للبناء بشكل جيد. يعتمد RT-2 على RT-1 ويستخدم بيانات عرض RT-1 التي تم جمعها بواسطة 13 روبوتًا في بيئة مكتب ومطبخ على مدار 17 شهرًا.

DeepMind تم إنشاء نموذج VLA

لقد ذكرنا سابقًا أن RT-2 مبني على أساس VLM ، حيث تم تدريب نماذج VLM على بيانات مقياس الويب ويمكن استخدامها لأداء مهام مثل الإجابة على الأسئلة المرئية أو التعليق على الصور أو التعرف على الأشياء. بالإضافة إلى ذلك ، أجرى الباحثون أيضًا تعديلات تكيفية على نموذجي VLM المقترحين سابقًا PaLI-X (نموذج لغة المسارات والصورة) و PaLM-E (نموذج لغة المسارات المتجسد) ، باعتباره العمود الفقري لـ RT-2 ، وهذه النماذج هي الرؤية. إصدارات -Language-Movement تسمى RT-2-PaLI-X و RT-2-PaLM-E.

لكي يتمكن نموذج الرؤية واللغة من التحكم في الروبوت ، لا يزال من الضروري التحكم في الحركة. اتبعت الدراسة نهجًا بسيطًا للغاية: فقد مثلوا إجراءات الروبوت بلغة أخرى ، ورموز نصية ، وقاموا بتدريبهم باستخدام مجموعة بيانات لغة رؤية على نطاق الويب.

يعتمد ترميز الحركة للروبوت على طريقة التقسيم التي اقترحها Brohan et al. لنموذج RT-1.

كما هو موضح في الشكل أدناه ، يمثل هذا البحث إجراءات الروبوت كسلاسل نصية ، والتي يمكن أن تكون سلسلة من الأرقام المميزة لعمل الروبوت ، مثل "1128 91241 5101127217".

تبدأ السلسلة بعلامة تشير إلى ما إذا كان الروبوت يواصل أو ينهي الحلقة الحالية ، ويقوم الروبوت بعد ذلك بتغيير موضع ودوران المستجيب النهائي والأوامر مثل قابض الروبوت كما هو محدد.

نظرًا لأن الإجراءات يتم تمثيلها كسلاسل نصية ، فمن السهل على الروبوت تنفيذ أمر إجراء مثل أمر سلسلة. من خلال هذا التمثيل ، يمكننا ضبط نماذج لغة الرؤية الحالية وتحويلها إلى نماذج عمل الرؤية واللغة.

أثناء الاستدلال ، تتحلل الرموز النصية المميزة إلى إجراءات روبوتية لتحقيق التحكم في الحلقة المغلقة.

تجريبي

أجرى الباحثون سلسلة من التجارب النوعية والكمية على نموذج RT-2.

يوضح الشكل أدناه أداء RT-2 في الفهم الدلالي والتفكير الأساسي. على سبيل المثال ، بالنسبة لمهمة "وضع الفراولة في الوعاء الصحيح" ، لا يحتاج RT-2 إلى فهم تمثيل الفراولة والأوعية فحسب ، بل يحتاج أيضًا إلى التفكير في سياق المشهد لمعرفة أنه يجب وضع الفراولة مع ثمار متشابهة. بالنسبة لمهمة التقاط كيس على وشك السقوط من على الطاولة ، يحتاج RT-2 إلى فهم الخصائص الفيزيائية للكيس لإزالة اللبس بين الكيسين وتحديد الأشياء في مواضع غير مستقرة.

وتجدر الإشارة إلى أن جميع التفاعلات التي تم اختبارها في هذه السيناريوهات لم يتم رؤيتها مطلقًا في بيانات الروبوتات.

يوضح الشكل أدناه أن نموذج RT-2 يتفوق على RT-1 السابق وخطوط الأساس (VC-1) سابقة التدريب على أربعة معايير.

يحافظ RT-2 على أداء الروبوت في المهمة الأصلية ويحسن أداء الروبوت في السيناريوهات غير المرئية سابقًا ، من 32٪ إلى 62٪ لـ RT-1.

تظهر سلسلة من النتائج أن نموذج الرؤية واللغة (VLM) يمكن تحويله إلى نموذج قوي للرؤية واللغة والعمل (VLA) ، ويمكن التحكم في الروبوت مباشرة من خلال الجمع بين التدريب المسبق على VLM مع بيانات الروبوت.

على غرار ChatGPT ، إذا تم تطبيق مثل هذه القدرة على نطاق واسع ، فمن المقدر أن يخضع العالم لتغييرات كبيرة. ومع ذلك ، ليس لدى Google خطط فورية لتطبيق الروبوت RT-2 ، واكتفى بالقول إن الباحثين يعتقدون أن هذه الروبوتات القادرة على فهم الكلام البشري لن تتوقف أبدًا عند مستوى إظهار القدرات.

فقط تخيل روبوتًا به نموذج لغة مدمج يمكن وضعه في مستودع ، أو أخذ الدواء من أجلك ، أو حتى استخدامه كمساعد منزلي - طي الغسيل ، وإزالة العناصر من غسالة الأطباق ، والترتيب في جميع أنحاء المنزل.

قد يفتح هذا الباب حقًا أمام استخدام الروبوتات في بيئة بشرية ، ويمكن الاستغناء عن جميع الاتجاهات التي تتطلب عملاً يدويًا - أي ، في تقرير OpenAI السابق حول التنبؤ بتأثير ChatGPT على الوظائف ، الجزء الذي لا يستطيع النموذج الكبير القيام به. يمكن أن يتم تغطية التأثير الآن.

ذكاء مجسد ليس ببعيد عنا؟

في الآونة الأخيرة ، يعد الذكاء المتجسد اتجاهًا يستكشفه عدد كبير من الباحثين. أظهر فريق Li Feifei بجامعة ستانفورد هذا الشهر بعض النتائج الجديدة ، فمن خلال نموذج لغة كبير بالإضافة إلى نموذج لغة بصرية ، يمكن للذكاء الاصطناعي التحليل والتخطيط في مساحة ثلاثية الأبعاد وتوجيه إجراءات الروبوت.

أصدرت شركة Zhihui Jun العالمية للروبوتات البشرية "Agibot" مقطع فيديو الليلة الماضية ، والذي أظهر أيضًا إمكانات البرمجة التلقائية وتنفيذ المهام للروبوتات استنادًا إلى نماذج اللغات الكبيرة.