Langkah besar robot AGI Google: tim 54 orang ditahan selama 7 bulan, generalisasi yang kuat dan penalaran yang kuat, hasil baru setelah penggabungan DeepMind dan Google Brain

Gate Post

Terbaru

Rekomendasikan

Populer

Pindai kode QR untuk mengunduh aplikasi seluler

Pilih Bahasa dan Wilayah

简体中文 English Tiếng Việt 繁體中文 Español Русский Français (Afrique)Português (Portugal)ภาษาไทย Indonesia 日本語 عربي Українська Português (Brasil)

Langkah besar robot AGI Google: tim 54 orang ditahan selama 7 bulan, generalisasi yang kuat dan penalaran yang kuat, hasil baru setelah penggabungan DeepMind dan Google Brain

巴比特_

Sumber asli: Qubit

Model besar eksplosif membentuk kembali penelitian robot Google DeepMind.

Salah satu pencapaian terbaru adalah proyek robot RT-2, yang membutuhkan waktu 7 bulan untuk membuatnya, dan menjadi populer di Internet:

Seberapa efektif itu?

Beri perintah saja dalam bahasa manusia, dan si kecil di depannya bisa melambaikan tangan robotnya, berpikir dan menyelesaikan "tugas tuan".

Seperti memberi air kepada penyanyi pop Taylor Swift, atau mengidentifikasi logo tim bintang:

Ia bahkan dapat secara aktif berpikir dan membiarkannya "mengambil hewan yang punah", dan ia dapat secara akurat memilih dinosaurus dari tiga mainan plastik singa, paus, dan dinosaurus.

Menurut netizen, jangan remehkan kemampuan ini, ini adalah lompatan logis dari "binatang punah" menjadi "dinosaurus plastik".

Yang lebih "menakutkan" adalah ia dapat dengan mudah menyelesaikan masalah penalaran multi-tahap dari "memilih minuman untuk orang yang lelah" yang perlu digabungkan dengan rantai pemikiran--segera setelah perintah terdengar , si kecil akan langsung menuju ke Red Bull, Cuma jangan sok pinter.

Beberapa netizen mengeluh setelah membaca:

Tidak sabar, maju cepat ke mencuci piring untuk manusia (kepala anjing manual)

Dapat dipahami bahwa pencapaian Google DeepMind dihasilkan bersama oleh 54 peneliti, dan butuh waktu 7 bulan sebelum dan sesudahnya, sebelum akhirnya menjadi "sangat mudah" yang kami lihat.

Menurut New York Times, Vincent Vanhoucke, Direktur Robotika di Google DeepMind, percaya bahwa model besar telah sepenuhnya mengubah arah penelitian departemen mereka:

Karena perubahan (model besar) ini, kami harus memikirkan kembali seluruh proyek penelitian. Banyak hal yang telah kita pelajari sebelumnya telah gagal total.

Jadi, efek seperti apa yang bisa dicapai RT-2, dan penelitian ini tentang apa sebenarnya?

Pasang model besar multi-modal ke lengan robot

Proyek robot yang disebut RT-2 (Robotic Transformer 2) ini merupakan "versi evolusioner" dari RT-1 yang dirilis akhir tahun lalu.

Dibandingkan dengan penelitian robot lainnya, keunggulan utama RT-2 adalah tidak hanya dapat memahami "kata-kata manusia", tetapi juga alasan tentang "kata-kata manusia" dan mengubahnya menjadi instruksi yang dapat dipahami robot, sehingga dapat menyelesaikan tugas secara bertahap. .

Secara khusus, ia memiliki tiga kemampuan utama - pemahaman simbol (Pemahaman simbol), penalaran (Penalaran) dan pengenalan manusia (Pengenalan manusia).

Kemampuan pertama adalah "pemahaman simbolis", yang dapat secara langsung memperluas pengetahuan pra-pelatihan model besar ke data yang belum pernah dilihat robot sebelumnya. Misalnya, meskipun tidak ada "Red Bull" di database robot, ia dapat memahami dan memahami penampilan "Red Bull" dari pengetahuan model besar, dan menangani objek.

Kemampuan kedua adalah "penalaran", yang juga merupakan keunggulan inti RT-2, yang mengharuskan robot menguasai tiga keterampilan utama matematika, penalaran visual, dan pemahaman multibahasa.

Keahlian 1, termasuk perintah penalaran logis matematis, "taruh pisang dalam jumlah 2+1":

Keahlian Dua, Penalaran Visual, seperti "Taruh stroberi di mangkuk yang tepat":

Keahlian 3, pemahaman multibahasa, dapat menyelesaikan instruksi bahkan tanpa bahasa Inggris, misalnya, memerintahkannya dalam bahasa Spanyol untuk "memilih yang paling berbeda dari sekumpulan item":

Kemampuan ketiga adalah pengenalan manusia, yang secara akurat mengenali dan memahami perilaku manusia Contoh "menyerahkan air ke Taylor Swift" yang terlihat di awal adalah salah satu demonstrasi kemampuan.

Lantas, bagaimana ketiga kemampuan ini diwujudkan?

Sederhananya, itu untuk menggabungkan kemampuan "penalaran", "pengakuan", dan "matematika" dari model besar multimodal teks visual (VLM) dengan kemampuan operasi robot.

Untuk mencapai ini, para peneliti langsung menambahkan mode yang disebut "mode aksi robot" ke model besar teks visual (VLM), sehingga mengubahnya menjadi model besar aksi teks visual (VLA).

Selanjutnya, data aksi robot asli yang sangat spesifik diubah menjadi token teks.

Misalnya, data seperti derajat rotasi dan titik koordinat yang akan ditempatkan diubah menjadi teks “diletakkan pada posisi tertentu”.

Dengan cara ini, data robot juga dapat digunakan dalam dataset bahasa visual untuk pelatihan.Pada saat yang sama, dalam proses penalaran, instruksi teks asli akan diubah kembali menjadi data robot untuk mewujudkan serangkaian operasi seperti itu. sebagai pengontrol robot.

Itu benar, sesederhana itu dan kasar (kepala anjing manual)

Dalam penelitian ini, tim terutama "meningkatkan" berdasarkan serangkaian model skala besar dasar Google, termasuk 5 miliar dan 55 miliar PaLI-X, 3 miliar PaLI, dan 12 miliar PaLM-E.

Untuk meningkatkan kemampuan model besar itu sendiri, para peneliti juga telah berupaya keras, menggunakan rantai pemikiran yang baru-baru ini populer, basis data vektor, dan arsitektur tanpa gradien.

Rangkaian operasi ini juga memberikan banyak keuntungan baru bagi RT-2 dibandingkan dengan RT-1 yang dirilis tahun lalu.

Mari kita lihat hasil eksperimen spesifik.

Hingga tiga kali kinerja RT-1

RT-2 menggunakan data model robot generasi sebelumnya RT-1 untuk pelatihan (artinya, datanya tidak berubah, tetapi metodenya berbeda).

Data dikumpulkan selama periode 17 bulan menggunakan 13 robot di lingkungan dapur yang dipasang di kantor.

Dalam pengujian sebenarnya (total 6.000 kali), penulis memberikan RT-2 banyak objek yang sebelumnya tidak terlihat, membutuhkan RT-2 untuk melakukan pemahaman semantik di luar data fine-tuning untuk menyelesaikan tugas.

Hasilnya semua dilakukan dengan cukup baik:

Termasuk pengenalan huruf, bendera nasional, dan karakter sederhana hingga pengenalan hewan darat dari boneka, pemilihan boneka dengan warna berbeda, dan bahkan perintah rumit seperti mengambil makanan ringan yang akan jatuh dari meja.

Dari perspektif tiga subdivisi kemampuan pemahaman simbol, penalaran dan pengenalan manusia, dua varian RT-2 jauh lebih baik daripada RT-1 dan metode pra-pelatihan visual lainnya VC-1, dengan kinerja hingga 3 kali lipat .

Seperti disebutkan sebelumnya, kedua varian tersebut dilatih pada PaLM-E dengan 12 miliar parameter dan PaLI-X dengan masing-masing 55 miliar parameter.

Dalam hal evaluasi kemampuan generalisasi khusus, melalui tes subdivisi multi-kategori dengan model baseline ganda, akhirnya ditemukan bahwa kinerja RT-2 meningkat sekitar 2 kali lipat.

(Sayangnya, kami belum melihatnya dibandingkan dengan metode robot berbasis LLM terbaru dari tim lain)

Untuk lebih memahami bagaimana pengaturan RT-2 yang berbeda mempengaruhi hasil generalisasi, penulis merancang dua kategori evaluasi:

Pertama, dari segi ukuran model, hanya varian RT-2 PaLI-X yang menggunakan 5 miliar parameter dan 55 miliar parameter untuk pelatihan;

Yang kedua adalah metode pelatihan, yang mengadopsi metode pelatihan model dari awal vs penyempurnaan vs penyempurnaan kolaboratif.

Hasil akhir menunjukkan bahwa pentingnya bobot pra-pelatihan VLM dan kemampuan generalisasi model cenderung meningkat dengan ukuran model.

Selain itu, penulis juga mengevaluasi RT-2 pada benchmark tabel bahasa open source, dan hasilnya menunjukkan bahwa ia mencapai hasil SOTA pada benchmark yang disimulasikan (90% vs. 77% sebelumnya).

Terakhir, karena varian RT-2 PaLM-E adalah model tindakan-bahasa-visi yang dapat bertindak sebagai pengontrol LLM, VLM, dan robot dalam jaringan saraf tunggal, RT-2 juga dapat melakukan penalaran rantai pemikiran yang terkontrol.

Di antara lima tugas penalaran yang ditunjukkan pada gambar di bawah (terutama yang terakhir sangat menarik: pilih item yang dapat menggantikan palu), ini akan menampilkan langkah-langkah bahasa alami setelah menerima perintah, dan kemudian memberikan token tindakan tertentu.

Akhirnya, secara ringkas, model RT-2 terbaru ini tidak hanya dapat diterapkan dengan lebih baik ke pemandangan berbeda yang belum pernah dilihat mesin sebelumnya, tetapi juga memiliki kemampuan generalisasi yang lebih baik; pada saat yang sama, karena lebih baik Dengan restu model besar, itu juga menguasai beberapa kemampuan baru yang sulit, seperti penalaran.

Satu hal lagi

Fokus Google pada penelitian robotika pada model besar tampaknya tidak "tidak berdasar".

Hanya dalam dua hari terakhir, sebuah makalah tentang "Menggunakan Model Besar untuk Membantu Memperoleh Lebih Banyak Keterampilan Operasi Robot" yang ditulis bersama Universitas Columbia juga sangat populer:

Makalah ini mengusulkan kerangka kerja baru yang tidak hanya memungkinkan robot beradaptasi dengan baik pada model besar, tetapi juga mempertahankan kemampuan operasi dan kontrol dasar dari robot asli:

Tidak seperti RT-2, proyek ini bersifat open source:

Memang benar model besar itu digunakan untuk mendorong peningkatan seluruh departemen robot.

Mengingatkan pencapaian kecerdasan yang diwujudkan tim Li Feifei belum lama ini, dapat dikatakan bahwa menggunakan model besar untuk menggerakkan robot telah menjadi tren penelitian, dan kami telah melihat gelombang kemajuan yang sangat menjanjikan.

Apa harapan Anda untuk arah penelitian ini?

alamat proyek:

Tautan referensi:

[1]

[2]

[3]

[4]

Lihat Asli