Robot ChatGPT ada di sini: model besar memasuki dunia nyata, terobosan kelas berat DeepMind

Mengirim perintah ke robot tidak pernah semudah ini.

Kita tahu bahwa setelah menguasai bahasa dan gambar di Internet, model besar akhirnya akan memasuki dunia nyata, dan "kecerdasan yang terkandung" harus menjadi arah pengembangan selanjutnya.

Menghubungkan model besar ke robot, menggunakan bahasa alami yang sederhana alih-alih instruksi yang rumit untuk membentuk rencana tindakan tertentu, tanpa data dan pelatihan tambahan, visi ini terlihat bagus, tetapi tampaknya agak jauh. Lagi pula, bidang robotika terkenal sulit.

Namun, AI berkembang lebih cepat dari yang kita duga.

Jumat ini, Google DeepMind mengumumkan peluncuran RT-2: model Vision-Language-Action (VLA) pertama di dunia untuk mengendalikan robot.

Sekarang instruksi yang rumit tidak lagi digunakan, robot dapat dimanipulasi secara langsung seperti ChatGPT.

Seberapa cerdas RT-2? Peneliti DeepMind menunjukkannya dengan lengan robotik, menyuruh AI untuk memilih "binatang punah", lengannya terentang, cakarnya terbuka dan jatuh, dan ia meraih boneka dinosaurus itu.

Sebelumnya, robot tidak dapat memahami objek yang belum pernah mereka lihat secara andal, apalagi alasan tentang hal-hal seperti menghubungkan "binatang punah" dengan "boneka dinosaurus plastik".

Beri tahu robot untuk memberi Taylor Swift kaleng Coke:

Terlihat bahwa robot ini adalah penggemar sejati yang merupakan kabar baik bagi manusia.

Pengembangan model bahasa besar seperti ChatGPT memicu revolusi di bidang robot.Google telah memasang model bahasa tercanggih pada robot, sehingga mereka akhirnya memiliki otak buatan.

Dalam makalah yang baru-baru ini dikirimkan oleh DeepMind, para peneliti menyatakan bahwa model RT-2 dilatih berdasarkan data jaringan dan robot, menggunakan kemajuan penelitian model bahasa berskala besar seperti Bard, dan menggabungkannya dengan data robot. juga dapat Memahami instruksi dalam bahasa selain bahasa Inggris.

Eksekutif Google mengatakan RT-2 adalah lompatan kuantum dalam cara robot dibuat dan diprogram. "Karena perubahan ini, kami harus memikirkan kembali seluruh rencana penelitian kami," kata Vincent Vanhoucke, direktur robotika di Google DeepMind. "Banyak hal yang saya lakukan sebelumnya sama sekali tidak berguna."

**Bagaimana penerapan RT-2? **

RT-2 DeepMind dibongkar dan dibaca sebagai Robotic Transformer - model transformator robot.

Bukan tugas yang mudah bagi robot untuk memahami ucapan manusia dan mendemonstrasikan kemampuan bertahan hidup seperti di film-film fiksi ilmiah. Dibandingkan dengan lingkungan virtual, dunia fisik nyata itu rumit dan tidak teratur, dan robot biasanya memerlukan instruksi yang rumit untuk melakukan beberapa hal sederhana bagi manusia. Sebaliknya, manusia secara naluriah tahu apa yang harus dilakukan.

Sebelumnya, butuh waktu lama untuk melatih robot, dan peneliti harus membuat solusi untuk tugas yang berbeda secara individual, namun dengan kekuatan RT-2, robot dapat menganalisis lebih banyak informasi dengan sendirinya dan menyimpulkan apa yang harus dilakukan selanjutnya.

RT-2 dibangun di atas Vision-Language Model (VLM) dan menciptakan konsep baru: model Vision-Language-Action (VLA), yang dapat belajar dari data jaringan dan robot dan menggabungkan pengetahuan ini Terjemahkan ke dalam instruksi umum yang dapat dilakukan robot kontrol. Model tersebut bahkan dapat menggunakan isyarat rantai pemikiran seperti minuman mana yang terbaik untuk orang yang lelah (minuman berenergi).

Arsitektur RT-2 dan proses pelatihan

Faktanya, pada awal tahun lalu, Google meluncurkan robot versi RT-1. Hanya diperlukan satu model pra-terlatih, dan RT-1 dapat menghasilkan instruksi dari input sensorik yang berbeda (seperti penglihatan, teks, dll. ) untuk menjalankan banyak tugas. jenis tugas.

Sebagai model pra-pelatihan, secara alami membutuhkan banyak data untuk pembelajaran mandiri untuk membangun dengan baik. RT-2 dibangun di atas RT-1 dan menggunakan data demonstrasi RT-1 yang dikumpulkan oleh 13 robot di lingkungan kantor, dapur selama 17 bulan.

DeepMind membuat model VLA

Kami telah menyebutkan sebelumnya bahwa RT-2 dibangun berdasarkan VLM, di mana model VLM telah dilatih pada data skala Web dan dapat digunakan untuk melakukan tugas seperti menjawab pertanyaan visual, pembuatan subtitle gambar, atau pengenalan objek. Selain itu, para peneliti juga melakukan penyesuaian adaptif terhadap dua model VLM yang diusulkan sebelumnya PaLI-X (Pathways Language and Image model) dan PaLM-E (Pathways Language model Embodied), sebagai tulang punggung RT-2, dan model ini The Vision Versi -Language-Movement disebut RT-2-PaLI-X dan RT-2-PaLM-E.

Agar model bahasa penglihatan dapat mengontrol robot, masih diperlukan kontrol gerak. Studi ini mengambil pendekatan yang sangat sederhana: mereka mewakili tindakan robot dalam bahasa lain, token teks, dan melatihnya dengan kumpulan data bahasa visi skala web.

Pengkodean gerak untuk robot didasarkan pada metode diskritisasi yang diusulkan oleh Brohan et al., untuk model RT-1.

Seperti yang ditunjukkan pada gambar di bawah ini, penelitian ini merepresentasikan aksi robot sebagai string teks, yang dapat berupa urutan nomor token aksi robot, seperti "1 128 91 241 5 101 127 217".

String dimulai dengan bendera yang menunjukkan apakah robot melanjutkan atau mengakhiri episode saat ini, dan robot kemudian mengubah posisi dan rotasi efektor akhir dan perintah seperti gripper robot seperti yang ditunjukkan.

Karena tindakan direpresentasikan sebagai string teks, robot dapat dengan mudah menjalankan perintah tindakan sebagai perintah string. Dengan representasi ini, kita dapat langsung menyempurnakan model bahasa visi yang ada dan mengubahnya menjadi model bahasa visi tindakan.

Selama inferensi, token teks diuraikan menjadi tindakan robot untuk mencapai kontrol loop tertutup.

Eksperimental

Para peneliti melakukan serangkaian percobaan kualitatif dan kuantitatif pada model RT-2.

Gambar di bawah ini menunjukkan kinerja RT-2 pada pemahaman semantik dan penalaran dasar. Misalnya, untuk tugas "meletakkan stroberi ke dalam mangkuk yang benar", RT-2 tidak hanya perlu memahami representasi stroberi dan mangkuk, tetapi juga perlu menalar dalam konteks adegan untuk mengetahui bahwa stroberi harus diletakkan dengan buah yang serupa Bersama-sama. Untuk tugas mengambil tas yang akan jatuh dari meja, RT-2 perlu memahami sifat fisik tas untuk membedakan antara kedua tas dan mengidentifikasi objek yang posisinya tidak stabil.

Perlu dicatat bahwa semua interaksi yang diuji dalam skenario ini belum pernah terlihat dalam data robotika.

Gambar di bawah ini menunjukkan bahwa model RT-2 mengungguli RT-1 sebelumnya dan baseline vision pretrained (VC-1) pada empat tolok ukur.

RT-2 menjaga performa robot pada tugas aslinya dan meningkatkan performa robot pada skenario yang sebelumnya tidak terlihat, dari 32% menjadi 62% untuk RT-1.

Serangkaian hasil menunjukkan bahwa model bahasa visi (VLM) dapat diubah menjadi model aksi bahasa visi (VLA) yang kuat, dan robot dapat dikontrol langsung dengan menggabungkan pra-pelatihan VLM dengan data robot.

Mirip dengan ChatGPT, jika kemampuan seperti itu diterapkan dalam skala besar, diperkirakan dunia akan mengalami perubahan yang cukup besar. Namun, Google tidak memiliki rencana segera untuk menerapkan robot RT-2, hanya mengatakan bahwa para peneliti percaya bahwa robot yang dapat memahami ucapan manusia ini tidak akan pernah berhenti pada tingkat mendemonstrasikan kemampuan.

Bayangkan saja robot dengan model bahasa bawaan yang dapat ditempatkan di gudang, mengambil obat untuk Anda, atau bahkan digunakan sebagai asisten rumah—melipat cucian, mengeluarkan barang dari mesin pencuci piring, dan merapikan rumah.

Ini mungkin benar-benar membuka pintu untuk penggunaan robot di lingkungan manusia, dan semua arah yang membutuhkan tenaga kerja manual dapat diambil alih-yaitu, dalam laporan OpenAI sebelumnya tentang prediksi dampak ChatGPT pada pekerjaan, bagian yang tidak dapat dilakukan oleh model besar. mempengaruhi sekarang dapat ditutupi.

**Kecerdasan yang diwujudkan, tidak jauh dari kita? **

Baru-baru ini, kecerdasan yang terkandung adalah arah yang sedang dieksplorasi oleh banyak peneliti. Bulan ini, tim Li Feifei dari Stanford University mendemonstrasikan beberapa hasil baru: Melalui model bahasa besar plus model bahasa visual, AI dapat menganalisis dan merencanakan dalam ruang 3D dan memandu tindakan robot.

Perusahaan rintisan robot humanoid universal Zhihui Jun "Agibot" merilis video tadi malam, yang juga mendemonstrasikan pemrograman otomatis dan kemampuan eksekusi tugas robot berdasarkan model bahasa besar.

Diharapkan pada bulan Agustus, perusahaan Zhihui Jun akan mempersembahkan beberapa prestasi baru-baru ini kepada dunia luar.

Terlihat bahwa di bidang model besar, masih banyak hal besar yang akan terjadi.

*** Konten referensi: ***

Lihat Asli
  • Hadiah
  • Komentar
  • Bagikan
Komentar
Tidak ada komentar