Huang Renxun berbicara dengan tujuh penulis makalah Transformer: Kita terjebak dalam model asli dan membutuhkan arsitektur baru yang lebih kuat

![Huang Renxun berbicara dengan tujuh penulis makalah Transformer: Kita terjebak dalam model asli dan membutuhkan arsitektur baru yang lebih kuat](https://cdn-img.panewslab.com//panews/2022/3/23 /gambar/ 3209736c2376bc78f33a30e387cc4e77.jpeg)

Penulis: Guo Xiaojing

Sumber: Berita Tencent

Pada tahun 2017, sebuah makalah penting - "Attention is All You Need" diterbitkan. Ini memperkenalkan model Transformer berdasarkan mekanisme perhatian diri untuk pertama kalinya. Arsitektur inovatif ini menghilangkan batasan RNN dan CNN tradisional. Melalui mekanisme perhatian pemrosesan paralel, masalah ketergantungan jarak jauh diatasi secara efektif dan kecepatan pemrosesan data urutan meningkat secara signifikan. Struktur encoder-decoder Transformer dan mekanisme perhatian multi-kepala telah memicu badai di bidang kecerdasan buatan ChatGPT yang populer dibangun berdasarkan arsitektur ini.

Bayangkan model Transformer seperti otak Anda berbicara dengan seorang teman, memperhatikan setiap kata yang diucapkan orang lain pada saat yang sama dan memahami hubungan antara kata-kata tersebut. Ini memberi komputer kemampuan pemahaman bahasa seperti manusia. Sebelumnya, RNN adalah metode utama untuk memproses bahasa, namun kecepatan pemrosesan informasinya lambat, seperti pemutar kaset kuno yang harus diputar kata demi kata. Model Transformer seperti DJ yang efisien, mampu mengontrol beberapa lagu secara bersamaan dan dengan cepat menangkap informasi penting.

Kemunculan model Transformer telah sangat meningkatkan kemampuan komputer dalam memproses bahasa, menjadikan tugas-tugas seperti terjemahan mesin, pengenalan suara, dan peringkasan teks menjadi lebih efisien dan akurat. Ini merupakan lompatan besar bagi seluruh industri.

Inovasi ini merupakan hasil kerja sama delapan ilmuwan AI yang sebelumnya bekerja di Google. Tujuan awal mereka sederhana: meningkatkan layanan terjemahan mesin Google. Mereka ingin mesin dapat sepenuhnya memahami dan membaca seluruh kalimat, dibandingkan menerjemahkan kata demi kata secara terpisah. Konsep ini menjadi titik awal arsitektur “Transformer”—mekanisme “perhatian diri”. Atas dasar ini, kedelapan penulis ini menggunakan keahliannya masing-masing dan menerbitkan makalah "Attention Is All You Need" pada bulan Desember 2017, yang menjelaskan arsitektur Transformer secara detail dan membuka babak baru dalam AI generatif.

Dalam dunia AI generatif, Scaling Law adalah prinsip inti. Singkatnya, seiring dengan meningkatnya skala model Transformer, kinerjanya juga meningkat, namun hal ini juga berarti bahwa diperlukan sumber daya komputasi yang lebih kuat untuk mendukung model yang lebih besar dan jaringan yang lebih dalam, serta diperlukan layanan komputasi berkinerja tinggi.NVIDIA juga telah menjadi sebuah pemain kunci dalam gelombang AI ini.

Pada konferensi GTC tahun ini, Jen-Hsun Huang dari Nvidia mengundang tujuh penulis Transformer (Niki Parmar untuk sementara tidak dapat hadir karena alasan tertentu) untuk berpartisipasi dalam diskusi meja bundar secara seremonial.Ini adalah pertama kalinya ketujuh penulis tersebut berpartisipasi. mendiskusikan pekerjaan mereka di depan umum.Penampilan kelompok.

Mereka juga menyampaikan beberapa poin mengesankan selama percakapan:

  • Dunia membutuhkan sesuatu yang lebih baik daripada Transformer, dan saya pikir kita semua di sini berharap bahwa hal itu akan digantikan oleh sesuatu yang akan membawa kita ke tingkat kinerja yang baru.
  • Kami tidak berhasil mencapai tujuan awal kami. Niat awal kami memulai Transformer adalah untuk mensimulasikan proses evolusi Token. Ini bukan hanya proses pembuatan linier, tetapi evolusi teks atau kode selangkah demi selangkah.
  • Masalah sederhana seperti 2+2, yang mungkin menggunakan triliunan sumber daya parameter model besar. Saya pikir komputasi adaptif adalah salah satu hal berikutnya yang harus terjadi, di mana kita mengetahui berapa banyak sumber daya komputasi yang harus dikeluarkan untuk suatu masalah tertentu.
  • Menurut saya model saat ini terlalu terjangkau dan terlalu kecil.Harga sekitar $1 juta toke 100 kali lebih murah daripada keluar dan membeli buku bersampul tipis.

Berikut ini adalah konten sebenarnya:

Jensen Huang: Dalam enam puluh tahun terakhir, teknologi komputer sepertinya tidak mengalami perubahan mendasar, setidaknya sejak saya lahir. Sistem komputer yang kami gunakan saat ini, baik multitasking, pemisahan perangkat keras dan perangkat lunak, kompatibilitas perangkat lunak, kemampuan pencadangan data, dan keterampilan pemrograman insinyur perangkat lunak, pada dasarnya didasarkan pada prinsip desain IBM 360 - Central Processor, Bio subsistem, multitasking, perangkat keras dan perangkat lunak, kompatibilitas sistem perangkat lunak, dll.

Saya rasa komputasi modern tidak berubah secara mendasar sejak tahun 1964. Meskipun pada tahun 1980an dan 1990an, komputer mengalami transformasi besar-besaran menjadi bentuk yang kita kenal sekarang. Namun seiring berjalannya waktu, biaya marjinal komputer terus menurun, mengurangi biayanya sepuluh kali lipat setiap sepuluh tahun, seribu kali lipat dalam lima belas tahun, dan sepuluh ribu kali lipat dalam dua puluh tahun. Dalam revolusi komputer ini, pengurangan biaya sangat besar sehingga dalam dua dekade, harga komputer turun hampir 10.000 kali lipat.Perubahan ini membawa kekuatan yang sangat besar bagi masyarakat.

Coba bayangkan jika semua barang mahal dalam hidup Anda dikurangi menjadi sepersepuluh ribu dari nilai aslinya. Misalnya, mobil yang Anda beli seharga $200.000 dua puluh tahun yang lalu kini hanya berharga $1. Dapatkah Anda bayangkan perubahannya? ? Namun penurunan biaya komputer tidak terjadi dalam semalam, melainkan berangsur-angsur mencapai titik kritis, kemudian tren penurunan biaya tiba-tiba berhenti, terus membaik sedikit setiap tahun, namun laju perubahannya stagnan.

Kami mulai mengeksplorasi komputasi akselerasi, namun menggunakan komputasi akselerasi tidaklah mudah, Anda perlu mendesainnya sedikit demi sedikit dari awal. Di masa lalu, kita mungkin mengikuti langkah-langkah yang telah ditetapkan untuk memecahkan masalah selangkah demi selangkah, namun sekarang kita perlu mendesain ulang langkah-langkah tersebut. Ini adalah bidang ilmu yang benar-benar baru, memformulasikan ulang aturan-aturan sebelumnya ke dalam algoritma paralel.

Kami menyadari hal ini dan percaya bahwa jika kami dapat mempercepat bahkan 1% kode dan menghemat 99% waktu proses, maka akan ada aplikasi yang mendapat manfaat darinya. Tujuan kami adalah membuat hal yang tidak mungkin menjadi mungkin, atau membuat hal yang mungkin menjadi tidak mungkin, atau membuat hal yang sudah mungkin menjadi lebih efisien. Inilah yang dimaksud dengan komputasi yang dipercepat.

Melihat kembali sejarah perusahaan, kami melihat kemampuan kami untuk mempercepat berbagai aplikasi. Awalnya kami mencapai akselerasi yang signifikan di bidang game, begitu efektif hingga orang salah mengira kami adalah perusahaan game. Namun kenyataannya, tujuan kami lebih dari itu, karena pasar ini sangat besar dan cukup besar untuk mendorong kemajuan teknologi yang luar biasa. Situasi ini tidak umum, namun kami menemukan kasus khusus.

Singkat cerita, pada tahun 2012, AlexNet memicu percikan, yang merupakan benturan pertama antara kecerdasan buatan dan GPU NVIDIA. Ini menandai awal dari perjalanan luar biasa kami di bidang ini. Beberapa tahun kemudian, kami menemukan skenario penerapan sempurna yang meletakkan dasar bagi keberadaan kami saat ini.

Singkatnya, pencapaian ini menjadi landasan bagi pengembangan kecerdasan buatan generatif. AI generatif tidak hanya dapat mengenali gambar, tetapi juga mengubah teks menjadi gambar dan bahkan membuat konten baru. Kami sekarang memiliki kemampuan teknis yang cukup untuk memahami piksel, mengidentifikasinya, dan memahami makna di baliknya. Melalui makna di baliknya, kita bisa membuat konten baru. Kemampuan kecerdasan buatan untuk memahami makna di balik data merupakan perubahan besar.

Kami punya alasan untuk percaya bahwa ini adalah awal dari revolusi industri baru. Dalam revolusi ini, kami menciptakan sesuatu yang belum pernah dilakukan sebelumnya. Misalnya, pada revolusi industri sebelumnya, air adalah sumber energi, air masuk ke perangkat yang kita buat, generator mulai bekerja, air masuk dan listrik keluar, seperti sihir.

AI Generatif adalah "perangkat lunak" baru yang dapat membuat perangkat lunak, dan bergantung pada upaya bersama dari banyak ilmuwan. Bayangkan Anda memberikan bahan mentah kepada AI - data, dan mereka memasuki "gedung" - mesin yang kita sebut GPU, dan mesin tersebut dapat memberikan hasil yang menakjubkan. Teknologi ini mengubah segalanya dan kita menyaksikan lahirnya “pabrik AI”.

Perubahan ini bisa disebut sebagai revolusi industri baru. Kita belum pernah benar-benar mengalami perubahan seperti ini di masa lalu, namun kini perubahan itu perlahan terjadi di hadapan kita. Jangan lewatkan sepuluh tahun ke depan, karena dalam sepuluh tahun ini kita akan menciptakan produktivitas yang sangat besar. Pendulum waktu telah mulai bergerak, dan peneliti kami sudah mengambil tindakan.

Hari ini kami mengundang pencipta Tansformer untuk mendiskusikan ke mana AI generatif akan membawa kita di masa depan.

mereka:

Ashish Vaswani: Bergabung dengan tim Google Brain pada tahun 2016. Pada bulan April 2022, ia mendirikan Adept AI bersama Niki Parmar, keluar dari perusahaan pada bulan Desember tahun yang sama, dan ikut mendirikan startup kecerdasan buatan lainnya, Essential AI.

Niki Parmar: bekerja di Google Brain selama empat tahun sebelum mendirikan Adept AI dan Essential AI bersama Ashish Vaswani.

Jakob Uszkoreit: Bekerja di Google dari tahun 2008 hingga 2021. Dia meninggalkan Google pada tahun 2021 dan ikut mendirikan Inceptive. Bisnis utama perusahaan ini adalah ilmu kehidupan kecerdasan buatan dan berkomitmen untuk menggunakan jaringan saraf dan eksperimen throughput tinggi untuk merancang molekul RNA generasi berikutnya.

Illia Polosukhin: Bergabung dengan Google pada tahun 2014 dan merupakan salah satu orang pertama yang keluar dari tim beranggotakan delapan orang tersebut. Pada tahun 2017, ia ikut mendirikan perusahaan blockchain NEAR Protocol.

Noam Shazeer: bekerja di Google dari tahun 2000 hingga 2009 dan dari tahun 2012 hingga 2021. Pada tahun 2021, Shazeer meninggalkan Google dan mendirikan Character.AI bersama mantan insinyur Google Daniel De Freitas.

**Llion Jones: **Bekerja di Delcam dan YouTube. Bergabung dengan Google pada tahun 2012 sebagai insinyur perangkat lunak. Kemudian, dia meninggalkan Google dan mendirikan start-up kecerdasan buatan sakana.ai.

Lukasz Kaiser: Mantan peneliti di Pusat Penelitian Ilmiah Nasional Prancis. Bergabung dengan Google pada tahun 2013. Pada tahun 2021, ia meninggalkan Google dan menjadi peneliti di OpenAI.

Aidan Gomez: lulus dari Universitas Toronto, Kanada. Saat makalah Transformer diterbitkan, dia masih magang di tim Google Brain. Dia adalah orang kedua dari tim beranggotakan delapan orang yang meninggalkan Google. Pada tahun 2019, ia ikut mendirikan Cohere.

![Huang Renxun berbicara dengan tujuh penulis makalah Transformer: Kita terjebak dalam model asli dan membutuhkan arsitektur baru yang lebih kuat](https://cdn-img.panewslab.com//panews/2022/3/23 /gambar/ e2cb0168e261ffba0c0ea67a5502acf8.png)

Renxun Huang: Saat saya duduk di sini hari ini, mohon secara aktif memperjuangkan kesempatan untuk berbicara. Tidak ada topik yang tidak dapat didiskusikan di sini. Anda bahkan dapat melompat dari kursi Anda untuk mendiskusikan suatu masalah. Mari kita mulai dengan pertanyaan paling mendasar, masalah apa yang Anda temui saat itu, dan apa yang menginspirasi Anda menjadi seorang Transformer?

Illia Polosukhin: Jika Anda ingin merilis model yang benar-benar dapat membaca hasil pencarian, misalnya memproses tumpukan dokumen, Anda memerlukan beberapa model yang dapat memproses informasi ini dengan cepat. Jaringan saraf berulang (RNN) pada saat itu tidak dapat memenuhi kebutuhan tersebut.

Memang benar bahwa meskipun jaringan saraf berulang (RNN) dan beberapa mekanisme perhatian awal (Arnens) menarik perhatian pada saat itu, mereka masih memerlukan pembacaan kata demi kata, yang tidak efisien.

Jakob Uszkoreit: Kecepatan kami menghasilkan data pelatihan jauh melebihi kemampuan kami untuk melatih arsitektur canggih. Faktanya, kami menggunakan arsitektur yang lebih sederhana, seperti jaringan feed-forward dengan n-gram sebagai fitur input. Arsitektur ini sering kali mengungguli model yang lebih kompleks dan canggih karena mereka berlatih lebih cepat, setidaknya pada data pelatihan dalam skala besar di Google.

RNN yang kuat pada saat itu, terutama jaringan memori jangka pendek (LSTM), sudah ada.

Noam Shazeer: Sepertinya ini adalah isu yang hangat. Kami mulai memperhatikan undang-undang penskalaan ini sekitar tahun 2015, dan Anda dapat melihat bahwa seiring dengan bertambahnya ukuran model, kecerdasan model juga meningkat. Ini seperti masalah terbaik dalam sejarah dunia, sangat sederhana: Anda hanya memprediksi token berikutnya, dan itu akan menjadi sangat cerdas dan mampu melakukan jutaan hal berbeda, dan Anda hanya ingin meningkatkannya dan membuatnya lebih baik.

Yang membuat frustrasi terbesar adalah RNN terlalu merepotkan untuk ditangani. Dan kemudian saya mendengar orang-orang ini berbicara tentang, hei, mari kita ganti ini dengan konvolusi atau mekanisme perhatian. Saya pikir, bagus, ayo kita lakukan ini. Saya suka membandingkan Transformer dengan lompatan dari mesin uap ke mesin pembakaran internal. Kita bisa menyelesaikan revolusi industri dengan mesin uap, tapi itu akan sangat menyakitkan, dan mesin pembakaran internal membuat segalanya lebih baik.

Ashish Vaswani: Saya mulai mempelajari beberapa pelajaran sulit selama tahun-tahun pascasarjana saya, terutama ketika saya mengerjakan terjemahan mesin. Saya menyadari, hei, saya tidak akan mempelajari aturan bahasa yang rumit itu. Menurut saya Gradient Descent - cara kami melatih model ini - adalah guru yang lebih baik daripada saya. Jadi saya tidak akan mempelajari aturannya, saya hanya akan membiarkan Gradient Descent melakukan semua pekerjaan untuk saya, dan itulah pelajaran kedua saya.

Apa yang saya pelajari dari pengalaman pahit adalah bahwa arsitektur umum yang dapat berkembang pada akhirnya akan unggul dalam jangka panjang. Saat ini mungkin berupa token, besok mungkin berupa tindakan yang kita lakukan di komputer, dan mereka akan mulai meniru aktivitas kita dan dapat mengotomatiskan banyak pekerjaan yang kita lakukan. Seperti yang telah kita bahas, Transformer, terutama mekanisme perhatian mandirinya, memiliki penerapan yang sangat luas, dan juga membuat penurunan gradien menjadi lebih baik. Hal lainnya adalah fisika, karena satu hal yang saya pelajari dari Noam adalah perkalian matriks adalah ide yang bagus.

Noam Shazeer: Pola ini terus berulang. Jadi setiap kali Anda menambahkan banyak aturan, penurunan gradien akan menjadi lebih baik dalam mempelajari aturan tersebut daripada Anda. Itu dia. Sama seperti pembelajaran mendalam yang telah kami lakukan, kami sedang membangun model AI yang berbentuk seperti GPU. Dan sekarang, kami sedang membangun model AI yang berbentuk seperti superkomputer. Ya, superkomputer adalah modelnya sekarang. Ya, ini benar. Ya. Superkomputer Sekadar memberi tahu Anda, kami sedang membangun superkomputer menjadi bentuk model.

** Jen-Hsun Huang: Jadi masalah apa yang ingin Anda selesaikan? **

Lukasz Kaiser: Terjemahan Mesin. Jika dipikir kembali ke lima tahun yang lalu, proses ini terasa sangat sulit. Anda harus mengumpulkan data, mungkin menerjemahkannya, dan hasilnya mungkin hanya sedikit yang benar. Levelnya saat itu masih sangat dasar. Namun kini, model ini dapat belajar menerjemahkan meski tanpa data. Anda cukup menyediakan satu bahasa dan bahasa lain, dan model belajar menerjemahkan sendiri, dan kemampuan itu muncul secara alami dan memuaskan.

Llion Jones: Tapi intuisi "Perhatian" adalah semua yang Anda butuhkan. Jadi saya membuat judul ini, dan pada dasarnya yang terjadi adalah ketika kami sedang mencari judul.

Kami baru saja melakukan ablasi dan mulai membuang potongan-potongan model hanya untuk melihat apakah kondisinya akan menjadi lebih buruk. Yang mengejutkan kami, keadaannya mulai membaik. Jauh lebih baik untuk membuang semua konvolusi seperti ini. Jadi dari situlah judulnya berasal.

Ashish Vaswani: Pada dasarnya yang menarik adalah kami memulai dengan kerangka kerja yang sangat mendasar dan kemudian kami menambahkan banyak hal, kami menambahkan konvolusi dan kemudian saya kira kami menghilangkannya. Ada juga banyak hal lain yang sangat penting seperti perhatian multi-kepala.

** Jensen Huang: Siapa yang mencetuskan nama Transformer? Mengapa disebut Transformator? **

Jakob Uszkoreit: Kami menyukai nama ini. Kami mengambilnya secara acak dan menganggapnya sangat kreatif. Nama ini mengubah model produksi data kami dan menggunakan logika seperti itu. Semua pembelajaran mesin adalah Transformer dan pengganggu.

Noam Shazeer: Kami belum pernah memikirkan nama ini sebelumnya, menurut saya nama ini sangat sederhana, dan banyak orang menganggap nama ini sangat bagus. Saya memikirkan banyak nama sebelumnya, seperti Yaakov, dan akhirnya memilih "Transformer", yang menjelaskan prinsip model. Ini benar-benar mengubah seluruh sinyal. Menurut logika ini, hampir semua pembelajaran mesin akan diubah.

Llion Jones: Alasan mengapa Transformer menjadi nama yang familiar bukan hanya karena isi terjemahannya, tetapi juga karena kami ingin menggambarkan transformasi ini secara lebih umum. Saya rasa kami tidak melakukan pekerjaan dengan baik, namun sebagai pembuat perubahan, sebagai pengemudi dan mesin, hal ini masuk akal. Setiap orang dapat memahami model bahasa, mesin, dan logika yang begitu besar.Dari perspektif arsitektur, ini adalah periode permulaan yang relatif awal.

Namun kami menyadari bahwa kami sebenarnya mencoba menciptakan sesuatu yang sangat, sangat serbaguna yang benar-benar dapat mengubah apa pun menjadi sesuatu yang lain. Dan saya rasa kami tidak memperkirakan betapa bagusnya hal ini ketika Transformers digunakan untuk gambar, dan hal ini agak mengejutkan. Ini mungkin tampak logis bagi Anda, tetapi sebenarnya, Anda dapat mengelompokkan gambar dan memberi label pada setiap titik kecil, bukan. Saya pikir ini adalah sesuatu yang sudah ada sejak awal dalam arsitektur.

Jadi saat kami membangun pustaka tensor-ke-tensor, yang sebenarnya kami fokuskan adalah meningkatkan pelatihan autoregresif. Bukan hanya bahasa, tapi juga gambar, komponen audio.

Jadi Lukasz mengatakan yang dia lakukan adalah menerjemahkan. Saya pikir dia meremehkan dirinya sendiri, dan semua ide ini, kita sekarang mulai melihat pola-pola ini bersatu, semuanya menambah model.

Tapi sungguh, semuanya sudah ada sejak awal dan ide-idenya mulai meresap dan itu membutuhkan waktu. Tujuan Lukasz adalah kita memiliki semua kumpulan data akademis mulai dari gambar ke teks, teks ke gambar, audio ke teks, teks ke teks. Kita harus berlatih untuk segalanya.

Ide ini benar-benar mendorong pekerjaan perluasan, dan akhirnya berhasil, dan sangat menarik sehingga kami dapat menerjemahkan gambar menjadi teks, teks menjadi gambar, dan teks menjadi teks.

Anda menggunakannya untuk mempelajari biologi, atau perangkat lunak biologi, yang mungkin mirip dengan perangkat lunak komputer yang dimulai sebagai sebuah program dan kemudian Anda mengkompilasinya menjadi sesuatu yang dapat dijalankan pada GPU.

Kehidupan perangkat lunak biologis dimulai dengan spesifikasi perilaku tertentu. Katakanlah Anda ingin mencetak suatu protein, seperti protein tertentu di dalam sel. Lalu Anda belajar cara menggunakan pembelajaran mendalam untuk mengubahnya menjadi molekul RNA, namun sebenarnya menunjukkan perilaku ini setelah ia masuk ke dalam sel Anda. Jadi idenya bukan hanya tentang menerjemahkan ke dalam bahasa Inggris.

**Jensen Huang: Apakah Anda membuat laboratorium besar untuk memproduksi semua ini? **

Aidan Gomez: Banyak hal yang tersedia dan sebenarnya tetap tersedia untuk umum karena sebagian besar data ini masih didanai publik. Namun kenyataannya, Anda tetap memerlukan data untuk menggambarkan dengan jelas fenomena yang ingin Anda capai.

Mencoba membuat model dalam produk tertentu, misalnya ekspresi protein dan vaksin mRNA dan sejenisnya, atau ya, di Palo Alto kita memiliki banyak robot dan orang-orang berjas lab, keduanya mempelajari personel peneliti, termasuk mantan ahli biologi.

Sekarang, kami menganggap diri kami sebagai pionir dari sesuatu yang baru, berupaya untuk benar-benar menciptakan data ini dan memvalidasi model yang merancang molekul-molekul ini. Tapi ide awalnya adalah menerjemahkan.

** Jen-Hsun Huang: Ide awalnya adalah terjemahan mesin. Yang ingin saya tanyakan adalah, apa saja titik kunci yang terlihat dalam penguatan dan terobosan arsitektur? Dan apa dampaknya terhadap desain Transformer? **

Aidan Gomez: Sepanjang perjalanan, Anda semua telah melihatnya. Apakah menurut Anda benar-benar ada kontribusi tambahan yang besar selain desain dasar Transformer? Menurut saya, dari sisi inferensi, banyak upaya yang dilakukan untuk mempercepat model ini dan membuatnya lebih efisien.

Saya masih berpikir itu sedikit mengganggu saya karena betapa miripnya bentuk asli kami. Saya pikir dunia membutuhkan sesuatu yang lebih baik daripada Transformer, dan saya pikir kita semua di sini ingin hal itu digantikan oleh sesuatu yang membawa kita ke tingkat kinerja yang baru.

Saya ingin mengajukan pertanyaan kepada semua orang di sini. Menurutmu apa yang akan terjadi nanti? Sepertinya ini langkah yang menarik karena menurut saya sangat mirip dengan hal-hal yang terjadi 6-7 tahun yang lalu, bukan?

Llion Jones: Ya, saya pikir orang-orang akan terkejut melihat betapa miripnya yang Anda katakan, bukan? Orang-orang suka bertanya kepada saya apa yang terjadi selanjutnya karena sayalah penulis makalah ini. Seperti sulap, Anda mengayunkan tongkat ajaib dan apa yang terjadi selanjutnya? Yang ingin saya tunjukkan adalah bagaimana prinsip khusus ini dirancang. Kita tidak hanya perlu menjadi lebih baik, kita juga harus terbukti lebih baik.

Karena jika hanya sedikit lebih baik, itu tidak cukup untuk mendorong seluruh industri AI menuju sesuatu yang baru. Jadi kami terjebak dengan model aslinya, meskipun secara teknis itu mungkin bukan model paling kuat yang kami miliki saat ini.

Namun semua orang tahu alat pribadi seperti apa yang mereka inginkan, Anda menginginkan jendela kontekstual yang lebih baik, Anda menginginkan kemampuan untuk menghasilkan token lebih cepat. Saya tidak yakin apakah Anda menyukai jawaban ini, tetapi saat ini mereka menggunakan terlalu banyak sumber daya komputasi. Saya pikir orang-orang melakukan banyak perhitungan yang sia-sia. Kami bekerja keras untuk meningkatkan efisiensi, terima kasih.

** Jensen Huang: Saya rasa kami membuat ini lebih efektif, terima kasih! **

Jakob Uszkoreit: Namun menurut saya, yang terpenting adalah bagaimana sumber daya didistribusikan, bukan berapa banyak sumber daya yang dikonsumsi secara total. Misalnya, kita tidak ingin mengeluarkan terlalu banyak uang untuk suatu permasalahan yang mudah, atau mengeluarkan terlalu sedikit uang untuk suatu permasalahan yang terlalu sulit dan akhirnya tidak mendapatkan solusi.

Illiya Polosukhin: Contoh ini seperti 2+2, jika Anda memasukkannya ke dalam model ini dengan benar, ia menggunakan satu triliun parameter. Jadi menurut saya komputasi adaptif adalah salah satu hal yang harus dilakukan berikutnya, di mana kita mengetahui berapa banyak sumber daya komputasi yang harus dikeluarkan untuk suatu masalah tertentu.

Aidan Gomez: Kita tahu seberapa besar kemampuan generasi komputer yang kita miliki saat ini. Saya pikir ini adalah masalah yang perlu difokuskan selanjutnya. Saya pikir ini adalah perubahan tingkat kosmik dan ini juga merupakan tren pembangunan di masa depan.

Lukasz Kaiser: Konsep ini sudah ada sebelum Transformer, dan diintegrasikan ke dalam model Transformer. Faktanya, saya tidak yakin apakah semua orang di sini tahu bahwa kami tidak berhasil mencapai tujuan awal kami. Niat awal kami memulai proyek ini adalah untuk mensimulasikan proses evolusi Token. Ini bukan hanya proses pembuatan linier, tetapi evolusi teks atau kode selangkah demi selangkah. Kami mengulangi, kami mengedit, yang memungkinkan kami tidak hanya meniru cara manusia mengembangkan teks, namun juga menggunakannya sebagai bagian dari proses tersebut. Karena jika Anda bisa membuat konten sealami manusia, mereka pasti bisa memberikan feedback, bukan?

Kami semua telah membaca makalah Shannon, dan ide awal kami adalah fokus pada pemodelan bahasa dan kebingungan, namun hal itu tidak terjadi. Saya pikir ini juga merupakan tempat kita dapat mengembangkan lebih jauh. Ini juga tentang bagaimana kita sekarang mengatur sumber daya komputasi secara cerdas, dan organisasi ini sekarang juga berlaku untuk pemrosesan gambar. Maksud saya, model difusi memiliki sifat menarik karena dapat terus menyempurnakan dan meningkatkan kualitasnya melalui iterasi. Dan saat ini kami tidak memiliki kemampuan seperti itu.

Maksud saya, pertanyaan mendasar ini: Pengetahuan apa yang harus dimasukkan ke dalam model dan pengetahuan apa yang harus ada di luar model? Apakah Anda menggunakan model pengambilan? Model RAG (Retri-Augmented Generation) adalah contohnya. Demikian pula, hal ini juga melibatkan pertanyaan tentang inferensi, yaitu tugas inferensi mana yang harus dilakukan secara eksternal melalui sistem simbolik dan tugas inferensi mana yang harus dilakukan secara langsung di dalam model. Ini adalah diskusi tentang efisiensi. Saya yakin model besar pada akhirnya akan mempelajari cara melakukan penghitungan seperti 2+2, tetapi jika Anda ingin menghitung 2+2 dan melakukannya dengan menjumlahkan angka, itu jelas tidak efisien.

** Jen-Hsun Huang: Jika AI hanya perlu menghitung 2+2, maka AI harus langsung menggunakan kalkulator untuk menyelesaikan tugas ini dengan energi paling sedikit, karena kita tahu bahwa kalkulator adalah alat yang paling efektif untuk melakukan perhitungan 2+2. Namun, jika ada yang bertanya kepada AI, bagaimana Anda sampai pada keputusan 2+2? Tahukah Anda bahwa 2+2 adalah jawaban yang benar? Apakah ini akan menghabiskan banyak sumber daya? **

![Huang Renxun berbicara dengan tujuh penulis makalah Transformer: Kita terjebak dalam model asli dan membutuhkan arsitektur baru yang lebih kuat](https://cdn-img.panewslab.com//panews/2022/3/23 /gambar/ 943398d349cf0e17db81b1469281b267.png)

Noam Shazeer: Tepat sekali. Anda menyebutkan contohnya sebelumnya, tetapi saya juga yakin bahwa sistem AI yang dikembangkan semua orang di sini cukup pintar untuk menggunakan kalkulator secara aktif.

Barang publik global (GPP) saat ini melakukan hal tersebut. Menurut saya model saat ini terlalu terjangkau dan terlalu kecil. Alasan murahnya karena teknologi seperti NV, berkat keluarannya.

Biaya komputasi per operasi adalah sekitar $10 hingga $18. Dengan kata lain, kira-kira pada tingkat ini. Terima kasih telah menciptakan begitu banyak sumber daya komputasi. Namun jika Anda melihat model dengan 500 miliar parameter dan satu triliun perhitungan per token, itu berarti sekitar satu dolar per juta token, yang 100 kali lebih murah daripada keluar dan membeli buku bersampul tipis dan membacanya. Aplikasi kami jutaan kali lebih berharga daripada komputasi efisien pada jaringan saraf raksasa. Maksud saya, obat-obatan tersebut tentu saja lebih berharga daripada obat seperti menyembuhkan kanker, namun lebih dari itu.

Ashish Vaswani: Saya pikir menjadikan dunia lebih pintar berarti bagaimana mendapatkan masukan dari dunia dan apakah kita dapat mencapai paralelisasi multi-tasking dan multi-jalur. Jika Anda benar-benar ingin membuat model seperti itu, ini adalah cara yang bagus untuk membantu kami merancang model seperti itu.

** Jensen Huang: Bisakah Anda dengan cepat menjelaskan alasan Anda memulai perusahaan Anda? **

Ashish Vaswani: Di perusahaan kami, tujuan kami adalah membangun model dan menyelesaikan tugas-tugas baru. Tugas kami adalah memahami tujuan dan isi tugas serta menyesuaikan konten tersebut untuk memenuhi kebutuhan klien. Faktanya, mulai tahun 2021, saya menemukan bahwa masalah terbesar dengan model adalah Anda tidak bisa hanya membuat model menjadi lebih pintar, Anda juga perlu menemukan orang yang tepat untuk menafsirkan model tersebut. Kami berharap dapat membuat dunia dan model saling terkait, menjadikan model lebih besar dan lebih menonjol. Ada sejumlah kemajuan tertentu yang diperlukan dalam proses pembelajaran yang tidak dapat dicapai pada awalnya di lingkungan vakum laboratorium.

Noam Shazeer: Pada tahun 2021, kami ikut mendirikan perusahaan ini. Kita punya teknologi yang hebat, tapi belum menjangkau banyak orang. Bayangkan jika saya adalah seorang pasien yang mendengar Anda mengatakan ini, saya akan berpikir ada puluhan miliar orang dengan tugas berbeda yang harus mereka selesaikan. Inilah yang dimaksud dengan pembelajaran mendalam, kami meningkatkan teknologi melalui perbandingan. Faktanya, karena perkembangan teknologi yang berkelanjutan, yang didorong oleh Jensen Huang, tujuan utama kami adalah membantu orang-orang di seluruh dunia. Anda harus mengujinya, dan sekarang kami perlu mengembangkan solusi yang lebih cepat yang memungkinkan ratusan orang menggunakan aplikasi ini. Seperti pada awalnya, tidak semua orang menggunakan aplikasi ini, banyak orang menggunakannya hanya untuk bersenang-senang, namun ternyata berhasil, berhasil.

Jakob Uszkoreit: Terima kasih. Saya ingin berbicara tentang sistem perangkat lunak ekologi yang kami buat. Pada tahun 2021, saya ikut mendirikan perusahaan ini, dan tujuan kami adalah memecahkan beberapa masalah dengan dampak ilmiah yang nyata. Di masa lalu, kami berurusan dengan konten yang cukup kompleks. Namun ketika saya mempunyai anak pertama, cara saya memandang dunia berubah. Kami berharap dapat membuat hidup manusia lebih nyaman dan berkontribusi pada penelitian protein. Apalagi setelah memiliki anak, saya berharap dapat mengubah struktur kedokteran yang ada, dan berharap perkembangan ilmu pengetahuan dan teknologi dapat memberikan dampak positif bagi kelangsungan dan perkembangan manusia. Misalnya, struktur dan dekonstruksi protein telah terpengaruh sampai batas tertentu, namun saat ini kami kekurangan data. Kita harus mendasarkan upaya kita pada data, bukan hanya sebagai tugas tetapi sebagai seorang ayah.

** Jen-Hsun Huang: Saya menyukai sudut pandang Anda. Saya selalu tertarik dengan desain obat-obatan baru dan proses membiarkan komputer belajar bagaimana mengembangkan dan menghasilkan obat-obatan baru. Jika obat-obatan baru dapat dipelajari dan dirancang, dan laboratorium dapat mengujinya, maka akan mungkin untuk menentukan apakah model seperti itu akan berhasil. **

Llion JonesLlion Jones: Ya, saya orang terakhir yang berbagi. Perusahaan yang kami dirikan bersama bernama Sakana AI, yang artinya "ikan". Alasan mengapa kami menamai perusahaan kami dengan nama "ikan" Jepang adalah karena kami seperti sekumpulan ikan, yang secara alami menginspirasi kami untuk menemukan kecerdasan. Jika kita bisa menggabungkan banyak elemen yang diperiksa, kita bisa menciptakan sesuatu yang kompleks dan indah. Banyak yang mungkin tidak memahami secara spesifik proses dan isinya, namun filosofi inti kami secara internal adalah "Belajar Selalu Menang."

Apakah Anda ingin memecahkan suatu masalah atau ingin mempelajari sesuatu, belajar akan selalu membantu Anda menang. Dalam proses AI generatif, konten pembelajaran juga akan membantu kita menang. Sebagai peneliti yang hadir, saya ingin mengingatkan semua orang bahwa kita memberikan makna nyata pada model AI komputer, sehingga model tersebut benar-benar dapat membantu kita memahami misteri alam semesta. Sebenarnya, saya juga ingin memberi tahu Anda bahwa kami akan mengumumkan perkembangan baru yang sangat kami sukai. Meskipun kami kini memiliki kumpulan penelitian sebagai landasannya, kami mengalami perkembangan transformatif di mana pengelolaan model saat ini diorganisasikan dan memungkinkan orang untuk benar-benar terlibat. Kami menjadikan model ini lebih layak, menggunakan model besar dan model transformatif untuk mengubah cara orang memahami dunia dan alam semesta. ini adalah sasaran kami.

Aidan Gomez: Niat awal saya memulai perusahaan ini mirip dengan niat Noam Shazeer. Saya pikir komputasi sedang memasuki paradigma baru yang mengubah produk yang sudah ada dan cara kita bekerja. Semuanya berbasis komputer, dan itu berubah dalam teknologi sampai batas tertentu. Apa peran kita? Saya sebenarnya menjembatani kesenjangan, menjembatani jurang. Kita dapat melihat berbagai perusahaan menciptakan platform seperti itu, memungkinkan setiap perusahaan untuk beradaptasi dan mengintegrasikan produk, yang merupakan cara untuk berhadapan langsung dengan pengguna. Inilah cara kami memajukan teknologi dan menjadikannya lebih terjangkau dan lebih mudah diakses di mana-mana.

** Jensen Huang: Yang sangat saya hargai adalah ketika Noam Shazeer terlihat sangat tenang, Anda terlihat sangat bersemangat. Perbedaan kepribadian kalian begitu mencolok. Sekarang, saya memberikan kesempatan kepada Lukasz Kaiser. **

Lukasz Kaiser: Pengalaman saya di OpenAI sangat mengganggu. Sangat menyenangkan berada di perusahaan dan kami mengolah banyak data untuk melakukan penghitungan, namun pada akhirnya, peran saya tetaplah sebagai pengolah data.

Illiya Polosukhin: Saya orang pertama yang pergi. Saya sangat yakin bahwa kita akan mencapai kemajuan yang signifikan dan perangkat lunak akan mengubah seluruh dunia. Cara paling langsung adalah dengan mengajari mesin menulis kode dan membuat pemrograman dapat diakses oleh semua orang.

Di NEAR, meskipun kemajuan kami terbatas, kami berkomitmen untuk mengintegrasikan kebijaksanaan manusia dan memperoleh data yang relevan, seperti menginspirasi lebih banyak orang untuk menyadari bahwa kami memerlukan metodologi dasar. Model ini merupakan perkembangan mendasar. Model besar ini banyak digunakan di seluruh dunia. Model ini memiliki banyak penerapan di bidang kedirgantaraan dan bidang lainnya, terkait dengan komunikasi dan interaksi di berbagai bidang dan benar-benar memberi kita kemampuan. Dengan pendalaman penggunaan, kami menemukan bahwa ini menghadirkan lebih banyak model, dan saat ini tidak banyak perselisihan mengenai hak cipta.

Saat ini kita berada di era generatif baru, era yang merayakan inovasi dan inovator, dan kami ingin berpartisipasi aktif dan menerima perubahan, jadi kami mencari berbagai cara untuk membantu membangun model yang sangat keren.

** Jensen Huang: Sistem umpan balik positif ini sangat bermanfaat bagi perekonomian kita secara keseluruhan. Kita sekarang lebih mampu merancang perekonomian kita. Ada yang bertanya, di era ketika model GPT melatih miliaran database berskala token, apa langkah selanjutnya? Apa yang akan menjadi teknologi pemodelan baru? Apa yang ingin Anda jelajahi? Apa sumber data Anda? **

Illia Polosukhin: Titik awal kita adalah vektor dan perpindahan. Kita membutuhkan model yang memiliki nilai ekonomi nyata, sehingga masyarakat dapat mengevaluasi dan pada akhirnya menerapkan teknik dan alat Anda untuk menjadikan keseluruhan model lebih baik.

** Jen-Hsun Huang: Bagaimana cara Anda melatih model secara domain? Bagaimana interaksi awal dan pola interaksinya? Apakah itu komunikasi dan interaksi antar model? Atau adakah model dan teknik generatif? **

Illia Polosukhin: Di tim kami, setiap orang memiliki keahlian teknisnya masing-masing.

Jakob Uszkoreit: Langkah selanjutnya adalah penalaran. Kita semua menyadari pentingnya penalaran, namun sebagian besar pekerjaan masih dilakukan secara manual oleh para insinyur. Kami sebenarnya mengajari mereka untuk menjawab dalam format tanya jawab interaktif, dan kami ingin mereka memahami alasannya bersama-sama dan memberikan pola penalaran yang kuat bersama-sama. Kami berharap model ini dapat menghasilkan konten yang kami inginkan, dan metode pembuatan inilah yang kami kejar. Baik itu video, teks, atau informasi 3D, semuanya harus terintegrasi.

Lukasz Kaiser: Saya pikir, apakah orang memahami bahwa kesimpulan sebenarnya berasal dari data? Jika kita mulai berpikir, kita memiliki sekumpulan data dan kita memikirkan mengapa data ini berbeda? Kemudian kita akan belajar bahwa berbagai aplikasi sebenarnya didasarkan pada proses penalaran data. Berkat kekuatan komputer, berkat sistem seperti ini, kita bisa mulai berkembang lebih jauh dari sana. Kami dapat mempertimbangkan konten yang relevan dan melakukan eksperimen.

Seringkali, hal ini berasal dari data. Menurut saya inferensi berkembang sangat cepat, model data sangat penting, dan akan ada lebih banyak konten interaktif dalam waktu dekat. Kami belum melakukan cukup pelatihan, itu bukan konten dan elemen utamanya, kami perlu menyempurnakan datanya.

Noam Shazeer: Merancang beberapa data, seperti merancang mesin pengajaran, mungkin melibatkan ratusan atau ratusan juta token berbeda.

Ashish Vaswani: Hal yang ingin saya sampaikan adalah bahwa dalam bidang ini, kami memiliki banyak mitra yang telah mencapai beberapa pencapaian. Apa algoritma otomatis terbaik? Faktanya, ini adalah memecah tugas-tugas dunia nyata menjadi konten yang berbeda. Model kami juga sangat penting, ini membantu kami mendapatkan data dan melihat apakah data berada di tempat yang tepat. Di satu sisi, ini membantu kita fokus pada data; di sisi lain, data tersebut memberi kita model berkualitas tinggi untuk menyelesaikan tugas-tugas abstrak. Oleh karena itu, kami percaya bahwa mengukur kemajuan ini juga merupakan cara kreativitas, cara pengembangan ilmu pengetahuan, dan cara pengembangan otomasi kami.

** Jen-Hsun Huang: Anda tidak dapat melakukan proyek hebat tanpa sistem pengukuran yang baik. Apakah Anda memiliki pertanyaan satu sama lain? **

Illia Polosukhin: Tidak ada yang ingin tahu langkah apa yang mereka ambil. Namun kenyataannya, kami berharap dapat memahami dan mendalami apa yang kami lakukan, memperoleh data dan informasi yang cukup, serta membuat kesimpulan yang masuk akal. Misalnya, jika Anda memiliki enam langkah, namun sebenarnya Anda dapat melewati satu langkah dengan mempertimbangkan lima langkah. Terkadang Anda tidak memerlukan enam langkah, dan terkadang Anda memerlukan lebih banyak langkah, jadi bagaimana Anda meniru skenario seperti ini? Apa yang Anda perlukan untuk melangkah lebih jauh dari Token?

Lukasz Kaiser: Keyakinan pribadi saya adalah cara mereproduksi model sebesar itu adalah proses yang sangat rumit. Sistem akan berkembang, tetapi pada dasarnya Anda perlu merancang sebuah metode. Manusia adalah makhluk yang pandai dalam perulangan.Sepanjang sejarah manusia, kita telah berulang kali mereproduksi adegan-adegan yang sukses.

** Jen-Hsun Huang: Saya sangat senang berkomunikasi dengan Anda, dan saya berharap Anda memiliki kesempatan untuk berkomunikasi satu sama lain dan menghasilkan keajaiban yang tak terlukiskan. Terima kasih telah berpartisipasi dalam pertemuan ini, terima kasih banyak! **

Lihat Asli
  • Hadiah
  • Komentar
  • Bagikan
Komentar
Tidak ada komentar