Huang Renxun, Transformer makalesinin yedi yazarıyla konuşuyor: Orijinal modelde sıkışıp kaldık ve daha güçlü yeni bir mimariye ihtiyacımız var

![Huang Renxun, Transformer makalesinin yedi yazarıyla konuşuyor: Orijinal modelde sıkışıp kaldık ve daha güçlü yeni bir mimariye ihtiyacımız var](https://cdn-img.panewslab.com//panews/2022/3/23 /images/ 3209736c2376bc78f33a30e387cc4e77.jpeg)

Yazar: Guo Xiaojing

Kaynak: Tencent Haberleri

2017 yılında çığır açan bir makale olan "İhtiyacınız Olan Tek Şey Dikkat" yayınlandı ve ilk kez öz-dikkat mekanizmasına dayalı Transformer modelini tanıttı. Bu yenilikçi mimari, geleneksel RNN ve CNN'in kısıtlamalarından kurtuldu. Paralel işlemenin dikkat mekanizması sayesinde uzun mesafe bağımlılığı sorununun etkili bir şekilde üstesinden gelinir ve sıralı veri işleme hızı önemli ölçüde iyileştirilir. Transformer'ın kodlayıcı-kod çözücü yapısı ve çok kafalı dikkat mekanizması yapay zeka alanında fırtına kopardı.Popüler ChatGPT bu mimari üzerine inşa edildi.

Transformer modelini beyninizin bir arkadaşınızla konuşması, karşınızdaki kişinin söylediği her kelimeye aynı anda dikkat etmesi ve bu kelimeler arasındaki bağlantıları anlaması gibi düşünün. Bilgisayarlara insan benzeri dil anlama yetenekleri kazandırır. Bundan önce RNN, dili işlemek için ana akım yöntemdi, ancak bilgi işleme hızı, kelimesi kelimesine oynatılması gereken eski moda bir kaset çalar gibi yavaştı. Transformer modeli, aynı anda birden fazla parçayı kontrol edebilen ve önemli bilgileri hızlı bir şekilde yakalayabilen verimli bir DJ gibidir.

Transformer modelinin ortaya çıkışı, bilgisayarların dili işleme yeteneğini büyük ölçüde geliştirerek makine çevirisi, konuşma tanıma ve metin özetleme gibi görevleri daha verimli ve doğru hale getirdi.Bu, tüm endüstri için büyük bir sıçrama.

Bu yenilik, daha önce Google'da çalışmış olan sekiz yapay zeka bilim insanının ortak çabaları sonucunda ortaya çıktı. Başlangıçtaki hedefleri basitti: Google'ın makine çevirisi hizmetini geliştirmek. Makinelerin, cümleleri tek tek kelime kelime çevirmek yerine, tüm cümleleri tam olarak anlayabilmesini ve okuyabilmesini istiyorlar. Bu kavram, “Transformer” mimarisinin, yani “öz-dikkat” mekanizmasının başlangıç noktası oldu. Bu temelde, bu sekiz yazar kendi uzmanlıklarını kullanarak Aralık 2017'de Transformer mimarisini ayrıntılı olarak açıklayan ve üretken yapay zekada yeni bir sayfa açan "İhtiyacınız Olan Tek Şey Dikkat" başlıklı makaleyi yayınladı.

Üretken yapay zeka dünyasında Ölçeklendirme Yasası temel bir prensiptir. Kısacası Transformer modelinin ölçeği büyüdükçe performansı da artıyor ancak bu aynı zamanda daha büyük modelleri ve daha derin ağları desteklemek için daha güçlü bilgi işlem kaynaklarına ihtiyaç duyulduğu ve yüksek performanslı bilgi işlem hizmetlerine ihtiyaç duyulduğu anlamına da geliyor. bu yapay zeka dalgasının kilit oyuncusu.

Bu yılki GTC konferansında Nvidia'dan Jen-Hsun Huang, Transformer'ın yedi yazarını (Niki Parmar bazı nedenlerden dolayı geçici olarak katılamadı) törensel bir yuvarlak masa tartışmasına katılmaya davet etti. çalışmalarını toplum önünde tartışın Grup görünümü.

Ayrıca görüşme sırasında bazı etkileyici noktalara da değindiler:

  • Dünyanın Transformer'dan daha iyi bir şeye ihtiyacı var ve sanırım buradaki hepimiz bunun bizi yeni bir performans platosuna götürecek bir şeyin yerini almasını umuyoruz.
  • Asıl amacımıza ulaşamadık. Transformer'ı başlatmaktaki asıl amacımız Token'ın evrim sürecini simüle etmekti. Bu sadece doğrusal bir üretim süreci değil, metnin veya kodun adım adım evrimidir.
  • Büyük modellerin trilyonlarca parametre kaynağını kullanabilen 2+2 gibi basit problemler. Uyarlanabilir hesaplamanın, belirli bir soruna ne kadar bilgi işlem kaynağının harcanması gerektiğini bildiğimiz, gerçekleşmesi gereken bir sonraki şeylerden biri olduğunu düşünüyorum.
  • Mevcut modelin çok uygun fiyatlı ve çok küçük olduğunu düşünüyorum. Yaklaşık 1 milyon dolarlık toke fiyatı, dışarı çıkıp karton kapaklı bir kitap satın almaktan 100 kat daha ucuz.

Gerçek içerik aşağıdadır:

Jensen Huang: Son altmış yılda bilgisayar teknolojisi, en azından benim doğduğum andan itibaren temel değişikliklere uğramamış gibi görünüyor. Şu anda kullandığımız bilgisayar sistemleri, ister çoklu görev, ister donanım ve yazılımın ayrılması, yazılım uyumluluğu, veri yedekleme yetenekleri, ister yazılım mühendislerinin programlama becerileri olsun, temel olarak IBM 360 - Central Processor, Bio tasarım ilkelerine dayanmaktadır. alt sistem, çoklu görev, donanım ve yazılım, yazılım sistemi uyumluluğu vb.

Modern bilgisayarların 1964'ten bu yana temelden değiştiğini düşünmüyorum. Her ne kadar 1980'li ve 1990'lı yıllarda bilgisayarlar bugün alışık olduğumuz biçime doğru büyük bir dönüşüm geçirdi. Ancak zaman geçtikçe bilgisayarların marjinal maliyeti düşmeye devam ediyor; maliyeti her on yılda on kat, on beş yılda bin kat ve yirmi yılda on bin kat azalıyor. Bu bilgisayar devriminde maliyet düşüşü o kadar büyüktü ki, yirmi yılda bilgisayarların maliyeti neredeyse 10.000 kat düştü.Bu değişim topluma büyük bir güç kazandırdı.

Hayatınızdaki tüm pahalı eşyaların orijinal değerlerinin on binde birine düştüğünü hayal etmeye çalışın. Örneğin, yirmi yıl önce 200.000 dolara satın aldığınız arabanın fiyatı artık sadece 1 dolar. Değişimi hayal edebiliyor musunuz? ? Ancak bilgisayar maliyetlerindeki düşüş bir gecede olmadı, yavaş yavaş kritik bir noktaya ulaştı ve ardından maliyet düşüş eğilimi aniden durdu, her yıl biraz iyileşmeye devam etti, ancak değişim hızı sabit kaldı.

Hızlandırılmış hesaplamayı keşfetmeye başladık, ancak hızlandırılmış hesaplamayı kullanmak kolay değil, onu parça parça sıfırdan tasarlamanız gerekiyor. Geçmişte, bir sorunu adım adım çözmek için yerleşik adımları takip edebilirdik, ancak şimdi bu adımları yeniden tasarlamamız gerekiyor.Bu, önceki kuralları paralel algoritmalar halinde yeniden formüle eden tamamen yeni bir bilim alanıdır.

Bunun farkındayız ve kodun %1'ini bile hızlandırabilirsek ve çalışma süresinden %99 tasarruf edebilirsek bundan faydalanacak uygulamaların olacağına inanıyoruz. Amacımız imkansızı mümkün kılmak, mümkün olanı imkansız kılmak veya zaten mümkün olan şeyleri daha verimli hale getirmektir.Hızlandırılmış hesaplamanın anlamı budur.

Şirketin geçmişine baktığımızda çeşitli uygulamaları hızlandırma yeteneğimizi görüyoruz. İlk etapta oyun alanında ciddi bir ivme yakaladık, o kadar etkili oldu ki insanlar yanlışlıkla bizim bir oyun şirketi olduğumuzu sandılar. Ama aslında amacımız bundan çok daha fazlası, çünkü bu pazar inanılmaz teknolojik ilerlemeyi sağlayacak kadar büyük ve büyük. Bu durum yaygın değil ama özel bir durum bulduk.

Uzun lafın kısası, 2012 yılında AlexNet, yapay zeka ile NVIDIA GPU'lar arasındaki ilk çarpışma olan bir kıvılcımı ateşledi. Bu, bu alandaki muhteşem yolculuğumuzun başlangıcını işaret ediyor. Birkaç yıl sonra bugün bulunduğumuz noktanın temelini oluşturan mükemmel bir uygulama senaryosunu keşfettik.

Kısacası bu başarılar, üretken yapay zekanın gelişiminin temelini oluşturuyor. Üretken yapay zeka yalnızca görselleri tanımakla kalmıyor, aynı zamanda metni görsellere dönüştürebiliyor ve hatta yepyeni içerikler bile oluşturabiliyor. Artık pikselleri anlamak, tanımlamak ve arkalarındaki anlamı anlamak için yeterli teknik yeteneğe sahibiz. Bunların ardındaki anlam sayesinde yeni içerikler oluşturabiliriz. Yapay zekanın verilerin ardındaki anlamı anlama yeteneği büyük bir değişimdir.

Bunun yeni bir sanayi devriminin başlangıcı olduğuna inanmak için nedenimiz var. Bu devrimde daha önce yapılmamış bir şey yaratıyoruz. Mesela önceki sanayi devriminde su bir enerji kaynağıydı ve yarattığımız cihazlara su giriyor, jeneratörler çalışmaya başlıyor, su geliyor, elektrik çıkıyordu adeta bir sihir gibi.

Üretken yapay zeka, yazılım oluşturabilen yepyeni bir "yazılım" olup, birçok bilim insanının ortak çabalarına dayanmaktadır. Yapay zekaya ham maddeler (veriler) verdiğinizi ve bunların GPU dediğimiz bir makine olan bir "binaya" girdiğini ve sihirli sonuçlar üretebildiğini hayal edin. Her şeyi yeniden şekillendiriyor ve “Yapay Zeka Fabrikaları”nın doğuşuna tanık oluyoruz.

Bu değişime yeni bir sanayi devrimi denilebilir. Geçmişte hiç böyle bir değişim yaşamamıştık ama şimdi yavaş yavaş önümüze çıkıyor. Önümüzdeki on yılı kaçırmayın, çünkü bu on yılda çok büyük bir üretkenlik yaratacağız. Zaman sarkacı harekete geçti ve araştırmacılarımız şimdiden harekete geçiyor.

Bugün Tansformer'ın yaratıcılarını üretken yapay zekanın gelecekte bizi nereye götüreceğini tartışmaya davet ettik.

bunlar:

Ashish Vaswani: 2016 yılında Google Brain ekibine katıldı. Nisan 2022'de Niki Parmar ile birlikte Adept AI'yi kurdu, aynı yılın Aralık ayında şirketten ayrıldı ve başka bir yapay zeka girişimi olan Essential AI'nın kurucu ortağı oldu.

Niki Parmar: Ashish Vaswani ile birlikte Adept AI ve Essential AI'yi kurmadan önce dört yıl boyunca Google Brain'de çalıştı.

Jakob Uszkoreit: 2008'den 2021'e kadar Google'da çalıştı. 2021 yılında Google'dan ayrıldı ve Inceptive'in kurucu ortağı oldu. Şirketin ana faaliyet alanı yapay zeka yaşam bilimleri olup, yeni nesil RNA moleküllerini tasarlamak için sinir ağlarını ve yüksek verimli deneyleri kullanmaya kararlıdır.

Illia Polosukhin: 2014 yılında Google'a katıldı ve sekiz kişilik ekipten ayrılan ilk kişilerden biri oldu. 2017 yılında blockchain şirketi NEAR Protokolü'nün kurucularından oldu.

Noam Shazeer: 2000'den 2009'a ve 2012'den 2021'e kadar Google'da çalıştı. Shazeer, 2021'de Google'dan ayrıldı ve eski Google mühendisi Daniel De Freitas ile birlikte Character.AI'yi kurdu.

**Llion Jones: **Delcam ve YouTube'da çalıştı. Google'a 2012 yılında yazılım mühendisi olarak katıldı. Daha sonra Google'dan ayrılarak yapay zeka start-up'ı sakana.ai'yi kurdu.

Lukasz Kaiser: Eskiden Fransız Ulusal Bilimsel Araştırma Merkezi'nde araştırmacıydı. 2013 yılında Google'a katıldı. 2021 yılında Google'dan ayrılarak OpenAI'de araştırmacı oldu.

Aidan Gomez: Kanada'nın Toronto Üniversitesi'nden mezun oldu. Transformer makalesi yayınlandığında hâlâ Google Brain ekibinde stajyer olarak çalışıyordu. Sekiz kişilik ekipten Google'dan ayrılan ikinci kişi oldu. 2019 yılında Cohere'in kurucularından oldu.

![Huang Renxun, Transformer makalesinin yedi yazarıyla konuşuyor: Orijinal modelde sıkışıp kaldık ve daha güçlü yeni bir mimariye ihtiyacımız var](https://cdn-img.panewslab.com//panews/2022/3/23 /images/ e2cb0168e261ffba0c0ea67a5502acf8.png)

Renxun Huang: Bugün burada otururken, lütfen aktif olarak konuşma fırsatı bulmaya çalışın. Burada tartışılamayacak hiçbir konu yoktur. Hatta sorunları tartışmak için sandalyenizden bile kalkabilirsiniz. En temel soruyla başlayalım; o dönemde hangi sorunlarla karşılaştınız ve Transformer olmanıza ne ilham verdi?

Illia Polosukhin: Belge yığınlarını işlemek gibi arama sonuçlarını gerçekten okuyabilen modeller yayınlamak istiyorsanız, bu bilgiyi hızlı bir şekilde işleyebilen bazı modellere ihtiyacınız var. O dönemde tekrarlayan sinir ağları (RNN) bu ihtiyaçları karşılayamıyordu.

Nitekim o dönemde tekrarlayan sinir ağları (RNN) ve bazı ön dikkat mekanizmaları (Arnens) ilgi çekse de yine de kelime kelime okumayı gerektiriyordu ve bu da verimli değildi.

Jakob Uszkoreit: Eğitim verilerini oluşturma hızımız, en son teknolojiye sahip mimarileri eğitme yeteneğimizi çok aşıyor. Aslında, giriş özelliği olarak n-gram içeren ileri beslemeli ağlar gibi daha basit mimariler kullanıyoruz. Bu mimariler genellikle daha karmaşık ve gelişmiş modellerden daha iyi performans gösterir çünkü en azından Google ölçeğinde büyük miktardaki eğitim verileri üzerinde daha hızlı eğitim verirler.

O zamanlar güçlü RNN'ler, özellikle uzun kısa süreli bellek ağları (LSTM) zaten mevcuttu.

Noam Shazeer: Bu yakıcı bir konu gibi görünüyor. Bu ölçeklendirme yasalarını 2015 yılı civarında fark etmeye başladık ve modelin boyutu arttıkça zekasının da arttığını görebilirsiniz. Dünya tarihindeki en iyi problem gibi, çok basit: sadece bir sonraki jetonu tahmin ediyorsunuz ve o çok akıllı olacak ve milyonlarca farklı şey yapabilecek durumda olacak ve sadece onu büyütmek ve büyütmek istiyorsunuz. daha iyisini yap.

Büyük bir hayal kırıklığı, RNN'nin idare edilemeyecek kadar zahmetli olmasıdır. Ve sonra bu adamların şunu söylediğini duydum: hadi bunu bir evrişim veya dikkat mekanizmasıyla değiştirelim. Harika, haydi bunu yapalım diye düşündüm. Transformer'ı buhar motorlarından içten yanmalı motorlara geçişle karşılaştırmayı seviyorum. Sanayi devrimini buharlı motorlarla tamamlayabilirdik ama bu çok acı verici olurdu ve içten yanmalı motor her şeyi daha iyi hale getirdi.

Ashish Vaswani: Lisansüstü yıllarımda, özellikle de makine çevirisi üzerinde çalışırken bazı zor dersler almaya başladım. Fark ettim ki, dilin o karmaşık kurallarını öğrenmeyeceğim. Bu modelleri eğitme şeklimiz olan Gradient Descent'in benden daha iyi bir öğretmen olduğunu düşünüyorum. Yani kuralları öğrenmeyeceğim, sadece Gradient Descent'in tüm işi benim için yapmasına izin vereceğim ve bu benim ikinci dersim.

Zor yoldan öğrendiğim şey, ölçeklenebilen genel mimarilerin uzun vadede eninde sonunda kazanacağıdır. Bugün bunlar jetonlar olabilir, yarın bilgisayarlarda gerçekleştirdiğimiz eylemler olabilir ve bunlar bizim faaliyetlerimizi taklit etmeye başlayacak ve yaptığımız birçok işi otomatikleştirebilecektir. Tartıştığımız gibi, Transformer'ın, özellikle de öz-dikkat mekanizmasının çok geniş bir uygulanabilirliği var ve aynı zamanda gradyan inişini daha iyi hale getiriyor. Diğeri ise fizik, çünkü Noam'dan öğrendiğim şey matris çarpımının iyi bir fikir olduğuydu.

Noam Shazeer: Bu model sürekli tekrarlanıyor. Yani her kural eklediğinizde, degrade iniş bu kuralları öğrenmede sizden daha iyi olur. Bu kadar. Tıpkı derin öğrenmede olduğu gibi GPU şeklinde bir yapay zeka modeli oluşturuyoruz. Ve şimdi süper bilgisayar şeklinde bir yapay zeka modeli inşa ediyoruz. Evet, süper bilgisayarlar artık model. Evet bu doğru. Evet. Süper bilgisayar Sadece bilmenizi isterim ki, modelin şekline göre bir süper bilgisayar yapıyoruz.

** Jen-Hsun Huang: Peki hangi sorunu çözmeye çalışıyorsunuz? **

Lukasz Kaiser: Makine Çevirisi. Beş yıl öncesini düşündüğümüzde bu süreç çok zor görünüyordu: Veri toplamak, belki tercüme etmek gerekiyordu ve sonuç ancak çok az doğru olabilirdi. O zamanki seviye hala çok temeldi. Ancak artık bu modeller veri olmadan da çeviri yapmayı öğrenebiliyor. Siz sadece bir dil ve başka bir dil sağlarsınız ve model kendi başına çeviri yapmayı öğrenir ve bu yetenek doğal ve tatmin edici bir şekilde gelir.

Llion Jones: Ama ihtiyacınız olan tek şey "Dikkat" sezgisidir. Böylece bu başlığı buldum ve temelde olan şey, bir başlık ararken oldu.

Biz sadece ablasyon yapıyorduk ve daha da kötüleşip kötüleşmeyeceğini görmek için modelin parçalarını atmaya başladık. Şaşırtıcı bir şekilde iyileşmeye başladı. Bunun gibi tüm kıvrımları atmayı dahil etmek çok daha iyi. Yani başlık buradan geliyor.

Ashish Vaswani: Temel olarak ilginç olan, aslında çok temel bir çerçeveyle başladık ve sonra bazı şeyler ekledik, evrişimler ekledik ve sanırım sonra bunları kaldırdık. Çok kafalı dikkat gibi çok önemli başka şeyler de var.

** Jensen Huang: Transformer ismini kim buldu? Neden Transformatör deniyor? **

Jakob Uszkoreit: Bu ismi beğendik, rastgele seçtik ve çok yaratıcı olduğunu düşündük, veri üretim modelimizi değiştirdi ve böyle bir mantık kullandık. Tüm makine öğrenimi bir Dönüştürücü ve yıkıcıdır.

Noam Shazeer: Bu ismi daha önce düşünmemiştik, bence bu isim çok basit ve birçok kişi bu ismin çok iyi olduğunu düşünüyor. Daha önce Yaakov gibi pek çok isim düşünmüştüm ve sonunda modelin prensibini anlatan "Transformer" üzerinde karar kıldım.Aslında sinyalin tamamını dönüştürüyor.Bu mantığa göre neredeyse tüm makine öğrenimi dönüşecek.

Llion Jones: Transformer'ın bu kadar tanıdık bir isim haline gelmesinin nedeni sadece çevirinin içeriği değil, aynı zamanda bu dönüşümü daha genel bir şekilde anlatmak istememizdir. Harika bir iş çıkardığımızı düşünmüyorum ancak bir değişim yaratıcısı, bir sürücü ve bir motor olarak bu mantıklıydı. Bu kadar geniş bir dil modelini, motorunu ve mantığını herkes anlayabilir, mimari açıdan bakıldığında bu nispeten erken bir başlangıç dönemidir.

Ancak aslında her şeyi başka bir şeye dönüştürebilecek çok çok yönlü bir şey yaratmaya çalıştığımızın farkına vardık. Ve Transformers'ın görüntüler için kullanıldığında bunun gerçekte ne kadar iyi olacağını tahmin ettiğimizi sanmıyorum ki bu biraz şaşırtıcı. Bu size mantıklı gelebilir ama aslında görüntüyü parçalara ayırabilir ve her küçük noktayı etiketleyebilirsiniz, değil mi? Bunun mimaride çok erken dönemde var olan bir şey olduğunu düşünüyorum.

Tensörden tensöre kütüphaneler oluştururken asıl odaklandığımız şey otoregresif eğitimin ölçeğini artırmaktı. Bu sadece dil değil, aynı zamanda görüntü ve ses bileşenleridir.

Lukasz yaptığı şeyin çeviri yapmak olduğunu söyledi. Sanırım kendini hafife aldı ve tüm bu fikirler, artık bu modellerin bir araya geldiğini, hepsinin modele katkıda bulunduğunu görmeye başlıyoruz.

Ama gerçekte her şey erkenden oradaydı ve fikirler süzülüyor ve bu biraz zaman alıyor. Lukasz'ın hedefi, görselden metne, metinden görsele, sesten metne, metinden metne giden tüm bu akademik veri kümelerine sahip olmamız. Her şey için antrenman yapmalıyız.

Bu fikir, uzatma çalışmasını gerçekten yönlendirdi ve sonunda işe yaradı ve o kadar ilginçti ki, resimleri metne, metni resimlere ve metni metne çevirebildik.

Bunu biyoloji veya biyolojik yazılım üzerinde çalışmak için kullanıyorsunuz; bu, bir program olarak başlaması açısından bilgisayar yazılımına benzeyebilir ve ardından onu GPU'da çalışabilecek bir şey halinde derlersiniz.

Biyolojik bir yazılımın ömrü belirli davranışların belirlenmesiyle başlar. Diyelim ki bir hücredeki belirli bir protein gibi bir proteini yazdırmak istiyorsunuz. Ve sonra bunu bir RNA molekülüne dönüştürmek için derin öğrenmeyi nasıl kullanacağınızı öğrendiniz, ancak aslında hücrelerinize girdiğinde bu davranışları sergilediniz. Yani fikir aslında sadece İngilizceye çeviri yapmakla ilgili değil.

**Jensen Huang: Tüm bunları üretmek için büyük bir laboratuvar mı kurdunuz? **

Aidan Gomez: Pek çok şey mevcut ve aslında kamuya açık durumda çünkü bu veriler çoğunlukla hâlâ büyük ölçüde kamu tarafından finanse ediliyor. Ancak gerçekte, başarmaya çalıştığınız olguyu net bir şekilde göstermek için hâlâ verilere ihtiyacınız var.

Belirli bir ürün içinde modelleme yapmaya çalışıyoruz, diyelim ki protein ekspresyonu ve mRNA aşıları ve bunun gibi şeyler, ya da evet, Palo Alto'da bir grup robotumuz ve laboratuvar önlüğü giymiş insanlarımız var, her ikisi de eski biyologlar da dahil olmak üzere öğrenim gören araştırma personeli.

Artık kendimizi yeni bir şeyin öncüleri olarak görüyoruz, bu verileri gerçekten oluşturmak ve bu molekülleri tasarlayan modelleri doğrulamak için çalışıyoruz. Ancak asıl fikir tercüme etmekti.

** Jen-Hsun Huang: Orijinal fikir makine çevirisiydi, sormak istediğim şu, mimarinin güçlenmesinde ve çığır açmasında görülen kilit noktalar neler? Peki Transformer'ın tasarımı üzerinde ne gibi etkileri var? **

Aidan Gomez: Bu arada hepiniz bunu gördünüz.Temel Transformer tasarımının yanı sıra gerçekten büyük bir ek katkı olduğunu düşünüyor musunuz? Çıkarım açısından bu modelleri hızlandırmak ve daha verimli hale getirmek için çok fazla çalışma yapıldığını düşünüyorum.

Orijinal formlarımızın çok benzer olması nedeniyle bunun benim için hala biraz rahatsız edici olduğunu düşünüyorum. Dünyanın Transformer'dan daha iyi bir şeye ihtiyacı olduğunu düşünüyorum ve sanırım buradaki hepimiz bunun bizi yeni bir performans platosuna götürecek bir şeyle değiştirilmesini istiyoruz.

Buradaki herkese bir soru sormak istiyorum. Daha sonra ne olacağını düşünüyorsun? Heyecan verici bir adım gibi çünkü bunun 6-7 yıl önceki şeylere çok benzediğini düşünüyorum, değil mi?

Llion Jones: Evet, sanırım insanlar sizin bu kadar benzer olduğunu söylediğinizde şaşırırlar, değil mi? İnsanlar bana bundan sonra ne olacağını sormayı seviyorlar çünkü ben bu makalenin yazarıyım. Sihir gibi, sihirli değneği sallarsın ve sonra ne olur? Benim vurgulamak istediğim, bu özel prensibin nasıl tasarlandığıdır. Sadece daha iyi olmamıza değil, aynı zamanda açıkça daha iyi olmamıza da ihtiyacımız var.

Çünkü eğer biraz daha iyiyse, bu tüm yapay zeka endüstrisini yeni bir şeye itmek için yeterli değil. Yani teknik olarak muhtemelen şu anda sahip olduğumuz en güçlü şey olmasa da orijinal modele bağlı kaldık.

Ancak herkes ne tür kişisel araçlar istediğini biliyor; daha iyi bağlamsal pencereler istiyorsunuz, daha hızlı token oluşturma yeteneği istiyorsunuz. Bu cevabı beğenip beğenmediğinizden emin değilim ama şu anda çok fazla bilgi işlem kaynağı kullanıyorlar. İnsanların çok fazla boşa hesaplama yaptığını düşünüyorum. Verimliliği artırmak için çok çalışıyoruz, teşekkür ederiz.

** Jensen Huang: Sanırım bunu daha etkili hale getiriyoruz, teşekkürler! **

Jakob Uszkoreit: Ama bence mesele toplamda ne kadar kaynağın tüketildiğinden ziyade, esas olarak kaynakların nasıl dağıtıldığıyla ilgili. Örneğin, kolay bir soruna çok fazla para harcamak ya da çok zor bir soruna çok az para harcayıp çözüm alamamak istemeyiz.

Illiya Polosukhin: Bu örnek 2+2 gibi, eğer onu bu modele doğru şekilde beslerseniz trilyonlarca parametre kullanıyor. Dolayısıyla, uyarlanabilir hesaplamanın bundan sonra gelmesi gereken şeylerden biri olduğunu düşünüyorum; belirli bir soruna ne kadar bilgi işlem kaynağının harcanması gerektiğini biliyoruz.

Aidan Gomez: Bilgisayarların şu anda ne kadar güce sahip olduğunu biliyoruz ve bence odaklanılması gereken bir sonraki konu da bu. Bunun kozmik bir değişim olduğunu düşünüyorum ve bu aynı zamanda gelecekteki gelişme eğilimidir.

Lukasz Kaiser: Bu konsept Transformer'dan önce de vardı ve Transformer modeline entegre edilmişti. Aslında buradaki herkesin asıl amacımıza ulaşamadığımızı bildiğinden emin değilim.Bu projeye başlarken asıl amacımız Token'ın evrim sürecini simüle etmekti. Bu sadece doğrusal bir üretim süreci değil, metnin veya kodun adım adım evrimidir. Yineliyoruz, düzenliyoruz, bu da yalnızca insanların metin geliştirme şeklini taklit etmemizi değil, aynı zamanda bunları bu sürecin bir parçası olarak kullanmamızı da mümkün kılıyor. Çünkü içeriği insanlar kadar doğal bir şekilde üretebilseydiniz, aslında geri bildirimde bulunabilirlerdi, değil mi?

Hepimiz Shannon'ın makalesini okumuştuk ve asıl fikrimiz sadece dil modelleme ve kafa karışıklığına odaklanmaktı ama bu olmadı. Burasının aynı zamanda daha da gelişebileceğimiz yer olduğunu düşünüyorum. Bu aynı zamanda bilgi işlem kaynaklarını nasıl akıllıca organize ettiğimizle de ilgilidir ve bu organizasyon artık görüntü işleme için de geçerlidir. Demek istediğim, difüzyon modellerinin, kalitelerini yineleme yoluyla sürekli olarak geliştirebilme ve iyileştirebilme gibi ilginç bir özelliği var. Ve şu anda böyle bir yeteneğimiz yok.

Demek istediğim, şu temel soru: Hangi bilgi modelin içine yerleştirilmeli ve hangi bilgi modelin dışında olmalıdır? Bir geri alma modeli mi kullanıyorsunuz? RAG (Yeniden Artırılmış Nesil) modeli bir örnektir. Benzer şekilde, bu aynı zamanda çıkarım sorusunu da içerir; yani hangi çıkarım görevlerinin sembolik sistemler aracılığıyla harici olarak gerçekleştirilmesi gerektiği ve hangi çıkarım görevlerinin doğrudan model içerisinde gerçekleştirilmesi gerektiği. Bu daha çok verimlilikle ilgili bir tartışmadır. Büyük modellerin eninde sonunda 2+2 gibi hesaplamaların nasıl yapılacağını öğreneceğine inanıyorum, ancak 2+2'yi hesaplamak ve bunu sayıları toplayarak yapmak istiyorsanız, bu kesinlikle verimsizdir.

** Jen-Hsun Huang: Yapay zekanın yalnızca 2+2'yi hesaplaması gerekiyorsa, bu görevi en az enerjiyle tamamlamak için doğrudan hesap makinesini kullanmalıdır, çünkü hesap makinesinin bu konuda en etkili araç olduğunu biliyoruz. 2+2 hesaplamaları yapıyorum. Ancak birisi yapay zekaya sorarsa 2+2 kararına nasıl vardınız? Doğru cevabın 2+2 olduğunu biliyor muydunuz? Bu çok fazla kaynak tüketecek mi? **

![Huang Renxun, Transformer makalesinin yedi yazarıyla konuşuyor: Orijinal modelde sıkışıp kaldık ve daha güçlü yeni bir mimariye ihtiyacımız var](https://cdn-img.panewslab.com//panews/2022/3/23 /images/ 943398d349cf0e17db81b1469281b267.png)

Noam Shazeer: Kesinlikle. Daha önce bir örnekten bahsetmiştiniz ama aynı zamanda buradaki herkesin geliştirmekte olduğu yapay zeka sistemlerinin hesap makinelerini aktif olarak kullanabilecek kadar akıllı olduğuna da inanıyorum.

Küresel kamu malları (GPP) şu anda tam da bunu yapıyor. Mevcut modelin çok uygun fiyatlı ve çok küçük olduğunu düşünüyorum. Ucuz olmasının nedeni NV gibi teknolojiler sayesinde, çıktısı sayesindedir.

İşlem başına hesaplama maliyeti yaklaşık 10 ila 18 ABD Doları arasındadır. Başka bir deyişle, kabaca bu büyüklükte. Bu kadar çok bilgi işlem kaynağı oluşturduğunuz için teşekkür ederiz. Ancak 500 milyar parametreli ve jeton başına bir trilyon hesaplamalı bir modele bakarsanız, bu milyon jeton başına yaklaşık bir dolar demektir; bu da dışarı çıkıp karton kapaklı bir kitap satın alıp okumaktan 100 kat daha ucuzdur. Uygulamamız, dev sinir ağlarındaki verimli hesaplamalardan milyonlarca kat veya daha değerlidir. Demek istediğim, kesinlikle kanseri tedavi etmek gibi bir şeyden daha değerliler ama bundan da fazlası var.

Ashish Vaswani: Bence dünyayı daha akıllı hale getirmek, dünyadan nasıl geri bildirim alabileceğimiz ve çoklu görev ve çok hatlı paralelleştirmeyi başarıp başaramayacağımız anlamına geliyor. Gerçekten böyle bir model oluşturmak istiyorsanız, bu, böyle bir modeli tasarlamamıza yardımcı olmanın harika bir yoludur.

** Jensen Huang: Şirketinizi neden kurduğunuzu hızlıca paylaşabilir misiniz? **

Ashish Vaswani: Şirketimizde amacımız modeller oluşturmak ve yeni görevleri çözmektir. Bizim işimiz, görevin hedeflerini ve içeriğini anlamak ve bu içeriği müşterinin ihtiyaçlarını karşılayacak şekilde uyarlamaktır. Aslında 2021'den itibaren modellerle ilgili en büyük sorunun, modelleri sadece daha akıllı hale getiremeyeceğiniz, aynı zamanda bu modelleri yorumlayacak doğru kişileri bulmanız gerektiğini düşünüyorum. Dünyayı ve modeli iç içe geçirerek modeli daha büyük ve daha olağanüstü hale getirmeyi umuyoruz. Öğrenme sürecinde, başlangıçta laboratuvarın vakum ortamında gerçekleştirilemeyen belirli bir ilerleme miktarı vardır.

Noam Shazeer: 2021'de bu şirketi kurduk. Harika bir teknolojimiz var ama çok fazla insana ulaşmıyor. Bunu söylediğinizi duyan bir hasta olsaydım, tamamlamaları gereken farklı görevleri olan on milyarlarca insan olduğunu düşünürdüm. Derin öğrenme bununla ilgili, teknolojiyi karşılaştırma yoluyla geliştiriyoruz. Aslında Jensen Huang'ın yönlendirdiği teknolojinin sürekli gelişmesi nedeniyle nihai hedefimiz dünyanın her yerindeki insanlara yardım etmektir. Test etmeniz gerekiyor, bizim de artık yüzlerce kişinin bu uygulamaları kullanmasını sağlayacak daha hızlı çözümler geliştirmemiz gerekiyor. Başlangıçta olduğu gibi, herkes bu uygulamaları kullanmıyordu, birçok insan bunları sadece eğlence için kullanıyordu, ama işe yaradı, işe yaradı.

Jakob Uszkoreit: Teşekkürler. Oluşturduğumuz ekolojik yazılım sisteminden bahsetmek istiyorum. 2021 yılında bu şirketin kurucularından biriyim ve amacımız bazı sorunları gerçek bilimsel etkiyle çözmek. Geçmişte oldukça karmaşık içeriklerle uğraşıyorduk. Ama ilk çocuğumu doğurduğumda dünyaya bakış açım değişti. İnsan hayatını daha rahat hale getirmeyi ve protein araştırmalarına katkıda bulunmayı umuyoruz. Özellikle çocuk sahibi olduktan sonra mevcut tıbbi yapının değişmesini umuyor, bilim ve teknolojinin gelişmesinin insanın hayatta kalması ve gelişmesi üzerinde olumlu bir etki yaratabileceğini umuyorum. Örneğin, protein yapısı ve yapısızlaştırma bir dereceye kadar etkilenmiştir ancak şu anda elimizde veri bulunmamaktadır. Sadece bir görev olarak değil, bir baba olarak çalışmalarımızı verilere dayandırmalıyız.

** Jen-Hsun Huang: Bakış açınızı beğeniyorum, her zaman yeni ilaçların tasarımı ve bilgisayarların yeni ilaçların nasıl geliştirilip üretileceğini öğrenmesine izin verme süreciyle ilgileniyorum. Yeni ilaçlar öğrenilip tasarlanabilseydi ve bir laboratuvar bunları test edebilseydi, böyle bir modelin işe yarayıp yaramayacağını belirlemek mümkün olacaktı. **

Llion JonesLlion Jones: Evet, paylaşacak son kişi benim. Kurucu ortağı olduğumuz şirketin adı "balık" anlamına gelen Sakana AI'dır. Şirketimize Japonca "balık" adını vermemizin nedeni, bir balık sürüsü gibi olmamız ve bu durumun bize doğal olarak zeka bulma konusunda ilham vermesidir. İncelenen unsurların çoğunu birleştirebilirsek karmaşık ve güzel bir şey yaratabiliriz. Birçoğu sürecin ve içeriğin ayrıntılarını anlamayabilir, ancak şirket içi temel felsefemiz "Öğrenmek Her Zaman Kazanır"dır.

İster bir sorunu çözmek ister bir şey öğrenmek isteyin, öğrenmek her zaman kazanmanıza yardımcı olacaktır. Üretken yapay zeka sürecinde öğrenme içeriği de kazanmamıza yardımcı olacak. Bir araştırmacı olarak, bilgisayar yapay zeka modellerine gerçek anlamda anlam verdiğimizi herkese hatırlatmak isterim, böylece bu modeller evrenin gizemlerini anlamamıza gerçekten yardımcı olabilir. Aslında çok heyecanlandığımız yeni bir gelişmeyi duyurmak üzere olduğumuzu da söylemek istedim. Artık yapı taşı olarak bir araştırma bütününe sahip olsak da, mevcut model yönetiminin organize edildiği ve insanların gerçek anlamda etkileşime geçmesine izin verdiği dönüştürücü bir gelişme yaşıyoruz. İnsanların dünyayı ve evreni anlama biçimini değiştirmek için bu büyük modelleri ve dönüştürücü modelleri kullanarak bu modelleri daha uygulanabilir hale getiriyoruz. hedefimiz bu.

Aidan Gomez: Şirketi kurma konusundaki asıl niyetim Noam Shazeer'inkine benziyordu. Bilişimin mevcut ürünleri ve çalışma şeklimizi değiştiren yeni bir paradigmaya girdiğini düşünüyorum. Her şey bilgisayar tabanlıdır ve teknolojiyle birlikte belli oranda değişmektedir. Bizim rolümüz nedir? Aslında boşluğu kapatıyorum, uçurumu kapatıyorum. Farklı şirketlerin, her şirketin ürünleri uyarlamasına ve entegre etmesine olanak tanıyan bu tür platformlar oluşturduğunu görebiliriz; bu, kullanıcılarla doğrudan yüzleşmenin bir yoludur. Bu şekilde teknolojiyi geliştiriyor ve onu daha uygun fiyatlı ve daha yaygın hale getiriyoruz.

** Jen-Hsun Huang: Özellikle takdir ettiğim şey, Noam Shazeer özellikle sakin göründüğünde, sizin çok heyecanlı görünmenizdir. Kişiliklerinizdeki farklılıklar o kadar keskin ki. Şimdi sözü Lukasz Kaiser'e veriyorum. **

Lukasz Kaiser: OpenAI'deki deneyimim çok yıkıcıydı. Şirkette çok eğlenceli ve hesaplamalar yapmak için çok fazla veri işliyoruz, ancak günün sonunda benim görevim hâlâ veri analizörlüğü yapmak.

Illiya Polosukhin: İlk ayrılan bendim. Önemli ilerlemeler kaydedeceğimize ve yazılımın tüm dünyayı değiştireceğine yürekten inanıyorum. En doğrudan yol, makinelere kod yazmayı öğretmek ve programlamayı herkes için erişilebilir kılmaktır.

NEAR'da, ilerlememiz sınırlı olmasına rağmen, insanlara temel bir metodolojiye ihtiyacımız olduğunu fark etmeleri konusunda daha fazla ilham vermek gibi, insan bilgeliğini entegre etmeye ve ilgili verileri elde etmeye kararlıyız. Bu model temel bir gelişmedir. Bu büyük model dünya çapında yaygın olarak kullanılmaktadır. Havacılık ve diğer alanlarda birçok uygulaması vardır. Çeşitli alanlardaki iletişim ve etkileşimle ilgilidir ve aslında bize yetenekler sağlar. Kullanımın derinleşmesiyle birlikte daha fazla model getirdiğini ve şu anda telif hakkı konusunda çok fazla anlaşmazlığın olmadığını gördük.

Artık yeni bir üretken çağdayız, yeniliği ve yenilikçileri kutlayan bir çağdayız ve değişime aktif olarak katılmak ve değişimi benimsemek istiyoruz, bu nedenle gerçekten harika bir model oluşturmaya yardımcı olacak farklı yollar aradık.

** Jensen Huang: Bu olumlu geri bildirim sistemi genel ekonomimiz için çok faydalı. Artık ekonomimizi daha iyi tasarlayabiliyoruz. Birisi şunu sordu: GPT modellerinin milyarlarca jeton ölçeğinde veritabanını eğittiği bu dönemde bir sonraki adım ne olacak? Yeni modelleme teknolojisi ne olacak? Neyi keşfetmek istiyorsunuz? Veri kaynaklarınız neler? **

Illia Polosukhin: Başlangıç noktamız vektörler ve yer değiştirmeler. Gerçek ekonomik değeri olan, insanların değerlendirebileceği ve sonuçta tüm modeli daha iyi hale getirmek için tekniklerinizi ve araçlarınızı uygulamaya koyabileceği modellere ihtiyacımız var.

** Jen-Hsun Huang: Modeli nasıl etki alanında eğitiyorsunuz? İlk etkileşimler ve etkileşim kalıpları nelerdi? Modeller arası iletişim ve etkileşim mi? Yoksa üretken modeller ve teknikler var mı? **

Illia Polosukhin: Ekibimizde herkesin kendi teknik uzmanlığı var.

Jakob Uszkoreit: Bir sonraki adım muhakeme etmektir. Hepimiz akıl yürütmenin öneminin farkındayız, ancak işin çoğu hala mühendisler tarafından manuel olarak yapılıyor. Aslında onlara etkileşimli bir soru-cevap formatında cevap vermeyi öğretiyoruz ve bunun nedenini birlikte anlamalarını ve birlikte güçlü bir akıl yürütme modeli sağlamalarını umuyoruz. Modelin istediğimiz içeriği üretebileceğini umuyoruz ve takip ettiğimiz şey bu oluşturma yöntemidir. İster video, ister metin, ister 3D bilgi olsun, bunların hepsi entegre edilmelidir.

Lukasz Kaiser: Sanırım insanlar çıkarımın aslında verilerden geldiğini anlıyorlar mı? Mantık yürütmeye başlarsak elimizde bir veri seti var ve bu veri neden farklı diye düşünüyoruz? Daha sonra çeşitli uygulamaların aslında veri muhakemesi sürecine dayandığını öğreneceğiz. Bilgisayarların gücü sayesinde, bunun gibi sistemler sayesinde oradan daha da gelişmeye başlayabiliriz. İlgili içerik hakkında akıl yürütebilir ve deneyler yapabiliriz.

Çoğu zaman bunlar verilerden elde edilir. Çıkarımın çok hızlı geliştiğini, veri modellerinin çok önemli olduğunu ve yakın gelecekte daha etkileşimli içeriklerin olacağını düşünüyorum. Henüz yeterince eğitim yapmadık, temel içerik ve unsur bu değil, verileri daha ayrıntılı hale getirmemiz gerekiyor.

Noam Shazeer: Bir öğretim makinesi tasarlamak gibi bazı verileri tasarlamak, yüzlerce veya yüz milyonlarca farklı token içerebilir.

Ashish Vaswani: Vurgulamak istediğim nokta şu ki, bu alanda bazı kilometre taşlarına ulaşmış birçok ortağımız var. En iyi otomatik algoritma nedir? Aslında gerçek dünyadaki görevleri farklı içeriklere ayırmaktır. Modelimiz de çok önemli, veriyi almamıza, verinin doğru yerde olup olmadığını görmemize yardımcı oluyor. Bir yandan verilere odaklanmamıza yardımcı olurken diğer yandan bu tür veriler bize soyut görevleri tamamlamamız için yüksek kaliteli modeller sağlar. Dolayısıyla bu ilerlemeyi ölçmenin aynı zamanda bir yaratıcılık yolu, bir bilimsel gelişim yolu ve otomasyon gelişimimizin bir yolu olduğuna inanıyoruz.

** Jen-Hsun Huang: İyi bir ölçüm sistemi olmadan harika projeler yapamazsınız. Birbirinize sorularınız mı var? **

Illia Polosukhin: Kimse aslında hangi adımları attıklarını bilmek istemiyor. Ama aslında yaptığımız şeyi anlamayı, keşfetmeyi, yeterli veri ve bilgiyi elde etmeyi ve makul çıkarımlar yapmayı umuyoruz. Örneğin, altı adımınız varsa ancak aslında beş adım üzerinden mantık yürüterek bir adımı atlayabilirsiniz. Bazen altı adıma ihtiyacınız olmaz, bazen de daha fazla adıma ihtiyacınız olur; peki böyle bir senaryoyu nasıl kopyalayabilirsiniz? Token'dan uzaklaşmak için neye ihtiyacınız var?

Lukasz Kaiser: Benim kişisel inancım, bu kadar büyük bir modelin yeniden üretilmesinin çok karmaşık bir süreç olduğu yönünde. Sistemler gelişecek ama aslında bir yöntem geliştirmeniz gerekiyor. İnsan tekrarlanma konusunda yetenekli bir yaratıktır.İnsanlık tarihi boyunca başarılı sahneleri defalarca yeniden ürettik.

** Jen-Hsun Huang: Sizinle iletişim kurmaktan çok mutluyum ve umarım birbirinizle iletişim kurma ve tarif edilemez sihir üretme fırsatına sahip olursunuz. Bu toplantıya katıldığınız için teşekkür ederiz, çok teşekkür ederiz! **

Orijinali Görüntüle
  • Bahşiş
  • Yorum
  • Paylaş
Yorum
Yorum yok