Huang Renxun พูดคุยกับผู้เขียน Transformer ทั้งเจ็ดคน: เราติดอยู่ในโมเดลดั้งเดิมและต้องการสถาปัตยกรรมใหม่ที่ทรงพลังยิ่งขึ้น

![Huang Renxun พูดคุยกับผู้เขียน Transformer ทั้ง 7 คน: เราติดอยู่ในโมเดลดั้งเดิมและต้องการสถาปัตยกรรมใหม่ที่ทรงพลังกว่านี้](https://cdn-img.panewslab.com//panews/2022/3/23 /images/ 3209736c2376bc78f33a30e387cc4e77.jpeg)

ผู้เขียน: กัว เสี่ยวจิง

ที่มา: ข่าว Tencent

ในปี 2017 มีการเผยแพร่รายงานสำคัญเรื่อง "Attention is All You Need" โดยเปิดตัวโมเดล Transformer ที่อิงตามกลไกการเอาใจใส่ตนเองเป็นครั้งแรก สถาปัตยกรรมที่เป็นนวัตกรรมนี้ได้ขจัดข้อจำกัดของ RNN และ CNN แบบดั้งเดิม ผ่านทาง กลไกความสนใจของการประมวลผลแบบขนาน ปัญหาของการพึ่งพาทางไกลได้รับการแก้ไขอย่างมีประสิทธิภาพ และความเร็วของการประมวลผลข้อมูลลำดับได้รับการปรับปรุงอย่างมีนัยสำคัญ โครงสร้างตัวเข้ารหัส-ถอดรหัสของ Transformer และกลไกความสนใจแบบหลายหัวได้ก่อให้เกิดพายุในด้านปัญญาประดิษฐ์ ChatGPT ยอดนิยมสร้างขึ้นจากสถาปัตยกรรมนี้

ลองจินตนาการว่าโมเดล Transformer เป็นเหมือนสมองของคุณที่กำลังคุยกับเพื่อน โดยให้ความสนใจกับทุกคำที่อีกฝ่ายพูดไปพร้อมๆ กัน และเข้าใจความเชื่อมโยงระหว่างคำเหล่านั้น ช่วยให้คอมพิวเตอร์มีความสามารถในการเข้าใจภาษาเหมือนมนุษย์ ก่อนหน้านี้ RNN เป็นวิธีการหลักในการประมวลผลภาษา แต่ความเร็วในการประมวลผลข้อมูลช้า เช่นเดียวกับเครื่องเล่นเทปสมัยเก่าที่ต้องเล่นคำต่อคำ โมเดล Transformer เปรียบเสมือนดีเจที่มีประสิทธิภาพ สามารถควบคุมหลายแทร็กพร้อมกันและบันทึกข้อมูลสำคัญได้อย่างรวดเร็ว

การเกิดขึ้นของโมเดล Transformer ได้ปรับปรุงความสามารถของคอมพิวเตอร์ในการประมวลผลภาษาอย่างมาก ทำให้งานต่างๆ เช่น การแปลด้วยเครื่อง การรู้จำคำพูด และการสรุปข้อความมีประสิทธิภาพและแม่นยำยิ่งขึ้น นี่เป็นก้าวกระโดดครั้งใหญ่ของทั้งอุตสาหกรรม

นวัตกรรมนี้เป็นผลมาจากความพยายามร่วมกันของนักวิทยาศาสตร์ AI 8 คนที่เคยทำงานที่ Google เป้าหมายเริ่มแรกของพวกเขานั้นเรียบง่าย: ปรับปรุงบริการแปลภาษาด้วยคอมพิวเตอร์ของ Google พวกเขาต้องการให้เครื่องจักรสามารถเข้าใจและอ่านประโยคทั้งหมดได้อย่างสมบูรณ์ แทนที่จะแปลทีละคำโดยแยกจากกัน แนวคิดนี้กลายเป็นจุดเริ่มต้นของสถาปัตยกรรม "Transformer" ซึ่งเป็นกลไก "การเอาใจใส่ตนเอง" บนพื้นฐานนี้ ผู้เขียนทั้งแปดคนนี้ใช้ความเชี่ยวชาญของตนและตีพิมพ์รายงาน "Attention Is All You Need" ในเดือนธันวาคม 2017 โดยบรรยายรายละเอียดเกี่ยวกับสถาปัตยกรรม Transformer และเปิดบทใหม่ใน generative AI

ในโลกของ generative AI นั้น Scaling Law เป็นหลักการสำคัญ กล่าวโดยสรุป เมื่อขนาดของรุ่น Transformer เพิ่มขึ้น ประสิทธิภาพก็เพิ่มขึ้นเช่นกัน แต่ก็หมายความว่าจำเป็นต้องใช้ทรัพยากรการประมวลผลที่ทรงพลังมากขึ้นเพื่อรองรับโมเดลที่ใหญ่ขึ้นและเครือข่ายที่ลึกยิ่งขึ้น และโมเดลที่ให้บริการการประมวลผลประสิทธิภาพสูง NVIDIA ก็กลายเป็น ผู้เล่นหลักในคลื่น AI นี้

ในการประชุม GTC ปีนี้ Jen-Hsun Huang จาก Nvidia ได้เชิญผู้เขียน Transformer ทั้ง 7 คน (Niki Parmar ไม่สามารถเข้าร่วมได้ชั่วคราวด้วยเหตุผลบางประการ) ให้เข้าร่วมการอภิปรายโต๊ะกลมในลักษณะพิธีการ นี่เป็นครั้งแรกที่ผู้เขียนทั้ง 7 คน หารือเกี่ยวกับงานของตนในที่สาธารณะ การปรากฏตัวของกลุ่ม

พวกเขายังได้กล่าวถึงประเด็นที่น่าประทับใจระหว่างการสนทนาอีกด้วย:

โลกต้องการบางสิ่งที่ดีกว่า Transformer และฉันคิดว่าเราทุกคนที่นี่หวังว่ามันจะถูกแทนที่ด้วยบางสิ่งที่จะพาเราไปสู่จุดสูงสุดแห่งประสิทธิภาพใหม่
เราไม่ประสบความสำเร็จตามเป้าหมายเดิม ความตั้งใจเดิมของเราในการเริ่มต้น Transformer คือการจำลองกระบวนการวิวัฒนาการของ Token มันไม่ได้เป็นเพียงกระบวนการสร้างเชิงเส้น แต่เป็นวิวัฒนาการของข้อความหรือโค้ดทีละขั้นตอน
ปัญหาง่ายๆ เช่น 2+2 ซึ่งอาจใช้ทรัพยากรพารามิเตอร์นับล้านล้านของโมเดลขนาดใหญ่ ฉันคิดว่าการประมวลผลแบบปรับตัวเป็นหนึ่งในสิ่งต่อไปที่จะเกิดขึ้น โดยที่เรารู้ว่าควรใช้ทรัพยากรการประมวลผลมากเพียงใดกับปัญหาเฉพาะ
ฉันคิดว่ารุ่นปัจจุบันมีราคาไม่แพงเกินไปและมีขนาดเล็กเกินไป ราคาประมาณ 1 ล้านเหรียญสหรัฐถูกกว่าการออกไปซื้อหนังสือปกอ่อนถึง 100 เท่า

ต่อไปนี้เป็นเนื้อหาจริง:

Jensen Huang: ในช่วงหกสิบปีที่ผ่านมา ดูเหมือนว่าเทคโนโลยีคอมพิวเตอร์จะไม่ได้รับการเปลี่ยนแปลงขั้นพื้นฐาน อย่างน้อยตั้งแต่วินาทีแรกที่ฉันเกิด ระบบคอมพิวเตอร์ที่เราใช้อยู่ในปัจจุบัน ไม่ว่าจะเป็น multi-tasking, การแยกฮาร์ดแวร์และซอฟต์แวร์, ความเข้ากันได้ของซอฟต์แวร์, ความสามารถในการสำรองข้อมูล และทักษะการเขียนโปรแกรมของวิศวกรซอฟต์แวร์ โดยพื้นฐานแล้ว ขึ้นอยู่กับหลักการออกแบบของ IBM 360 - Central Processor, Bio ระบบย่อย มัลติทาสกิ้ง ฮาร์ดแวร์และซอฟต์แวร์ ความเข้ากันได้ของระบบซอฟต์แวร์ ฯลฯ

ฉันไม่คิดว่าคอมพิวเตอร์สมัยใหม่มีการเปลี่ยนแปลงขั้นพื้นฐานนับตั้งแต่ปี 1964 แม้ว่าในช่วงทศวรรษ 1980 และ 1990 คอมพิวเตอร์จะมีการเปลี่ยนแปลงครั้งใหญ่เป็นรูปแบบที่เราคุ้นเคยในปัจจุบัน แต่เมื่อเวลาผ่านไป ต้นทุนส่วนเพิ่มของคอมพิวเตอร์ยังคงลดลง โดยลดต้นทุนลงสิบครั้งทุกๆ สิบปี พันครั้งในสิบห้าปี และหมื่นครั้งในยี่สิบปี ในการปฏิวัติคอมพิวเตอร์ครั้งนี้ การลดต้นทุนลงได้มากจนในสองทศวรรษ ราคาคอมพิวเตอร์ลดลงเกือบ 10,000 เท่า การเปลี่ยนแปลงนี้นำพลังมหาศาลมาสู่สังคม

ลองจินตนาการดูว่าของราคาแพงทั้งหมดในชีวิตของคุณถูกลดเหลือเพียงหนึ่งหมื่นของมูลค่าเดิมหรือไม่ เช่น รถที่คุณซื้อในราคา 200,000 ดอลลาร์เมื่อยี่สิบปีที่แล้วตอนนี้มีราคาเพียง 1 ดอลลาร์ คุณจินตนาการถึงการเปลี่ยนแปลงนี้ได้ไหม ? อย่างไรก็ตาม การลดลงของต้นทุนคอมพิวเตอร์ไม่ได้เกิดขึ้นชั่วข้ามคืน แต่ค่อยๆ มาถึงจุดวิกฤติ จากนั้นแนวโน้มการลดลงของต้นทุนก็หยุดลงกะทันหัน ดีขึ้นเรื่อยๆ เล็กน้อยทุกปี แต่อัตราการเปลี่ยนแปลงก็หยุดนิ่ง

เราเริ่มสำรวจการใช้คอมพิวเตอร์แบบเร่งความเร็ว แต่การใช้คอมพิวเตอร์แบบเร่งความเร็วนั้นไม่ใช่เรื่องง่าย คุณต้องออกแบบมันทีละนิดตั้งแต่เริ่มต้น ในอดีต เราอาจทำตามขั้นตอนที่กำหนดไว้เพื่อแก้ไขปัญหาทีละขั้นตอน แต่ตอนนี้ เราต้องออกแบบขั้นตอนเหล่านั้นใหม่ นี่เป็นสาขาวิทยาศาสตร์ใหม่โดยสิ้นเชิง โดยการปฏิรูปกฎก่อนหน้านี้ให้เป็นอัลกอริธึมแบบคู่ขนาน

เราตระหนักดีถึงสิ่งนี้และเชื่อว่าหากเราสามารถเร่งความเร็วโค้ดได้แม้แต่ 1% และประหยัดเวลาในการทำงานได้ 99% ก็จะมีแอปพลิเคชันต่างๆ ที่จะได้รับประโยชน์จากโค้ดดังกล่าว เป้าหมายของเราคือการทำให้สิ่งที่เป็นไปไม่ได้เป็นไปได้ หรือทำให้สิ่งที่เป็นไปได้เป็นไปไม่ได้ หรือทำให้สิ่งที่เป็นไปได้อยู่แล้วมีประสิทธิภาพมากขึ้น นี่คือความหมายของการประมวลผลแบบเร่งความเร็ว

เมื่อมองย้อนกลับไปถึงประวัติของบริษัท เราเห็นความสามารถของเราในการเร่งการใช้งานที่หลากหลาย ในตอนแรก เราประสบความสำเร็จอย่างมากในด้านการเล่นเกม มีประสิทธิภาพมากจนผู้คนเข้าใจผิดคิดว่าเราเป็นบริษัทเกม แต่ในความเป็นจริงแล้ว เป้าหมายของเรามีมากกว่านั้น เนื่องจากตลาดนี้มีขนาดใหญ่และใหญ่พอที่จะขับเคลื่อนความก้าวหน้าทางเทคโนโลยีอย่างไม่น่าเชื่อ สถานการณ์นี้ไม่เป็นเรื่องปกติ แต่เราพบกรณีพิเศษ

เพื่อให้เรื่องสั้นสั้นลง ในปี 2012 AlexNet ได้จุดประกาย ซึ่งถือเป็นการปะทะกันครั้งแรกระหว่างปัญญาประดิษฐ์กับ NVIDIA GPU นี่เป็นจุดเริ่มต้นของการเดินทางที่น่าอัศจรรย์ของเราในสาขานี้ ไม่กี่ปีต่อมา เราได้ค้นพบสถานการณ์การใช้งานที่สมบูรณ์แบบซึ่งวางรากฐานให้เรามาถึงทุกวันนี้

กล่าวโดยสรุป ความสำเร็จเหล่านี้วางรากฐานสำหรับการพัฒนาปัญญาประดิษฐ์เชิงสร้างสรรค์ AI เจนเนอเรชั่นไม่เพียงแต่สามารถจดจำรูปภาพได้เท่านั้น แต่ยังแปลงข้อความให้เป็นรูปภาพและแม้แต่สร้างเนื้อหาใหม่ล่าสุดอีกด้วย ขณะนี้เรามีความสามารถทางเทคนิคเพียงพอที่จะเข้าใจพิกเซล ระบุพิกเซล และเข้าใจความหมายเบื้องหลังพิกเซลเหล่านั้น ด้วยความหมายเบื้องหลังเหล่านี้ เราจึงสามารถสร้างเนื้อหาใหม่ได้ ความสามารถของปัญญาประดิษฐ์ในการเข้าใจความหมายเบื้องหลังข้อมูลถือเป็นการเปลี่ยนแปลงครั้งใหญ่

เรามีเหตุผลที่เชื่อได้ว่านี่คือจุดเริ่มต้นของการปฏิวัติอุตสาหกรรมครั้งใหม่ ในการปฏิวัติครั้งนี้ เรากำลังสร้างสิ่งที่ไม่เคยทำมาก่อน ตัวอย่างเช่น ในการปฏิวัติอุตสาหกรรมครั้งก่อน น้ำเป็นแหล่งพลังงาน และน้ำเข้าสู่อุปกรณ์ที่เราสร้างขึ้น และเครื่องกำเนิดไฟฟ้าก็เริ่มทำงาน น้ำเข้าและไฟฟ้าออกมา ราวกับเวทมนตร์

Generative AI เป็น "ซอฟต์แวร์" ใหม่ล่าสุดที่สามารถสร้างซอฟต์แวร์ได้ และต้องอาศัยความพยายามร่วมกันของนักวิทยาศาสตร์จำนวนมาก ลองนึกภาพว่าคุณให้วัตถุดิบ AI - ข้อมูล แล้วพวกมันก็เข้าสู่ "อาคาร" - เครื่องจักรที่เราเรียกว่า GPU และมันสามารถให้ผลลัพธ์ที่น่าอัศจรรย์ได้ มันกำลังปรับโฉมทุกสิ่งทุกอย่าง และเรากำลังเห็นการกำเนิดของ "โรงงาน AI"

การเปลี่ยนแปลงนี้สามารถเรียกได้ว่าเป็นการปฏิวัติอุตสาหกรรมใหม่ เราไม่เคยประสบกับการเปลี่ยนแปลงเช่นนี้มาก่อน แต่ตอนนี้มันค่อยๆ ปรากฏต่อหน้าเรา อย่าพลาดอีกสิบปีข้างหน้า เพราะในสิบปีนี้ เราจะสร้างผลผลิตมหาศาล ลูกตุ้มแห่งเวลาได้เริ่มเคลื่อนไหวแล้ว และนักวิจัยของเรากำลังดำเนินการอยู่

วันนี้เราได้เชิญผู้สร้าง Tansformer มาอภิปรายว่า AI เจนเนอเรชั่นจะพาเราไปสู่จุดใดในอนาคต

พวกเขาคือ:

Ashish Vaswani: เข้าร่วมทีม Google Brain ในปี 2016 ในเดือนเมษายน 2022 เขาได้ร่วมก่อตั้ง Adept AI ร่วมกับ Niki Parmar และลาออกจากบริษัทในเดือนธันวาคมของปีเดียวกัน และร่วมก่อตั้ง Essential AI สตาร์ทอัพด้านปัญญาประดิษฐ์อีกรายหนึ่ง

Niki Parmar: ทำงานที่ Google Brain เป็นเวลา 4 ปีก่อนที่จะร่วมก่อตั้ง Adept AI และ Essential AI ร่วมกับ Ashish Vaswani

Jakob Uszkoreit: ทำงานที่ Google ตั้งแต่ปี 2008 ถึง 2021 เขาออกจาก Google ในปี 2021 และร่วมก่อตั้ง Inceptive ธุรกิจหลักของบริษัทคือวิทยาศาสตร์ชีวภาพด้านปัญญาประดิษฐ์และมุ่งมั่นที่จะใช้โครงข่ายประสาทเทียมและการทดลองที่มีปริมาณงานสูงเพื่อออกแบบโมเลกุล RNA รุ่นต่อไป

Illia Polosukhin: เข้าร่วม Google ในปี 2014 และเป็นหนึ่งในบุคคลกลุ่มแรกๆ ที่ออกจากทีมที่มีแปดคน ในปี 2017 เขาได้ร่วมก่อตั้งบริษัทบล็อกเชน NEAR Protocol

Noam Shazeer: ทำงานที่ Google ตั้งแต่ปี 2000 ถึง 2009 และตั้งแต่ปี 2012 ถึง 2021 ในปี 2021 Shazeer ออกจาก Google และร่วมก่อตั้ง Character.AI ร่วมกับ Daniel De Freitas อดีตวิศวกรของ Google

**Llion Jones: **ทำงานที่ Delcam และ YouTube ร่วมงานกับ Google ในปี 2012 ในตำแหน่งวิศวกรซอฟต์แวร์ ต่อมาเขาออกจาก Google และก่อตั้งบริษัทสตาร์ทอัพด้านปัญญาประดิษฐ์ sakana.ai

Lukasz Kaiser: เคยเป็นนักวิจัยที่ศูนย์วิจัยวิทยาศาสตร์แห่งชาติฝรั่งเศส เข้าร่วม Google ในปี 2013 ในปี 2021 เขาออกจาก Google และกลายเป็นนักวิจัยที่ OpenAI

Aidan Gomez: สำเร็จการศึกษาจากมหาวิทยาลัยโตรอนโต ประเทศแคนาดา เมื่อ Transformer paper ได้รับการตีพิมพ์ เขายังคงเป็นเด็กฝึกงานในทีม Google Brain เขาเป็นบุคคลที่สองจากทีมแปดคนที่ออกจาก Google ในปี 2019 เขาได้ร่วมก่อตั้ง Cohere

Renxun Huang: ขณะที่ฉันนั่งอยู่ที่นี่ในวันนี้ โปรดพยายามอย่างแข็งขันเพื่อหาโอกาสในการพูด ไม่มีหัวข้อใดที่ไม่สามารถพูดคุยได้ที่นี่ คุณสามารถกระโดดจากเก้าอี้เพื่อหารือเกี่ยวกับประเด็นต่างๆ ได้ เริ่มจากคำถามพื้นฐานที่สุด คุณประสบปัญหาอะไรบ้างในขณะนั้น และอะไรเป็นแรงบันดาลใจให้คุณมาเป็น Transformer

อิลเลีย โปโลซูคิน: หากคุณต้องการเปิดตัวโมเดลที่สามารถอ่านผลการค้นหาได้จริง เช่น การประมวลผลกองเอกสาร คุณต้องมีโมเดลที่สามารถประมวลผลข้อมูลนี้ได้อย่างรวดเร็ว โครงข่ายประสาทเทียมที่เกิดซ้ำ (RNN) ในขณะนั้นไม่สามารถตอบสนองความต้องการดังกล่าวได้

แท้จริงแล้ว แม้ว่าโครงข่ายประสาทที่เกิดซ้ำ (RNN) และกลไกความสนใจเบื้องต้น (Arnens) บางอย่างดึงดูดความสนใจในเวลานั้น แต่ก็ยังต้องอ่านคำต่อคำ ซึ่งไม่มีประสิทธิภาพ

Jakob Uszkoreit: ความเร็วที่เราสร้างข้อมูลการฝึกอบรมนั้นเกินกว่าความสามารถของเราในการฝึกอบรมสถาปัตยกรรมล้ำสมัยมาก ที่จริงแล้ว เราใช้สถาปัตยกรรมที่เรียบง่ายกว่า เช่น เครือข่ายฟีดฟอร์เวิร์ดที่มี n-grams เป็นคุณสมบัติอินพุต สถาปัตยกรรมเหล่านี้มักจะมีประสิทธิภาพเหนือกว่าโมเดลที่ซับซ้อนและขั้นสูงกว่า เนื่องจากฝึกฝนได้เร็วกว่า อย่างน้อยก็กับข้อมูลการฝึกจำนวนมากในระดับ Google

RNN ที่ทรงพลังในขณะนั้น โดยเฉพาะเครือข่ายหน่วยความจำระยะสั้นแบบยาว (LSTM) นั้นมีอยู่แล้ว

Noam Shazeer: ดูเหมือนว่านี่เป็นปัญหาที่ลุกลาม เราเริ่มสังเกตเห็นกฎการปรับขนาดเหล่านี้ประมาณปี 2015 และคุณจะเห็นได้ว่าเมื่อขนาดของโมเดลเพิ่มขึ้น ความฉลาดของโมเดลก็จะเพิ่มขึ้นตามไปด้วย มันเหมือนกับปัญหาที่ดีที่สุดในประวัติศาสตร์โลก ง่ายมาก คุณแค่ทำนายโทเค็นถัดไป และมันจะฉลาดมากและสามารถทำสิ่งต่าง ๆ ได้นับล้าน และคุณแค่ต้องการขยายขนาดและ ทำให้ดีขึ้น.

สิ่งที่น่าหงุดหงิดอย่างมากก็คือ RNN นั้นยุ่งยากเกินกว่าจะรับมือได้ แล้วฉันก็ได้ยินคนพวกนี้คุยกันว่า เฮ้ ลองแทนที่สิ่งนี้ด้วยกลไกการบิดหรือความสนใจดีกว่า ฉันคิดว่า เยี่ยมเลย มาทำสิ่งนี้กัน ฉันชอบที่จะเปรียบเทียบ Transformer กับการก้าวกระโดดจากเครื่องยนต์ไอน้ำไปสู่เครื่องยนต์สันดาปภายใน เราน่าจะเสร็จสิ้นการปฏิวัติอุตสาหกรรมด้วยเครื่องยนต์ไอน้ำ แต่นั่นคงเป็นเรื่องที่เจ็บปวด และเครื่องยนต์สันดาปภายในทำให้ทุกอย่างดีขึ้น

Ashish Vaswani: ฉันเริ่มเรียนรู้บทเรียนหนักๆ ในช่วงเรียนจบ โดยเฉพาะอย่างยิ่งตอนที่ฉันทำงานเกี่ยวกับการแปลด้วยเครื่อง ฉันตระหนักได้ว่า เฮ้ ฉันจะไม่เรียนรู้กฎเกณฑ์ทางภาษาที่ซับซ้อนเหล่านั้น ฉันคิดว่า Gradient Descent - วิธีที่เราฝึกโมเดลเหล่านี้ - เป็นครูที่ดีกว่าฉัน ฉันจะไม่เรียนรู้กฎเกณฑ์ ฉันจะปล่อยให้ Gradient Descent จัดการทุกอย่างให้ฉัน และนั่นคือบทเรียนที่สองของฉัน

สิ่งที่ฉันได้เรียนรู้อย่างยากลำบากก็คือสถาปัตยกรรมทั่วไปที่สามารถปรับขนาดได้จะประสบความสำเร็จในระยะยาว วันนี้อาจเป็นโทเค็น พรุ่งนี้อาจเป็นการกระทำที่เราทำบนคอมพิวเตอร์ และพวกมันจะเริ่มเลียนแบบกิจกรรมของเรา และสามารถทำให้งานที่เราทำเป็นอัตโนมัติได้ ดังที่เราได้พูดคุยไปแล้ว Transformer โดยเฉพาะอย่างยิ่งกลไกการใส่ใจในตนเอง สามารถนำไปใช้ได้กว้างมาก และยังทำให้การไล่ระดับสีดีขึ้นอีกด้วย อีกอย่างคือฟิสิกส์ เพราะสิ่งหนึ่งที่ฉันเรียนรู้จากโนมคือการคูณเมทริกซ์เป็นความคิดที่ดี

Noam Shazeer: รูปแบบนี้เกิดขึ้นซ้ำๆ ดังนั้นทุกครั้งที่คุณเพิ่มกฎจำนวนมาก การไล่ระดับลงจะกลายเป็นการเรียนรู้กฎเหล่านั้นได้ดีกว่าคุณ แค่นั้นแหละ. เช่นเดียวกับการเรียนรู้เชิงลึกที่เราทำ เรากำลังสร้างโมเดล AI ที่มีรูปร่างเหมือน GPU และตอนนี้ เรากำลังสร้างโมเดล AI ที่มีรูปร่างเหมือนซูเปอร์คอมพิวเตอร์ ใช่แล้ว ซูเปอร์คอมพิวเตอร์เป็นต้นแบบแล้ว ใช่นี่เป็นเรื่องจริง ใช่. ซูเปอร์คอมพิวเตอร์ เพียงแจ้งให้คุณทราบ เรากำลังสร้างซูเปอร์คอมพิวเตอร์ให้อยู่ในรูปทรงของแบบจำลอง

** Jen-Hsun Huang: แล้วคุณกำลังพยายามแก้ไขปัญหาอะไรอยู่? **

ลูคัสซ์ ไคเซอร์: การแปลภาษาด้วยคอมพิวเตอร์ เมื่อนึกย้อนกลับไปเมื่อห้าปีก่อน กระบวนการนี้ดูยากมาก คุณต้องรวบรวมข้อมูล หรืออาจแปล และผลลัพธ์อาจมีความถูกต้องเพียงเล็กน้อยเท่านั้น ระดับในเวลานั้นยังอยู่ในระดับพื้นฐานมาก แต่ตอนนี้ โมเดลเหล่านี้สามารถเรียนรู้การแปลได้แม้จะไม่มีข้อมูลก็ตาม คุณเพียงแค่ระบุภาษาหนึ่งและอีกภาษาหนึ่ง จากนั้นโมเดลก็จะเรียนรู้ที่จะแปลด้วยตัวเอง และความสามารถจะเกิดขึ้นอย่างเป็นธรรมชาติและเป็นที่น่าพอใจ

ลิออน โจนส์: แต่สัญชาตญาณของ "ความสนใจ" คือสิ่งที่คุณต้องการ ดังนั้นฉันจึงคิดชื่อเรื่องนี้ขึ้นมา และโดยพื้นฐานแล้วสิ่งที่เกิดขึ้นคือเมื่อเรากำลังมองหาชื่อนี้

เราเพิ่งทำการผ่าตัดทำลายและเริ่มทิ้งชิ้นส่วนของแบบจำลองเพื่อดูว่ามันจะแย่ลงหรือไม่ เราแปลกใจที่มันเริ่มดีขึ้น จะดีกว่ามากถ้ารวมการโน้มน้าวใจทั้งหมดนี้ทิ้งไป นั่นคือที่มาของชื่อ

Ashish Vaswani: โดยพื้นฐานแล้วสิ่งที่น่าสนใจคือเราเริ่มต้นด้วยกรอบงานพื้นฐาน จากนั้นเราก็เพิ่มสิ่งต่างๆ เพิ่มการโน้มน้าวใจ จากนั้นฉันก็เดาว่าเราเอามันออกไป ยังมีสิ่งที่สำคัญมากอื่นๆ อีกมากมาย เช่น ความสนใจจากหลายหัว

** เจนเซ่น หวง : ใครเป็นคนคิดชื่อ Transformer ? ทำไมถึงเรียกว่า Transformer? **

Jakob Uszkoreit: เราชอบชื่อนี้ เราแค่หยิบมันขึ้นมาแบบสุ่มๆ และคิดว่ามันสร้างสรรค์มาก มันเปลี่ยนรูปแบบการผลิตข้อมูลของเรา และใช้ตรรกะดังกล่าว แมชชีนเลิร์นนิงทั้งหมดเป็น Transformer และผู้ขัดขวาง

Noam Shazeer: เราไม่เคยคิดถึงชื่อนี้มาก่อน ฉันคิดว่าชื่อนี้ง่ายมาก และหลายๆ คนก็คิดว่าชื่อนี้ดีมาก ก่อนหน้านี้ฉันนึกถึงชื่อต่างๆ มากมาย เช่น Yaakov และในที่สุดก็ตัดสินใจเลือก "Transformer" ซึ่งอธิบายหลักการของโมเดล จริง ๆ แล้วมันจะแปลงสัญญาณทั้งหมด ตามตรรกะนี้ Machine Learning เกือบทั้งหมดจะถูกเปลี่ยน

ไลออน โจนส์: สาเหตุที่ Transformer กลายเป็นชื่อที่คุ้นเคยนั้นไม่เพียงเพราะเนื้อหาของการแปลเท่านั้น แต่ยังเป็นเพราะเราต้องการอธิบายการเปลี่ยนแปลงนี้ในลักษณะทั่วไปมากขึ้นอีกด้วย ฉันไม่คิดว่าเราทำงานได้ดี แต่ในฐานะผู้สร้างการเปลี่ยนแปลง ในฐานะคนขับและเครื่องยนต์ มันสมเหตุสมผลแล้ว ทุกคนสามารถเข้าใจโมเดลภาษา เครื่องมือ และตรรกะขนาดใหญ่ได้ จากมุมมองทางสถาปัตยกรรม นี่เป็นช่วงเริ่มต้นที่ค่อนข้างเร็ว

แต่เราตระหนักได้ว่าจริงๆ แล้วเรากำลังพยายามสร้างบางสิ่งที่มีความหลากหลายมากจนสามารถเปลี่ยนสิ่งอื่นๆ ให้เป็นอย่างอื่นได้ และฉันไม่คิดว่าเราจะคาดเดาได้ว่าสิ่งนี้จะดีแค่ไหนเมื่อมีการใช้ Transformers ในการถ่ายภาพ ซึ่งค่อนข้างน่าประหลาดใจเล็กน้อย นี่อาจดูสมเหตุสมผลสำหรับพวกคุณ แต่จริงๆ แล้ว คุณสามารถแบ่งภาพและติดป้ายกำกับจุดเล็กๆ แต่ละจุดได้ ฉันคิดว่านี่เป็นสิ่งที่มีอยู่ในช่วงต้นของสถาปัตยกรรม

ดังนั้น ตอนที่เราสร้างห้องสมุดแบบเทนเซอร์ต่อเทนเซอร์ สิ่งที่เรามุ่งเน้นจริงๆ ก็คือการขยายขนาดการฝึกอบรมแบบออโต้รีเกรสซีฟ ไม่ใช่แค่ภาษาเท่านั้น แต่ยังรวมถึงส่วนประกอบภาพและเสียงด้วย

ลูคัสจึงบอกว่าสิ่งที่เขาทำอยู่กำลังแปลอยู่ ฉันคิดว่าเขาประเมินตัวเองต่ำเกินไป และแนวคิดทั้งหมดนี้ ตอนนี้เราเริ่มเห็นรูปแบบเหล่านี้มารวมกัน ทั้งหมดนี้เป็นส่วนเสริมให้กับโมเดล

แต่จริงๆ แล้ว ทุกอย่างเกิดขึ้นตั้งแต่เนิ่นๆ และไอเดียต่างๆ ก็ซึมซาบและต้องใช้เวลาพอสมควร เป้าหมายของ Lukasz คือ เรามีชุดข้อมูลทางวิชาการที่เปลี่ยนจากรูปภาพหนึ่งไปอีกข้อความ ข้อความหนึ่งเป็นรูปภาพ เสียงเป็นข้อความ และข้อความเป็นข้อความ เราควรฝึกฝนเพื่อทุกสิ่ง

แนวคิดนี้ผลักดันให้เกิดการต่อขยาย และในที่สุดก็ได้ผล และเป็นเรื่องที่น่าสนใจมากที่เราสามารถแปลรูปภาพเป็นข้อความ ข้อความเป็นรูปภาพ และข้อความเป็นข้อความได้

คุณกำลังใช้มันเพื่อศึกษาชีววิทยา หรือซอฟต์แวร์ชีวภาพ ซึ่งอาจคล้ายกับซอฟต์แวร์คอมพิวเตอร์ โดยที่มันเริ่มต้นเป็นโปรแกรม จากนั้นคุณคอมไพล์มันเป็นสิ่งที่สามารถทำงานบน GPU ได้

อายุการใช้งานของซอฟต์แวร์ชีวภาพเริ่มต้นด้วยการระบุพฤติกรรมบางอย่าง สมมติว่าคุณต้องการพิมพ์โปรตีน เช่น โปรตีนจำเพาะในเซลล์ จากนั้นคุณได้เรียนรู้วิธีใช้การเรียนรู้เชิงลึก เพื่อแปลงสิ่งนั้นให้เป็นโมเลกุลอาร์เอ็นเอ แต่จริงๆ แล้วแสดงพฤติกรรมเหล่านี้ เมื่อมันเข้าสู่เซลล์ของคุณ แนวคิดนี้จึงไม่ใช่แค่การแปลเป็นภาษาอังกฤษเท่านั้น

**Jensen Huang: คุณสร้างห้องทดลองขนาดใหญ่เพื่อผลิตทั้งหมดนี้หรือไม่? **

ไอดาน โกเมซ: มีข้อมูลมากมายและจริงๆ แล้วยังคงเปิดเผยต่อสาธารณะ เนื่องจากข้อมูลเหล่านี้มักจะได้รับการสนับสนุนจากสาธารณะเป็นส่วนใหญ่ แต่ในความเป็นจริง คุณยังต้องการข้อมูลเพื่อแสดงให้เห็นอย่างชัดเจนถึงปรากฏการณ์ที่คุณพยายามทำให้สำเร็จ

กำลังพยายามสร้างแบบจำลองภายในผลิตภัณฑ์ที่กำหนด สมมติว่าการแสดงออกของโปรตีนและวัคซีน mRNA และอะไรทำนองนั้น หรือใช่ ในพาโลอัลโต เรามีหุ่นยนต์จำนวนหนึ่งและผู้คนในชุดเสื้อคลุมแล็บ ทั้งบุคลากรด้านการเรียนรู้ด้านการวิจัย รวมถึงอดีตนักชีววิทยาด้วย

ตอนนี้ เราถือว่าเราเป็นผู้บุกเบิกสิ่งใหม่ๆ โดยทำงานเพื่อสร้างข้อมูลเหล่านี้จริงๆ และตรวจสอบความถูกต้องของแบบจำลองที่ออกแบบโมเลกุลเหล่านี้ แต่แนวคิดดั้งเดิมคือการแปล

** Jen-Hsun Huang: แนวคิดเดิมคือการแปลด้วยเครื่อง สิ่งที่อยากถามคือ อะไรคือโหนดหลักที่เห็นในการเสริมสร้างความเข้มแข็งและความก้าวหน้าของสถาปัตยกรรม และมีผลกระทบต่อการออกแบบ Transformer อย่างไร? **

ไอดาน โกเมซ: ระหว่างทาง คุณได้เห็นมันแล้ว คุณคิดว่ามีส่วนช่วยเพิ่มเติมอีกมากนอกเหนือจากการออกแบบ Transformer ขั้นพื้นฐานหรือไม่? ฉันคิดว่าในด้านอนุมาน มีงานมากมายที่ต้องเร่งโมเดลเหล่านี้ให้เร็วขึ้นและทำให้มีประสิทธิภาพมากขึ้น

ฉันยังคงคิดว่ามันน่ารำคาญเล็กน้อยสำหรับฉันเพราะความคล้ายคลึงของรูปแบบดั้งเดิมของเรา ฉันคิดว่าโลกต้องการบางสิ่งที่ดีกว่า Transformer และฉันคิดว่าเราทุกคนที่นี่ต้องการให้มันถูกแทนที่ด้วยบางสิ่งที่จะพาเราไปสู่จุดสูงสุดใหม่ของการแสดง

ฉันอยากจะถามทุกคนที่นี่ คุณคิดว่าจะเกิดอะไรขึ้นต่อไป? เหมือนเป็นก้าวที่น่าตื่นเต้นเพราะผมคิดว่ามันคล้ายกับของเมื่อ 6-7 ปีที่แล้วใช่ไหม?

Llion Jones: ใช่แล้ว ฉันคิดว่าผู้คนคงจะแปลกใจที่คุณพูดแบบนั้นใช่ไหม ผู้คนชอบถามฉันว่าจะเกิดอะไรขึ้นต่อไปเพราะฉันเป็นผู้เขียนบทความนี้ เช่นเดียวกับเวทมนตร์ คุณโบกไม้กายสิทธิ์แล้วเกิดอะไรขึ้นต่อไป? สิ่งที่ฉันต้องการชี้ให้เห็นคือหลักการเฉพาะนี้ได้รับการออกแบบอย่างไร ไม่เพียงแต่เราต้องดีขึ้นเท่านั้น แต่เราต้องดีขึ้นอย่างเห็นได้ชัดด้วย

เพราะหากดีขึ้นเพียงเล็กน้อย นั่นยังไม่เพียงพอที่จะผลักดันอุตสาหกรรม AI ทั้งหมดไปสู่สิ่งใหม่ ดังนั้นเราจึงติดอยู่กับโมเดลดั้งเดิม แม้ว่าในทางเทคนิคแล้ว มันอาจไม่ใช่สิ่งที่ทรงพลังที่สุดที่เรามีในขณะนี้

แต่ทุกคนรู้ดีว่าพวกเขาต้องการเครื่องมือส่วนตัวประเภทใด คุณต้องการหน้าต่างบริบทที่ดีกว่า คุณต้องการความสามารถในการสร้างโทเค็นเร็วขึ้น ฉันไม่แน่ใจว่าคุณชอบคำตอบนี้หรือไม่ แต่ตอนนี้พวกเขากำลังใช้ทรัพยากรการคำนวณมากเกินไป ฉันคิดว่าผู้คนทำการคำนวณโดยเปล่าประโยชน์มากมาย เรากำลังทำงานอย่างหนักเพื่อปรับปรุงประสิทธิภาพ ขอขอบคุณ

** Jensen Huang: ฉันคิดว่าเรากำลังทำให้สิ่งนี้มีประสิทธิภาพมากขึ้น ขอบคุณ! **

Jakob Uszkoreit: แต่ฉันคิดว่ามันเกี่ยวกับการกระจายทรัพยากรเป็นหลัก มากกว่าจำนวนทรัพยากรที่ใช้ไปทั้งหมด ตัวอย่างเช่น เราไม่ต้องการใช้จ่ายเงินมากเกินไปกับปัญหาง่ายๆ หรือใช้จ่ายน้อยเกินไปกับปัญหาที่ยากเกินไปและสุดท้ายก็ไม่ได้วิธีแก้ปัญหา

อิลลิยา โปโลสุคิน: ตัวอย่างนี้เหมือนกับ 2+2 หากคุณป้อนลงในโมเดลนี้อย่างถูกต้อง ก็จะใช้พารามิเตอร์ล้านล้าน ดังนั้นผมคิดว่าการประมวลผลแบบปรับเปลี่ยนได้เป็นหนึ่งในสิ่งที่ต้องเกิดขึ้นต่อไป โดยที่เรารู้ว่าควรใช้ทรัพยากรการประมวลผลมากเพียงใดกับปัญหาเฉพาะอย่าง

Aidan Gomez: เรารู้ว่าปัจจุบันเรามีความสามารถในการสร้างคอมพิวเตอร์มากเพียงใด ฉันคิดว่านี่เป็นปัญหาที่ต้องให้ความสำคัญต่อไป ฉันคิดว่านี่เป็นตัวเปลี่ยนระดับจักรวาลและนี่ก็เป็นแนวโน้มการพัฒนาในอนาคตด้วย

ลูคัสซ์ ไคเซอร์: แนวคิดนี้มีอยู่ก่อน Transformer และถูกรวมเข้ากับโมเดล Transformer อันที่จริงฉันไม่แน่ใจว่าทุกคนที่นี่รู้ไหมว่าเราไม่ประสบความสำเร็จตามเป้าหมายเดิมของเรา ความตั้งใจเดิมของเราเมื่อเริ่มโครงการนี้คือการจำลองกระบวนการวิวัฒนาการของ Token มันไม่ได้เป็นเพียงกระบวนการสร้างเชิงเส้น แต่เป็นวิวัฒนาการของข้อความหรือโค้ดทีละขั้นตอน เราทำซ้ำ แก้ไข ซึ่งทำให้ไม่เพียงแต่เลียนแบบวิธีที่มนุษย์พัฒนาข้อความเท่านั้น แต่ยังใช้ข้อความเหล่านี้เป็นส่วนหนึ่งของกระบวนการนั้นด้วย เพราะถ้าคุณสามารถสร้างเนื้อหาได้อย่างเป็นธรรมชาติเหมือนกับที่มนุษย์ทำ พวกเขาจะสามารถให้ข้อเสนอแนะได้จริงไหม?

เราทุกคนเคยอ่านรายงานของแชนนอนแล้ว และแนวคิดเดิมของเราคือมุ่งความสนใจไปที่การสร้างแบบจำลองทางภาษาและความยุ่งยาก แต่นั่นไม่ได้เกิดขึ้น ฉันคิดว่านี่คือจุดที่เราสามารถพัฒนาต่อไปได้ ยังเกี่ยวกับวิธีที่เราจัดระเบียบทรัพยากรการประมวลผลอย่างชาญฉลาด และตอนนี้องค์กรนี้ก็นำไปใช้กับการประมวลผลภาพด้วยเช่นกัน ฉันหมายถึงว่าแบบจำลองการแพร่กระจายมีคุณสมบัติที่น่าสนใจคือสามารถปรับแต่งและปรับปรุงคุณภาพได้อย่างต่อเนื่องผ่านการวนซ้ำ และขณะนี้เราไม่มีความสามารถดังกล่าว

ฉันหมายถึงคำถามพื้นฐานนี้: ความรู้ใดที่ควรสร้างไว้ในแบบจำลอง และความรู้ใดควรอยู่นอกแบบจำลอง คุณใช้โมเดลการดึงข้อมูลหรือไม่? ตัวอย่างโมเดล RAG (Retri-Augmented Generation) ในทำนองเดียวกัน สิ่งนี้ยังเกี่ยวข้องกับคำถามของการอนุมาน เช่น งานการอนุมานใดควรดำเนินการภายนอกผ่านระบบสัญลักษณ์ และงานอนุมานใดควรดำเนินการโดยตรงภายในแบบจำลอง นี่เป็นการอภิปรายเกี่ยวกับประสิทธิภาพอย่างมาก ฉันเชื่อว่าในที่สุดโมเดลขนาดใหญ่จะได้เรียนรู้วิธีการคำนวณเช่น 2+2 แต่ถ้าคุณต้องการคำนวณ 2+2 แล้วบวกตัวเลขเข้าด้วยกัน นั่นก็เห็นได้ชัดว่าไม่มีประสิทธิภาพ

** Jen-Hsun Huang: ถ้า AI ต้องคำนวณแค่ 2+2 ก็ควรใช้เครื่องคิดเลขโดยตรงเพื่อทำงานนี้ให้เสร็จโดยใช้พลังงานน้อยที่สุดเพราะเรารู้ว่าเครื่องคิดเลขคือเครื่องมือที่มีประสิทธิภาพที่สุดสำหรับ ทำการคำนวณ 2+2 อย่างไรก็ตาม หากมีคนถาม AI คุณตัดสินใจ 2+2 ได้อย่างไร คุณรู้หรือไม่ว่า 2+2 คือคำตอบที่ถูกต้อง? สิ่งนี้จะใช้ทรัพยากรจำนวนมากหรือไม่? **

โนม ชาเซียร์: ถูกต้องเลย คุณเคยพูดถึงตัวอย่างก่อนหน้านี้ แต่ฉันก็เชื่อมั่นเช่นกันว่าระบบปัญญาประดิษฐ์ที่ทุกคนที่นี่พัฒนาขึ้นนั้นฉลาดพอที่จะใช้เครื่องคิดเลขอย่างจริงจัง

สินค้าสาธารณะทั่วโลก (GPP) ในปัจจุบันทำเช่นนั้น ฉันคิดว่ารุ่นปัจจุบันมีราคาไม่แพงเกินไปและเล็กเกินไป เหตุผลที่ราคาถูกเป็นเพราะเทคโนโลยีเช่น NV ต้องขอบคุณผลผลิต

ค่าใช้จ่ายในการคำนวณต่อการดำเนินการอยู่ที่ประมาณ 10 ถึง 18 เหรียญสหรัฐ กล่าวอีกนัยหนึ่งประมาณลำดับความสำคัญนี้ ขอขอบคุณที่สร้างทรัพยากรคอมพิวเตอร์มากมาย แต่ถ้าคุณดูแบบจำลองที่มีพารามิเตอร์ 500 พันล้านพารามิเตอร์และการคำนวณหนึ่งล้านล้านต่อโทเค็น นั่นคือประมาณ 1 ดอลลาร์ต่อล้านโทเค็น ซึ่งถูกกว่าการออกไปซื้อหนังสือปกอ่อนแล้วอ่านมันถึง 100 เท่า แอปพลิเคชันของเรามีค่ามากกว่าการคำนวณที่มีประสิทธิภาพบนโครงข่ายประสาทเทียมขนาดยักษ์ถึงล้านเท่าหรือมากกว่านั้น ฉันหมายความว่า พวกมันมีค่ามากกว่าการรักษามะเร็งอย่างแน่นอน แต่มันก็มากกว่านั้น

Ashish Vaswani: ฉันคิดว่าการทำให้โลกฉลาดขึ้นหมายถึงการได้รับคำติชมจากโลก และไม่ว่าเราจะประสบความสำเร็จในการทำงานแบบมัลติทาสก์และการทำงานแบบหลายบรรทัดพร้อมกันหรือไม่ หากคุณต้องการสร้างโมเดลดังกล่าวจริงๆ นี่เป็นวิธีที่ดีในการช่วยเราออกแบบโมเดลดังกล่าว

** Jensen Huang: คุณช่วยเล่าหน่อยได้ไหมว่าทำไมคุณถึงเริ่มต้นบริษัท? **

Ashish Vaswani: ในบริษัทของเรา เป้าหมายของเราคือการสร้างแบบจำลองและแก้ไขงานใหม่ๆ งานของเราคือการทำความเข้าใจเป้าหมายและเนื้อหาของงานและปรับเนื้อหาเหล่านั้นให้ตรงตามความต้องการของลูกค้า อันที่จริงแล้ว ตั้งแต่ปี 2021 เป็นต้นไป ฉันพบว่าปัญหาที่ใหญ่ที่สุดของโมเดลคือคุณไม่สามารถทำให้โมเดลฉลาดขึ้นได้ คุณยังต้องหาคนที่เหมาะสมเพื่อตีความโมเดลเหล่านี้ด้วย เราหวังว่าจะทำให้โลกและโมเดลนี้เชื่อมโยงกัน ทำให้โมเดลนี้ใหญ่ขึ้นและโดดเด่นยิ่งขึ้น มีความก้าวหน้าจำนวนหนึ่งที่จำเป็นในกระบวนการเรียนรู้ซึ่งไม่สามารถทำได้ตั้งแต่แรกในสภาพแวดล้อมสุญญากาศของห้องปฏิบัติการ

Noam Shazeer: ในปี 2021 เราได้ร่วมก่อตั้งบริษัทนี้ เรามีเทคโนโลยีที่ยอดเยี่ยมเช่นนี้ แต่เข้าถึงผู้คนได้ไม่มากนัก ลองนึกภาพถ้าฉันเป็นผู้ป่วยที่ได้ยินคุณพูดแบบนี้ ฉันคิดว่ามีคนหลายหมื่นล้านคนที่ต้องทำงานที่แตกต่างกันออกไป นี่คือความหมายของการเรียนรู้เชิงลึก เราปรับปรุงเทคโนโลยีผ่านการเปรียบเทียบ เนื่องจากการพัฒนาเทคโนโลยีอย่างต่อเนื่องซึ่งขับเคลื่อนโดย Jensen Huang เป้าหมายสูงสุดของเราคือการช่วยเหลือผู้คนทั่วโลก คุณต้องทดสอบ และตอนนี้เราจำเป็นต้องพัฒนาโซลูชันที่รวดเร็วขึ้นซึ่งช่วยให้ผู้คนหลายร้อยคนสามารถใช้แอปพลิเคชันเหล่านี้ได้ เช่นเดียวกับในช่วงแรก ไม่ใช่ทุกคนที่ใช้แอปเหล่านี้ ผู้คนจำนวนมากใช้แอปเหล่านี้เพียงเพื่อความสนุกสนาน แต่พวกเขาใช้งานได้ ทำงานได้ดี

ยาคอบ อุสโคเรท: ขอบคุณ ฉันต้องการพูดคุยเกี่ยวกับระบบซอฟต์แวร์ระบบนิเวศที่เราสร้างขึ้น ฉันร่วมก่อตั้งบริษัทนี้ในปี 2021 และเป้าหมายของเราคือการแก้ปัญหาบางอย่างที่มีผลกระทบทางวิทยาศาสตร์อย่างแท้จริง ในอดีต เรากำลังเผชิญกับเนื้อหาที่ค่อนข้างซับซ้อน แต่เมื่อฉันมีลูกคนแรก วิธีที่ฉันมองโลกเปลี่ยนไป เราหวังว่าจะทำให้ชีวิตมนุษย์สะดวกสบายยิ่งขึ้นและมีส่วนร่วมในการวิจัยโปรตีน โดยเฉพาะอย่างยิ่งหลังจากมีลูก ฉันหวังว่าจะเปลี่ยนโครงสร้างทางการแพทย์ที่มีอยู่ และหวังว่าการพัฒนาวิทยาศาสตร์และเทคโนโลยีจะส่งผลเชิงบวกต่อการอยู่รอดและการพัฒนาของมนุษย์ ตัวอย่างเช่น โครงสร้างโปรตีนและโครงสร้างโปรตีนได้รับผลกระทบบ้าง แต่ขณะนี้เรายังขาดข้อมูล เราต้องยึดความพยายามของเราบนพื้นฐานของข้อมูล ไม่ใช่แค่ในฐานะหน้าที่แต่ในฐานะบิดาด้วย

** Jen-Hsun Huang: ฉันชอบมุมมองของคุณ ฉันสนใจการออกแบบยาใหม่ๆ และกระบวนการให้คอมพิวเตอร์เรียนรู้วิธีการพัฒนาและสร้างยาใหม่ๆ อยู่เสมอ หากสามารถเรียนรู้และออกแบบยาใหม่ๆ ได้ และห้องปฏิบัติการสามารถทดสอบยาเหล่านั้นได้ ก็จะสามารถระบุได้ว่าแบบจำลองดังกล่าวจะใช้ได้ผลหรือไม่ **

Llion JonesLlion Jones: ใช่ ฉันเป็นคนสุดท้ายที่แบ่งปัน บริษัทที่เราร่วมก่อตั้งมีชื่อว่า Sakana AI ซึ่งแปลว่า "ปลา" เหตุผลที่เราตั้งชื่อบริษัทของเราตามคำว่า "ปลา" ของญี่ปุ่นก็เพราะเราเป็นเหมือนฝูงปลา ซึ่งเป็นแรงบันดาลใจให้เราค้นหาความฉลาดโดยธรรมชาติ หากเราสามารถรวมองค์ประกอบที่ตรวจสอบหลายๆ อย่างเข้าด้วยกัน เราก็สามารถสร้างสิ่งที่ซับซ้อนและสวยงามได้ หลายคนอาจไม่เข้าใจเฉพาะของกระบวนการและเนื้อหา แต่ปรัชญาหลักของเราภายในคือ "การเรียนรู้มักจะชนะ"

ไม่ว่าคุณจะต้องการแก้ปัญหาหรือต้องการเรียนรู้อะไรก็ตาม การเรียนรู้จะช่วยให้คุณชนะได้เสมอ ในกระบวนการของ generative AI เนื้อหาการเรียนรู้ก็จะช่วยให้เราชนะได้เช่นกัน ในฐานะนักวิจัย ผมอยากจะเตือนทุกคนว่าเราให้ความหมายที่แท้จริงกับโมเดล AI ของคอมพิวเตอร์ เพื่อช่วยให้เราเข้าใจความลึกลับของจักรวาลได้อย่างแท้จริง อันที่จริง ฉันอยากจะบอกคุณด้วยว่าเรากำลังจะประกาศการพัฒนาใหม่ที่เรารู้สึกตื่นเต้นมาก แม้ว่าตอนนี้เราจะมีเนื้อหาการวิจัยเป็นองค์ประกอบพื้นฐาน แต่เรากำลังประสบกับการพัฒนาที่เปลี่ยนแปลง โดยมีการจัดการโมเดลในปัจจุบันและช่วยให้ผู้คนมีส่วนร่วมอย่างแท้จริง เราทำให้แบบจำลองเหล่านี้เป็นไปได้มากขึ้น โดยใช้แบบจำลองขนาดใหญ่และแบบจำลองการเปลี่ยนแปลงเพื่อเปลี่ยนวิธีที่ผู้คนเข้าใจโลกและจักรวาล นี่คือเป้าหมายของเรา

ไอดาน โกเมซ: ความตั้งใจเดิมของฉันในการเริ่มต้นบริษัทคล้ายกับของโนม ชาเซียร์ ฉันคิดว่าคอมพิวเตอร์กำลังเข้าสู่กระบวนทัศน์ใหม่ที่เปลี่ยนแปลงผลิตภัณฑ์ที่มีอยู่และวิธีการทำงานของเรา ทุกอย่างใช้คอมพิวเตอร์เป็นหลัก และมีการเปลี่ยนแปลงภายในเทคโนโลยีในระดับหนึ่ง บทบาทของเราคืออะไร? ฉันกำลังเชื่อมช่องว่าง เชื่อมช่องว่าง เราเห็นบริษัทต่างๆ ที่สร้างแพลตฟอร์มดังกล่าว ซึ่งช่วยให้แต่ละบริษัทสามารถปรับตัวและบูรณาการผลิตภัณฑ์ ซึ่งเป็นวิธีการเผชิญหน้ากับผู้ใช้โดยตรง นี่คือวิธีที่เราพัฒนาเทคโนโลยีและทำให้มีราคาไม่แพงและแพร่หลายมากขึ้น

** Jensen Huang: สิ่งที่ฉันชอบเป็นพิเศษคือเมื่อ Noam Shazeer ดูสงบเป็นพิเศษ คุณจะดูตื่นเต้นมาก ความแตกต่างในบุคลิกของคุณนั้นชัดเจนมาก ตอนนี้ฉันยกพื้นให้ Lukasz Kaiser **

Lukasz Kaiser: ประสบการณ์ของฉันที่ OpenAI ก่อกวนมาก ในบริษัทนี้สนุกมากและเรากระทืบข้อมูลจำนวนมากเพื่อทำการคำนวณ แต่ท้ายที่สุดแล้ว บทบาทของฉันก็ยังคงเป็นผู้ทำลายข้อมูล

อิลิยา โปโลสุคิน: ฉันเป็นคนแรกที่ออกไป ฉันเชื่อมั่นว่าเราจะสร้างความก้าวหน้าครั้งสำคัญและซอฟต์แวร์จะเปลี่ยนโลกทั้งใบ วิธีที่ตรงไปตรงมาที่สุดคือการสอนเครื่องจักรให้เขียนโค้ดและทำให้ทุกคนสามารถเข้าถึงการเขียนโปรแกรมได้

ที่ NEAR แม้ว่าความก้าวหน้าของเราจะมีจำกัด แต่เรามุ่งมั่นที่จะบูรณาการภูมิปัญญาของมนุษย์และรับข้อมูลที่เกี่ยวข้อง เช่น การสร้างแรงบันดาลใจให้ผู้คนตระหนักว่าเราต้องการวิธีการพื้นฐาน โมเดลนี้เป็นการพัฒนาขั้นพื้นฐาน โมเดลขนาดใหญ่นี้ใช้กันอย่างแพร่หลายทั่วโลก มีการใช้งานมากมายในการบินและอวกาศและสาขาอื่น ๆ มันเกี่ยวข้องกับการสื่อสารและการโต้ตอบในด้านต่าง ๆ และทำให้เรามีความสามารถอย่างแท้จริง ด้วยการใช้งานที่ลึกซึ้งยิ่งขึ้น เราพบว่ามีโมเดลเพิ่มมากขึ้น และขณะนี้ยังไม่มีข้อโต้แย้งเกี่ยวกับลิขสิทธิ์มากนัก

ขณะนี้เราอยู่ในยุคเจนเนอเรชั่นใหม่ ยุคที่เฉลิมฉลองนวัตกรรมและผู้สร้างสรรค์นวัตกรรม และเราต้องการมีส่วนร่วมอย่างแข็งขันและยอมรับการเปลี่ยนแปลง ดังนั้นเราจึงมองหาวิธีต่างๆ เพื่อช่วยสร้างโมเดลที่ยอดเยี่ยมจริงๆ

** Jensen Huang: ระบบตอบรับเชิงบวกนี้เป็นประโยชน์ต่อเศรษฐกิจโดยรวมของเราอย่างมาก ตอนนี้เราสามารถออกแบบเศรษฐกิจของเราได้ดีขึ้น มีคนถามว่าในยุคนี้ที่โมเดล GPT กำลังฝึกอบรมฐานข้อมูล Token-scale หลายพันล้านฐานข้อมูล ขั้นตอนต่อไปคืออะไร? เทคโนโลยีการสร้างแบบจำลองใหม่จะเป็นอย่างไร? คุณต้องการสำรวจอะไร? แหล่งข้อมูลของคุณคืออะไร? **

อิลเลีย โปโลซูคิน: จุดเริ่มต้นของเราคือเวกเตอร์และการกระจัด เราต้องการแบบจำลองที่มีมูลค่าทางเศรษฐกิจที่แท้จริง ซึ่งผู้คนสามารถประเมินและนำเทคนิคและเครื่องมือของคุณไปปฏิบัติจริงเพื่อทำให้แบบจำลองทั้งหมดดีขึ้นในที่สุด

** Jen-Hsun Huang: คุณฝึกโมเดลโดเมนอย่างไร การโต้ตอบเริ่มต้นและรูปแบบการโต้ตอบคืออะไร? เป็นการสื่อสารและการโต้ตอบระหว่างโมเดลหรือไม่? หรือมีโมเดลและเทคนิคเชิงกำเนิดหรือไม่? **

Illia Polosukhin: ในทีมของเรา ทุกคนมีความเชี่ยวชาญด้านเทคนิคเป็นของตัวเอง

Jakob Uszkoreit: ขั้นตอนต่อไปคือการให้เหตุผล เราทุกคนตระหนักถึงความสำคัญของการใช้เหตุผล แต่งานส่วนใหญ่ยังคงดำเนินการโดยวิศวกร จริงๆ แล้ว เรากำลังสอนให้พวกเขาตอบในรูปแบบคำถามและคำตอบแบบโต้ตอบ และเราหวังว่าพวกเขาจะเข้าใจเหตุผลร่วมกัน และให้รูปแบบการให้เหตุผลที่ชัดเจนร่วมกัน เราหวังว่าโมเดลจะสามารถสร้างเนื้อหาที่เราต้องการได้ และวิธีการสร้างนี้คือสิ่งที่เรากำลังดำเนินการ ไม่ว่าจะเป็นข้อมูลวิดีโอ ข้อความ หรือ 3 มิติ ทั้งหมดนี้ควรนำมารวมกัน

Lukasz Kaiser: ฉันคิดว่า ผู้คนเข้าใจหรือไม่ว่าการอนุมานมาจากข้อมูลจริงๆ ถ้าเราเริ่มให้เหตุผล เราก็มีชุดข้อมูล และเราคิดว่าเหตุใดข้อมูลนี้จึงแตกต่าง จากนั้นเราจะเรียนรู้ว่าแอปพลิเคชันต่างๆ นั้นมีพื้นฐานมาจากกระบวนการให้เหตุผลของข้อมูล ต้องขอบคุณพลังของคอมพิวเตอร์ ต้องขอบคุณระบบแบบนี้ เราจึงสามารถเริ่มพัฒนาต่อจากจุดนั้นได้ เราสามารถให้เหตุผลเกี่ยวกับเนื้อหาที่เกี่ยวข้องและดำเนินการทดลองได้

หลายครั้งสิ่งเหล่านี้ได้มาจากข้อมูล ฉันคิดว่าการอนุมานมีการพัฒนาอย่างรวดเร็ว โมเดลข้อมูลมีความสำคัญมากและจะมีเนื้อหาเชิงโต้ตอบมากขึ้นในอนาคตอันใกล้นี้ เรายังไม่ได้ฝึกอบรมมากพอ ยังไม่ใช่เนื้อหาและองค์ประกอบหลัก เราจำเป็นต้องทำให้ข้อมูลมีรายละเอียดมากขึ้น

Noam Shazeer: การออกแบบข้อมูลบางอย่าง เช่น การออกแบบเครื่องจักรการสอน อาจเกี่ยวข้องกับโทเค็นที่แตกต่างกันหลายร้อยหรือหลายร้อยล้านรายการ

Ashish Vaswani: ประเด็นที่ฉันอยากจะพูดคือในด้านนี้ เรามีพันธมิตรมากมายที่ประสบความสำเร็จในระดับหนึ่ง อัลกอริธึมอัตโนมัติที่ดีที่สุดคืออะไร? ที่จริงแล้วคือการแบ่งงานในโลกแห่งความเป็นจริงออกเป็นเนื้อหาต่างๆ โมเดลของเรามีความสำคัญมากเช่นกัน ซึ่งช่วยให้เรารับข้อมูลและดูว่าข้อมูลอยู่ในตำแหน่งที่ถูกต้องหรือไม่ ประการหนึ่งช่วยให้เรามุ่งเน้นไปที่ข้อมูล ในทางกลับกัน ข้อมูลดังกล่าวทำให้เรามีแบบจำลองคุณภาพสูงเพื่อทำงานนามธรรมให้เสร็จสิ้น ดังนั้นเราจึงเชื่อว่าการวัดความก้าวหน้านี้เป็นหนทางหนึ่งของความคิดสร้างสรรค์ เป็นแนวทางในการพัฒนาทางวิทยาศาสตร์ และเป็นวิธีการพัฒนาระบบอัตโนมัติของเราด้วย

** Jen-Hsun Huang: คุณไม่สามารถทำโครงการที่ยอดเยี่ยมได้หากไม่มีระบบการวัดผลที่ดี คุณมีคำถามอะไรต่อกันบ้างไหม? **

อิลเลีย โปโลซูคิน: ไม่มีใครอยากรู้ว่าพวกเขาทำอะไรไปบ้าง แต่ในความเป็นจริง เราหวังว่าจะเข้าใจและสำรวจสิ่งที่เรากำลังทำ รับข้อมูลและสารสนเทศที่เพียงพอ และทำการอนุมานที่สมเหตุสมผล ตัวอย่างเช่น ถ้าคุณมีหกขั้นตอน แต่จริงๆ แล้วคุณสามารถข้ามขั้นตอนหนึ่งได้โดยการใช้เหตุผลผ่านห้าขั้นตอน บางครั้งคุณไม่จำเป็นต้องมีหกขั้นตอน และบางครั้งคุณจำเป็นต้องมีขั้นตอนเพิ่มเติม ดังนั้นคุณจะจำลองสถานการณ์เช่นนี้ได้อย่างไร คุณต้องการอะไรเพื่อก้าวไปไกลจาก Token?

Lukasz Kaiser: ความเชื่อส่วนตัวของผมคือการสร้างแบบจำลองขนาดใหญ่เช่นนี้เป็นกระบวนการที่ซับซ้อนมาก ระบบจะพัฒนาขึ้น แต่โดยพื้นฐานแล้ว คุณต้องคิดค้นวิธีการ มนุษย์เป็นสิ่งมีชีวิตที่เก่งในการกลับเป็นซ้ำ ตลอดประวัติศาสตร์ของมนุษย์ เราได้จำลองฉากที่ประสบความสำเร็จซ้ำแล้วซ้ำเล่า

** Jen-Hsun Huang: ฉันมีความสุขมากที่ได้สื่อสารกับคุณ และหวังว่าคุณจะมีโอกาสสื่อสารกัน และสร้างเวทมนตร์ที่ไม่อาจอธิบายได้ ขอขอบคุณสำหรับการเข้าร่วมการประชุมครั้งนี้ ขอบคุณมาก! **

ดูต้นฉบับ

รางวัล
ถูกใจ
แสดงความคิดเห็น
แชร์

แสดงความคิดเห็น

เพิ่มความคิดเห็น

ไม่มีความคิดเห็น

หัวข้อถ่ายทอดสด

แผนผังเว็บไซต์