ท้าทายอำนาจของ Nvidia H100! IBM จำลองชิปเครือข่ายประสาทเทียมของสมองมนุษย์เพิ่มประสิทธิภาพ 14 เท่าและแก้ปัญหาการใช้พลังงานของโมเดล AI

เมื่อเร็วๆ นี้ IBM ได้เปิดตัวชิป AI แบบอะนาล็อกขนาด 14 นาโนเมตรใหม่ล่าสุด ซึ่งมีประสิทธิภาพมากกว่า GPU ชั้นนำถึง 14 เท่า ซึ่งสามารถทำให้ H100 คุ้มค่าเงินได้

ที่อยู่กระดาษ:

ในปัจจุบัน อุปสรรคที่ใหญ่ที่สุดในการพัฒนา generative AI คือการใช้พลังงานที่น่าอัศจรรย์ ทรัพยากรที่จำเป็นสำหรับ AI ไม่สามารถเติบโตได้อย่างยั่งยืน

ในทางกลับกัน IBM กำลังค้นคว้าวิธีปรับเปลี่ยนการประมวลผล AI หนึ่งในความสำเร็จของพวกเขาคือการประมวลผลหน่วยความจำจำลอง/วิธีปัญญาประดิษฐ์จำลอง ซึ่งสามารถลดการใช้พลังงานได้โดยใช้คุณสมบัติหลักของโครงข่ายประสาทเทียมที่ทำงานในสมองทางชีววิทยา

วิธีการนี้ช่วยลดเวลาและความพยายามที่เราใช้ไปกับการคำนวณให้เหลือน้อยที่สุด

การผูกขาดของ Nvidia กำลังจะถูกทำลายหรือไม่?

## พิมพ์เขียวล่าสุดของ IBM สำหรับอนาคตของ AI: ชิป AI แบบอะนาล็อกประหยัดพลังงานมากขึ้น 14 เท่า

ตามรายงานของสื่อต่างประเทศ Insider Dylan Patel หัวหน้านักวิเคราะห์ของบริษัทวิจัยเซมิคอนดักเตอร์ SemiAnalysis วิเคราะห์ว่าต้นทุนการดำเนินงานรายวันของ ChatGPT เกิน 700,000 ดอลลาร์สหรัฐ

ChatGPT ต้องใช้พลังในการประมวลผลจำนวนมากเพื่อสร้างคำตอบตามการแจ้งเตือนของผู้ใช้ ค่าใช้จ่ายส่วนใหญ่เกิดขึ้นจากเซิร์ฟเวอร์ราคาแพง

ในอนาคต ต้นทุนของโมเดลการฝึกอบรมและโครงสร้างพื้นฐานในการดำเนินงานจะเพิ่มขึ้นเรื่อยๆ

IBM เผยแพร่ใน Nature ว่าชิปตัวใหม่นี้สามารถลดแรงกดดันในการสร้างและดำเนินงานองค์กร AI สร้างสรรค์ เช่น Midjourney หรือ GPT-4 โดยการลดการใช้พลังงาน

ชิปแอนะล็อกเหล่านี้สร้างขึ้นแตกต่างจากชิปดิจิทัล ซึ่งสามารถจัดการสัญญาณแอนะล็อกและเข้าใจการไล่ระดับสีระหว่าง 0 ถึง 1 แต่สำหรับสัญญาณไบนารีที่ต่างกันเท่านั้น

คอมพิวเตอร์หน่วยความจำจำลอง/AI จำลอง

และแนวทางใหม่ของไอบีเอ็มคือการจำลองการประมวลผลหน่วยความจำ หรือจำลอง AI โดยย่อ ลดการใช้พลังงานโดยใช้ประโยชน์จากคุณลักษณะสำคัญของโครงข่ายประสาทเทียมที่ทำงานในสมองทางชีววิทยา

ในสมองของมนุษย์และสัตว์อื่นๆ ความแข็งแรง (หรือ "น้ำหนัก") ของไซแนปส์จะกำหนดการสื่อสารระหว่างเซลล์ประสาท

สำหรับระบบ AI แบบอะนาล็อก IBM จะจัดเก็บน้ำหนักซินแนปติกเหล่านี้ไว้ในค่าสื่อกระแสไฟฟ้าของอุปกรณ์หน่วยความจำต้านทานระดับนาโนเมตร (เช่น PCM หน่วยความจำแบบเปลี่ยนเฟส) และใช้กฎของวงจรเพื่อลดความจำเป็นในการส่งข้อมูลอย่างต่อเนื่องระหว่างหน่วยความจำและ โปรเซสเซอร์ดำเนินการทวีคูณสะสม (MAC) - การดำเนินการหลักใน DNN

ขณะนี้ขับเคลื่อนแพลตฟอร์ม AI เจนเนอเรชั่นจำนวนมาก ได้แก่ H100 และ A100 ของ Nvidia

อย่างไรก็ตาม หาก IBM ทำซ้ำชิปต้นแบบและประสบความสำเร็จในการผลักดันเข้าสู่ตลาดมวลชน ชิปใหม่นี้อาจเข้ามาแทนที่ Nvidia ที่เป็นแกนนำใหม่ได้เป็นอย่างดี

ชิป AI แบบอะนาล็อกขนาด 14 นาโนเมตรนี้สามารถเข้ารหัสอุปกรณ์หน่วยความจำแบบเปลี่ยนเฟสได้ 35 ล้านเครื่องสำหรับแต่ละส่วนประกอบ และสามารถจำลองพารามิเตอร์ได้สูงสุดถึง 17 ล้านพารามิเตอร์

และชิปจะเลียนแบบวิธีการทำงานของสมองมนุษย์ โดยไมโครชิปจะทำการคำนวณโดยตรงในหน่วยความจำ

ระบบของชิปสามารถบรรลุการรู้จำเสียงและการถอดเสียงพูดที่มีประสิทธิภาพ โดยมีความแม่นยำใกล้เคียงกับฮาร์ดแวร์ดิจิทัล

ชิปนี้ประสบความสำเร็จประมาณ 14 เท่า และการจำลองก่อนหน้านี้แสดงให้เห็นว่าประสิทธิภาพการใช้พลังงานของฮาร์ดแวร์นี้สูงถึง 40 เท่าถึง 140 เท่าของ GPU ชั้นนำในปัจจุบัน

อาร์เรย์ครอสบาร์ PCM การโปรแกรม และการประมวลผลสัญญาณดิจิทัล

การปฏิวัติ AI เชิงสร้างสรรค์นี้เพิ่งเริ่มต้นขึ้น Deep Neural Networks (DNN) ได้ปฏิวัติวงการ AI โดยได้รับความโดดเด่นด้วยการพัฒนาแบบจำลองพื้นฐานและ AI เชิงสร้างสรรค์

อย่างไรก็ตาม การใช้โมเดลเหล่านี้บนสถาปัตยกรรมการคำนวณทางคณิตศาสตร์แบบดั้งเดิมจะจำกัดประสิทธิภาพและประสิทธิภาพการใช้พลังงาน

ในขณะที่มีความคืบหน้าในการพัฒนาฮาร์ดแวร์สำหรับการอนุมาน AI สถาปัตยกรรมเหล่านี้จำนวนมากได้แยกหน่วยความจำและหน่วยประมวลผลออกจากกัน

ซึ่งหมายความว่าโดยทั่วไปโมเดล AI จะถูกจัดเก็บไว้ในตำแหน่งหน่วยความจำแยก และงานการประมวลผลจำเป็นต้องมีการสับข้อมูลอย่างต่อเนื่องระหว่างหน่วยความจำและหน่วยประมวลผล กระบวนการนี้อาจทำให้การคำนวณช้าลงอย่างมาก โดยจำกัดประสิทธิภาพการใช้พลังงานสูงสุดที่สามารถทำได้

คุณลักษณะด้านประสิทธิภาพของอุปกรณ์ PCM โดยใช้การกำหนดค่าเฟสและการรับเข้าเพื่อจัดเก็บตุ้มน้ำหนักซินแนปติกแบบอะนาล็อก

ชิปเร่งความเร็วปัญญาประดิษฐ์ที่ใช้หน่วยความจำเปลี่ยนเฟส (PCM) ของ IBM ขจัดข้อจำกัดนี้ออกไป

หน่วยความจำเปลี่ยนเฟส (PCM) สามารถรับรู้ถึงการรวมการคำนวณและการจัดเก็บข้อมูล และดำเนินการคูณเมทริกซ์-เวกเตอร์ในหน่วยความจำได้โดยตรง หลีกเลี่ยงปัญหาในการส่งข้อมูล

ในเวลาเดียวกัน ชิป AI แบบอะนาล็อกของ IBM ตระหนักถึงความเร่งเหตุผลของปัญญาประดิษฐ์ที่มีประสิทธิภาพผ่านการประมวลผลระดับฮาร์ดแวร์และการบูรณาการพื้นที่เก็บข้อมูล ซึ่งเป็นความก้าวหน้าที่สำคัญในสาขานี้

ความท้าทายหลักสองประการในการจำลอง AI

ในการที่จะทำให้แนวคิด AI จำลองเกิดขึ้นได้นั้น จำเป็นต้องเอาชนะความท้าทายหลักสองประการ:

ความแม่นยำในการคำนวณของอาร์เรย์หน่วยความจำต้องเทียบเคียงได้กับความแม่นยำของระบบดิจิทัลที่มีอยู่
อาร์เรย์หน่วยความจำสามารถเชื่อมต่อกับหน่วยประมวลผลดิจิทัลอื่นๆ และโครงสร้างการสื่อสารดิจิทัลบนชิปปัญญาประดิษฐ์แบบอะนาล็อกได้อย่างราบรื่น

IBM ผลิตชิปเร่งปัญญาประดิษฐ์ที่ใช้หน่วยความจำแบบเปลี่ยนเฟสที่ศูนย์เทคโนโลยีในออลบานีนาโน

ชิปประกอบด้วยคอร์ประมวลผลหน่วยความจำแบบอะนาล็อก 64 คอร์ และแต่ละคอร์มียูนิตซินแนปติกแบบครอสสตริป 256×256

และเมื่อรวมเข้ากับชิปแต่ละตัวแล้ว ก็คือตัวแปลงแอนะล็อกเป็นดิจิทัลตามเวลาขนาดกะทัดรัดสำหรับการแปลงระหว่างโลกแอนะล็อกและดิจิทัล

หน่วยประมวลผลดิจิทัลน้ำหนักเบาในชิปยังสามารถทำหน้าที่กระตุ้นการทำงานของเซลล์ประสาทแบบไม่เชิงเส้นอย่างง่ายและการดำเนินการปรับขนาดได้

แต่ละคอร์ถือได้ว่าเป็นไทล์ที่สามารถทำการคูณเมทริกซ์-เวกเตอร์ และการดำเนินการอื่นๆ ที่เกี่ยวข้องกับเลเยอร์ (เช่น เลเยอร์แบบหมุนวน) ของโมเดล Deep Neural Network (DNN)

เมทริกซ์น้ำหนักจะถูกเข้ารหัสเป็นค่าสื่อกระแสไฟฟ้าจำลองของอุปกรณ์ PCM และจัดเก็บไว้ในชิป

หน่วยประมวลผลดิจิทัลระดับโลกถูกรวมไว้ตรงกลางอาร์เรย์หลักของชิปเพื่อใช้การดำเนินการที่ซับซ้อนมากกว่าการคูณเมทริกซ์-เวกเตอร์ ซึ่งมีความสำคัญอย่างยิ่งต่อการทำงานของโครงข่ายประสาทเทียมบางประเภท (เช่น LSTM)

เส้นทางการสื่อสารแบบดิจิทัลถูกรวมไว้บนชิประหว่างคอร์ทั้งหมดและหน่วยประมวลผลดิจิทัลทั่วโลกสำหรับการถ่ายโอนข้อมูลระหว่างคอร์และระหว่างคอร์และยูนิตส่วนกลาง

a: สแน็ปช็อตอัตโนมัติของการออกแบบอิเล็กทรอนิกส์และไมโครกราฟชิป คุณสามารถดู 64 คอร์และ 5616 แผ่น

b: แผนผังของส่วนประกอบต่างๆ ของชิป รวมถึง 64 คอร์, หน่วยประมวลผลดิจิทัลระดับโลก 8 หน่วย และการเชื่อมโยงข้อมูลระหว่างคอร์

c: โครงสร้างของคอร์ประมวลผลในหน่วยความจำที่ใช้ PCM เดี่ยว

d: โครงสร้างของหน่วยประมวลผลดิจิทัลทั่วโลกสำหรับการคำนวณที่เกี่ยวข้องกับ LSTM

IBM ได้ทำการศึกษาที่ครอบคลุมเกี่ยวกับความแม่นยำในการคำนวณของการประมวลผลหน่วยความจำแอนะล็อกโดยใช้ชิปดังกล่าว และบรรลุความแม่นยำ 92.81% ในชุดข้อมูลภาพ CIFAR-10

a: โครงสร้างเครือข่าย ResNet-9 สำหรับ CIFAR-10

b: วิธีแมปเครือข่ายนี้บนชิป

c: ความแม่นยำในการทดสอบ CIFAR-10 ที่ใช้ฮาร์ดแวร์

นี่คือความแม่นยำสูงสุดที่รายงานไว้สำหรับชิปที่ใช้เทคโนโลยีคล้ายคลึงกัน

IBM ยังผสมผสานการประมวลผลในหน่วยความจำแบบอะนาล็อกเข้ากับหน่วยประมวลผลดิจิทัลหลายหน่วยและโครงสร้างการสื่อสารดิจิทัลได้อย่างราบรื่น

การคูณเมทริกซ์อินพุต-เอาท์พุต 8 บิตของชิปมีทรูพุตพื้นที่หน่วย 400 GOPS/mm2 ซึ่งสูงกว่าชิปประมวลผลหน่วยความจำแบบมัลติคอร์รุ่นก่อนมากกว่า 15 เท่าที่ใช้หน่วยความจำแบบต้านทาน ขณะเดียวกันก็บรรลุประสิทธิภาพการใช้พลังงานได้อย่างมาก

ในงานทำนายอักขระและงานสร้างคำอธิบายประกอบรูปภาพ IBM เปรียบเทียบผลลัพธ์ที่วัดบนฮาร์ดแวร์กับวิธีอื่นๆ และสาธิตโครงสร้างเครือข่าย การเขียนโปรแกรมน้ำหนัก และผลการวัดของงานที่เกี่ยวข้องซึ่งทำงานบนชิป AI จำลอง

การวัด LSTM สำหรับการทำนายอักขระ

การวัดเครือข่าย LSTM สำหรับการสร้างคำอธิบายประกอบรูปภาพ

กระบวนการโปรแกรมน้ำหนัก

**คูเมือง NVIDIA ไร้ก้นบึ้ง? **

การผูกขาดของ Nvidia ถูกทำลายง่ายขนาดนั้นเลยเหรอ?

Naveen Rao เป็นผู้ประกอบการด้านประสาทวิทยาศาสตร์ที่หันมาใช้เทคโนโลยี ซึ่งพยายามแข่งขันกับ Nvidia ผู้ผลิตปัญญาประดิษฐ์ชั้นนำของโลก

“ทุกคนกำลังพัฒนาบน Nvidia” Rao กล่าว “ถ้าคุณต้องการเปิดตัวฮาร์ดแวร์ใหม่คุณต้องตามให้ทันและแข่งขันกับ Nvidia”

Rao ทำงานเกี่ยวกับชิปที่ออกแบบมาเพื่อแทนที่ GPU ของ Nvidia ในสตาร์ทอัพที่ Intel ซื้อกิจการ แต่หลังจากออกจาก Intel เขาใช้ชิปของ Nvidia ใน MosaicML ซึ่งเป็นสตาร์ทอัพด้านซอฟต์แวร์ที่เขาเป็นผู้นำ

Rao กล่าวว่า Nvidia ไม่เพียงเปิดช่องว่างขนาดใหญ่กับผลิตภัณฑ์อื่นๆ บนชิปเท่านั้น แต่ยังสร้างความแตกต่างภายนอกชิปด้วยการสร้างชุมชนโปรแกรมเมอร์ AI ขนาดใหญ่ ——

โปรแกรมเมอร์ AI ใช้เทคโนโลยีของบริษัทเพื่อสร้างสรรค์สิ่งใหม่ๆ

เป็นเวลากว่าทศวรรษที่ Nvidia ได้สร้างผู้นำที่เกือบจะไม่มีใครสามารถโจมตีได้ในการผลิตชิปที่สามารถทำงาน AI ที่ซับซ้อน เช่น รูปภาพ การจดจำใบหน้าและคำพูด รวมถึงสร้างข้อความสำหรับแชทบอท เช่น ChatGPT

อดีตอุตสาหกรรมที่ก้าวกระโดดสามารถครองความเป็นผู้นำในการผลิตชิป AI ได้ เนื่องจากยอมรับแนวโน้มของ AI ตั้งแต่เนิ่นๆ ชิปที่สร้างขึ้นเป็นพิเศษสำหรับงานเหล่านั้น และพัฒนาซอฟต์แวร์ที่สำคัญซึ่งเอื้อต่อการพัฒนา AI

ตั้งแต่นั้นมา Jensen Huang ผู้ร่วมก่อตั้งและซีอีโอของ Nvidia ได้ยกระดับมาตรฐานของ Nvidia

สิ่งนี้ทำให้ Nvidia เป็นซัพพลายเออร์แบบครบวงจรสำหรับการพัฒนา AI

ในขณะที่ Google, Amazon, Meta, IBM และบริษัทอื่นๆ ต่างก็ผลิตชิป AI เช่นกัน แต่ปัจจุบัน Nvidia มีสัดส่วนมากกว่า 70% ของยอดขายชิป AI ตามรายงานของบริษัทวิจัย Omdia

ในเดือนมิถุนายนของปีนี้ มูลค่าตลาดของ Nvidia เกินกว่า 1 ล้านล้านดอลลาร์ ทำให้เป็นผู้ผลิตชิปที่มีมูลค่ามากที่สุดในโลก

“ลูกค้าจะรอ 18 เดือนเพื่อซื้อระบบของ Nvidia แทนที่จะซื้อชิปที่หาซื้อทั่วไปจากบริษัทสตาร์ทอัพหรือคู่แข่งรายอื่นๆ เป็นเรื่องเหลือเชื่อมาก” นักวิเคราะห์ของ FuturumGroup กล่าว

NVIDIA โฉมใหม่วิธีการประมวลผล

Jensen Huang ร่วมก่อตั้ง Nvidia ในปี 1993 โดยผลิตชิปที่แสดงภาพในวิดีโอเกม ไมโครโปรเซสเซอร์มาตรฐานในขณะนั้นเก่งในการคำนวณที่ซับซ้อนตามลำดับ แต่ Nvidia สร้าง GPU ที่สามารถจัดการงานง่ายๆ หลายงานพร้อมกันได้

ในปี 2549 Jensen Huang ได้ก้าวไปอีกขั้นของกระบวนการ เขาเปิดตัวเทคโนโลยีซอฟต์แวร์ที่เรียกว่า CUDA ซึ่งช่วยให้ตั้งโปรแกรม GPU สำหรับงานใหม่ โดยเปลี่ยน GPU จากชิปเอนกประสงค์ให้เป็นชิปเอนกประสงค์ที่สามารถทำงานอื่นในสาขาต่างๆ เช่น การจำลองฟิสิกส์และเคมี

ในปี 2012 นักวิจัยใช้ GPU เพื่อให้บรรลุความแม่นยำเหมือนมนุษย์ในงานต่างๆ เช่น การระบุแมวในรูปภาพ ความก้าวหน้าครั้งสำคัญ และบรรพบุรุษของการพัฒนาล่าสุด เช่น การสร้างภาพจากตัวแสดงข้อความ

ความพยายามนี้ซึ่ง Nvidia ประมาณการว่ามีค่าใช้จ่ายมากกว่า 3 หมื่นล้านดอลลาร์ในช่วงทศวรรษที่ผ่านมา ทำให้ Nvidia เป็นมากกว่าซัพพลายเออร์ชิ้นส่วน นอกเหนือจากการร่วมมือกับนักวิทยาศาสตร์ชั้นนำและสตาร์ทอัพแล้ว บริษัทยังได้รวบรวมทีมงานที่เกี่ยวข้องโดยตรงในกิจกรรม AI เช่น การสร้างและฝึกอบรมโมเดลภาษา

นอกจากนี้ ความต้องการของผู้ปฏิบัติงานทำให้ Nvidia พัฒนาซอฟต์แวร์หลักหลายชั้นนอกเหนือจาก CUDA ซึ่งรวมถึงไลบรารีโค้ดที่สร้างไว้ล่วงหน้าหลายร้อยบรรทัดด้วย

ในด้านฮาร์ดแวร์ Nvidia ได้รับชื่อเสียงในด้านการส่งมอบชิปที่เร็วขึ้นอย่างต่อเนื่องทุกๆ สองหรือสามปี ในปี 2560 Nvidia เริ่มปรับแต่ง GPU เพื่อรองรับการคำนวณ AI เฉพาะ

เมื่อเดือนกันยายนปีที่แล้ว Nvidia ได้ประกาศว่าจะผลิตชิปตัวใหม่ที่เรียกว่า H100 ซึ่งได้รับการปรับปรุงเพื่อรองรับการทำงานของ Transformer การคำนวณดังกล่าวได้รับการพิสูจน์แล้วว่าเป็นพื้นฐานของบริการต่างๆ เช่น ChatGPT ซึ่ง Huang เรียกว่า "ช่วงเวลาของ iPhone" ของ generative AI

ทุกวันนี้ เว้นแต่ผลิตภัณฑ์ของผู้ผลิตรายอื่นจะสามารถสร้างการแข่งขันเชิงบวกกับ GPU ของ Nvidia ได้ ก็เป็นไปได้ที่จะทำลายการผูกขาดของ Nvidia ในพลังการประมวลผล AI ในปัจจุบัน