يتحدث هوانغ رينكسون إلى المؤلفين السبعة لورقة المحولات: نحن محاصرون في النموذج الأصلي ونحتاج إلى بنية جديدة أكثر قوة

![يتحدث هوانغ رينكسون إلى المؤلفين السبعة لورقة المحول: نحن محاصرون في النموذج الأصلي ونحتاج إلى بنية جديدة أكثر قوة](https://cdn-img.panewslab.com//panews/2022/3/23 /الصور/ 3209736c2376bc78f33a30e387cc4e77.jpeg)

** المؤلف: قوه شياو جينغ **

المصدر: أخبار تينسنت

في عام 2017، تم نشر ورقة بحثية بارزة بعنوان "الانتباه هو كل ما تحتاجه"، وقد قدمت لأول مرة نموذج المحولات المعتمد على آلية الانتباه الذاتي. وقد تخلصت هذه البنية المبتكرة من قيود شبكات RNN وCNN التقليدية. ومن خلال آلية الاهتمام للمعالجة المتوازية، تم التغلب بشكل فعال على مشكلة الاعتماد على المسافات الطويلة وتحسنت سرعة معالجة البيانات التسلسلية بشكل كبير. أحدث هيكل التشفير وفك التشفير الخاص بـ Transformer وآلية الانتباه متعددة الرؤوس عاصفة في مجال الذكاء الاصطناعي، وقد تم بناء ChatGPT الشهير على هذه البنية.

تخيل أن نموذج المحولات يشبه دماغك الذي يتحدث إلى صديق، وينتبه إلى كل كلمة يقولها الشخص الآخر في نفس الوقت ويفهم الروابط بين تلك الكلمات. فهو يمنح أجهزة الكمبيوتر قدرات فهم اللغة الشبيهة بالإنسان. قبل ذلك، كانت RNN هي الطريقة السائدة لمعالجة اللغة، لكن سرعة معالجة المعلومات الخاصة بها كانت بطيئة، مثل مشغل الأشرطة القديم الذي كان يجب تشغيله كلمةً بكلمة. يشبه نموذج Transformer DJ الفعال، فهو قادر على التحكم في مسارات متعددة في نفس الوقت والتقاط المعلومات الأساسية بسرعة.

لقد أدى ظهور نموذج المحولات إلى تحسين قدرة أجهزة الكمبيوتر على معالجة اللغة بشكل كبير، مما جعل مهام مثل الترجمة الآلية، والتعرف على الكلام، وتلخيص النص أكثر كفاءة ودقة. وهذه قفزة هائلة للصناعة بأكملها.

نتج هذا الابتكار عن الجهود المشتركة لثمانية من علماء الذكاء الاصطناعي الذين عملوا سابقًا في Google. كان هدفهم الأولي بسيطًا: تحسين خدمة الترجمة الآلية من Google. إنهم يريدون أن تكون الآلات قادرة على الفهم الكامل وقراءة الجمل بأكملها، بدلاً من ترجمتها كلمة بكلمة بمعزل عن غيرها. أصبح هذا المفهوم نقطة البداية لبنية "المحول" - آلية "الانتباه الذاتي". على هذا الأساس، استخدم هؤلاء المؤلفون الثمانية خبراتهم ونشروا ورقة بحثية بعنوان "الانتباه هو كل ما تحتاجه" في ديسمبر 2017، واصفين فيها بنية المحولات بالتفصيل وفتح فصل جديد في الذكاء الاصطناعي التوليدي.

في عالم الذكاء الاصطناعي التوليدي، يعد قانون القياس مبدأً أساسيًا. باختصار، مع زيادة حجم نموذج المحولات، يزداد أدائه أيضًا، ولكن هذا يعني أيضًا أن هناك حاجة إلى موارد حوسبة أكثر قوة لدعم النماذج الأكبر والشبكات الأعمق، كما أصبحت تلك التي توفر خدمات حوسبة عالية الأداء NVIDIA أيضًا اللاعب الرئيسي في موجة الذكاء الاصطناعي هذه.

في مؤتمر GTC لهذا العام، دعا Jen-Hsun Huang من Nvidia المؤلفين السبعة لكتاب Transformer (لم يتمكن نيكي بارمار مؤقتًا من الحضور لسبب ما) للمشاركة في مناقشة مائدة مستديرة بطريقة احتفالية. وكانت هذه هي المرة الأولى التي يشارك فيها المؤلفون السبعة مناقشة عملهم علناً.الظهور الجماعي.

لقد طرحوا أيضًا بعض النقاط المثيرة للإعجاب أثناء المحادثة:

  • العالم يحتاج إلى شيء أفضل من Transformer، وأعتقد أننا جميعاً هنا نأمل أن يتم استبداله بشيء يأخذنا إلى مستوى جديد من الأداء.
  • لم ننجح في هدفنا الأصلي، وكان هدفنا الأصلي من بدء تشغيل Transformer هو محاكاة عملية تطور الرمز المميز. إنها ليست مجرد عملية إنشاء خطية، ولكنها تطور خطوة بخطوة للنص أو التعليمات البرمجية.
  • مسائل بسيطة مثل 2+2، والتي قد تستخدم تريليونات من موارد المعلمات للنماذج الكبيرة. أعتقد أن الحوسبة التكيفية هي أحد الأشياء التالية التي يجب أن تحدث، حيث نعرف مقدار موارد الحوسبة التي يجب إنفاقها على مشكلة معينة.
  • أعتقد أن النموذج الحالي ميسور التكلفة للغاية وصغير جدًا، فسعر حوالي مليون دولار أمريكي أرخص 100 مرة من الخروج وشراء كتاب ورقي الغلاف.

ما يلي هو المحتوى الفعلي:

جنسن هوانغ: في الستين عامًا الماضية، لا يبدو أن تكنولوجيا الكمبيوتر قد شهدت تغييرات جوهرية، على الأقل منذ لحظة ولادتي. أنظمة الكمبيوتر التي نستخدمها حاليًا، سواء كانت متعددة المهام، والفصل بين الأجهزة والبرامج، وتوافق البرامج، وقدرات النسخ الاحتياطي للبيانات، ومهارات البرمجة لمهندسي البرمجيات، تعتمد بشكل أساسي على مبادئ تصميم IBM 360 - المعالج المركزي، الحيوي النظام الفرعي، وتعدد المهام، والأجهزة والبرامج، وتوافق نظام البرمجيات، وما إلى ذلك.

لا أعتقد أن الحوسبة الحديثة قد تغيرت بشكل جذري منذ عام 1964. على الرغم من أن أجهزة الكمبيوتر شهدت في الثمانينيات والتسعينيات تحولًا كبيرًا إلى الشكل الذي نعرفه اليوم. ولكن مع مرور الوقت، تستمر التكلفة الحدية لأجهزة الكمبيوتر في الانخفاض، فتنخفض تكلفتها بمقدار عشر مرات كل عشر سنوات، وبألف مرة في خمسة عشر عامًا، وبمقدار عشرة آلاف مرة في عشرين عامًا. وفي ثورة الكمبيوتر هذه، كان خفض التكاليف كبيراً للغاية، حتى أن تكلفة أجهزة الكمبيوتر انخفضت في غضون عقدين من الزمن بنحو عشرة آلاف مرة. وقد جلب هذا التغيير قوة هائلة للمجتمع.

حاول أن تتخيل لو أن كل الأشياء الباهظة الثمن في حياتك قد انخفضت إلى واحد على عشرة آلاف من قيمتها الأصلية، على سبيل المثال السيارة التي اشتريتها بـ 200 ألف دولار قبل عشرين عاما أصبحت تكلف دولارا واحدا فقط، هل يمكنك أن تتخيل التغيير؟؟ ومع ذلك، فإن انخفاض تكاليف الكمبيوتر لم يحدث بين عشية وضحاها، بل وصل تدريجياً إلى نقطة حرجة، ثم توقف اتجاه انخفاض التكلفة فجأة، واستمر في التحسن قليلاً كل عام، لكن معدل التغيير ظل راكداً.

لقد بدأنا في استكشاف الحوسبة المتسارعة، لكن استخدام الحوسبة المتسارعة ليس بالأمر السهل، فأنت بحاجة إلى تصميمها شيئًا فشيئًا من الصفر. في الماضي، ربما كنا نتبع خطوات ثابتة لحل مشكلة ما خطوة بخطوة، ولكننا الآن نحتاج إلى إعادة تصميم تلك الخطوات. وهذا مجال جديد تماما من العلوم، حيث يعيد صياغة القواعد السابقة إلى خوارزميات متوازية.

نحن ندرك ذلك ونعتقد أنه إذا تمكنا من تسريع حتى 1% من التعليمات البرمجية وتوفير 99% من وقت التشغيل، فستكون هناك تطبيقات ستستفيد منها. إن هدفنا هو جعل المستحيل ممكناً، أو جعل الممكن مستحيلاً، أو جعل الأشياء الممكنة بالفعل أكثر كفاءة. وهذا هو ما تعنيه الحوسبة المتسارعة.

إذا نظرنا إلى تاريخ الشركة، نرى قدرتنا على تسريع مجموعة متنوعة من التطبيقات. في البداية، حققنا تسارعًا كبيرًا في مجال الألعاب، وكان فعالاً للغاية لدرجة أن الناس ظنوا خطأً أننا شركة ألعاب. ولكن في الواقع، هدفنا هو أكثر من ذلك بكثير، لأن هذا السوق ضخم وكبير بما يكفي لدفع التقدم التكنولوجي المذهل. هذه الحالة ليست شائعة، لكننا وجدنا حالة خاصة.

باختصار، في عام 2012، أشعلت AlexNet شرارة، والتي كانت أول تصادم بين الذكاء الاصطناعي ووحدات معالجة الرسومات NVIDIA. وهذا يمثل بداية رحلتنا المذهلة في هذا المجال. وبعد بضع سنوات، اكتشفنا سيناريو التطبيق المثالي الذي وضع الأساس لما نحن عليه اليوم.

باختصار، تضع هذه الإنجازات الأساس لتطوير الذكاء الاصطناعي التوليدي. لا يستطيع الذكاء الاصطناعي التوليدي التعرف على الصور فحسب، بل يمكنه أيضًا تحويل النص إلى صور وحتى إنشاء محتوى جديد تمامًا. لدينا الآن القدرة التقنية الكافية لفهم وحدات البكسل والتعرف عليها وفهم المعنى الكامن وراءها. ومن خلال المعنى الكامن وراء ذلك، يمكننا إنشاء محتوى جديد. تعد قدرة الذكاء الاصطناعي على فهم المعنى الكامن وراء البيانات بمثابة تغيير هائل.

ولدينا من الأسباب ما يجعلنا نعتقد أن هذه هي بداية ثورة صناعية جديدة. في هذه الثورة، نصنع شيئًا لم يحدث من قبل. على سبيل المثال، في الثورة الصناعية السابقة، كان الماء مصدرا للطاقة، ودخل الماء إلى الأجهزة التي صنعناها، وبدأت المولدات بالعمل، ودخل الماء وخرجت الكهرباء، مثل السحر.

الذكاء الاصطناعي التوليدي هو "برنامج" جديد تمامًا يمكنه إنشاء برمجيات، ويعتمد على الجهود المشتركة للعديد من العلماء. تخيل أنك تعطي مواد خام للذكاء الاصطناعي - بيانات، وتدخل "مبنى" - آلة نطلق عليها وحدة معالجة الرسومات، ويمكنها إخراج نتائج سحرية. إنها تعيد تشكيل كل شيء، ونحن نشهد ولادة "مصانع الذكاء الاصطناعي".

ويمكن أن يسمى هذا التغيير ثورة صناعية جديدة. لم يسبق لنا أن شهدنا تغيرًا كهذا في الماضي، لكنه الآن يتكشف ببطء أمامنا. لا تفوت السنوات العشر القادمة، لأنه في هذه السنوات العشر سنحقق إنتاجية هائلة. لقد بدأ بندول الزمن في الحركة، وبدأ باحثونا بالفعل في التحرك.

قمنا اليوم بدعوة منشئي Tansformer لمناقشة إلى أين سيأخذنا الذكاء الاصطناعي التوليدي في المستقبل.

هم:

أشيش فاسواني: انضم إلى فريق Google Brain في عام 2016. في أبريل 2022، شارك في تأسيس Adept AI مع نيكي بارمار، وترك الشركة في ديسمبر من نفس العام، وشارك في تأسيس شركة ناشئة أخرى في مجال الذكاء الاصطناعي، Essential AI.

نيكي بارمار: عملت في Google Brain لمدة أربع سنوات قبل أن تشارك في تأسيس Adept AI وEssential AI مع أشيش فاسواني.

جاكوب أوسزكوريت: عمل في Google من 2008 إلى 2021. ترك جوجل في عام 2021 وشارك في تأسيس شركة Inceptive، العمل الرئيسي للشركة هو علوم الحياة في مجال الذكاء الاصطناعي وتلتزم باستخدام الشبكات العصبية والتجارب عالية الإنتاجية لتصميم الجيل القادم من جزيئات الحمض النووي الريبي (RNA).

إيليا بولوسوخين: انضم إلى Google في عام 2014 وكان من أوائل الأشخاص الذين غادروا الفريق المكون من ثمانية أشخاص. وفي عام 2017، شارك في تأسيس شركة blockchain NEAR Protocol.

نعوم شازير: عمل في Google من عام 2000 إلى عام 2009 ومن عام 2012 إلى عام 2021. في عام 2021، ترك شازير شركة جوجل وشارك في تأسيس شركة Character.AI مع مهندس جوجل السابق دانييل دي فريتاس.

**ليون جونز: **عمل في Delcam وYouTube. انضم إلى Google في عام 2012 كمهندس برمجيات. وفي وقت لاحق، ترك جوجل وأسس شركة الذكاء الاصطناعي الناشئة sakana.ai.

لوكاش كايزر: باحث سابق في المركز الوطني الفرنسي للبحث العلمي. انضمت إلى جوجل في عام 2013. وفي عام 2021، ترك جوجل وأصبح باحثًا في OpenAI.

إيدان جوميز: تخرج من جامعة تورنتو بكندا. وعندما تم نشر بحثه عن Transformer، كان لا يزال متدربًا في فريق Google Brain. وهو ثاني شخص من الفريق المكون من ثمانية أشخاص يغادر جوجل. وفي عام 2019، شارك في تأسيس شركة Cohere.

![يتحدث هوانغ رينكسون إلى المؤلفين السبعة لورقة المحول: نحن محاصرون في النموذج الأصلي ونحتاج إلى بنية جديدة أكثر قوة](https://cdn-img.panewslab.com//panews/2022/3/23 /الصور/ e2cb0168e261ffba0c0ea67a5502acf8.png)

رينشون هوانغ: بينما أجلس هنا اليوم، يرجى السعي بنشاط للحصول على فرصة التحدث. لا يوجد موضوع لا يمكن مناقشته هنا. يمكنك حتى القفز من مقعدك لمناقشة القضايا. لنبدأ بالسؤال الأساسي، ما هي المشاكل التي واجهتها في ذلك الوقت، وما الذي ألهمك لتصبح ترانسفورمر؟

إيليا بولوسوخين: إذا كنت تريد إصدار نماذج يمكنها بالفعل قراءة نتائج البحث، مثل معالجة أكوام من المستندات، فأنت بحاجة إلى بعض النماذج التي يمكنها معالجة هذه المعلومات بسرعة. لم تتمكن الشبكة العصبية المتكررة (RNN) في ذلك الوقت من تلبية هذه الاحتياجات.

في الواقع، على الرغم من أن الشبكات العصبية المتكررة (RNN) وبعض آليات الانتباه الأولية (Arnens) جذبت الانتباه في ذلك الوقت، إلا أنها ظلت تتطلب القراءة كلمة بكلمة، وهو الأمر الذي لم يكن فعالاً.

جاكوب أوسزكوريت: إن السرعة التي نولد بها بيانات التدريب تتجاوز بكثير قدرتنا على تدريب أحدث البنى المعمارية. في الواقع، نحن نستخدم بنيات أبسط، مثل شبكات التغذية الأمامية مع n-grams كميزات إدخال. غالبًا ما تتفوق هذه البنيات على النماذج الأكثر تعقيدًا وتقدمًا لأنها تتدرب بشكل أسرع، على الأقل مع كميات كبيرة من بيانات التدريب على نطاق Google.

كانت شبكات RNN القوية في ذلك الوقت، وخاصة شبكات الذاكرة الطويلة قصيرة المدى (LSTM)، موجودة بالفعل.

نعوم شازير: يبدو أن هذه قضية ملحة. لقد بدأنا نلاحظ قوانين القياس هذه في عام 2015 تقريبًا، ويمكنك أن ترى أنه مع زيادة حجم النموذج، يزداد ذكاؤه أيضًا. إنها مثل أفضل مشكلة في تاريخ العالم، إنها بسيطة جدًا: أنت فقط تتنبأ بالرمز التالي، وسيكون ذكيًا جدًا وقادرًا على القيام بملايين الأشياء المختلفة، وتريد فقط توسيع نطاقه و إجعله أفضل.

الإحباط الكبير هو أن RNN مزعج للغاية في التعامل معه. وبعد ذلك سمعت هؤلاء الأشخاص يتحدثون عن، دعنا نستبدل هذا بآلية الإلتواء أو آلية الانتباه. فكرت، عظيم، دعونا نفعل هذا. أحب أن أقارن المحول بالقفزة من المحركات البخارية إلى محركات الاحتراق الداخلي. كان بإمكاننا إكمال الثورة الصناعية بالمحركات البخارية، لكن ذلك كان سيكون مؤلما، ومحرك الاحتراق الداخلي جعل كل شيء أفضل.

أشيش فاسواني: بدأت أتعلم بعض الدروس الصعبة خلال سنوات دراستي العليا، خاصة عندما كنت أعمل على الترجمة الآلية. أدركت أنني لن أتعلم تلك القواعد المعقدة للغة. أعتقد أن Gradient Descent - الطريقة التي ندرب بها هذه النماذج - هي معلمة أفضل مني. لذلك لن أتعلم القواعد، سأترك Gradient Descent يقوم بكل العمل نيابةً عني، وهذا هو الدرس الثاني.

ما تعلمته بالطريقة الصعبة هو أن البنى العامة التي يمكن التوسع فيها سوف تفوز في النهاية على المدى الطويل. اليوم قد تكون رموزًا، وغدًا قد تكون إجراءات نتخذها على أجهزة الكمبيوتر، وستبدأ في تقليد أنشطتنا وستكون قادرة على أتمتة الكثير من العمل الذي نقوم به. كما ناقشنا، يتمتع المحول، وخاصة آلية الاهتمام الذاتي، بقابلية تطبيق واسعة جدًا، كما أنه يجعل الهبوط المتدرج أفضل. والشيء الآخر هو الفيزياء، لأن هناك شيء واحد تعلمته من نعوم وهو أن ضرب المصفوفات فكرة جيدة.

نعوم شازير: هذا النمط يتكرر باستمرار. لذا، في كل مرة تضيف فيها مجموعة من القواعد، يصبح النسب المتدرج أفضل منك في تعلم تلك القواعد. هذا كل شيء. تمامًا مثل التعلم العميق الذي كنا نقوم به، نقوم ببناء نموذج ذكاء اصطناعي على شكل وحدة معالجة الرسومات. والآن، نقوم ببناء نموذج للذكاء الاصطناعي على شكل كمبيوتر فائق السرعة. نعم، أجهزة الكمبيوتر العملاقة هي النموذج الآن. نعم هذا صحيح. نعم. الكمبيوتر العملاق فقط لإعلامك، نحن نقوم ببناء كمبيوتر عملاق على شكل النموذج.

** جين هسون هوانغ: إذن ما هي المشكلة التي تحاول حلها؟ **

لوكاس كايزر: الترجمة الآلية. إذا نظرنا إلى خمس سنوات مضت، فقد بدت هذه العملية صعبة للغاية. وكان عليك جمع البيانات، وربما ترجمتها، وقد تكون النتيجة صحيحة بشكل هامشي فقط. كان المستوى في ذلك الوقت لا يزال أساسيًا للغاية. لكن الآن، يمكن لهذه النماذج أن تتعلم الترجمة حتى بدون بيانات. ما عليك سوى توفير لغة واحدة ولغة أخرى، ويتعلم النموذج الترجمة من تلقاء نفسه، وتأتي القدرة بشكل طبيعي ومرضي.

ليون جونز: لكن حدس "الانتباه" هو كل ما تحتاجه. لذلك توصلت إلى هذا العنوان، وما حدث في الأساس كان عندما كنا نبحث عن عنوان.

لقد كنا نقوم للتو بالاستئصال وبدأنا في التخلص من أجزاء وأجزاء من النموذج فقط لنرى ما إذا كان الأمر سيزداد سوءًا. ولدهشتنا، بدأ الوضع يتحسن. من الأفضل بكثير تضمين التخلص من كل التلافيف مثل هذا. ومن هنا يأتي العنوان.

أشيش فاسواني: الشيء المثير للاهتمام في الأساس هو أننا بدأنا بالفعل بإطار عمل أساسي للغاية ثم أضفنا أشياء، وأضفنا تلافيفات ثم أعتقد أننا حذفناها. هناك أيضًا العديد من الأشياء الأخرى المهمة جدًا مثل الاهتمام متعدد الرؤوس.

** جنسن هوانغ: من جاء باسم ترانسفورمر؟ لماذا سمي بالمحول؟ **

جاكوب أوسزكوريت: نحن نحب هذا الاسم، لقد اخترناه بشكل عشوائي واعتقدنا أنه إبداعي للغاية، لقد غير نموذج إنتاج البيانات لدينا واستخدم مثل هذا المنطق. كل التعلم الآلي هو محول ومعطل.

نعوم شازير: لم نفكر بهذا الاسم من قبل، أعتقد أن هذا الاسم بسيط للغاية، ويعتقد الكثير من الناس أن هذا الاسم جيد جدًا. لقد فكرت في أسماء كثيرة من قبل، مثل يعقوب، واستقرت أخيرًا على "Transformer"، الذي يصف مبدأ النموذج، فهو في الواقع يحول الإشارة بأكملها، ووفقًا لهذا المنطق، سيتم تحويل كل التعلم الآلي تقريبًا.

ليون جونز: السبب الذي جعل Transformer يصبح اسمًا مألوفًا ليس فقط بسبب محتوى الترجمة، ولكن أيضًا لأننا أردنا وصف هذا التحول بطريقة أكثر عمومية. لا أعتقد أننا قمنا بعمل رائع، ولكن كصانع تغيير، كسائق ومحرك، كان الأمر منطقيًا. يمكن للجميع فهم هذا النموذج اللغوي الكبير والمحرك والمنطق، ومن منظور معماري، فهذه فترة بداية مبكرة نسبيًا.

لكننا أدركنا أننا كنا نحاول في الواقع إنشاء شيء متعدد الاستخدامات للغاية ويمكنه حقًا تحويل أي شيء إلى أي شيء آخر. ولا أعتقد أننا توقعنا مدى جودة هذا الأمر عندما تم استخدام المحولات للصور، وهو أمر مفاجئ بعض الشيء. قد يبدو هذا منطقيًا يا رفاق، ولكن في الواقع، يمكنك تقسيم الصورة وتصنيف كل نقطة صغيرة، صحيح. أعتقد أن هذا كان شيئًا موجودًا في وقت مبكر جدًا في الهندسة المعمارية.

لذلك عندما كنا نبني مكتبات من موتر إلى موتر، ما ركزنا عليه حقًا هو توسيع نطاق التدريب على الانحدار الذاتي. لا يقتصر الأمر على اللغة فحسب، بل يشمل أيضًا الصور والمكونات الصوتية.

لذلك قال لوكاش إن ما كان يفعله هو الترجمة. أعتقد أنه قلل من تقدير نفسه، وكل هذه الأفكار، بدأنا الآن نرى هذه الأنماط تجتمع معًا، وكلها تضيف إلى النموذج.

لكن في الحقيقة، كل شيء كان موجودًا في وقت مبكر والأفكار تتسرب ويستغرق الأمر بعض الوقت. هدف لوكاش هو أن يكون لدينا كل مجموعات البيانات الأكاديمية هذه التي تنتقل من صورة إلى نص، ومن نص إلى صورة، ومن صوت إلى نص، ومن نص إلى نص. يجب أن نتدرب على كل شيء.

هذه الفكرة هي التي قادت العمل الإضافي حقًا، ونجحت في النهاية، وكان من المثير للاهتمام أن نتمكن من ترجمة الصور إلى نص، والنص إلى صور، والنص إلى نص.

أنت تستخدمه لدراسة علم الأحياء، أو البرامج البيولوجية، والتي قد تكون مشابهة لبرامج الكمبيوتر من حيث أنها تبدأ كبرنامج ثم تقوم بتجميعها في شيء يمكن تشغيله على وحدة معالجة الرسومات.

تبدأ حياة البرنامج البيولوجي بتحديد سلوكيات معينة. لنفترض أنك تريد طباعة بروتين، مثل بروتين معين في الخلية. وبعد ذلك تعلمت كيفية استخدام التعلم العميق لتحويل ذلك إلى جزيء RNA، لكن في الواقع تظهر هذه السلوكيات بمجرد وصولها إلى خلاياك. لذا فإن الفكرة لا تتعلق فقط بالترجمة إلى اللغة الإنجليزية.

** جنسن هوانغ: هل قمت بإنشاء معمل كبير لإنتاج كل هذا؟ **

إيدان جوميز: هناك الكثير متاح ويظل في الواقع متاحًا للجمهور لأن هذه البيانات غالبًا ما تكون ممولة من القطاع العام إلى حد كبير. لكن في الواقع، مازلت بحاجة إلى بيانات توضح بوضوح الظاهرة التي تحاول تحقيقها.

محاولة النمذجة ضمن منتج معين، لنفترض التعبير البروتيني ولقاحات mRNA وأشياء من هذا القبيل، أو نعم، في بالو ألتو لدينا مجموعة من الروبوتات والأشخاص الذين يرتدون معاطف المختبر، وكلاهما يتعلم أفراد البحث، بما في ذلك علماء الأحياء السابقين.

الآن، نعتبر أنفسنا روادًا لشيء جديد، حيث نعمل على إنشاء هذه البيانات والتحقق من صحة النماذج التي تصمم هذه الجزيئات. لكن الفكرة الأصلية كانت الترجمة.

** جين هسون هوانغ: كانت الفكرة الأصلية هي الترجمة الآلية، وما أريد أن أسأله هو، ما هي العقد الرئيسية التي تظهر في تعزيز واختراق البنية؟ وما تأثيرها على تصميم المحولات؟ **

إيدان جوميز: على طول الطريق، لقد رأيتم ذلك جميعًا، هل تعتقدون أن هناك بالفعل مساهمة إضافية كبيرة بالإضافة إلى تصميم المحولات الأساسي؟ أعتقد أنه من ناحية الاستدلال، كان هناك الكثير من العمل لتسريع هذه النماذج وجعلها أكثر كفاءة.

ما زلت أعتقد أن الأمر مزعج بعض الشيء بالنسبة لي بسبب مدى تشابه أشكالنا الأصلية. أعتقد أن العالم يحتاج إلى شيء أفضل من Transformer، وأعتقد أننا جميعًا هنا نريد أن يتم استبداله بشيء يأخذنا إلى مستوى جديد من الأداء.

أريد أن أسأل الجميع هنا سؤالا. ماذا تعتقد سوف يحدث بعد ذلك؟ إنها خطوة مثيرة لأنني أعتقد أنها تشبه إلى حد كبير الأشياء التي كانت موجودة قبل 6-7 سنوات، أليس كذلك؟

ليون جونز: نعم، أعتقد أن الناس سوف يفاجأون بمدى التشابه الذي تقوله، أليس كذلك؟ يحب الناس أن يسألوني عما سيحدث بعد ذلك لأنني مؤلف هذه الورقة. مثل السحر، تلوّح بالعصا السحرية وماذا يحدث بعد ذلك؟ ما أريد أن أشير إليه هو كيف تم تصميم هذا المبدأ المحدد. لا نحتاج فقط إلى أن نكون أفضل، بل نحتاج إلى أن نكون أفضل بشكل واضح.

لأنه إذا كان أفضل قليلاً، فهذا لا يكفي لدفع صناعة الذكاء الاصطناعي بأكملها إلى شيء جديد. لذلك نحن متمسكون بالنموذج الأصلي، على الرغم من أنه من الناحية الفنية ربما لا يكون أقوى شيء لدينا الآن.

لكن الجميع يعرف نوع الأدوات الشخصية التي يريدونها، فأنت تريد نوافذ سياقية أفضل، وتريد القدرة على إنشاء الرموز المميزة بشكل أسرع. حسنًا، لست متأكدًا مما إذا كانت هذه الإجابة تعجبك، لكنهم يستخدمون الكثير من موارد الحوسبة في الوقت الحالي. أعتقد أن الناس يقومون بالكثير من الحسابات الضائعة. نحن نعمل جاهدين لتحسين الكفاءة، شكرًا لك.

** جنسن هوانغ: أعتقد أننا نجعل هذا الأمر أكثر فعالية، شكرًا لك! **

جاكوب أوزكوريت: لكنني أعتقد أن الأمر يتعلق بشكل أساسي بكيفية توزيع الموارد، وليس بعدد الموارد التي يتم استهلاكها بشكل إجمالي. على سبيل المثال، لا نريد إنفاق الكثير من المال على مشكلة سهلة، أو إنفاق القليل جدًا على مشكلة صعبة للغاية وينتهي الأمر بعدم الحصول على حل.

إيليا بولوسوخين: هذا المثال يشبه 2+2، إذا أدخلته في هذا النموذج بشكل صحيح، فإنه يستخدم تريليون معلمة. لذا أعتقد أن الحوسبة التكيفية هي أحد الأشياء التي يجب أن تأتي بعد ذلك، حيث نعرف مقدار موارد الحوسبة التي يجب إنفاقها على مشكلة معينة.

إيدان جوميز: نحن نعلم مقدار قدرات توليد الكمبيوتر التي لدينا حاليًا. أعتقد أن هذه هي القضية التي يجب التركيز عليها بعد ذلك. أعتقد أن هذا تغيير على المستوى الكوني وهذا أيضًا اتجاه التطوير المستقبلي.

لوكاش كايزر: كان هذا المفهوم موجودًا قبل Transformer، وتم دمجه في نموذج Transformer. في الواقع، لست متأكدًا مما إذا كان الجميع هنا يعلم أننا لم ننجح في هدفنا الأصلي، وكان هدفنا الأصلي عند بدء هذا المشروع هو محاكاة عملية تطور الرمز المميز. إنها ليست مجرد عملية إنشاء خطية، ولكنها تطور خطوة بخطوة للنص أو التعليمات البرمجية. نحن نكرر، ونحرر، مما يجعل من الممكن لنا ليس فقط تقليد كيفية تطوير البشر للنصوص، ولكن أيضًا استخدامها كجزء من تلك العملية. لأنه إذا كان بإمكانك إنشاء محتوى بشكل طبيعي كما يفعل البشر، فسيكونون قادرين بالفعل على تقديم التعليقات، أليس كذلك؟

لقد قرأنا جميعًا بحث شانون، وكانت فكرتنا الأصلية هي التركيز فقط على نمذجة اللغة والحيرة، لكن هذا لم يحدث. أعتقد أن هذا هو المكان الذي يمكننا أن نتطور فيه أكثر. يتعلق الأمر أيضًا بكيفية تنظيم موارد الحوسبة الآن بذكاء، وينطبق هذا التنظيم الآن على معالجة الصور أيضًا. أعني أن نماذج الانتشار تتمتع بخاصية مثيرة للاهتمام وهي القدرة على تحسين جودتها باستمرار من خلال التكرار. ونحن حاليا لا نملك مثل هذه الإمكانيات.

أعني هذا السؤال الأساسي: ما هي المعرفة التي يجب دمجها في النموذج وما هي المعرفة التي يجب أن تكون خارج النموذج؟ هل تستخدم نموذج الاسترجاع؟ نموذج RAG (الجيل المعزز Retri) هو مثال على ذلك. وبالمثل، يتضمن هذا أيضًا مسألة الاستدلال، أي ما هي مهام الاستدلال التي يجب تنفيذها خارجيًا عبر الأنظمة الرمزية وأي مهام الاستدلال يجب تنفيذها مباشرة داخل النموذج. هذا إلى حد كبير مناقشة حول الكفاءة. أعتقد أن النماذج الكبيرة ستتعلم في النهاية كيفية إجراء حسابات مثل 2+2، ولكن إذا كنت تريد حساب 2+2 والقيام بذلك عن طريق جمع الأرقام، فمن الواضح أن هذا غير فعال.

** جين هسون هوانغ: إذا كان الذكاء الاصطناعي يحتاج فقط إلى حساب 2+2، فيجب عليه استخدام الآلة الحاسبة مباشرة لإكمال هذه المهمة بأقل قدر من الطاقة، لأننا نعلم أن الآلة الحاسبة هي الأداة الأكثر فعالية إجراء العمليات الحسابية 2+2. ومع ذلك، إذا سأل شخص ما الذكاء الاصطناعي، كيف توصلت إلى قرار 2+2؟ هل تعلم أن 2+2 هي الإجابة الصحيحة؟ هل سيستهلك هذا الكثير من الموارد؟ **

![يتحدث هوانغ رينكسون إلى المؤلفين السبعة لورقة المحول: نحن محاصرون في النموذج الأصلي ونحتاج إلى بنية جديدة أكثر قوة](https://cdn-img.panewslab.com//panews/2022/3/23 /الصور/943398d349cf0e17db81b1469281b267.png)

نعوم شازير: بالضبط. لقد ذكرت مثالا من قبل، ولكنني مقتنع أيضا بأن أنظمة الذكاء الاصطناعي التي يطورها الجميع هنا ذكية بما يكفي لاستخدام الآلات الحاسبة بشكل فعال.

وهذا ما تفعله المنافع العامة العالمية حاليا. أعتقد أن النموذج الحالي ميسور التكلفة وصغير جدًا. السبب في أنها رخيصة الثمن هو وجود تكنولوجيا مثل NV، وذلك بفضل إنتاجها.

وتبلغ التكلفة الحسابية لكل عملية ما يقرب من 10 إلى 18 دولارًا. وبعبارة أخرى، تقريبًا بهذا الترتيب من حيث الحجم. شكرًا لك على إنشاء الكثير من موارد الحوسبة. لكن إذا نظرت إلى نموذج يحتوي على 500 مليار معلمة وتريليون عملية حسابية لكل رمز، فهذا يعني حوالي دولار لكل مليون رمز، وهو أرخص 100 مرة من الخروج وشراء كتاب ورقي الغلاف وقراءته. يعد تطبيقنا أكثر قيمة بمليون مرة أو أكثر من العمليات الحسابية الفعالة على الشبكات العصبية العملاقة. أعني أنها بالتأكيد أكثر قيمة من شيء مثل علاج السرطان، لكنها أكثر من ذلك.

أشيش فاسواني: أعتقد أن جعل العالم أكثر ذكاءً يعني كيفية الحصول على تعليقات من العالم وما إذا كان بإمكاننا تحقيق توازي متعدد المهام ومتعدد الخطوط. إذا كنت تريد حقًا بناء مثل هذا النموذج، فهذه طريقة رائعة لمساعدتنا في تصميم مثل هذا النموذج.

** جنسن هوانغ: هل يمكنك أن تشاركنا سريعًا سبب تأسيس شركتك؟ **

أشيش فاسواني: هدفنا في شركتنا هو بناء النماذج وحل المهام الجديدة. مهمتنا هي فهم أهداف المهمة ومحتواها وتكييف هذا المحتوى لتلبية احتياجات العميل. في الواقع، بدءًا من عام 2021، أجد أن أكبر مشكلة في النماذج هي أنه لا يمكنك فقط جعل النماذج أكثر ذكاءً، بل تحتاج أيضًا إلى العثور على الأشخاص المناسبين لتفسير هذه النماذج. نأمل أن نجعل العالم والنموذج متشابكين، مما يجعل النموذج أكبر وأكثر تميزًا. هناك قدر معين من التقدم المطلوب في عملية التعلم والذي لا يمكن تحقيقه في البداية في بيئة الفراغ في المختبر.

نعوم شازير: في عام 2021، شاركنا في تأسيس هذه الشركة. لدينا مثل هذه التكنولوجيا الرائعة، لكنها لا تصل إلى الكثير من الناس. تخيل لو كنت مريضًا وأسمعك تقول هذا، أعتقد أن هناك عشرات المليارات من الأشخاص لديهم مهام مختلفة يحتاجون إلى إكمالها. هذا هو ما يدور حوله التعلم العميق، فنحن نحسن التكنولوجيا من خلال المقارنة. في الواقع، بسبب التطوير المستمر للتكنولوجيا، بقيادة جنسن هوانغ، فإن هدفنا النهائي هو مساعدة الناس في جميع أنحاء العالم. عليك الاختبار، ونحن الآن بحاجة إلى تطوير حلول أسرع تمكن مئات الأشخاص من استخدام هذه التطبيقات. كما هو الحال في البداية، لم يكن الجميع يستخدم هذه التطبيقات، كان الكثير من الأشخاص يستخدمونها للمتعة فقط، لكنهم نجحوا بالفعل، لقد نجحوا بالفعل.

جاكوب أوزكوريت: شكرًا. أريد أن أتحدث عن نظام البرمجيات البيئي الذي أنشأناه. وفي عام 2021، شاركت في تأسيس هذه الشركة، وهدفنا هو حل بعض المشاكل ذات تأثير علمي حقيقي. في الماضي، كنا نتعامل مع محتوى معقد للغاية. ولكن عندما أنجبت طفلي الأول، تغيرت الطريقة التي رأيت بها العالم. نأمل أن نجعل حياة الإنسان أكثر راحة ونساهم في أبحاث البروتين. خاصة بعد إنجاب الأطفال، آمل أن أغير الهيكل الطبي الحالي، وآمل أن يكون لتطور العلوم والتكنولوجيا تأثير إيجابي على بقاء الإنسان وتطوره. على سبيل المثال، تأثرت بنية البروتين وتفكيكه إلى حد ما، ولكننا نفتقر حاليًا إلى البيانات. يجب أن نبني جهودنا على البيانات، ليس كواجب فحسب، بل كأب.

** جين هسون هوانغ: تعجبني وجهة نظرك، فأنا مهتم دائمًا بتصميم الأدوية الجديدة وعملية السماح لأجهزة الكمبيوتر بتعلم كيفية تطوير وإنشاء أدوية جديدة. وإذا أمكن تعلم وتصميم أدوية جديدة، وتمكن المختبر من اختبارها، فسيكون من الممكن تحديد ما إذا كان مثل هذا النموذج سينجح. **

ليون جونزليون جونز: نعم، أنا آخر من شارك. الشركة التي شاركنا في تأسيسها تسمى Sakana AI، والتي تعني "السمك". السبب وراء تسمية شركتنا باسم "الأسماك" اليابانية هو أننا نشبه مدرسة الأسماك، والتي تلهمنا بشكل طبيعي للعثور على الذكاء. إذا تمكنا من الجمع بين العديد من العناصر التي تم فحصها، يمكننا إنشاء شيء معقد وجميل. قد لا يفهم الكثيرون تفاصيل العملية والمحتوى، ولكن فلسفتنا الأساسية داخليًا هي "التعلم يفوز دائمًا".

سواء كنت تريد حل مشكلة ما أو تريد تعلم أي شيء، فإن التعلم سيساعدك دائمًا على الفوز. وفي عملية الذكاء الاصطناعي التوليدي، سيساعدنا محتوى التعلم أيضًا على الفوز. كباحث حاضر، أود أن أذكر الجميع بأننا نعطي معنى حقيقيًا لنماذج الذكاء الاصطناعي الحاسوبية، حتى تتمكن من مساعدتنا حقًا في فهم أسرار الكون. في الواقع، أردت أيضًا أن أخبرك أننا على وشك الإعلان عن تطور جديد نحن متحمسون جدًا له. في حين أن لدينا الآن مجموعة من الأبحاث باعتبارها لبنة أساسية، إلا أننا نشهد تطورًا تحويليًا حيث يتم تنظيم إدارة النموذج الحالية وتسمح للأشخاص بالمشاركة الحقيقية. نحن نجعل هذه النماذج أكثر جدوى، باستخدام هذه النماذج الكبيرة والنماذج التحويلية لتغيير الطريقة التي يفهم بها الناس العالم والكون. هذا هو هدفنا.

إيدان جوميز: كانت نيتي الأصلية في تأسيس الشركة مشابهة لخطة نعوم شازير. أعتقد أن الحوسبة تدخل نموذجًا جديدًا يغير المنتجات الحالية وطريقة عملنا. كل شيء يعتمد على الكمبيوتر، ويتغير داخل التكنولوجيا إلى حد ما. ما هو دورنا؟ أنا في الواقع أقوم بسد الفجوة، وسد الفجوة. يمكننا أن نرى شركات مختلفة تنشئ مثل هذه المنصات، مما يسمح لكل شركة بتكييف المنتجات ودمجها، وهي طريقة لمواجهة المستخدمين مباشرة. هذه هي الطريقة التي نطور بها التكنولوجيا ونجعلها في متناول الجميع وأكثر انتشارًا.

** جنسن هوانغ: ما أقدره بشكل خاص هو أنه عندما يبدو نعوم شازير هادئًا بشكل خاص، فإنك تبدو متحمسًا للغاية. الاختلافات في شخصياتكم صارخة للغاية. والآن أعطي الكلمة للوكاش كايزر. **

لوكاش كايزر: كانت تجربتي في OpenAI مزعجة للغاية. إنه أمر ممتع للغاية في الشركة ونقوم بمعالجة الكثير من البيانات لإجراء الحسابات، ولكن في نهاية اليوم، لا يزال دوري هو تحليل البيانات.

إيليا بولوسوخين: كنت أول من غادر. أعتقد اعتقادا راسخا أننا سوف نحرز تقدما كبيرا وأن البرمجيات سوف تغير العالم بأسره. الطريقة الأكثر مباشرة هي تعليم الآلات كتابة التعليمات البرمجية وجعل البرمجة في متناول الجميع.

في NEAR، على الرغم من أن التقدم الذي أحرزناه محدود، إلا أننا ملتزمون بدمج الحكمة البشرية والحصول على البيانات ذات الصلة، مثل إلهام الناس بشكل أكبر لإدراك أننا بحاجة إلى منهجية أساسية. يعتبر هذا النموذج تطورا أساسيا، وهذا النموذج الكبير يستخدم على نطاق واسع في جميع أنحاء العالم، وله العديد من التطبيقات في مجال الطيران وغيرها من المجالات، ويرتبط بالاتصال والتفاعل في مختلف المجالات، ويزودنا فعلا بالإمكانات. ومع تعميق الاستخدام، وجدنا أنه جلب المزيد من النماذج، ولا يوجد حاليًا الكثير من النزاعات حول حقوق الطبع والنشر.

نحن الآن في عصر إنتاجي جديد، عصر يحتفل بالابتكار والمبتكرين، ونريد المشاركة بنشاط وتبني التغيير، لذلك بحثنا عن طرق مختلفة للمساعدة في بناء نموذج رائع حقًا.

** جنسن هوانغ: نظام ردود الفعل الإيجابية هذا مفيد جدًا لاقتصادنا بشكل عام. لقد أصبحنا الآن أكثر قدرة على تصميم اقتصادنا. سأل أحدهم، في هذا العصر الذي تقوم فيه نماذج GPT بتدريب مليارات قواعد البيانات ذات النطاق الرمزي، ما هي الخطوة التالية؟ ماذا ستكون تكنولوجيا النمذجة الجديدة؟ ماذا تريد أن تستكشف؟ ما هو مصدر بياناتك؟ **

إيليا بولوسوخين: نقطة البداية لدينا هي المتجهات والإزاحات. نحن بحاجة إلى نماذج ذات قيمة اقتصادية حقيقية، يمكن للأشخاص تقييمها ووضع تقنياتك وأدواتك في نهاية المطاف موضع التنفيذ لتحسين النموذج بأكمله.

** جين هسون هوانغ: كيف تقوم بتدريب النموذج؟ ما هي التفاعلات الأولية وأنماط التفاعل؟ هل هو التواصل والتفاعل بين النماذج؟ أم أن هناك نماذج وتقنيات توليدية؟ **

إيليا بولوسوخين: في فريقنا، يتمتع كل فرد بخبرته الفنية الخاصة.

جاكوب أوسزكوريت: الخطوة التالية هي التفكير. ندرك جميعًا أهمية الاستدلال، لكن لا يزال المهندسون يقومون بالكثير من العمل يدويًا. نحن في الواقع نعلمهم الإجابة في شكل سؤال وجواب تفاعلي، ونريدهم أن يفهموا السبب معًا وأن يقدموا نمطًا منطقيًا قويًا معًا. نأمل أن يتمكن النموذج من إنشاء المحتوى الذي نريده، وطريقة التوليد هذه هي ما نسعى إليه. سواء كان ذلك فيديو أو نصًا أو معلومات ثلاثية الأبعاد، فيجب دمجها جميعًا.

لوكاش كايزر: أعتقد، هل يفهم الناس أن الاستدلال يأتي في الواقع من البيانات؟ إذا بدأنا بالاستدلال، فلدينا مجموعة من البيانات ونفكر لماذا تختلف هذه البيانات؟ ثم سنتعلم أن التطبيقات المختلفة تعتمد في الواقع على عملية تفكير البيانات. بفضل قوة أجهزة الكمبيوتر، وبفضل أنظمة كهذه، يمكننا أن نبدأ في التطوير أكثر من هناك. يمكننا التفكير في المحتوى ذي الصلة وإجراء التجارب.

في كثير من الأحيان، يتم اشتقاق هذه من البيانات. أعتقد أن الاستدلال يتطور بسرعة كبيرة، وأن نماذج البيانات مهمة جدًا، وسيكون هناك المزيد من المحتوى التفاعلي في المستقبل القريب. لم نقم بالتدريب الكافي بعد، فهو ليس المحتوى والعنصر الرئيسي، نحن بحاجة إلى جعل البيانات أكثر تفصيلاً.

نعوم شازير: قد يتضمن تصميم بعض البيانات، مثل تصميم آلة تعليمية، مئات أو مئات الملايين من الرموز المختلفة.

أشيش فاسواني: النقطة التي أريد توضيحها هي أنه في هذا المجال، لدينا العديد من الشركاء الذين حققوا بعض الإنجازات. ما هي أفضل خوارزمية آلية؟ في الواقع، هو تقسيم مهام العالم الحقيقي إلى محتويات مختلفة. يعد نموذجنا أيضًا مهمًا جدًا، فهو يساعدنا في الحصول على البيانات ومعرفة ما إذا كانت البيانات في المكان الصحيح. من ناحية، فهي تساعدنا على التركيز على البيانات، ومن ناحية أخرى، توفر لنا هذه البيانات نماذج عالية الجودة لإكمال المهام المجردة. لذلك، نعتقد أن قياس هذا التقدم هو أيضًا طريق للإبداع، وطريق للتطور العلمي، وطريق لتطوير الأتمتة لدينا.

** جين هسون هوانغ: لا يمكنك القيام بمشاريع عظيمة دون وجود نظام قياس جيد. هل لديكم أي أسئلة لبعضكم البعض؟ **

إيليا بولوسوخين: لا أحد يريد حقًا أن يعرف ما هي الخطوات التي اتخذوها. لكن في الواقع، نأمل أن نفهم ونستكشف ما نقوم به، ونحصل على ما يكفي من البيانات والمعلومات، ونتوصل إلى استنتاجات معقولة. على سبيل المثال، إذا كان لديك ست خطوات، لكن يمكنك في الواقع تخطي خطوة واحدة من خلال التفكير في خمس خطوات. في بعض الأحيان لا تحتاج إلى ست خطوات، وأحيانًا تحتاج إلى المزيد من الخطوات، فكيف يمكنك تكرار سيناريو كهذا؟ ما الذي تحتاجه للانتقال أبعد من الرمز المميز؟

لوكاش كايزر: اعتقادي الشخصي هو أن كيفية إعادة إنتاج مثل هذا النموذج الضخم هي عملية معقدة للغاية. سوف تتطور الأنظمة، ولكنك تحتاج في الأساس إلى ابتكار طريقة. إن الإنسان مخلوقات تجيد التكرار، وعبر تاريخ البشرية، قمنا مرارا وتكرارا بإعادة إنتاج المشاهد الناجحة.

** جين هسون هوانغ: أنا سعيد جدًا بالتواصل معك، وآمل أن تتاح لك فرصة التواصل مع بعضكما البعض وإنتاج سحر لا يوصف. شكرا لكم على المشاركة في هذا الاجتماع، شكرا جزيلا لكم! **

شاهد النسخة الأصلية
  • أعجبني
  • تعليق
  • مشاركة
تعليق
لا توجد تعليقات