هل يمكن للذكاء الاصطناعي البقاء في عالم العملات الرقمية: 18 تجربة كبيرة لعملات العالم الرقمي

متقدم9/26/2024, 3:17:02 AM
الذكاء الاصطناعي يعمل بشكل جيد على خوارزميات التشفير ومعرفة blockchain ، لكنه لا يعمل بشكل جيد في الحسابات الرياضية والتحليل المنطقي المعقد. من المهم جدا تطوير معايير الذكاء الاصطناعي الخاصة بالتشفير ، والتي ستوفر مرجعا مهما لتطبيق الذكاء الاصطناعي في مجال التشفير.

في سجل التقدم التكنولوجي ، غالبًا ما تظهر التقنيات الثورية بشكل مستقل ، وكل منها يقود التغييرات في عصر ما. وعندما تتقابل تقنيتين ثوريتين ، فإن اصطدامهما غالبًا ما يكون له تأثير زائد. اليوم ، نحن نقف في لحظة تاريخية من هذا القبيل: الذكاء الاصطناعي وتقنية التشفير ، وهما تقنيتان جديدتان مثيرتان للتعطيل بنفس القدر ، يدخلان مركز المسرح معًا.

نتخيل أن العديد من التحديات في مجال الذكاء الاصطناعي يمكن حلها عن طريق تقنية التشفير. نتطلع إلى قيام الذكاء الاصطناعي Agent ببناء شبكات اقتصادية مستقلة وتعزيز اعتماد تكنولوجيا التشفير على نطاق واسع ؛ نأمل أيضا أن يتمكن الذكاء الاصطناعي من تسريع تطوير السيناريوهات الحالية في مجال التشفير. تركز عيون لا حصر لها على هذا ، وتتدفق أموال ضخمة. تماما مثل أي كلمة طنانة ، فهي تجسد رغبة الناس في الابتكار ، ورؤية المستقبل ، وتحتوي أيضا على طموح وجشع لا يمكن السيطرة عليهما.

ومع ذلك، في كل هذا الضجيج، نعلم القليل جدًا عن القضايا الأساسية. ما مدى معرفة الذكاء الاصطناعي بالتشفير؟ هل يمتلك الوكيل المجهز بنموذج لغوي كبير القدرة الفعلية على استخدام أدوات التشفير؟ كم يختلف أداء النماذج المختلفة في مهام التشفير؟

ستحدد إجابات هذه الأسئلة التأثير المتبادل لتقنية الذكاء الاصطناعي والتشفير، وهي أيضًا حاسمة لتحديد اتجاه المنتج واختيار مسار التكنولوجيا في هذا المجال المشترك. لاستكشاف هذه المسائل، أجريت بعض التجارب التقييمية على نماذج اللغة الكبيرة. من خلال تقييم معرفتها وقدراتها في مجال التشفير، نحن نقيس مستوى تطبيق التشفير للذكاء الاصطناعي ونحدد الإمكانات والتحديات لدمج التكنولوجيا الذكية وتقنية التشفير.

لنتحدث عن الاستنتاج أولاً

يعمل نموذج اللغة الكبيرة بشكل جيد في المعرفة الأساسية للتشفير و blockchain ، ولديه فهم جيد للنظام البيئي للتشفير ، ولكنه يؤدي أداء ضعيفا في الحسابات الرياضية وتحليل منطق الأعمال المعقد. فيما يتعلق بالمفاتيح الخاصة وعمليات المحفظة الأساسية ، فإن النموذج له أساس مرض ، لكنه يواجه تحديا خطيرا يتمثل في كيفية الاحتفاظ بالمفاتيح الخاصة في السحابة. يمكن للعديد من النماذج إنشاء رمز عقد ذكي فعال لسيناريوهات بسيطة ، ولكن لا يمكنها أداء المهام الصعبة بشكل مستقل مثل تدقيق العقود وإنشاء العقود المعقدة.

تتمتع النماذج التجارية مغلقة المصدر عموما بتقدم كبير. في معسكر المصدر المفتوح ، كان أداء Llama 3.1-405B جيدا فقط ، بينما فشلت جميع النماذج مفتوحة المصدر ذات أحجام المعلمات الأصغر. ومع ذلك ، هناك إمكانات. من خلال التوجيه الفوري للكلمات ، والتفكير في سلسلة التفكير وتكنولوجيا التعلم قليلة الطلقات ، تم تحسين أداء جميع النماذج بشكل كبير. النماذج الرائدة لديها بالفعل جدوى تقنية قوية في بعض سيناريوهات التطبيق الرأسي.

تفاصيل التجربة

تم اختيار 18 نموذجا لغويا تمثيليا ككائنات تقييم ، بما في ذلك:

  • نماذج المصدر المغلق: GPT-4o، GPT-4o Mini، Claude 3.5 Sonnet، Gemini 1.5 Pro، Grok2 beta (مصدر مغلق مؤقتًا)
  • نماذج مصدر مفتوح: لاما 3.1 8B/70b/405B، ميسترال نيمو 12B، ديبسيك-كودر-v2، نوس-هيرميس2، في3 3.8B/14b، جيما2 9B\27B، كوماند-R
  • نماذج الأمثلة الرياضية: Qwen2-math-72B، MathΣtral

تغطي هذه النماذج النماذج التجارية الرئيسية والنماذج المفتوحة المصدر الشائعة ، مع مجموعات معلمات تتراوح أكثر من مائة مرة من 3.8B إلى 405B. نظرًا للعلاقة الوثيقة بين تقنية التشفير والرياضيات ، تم اختيار نموذجين خاصين للتحسين الرياضي للتجربة.

تشمل مجالات المعرفة التي تغطيها التجربة التشفير ، وأساسيات blockchain ، وعمليات المفتاح الخاص والمحفظة ، والعقود الذكية ، و DAO والحوكمة ، والإجماع والنماذج الاقتصادية ، و Dapp / DeFi / NFT ، وتحليل البيانات على السلسلة ، وما إلى ذلك. يتكون كل مجال من سلسلة من الأسئلة والمهام التي تتراوح من السهل إلى الصعب ، والتي لا تختبر فقط احتياطي المعرفة للنموذج ، ولكن أيضا تختبر أدائه في سيناريوهات التطبيق من خلال مهام المحاكاة.

تصميم المهام يأتي من مصادر متنوعة. بعضها يأتي من مدخلات خبراء متعددين في مجال التشفير، والجزء الآخر يتم إنشاؤه بمساعدة الذكاء الاصطناعي ويتم مراجعته يدويًا لضمان دقة وتحدي المهام. تستخدم بعض المهام أسئلة اختيار متعدد في تنسيق بسيط نسبيًا لتيسير الاختبارات والتقييم الآلي الموحد المنفصل. يتبنى جزء آخر من الاختبار تنسيق سؤال أكثر تعقيدًا، ويتم إجراء عملية الاختبار بواسطة مزيج من البرنامج الآلي + اليدوي + الذكاء الاصطناعي. يتم تقييم جميع مهام الاختبار باستخدام طريقة الاستدلال بصفر العينة، دون تقديم أي أمثلة أو توجيهات فكرية أو تعليمات توجيهية.

نظرًا لأن تصميم التجربة ذاته نسبيًا خشن ولا يحتوي على الصرامة الأكاديمية الكافية، فإن الأسئلة والمهام المستخدمة للاختبار لا تغطي بالكامل مجال التشفير، وإطار الاختبار أيضًا غير ناضج. لذلك، لا يقوم هذا المقال بتقديم بيانات تجريبية محددة، بل يركز على مشاركة بعض الرؤى من التجارب.

معرفة / مفهوم

أثناء عملية التقييم ، أداء نموذج اللغة الكبير جيدًا في اختبارات المعرفة الأساسية في مجالات مختلفة مثل خوارزميات التشفير والأساسيات الخاصة بالبلوكشين وتطبيقات ديفاي. على سبيل المثال ، قدمت جميع النماذج إجابات دقيقة على الأسئلة التي تختبر فهم مفهوم توافر البيانات. أما بالنسبة للسؤال الذي يقيم فهم النموذج لهيكلية المعاملة في إيثريوم ، فإن كل نموذج لديه إجابات مختلفة قليلاً في التفاصيل ، ولكنها تحتوي عمومًا على المعلومات الرئيسية الصحيحة. وتكون أسئلة الاختيار من مفاهيم أقل صعوبة ، ودقة جميع النماذج تتجاوز 95٪ تقريبًا.

الأسئلة والأجوبة التصورية تكون صعبة تماما بالنسبة للنماذج الكبيرة.

منطق الحساب / الأعمال التجارية

ومع ذلك، يتغير الوضع عندما يتعلق الأمر بالمشاكل التي تتطلب حسابات محددة. مشكلة حساب خوارزمية RSA بسيطة تضع معظم النماذج في صعوبة. من السهل فهم ذلك: تعمل النماذج اللغوية الكبيرة أساسًا من خلال تحديد وتكرار الأنماط في بيانات التدريب، بدلاً من فهم الطبيعة العميقة للمفاهيم الرياضية. يكون هذا القيد واضحًا بشكل خاص عند التعامل مع مفاهيم الرياضيات الزمنية مثل العمليات الجبرية والعمليات التربيعية. نظرًا لأن مجال التشفير مرتبط ارتباطًا وثيقًا بالرياضيات، فإن هذا يعني أن الاعتماد المباشر على النماذج للحسابات الرياضية المتعلقة بالتشفير غير موثوق به.

في مشاكل الحوسبة الأخرى ، يكون أداء نماذج اللغة الكبيرة غير مرض أيضا. على سبيل المثال ، بالنسبة للسؤال البسيط المتمثل في حساب الخسارة غير الدائمة ل AMM ، على الرغم من أنها لا تنطوي على عمليات رياضية معقدة ، إلا أن 4 نماذج فقط من أصل 18 نموذجا أعطت الإجابة الصحيحة. أما بالنسبة لسؤال أساسي آخر حول حساب احتمال وجود كتلة ، فقد أخطأت جميع النماذج. لقد حيرت جميع النماذج ، ولم يكن أي منها على حق. هذا لا يكشف فقط عن أوجه القصور في نماذج اللغة الكبيرة في الحسابات الدقيقة ، ولكنه يعكس أيضا مشاكلها الرئيسية في تحليل منطق الأعمال. تجدر الإشارة إلى أنه حتى نموذج التحسين الرياضي فشل في إظهار مزايا واضحة في أسئلة الحساب ، وكان أدائه مخيبا للآمال.

ومع ذلك ، فإن مشكلة الحساب الرياضي ليست غير قابلة للحل. إذا أجرينا تعديلا طفيفا وطلبنا من LLMs تقديم كود Python المقابل بدلا من حساب النتائج مباشرة ، تحسين معدل الدقة بشكل كبير. بأخذ مشكلة حساب RSA المذكورة أعلاه كمثال ، يمكن تنفيذ أكواد Python التي قدمتها معظم النماذج بسلاسة وتحقيق نتائج صحيحة. في بيئات الإنتاج الفعلية ، يمكن توفير رموز خوارزمية محددة مسبقا لتجاوز الحساب الذاتي ل LLMs ، وهو ما يشبه كيفية تعامل البشر مع مثل هذه المهام. على مستوى منطق الأعمال ، يمكن أيضا تحسين أداء النموذج بشكل فعال من خلال إرشادات الكلمات السريعة المصممة بعناية.

إدارة المفتاح الخاص وعمليات المحفظة

إذا سألت ما هو السيناريو الأول ل Agent لاستخدام العملة المشفرة ، فإن إجابتي هي الدفع. يمكن اعتبار العملة المشفرة تقريبا شكلا من أشكال العملة الأصلية الذكاء الاصطناعي. بالمقارنة مع العديد من العقبات التي يواجهها الوكلاء في النظام المالي التقليدي ، فمن الطبيعي استخدام تقنية التشفير لتجهيز أنفسهم بالهويات الرقمية وإدارة الأموال من خلال المحافظ المشفرة. لذلك ، فإن إنشاء وإدارة المفاتيح الخاصة وعمليات المحفظة المختلفة تشكل متطلبات المهارات الأساسية للوكيل ليتمكن من استخدام شبكة التشفير بشكل مستقل.

يكمن جوهر إنشاء المفاتيح الخاصة بشكل آمن في الأرقام العشوائية عالية الجودة ، والتي من الواضح أنها قدرة لا تمتلكها نماذج اللغات الكبيرة. ومع ذلك ، فإن النماذج لديها فهم كاف لأمن المفتاح الخاص. عندما يطلب منك إنشاء مفتاح خاص ، تختار معظم النماذج استخدام التعليمات البرمجية (مثل المكتبات ذات الصلة ب Python) لتوجيه المستخدمين لإنشاء مفاتيح خاصة بشكل مستقل. حتى إذا كان النموذج يوفر مفتاحا خاصا مباشرة ، فمن الواضح أن هذا فقط لأغراض العرض التوضيحي وليس مفتاحا خاصا آمنا يمكن استخدامه مباشرة. في هذا الصدد ، أظهرت جميع النماذج الكبيرة أداء مرضيا.

وتواجه إدارة المفاتيح الخاصة بعض التحديات، التي تعزى أساسا إلى القيود المتأصلة في الهيكل التقني بدلا من الافتقار إلى قدرات النموذج. عند استخدام نموذج تم نشره محليا ، يمكن اعتبار المفتاح الخاص الذي تم إنشاؤه آمنا نسبيا. ومع ذلك ، إذا تم استخدام نموذج سحابي تجاري ، فيجب أن نفترض أن المفتاح الخاص قد تعرض لمشغل النموذج لحظة إنشائه. ولكن بالنسبة للوكيل الذي يهدف إلى العمل بشكل مستقل ، من الضروري أن يكون لديك أذونات مفتاح خاص ، مما يعني أن المفتاح الخاص لا يمكن أن يكون محليا للمستخدم فقط. في هذه الحالة ، لم يعد الاعتماد فقط على النموذج نفسه كافيا لضمان أمان المفتاح الخاص ، ويجب تقديم خدمات أمان إضافية مثل بيئة التنفيذ الموثوقة أو HSM.

إذا افترضنا أن الوكيل يحمل بالفعل مفتاح الخاص بشكل آمن ويقوم بأداء مختلف العمليات الأساسية على هذا الأساس، فقد أظهرت التجارب المختلفة في الاختبار قدرات جيدة. على الرغم من وجود أخطاء في الخطوات والرموز المولدة في كثير من الأحيان، إلا أنه يمكن حل هذه المشاكل إلى حد كبير من خلال هيكل هندسي مناسب. يمكن القول أنه من الناحية التقنية، لم تعد هناك الكثير من العقبات للوكيل لأداء العمليات الأساسية للمحفظة بشكل مستقل.

العقد الذكي

تعد القدرة على فهم مخاطر العقود الذكية واستخدامها وكتابتها وتحديدها هي المفتاح لوكلاء الذكاء الاصطناعي لأداء مهام معقدة في عالم السلسلة ، وبالتالي فهي أيضا منطقة اختبار رئيسية للتجارب. أظهرت نماذج اللغة الكبيرة إمكانات كبيرة في هذا المجال ، لكنها كشفت أيضا عن بعض المشاكل الواضحة.

جميع النماذج تقريبًا في الاختبار أجابت بشكل صحيح عن مفاهيم العقد الأساسية وتحديد الأخطاء البسيطة. من حيث تحسين الغاز في العقود، يمكن لمعظم النماذج تحديد نقاط التحسين الرئيسية وتحليل التعارضات التي يمكن أن تسببها التحسين. ومع ذلك، عندما يتعلق الأمر بالمنطق التجاري العميق، تبدأ قيود النماذج الكبيرة في الظهور.

خذ عقد استحقاق الرمز المميز كمثال: فهمت جميع النماذج وظائف العقد بشكل صحيح ، ووجدت معظم النماذج العديد من نقاط الضعف متوسطة ومنخفضة المخاطر. ومع ذلك ، لا يمكن لأي نموذج أن يكتشف بشكل مستقل ثغرة أمنية عالية الخطورة مخبأة في منطق الأعمال قد تتسبب في حبس بعض الأموال في ظل ظروف خاصة. عبر اختبارات متعددة باستخدام عقود حقيقية ، كان أداء النموذج هو نفسه تقريبا.

وهذا يدل على أن فهم النموذج الكبير للعقود لا يزال على المستوى الرسمي ويفتقر إلى فهم منطق الأعمال العميق. ومع ذلك ، بعد تزويدها بتلميحات إضافية ، تمكنت بعض النماذج في النهاية من تحديد نقاط الضعف المخفية بشدة في العقود المذكورة أعلاه بشكل مستقل. بناء على حكم الأداء هذا ، بدعم من التصميم الهندسي الجيد ، يتمتع النموذج الكبير بشكل أساسي بالقدرة على العمل كمساعد طيار في مجال العقود الذكية. ومع ذلك ، لا يزال هناك طريق طويل لنقطعه قبل أن نتمكن من القيام بشكل مستقل بمهام مهمة مثل مراجعة حسابات العقود.

شيء واحد يجب ملاحظته هو أن المهام المتعلقة بالتعليمات البرمجية في التجربة مخصصة بشكل أساسي للعقود ذات المنطق البسيط وأقل من 2000 سطر من التعليمات البرمجية. بالنسبة للمشاريع المعقدة واسعة النطاق ، بدون ضبط دقيق أو هندسة كلمات سريعة معقدة ، أعتقد أنه من الواضح أنه يتجاوز قدرات المعالجة الفعالة للنموذج الحالي ولم يتم تضمينه في الاختبار. بالإضافة إلى ذلك ، يتضمن هذا الاختبار الصلابة فقط ولا يتضمن لغات العقد الذكية الأخرى مثل Rust و Move.

بالإضافة إلى محتوى الاختبار أعلاه ، تغطي التجربة أيضا العديد من الجوانب بما في ذلك سيناريوهات DeFi ، و DAO وحوكمتها ، وتحليل البيانات على السلسلة ، وتصميم آلية الإجماع ، و Tokenomics. أظهرت نماذج اللغة الكبيرة قدرات معينة في هذه الجوانب. بالنظر إلى أن العديد من الاختبارات لا تزال قيد التقدم ويتم تحسين طرق وأطر الاختبار باستمرار ، فلن تتعمق هذه المقالة في هذه المجالات في الوقت الحالي.

اختلافات النموذج

من بين جميع نماذج اللغات الكبيرة المشاركة في التقييم ، واصل GPT-4o و Claude 3.5 Sonnet أدائهما الممتاز في مجالات أخرى وهما الرائدان بلا منازع. عند مواجهة الأسئلة الأساسية ، يمكن لكلا النموذجين دائما تقديم إجابات دقيقة. في تحليل السيناريوهات المعقدة ، يمكنهم تقديم رؤى متعمقة وموثقة جيدا. حتى أنه يظهر معدل فوز مرتفع في مهام الحوسبة التي لا تجيدها النماذج الكبيرة. بالطبع ، معدل النجاح "المرتفع" هذا نسبي ولم يصل بعد إلى مستوى الإنتاج المستقر في بيئة الإنتاج.

في مخيم نموذج المصدر المفتوح، تفوق لاما 3.1-405B بشكل كبير على نظرائها بفضل مقياس معامل كبير وخوارزميات النموذج المتقدمة. في النماذج المصدر المفتوح الأخرى ذات أحجام معامل أصغر، لا يوجد فجوة أداء كبيرة بين النماذج. على الرغم من اختلاف الدرجات قليلاً، فإنها بشكل عام بعيدة عن خط النجاح.

لذلك، إذا كنت ترغب في بناء تطبيقات الذكاء الاصطناعي المتعلقة بالتشفير حالياً، فإن هذه النماذج ذات المعلمات الصغيرة والمتوسطة ليست خيارًا مناسبًا.

تألق نموذجان بشكل خاص في استعراضنا. الأول هو نموذج Phi-3 3.8B الذي أطلقته Microsoft. إنه أصغر نموذج يشارك في هذه التجربة. ومع ذلك، يصل إلى مستوى أداء يعادل نموذج 8B-12B وذلك بأقل من نصف عدد المعلمات. في بعض الفئات الخاصة، حتى أفضل في هذه المسألة. يسلط هذا النتيجة الضوء على أهمية تحسين بنية النموذج واستراتيجيات التدريب التي لا تعتمد فقط على زيادة حجم المعلمات.

وأصبحت طراز Command-R من Cohere مفاجئًا “الحصان الأسود” - العكس. Command-R ليس معروفًا مقارنةً بالطرازات الأخرى، لكن Cohere هي شركة نماذج كبيرة تركز على سوق 2B. أعتقد أن هناك العديد من نقاط التقاء مع مجالات مثل تطوير الوكلاء، لذلك تم تضمينه بشكل خاص في نطاق الاختبار. ومع ذلك، فإن Command-R بـ 35B معلمًا حل في المرتبة الأخيرة في معظم الاختبارات، خاسرًا أمام العديد من الطرازات دون 10B.

أثار هذا النتيجة التفكير: عندما تم إصدار Command-R، كان التركيز على تعزيز الاسترداد وقدرات التوليد، ولم ينشر نتائج اختبار المقياس العادي حتى. هل يعني هذا أنه هو "المفتاح الخاص" الذي يفتح إمكاناته الكاملة فقط في سيناريوهات محددة؟

قيود التجربة

في هذه السلسلة من الاختبارات ، حصلنا على فهم أولي لقدرات الذكاء الاصطناعي في مجال التشفير. بالطبع ، هذه الاختبارات بعيدة كل البعد عن المعايير المهنية. إن تغطية مجموعة البيانات بعيدة كل البعد عن أن تكون كافية ، والمعايير الكمية للإجابات تقريبية نسبيا ، ولا يزال هناك نقص في آلية تسجيل دقيقة وأكثر دقة. سيؤثر ذلك على دقة نتائج التقييم وقد يؤدي إلى التقليل من أداء بعض النماذج.

من حيث طريقة الاختبار، استخدمت التجربة طريقة واحدة فقط للتعلم بدون معلم، ولم تستكشف طرقًا مثل سلاسل التفكير والتعلم بقليل من البيانات التي يمكن أن تلهم إمكانات أكبر للنموذج. من حيث معلمات النموذج، تم استخدام معلمات النموذج القياسية في التجارب، ولم يتم فحص تأثير إعدادات المعلمات المختلفة على أداء النموذج. تحدد هذه الطرق الاختبارية الفردية العمومية تقييمنا الشامل للإمكانات النموذجية وتفشل في استكشاف الفروق في أداء النموذج تحت ظروف محددة.

على الرغم من أن ظروف الاختبار كانت بسيطة نسبياً ، إلا أن هذه التجارب أنتجت العديد من الرؤى القيمة وقدمت مرجعًا للمطورين لبناء التطبيقات.

يحتاج مجال العملات الرقمية إلى معيار خاص به

في مجال الذكاء الاصطناعي، تلعب المقاييس البيانية دورًا رئيسيًا. فقد نشأ تطوير التقنيات الحديثة للتعلم العميق من ImageNET الذي أكملته البروفيسور لي فيفي في عام 2012، والذي يعتبر مقياسًا قياسيًا ومجموعة بيانات في مجال رؤية الحاسوب.

من خلال توفير معيار موحد للتقييم ، لا توفر المعايير للمطورين أهدافا ونقاط مرجعية واضحة فحسب ، بل تدفع أيضا التقدم التكنولوجي عبر الصناعة. وهذا يفسر سبب تركيز كل نموذج لغوي كبير تم إصداره حديثا على الإعلان عن نتائجه وفقا لمعايير مختلفة. تصبح هذه النتائج "لغة عالمية" لقدرات النموذج ، مما يسمح للباحثين بتحديد الاختراقات ، والمطورين لاختيار النماذج الأنسب لمهام محددة ، والمستخدمين لاتخاذ خيارات مستنيرة بناء على بيانات موضوعية. والأهم من ذلك أن الاختبارات المعيارية غالبا ما تبشر بالاتجاه المستقبلي لتطبيقات الذكاء الاصطناعي ، وتوجيه استثمار الموارد والتركيز البحثي.

إذا كنا نعتقد أن هناك إمكانات هائلة في تقاطع الذكاء الاصطناعي والتشفير، فإن إنشاء معايير تشفير مخصصة يصبح مهمة عاجلة. قد يصبح إنشاء المعايير الأساسية جسرًا رئيسيًا يربط بين مجالي الذكاء الاصطناعي والتشفير، ويحفّز الابتكار، ويوفر توجيهًا واضحًا للتطبيقات المستقبلية.

ومع ذلك ، بالمقارنة مع المعايير الناضجة في المجالات الأخرى ، فإن بناء المعايير في مجال التشفير يواجه تحديات فريدة: تتطور تكنولوجيا التشفير بسرعة ، ولم يتم ترسيخ نظام المعرفة الصناعية بعد ، وهناك نقص في توافق الآراء في اتجاهات أساسية متعددة. كمجال متعدد التخصصات ، يغطي التشفير التشفير والأنظمة الموزعة والاقتصاد وما إلى ذلك ، وتعقيده يتجاوز بكثير تعقيد مجال واحد. الأمر الأكثر صعوبة هو أن معيار التشفير لا يحتاج فقط إلى تقييم المعرفة ، ولكنه يفحص أيضا قدرة الذكاء الاصطناعي العملية على استخدام تقنية التشفير ، الأمر الذي يتطلب تصميم بنية تقييم جديدة. ويزيد الافتقار إلى مجموعات البيانات ذات الصلة من الصعوبة.

إن تعقيد هذه المهمة وأهميتها تملي أنه لا يمكن إنجازها من قبل شخص واحد أو فريق واحد. يحتاج إلى الجمع بين حكمة العديد من الأطراف من المستخدمين والمطورين وخبراء التشفير والباحثين في مجال التشفير إلى المزيد من الأشخاص في المجالات متعددة التخصصات ، ويعتمد على مشاركة المجتمع الواسعة والإجماع. لذلك ، يحتاج معيار التشفير إلى مناقشة أوسع ، لأنه ليس مجرد عمل تقني ، ولكنه أيضا انعكاس عميق حول كيفية فهمنا لهذه التكنولوجيا الناشئة.

تنويه:

  1. تمت إعادة نشر هذه المقالة من [Gate]Empower Labs]. جميع حقوق الطبع والنشر تنتمي إلى الكاتب الأصلي [وانغ تشاو]. إذا كانت هناك اعتراضات على هذا النشر، يرجى الاتصال بالجيت ليرنالفريق، وسيتولون التعامل معه بسرعة.
  2. إخلاء المسؤولية عن المسؤولية: الآراء والآراء المعبر عنها في هذه المقالة هي فقط تلك للكاتب ولا تشكل أي نصيحة استثمارية.
  3. تتم ترجمة المقالات إلى لغات أخرى بواسطة فريق Gate Learn. ما لم يذكر، فإن نسخ أو توزيع أو انتحال المقالات المترجمة ممنوع.

هل يمكن للذكاء الاصطناعي البقاء في عالم العملات الرقمية: 18 تجربة كبيرة لعملات العالم الرقمي

متقدم9/26/2024, 3:17:02 AM
الذكاء الاصطناعي يعمل بشكل جيد على خوارزميات التشفير ومعرفة blockchain ، لكنه لا يعمل بشكل جيد في الحسابات الرياضية والتحليل المنطقي المعقد. من المهم جدا تطوير معايير الذكاء الاصطناعي الخاصة بالتشفير ، والتي ستوفر مرجعا مهما لتطبيق الذكاء الاصطناعي في مجال التشفير.

في سجل التقدم التكنولوجي ، غالبًا ما تظهر التقنيات الثورية بشكل مستقل ، وكل منها يقود التغييرات في عصر ما. وعندما تتقابل تقنيتين ثوريتين ، فإن اصطدامهما غالبًا ما يكون له تأثير زائد. اليوم ، نحن نقف في لحظة تاريخية من هذا القبيل: الذكاء الاصطناعي وتقنية التشفير ، وهما تقنيتان جديدتان مثيرتان للتعطيل بنفس القدر ، يدخلان مركز المسرح معًا.

نتخيل أن العديد من التحديات في مجال الذكاء الاصطناعي يمكن حلها عن طريق تقنية التشفير. نتطلع إلى قيام الذكاء الاصطناعي Agent ببناء شبكات اقتصادية مستقلة وتعزيز اعتماد تكنولوجيا التشفير على نطاق واسع ؛ نأمل أيضا أن يتمكن الذكاء الاصطناعي من تسريع تطوير السيناريوهات الحالية في مجال التشفير. تركز عيون لا حصر لها على هذا ، وتتدفق أموال ضخمة. تماما مثل أي كلمة طنانة ، فهي تجسد رغبة الناس في الابتكار ، ورؤية المستقبل ، وتحتوي أيضا على طموح وجشع لا يمكن السيطرة عليهما.

ومع ذلك، في كل هذا الضجيج، نعلم القليل جدًا عن القضايا الأساسية. ما مدى معرفة الذكاء الاصطناعي بالتشفير؟ هل يمتلك الوكيل المجهز بنموذج لغوي كبير القدرة الفعلية على استخدام أدوات التشفير؟ كم يختلف أداء النماذج المختلفة في مهام التشفير؟

ستحدد إجابات هذه الأسئلة التأثير المتبادل لتقنية الذكاء الاصطناعي والتشفير، وهي أيضًا حاسمة لتحديد اتجاه المنتج واختيار مسار التكنولوجيا في هذا المجال المشترك. لاستكشاف هذه المسائل، أجريت بعض التجارب التقييمية على نماذج اللغة الكبيرة. من خلال تقييم معرفتها وقدراتها في مجال التشفير، نحن نقيس مستوى تطبيق التشفير للذكاء الاصطناعي ونحدد الإمكانات والتحديات لدمج التكنولوجيا الذكية وتقنية التشفير.

لنتحدث عن الاستنتاج أولاً

يعمل نموذج اللغة الكبيرة بشكل جيد في المعرفة الأساسية للتشفير و blockchain ، ولديه فهم جيد للنظام البيئي للتشفير ، ولكنه يؤدي أداء ضعيفا في الحسابات الرياضية وتحليل منطق الأعمال المعقد. فيما يتعلق بالمفاتيح الخاصة وعمليات المحفظة الأساسية ، فإن النموذج له أساس مرض ، لكنه يواجه تحديا خطيرا يتمثل في كيفية الاحتفاظ بالمفاتيح الخاصة في السحابة. يمكن للعديد من النماذج إنشاء رمز عقد ذكي فعال لسيناريوهات بسيطة ، ولكن لا يمكنها أداء المهام الصعبة بشكل مستقل مثل تدقيق العقود وإنشاء العقود المعقدة.

تتمتع النماذج التجارية مغلقة المصدر عموما بتقدم كبير. في معسكر المصدر المفتوح ، كان أداء Llama 3.1-405B جيدا فقط ، بينما فشلت جميع النماذج مفتوحة المصدر ذات أحجام المعلمات الأصغر. ومع ذلك ، هناك إمكانات. من خلال التوجيه الفوري للكلمات ، والتفكير في سلسلة التفكير وتكنولوجيا التعلم قليلة الطلقات ، تم تحسين أداء جميع النماذج بشكل كبير. النماذج الرائدة لديها بالفعل جدوى تقنية قوية في بعض سيناريوهات التطبيق الرأسي.

تفاصيل التجربة

تم اختيار 18 نموذجا لغويا تمثيليا ككائنات تقييم ، بما في ذلك:

  • نماذج المصدر المغلق: GPT-4o، GPT-4o Mini، Claude 3.5 Sonnet، Gemini 1.5 Pro، Grok2 beta (مصدر مغلق مؤقتًا)
  • نماذج مصدر مفتوح: لاما 3.1 8B/70b/405B، ميسترال نيمو 12B، ديبسيك-كودر-v2، نوس-هيرميس2، في3 3.8B/14b، جيما2 9B\27B، كوماند-R
  • نماذج الأمثلة الرياضية: Qwen2-math-72B، MathΣtral

تغطي هذه النماذج النماذج التجارية الرئيسية والنماذج المفتوحة المصدر الشائعة ، مع مجموعات معلمات تتراوح أكثر من مائة مرة من 3.8B إلى 405B. نظرًا للعلاقة الوثيقة بين تقنية التشفير والرياضيات ، تم اختيار نموذجين خاصين للتحسين الرياضي للتجربة.

تشمل مجالات المعرفة التي تغطيها التجربة التشفير ، وأساسيات blockchain ، وعمليات المفتاح الخاص والمحفظة ، والعقود الذكية ، و DAO والحوكمة ، والإجماع والنماذج الاقتصادية ، و Dapp / DeFi / NFT ، وتحليل البيانات على السلسلة ، وما إلى ذلك. يتكون كل مجال من سلسلة من الأسئلة والمهام التي تتراوح من السهل إلى الصعب ، والتي لا تختبر فقط احتياطي المعرفة للنموذج ، ولكن أيضا تختبر أدائه في سيناريوهات التطبيق من خلال مهام المحاكاة.

تصميم المهام يأتي من مصادر متنوعة. بعضها يأتي من مدخلات خبراء متعددين في مجال التشفير، والجزء الآخر يتم إنشاؤه بمساعدة الذكاء الاصطناعي ويتم مراجعته يدويًا لضمان دقة وتحدي المهام. تستخدم بعض المهام أسئلة اختيار متعدد في تنسيق بسيط نسبيًا لتيسير الاختبارات والتقييم الآلي الموحد المنفصل. يتبنى جزء آخر من الاختبار تنسيق سؤال أكثر تعقيدًا، ويتم إجراء عملية الاختبار بواسطة مزيج من البرنامج الآلي + اليدوي + الذكاء الاصطناعي. يتم تقييم جميع مهام الاختبار باستخدام طريقة الاستدلال بصفر العينة، دون تقديم أي أمثلة أو توجيهات فكرية أو تعليمات توجيهية.

نظرًا لأن تصميم التجربة ذاته نسبيًا خشن ولا يحتوي على الصرامة الأكاديمية الكافية، فإن الأسئلة والمهام المستخدمة للاختبار لا تغطي بالكامل مجال التشفير، وإطار الاختبار أيضًا غير ناضج. لذلك، لا يقوم هذا المقال بتقديم بيانات تجريبية محددة، بل يركز على مشاركة بعض الرؤى من التجارب.

معرفة / مفهوم

أثناء عملية التقييم ، أداء نموذج اللغة الكبير جيدًا في اختبارات المعرفة الأساسية في مجالات مختلفة مثل خوارزميات التشفير والأساسيات الخاصة بالبلوكشين وتطبيقات ديفاي. على سبيل المثال ، قدمت جميع النماذج إجابات دقيقة على الأسئلة التي تختبر فهم مفهوم توافر البيانات. أما بالنسبة للسؤال الذي يقيم فهم النموذج لهيكلية المعاملة في إيثريوم ، فإن كل نموذج لديه إجابات مختلفة قليلاً في التفاصيل ، ولكنها تحتوي عمومًا على المعلومات الرئيسية الصحيحة. وتكون أسئلة الاختيار من مفاهيم أقل صعوبة ، ودقة جميع النماذج تتجاوز 95٪ تقريبًا.

الأسئلة والأجوبة التصورية تكون صعبة تماما بالنسبة للنماذج الكبيرة.

منطق الحساب / الأعمال التجارية

ومع ذلك، يتغير الوضع عندما يتعلق الأمر بالمشاكل التي تتطلب حسابات محددة. مشكلة حساب خوارزمية RSA بسيطة تضع معظم النماذج في صعوبة. من السهل فهم ذلك: تعمل النماذج اللغوية الكبيرة أساسًا من خلال تحديد وتكرار الأنماط في بيانات التدريب، بدلاً من فهم الطبيعة العميقة للمفاهيم الرياضية. يكون هذا القيد واضحًا بشكل خاص عند التعامل مع مفاهيم الرياضيات الزمنية مثل العمليات الجبرية والعمليات التربيعية. نظرًا لأن مجال التشفير مرتبط ارتباطًا وثيقًا بالرياضيات، فإن هذا يعني أن الاعتماد المباشر على النماذج للحسابات الرياضية المتعلقة بالتشفير غير موثوق به.

في مشاكل الحوسبة الأخرى ، يكون أداء نماذج اللغة الكبيرة غير مرض أيضا. على سبيل المثال ، بالنسبة للسؤال البسيط المتمثل في حساب الخسارة غير الدائمة ل AMM ، على الرغم من أنها لا تنطوي على عمليات رياضية معقدة ، إلا أن 4 نماذج فقط من أصل 18 نموذجا أعطت الإجابة الصحيحة. أما بالنسبة لسؤال أساسي آخر حول حساب احتمال وجود كتلة ، فقد أخطأت جميع النماذج. لقد حيرت جميع النماذج ، ولم يكن أي منها على حق. هذا لا يكشف فقط عن أوجه القصور في نماذج اللغة الكبيرة في الحسابات الدقيقة ، ولكنه يعكس أيضا مشاكلها الرئيسية في تحليل منطق الأعمال. تجدر الإشارة إلى أنه حتى نموذج التحسين الرياضي فشل في إظهار مزايا واضحة في أسئلة الحساب ، وكان أدائه مخيبا للآمال.

ومع ذلك ، فإن مشكلة الحساب الرياضي ليست غير قابلة للحل. إذا أجرينا تعديلا طفيفا وطلبنا من LLMs تقديم كود Python المقابل بدلا من حساب النتائج مباشرة ، تحسين معدل الدقة بشكل كبير. بأخذ مشكلة حساب RSA المذكورة أعلاه كمثال ، يمكن تنفيذ أكواد Python التي قدمتها معظم النماذج بسلاسة وتحقيق نتائج صحيحة. في بيئات الإنتاج الفعلية ، يمكن توفير رموز خوارزمية محددة مسبقا لتجاوز الحساب الذاتي ل LLMs ، وهو ما يشبه كيفية تعامل البشر مع مثل هذه المهام. على مستوى منطق الأعمال ، يمكن أيضا تحسين أداء النموذج بشكل فعال من خلال إرشادات الكلمات السريعة المصممة بعناية.

إدارة المفتاح الخاص وعمليات المحفظة

إذا سألت ما هو السيناريو الأول ل Agent لاستخدام العملة المشفرة ، فإن إجابتي هي الدفع. يمكن اعتبار العملة المشفرة تقريبا شكلا من أشكال العملة الأصلية الذكاء الاصطناعي. بالمقارنة مع العديد من العقبات التي يواجهها الوكلاء في النظام المالي التقليدي ، فمن الطبيعي استخدام تقنية التشفير لتجهيز أنفسهم بالهويات الرقمية وإدارة الأموال من خلال المحافظ المشفرة. لذلك ، فإن إنشاء وإدارة المفاتيح الخاصة وعمليات المحفظة المختلفة تشكل متطلبات المهارات الأساسية للوكيل ليتمكن من استخدام شبكة التشفير بشكل مستقل.

يكمن جوهر إنشاء المفاتيح الخاصة بشكل آمن في الأرقام العشوائية عالية الجودة ، والتي من الواضح أنها قدرة لا تمتلكها نماذج اللغات الكبيرة. ومع ذلك ، فإن النماذج لديها فهم كاف لأمن المفتاح الخاص. عندما يطلب منك إنشاء مفتاح خاص ، تختار معظم النماذج استخدام التعليمات البرمجية (مثل المكتبات ذات الصلة ب Python) لتوجيه المستخدمين لإنشاء مفاتيح خاصة بشكل مستقل. حتى إذا كان النموذج يوفر مفتاحا خاصا مباشرة ، فمن الواضح أن هذا فقط لأغراض العرض التوضيحي وليس مفتاحا خاصا آمنا يمكن استخدامه مباشرة. في هذا الصدد ، أظهرت جميع النماذج الكبيرة أداء مرضيا.

وتواجه إدارة المفاتيح الخاصة بعض التحديات، التي تعزى أساسا إلى القيود المتأصلة في الهيكل التقني بدلا من الافتقار إلى قدرات النموذج. عند استخدام نموذج تم نشره محليا ، يمكن اعتبار المفتاح الخاص الذي تم إنشاؤه آمنا نسبيا. ومع ذلك ، إذا تم استخدام نموذج سحابي تجاري ، فيجب أن نفترض أن المفتاح الخاص قد تعرض لمشغل النموذج لحظة إنشائه. ولكن بالنسبة للوكيل الذي يهدف إلى العمل بشكل مستقل ، من الضروري أن يكون لديك أذونات مفتاح خاص ، مما يعني أن المفتاح الخاص لا يمكن أن يكون محليا للمستخدم فقط. في هذه الحالة ، لم يعد الاعتماد فقط على النموذج نفسه كافيا لضمان أمان المفتاح الخاص ، ويجب تقديم خدمات أمان إضافية مثل بيئة التنفيذ الموثوقة أو HSM.

إذا افترضنا أن الوكيل يحمل بالفعل مفتاح الخاص بشكل آمن ويقوم بأداء مختلف العمليات الأساسية على هذا الأساس، فقد أظهرت التجارب المختلفة في الاختبار قدرات جيدة. على الرغم من وجود أخطاء في الخطوات والرموز المولدة في كثير من الأحيان، إلا أنه يمكن حل هذه المشاكل إلى حد كبير من خلال هيكل هندسي مناسب. يمكن القول أنه من الناحية التقنية، لم تعد هناك الكثير من العقبات للوكيل لأداء العمليات الأساسية للمحفظة بشكل مستقل.

العقد الذكي

تعد القدرة على فهم مخاطر العقود الذكية واستخدامها وكتابتها وتحديدها هي المفتاح لوكلاء الذكاء الاصطناعي لأداء مهام معقدة في عالم السلسلة ، وبالتالي فهي أيضا منطقة اختبار رئيسية للتجارب. أظهرت نماذج اللغة الكبيرة إمكانات كبيرة في هذا المجال ، لكنها كشفت أيضا عن بعض المشاكل الواضحة.

جميع النماذج تقريبًا في الاختبار أجابت بشكل صحيح عن مفاهيم العقد الأساسية وتحديد الأخطاء البسيطة. من حيث تحسين الغاز في العقود، يمكن لمعظم النماذج تحديد نقاط التحسين الرئيسية وتحليل التعارضات التي يمكن أن تسببها التحسين. ومع ذلك، عندما يتعلق الأمر بالمنطق التجاري العميق، تبدأ قيود النماذج الكبيرة في الظهور.

خذ عقد استحقاق الرمز المميز كمثال: فهمت جميع النماذج وظائف العقد بشكل صحيح ، ووجدت معظم النماذج العديد من نقاط الضعف متوسطة ومنخفضة المخاطر. ومع ذلك ، لا يمكن لأي نموذج أن يكتشف بشكل مستقل ثغرة أمنية عالية الخطورة مخبأة في منطق الأعمال قد تتسبب في حبس بعض الأموال في ظل ظروف خاصة. عبر اختبارات متعددة باستخدام عقود حقيقية ، كان أداء النموذج هو نفسه تقريبا.

وهذا يدل على أن فهم النموذج الكبير للعقود لا يزال على المستوى الرسمي ويفتقر إلى فهم منطق الأعمال العميق. ومع ذلك ، بعد تزويدها بتلميحات إضافية ، تمكنت بعض النماذج في النهاية من تحديد نقاط الضعف المخفية بشدة في العقود المذكورة أعلاه بشكل مستقل. بناء على حكم الأداء هذا ، بدعم من التصميم الهندسي الجيد ، يتمتع النموذج الكبير بشكل أساسي بالقدرة على العمل كمساعد طيار في مجال العقود الذكية. ومع ذلك ، لا يزال هناك طريق طويل لنقطعه قبل أن نتمكن من القيام بشكل مستقل بمهام مهمة مثل مراجعة حسابات العقود.

شيء واحد يجب ملاحظته هو أن المهام المتعلقة بالتعليمات البرمجية في التجربة مخصصة بشكل أساسي للعقود ذات المنطق البسيط وأقل من 2000 سطر من التعليمات البرمجية. بالنسبة للمشاريع المعقدة واسعة النطاق ، بدون ضبط دقيق أو هندسة كلمات سريعة معقدة ، أعتقد أنه من الواضح أنه يتجاوز قدرات المعالجة الفعالة للنموذج الحالي ولم يتم تضمينه في الاختبار. بالإضافة إلى ذلك ، يتضمن هذا الاختبار الصلابة فقط ولا يتضمن لغات العقد الذكية الأخرى مثل Rust و Move.

بالإضافة إلى محتوى الاختبار أعلاه ، تغطي التجربة أيضا العديد من الجوانب بما في ذلك سيناريوهات DeFi ، و DAO وحوكمتها ، وتحليل البيانات على السلسلة ، وتصميم آلية الإجماع ، و Tokenomics. أظهرت نماذج اللغة الكبيرة قدرات معينة في هذه الجوانب. بالنظر إلى أن العديد من الاختبارات لا تزال قيد التقدم ويتم تحسين طرق وأطر الاختبار باستمرار ، فلن تتعمق هذه المقالة في هذه المجالات في الوقت الحالي.

اختلافات النموذج

من بين جميع نماذج اللغات الكبيرة المشاركة في التقييم ، واصل GPT-4o و Claude 3.5 Sonnet أدائهما الممتاز في مجالات أخرى وهما الرائدان بلا منازع. عند مواجهة الأسئلة الأساسية ، يمكن لكلا النموذجين دائما تقديم إجابات دقيقة. في تحليل السيناريوهات المعقدة ، يمكنهم تقديم رؤى متعمقة وموثقة جيدا. حتى أنه يظهر معدل فوز مرتفع في مهام الحوسبة التي لا تجيدها النماذج الكبيرة. بالطبع ، معدل النجاح "المرتفع" هذا نسبي ولم يصل بعد إلى مستوى الإنتاج المستقر في بيئة الإنتاج.

في مخيم نموذج المصدر المفتوح، تفوق لاما 3.1-405B بشكل كبير على نظرائها بفضل مقياس معامل كبير وخوارزميات النموذج المتقدمة. في النماذج المصدر المفتوح الأخرى ذات أحجام معامل أصغر، لا يوجد فجوة أداء كبيرة بين النماذج. على الرغم من اختلاف الدرجات قليلاً، فإنها بشكل عام بعيدة عن خط النجاح.

لذلك، إذا كنت ترغب في بناء تطبيقات الذكاء الاصطناعي المتعلقة بالتشفير حالياً، فإن هذه النماذج ذات المعلمات الصغيرة والمتوسطة ليست خيارًا مناسبًا.

تألق نموذجان بشكل خاص في استعراضنا. الأول هو نموذج Phi-3 3.8B الذي أطلقته Microsoft. إنه أصغر نموذج يشارك في هذه التجربة. ومع ذلك، يصل إلى مستوى أداء يعادل نموذج 8B-12B وذلك بأقل من نصف عدد المعلمات. في بعض الفئات الخاصة، حتى أفضل في هذه المسألة. يسلط هذا النتيجة الضوء على أهمية تحسين بنية النموذج واستراتيجيات التدريب التي لا تعتمد فقط على زيادة حجم المعلمات.

وأصبحت طراز Command-R من Cohere مفاجئًا “الحصان الأسود” - العكس. Command-R ليس معروفًا مقارنةً بالطرازات الأخرى، لكن Cohere هي شركة نماذج كبيرة تركز على سوق 2B. أعتقد أن هناك العديد من نقاط التقاء مع مجالات مثل تطوير الوكلاء، لذلك تم تضمينه بشكل خاص في نطاق الاختبار. ومع ذلك، فإن Command-R بـ 35B معلمًا حل في المرتبة الأخيرة في معظم الاختبارات، خاسرًا أمام العديد من الطرازات دون 10B.

أثار هذا النتيجة التفكير: عندما تم إصدار Command-R، كان التركيز على تعزيز الاسترداد وقدرات التوليد، ولم ينشر نتائج اختبار المقياس العادي حتى. هل يعني هذا أنه هو "المفتاح الخاص" الذي يفتح إمكاناته الكاملة فقط في سيناريوهات محددة؟

قيود التجربة

في هذه السلسلة من الاختبارات ، حصلنا على فهم أولي لقدرات الذكاء الاصطناعي في مجال التشفير. بالطبع ، هذه الاختبارات بعيدة كل البعد عن المعايير المهنية. إن تغطية مجموعة البيانات بعيدة كل البعد عن أن تكون كافية ، والمعايير الكمية للإجابات تقريبية نسبيا ، ولا يزال هناك نقص في آلية تسجيل دقيقة وأكثر دقة. سيؤثر ذلك على دقة نتائج التقييم وقد يؤدي إلى التقليل من أداء بعض النماذج.

من حيث طريقة الاختبار، استخدمت التجربة طريقة واحدة فقط للتعلم بدون معلم، ولم تستكشف طرقًا مثل سلاسل التفكير والتعلم بقليل من البيانات التي يمكن أن تلهم إمكانات أكبر للنموذج. من حيث معلمات النموذج، تم استخدام معلمات النموذج القياسية في التجارب، ولم يتم فحص تأثير إعدادات المعلمات المختلفة على أداء النموذج. تحدد هذه الطرق الاختبارية الفردية العمومية تقييمنا الشامل للإمكانات النموذجية وتفشل في استكشاف الفروق في أداء النموذج تحت ظروف محددة.

على الرغم من أن ظروف الاختبار كانت بسيطة نسبياً ، إلا أن هذه التجارب أنتجت العديد من الرؤى القيمة وقدمت مرجعًا للمطورين لبناء التطبيقات.

يحتاج مجال العملات الرقمية إلى معيار خاص به

في مجال الذكاء الاصطناعي، تلعب المقاييس البيانية دورًا رئيسيًا. فقد نشأ تطوير التقنيات الحديثة للتعلم العميق من ImageNET الذي أكملته البروفيسور لي فيفي في عام 2012، والذي يعتبر مقياسًا قياسيًا ومجموعة بيانات في مجال رؤية الحاسوب.

من خلال توفير معيار موحد للتقييم ، لا توفر المعايير للمطورين أهدافا ونقاط مرجعية واضحة فحسب ، بل تدفع أيضا التقدم التكنولوجي عبر الصناعة. وهذا يفسر سبب تركيز كل نموذج لغوي كبير تم إصداره حديثا على الإعلان عن نتائجه وفقا لمعايير مختلفة. تصبح هذه النتائج "لغة عالمية" لقدرات النموذج ، مما يسمح للباحثين بتحديد الاختراقات ، والمطورين لاختيار النماذج الأنسب لمهام محددة ، والمستخدمين لاتخاذ خيارات مستنيرة بناء على بيانات موضوعية. والأهم من ذلك أن الاختبارات المعيارية غالبا ما تبشر بالاتجاه المستقبلي لتطبيقات الذكاء الاصطناعي ، وتوجيه استثمار الموارد والتركيز البحثي.

إذا كنا نعتقد أن هناك إمكانات هائلة في تقاطع الذكاء الاصطناعي والتشفير، فإن إنشاء معايير تشفير مخصصة يصبح مهمة عاجلة. قد يصبح إنشاء المعايير الأساسية جسرًا رئيسيًا يربط بين مجالي الذكاء الاصطناعي والتشفير، ويحفّز الابتكار، ويوفر توجيهًا واضحًا للتطبيقات المستقبلية.

ومع ذلك ، بالمقارنة مع المعايير الناضجة في المجالات الأخرى ، فإن بناء المعايير في مجال التشفير يواجه تحديات فريدة: تتطور تكنولوجيا التشفير بسرعة ، ولم يتم ترسيخ نظام المعرفة الصناعية بعد ، وهناك نقص في توافق الآراء في اتجاهات أساسية متعددة. كمجال متعدد التخصصات ، يغطي التشفير التشفير والأنظمة الموزعة والاقتصاد وما إلى ذلك ، وتعقيده يتجاوز بكثير تعقيد مجال واحد. الأمر الأكثر صعوبة هو أن معيار التشفير لا يحتاج فقط إلى تقييم المعرفة ، ولكنه يفحص أيضا قدرة الذكاء الاصطناعي العملية على استخدام تقنية التشفير ، الأمر الذي يتطلب تصميم بنية تقييم جديدة. ويزيد الافتقار إلى مجموعات البيانات ذات الصلة من الصعوبة.

إن تعقيد هذه المهمة وأهميتها تملي أنه لا يمكن إنجازها من قبل شخص واحد أو فريق واحد. يحتاج إلى الجمع بين حكمة العديد من الأطراف من المستخدمين والمطورين وخبراء التشفير والباحثين في مجال التشفير إلى المزيد من الأشخاص في المجالات متعددة التخصصات ، ويعتمد على مشاركة المجتمع الواسعة والإجماع. لذلك ، يحتاج معيار التشفير إلى مناقشة أوسع ، لأنه ليس مجرد عمل تقني ، ولكنه أيضا انعكاس عميق حول كيفية فهمنا لهذه التكنولوجيا الناشئة.

تنويه:

  1. تمت إعادة نشر هذه المقالة من [Gate]Empower Labs]. جميع حقوق الطبع والنشر تنتمي إلى الكاتب الأصلي [وانغ تشاو]. إذا كانت هناك اعتراضات على هذا النشر، يرجى الاتصال بالجيت ليرنالفريق، وسيتولون التعامل معه بسرعة.
  2. إخلاء المسؤولية عن المسؤولية: الآراء والآراء المعبر عنها في هذه المقالة هي فقط تلك للكاتب ولا تشكل أي نصيحة استثمارية.
  3. تتم ترجمة المقالات إلى لغات أخرى بواسطة فريق Gate Learn. ما لم يذكر، فإن نسخ أو توزيع أو انتحال المقالات المترجمة ممنوع.
ابدأ التداول الآن
اشترك وتداول لتحصل على جوائز ذهبية بقيمة
100 دولار أمريكي
و
5500 دولارًا أمريكيًا
لتجربة الإدارة المالية الذهبية!