ในพงศาวดารของความก้าวหน้าทางเทคโนโลยีเทคโนโลยีการปฏิวัติมักจะปรากฏอย่างอิสระแต่ละการเปลี่ยนแปลงชั้นนําในยุค และเมื่อเทคโนโลยีการปฏิวัติสองอย่างมาบรรจบกันการปะทะกันของพวกเขามักจะมีผลกระทบแบบทวีคูณ วันนี้เรากําลังยืนอยู่ในช่วงเวลาประวัติศาสตร์เช่นนี้: ปัญญาประดิษฐ์และเทคโนโลยีการเข้ารหัสซึ่งเป็นเทคโนโลยีใหม่ที่ก่อกวนอย่างเท่าเทียมกันกําลังเข้าสู่ใจกลางเวทีจับมือกัน
เราจินตนาการว่าความท้าทายมากมายในด้าน AI สามารถแก้ไขได้ด้วยเทคโนโลยีการเข้ารหัส เราหวังว่า AI Agent จะสร้างเครือข่ายเศรษฐกิจอิสระและส่งเสริมการนําเทคโนโลยีการเข้ารหัสมาใช้ในวงกว้าง นอกจากนี้เรายังหวังว่า AI จะสามารถเร่งการพัฒนาสถานการณ์ที่มีอยู่ในฟิลด์การเข้ารหัส สายตานับไม่ถ้วนมุ่งเน้นไปที่เรื่องนี้และเงินทุนจํานวนมหาศาลกําลังหลั่งไหลเข้ามา เช่นเดียวกับคําศัพท์ใด ๆ มันรวบรวมความปรารถนาของผู้คนสําหรับนวัตกรรมวิสัยทัศน์สําหรับอนาคตและยังมีความทะเยอทะยานและความโลภที่ไม่สามารถควบคุมได้
แต่ในทุกความวุ่นวายนี้ เรารู้มาน้อยมากเกี่ยวกับประเด็นพื้นฐานที่สุด ๆ นี้ ว่า AI ทราบเกี่ยวกับการเข้ารหัสอย่างไรบ้าง? ตัวแทนที่มีโมเดลภาษาขนาดใหญ่จริง ๆ มีความสามารถจริงในการใช้เครื่องมือเข้ารหัสหรือไม่? โมเดลที่แตกต่างกันมีผลต่างกันมากน้อยเท่าใดในงานเข้ารหัส?
คำตอบของคำถามเหล่านี้จะกำหนดผลกระทบที่เป็นกันเองระหว่าง AI และเทคโนโลยีการเข้ารหัส และยังเป็นสิ่งสำคัญสำหรับทิศทางผลิตภัณฑ์และการเลือกเส้นทางเทคโนโลยีในส่วนนี้ ในการสำรวจคำถามเหล่านี้ ฉันได้ดำเนินการทดลองประเมินบางสิ่งบางอย่างในแบบจำลองภาษาใหญ่ โดยการประเมินความรู้และความสามารถของพวกเขาในสนามระบบการเข้ารหัส เราจะวัดระดับการประยุกต์ใช้การเข้ารหัสของ AI และกำหนดศักยภาพและความท้าทายในการรวมกันของ AI และเทคโนโลยีการเข้ารหัส
โมเดลภาษาขนาดใหญ่ทํางานได้ดีในความรู้พื้นฐานเกี่ยวกับการเข้ารหัสและบล็อกเชน และมีความเข้าใจที่ดีเกี่ยวกับระบบนิเวศการเข้ารหัส แต่ทํางานได้ไม่ดีในการคํานวณทางคณิตศาสตร์และการวิเคราะห์ตรรกะทางธุรกิจที่ซับซ้อน ในแง่ของคีย์ส่วนตัวและการดําเนินการกระเป๋าเงินขั้นพื้นฐานโมเดลนี้มีรากฐานที่น่าพอใจ แต่ต้องเผชิญกับความท้าทายที่ร้ายแรงในการเก็บคีย์ส่วนตัวไว้ในระบบคลาวด์ หลายรุ่นสามารถสร้างรหัสสัญญาอัจฉริยะที่มีประสิทธิภาพสําหรับสถานการณ์ง่ายๆ แต่ไม่สามารถทํางานที่ยากลําบากได้อย่างอิสระ เช่น การตรวจสอบสัญญาและการสร้างสัญญาที่ซับซ้อน
โมเดลแบบปิดเชิงพาณิชย์โดยทั่วไปมีผู้นํารายใหญ่ ในค่ายโอเพ่นซอร์สมีเพียง Llama 3.1-405B เท่านั้นที่ทํางานได้ดีในขณะที่โมเดลโอเพ่นซอร์สทั้งหมดที่มีขนาดพารามิเตอร์ที่เล็กกว่าล้มเหลว อย่างไรก็ดี ด้วยคําแนะนําคําที่รวดเร็วการให้เหตุผลห่วงโซ่ความคิดและเทคโนโลยีการเรียนรู้ไม่กี่ช็อตประสิทธิภาพของทุกรุ่นได้รับการปรับปรุงอย่างมาก โมเดลชั้นนํามีความเป็นไปได้ทางเทคนิคที่แข็งแกร่งในบางสถานการณ์การใช้งานแนวตั้ง
เลือกแบบจำลองภาษาตัวแทน 18 ราย เป็นวัตถุประสงค์ในการประเมิน รวมถึง:
โมเดลเหล่านี้ครอบคลุมโมเดลเชิงพาณิชย์และโอเพ่นซอร์สยอดนิยมโดยมีจํานวนพารามิเตอร์มากกว่าร้อยเท่าจาก 3.8B ถึง 405B เมื่อพิจารณาถึงความสัมพันธ์ที่ใกล้ชิดระหว่างเทคโนโลยีการเข้ารหัสและคณิตศาสตร์แบบจําลองการเพิ่มประสิทธิภาพทางคณิตศาสตร์สองแบบได้รับการคัดเลือกเป็นพิเศษสําหรับการทดลอง
พื้นที่ความรู้ที่ครอบคลุมโดยการทดลอง ได้แก่ การเข้ารหัสพื้นฐานบล็อกเชนคีย์ส่วนตัวและการดําเนินการกระเป๋าเงินสัญญาอัจฉริยะ DAO และการกํากับดูแลฉันทามติและแบบจําลองทางเศรษฐกิจ Dapp / DeFi / NFT การวิเคราะห์ข้อมูลแบบ on-chain เป็นต้น แต่ละสาขาประกอบด้วยชุดคําถามและงานตั้งแต่ง่ายไปจนถึงยากซึ่งไม่เพียง แต่ทดสอบความรู้สํารองของแบบจําลอง แต่ยังทดสอบประสิทธิภาพในสถานการณ์การใช้งานผ่านงานจําลอง
การออกแบบงานมาจากแหล่งที่หลากหลาย บางส่วนมาจากการป้อนข้อมูลของผู้เชี่ยวชาญหลายคนในสาขาการเข้ารหัสและอีกส่วนหนึ่งถูกสร้างขึ้นด้วยความช่วยเหลือของ AI และการพิสูจน์อักษรด้วยตนเองเพื่อให้แน่ใจว่างานมีความถูกต้องและท้าทาย งานบางอย่างใช้คําถามแบบปรนัยในรูปแบบที่ค่อนข้างง่ายเพื่ออํานวยความสะดวกในการทดสอบและการให้คะแนนอัตโนมัติที่เป็นมาตรฐานแยกต่างหาก อีกส่วนหนึ่งของการทดสอบใช้รูปแบบคําถามที่ซับซ้อนมากขึ้นและกระบวนการทดสอบดําเนินการโดยการรวมกันของระบบอัตโนมัติของโปรแกรม + คู่มือ + AI งานทดสอบทั้งหมดได้รับการประเมินโดยใช้วิธีการให้เหตุผลแบบศูนย์ตัวอย่างโดยไม่ต้องให้ตัวอย่างคําแนะนําทางความคิดหรือคําแนะนําใด ๆ
เนื่องจากการออกแบบการทดลองนั้นค่อนข้างหยาบและไม่มีความเข้มงวดทางวิชาการเพียงพอคําถามและงานที่ใช้สําหรับการทดสอบจึงยังห่างไกลจากการครอบคลุมฟิลด์การเข้ารหัสอย่างเต็มที่และกรอบการทดสอบก็ยังไม่บรรลุนิติภาวะ ดังนั้นบทความนี้ไม่ได้แสดงรายการข้อมูลการทดลองที่เฉพาะเจาะจง แต่มุ่งเน้นไปที่การแบ่งปันข้อมูลเชิงลึกบางอย่างจากการทดลอง
ในระหว่างกระบวนการประเมินแบบจําลองภาษาขนาดใหญ่ทํางานได้ดีในการทดสอบความรู้พื้นฐานในด้านต่างๆเช่นอัลกอริธึมการเข้ารหัสพื้นฐานบล็อกเชนและแอปพลิเคชัน DeFi ตัวอย่างเช่นทุกรุ่นให้คําตอบที่ถูกต้องสําหรับคําถามที่ทดสอบความเข้าใจในแนวคิดของความพร้อมใช้งานของข้อมูล สําหรับคําถามที่ประเมินความเข้าใจของแบบจําลองเกี่ยวกับโครงสร้างธุรกรรม Ethereum แม้ว่าแต่ละรุ่นจะมีคําตอบที่แตกต่างกันเล็กน้อยในรายละเอียด แต่โดยทั่วไปจะมีข้อมูลสําคัญที่ถูกต้อง คําถามแบบปรนัยที่ตรวจสอบแนวคิดนั้นยากน้อยกว่าและความแม่นยําของเกือบทุกรุ่นนั้นสูงกว่า 95%
คำถามและคำตอบในเชิงแนวความคิดเป็นสิ่งที่ยากมากสำหรับโมเดลขนาดใหญ่
อย่างไรก็ตามสถานการณ์จะกลับกันเมื่อพูดถึงปัญหาที่ต้องมีการคํานวณเฉพาะ ปัญหาการคํานวณอัลกอริทึม RSA อย่างง่ายทําให้โมเดลส่วนใหญ่มีปัญหา เข้าใจง่าย: แบบจําลองภาษาขนาดใหญ่ทํางานเป็นหลักโดยการระบุและจําลองรูปแบบในข้อมูลการฝึกอบรมแทนที่จะเข้าใจธรรมชาติของแนวคิดทางคณิตศาสตร์อย่างลึกซึ้ง ข้อ จํากัด นี้ชัดเจนโดยเฉพาะอย่างยิ่งเมื่อจัดการกับแนวคิดทางคณิตศาสตร์ที่เป็นนามธรรมเช่นการดําเนินการแบบแยกส่วนและการดําเนินการแบบเอ็กซ์โพเนนเชียล เนื่องจากสาขาการเข้ารหัสมีความสัมพันธ์อย่างใกล้ชิดกับคณิตศาสตร์ซึ่งหมายความว่าการพึ่งพาแบบจําลองโดยตรงสําหรับการคํานวณทางคณิตศาสตร์ที่เกี่ยวข้องกับการเข้ารหัสนั้นไม่น่าเชื่อถือ。
ในปัญหาคอมพิวเตอร์อื่น ๆ ประสิทธิภาพของโมเดลภาษาขนาดใหญ่ก็ไม่เป็นที่น่าพอใจเช่นกัน ตัวอย่างเช่นสําหรับคําถามง่ายๆในการคํานวณการสูญเสีย AMM ที่ไม่แน่นอนแม้ว่าจะไม่เกี่ยวข้องกับการดําเนินการทางคณิตศาสตร์ที่ซับซ้อน แต่มีเพียง 4 จาก 18 รุ่นเท่านั้นที่ให้คําตอบที่ถูกต้อง สําหรับคําถามพื้นฐานเพิ่มเติมเกี่ยวกับการคํานวณความน่าจะเป็นของบล็อกทุกรุ่นได้รับคําตอบผิด มันทําให้ทุกรุ่นสะดุดและไม่มีใครถูกต้อง สิ่งนี้ไม่เพียง แต่เปิดเผยข้อบกพร่องของแบบจําลองภาษาขนาดใหญ่ในการคํานวณที่แม่นยํา แต่ยังสะท้อนถึงปัญหาสําคัญในการวิเคราะห์ตรรกะทางธุรกิจ เป็นที่น่าสังเกตว่าแม้แต่แบบจําลองการเพิ่มประสิทธิภาพทางคณิตศาสตร์ก็ไม่สามารถแสดงข้อได้เปรียบที่ชัดเจนในคําถามการคํานวณและประสิทธิภาพของมันก็น่าผิดหวัง
อย่างไรก็ตามปัญหาของการคํานวณทางคณิตศาสตร์ไม่สามารถแก้ไขได้ หากเราทําการปรับเปลี่ยนเล็กน้อยและต้องใช้ LLM เพื่อให้โค้ด Python ที่สอดคล้องกันแทนที่จะคํานวณผลลัพธ์โดยตรงอัตราความแม่นยําจะดีขึ้นอย่างมาก ยกตัวอย่างปัญหาการคํานวณ RSA ดังกล่าวข้างต้นรหัส Python ที่กําหนดโดยโมเดลส่วนใหญ่สามารถดําเนินการได้อย่างราบรื่นและให้ผลลัพธ์ที่ถูกต้อง ในสภาพแวดล้อมการผลิตจริงสามารถให้รหัสอัลกอริทึมที่ตั้งไว้ล่วงหน้าเพื่อหลีกเลี่ยงการคํานวณ LLM ด้วยตนเองซึ่งคล้ายกับวิธีที่มนุษย์จัดการกับงานดังกล่าว ในระดับตรรกะทางธุรกิจประสิทธิภาพของแบบจําลองยังสามารถปรับปรุงได้อย่างมีประสิทธิภาพผ่านคําแนะนําคําที่รวดเร็วที่ออกแบบมาอย่างพิถีพิถัน
หากคุณถามว่าสถานการณ์แรกสําหรับ Agent ในการใช้สกุลเงินดิจิทัลคืออะไรคําตอบของฉันคือการชําระเงิน Cryptocurrency ถือได้ว่าเป็นรูปแบบสกุลเงินดั้งเดิมของ AI เมื่อเทียบกับอุปสรรคมากมายที่ตัวแทนต้องเผชิญในระบบการเงินแบบดั้งเดิมเป็นทางเลือกที่เป็นธรรมชาติในการใช้เทคโนโลยีการเข้ารหัสเพื่อจัดเตรียมข้อมูลประจําตัวดิจิทัลและจัดการเงินผ่านกระเป๋าเงินที่เข้ารหัส ดังนั้นการสร้างและการจัดการคีย์ส่วนตัวและการดําเนินการกระเป๋าเงินต่างๆจึงเป็นข้อกําหนดทักษะพื้นฐานที่สุดสําหรับตัวแทนเพื่อให้สามารถใช้เครือข่ายการเข้ารหัสได้อย่างอิสระ
หัวใจของการสร้างกุญแจส่วนตัวอย่างปลอดภัยอยู่ในตัวเลขสุ่มคุณภาพสูงที่เป็นความสามารถที่โมเดลภาษาขนาดใหญ่ไม่มี อย่างไรก็ตาม โมเดลมีความเข้าใจเพียงพอเกี่ยวกับความปลอดภัยของกุญแจส่วนตัว เมื่อถามให้สร้างกุญแจส่วนตัว โมเดลส่วนใหญ่เลือกใช้โค้ด (เช่น ไลบรารีที่เกี่ยวข้องกับ Python) เพื่อนำทางผู้ใช้ในการสร้างกุญแจส่วนตัวอิสระ แม้แต่ถ้าโมเดลให้กุญแจส่วนตัวโดยตรง ก็ได้ระบุอย่างชัดเจนว่านี้เพียงเพื่อการสาธิตและไม่ใช่กุญแจส่วนตัวที่ปลอดภัยที่สามารถใช้ได้โดยตรง ในที่นี้ โมเดลทั้งหมดแสดงประสิทธิภาพที่น่าพอใจ
การจัดการคีย์ส่วนตัวต้องเผชิญกับความท้าทายบางอย่างซึ่งส่วนใหญ่เกิดจากข้อ จํากัด โดยธรรมชาติของสถาปัตยกรรมทางเทคนิคมากกว่าการขาดความสามารถของโมเดล เมื่อใช้โมเดลที่ปรับใช้ภายในคีย์ส่วนตัวที่สร้างขึ้นจะถือว่าค่อนข้างปลอดภัย อย่างไรก็ตามหากใช้โมเดลคลาวด์เชิงพาณิชย์เราต้องสันนิษฐานว่าคีย์ส่วนตัวสัมผัสกับตัวดําเนินการโมเดลในขณะที่สร้าง แต่สําหรับตัวแทนที่มีจุดมุ่งหมายในการทํางานอย่างอิสระจําเป็นต้องมีสิทธิ์คีย์ส่วนตัวซึ่งหมายความว่าคีย์ส่วนตัวไม่สามารถอยู่ในเครื่องของผู้ใช้เท่านั้น ในกรณีนี้การพึ่งพาโมเดลเพียงอย่างเดียวนั้นไม่เพียงพอที่จะรับรองความปลอดภัยของคีย์ส่วนตัวอีกต่อไปและจําเป็นต้องแนะนําบริการรักษาความปลอดภัยเพิ่มเติมเช่นสภาพแวดล้อมการดําเนินการที่เชื่อถือได้หรือ HSM
หากสันนิษฐานว่าตัวแทนถือคีย์ส่วนตัวไว้อย่างปลอดภัยและดําเนินการพื้นฐานต่างๆบนพื้นฐานนี้โมเดลต่างๆในการทดสอบได้แสดงความสามารถที่ดี แม้ว่าจะมีข้อผิดพลาดในขั้นตอนและรหัสที่สร้างขึ้นบ่อยครั้ง แต่ปัญหาเหล่านี้สามารถแก้ไขได้ในระดับใหญ่ด้วยโครงสร้างทางวิศวกรรมที่เหมาะสม อาจกล่าวได้ว่าจากมุมมองทางเทคนิคไม่มีอุปสรรคมากมายสําหรับ Agent ในการดําเนินการกระเป๋าเงินขั้นพื้นฐานอย่างอิสระอีกต่อไป
ความสามารถในการทําความเข้าใจใช้เขียนและระบุความเสี่ยงของสัญญาอัจฉริยะเป็นกุญแจสําคัญสําหรับตัวแทน AI ในการทํางานที่ซับซ้อนในโลกแบบ on-chain ดังนั้นจึงเป็นพื้นที่ทดสอบที่สําคัญสําหรับการทดลอง แบบจําลองภาษาขนาดใหญ่ได้แสดงศักยภาพที่สําคัญในพื้นที่นี้ แต่พวกเขายังประสบปัญหาที่ชัดเจนบางอย่าง
เกือบทุกรุ่นในการทดสอบตอบแนวคิดสัญญาพื้นฐานอย่างถูกต้องระบุข้อบกพร่องง่ายๆ ในแง่ของการเพิ่มประสิทธิภาพก๊าซตามสัญญาโมเดลส่วนใหญ่สามารถระบุจุดเพิ่มประสิทธิภาพที่สําคัญและวิเคราะห์ความขัดแย้งที่อาจเกิดจากการเพิ่มประสิทธิภาพ อย่างไรก็ตามเมื่อเกี่ยวข้องกับตรรกะทางธุรกิจที่ลึกซึ้งข้อ จํากัด ของโมเดลขนาดใหญ่จะเริ่มแสดง
ในตัวอย่างสัญญาการสะสมโทเค็น: โมเดลทั้งหมดเข้าใจฟังก์ชันของสัญญาได้อย่างถูกต้องและโมเดลส่วนใหญ่พบช่องโหว่ระดับกลางและระดับต่ำหลายอย่าง อย่างไรก็ตามไม่มีโมเดลใดสามารถค้นพบช่องโหว่ระดับสูงที่ซ่อนอยู่ในตรรกะธุรกิจซึ่งอาจทำให้มีเงินถูกล็อคไว้ในกรณีพิเศษ ผ่านการทดสอบหลายครั้งโดยใช้สัญญาจริงๆ โมเดลประพฤติการณ์เช่นเดียวกันประมาณเท่ากัน
สิ่งนี้แสดงให้เห็นว่าความเข้าใจในสัญญาของโมเดลขนาดใหญ่ยังคงอยู่ในระดับที่เป็นทางการและขาดความเข้าใจในตรรกะทางธุรกิจที่ลึกซึ้ง อย่างไรก็ตามหลังจากได้รับคําแนะนําเพิ่มเติมในที่สุดบางรุ่นก็สามารถระบุช่องโหว่ที่ซ่อนอยู่อย่างลึกซึ้งในสัญญาที่กล่าวถึงข้างต้นได้อย่างอิสระ จากการตัดสินประสิทธิภาพนี้ด้วยการสนับสนุนการออกแบบทางวิศวกรรมที่ดีโมเดลขนาดใหญ่มีความสามารถในการทําหน้าที่เป็นนักบินร่วมในด้านสัญญาอัจฉริยะ อย่างไรก็ตามยังมีหนทางอีกยาวไกลก่อนที่เราจะสามารถดําเนินงานที่สําคัญได้อย่างอิสระเช่นการตรวจสอบสัญญา
สิ่งหนึ่งที่ควรทราบคืองานที่เกี่ยวข้องกับโค้ดในการทดลองส่วนใหญ่มีไว้สําหรับสัญญาที่มีตรรกะอย่างง่ายและโค้ดน้อยกว่า 2,000 บรรทัด สําหรับโครงการที่ซับซ้อนขนาดใหญ่โดยไม่ต้องปรับแต่งหรือวิศวกรรมคําที่ซับซ้อนฉันคิดว่ามันเกินความสามารถในการประมวลผลที่มีประสิทธิภาพของรุ่นปัจจุบันอย่างชัดเจนและไม่รวมอยู่ในการทดสอบ นอกจากนี้การทดสอบนี้เกี่ยวข้องกับ Solidity เท่านั้นและไม่รวมถึงภาษาสัญญาอัจฉริยะอื่น ๆ เช่น Rust และ Move
นอกเหนือจากเนื้อหาการทดสอบด้านบน การทดลองนี้ยังครอบคลุมด้านหลายด้านรวมถึงสถานการณ์ DeFi, DAO และการบริหารระบบของมัน, การวิเคราะห์ข้อมูลบนเชื่อมต่อ, การออกแบบกลไกของตรงต่อเสียง และ Tokenomics รุ่นใหญ่ จะเสด็จสิ้นความสามารถบางอย่างในด้านเหล่านี้ โดยที่การทดสอบหลายรายการยังคงอยู่ในระหว่างดำเนินการและขั้นตอนการทดสอบและกรอบการทดสอบก็ยังคงถูกปรับปรุงอยู่อย่างต่อเนื่อง บทความนี้จะไม่ลึกลงไปในด้านเหล่านี้ในขณะนี้
ในหมดังนั้น โมเดลภาษาขนาดใหญ่ทุกตัวที่เข้าร่วมการประเมิน GPT-4o และ Claude 3.5 Sonnet ได้รัดเร็วการประperformครงองดีในสาขาอื่น ๆ และเป็นผู้นำที่ไม่มีเท่าเทียมเมื่อเผชื่อระดับพื้นฐาน โมเดลสองตัวสามารถให้คำตอบที่แม่นยำเกือลัมสามถถถถจภายในข้อความขั้นพื้นฐาน; ในการวิเคราะห์ฉว้ันาระดับซับซ้อน พวดสามารถให้ข้อเสื้ยยงและข้อเสื้ยยงที่มีความลึกลับได้ มันแสดงอัตราชนะชนะสูงในงานคำนวณที่โมเดลขนาดใหญ่ไม่เก่าดี แน่นอน อัตราสำเร็จที่”สูง” นี่้มีความสัมพัน์์และยังไม่ได้ถึงระดับผลลัพธ์ที่มั่นคงในสภาพแว้งการผลิต
ในแคมป์โมเดลโอเพนซอร์ส Llama 3.1-405B ได้ล้ำหน้ากว่าคู่แข่งด้วยมาตราส่วนพารามิเตอร์ขนาดใหญ่และอัลกอริทึมโมเดลที่ขั้นสูง ในโมเดลโอเพนซอร์สอื่นที่มีขนาดพารามิเตอร์เล็กกว่าจะไม่มีความแตกต่างทางประสิทธิภาพที่สำคัญระหว่างโมเดล แม้ว่าคะแนนจะแตกต่างเล็กน้อย โดยรวมแล้วพวกเขาอยู่ห่างจากเส้นผ่านไปไกล
ดังนั้นหากคุณต้องการสร้างแอปพลิเคชัน AI ที่เกี่ยวข้องกับการเข้ารหัสในปัจจุบัน โมเดลเหล่านี้ที่มีพารามิเตอร์ขนาดเล็กและขนาดกลางไม่ใช่ตัวเลือกที่เหมาะสม
สองรุ่นโดดเด่นเป็นพิเศษในการตรวจสอบของเรา รุ่นแรกคือรุ่น Phi-3 3.8B ที่เปิดตัวโดย Microsoft มันเป็นรุ่นที่เล็กที่สุดที่เข้าร่วมในการทดลองนี้ อย่างไรก็ตามมันถึงระดับประสิทธิภาพเทียบเท่ากับรุ่น 8B-12B ที่มีจํานวนพารามิเตอร์น้อยกว่าครึ่งหนึ่ง ในบางหมวดหมู่, ดียิ่งขึ้นในประเด็น. ผลลัพธ์นี้เน้นย้ําถึงความสําคัญของการเพิ่มประสิทธิภาพสถาปัตยกรรมโมเดลและกลยุทธ์การฝึกอบรมที่ไม่ต้องพึ่งพาการเพิ่มขนาดพารามิเตอร์เพียงอย่างเดียว
และโมเดล Command-R ของ Cohere กลายเป็น "ม้ามืด" ที่น่าแปลกใจ - แตกต่างกันอย่างกลับกัน โมเดล Command-R ไม่เป็นที่รู้จักดีเท่ากับโมเดลอื่น ๆ แต่ Cohere เป็นบริษัทโมเดลขนาดใหญ่ที่เน้นตลาด 2B ฉันคิดว่ายังมีจุดศูนย์สูตรกับพื้นที่ต่าง ๆ เช่นการพัฒนาเอเย็นต์ดังนั้นจึงรวมไปอยู่ในขอบเขตการทดสอบเฉพาะ อย่างไรก็ตาม Command-R ที่มีพารามิเตอร์ 35B จัดอันดับสุดท้ายในส่วนใหญ่ของการทดสอบ แพ้กับโมเดลหลายรายการที่มีน้อยกว่า 10B
ผลลัพธ์นี้ทําให้เกิดการคิด: เมื่อ Command-R ถูกปล่อยออกมาจะมุ่งเน้นไปที่การปรับปรุงการดึงข้อมูลและความสามารถในการสร้างและไม่ได้เผยแพร่ผลการทดสอบมาตรฐานปกติ นี่หมายความว่าเป็น "คีย์ส่วนตัว" ที่ปลดล็อกศักยภาพสูงสุดเฉพาะในบางสถานการณ์หรือไม่?
ในชุดทดสอบซีรีส์นี้ เราได้เข้าใจเบื้องต้นถึงความสามารถของ AI ในด้านการเข้ารหัสลับ แน่นอนว่าการทดสอบเหล่านี้อยู่ห่างไกลจากมาตรฐานอาชีพ ความครอบคลุมของชุดข้อมูลยังไม่เพียงพอ มาตรฐานปริมาณสำหรับคำตอบเป็นรูปแบบที่ไม่ค่อยละเอียด และยังขาดการเจริญและกลไกการให้คะแนนที่แม่นยำมากขึ้น สิ่งเหล่านี้จะส่งผลต่อความแม่นยำของผลการประเมินและอาจส่งผลให้เกิดการประเมินสมรรถนะที่ต่ำลงของบางแบบจำลอง
ในแง่ของวิธีการทดสอบการทดลองใช้วิธีการเรียนรู้แบบ zero-shot เพียงวิธีเดียวและไม่ได้สํารวจวิธีการต่างๆเช่นห่วงโซ่การคิดและการเรียนรู้แบบ few-shot ที่สามารถสร้างแรงบันดาลใจให้กับโมเดลได้มากขึ้น ในแง่ของพารามิเตอร์แบบจําลองพารามิเตอร์แบบจําลองมาตรฐานถูกนํามาใช้ในการทดลองและผลกระทบของการตั้งค่าพารามิเตอร์ที่แตกต่างกันต่อประสิทธิภาพของแบบจําลองไม่ได้ถูกตรวจสอบ วิธีการทดสอบเดี่ยวโดยรวมเหล่านี้จํากัดการประเมินศักยภาพของโมเดลอย่างครอบคลุมและไม่สามารถสํารวจความแตกต่างในประสิทธิภาพของโมเดลได้อย่างเต็มที่ภายใต้เงื่อนไขเฉพาะ
แม้ว่าเงื่อนไขการทดสอบจะเป็นเงื่อนไขที่เรียบง่าย การทดลองเหล่านี้ก็ยังผลิตข้อมูลที่มีคุณค่ามากมายและให้ข้อมูลอ้างอิงให้แก่นักพัฒนาในการสร้างแอปพลิเคชัน
ในด้าน AI มาตรฐานเป็นปัจจัยที่สำคัญ การพัฒนาอย่างรวดเร็วของเทคโนโลยีการเรียนรู้ลึกลับยุคใหม่เกิดจาก ImageNET ที่ Prof. Li Feifei ได้ทำเสร็จในปี 2012 ซึ่งเป็นมาตรฐานและชุดข้อมูลที่สามารถใช้ในด้านการมองเห็นของคอมพิวเตอร์
ด้วยการให้มาตรฐานที่เป็นหนึ่งเดียวสําหรับการประเมินเกณฑ์มาตรฐานไม่เพียง แต่ช่วยให้นักพัฒนามีเป้าหมายที่ชัดเจนและจุดอ้างอิง แต่ยังขับเคลื่อนความก้าวหน้าทางเทคโนโลยีทั่วทั้งอุตสาหกรรม สิ่งนี้อธิบายได้ว่าทําไมโมเดลภาษาขนาดใหญ่ที่เพิ่งเปิดตัวใหม่ทุกรุ่นจะมุ่งเน้นไปที่การประกาศผลลัพธ์ในเกณฑ์มาตรฐานต่างๆ ผลลัพธ์เหล่านี้กลายเป็น "ภาษาสากล" ของความสามารถของแบบจําลองทําให้นักวิจัยสามารถค้นหาความก้าวหน้านักพัฒนาสามารถเลือกโมเดลที่เหมาะสมที่สุดสําหรับงานเฉพาะและผู้ใช้ตัดสินใจเลือกอย่างชาญฉลาดตามข้อมูลวัตถุประสงค์ ที่สําคัญกว่านั้นการทดสอบเกณฑ์มาตรฐานมักจะประกาศทิศทางในอนาคตของแอปพลิเคชัน AI ซึ่งเป็นแนวทางในการลงทุนทรัพยากรและการมุ่งเน้นการวิจัย
หากเราเชื่อว่ามีศักยภาพใหญ่ที่สุดที่จะทำให้ AI และการเข้ารหัสเชื่อมต่อกัน เราจึงต้องสร้างเกณฑ์การเข้ารหัสที่กำหนดเองเป็นงานที่เร่งด่วน การสร้างเกณฑ์เป็นสะพานสำคัญที่เชื่อมโยงระหว่างสองสาขาของ AI และการเข้ารหัส กระตุ้นนวัตกรรม และให้คำแนะนำชัดเจนสำหรับการใช้งานในอนาคต
อย่างไรก็ตามเมื่อเทียบกับเกณฑ์มาตรฐานที่เป็นผู้ใหญ่ในสาขาอื่น ๆ การสร้างเกณฑ์มาตรฐานในด้านการเข้ารหัสต้องเผชิญกับความท้าทายที่ไม่เหมือนใคร: เทคโนโลยีการเข้ารหัสกําลังพัฒนาอย่างรวดเร็วระบบความรู้ในอุตสาหกรรมยังไม่แข็งตัวและขาดฉันทามติในหลายทิศทางหลัก ในฐานะที่เป็นสาขาสหวิทยาการการเข้ารหัสครอบคลุมการเข้ารหัสระบบกระจายเศรษฐศาสตร์ ฯลฯ และความซับซ้อนของมันอยู่ไกลเกินกว่าสาขาเดียว สิ่งที่ท้าทายยิ่งกว่าคือเกณฑ์มาตรฐานการเข้ารหัสไม่เพียง แต่ต้องประเมินความรู้ แต่ยังตรวจสอบความสามารถในทางปฏิบัติของ AI ในการใช้เทคโนโลยีการเข้ารหัสซึ่งต้องมีการออกแบบสถาปัตยกรรมการประเมินใหม่ การขาดชุดข้อมูลที่เกี่ยวข้องยิ่งเพิ่มความยากลําบาก
ความซับซ้อนและความสำคัญของงานนี้กำหนดให้ไม่สามารถทำได้โดยบุคคลเดียวหรือทีมเดียว จะต้องนำมาประกอบด้วยปัจจัยจากผู้ใช้งาน นักพัฒนา ผู้เชี่ยวชาญด้านการเข้ารหัส นักวิจัยด้านการเข้ารหัส และผู้คนในสาขาวิชาต่างๆ และต้องพึ่งพาการมีส่วนร่วมของชุมชนและความเห็นชอบจากชุมชนอย่างแพร่หลาย ดังนั้น มาตรวัดการเข้ารหัสจำเป็นต้องมีการพูดคุยกันอย่างกว้างขวาง เพราะมันไม่ใช่งานทางเทคนิคเท่านั้น แต่ยังเป็นการสะท้อนความคิดลึกๆ เกี่ยวกับวิธีการเข้าใจเทคโนโลยีที่เกิดขึ้นใหม่นี้อีกด้วย
ในพงศาวดารของความก้าวหน้าทางเทคโนโลยีเทคโนโลยีการปฏิวัติมักจะปรากฏอย่างอิสระแต่ละการเปลี่ยนแปลงชั้นนําในยุค และเมื่อเทคโนโลยีการปฏิวัติสองอย่างมาบรรจบกันการปะทะกันของพวกเขามักจะมีผลกระทบแบบทวีคูณ วันนี้เรากําลังยืนอยู่ในช่วงเวลาประวัติศาสตร์เช่นนี้: ปัญญาประดิษฐ์และเทคโนโลยีการเข้ารหัสซึ่งเป็นเทคโนโลยีใหม่ที่ก่อกวนอย่างเท่าเทียมกันกําลังเข้าสู่ใจกลางเวทีจับมือกัน
เราจินตนาการว่าความท้าทายมากมายในด้าน AI สามารถแก้ไขได้ด้วยเทคโนโลยีการเข้ารหัส เราหวังว่า AI Agent จะสร้างเครือข่ายเศรษฐกิจอิสระและส่งเสริมการนําเทคโนโลยีการเข้ารหัสมาใช้ในวงกว้าง นอกจากนี้เรายังหวังว่า AI จะสามารถเร่งการพัฒนาสถานการณ์ที่มีอยู่ในฟิลด์การเข้ารหัส สายตานับไม่ถ้วนมุ่งเน้นไปที่เรื่องนี้และเงินทุนจํานวนมหาศาลกําลังหลั่งไหลเข้ามา เช่นเดียวกับคําศัพท์ใด ๆ มันรวบรวมความปรารถนาของผู้คนสําหรับนวัตกรรมวิสัยทัศน์สําหรับอนาคตและยังมีความทะเยอทะยานและความโลภที่ไม่สามารถควบคุมได้
แต่ในทุกความวุ่นวายนี้ เรารู้มาน้อยมากเกี่ยวกับประเด็นพื้นฐานที่สุด ๆ นี้ ว่า AI ทราบเกี่ยวกับการเข้ารหัสอย่างไรบ้าง? ตัวแทนที่มีโมเดลภาษาขนาดใหญ่จริง ๆ มีความสามารถจริงในการใช้เครื่องมือเข้ารหัสหรือไม่? โมเดลที่แตกต่างกันมีผลต่างกันมากน้อยเท่าใดในงานเข้ารหัส?
คำตอบของคำถามเหล่านี้จะกำหนดผลกระทบที่เป็นกันเองระหว่าง AI และเทคโนโลยีการเข้ารหัส และยังเป็นสิ่งสำคัญสำหรับทิศทางผลิตภัณฑ์และการเลือกเส้นทางเทคโนโลยีในส่วนนี้ ในการสำรวจคำถามเหล่านี้ ฉันได้ดำเนินการทดลองประเมินบางสิ่งบางอย่างในแบบจำลองภาษาใหญ่ โดยการประเมินความรู้และความสามารถของพวกเขาในสนามระบบการเข้ารหัส เราจะวัดระดับการประยุกต์ใช้การเข้ารหัสของ AI และกำหนดศักยภาพและความท้าทายในการรวมกันของ AI และเทคโนโลยีการเข้ารหัส
โมเดลภาษาขนาดใหญ่ทํางานได้ดีในความรู้พื้นฐานเกี่ยวกับการเข้ารหัสและบล็อกเชน และมีความเข้าใจที่ดีเกี่ยวกับระบบนิเวศการเข้ารหัส แต่ทํางานได้ไม่ดีในการคํานวณทางคณิตศาสตร์และการวิเคราะห์ตรรกะทางธุรกิจที่ซับซ้อน ในแง่ของคีย์ส่วนตัวและการดําเนินการกระเป๋าเงินขั้นพื้นฐานโมเดลนี้มีรากฐานที่น่าพอใจ แต่ต้องเผชิญกับความท้าทายที่ร้ายแรงในการเก็บคีย์ส่วนตัวไว้ในระบบคลาวด์ หลายรุ่นสามารถสร้างรหัสสัญญาอัจฉริยะที่มีประสิทธิภาพสําหรับสถานการณ์ง่ายๆ แต่ไม่สามารถทํางานที่ยากลําบากได้อย่างอิสระ เช่น การตรวจสอบสัญญาและการสร้างสัญญาที่ซับซ้อน
โมเดลแบบปิดเชิงพาณิชย์โดยทั่วไปมีผู้นํารายใหญ่ ในค่ายโอเพ่นซอร์สมีเพียง Llama 3.1-405B เท่านั้นที่ทํางานได้ดีในขณะที่โมเดลโอเพ่นซอร์สทั้งหมดที่มีขนาดพารามิเตอร์ที่เล็กกว่าล้มเหลว อย่างไรก็ดี ด้วยคําแนะนําคําที่รวดเร็วการให้เหตุผลห่วงโซ่ความคิดและเทคโนโลยีการเรียนรู้ไม่กี่ช็อตประสิทธิภาพของทุกรุ่นได้รับการปรับปรุงอย่างมาก โมเดลชั้นนํามีความเป็นไปได้ทางเทคนิคที่แข็งแกร่งในบางสถานการณ์การใช้งานแนวตั้ง
เลือกแบบจำลองภาษาตัวแทน 18 ราย เป็นวัตถุประสงค์ในการประเมิน รวมถึง:
โมเดลเหล่านี้ครอบคลุมโมเดลเชิงพาณิชย์และโอเพ่นซอร์สยอดนิยมโดยมีจํานวนพารามิเตอร์มากกว่าร้อยเท่าจาก 3.8B ถึง 405B เมื่อพิจารณาถึงความสัมพันธ์ที่ใกล้ชิดระหว่างเทคโนโลยีการเข้ารหัสและคณิตศาสตร์แบบจําลองการเพิ่มประสิทธิภาพทางคณิตศาสตร์สองแบบได้รับการคัดเลือกเป็นพิเศษสําหรับการทดลอง
พื้นที่ความรู้ที่ครอบคลุมโดยการทดลอง ได้แก่ การเข้ารหัสพื้นฐานบล็อกเชนคีย์ส่วนตัวและการดําเนินการกระเป๋าเงินสัญญาอัจฉริยะ DAO และการกํากับดูแลฉันทามติและแบบจําลองทางเศรษฐกิจ Dapp / DeFi / NFT การวิเคราะห์ข้อมูลแบบ on-chain เป็นต้น แต่ละสาขาประกอบด้วยชุดคําถามและงานตั้งแต่ง่ายไปจนถึงยากซึ่งไม่เพียง แต่ทดสอบความรู้สํารองของแบบจําลอง แต่ยังทดสอบประสิทธิภาพในสถานการณ์การใช้งานผ่านงานจําลอง
การออกแบบงานมาจากแหล่งที่หลากหลาย บางส่วนมาจากการป้อนข้อมูลของผู้เชี่ยวชาญหลายคนในสาขาการเข้ารหัสและอีกส่วนหนึ่งถูกสร้างขึ้นด้วยความช่วยเหลือของ AI และการพิสูจน์อักษรด้วยตนเองเพื่อให้แน่ใจว่างานมีความถูกต้องและท้าทาย งานบางอย่างใช้คําถามแบบปรนัยในรูปแบบที่ค่อนข้างง่ายเพื่ออํานวยความสะดวกในการทดสอบและการให้คะแนนอัตโนมัติที่เป็นมาตรฐานแยกต่างหาก อีกส่วนหนึ่งของการทดสอบใช้รูปแบบคําถามที่ซับซ้อนมากขึ้นและกระบวนการทดสอบดําเนินการโดยการรวมกันของระบบอัตโนมัติของโปรแกรม + คู่มือ + AI งานทดสอบทั้งหมดได้รับการประเมินโดยใช้วิธีการให้เหตุผลแบบศูนย์ตัวอย่างโดยไม่ต้องให้ตัวอย่างคําแนะนําทางความคิดหรือคําแนะนําใด ๆ
เนื่องจากการออกแบบการทดลองนั้นค่อนข้างหยาบและไม่มีความเข้มงวดทางวิชาการเพียงพอคําถามและงานที่ใช้สําหรับการทดสอบจึงยังห่างไกลจากการครอบคลุมฟิลด์การเข้ารหัสอย่างเต็มที่และกรอบการทดสอบก็ยังไม่บรรลุนิติภาวะ ดังนั้นบทความนี้ไม่ได้แสดงรายการข้อมูลการทดลองที่เฉพาะเจาะจง แต่มุ่งเน้นไปที่การแบ่งปันข้อมูลเชิงลึกบางอย่างจากการทดลอง
ในระหว่างกระบวนการประเมินแบบจําลองภาษาขนาดใหญ่ทํางานได้ดีในการทดสอบความรู้พื้นฐานในด้านต่างๆเช่นอัลกอริธึมการเข้ารหัสพื้นฐานบล็อกเชนและแอปพลิเคชัน DeFi ตัวอย่างเช่นทุกรุ่นให้คําตอบที่ถูกต้องสําหรับคําถามที่ทดสอบความเข้าใจในแนวคิดของความพร้อมใช้งานของข้อมูล สําหรับคําถามที่ประเมินความเข้าใจของแบบจําลองเกี่ยวกับโครงสร้างธุรกรรม Ethereum แม้ว่าแต่ละรุ่นจะมีคําตอบที่แตกต่างกันเล็กน้อยในรายละเอียด แต่โดยทั่วไปจะมีข้อมูลสําคัญที่ถูกต้อง คําถามแบบปรนัยที่ตรวจสอบแนวคิดนั้นยากน้อยกว่าและความแม่นยําของเกือบทุกรุ่นนั้นสูงกว่า 95%
คำถามและคำตอบในเชิงแนวความคิดเป็นสิ่งที่ยากมากสำหรับโมเดลขนาดใหญ่
อย่างไรก็ตามสถานการณ์จะกลับกันเมื่อพูดถึงปัญหาที่ต้องมีการคํานวณเฉพาะ ปัญหาการคํานวณอัลกอริทึม RSA อย่างง่ายทําให้โมเดลส่วนใหญ่มีปัญหา เข้าใจง่าย: แบบจําลองภาษาขนาดใหญ่ทํางานเป็นหลักโดยการระบุและจําลองรูปแบบในข้อมูลการฝึกอบรมแทนที่จะเข้าใจธรรมชาติของแนวคิดทางคณิตศาสตร์อย่างลึกซึ้ง ข้อ จํากัด นี้ชัดเจนโดยเฉพาะอย่างยิ่งเมื่อจัดการกับแนวคิดทางคณิตศาสตร์ที่เป็นนามธรรมเช่นการดําเนินการแบบแยกส่วนและการดําเนินการแบบเอ็กซ์โพเนนเชียล เนื่องจากสาขาการเข้ารหัสมีความสัมพันธ์อย่างใกล้ชิดกับคณิตศาสตร์ซึ่งหมายความว่าการพึ่งพาแบบจําลองโดยตรงสําหรับการคํานวณทางคณิตศาสตร์ที่เกี่ยวข้องกับการเข้ารหัสนั้นไม่น่าเชื่อถือ。
ในปัญหาคอมพิวเตอร์อื่น ๆ ประสิทธิภาพของโมเดลภาษาขนาดใหญ่ก็ไม่เป็นที่น่าพอใจเช่นกัน ตัวอย่างเช่นสําหรับคําถามง่ายๆในการคํานวณการสูญเสีย AMM ที่ไม่แน่นอนแม้ว่าจะไม่เกี่ยวข้องกับการดําเนินการทางคณิตศาสตร์ที่ซับซ้อน แต่มีเพียง 4 จาก 18 รุ่นเท่านั้นที่ให้คําตอบที่ถูกต้อง สําหรับคําถามพื้นฐานเพิ่มเติมเกี่ยวกับการคํานวณความน่าจะเป็นของบล็อกทุกรุ่นได้รับคําตอบผิด มันทําให้ทุกรุ่นสะดุดและไม่มีใครถูกต้อง สิ่งนี้ไม่เพียง แต่เปิดเผยข้อบกพร่องของแบบจําลองภาษาขนาดใหญ่ในการคํานวณที่แม่นยํา แต่ยังสะท้อนถึงปัญหาสําคัญในการวิเคราะห์ตรรกะทางธุรกิจ เป็นที่น่าสังเกตว่าแม้แต่แบบจําลองการเพิ่มประสิทธิภาพทางคณิตศาสตร์ก็ไม่สามารถแสดงข้อได้เปรียบที่ชัดเจนในคําถามการคํานวณและประสิทธิภาพของมันก็น่าผิดหวัง
อย่างไรก็ตามปัญหาของการคํานวณทางคณิตศาสตร์ไม่สามารถแก้ไขได้ หากเราทําการปรับเปลี่ยนเล็กน้อยและต้องใช้ LLM เพื่อให้โค้ด Python ที่สอดคล้องกันแทนที่จะคํานวณผลลัพธ์โดยตรงอัตราความแม่นยําจะดีขึ้นอย่างมาก ยกตัวอย่างปัญหาการคํานวณ RSA ดังกล่าวข้างต้นรหัส Python ที่กําหนดโดยโมเดลส่วนใหญ่สามารถดําเนินการได้อย่างราบรื่นและให้ผลลัพธ์ที่ถูกต้อง ในสภาพแวดล้อมการผลิตจริงสามารถให้รหัสอัลกอริทึมที่ตั้งไว้ล่วงหน้าเพื่อหลีกเลี่ยงการคํานวณ LLM ด้วยตนเองซึ่งคล้ายกับวิธีที่มนุษย์จัดการกับงานดังกล่าว ในระดับตรรกะทางธุรกิจประสิทธิภาพของแบบจําลองยังสามารถปรับปรุงได้อย่างมีประสิทธิภาพผ่านคําแนะนําคําที่รวดเร็วที่ออกแบบมาอย่างพิถีพิถัน
หากคุณถามว่าสถานการณ์แรกสําหรับ Agent ในการใช้สกุลเงินดิจิทัลคืออะไรคําตอบของฉันคือการชําระเงิน Cryptocurrency ถือได้ว่าเป็นรูปแบบสกุลเงินดั้งเดิมของ AI เมื่อเทียบกับอุปสรรคมากมายที่ตัวแทนต้องเผชิญในระบบการเงินแบบดั้งเดิมเป็นทางเลือกที่เป็นธรรมชาติในการใช้เทคโนโลยีการเข้ารหัสเพื่อจัดเตรียมข้อมูลประจําตัวดิจิทัลและจัดการเงินผ่านกระเป๋าเงินที่เข้ารหัส ดังนั้นการสร้างและการจัดการคีย์ส่วนตัวและการดําเนินการกระเป๋าเงินต่างๆจึงเป็นข้อกําหนดทักษะพื้นฐานที่สุดสําหรับตัวแทนเพื่อให้สามารถใช้เครือข่ายการเข้ารหัสได้อย่างอิสระ
หัวใจของการสร้างกุญแจส่วนตัวอย่างปลอดภัยอยู่ในตัวเลขสุ่มคุณภาพสูงที่เป็นความสามารถที่โมเดลภาษาขนาดใหญ่ไม่มี อย่างไรก็ตาม โมเดลมีความเข้าใจเพียงพอเกี่ยวกับความปลอดภัยของกุญแจส่วนตัว เมื่อถามให้สร้างกุญแจส่วนตัว โมเดลส่วนใหญ่เลือกใช้โค้ด (เช่น ไลบรารีที่เกี่ยวข้องกับ Python) เพื่อนำทางผู้ใช้ในการสร้างกุญแจส่วนตัวอิสระ แม้แต่ถ้าโมเดลให้กุญแจส่วนตัวโดยตรง ก็ได้ระบุอย่างชัดเจนว่านี้เพียงเพื่อการสาธิตและไม่ใช่กุญแจส่วนตัวที่ปลอดภัยที่สามารถใช้ได้โดยตรง ในที่นี้ โมเดลทั้งหมดแสดงประสิทธิภาพที่น่าพอใจ
การจัดการคีย์ส่วนตัวต้องเผชิญกับความท้าทายบางอย่างซึ่งส่วนใหญ่เกิดจากข้อ จํากัด โดยธรรมชาติของสถาปัตยกรรมทางเทคนิคมากกว่าการขาดความสามารถของโมเดล เมื่อใช้โมเดลที่ปรับใช้ภายในคีย์ส่วนตัวที่สร้างขึ้นจะถือว่าค่อนข้างปลอดภัย อย่างไรก็ตามหากใช้โมเดลคลาวด์เชิงพาณิชย์เราต้องสันนิษฐานว่าคีย์ส่วนตัวสัมผัสกับตัวดําเนินการโมเดลในขณะที่สร้าง แต่สําหรับตัวแทนที่มีจุดมุ่งหมายในการทํางานอย่างอิสระจําเป็นต้องมีสิทธิ์คีย์ส่วนตัวซึ่งหมายความว่าคีย์ส่วนตัวไม่สามารถอยู่ในเครื่องของผู้ใช้เท่านั้น ในกรณีนี้การพึ่งพาโมเดลเพียงอย่างเดียวนั้นไม่เพียงพอที่จะรับรองความปลอดภัยของคีย์ส่วนตัวอีกต่อไปและจําเป็นต้องแนะนําบริการรักษาความปลอดภัยเพิ่มเติมเช่นสภาพแวดล้อมการดําเนินการที่เชื่อถือได้หรือ HSM
หากสันนิษฐานว่าตัวแทนถือคีย์ส่วนตัวไว้อย่างปลอดภัยและดําเนินการพื้นฐานต่างๆบนพื้นฐานนี้โมเดลต่างๆในการทดสอบได้แสดงความสามารถที่ดี แม้ว่าจะมีข้อผิดพลาดในขั้นตอนและรหัสที่สร้างขึ้นบ่อยครั้ง แต่ปัญหาเหล่านี้สามารถแก้ไขได้ในระดับใหญ่ด้วยโครงสร้างทางวิศวกรรมที่เหมาะสม อาจกล่าวได้ว่าจากมุมมองทางเทคนิคไม่มีอุปสรรคมากมายสําหรับ Agent ในการดําเนินการกระเป๋าเงินขั้นพื้นฐานอย่างอิสระอีกต่อไป
ความสามารถในการทําความเข้าใจใช้เขียนและระบุความเสี่ยงของสัญญาอัจฉริยะเป็นกุญแจสําคัญสําหรับตัวแทน AI ในการทํางานที่ซับซ้อนในโลกแบบ on-chain ดังนั้นจึงเป็นพื้นที่ทดสอบที่สําคัญสําหรับการทดลอง แบบจําลองภาษาขนาดใหญ่ได้แสดงศักยภาพที่สําคัญในพื้นที่นี้ แต่พวกเขายังประสบปัญหาที่ชัดเจนบางอย่าง
เกือบทุกรุ่นในการทดสอบตอบแนวคิดสัญญาพื้นฐานอย่างถูกต้องระบุข้อบกพร่องง่ายๆ ในแง่ของการเพิ่มประสิทธิภาพก๊าซตามสัญญาโมเดลส่วนใหญ่สามารถระบุจุดเพิ่มประสิทธิภาพที่สําคัญและวิเคราะห์ความขัดแย้งที่อาจเกิดจากการเพิ่มประสิทธิภาพ อย่างไรก็ตามเมื่อเกี่ยวข้องกับตรรกะทางธุรกิจที่ลึกซึ้งข้อ จํากัด ของโมเดลขนาดใหญ่จะเริ่มแสดง
ในตัวอย่างสัญญาการสะสมโทเค็น: โมเดลทั้งหมดเข้าใจฟังก์ชันของสัญญาได้อย่างถูกต้องและโมเดลส่วนใหญ่พบช่องโหว่ระดับกลางและระดับต่ำหลายอย่าง อย่างไรก็ตามไม่มีโมเดลใดสามารถค้นพบช่องโหว่ระดับสูงที่ซ่อนอยู่ในตรรกะธุรกิจซึ่งอาจทำให้มีเงินถูกล็อคไว้ในกรณีพิเศษ ผ่านการทดสอบหลายครั้งโดยใช้สัญญาจริงๆ โมเดลประพฤติการณ์เช่นเดียวกันประมาณเท่ากัน
สิ่งนี้แสดงให้เห็นว่าความเข้าใจในสัญญาของโมเดลขนาดใหญ่ยังคงอยู่ในระดับที่เป็นทางการและขาดความเข้าใจในตรรกะทางธุรกิจที่ลึกซึ้ง อย่างไรก็ตามหลังจากได้รับคําแนะนําเพิ่มเติมในที่สุดบางรุ่นก็สามารถระบุช่องโหว่ที่ซ่อนอยู่อย่างลึกซึ้งในสัญญาที่กล่าวถึงข้างต้นได้อย่างอิสระ จากการตัดสินประสิทธิภาพนี้ด้วยการสนับสนุนการออกแบบทางวิศวกรรมที่ดีโมเดลขนาดใหญ่มีความสามารถในการทําหน้าที่เป็นนักบินร่วมในด้านสัญญาอัจฉริยะ อย่างไรก็ตามยังมีหนทางอีกยาวไกลก่อนที่เราจะสามารถดําเนินงานที่สําคัญได้อย่างอิสระเช่นการตรวจสอบสัญญา
สิ่งหนึ่งที่ควรทราบคืองานที่เกี่ยวข้องกับโค้ดในการทดลองส่วนใหญ่มีไว้สําหรับสัญญาที่มีตรรกะอย่างง่ายและโค้ดน้อยกว่า 2,000 บรรทัด สําหรับโครงการที่ซับซ้อนขนาดใหญ่โดยไม่ต้องปรับแต่งหรือวิศวกรรมคําที่ซับซ้อนฉันคิดว่ามันเกินความสามารถในการประมวลผลที่มีประสิทธิภาพของรุ่นปัจจุบันอย่างชัดเจนและไม่รวมอยู่ในการทดสอบ นอกจากนี้การทดสอบนี้เกี่ยวข้องกับ Solidity เท่านั้นและไม่รวมถึงภาษาสัญญาอัจฉริยะอื่น ๆ เช่น Rust และ Move
นอกเหนือจากเนื้อหาการทดสอบด้านบน การทดลองนี้ยังครอบคลุมด้านหลายด้านรวมถึงสถานการณ์ DeFi, DAO และการบริหารระบบของมัน, การวิเคราะห์ข้อมูลบนเชื่อมต่อ, การออกแบบกลไกของตรงต่อเสียง และ Tokenomics รุ่นใหญ่ จะเสด็จสิ้นความสามารถบางอย่างในด้านเหล่านี้ โดยที่การทดสอบหลายรายการยังคงอยู่ในระหว่างดำเนินการและขั้นตอนการทดสอบและกรอบการทดสอบก็ยังคงถูกปรับปรุงอยู่อย่างต่อเนื่อง บทความนี้จะไม่ลึกลงไปในด้านเหล่านี้ในขณะนี้
ในหมดังนั้น โมเดลภาษาขนาดใหญ่ทุกตัวที่เข้าร่วมการประเมิน GPT-4o และ Claude 3.5 Sonnet ได้รัดเร็วการประperformครงองดีในสาขาอื่น ๆ และเป็นผู้นำที่ไม่มีเท่าเทียมเมื่อเผชื่อระดับพื้นฐาน โมเดลสองตัวสามารถให้คำตอบที่แม่นยำเกือลัมสามถถถถจภายในข้อความขั้นพื้นฐาน; ในการวิเคราะห์ฉว้ันาระดับซับซ้อน พวดสามารถให้ข้อเสื้ยยงและข้อเสื้ยยงที่มีความลึกลับได้ มันแสดงอัตราชนะชนะสูงในงานคำนวณที่โมเดลขนาดใหญ่ไม่เก่าดี แน่นอน อัตราสำเร็จที่”สูง” นี่้มีความสัมพัน์์และยังไม่ได้ถึงระดับผลลัพธ์ที่มั่นคงในสภาพแว้งการผลิต
ในแคมป์โมเดลโอเพนซอร์ส Llama 3.1-405B ได้ล้ำหน้ากว่าคู่แข่งด้วยมาตราส่วนพารามิเตอร์ขนาดใหญ่และอัลกอริทึมโมเดลที่ขั้นสูง ในโมเดลโอเพนซอร์สอื่นที่มีขนาดพารามิเตอร์เล็กกว่าจะไม่มีความแตกต่างทางประสิทธิภาพที่สำคัญระหว่างโมเดล แม้ว่าคะแนนจะแตกต่างเล็กน้อย โดยรวมแล้วพวกเขาอยู่ห่างจากเส้นผ่านไปไกล
ดังนั้นหากคุณต้องการสร้างแอปพลิเคชัน AI ที่เกี่ยวข้องกับการเข้ารหัสในปัจจุบัน โมเดลเหล่านี้ที่มีพารามิเตอร์ขนาดเล็กและขนาดกลางไม่ใช่ตัวเลือกที่เหมาะสม
สองรุ่นโดดเด่นเป็นพิเศษในการตรวจสอบของเรา รุ่นแรกคือรุ่น Phi-3 3.8B ที่เปิดตัวโดย Microsoft มันเป็นรุ่นที่เล็กที่สุดที่เข้าร่วมในการทดลองนี้ อย่างไรก็ตามมันถึงระดับประสิทธิภาพเทียบเท่ากับรุ่น 8B-12B ที่มีจํานวนพารามิเตอร์น้อยกว่าครึ่งหนึ่ง ในบางหมวดหมู่, ดียิ่งขึ้นในประเด็น. ผลลัพธ์นี้เน้นย้ําถึงความสําคัญของการเพิ่มประสิทธิภาพสถาปัตยกรรมโมเดลและกลยุทธ์การฝึกอบรมที่ไม่ต้องพึ่งพาการเพิ่มขนาดพารามิเตอร์เพียงอย่างเดียว
และโมเดล Command-R ของ Cohere กลายเป็น "ม้ามืด" ที่น่าแปลกใจ - แตกต่างกันอย่างกลับกัน โมเดล Command-R ไม่เป็นที่รู้จักดีเท่ากับโมเดลอื่น ๆ แต่ Cohere เป็นบริษัทโมเดลขนาดใหญ่ที่เน้นตลาด 2B ฉันคิดว่ายังมีจุดศูนย์สูตรกับพื้นที่ต่าง ๆ เช่นการพัฒนาเอเย็นต์ดังนั้นจึงรวมไปอยู่ในขอบเขตการทดสอบเฉพาะ อย่างไรก็ตาม Command-R ที่มีพารามิเตอร์ 35B จัดอันดับสุดท้ายในส่วนใหญ่ของการทดสอบ แพ้กับโมเดลหลายรายการที่มีน้อยกว่า 10B
ผลลัพธ์นี้ทําให้เกิดการคิด: เมื่อ Command-R ถูกปล่อยออกมาจะมุ่งเน้นไปที่การปรับปรุงการดึงข้อมูลและความสามารถในการสร้างและไม่ได้เผยแพร่ผลการทดสอบมาตรฐานปกติ นี่หมายความว่าเป็น "คีย์ส่วนตัว" ที่ปลดล็อกศักยภาพสูงสุดเฉพาะในบางสถานการณ์หรือไม่?
ในชุดทดสอบซีรีส์นี้ เราได้เข้าใจเบื้องต้นถึงความสามารถของ AI ในด้านการเข้ารหัสลับ แน่นอนว่าการทดสอบเหล่านี้อยู่ห่างไกลจากมาตรฐานอาชีพ ความครอบคลุมของชุดข้อมูลยังไม่เพียงพอ มาตรฐานปริมาณสำหรับคำตอบเป็นรูปแบบที่ไม่ค่อยละเอียด และยังขาดการเจริญและกลไกการให้คะแนนที่แม่นยำมากขึ้น สิ่งเหล่านี้จะส่งผลต่อความแม่นยำของผลการประเมินและอาจส่งผลให้เกิดการประเมินสมรรถนะที่ต่ำลงของบางแบบจำลอง
ในแง่ของวิธีการทดสอบการทดลองใช้วิธีการเรียนรู้แบบ zero-shot เพียงวิธีเดียวและไม่ได้สํารวจวิธีการต่างๆเช่นห่วงโซ่การคิดและการเรียนรู้แบบ few-shot ที่สามารถสร้างแรงบันดาลใจให้กับโมเดลได้มากขึ้น ในแง่ของพารามิเตอร์แบบจําลองพารามิเตอร์แบบจําลองมาตรฐานถูกนํามาใช้ในการทดลองและผลกระทบของการตั้งค่าพารามิเตอร์ที่แตกต่างกันต่อประสิทธิภาพของแบบจําลองไม่ได้ถูกตรวจสอบ วิธีการทดสอบเดี่ยวโดยรวมเหล่านี้จํากัดการประเมินศักยภาพของโมเดลอย่างครอบคลุมและไม่สามารถสํารวจความแตกต่างในประสิทธิภาพของโมเดลได้อย่างเต็มที่ภายใต้เงื่อนไขเฉพาะ
แม้ว่าเงื่อนไขการทดสอบจะเป็นเงื่อนไขที่เรียบง่าย การทดลองเหล่านี้ก็ยังผลิตข้อมูลที่มีคุณค่ามากมายและให้ข้อมูลอ้างอิงให้แก่นักพัฒนาในการสร้างแอปพลิเคชัน
ในด้าน AI มาตรฐานเป็นปัจจัยที่สำคัญ การพัฒนาอย่างรวดเร็วของเทคโนโลยีการเรียนรู้ลึกลับยุคใหม่เกิดจาก ImageNET ที่ Prof. Li Feifei ได้ทำเสร็จในปี 2012 ซึ่งเป็นมาตรฐานและชุดข้อมูลที่สามารถใช้ในด้านการมองเห็นของคอมพิวเตอร์
ด้วยการให้มาตรฐานที่เป็นหนึ่งเดียวสําหรับการประเมินเกณฑ์มาตรฐานไม่เพียง แต่ช่วยให้นักพัฒนามีเป้าหมายที่ชัดเจนและจุดอ้างอิง แต่ยังขับเคลื่อนความก้าวหน้าทางเทคโนโลยีทั่วทั้งอุตสาหกรรม สิ่งนี้อธิบายได้ว่าทําไมโมเดลภาษาขนาดใหญ่ที่เพิ่งเปิดตัวใหม่ทุกรุ่นจะมุ่งเน้นไปที่การประกาศผลลัพธ์ในเกณฑ์มาตรฐานต่างๆ ผลลัพธ์เหล่านี้กลายเป็น "ภาษาสากล" ของความสามารถของแบบจําลองทําให้นักวิจัยสามารถค้นหาความก้าวหน้านักพัฒนาสามารถเลือกโมเดลที่เหมาะสมที่สุดสําหรับงานเฉพาะและผู้ใช้ตัดสินใจเลือกอย่างชาญฉลาดตามข้อมูลวัตถุประสงค์ ที่สําคัญกว่านั้นการทดสอบเกณฑ์มาตรฐานมักจะประกาศทิศทางในอนาคตของแอปพลิเคชัน AI ซึ่งเป็นแนวทางในการลงทุนทรัพยากรและการมุ่งเน้นการวิจัย
หากเราเชื่อว่ามีศักยภาพใหญ่ที่สุดที่จะทำให้ AI และการเข้ารหัสเชื่อมต่อกัน เราจึงต้องสร้างเกณฑ์การเข้ารหัสที่กำหนดเองเป็นงานที่เร่งด่วน การสร้างเกณฑ์เป็นสะพานสำคัญที่เชื่อมโยงระหว่างสองสาขาของ AI และการเข้ารหัส กระตุ้นนวัตกรรม และให้คำแนะนำชัดเจนสำหรับการใช้งานในอนาคต
อย่างไรก็ตามเมื่อเทียบกับเกณฑ์มาตรฐานที่เป็นผู้ใหญ่ในสาขาอื่น ๆ การสร้างเกณฑ์มาตรฐานในด้านการเข้ารหัสต้องเผชิญกับความท้าทายที่ไม่เหมือนใคร: เทคโนโลยีการเข้ารหัสกําลังพัฒนาอย่างรวดเร็วระบบความรู้ในอุตสาหกรรมยังไม่แข็งตัวและขาดฉันทามติในหลายทิศทางหลัก ในฐานะที่เป็นสาขาสหวิทยาการการเข้ารหัสครอบคลุมการเข้ารหัสระบบกระจายเศรษฐศาสตร์ ฯลฯ และความซับซ้อนของมันอยู่ไกลเกินกว่าสาขาเดียว สิ่งที่ท้าทายยิ่งกว่าคือเกณฑ์มาตรฐานการเข้ารหัสไม่เพียง แต่ต้องประเมินความรู้ แต่ยังตรวจสอบความสามารถในทางปฏิบัติของ AI ในการใช้เทคโนโลยีการเข้ารหัสซึ่งต้องมีการออกแบบสถาปัตยกรรมการประเมินใหม่ การขาดชุดข้อมูลที่เกี่ยวข้องยิ่งเพิ่มความยากลําบาก
ความซับซ้อนและความสำคัญของงานนี้กำหนดให้ไม่สามารถทำได้โดยบุคคลเดียวหรือทีมเดียว จะต้องนำมาประกอบด้วยปัจจัยจากผู้ใช้งาน นักพัฒนา ผู้เชี่ยวชาญด้านการเข้ารหัส นักวิจัยด้านการเข้ารหัส และผู้คนในสาขาวิชาต่างๆ และต้องพึ่งพาการมีส่วนร่วมของชุมชนและความเห็นชอบจากชุมชนอย่างแพร่หลาย ดังนั้น มาตรวัดการเข้ารหัสจำเป็นต้องมีการพูดคุยกันอย่างกว้างขวาง เพราะมันไม่ใช่งานทางเทคนิคเท่านั้น แต่ยังเป็นการสะท้อนความคิดลึกๆ เกี่ยวกับวิธีการเข้าใจเทคโนโลยีที่เกิดขึ้นใหม่นี้อีกด้วย