Чи може штучний інтелект вижити в криптосвіті: 18 великих експериментів з криптовалютами

РозширенийSep 26, 2024
Штучний інтелект добре справляється з алгоритмами шифрування та знаннями про блокчейн, але не добре справляється з математичними обчисленнями та складним логічним аналізом. Дуже важливо розробити специфічні для шифрування показники ШІ, які нададуть важливу референцію для застосування ШІ у сфері шифрування.
Чи може штучний інтелект вижити в криптосвіті: 18 великих експериментів з криптовалютами

У літописі технічного прогресу революційні технології часто з'являються незалежно один від одного, кожна з яких веде змінюється в епоху. І коли зустрічаються дві революційні технології, їх зіткнення часто має експоненціальний вплив. Сьогодні ми перебуваємо в такому історичному моменті: штучний інтелект і технологія шифрування, дві однаково проривні нові технології, йдуть пліч-о-пліч у центр сцени.

Ми уявляємо, що багато викликів у сфері ШІ можуть бути вирішені за допомогою технології шифрування; ми очікуємо, що ШІ агент будує автономні економічні мережі та сприяє масштабному прийняттю технології шифрування; ми також сподіваємося, що ШІ може прискорити розвиток існуючих сценаріїв у сфері шифрування. На це спрямовано безліч поглядів, а також приплив величезних коштів. Як будь-яке модне слово, воно втілює бажання людей до інновацій, візії майбутнього, а також містить некеровану амбіцію та жадібність.

Але в усьому цьому шумі ми дуже мало знаємо про найбільш базові питання. Наскільки добре ШІ знає про шифрування? Чи має Агент, обладнаний великим мовним моделлю, фактичну здатність використовувати шифрувальні інструменти? Наскільки різні моделі виконують завдання з шифруванням?

Відповіді на ці запитання визначатимуть взаємний вплив штучного інтелекту та технології шифрування, а також мають вирішальне значення для напрямку продукту та вибору технологічного маршруту в цій міжгалузевій сфері. Щоб дослідити ці питання, я провів кілька оціночних експериментів на великих мовних моделях. Оцінюючи їхні знання та можливості в галузі шифрування, ми вимірюємо рівень застосування шифрування ШІ та визначаємо потенціал і проблеми інтеграції ШІ та технології шифрування.

Спочатку поговоримо про висновок

Велика мовна модель добре показує себе в базових знаннях криптографії та блокчейну, а також добре розуміє екосистему шифрування, але погано справляється з математичними розрахунками та складним аналізом бізнес-логіки. З точки зору приватних ключів і базових операцій з гаманцями, модель має задовільну основу, але стикається з серйозною проблемою, як зберігати приватні ключі в хмарі. Багато моделей можуть генерувати ефективний код смарт-контракту для простих сценаріїв, але не можуть самостійно виконувати складні завдання, такі як аудит контрактів і створення складних контрактів.

Комерційні моделі з закритим вихідним кодом, як правило, мають велику перевагу. У відкритому таборі тільки Llama 3.1-405B виступив добре, тоді як всі відкриті моделі з меншими розмірами параметрів були невдалими. Однак є потенціал. За допомогою швидкого керівництва словами, ланцюгового мислення та технології навчання з невеликою кількістю прикладів продуктивність всіх моделей була значно покращена. У провідних моделей вже є сильна технічна можливість в деяких вертикальних сценаріях застосування.

Деталі експерименту

Було вибрано 18 представницьких мовних моделей як об'єкти оцінки, включаючи:

  • Моделі з закритим вихідним кодом: GPT-4o, GPT-4o Mini, Claude 3.5 Sonnet, Gemini 1.5 Pro, Grok2 beta (тимчасово з закритим вихідним кодом)
  • Відкриті моделі: Llama 3.1 8B/70b/405B, Mistral Nemo 12B, DeepSeek-coder-v2, Nous-hermes2, Phi3 3.8B/14b, Gemma2 9B\27B, Command-R
  • Математичні моделі оптимізації: Qwen2-math-72B, MathΣtral

Ці моделі охоплюють основні комерційні та популярні відкриті моделі, кількість параметрів яких варіюється від 3,8 млрд до 405 млрд більше ніж у сто разів. Беручи до уваги тісний зв'язок між технологією шифрування та математикою, для експерименту було спеціально вибрано дві математичні оптимізаційні моделі.

Сфери знань, охоплені експериментом, включають криптографію, основи блокчейну, операції з приватними ключами та гаманцями, смарт-контракти, DAO та управління, консенсус та економічні моделі, Dapp/DeFi/NFT, аналіз ончейн-даних тощо. Кожна сфера складається з ряду питань і завдань від легких до складних, які не тільки перевіряють запас знань моделі, але і перевіряють її працездатність в сценаріях застосування за допомогою симуляційних завдань.

Дизайн завдань походить з різних джерел. Деякі з них надходять від внеску кількох експертів у галузі шифрування, а інша частина генерується з використанням штучного інтелекту та вручну перевіряється для забезпечення точності та складності завдань. Деякі з завдань використовують питання з вибором відповідей у відносно простому форматі для полегшення окремого стандартизованого автоматизованого тестування та оцінювання. Частина тесту використовує більш складний формат питань, а процес тестування проводиться за допомогою поєднання автоматизації програм + вручну + штучного інтелекту. Усі тестові завдання оцінюються за допомогою методу мислення з нульовим зразком, не надаючи жодних прикладів, вказівок або навчальних підказок.

Оскільки сам дизайн експерименту досить грубий і не має достатньої академічної строгості, запитання та завдання, що використовуються для тестування, далекі від повного охоплення сфери шифрування, а також тестова рамка також недосконала. Тому цей матеріал не містить конкретних експериментальних даних, а зосереджується на поділі деяких інсайтів з експериментів.

знання/концепція

Під час процесу оцінки великі мовні моделі добре справляються з тестуванням основних знань у різних галузях, таких як алгоритми шифрування, основи блокчейну та застосування DeFi. Наприклад, всі моделі дали точні відповіді на питання, що перевіряли розуміння концепції доступності даних. Щодо питання, що оцінює розуміння структури транзакцій Ethereum моделлю, хоча кожна модель має трохи різні відповіді щодо деталей, вони загалом містять правильну ключову інформацію. Багатовибіркові питання, що перевіряють концепції, ще менш складні, а точність майже всіх моделей становить понад 95%.

Концептуальні запитання та відповіді повністю складні для великих моделей.

Обчислювальна / бізнес-логіка

Однак ситуація зворотна, коли мова заходить про проблеми, що вимагають конкретних розрахунків. Проста задача обчислення алгоритму RSA ускладнює більшість моделей. Це легко зрозуміти: великі мовні моделі працюють в першу чергу шляхом виявлення та відтворення закономірностей у навчальних даних, а не шляхом глибокого розуміння природи математичних концепцій. Це обмеження особливо очевидне при роботі з абстрактними математичними поняттями, такими як модульні операції та експоненціальні операції. Враховуючи, що галузь криптографії тісно пов'язана з математикою, це означаєПокладатися безпосередньо на моделі для математичних обчислень, пов'язаних із шифруванням, ненадійно。

У інших обчислювальних задачах продуктивність великих мовних моделей також є незадовільною. Наприклад, для простого запитання про обчислення нестійкої втрати AMM, хоча воно не передбачає складних математичних операцій, лише 4 з 18 моделей дали правильну відповідь. Щодо іншого більш базового питання про обчислення ймовірності блоку, всі моделі дали неправильну відповідь. Це збиває з пантелику всі моделі, і жодна з них не є правильною. Це не тільки розкриває недоліки великих мовних моделей у точних розрахунках, але і відображає їхні основні проблеми у аналізі бізнес-логіки. Варто зазначити, що навіть математична оптимізаційна модель не змогла продемонструвати очевидних переваг у питаннях обчислення, і її продуктивність була розчаровуючою.

Однак проблема математичного розрахунку не є нерозв'язною. Якщо ми внесемо невелике коригування та вимагатимемо, щоб LLM надавали відповідний код Python замість того, щоб безпосередньо обчислювати результати, рівень точності значно покращиться. Беручи за приклад вищезгадану задачу обчислення RSA, коди Python, задані більшістю моделей, можуть виконуватися безперебійно та давати правильні результати. У реальних виробничих середовищах можуть бути надані попередньо встановлені коди алгоритмів, щоб обійти самообчислення LLM, що схоже на те, як люди справляються з такими завданнями. На рівні бізнес-логіки продуктивність моделі також може бути ефективно покращена за допомогою ретельно розроблених підказок.

Управління приватним ключем та операції гаманця

Якщо ви запитаєте, який перший сценарій використання криптовалюти Agent, моя відповідь - оплата. Криптовалюту майже можна вважати нативною формою валюти штучного інтелекту. У порівнянні з багатьма перешкодами, з якими стикаються агенти в традиційній фінансовій системі, природним вибором є використання технології шифрування, щоб оснастити себе цифровими ідентифікаторами та керувати коштами через зашифровані гаманці. Таким чином, генерація та управління приватними ключами, а також різні операції з гаманцями є основними вимогами до навичок для агента, щоб мати можливість самостійно використовувати мережу шифрування.

Ядро безпечної генерації закритих ключів лежить у високоякісних випадкових числах, що, очевидно, є можливістю, якої немає у великих мовних моделей. Однак моделі мають достатнє розуміння безпеки приватних ключів. Коли вас просять згенерувати приватний ключ, більшість моделей вирішують використовувати код (наприклад, бібліотеки, пов'язані з Python), щоб допомогти користувачам генерувати приватні ключі самостійно. Навіть якщо модель безпосередньо надає закритий ключ, чітко зазначено, що він призначений лише для демонстраційних цілей і не є безпечним закритим ключем, який можна використовувати безпосередньо. У зв'язку з цим всі великі моделі показали задовільну продуктивність.

Управління приватними ключами стикається з деякими проблемами, які в основному пов'язані з обмеженнями, властивими технічній архітектурі, а не з відсутністю можливостей моделі. При використанні локально розгорнутої моделі згенерований закритий ключ можна вважати відносно безпечним. Однак, якщо використовується комерційна хмарна модель, ми повинні припустити, що приватний ключ був відкритий оператору моделі в момент його генерації. Але для агента, який прагне працювати незалежно, необхідно мати дозволи на приватний ключ, а це означає, що приватний ключ не може бути локальним лише для користувача. У цьому випадку покладатися виключно на саму модель вже недостатньо для забезпечення безпеки закритого ключа, і необхідно впровадити додаткові служби безпеки, такі як довірене середовище виконання або HSM.

Якщо припустити, що Агент вже безпечно утримує приватний ключ та виконує різні базові операції на цій основі, то різні моделі у тесті показали хороші можливості. Хоча часто виникають помилки в згенерованих кроках та кодах, ці проблеми можуть бути в значній мірі вирішені за допомогою відповідної інженерної структури. Можна сказати, що з технічної точки зору для Агента вже не існує багатьох перешкод для самостійного виконання базових операцій гаманця.

смарт-контракт

Здатність розуміти, використовувати, писати та виявляти ризики розумних контрактів є ключем для AI-агентів для виконання складних завдань у світі on-chain і, отже, є ключовою областю тестування для експериментів. Великі мовні моделі показали значний потенціал в цій галузі, але вони також виявили деякі очевидні проблеми.

Майже всі моделі у тесті правильно відповіли на основні концепції контракту, виявили прості помилки. Щодо оптимізації газу у контракті, більшість моделей можуть визначити ключові точки оптимізації та проаналізувати конфлікти, які можуть виникнути через оптимізацію. Однак, коли включається глибока бізнес-логіка, починають виявлятися обмеження великих моделей.

Візьмемо контракт з відстроченим випуском токенів як приклад: всі моделі правильно зрозуміли функції контракту, і більшість моделей виявили кілька середніх та низьких ризикових вразливостей. Однак жодна модель не може самостійно виявити високоризикову вразливість, що прихована в бізнес-логіці, яка може призвести до блокування деяких коштів в особливих обставинах. Під час кількох тестів з використанням реальних контрактів модель показала приблизно однакові результати.

Це свідчить про те, що розуміння великої моделі контрактів все ще залишається на формальному рівні та не має розуміння глибокої бізнес-логіки. Однак, після отримання додаткових підказок, деякі моделі змогли незалежно виявити глибоко приховані вразливості вищезазначених контрактів. На підставі цього оцінювання продуктивності, за підтримки доброго інженерного проектування, велика модель має практично здатність служити співпілотом у галузі розумних контрактів. Проте, перед тим як ми зможемо самостійно виконувати важливі завдання, такі як аудит контрактів, ще довгий шлях.

Варто зазначити, що завдання, пов'язані з кодом, в експерименті переважно стосуються контрактів з простою логікою та менш ніж 2 000 рядків коду. Для більш масштабних складних проектів, без дрібної настройки або складного інжинірингу зі словами-підказками, я думаю, що це очевидно перевищує ефективні можливості поточної моделі та не було включено до тесту. Крім того, цей тест стосується лише Solidity і не включає інші мови розумних контрактів, такі як Rust та Move.

Крім вищезазначеного тестового контенту, експеримент також охоплює багато аспектів, включаючи сценарії DeFi, DAO та його управління, аналіз даних на ланцюжку, проектування механізму консенсусу та Tokenomics. Великі мовні моделі продемонстрували певні можливості в цих аспектах. Оскільки багато тестів все ще знаходяться в процесі виконання, а методи і фреймворки тестування постійно оптимізуються, ця стаття наразі не буде детально розглядати ці області.

Відмінності моделі

Серед усіх великих мовних моделей, які брали участь у оцінці, GPT-4o та Claude 3.5 Sonnet продовжили свою відмінну продуктивність в інших галузях та є незаперечними лідерами. У відповідь на базові запитання обидві моделі майже завжди можуть дати точні відповіді; у аналізі складних сценаріїв вони можуть надати глибокі та документовані відомості. Навіть показує високий рівень виграшів у обчислювальних завданнях, в яких великі моделі не дуже сильні. Звісно, цей "високий" рівень успішності є відносним і ще не досягнув рівня стабільного виводу в середовищі виробництва.

У відкритій моделі від Llama 3.1-405B вона далеко випереджає своїх конкурентів завдяки великому масштабу параметрів та передовим алгоритмам моделей. В інших відкритих моделях з меншими розмірами параметрів немає значної різниці в продуктивності між моделями. Хоча бали трохи відрізняються, в цілому вони далеко від лінії здачі.

Отже, якщо ви хочете розробити зараз застосунки штучного інтелекту, пов'язані з шифруванням, ці моделі з невеликими та середніми параметрами не є відповідним вибором.

Особливо виділялися в нашому огляді дві моделі. Перша - це модель Phi-3 3.8B, випущена Microsoft. Це найменша модель, яка бере участь у цьому експерименті. Однак він досягає рівня продуктивності, еквівалентного моделі 8В-12Б, з менш ніж удвічі меншою кількістю параметрів. У деяких конкретних категоріях, навіть краще з цього питання. Цей результат підкреслює важливість оптимізації архітектури моделі та стратегій навчання, які не покладаються виключно на збільшення розміру параметра.

А модель Command-R від Cohere стала несподіваною «темною конячкою» - навпаки. Command-R не така відома в порівнянні з іншими моделями, але Cohere є великою модельною компанією, орієнтованою на ринок 2B. Я думаю, що є ще багато точок зближення з такими напрямками, як розробка агентів, тому це було спеціально включено в обсяг тестування. Однак Command-R з параметрами 35B зайняв останнє місце в більшості тестів, поступившись багатьом моделям нижче 10B.

Цей результат спонукав до міркувань: коли було випущено Command-R, він сконцентрувався на покращенні можливостей пошуку та генерації, і навіть не публікував регулярних результатів бенчмарків. Чи це означає, що він є «приватним ключем», який розблоковує його повний потенціал лише в конкретних сценаріях?

Обмеження експерименту

У цьому серії тестів ми отримали попереднє розуміння можливостей штучного інтелекту в галузі шифрування. Звичайно, ці тести далекі від професійних стандартів. Охоплення набору даних далеке від достатнього, кількісні стандарти для відповідей досить грубі, і все ще відсутній витончений та більш точний механізм оцінювання. Це вплине на точність результатів оцінки та може призвести до недооцінки продуктивності деяких моделей.

З точки зору методу тестування, експеримент використовував лише один метод нуль-зйомки навчання, і не досліджував методи, такі як ланцюжки мислення та навчання на кілька прикладів, які можуть надихнути більший потенціал моделі. З точки зору параметрів моделі, в експериментах використовувалися стандартні параметри моделі, і не вивчалося вплив різних налаштувань параметрів на продуктивність моделі. Ці загальні одноманітні методи тестування обмежують нашу комплексну оцінку потенціалу моделі та не вдаються повністю дослідити різницю в продуктивності моделі в конкретних умовах.

Незважаючи на те, що умови тестування були відносно простими, ці експерименти все ще принесли багато цінних уявлень і надали розробникам посилання для побудови додатків.

Криптосвіт потребує власного показника

У галузі штучного інтелекту бенчмарки відіграють ключову роль. Швидкий розвиток сучасної технології глибокого навчання виник від ImageNET, завершеного професором Лі Фейфей у 2012 році, який є стандартизованим бенчмарком і набором даних у галузі комп'ютерного зору.

Забезпечуючи єдиний стандарт оцінки, бенчмарки не тільки надають розробникам чіткі цілі та орієнтири, але й стимулюють технологічний прогрес у галузі. Це пояснює, чому кожна нещодавно випущена велика мовна модель буде зосереджена на оголошенні своїх результатів на різних тестах. Ці результати стають «універсальною мовою» можливостей моделі, дозволяючи дослідникам знаходити прориви, розробникам вибирати моделі, які найкраще підходять для конкретних завдань, а користувачам робити обґрунтований вибір на основі об'єктивних даних. Що ще важливіше, еталонні тести часто провіщають майбутній напрямок застосування штучного інтелекту, спрямовуючи інвестиції в ресурси та дослідницьку спрямованість.

Якщо ми вважаємо, що є великий потенціал на перетині штучного інтелекту та криптографії, то створення спеціальних криптографічних бенчмарків стає терміновим завданням. Створення бенчмарків може стати ключовим мостом, що з'єднує дві галузі штучного інтелекту та шифрування, каталізувати інновації та надати чітке керівництво для майбутніх застосувань.

Однак, порівняно з вже зарекомендованими стандартами в інших галузях, побудова стандартів у галузі шифрування стикається з унікальними викликами: технологія шифрування швидко розвивається, система знань галузі ще не закріпилася, і відсутність консенсусу в декількох основних напрямках. Як міждисциплінарна галузь, шифрування охоплює криптографію, розподілені системи, економіку тощо, і його складність далеко виходить за межі однієї галузі. Ще більш складним є те, що стандарт шифрування потрібно оцінювати не лише знання, але й перевіряти практичну здатність штучного інтелекту використовувати технологію шифрування, що вимагає розробки нової архітектури оцінки. Відсутність відповідних наборів даних додатково ускладнює завдання.

Складність і важливість цієї задачі вимагає, щоб її не виконував одна людина або команда. Вона потребує об'єднання мудрості багатьох сторін від користувачів, розробників, експертів з криптографії, дослідників шифрування до багатьох інших людей у міждисциплінарних галузях і залежить від широкої участі та консенсусу спільноти. Тому криптографічний бенчмарк потребує широкої дискусії, оскільки це не лише технічна робота, а й глибоке відображення того, як ми розуміємо цю нову технологію.

Disclaimer:

  1. Цю статтю перепринтовано з [Empower Labs]. Усі авторські права належать оригінальному автору [ Wang Chao]. Якщо є виклики до цього повторення, будь ласка, зв'яжіться з Gate Learnкоманда, і вони оперативно займуться цим.
  2. Відмова від відповідальності за зобов'язання: Погляди та думки, висловлені в цій статті, належать виключно автору і не є інвестиційними порадами.
  3. Переклади статей на інші мови виконуються командою Gate Learn. Якщо не зазначено інше, копіювання, поширення або плагіат перекладених статей заборонені.

Чи може штучний інтелект вижити в криптосвіті: 18 великих експериментів з криптовалютами

РозширенийSep 26, 2024
Штучний інтелект добре справляється з алгоритмами шифрування та знаннями про блокчейн, але не добре справляється з математичними обчисленнями та складним логічним аналізом. Дуже важливо розробити специфічні для шифрування показники ШІ, які нададуть важливу референцію для застосування ШІ у сфері шифрування.
Чи може штучний інтелект вижити в криптосвіті: 18 великих експериментів з криптовалютами

У літописі технічного прогресу революційні технології часто з'являються незалежно один від одного, кожна з яких веде змінюється в епоху. І коли зустрічаються дві революційні технології, їх зіткнення часто має експоненціальний вплив. Сьогодні ми перебуваємо в такому історичному моменті: штучний інтелект і технологія шифрування, дві однаково проривні нові технології, йдуть пліч-о-пліч у центр сцени.

Ми уявляємо, що багато викликів у сфері ШІ можуть бути вирішені за допомогою технології шифрування; ми очікуємо, що ШІ агент будує автономні економічні мережі та сприяє масштабному прийняттю технології шифрування; ми також сподіваємося, що ШІ може прискорити розвиток існуючих сценаріїв у сфері шифрування. На це спрямовано безліч поглядів, а також приплив величезних коштів. Як будь-яке модне слово, воно втілює бажання людей до інновацій, візії майбутнього, а також містить некеровану амбіцію та жадібність.

Але в усьому цьому шумі ми дуже мало знаємо про найбільш базові питання. Наскільки добре ШІ знає про шифрування? Чи має Агент, обладнаний великим мовним моделлю, фактичну здатність використовувати шифрувальні інструменти? Наскільки різні моделі виконують завдання з шифруванням?

Відповіді на ці запитання визначатимуть взаємний вплив штучного інтелекту та технології шифрування, а також мають вирішальне значення для напрямку продукту та вибору технологічного маршруту в цій міжгалузевій сфері. Щоб дослідити ці питання, я провів кілька оціночних експериментів на великих мовних моделях. Оцінюючи їхні знання та можливості в галузі шифрування, ми вимірюємо рівень застосування шифрування ШІ та визначаємо потенціал і проблеми інтеграції ШІ та технології шифрування.

Спочатку поговоримо про висновок

Велика мовна модель добре показує себе в базових знаннях криптографії та блокчейну, а також добре розуміє екосистему шифрування, але погано справляється з математичними розрахунками та складним аналізом бізнес-логіки. З точки зору приватних ключів і базових операцій з гаманцями, модель має задовільну основу, але стикається з серйозною проблемою, як зберігати приватні ключі в хмарі. Багато моделей можуть генерувати ефективний код смарт-контракту для простих сценаріїв, але не можуть самостійно виконувати складні завдання, такі як аудит контрактів і створення складних контрактів.

Комерційні моделі з закритим вихідним кодом, як правило, мають велику перевагу. У відкритому таборі тільки Llama 3.1-405B виступив добре, тоді як всі відкриті моделі з меншими розмірами параметрів були невдалими. Однак є потенціал. За допомогою швидкого керівництва словами, ланцюгового мислення та технології навчання з невеликою кількістю прикладів продуктивність всіх моделей була значно покращена. У провідних моделей вже є сильна технічна можливість в деяких вертикальних сценаріях застосування.

Деталі експерименту

Було вибрано 18 представницьких мовних моделей як об'єкти оцінки, включаючи:

  • Моделі з закритим вихідним кодом: GPT-4o, GPT-4o Mini, Claude 3.5 Sonnet, Gemini 1.5 Pro, Grok2 beta (тимчасово з закритим вихідним кодом)
  • Відкриті моделі: Llama 3.1 8B/70b/405B, Mistral Nemo 12B, DeepSeek-coder-v2, Nous-hermes2, Phi3 3.8B/14b, Gemma2 9B\27B, Command-R
  • Математичні моделі оптимізації: Qwen2-math-72B, MathΣtral

Ці моделі охоплюють основні комерційні та популярні відкриті моделі, кількість параметрів яких варіюється від 3,8 млрд до 405 млрд більше ніж у сто разів. Беручи до уваги тісний зв'язок між технологією шифрування та математикою, для експерименту було спеціально вибрано дві математичні оптимізаційні моделі.

Сфери знань, охоплені експериментом, включають криптографію, основи блокчейну, операції з приватними ключами та гаманцями, смарт-контракти, DAO та управління, консенсус та економічні моделі, Dapp/DeFi/NFT, аналіз ончейн-даних тощо. Кожна сфера складається з ряду питань і завдань від легких до складних, які не тільки перевіряють запас знань моделі, але і перевіряють її працездатність в сценаріях застосування за допомогою симуляційних завдань.

Дизайн завдань походить з різних джерел. Деякі з них надходять від внеску кількох експертів у галузі шифрування, а інша частина генерується з використанням штучного інтелекту та вручну перевіряється для забезпечення точності та складності завдань. Деякі з завдань використовують питання з вибором відповідей у відносно простому форматі для полегшення окремого стандартизованого автоматизованого тестування та оцінювання. Частина тесту використовує більш складний формат питань, а процес тестування проводиться за допомогою поєднання автоматизації програм + вручну + штучного інтелекту. Усі тестові завдання оцінюються за допомогою методу мислення з нульовим зразком, не надаючи жодних прикладів, вказівок або навчальних підказок.

Оскільки сам дизайн експерименту досить грубий і не має достатньої академічної строгості, запитання та завдання, що використовуються для тестування, далекі від повного охоплення сфери шифрування, а також тестова рамка також недосконала. Тому цей матеріал не містить конкретних експериментальних даних, а зосереджується на поділі деяких інсайтів з експериментів.

знання/концепція

Під час процесу оцінки великі мовні моделі добре справляються з тестуванням основних знань у різних галузях, таких як алгоритми шифрування, основи блокчейну та застосування DeFi. Наприклад, всі моделі дали точні відповіді на питання, що перевіряли розуміння концепції доступності даних. Щодо питання, що оцінює розуміння структури транзакцій Ethereum моделлю, хоча кожна модель має трохи різні відповіді щодо деталей, вони загалом містять правильну ключову інформацію. Багатовибіркові питання, що перевіряють концепції, ще менш складні, а точність майже всіх моделей становить понад 95%.

Концептуальні запитання та відповіді повністю складні для великих моделей.

Обчислювальна / бізнес-логіка

Однак ситуація зворотна, коли мова заходить про проблеми, що вимагають конкретних розрахунків. Проста задача обчислення алгоритму RSA ускладнює більшість моделей. Це легко зрозуміти: великі мовні моделі працюють в першу чергу шляхом виявлення та відтворення закономірностей у навчальних даних, а не шляхом глибокого розуміння природи математичних концепцій. Це обмеження особливо очевидне при роботі з абстрактними математичними поняттями, такими як модульні операції та експоненціальні операції. Враховуючи, що галузь криптографії тісно пов'язана з математикою, це означаєПокладатися безпосередньо на моделі для математичних обчислень, пов'язаних із шифруванням, ненадійно。

У інших обчислювальних задачах продуктивність великих мовних моделей також є незадовільною. Наприклад, для простого запитання про обчислення нестійкої втрати AMM, хоча воно не передбачає складних математичних операцій, лише 4 з 18 моделей дали правильну відповідь. Щодо іншого більш базового питання про обчислення ймовірності блоку, всі моделі дали неправильну відповідь. Це збиває з пантелику всі моделі, і жодна з них не є правильною. Це не тільки розкриває недоліки великих мовних моделей у точних розрахунках, але і відображає їхні основні проблеми у аналізі бізнес-логіки. Варто зазначити, що навіть математична оптимізаційна модель не змогла продемонструвати очевидних переваг у питаннях обчислення, і її продуктивність була розчаровуючою.

Однак проблема математичного розрахунку не є нерозв'язною. Якщо ми внесемо невелике коригування та вимагатимемо, щоб LLM надавали відповідний код Python замість того, щоб безпосередньо обчислювати результати, рівень точності значно покращиться. Беручи за приклад вищезгадану задачу обчислення RSA, коди Python, задані більшістю моделей, можуть виконуватися безперебійно та давати правильні результати. У реальних виробничих середовищах можуть бути надані попередньо встановлені коди алгоритмів, щоб обійти самообчислення LLM, що схоже на те, як люди справляються з такими завданнями. На рівні бізнес-логіки продуктивність моделі також може бути ефективно покращена за допомогою ретельно розроблених підказок.

Управління приватним ключем та операції гаманця

Якщо ви запитаєте, який перший сценарій використання криптовалюти Agent, моя відповідь - оплата. Криптовалюту майже можна вважати нативною формою валюти штучного інтелекту. У порівнянні з багатьма перешкодами, з якими стикаються агенти в традиційній фінансовій системі, природним вибором є використання технології шифрування, щоб оснастити себе цифровими ідентифікаторами та керувати коштами через зашифровані гаманці. Таким чином, генерація та управління приватними ключами, а також різні операції з гаманцями є основними вимогами до навичок для агента, щоб мати можливість самостійно використовувати мережу шифрування.

Ядро безпечної генерації закритих ключів лежить у високоякісних випадкових числах, що, очевидно, є можливістю, якої немає у великих мовних моделей. Однак моделі мають достатнє розуміння безпеки приватних ключів. Коли вас просять згенерувати приватний ключ, більшість моделей вирішують використовувати код (наприклад, бібліотеки, пов'язані з Python), щоб допомогти користувачам генерувати приватні ключі самостійно. Навіть якщо модель безпосередньо надає закритий ключ, чітко зазначено, що він призначений лише для демонстраційних цілей і не є безпечним закритим ключем, який можна використовувати безпосередньо. У зв'язку з цим всі великі моделі показали задовільну продуктивність.

Управління приватними ключами стикається з деякими проблемами, які в основному пов'язані з обмеженнями, властивими технічній архітектурі, а не з відсутністю можливостей моделі. При використанні локально розгорнутої моделі згенерований закритий ключ можна вважати відносно безпечним. Однак, якщо використовується комерційна хмарна модель, ми повинні припустити, що приватний ключ був відкритий оператору моделі в момент його генерації. Але для агента, який прагне працювати незалежно, необхідно мати дозволи на приватний ключ, а це означає, що приватний ключ не може бути локальним лише для користувача. У цьому випадку покладатися виключно на саму модель вже недостатньо для забезпечення безпеки закритого ключа, і необхідно впровадити додаткові служби безпеки, такі як довірене середовище виконання або HSM.

Якщо припустити, що Агент вже безпечно утримує приватний ключ та виконує різні базові операції на цій основі, то різні моделі у тесті показали хороші можливості. Хоча часто виникають помилки в згенерованих кроках та кодах, ці проблеми можуть бути в значній мірі вирішені за допомогою відповідної інженерної структури. Можна сказати, що з технічної точки зору для Агента вже не існує багатьох перешкод для самостійного виконання базових операцій гаманця.

смарт-контракт

Здатність розуміти, використовувати, писати та виявляти ризики розумних контрактів є ключем для AI-агентів для виконання складних завдань у світі on-chain і, отже, є ключовою областю тестування для експериментів. Великі мовні моделі показали значний потенціал в цій галузі, але вони також виявили деякі очевидні проблеми.

Майже всі моделі у тесті правильно відповіли на основні концепції контракту, виявили прості помилки. Щодо оптимізації газу у контракті, більшість моделей можуть визначити ключові точки оптимізації та проаналізувати конфлікти, які можуть виникнути через оптимізацію. Однак, коли включається глибока бізнес-логіка, починають виявлятися обмеження великих моделей.

Візьмемо контракт з відстроченим випуском токенів як приклад: всі моделі правильно зрозуміли функції контракту, і більшість моделей виявили кілька середніх та низьких ризикових вразливостей. Однак жодна модель не може самостійно виявити високоризикову вразливість, що прихована в бізнес-логіці, яка може призвести до блокування деяких коштів в особливих обставинах. Під час кількох тестів з використанням реальних контрактів модель показала приблизно однакові результати.

Це свідчить про те, що розуміння великої моделі контрактів все ще залишається на формальному рівні та не має розуміння глибокої бізнес-логіки. Однак, після отримання додаткових підказок, деякі моделі змогли незалежно виявити глибоко приховані вразливості вищезазначених контрактів. На підставі цього оцінювання продуктивності, за підтримки доброго інженерного проектування, велика модель має практично здатність служити співпілотом у галузі розумних контрактів. Проте, перед тим як ми зможемо самостійно виконувати важливі завдання, такі як аудит контрактів, ще довгий шлях.

Варто зазначити, що завдання, пов'язані з кодом, в експерименті переважно стосуються контрактів з простою логікою та менш ніж 2 000 рядків коду. Для більш масштабних складних проектів, без дрібної настройки або складного інжинірингу зі словами-підказками, я думаю, що це очевидно перевищує ефективні можливості поточної моделі та не було включено до тесту. Крім того, цей тест стосується лише Solidity і не включає інші мови розумних контрактів, такі як Rust та Move.

Крім вищезазначеного тестового контенту, експеримент також охоплює багато аспектів, включаючи сценарії DeFi, DAO та його управління, аналіз даних на ланцюжку, проектування механізму консенсусу та Tokenomics. Великі мовні моделі продемонстрували певні можливості в цих аспектах. Оскільки багато тестів все ще знаходяться в процесі виконання, а методи і фреймворки тестування постійно оптимізуються, ця стаття наразі не буде детально розглядати ці області.

Відмінності моделі

Серед усіх великих мовних моделей, які брали участь у оцінці, GPT-4o та Claude 3.5 Sonnet продовжили свою відмінну продуктивність в інших галузях та є незаперечними лідерами. У відповідь на базові запитання обидві моделі майже завжди можуть дати точні відповіді; у аналізі складних сценаріїв вони можуть надати глибокі та документовані відомості. Навіть показує високий рівень виграшів у обчислювальних завданнях, в яких великі моделі не дуже сильні. Звісно, цей "високий" рівень успішності є відносним і ще не досягнув рівня стабільного виводу в середовищі виробництва.

У відкритій моделі від Llama 3.1-405B вона далеко випереджає своїх конкурентів завдяки великому масштабу параметрів та передовим алгоритмам моделей. В інших відкритих моделях з меншими розмірами параметрів немає значної різниці в продуктивності між моделями. Хоча бали трохи відрізняються, в цілому вони далеко від лінії здачі.

Отже, якщо ви хочете розробити зараз застосунки штучного інтелекту, пов'язані з шифруванням, ці моделі з невеликими та середніми параметрами не є відповідним вибором.

Особливо виділялися в нашому огляді дві моделі. Перша - це модель Phi-3 3.8B, випущена Microsoft. Це найменша модель, яка бере участь у цьому експерименті. Однак він досягає рівня продуктивності, еквівалентного моделі 8В-12Б, з менш ніж удвічі меншою кількістю параметрів. У деяких конкретних категоріях, навіть краще з цього питання. Цей результат підкреслює важливість оптимізації архітектури моделі та стратегій навчання, які не покладаються виключно на збільшення розміру параметра.

А модель Command-R від Cohere стала несподіваною «темною конячкою» - навпаки. Command-R не така відома в порівнянні з іншими моделями, але Cohere є великою модельною компанією, орієнтованою на ринок 2B. Я думаю, що є ще багато точок зближення з такими напрямками, як розробка агентів, тому це було спеціально включено в обсяг тестування. Однак Command-R з параметрами 35B зайняв останнє місце в більшості тестів, поступившись багатьом моделям нижче 10B.

Цей результат спонукав до міркувань: коли було випущено Command-R, він сконцентрувався на покращенні можливостей пошуку та генерації, і навіть не публікував регулярних результатів бенчмарків. Чи це означає, що він є «приватним ключем», який розблоковує його повний потенціал лише в конкретних сценаріях?

Обмеження експерименту

У цьому серії тестів ми отримали попереднє розуміння можливостей штучного інтелекту в галузі шифрування. Звичайно, ці тести далекі від професійних стандартів. Охоплення набору даних далеке від достатнього, кількісні стандарти для відповідей досить грубі, і все ще відсутній витончений та більш точний механізм оцінювання. Це вплине на точність результатів оцінки та може призвести до недооцінки продуктивності деяких моделей.

З точки зору методу тестування, експеримент використовував лише один метод нуль-зйомки навчання, і не досліджував методи, такі як ланцюжки мислення та навчання на кілька прикладів, які можуть надихнути більший потенціал моделі. З точки зору параметрів моделі, в експериментах використовувалися стандартні параметри моделі, і не вивчалося вплив різних налаштувань параметрів на продуктивність моделі. Ці загальні одноманітні методи тестування обмежують нашу комплексну оцінку потенціалу моделі та не вдаються повністю дослідити різницю в продуктивності моделі в конкретних умовах.

Незважаючи на те, що умови тестування були відносно простими, ці експерименти все ще принесли багато цінних уявлень і надали розробникам посилання для побудови додатків.

Криптосвіт потребує власного показника

У галузі штучного інтелекту бенчмарки відіграють ключову роль. Швидкий розвиток сучасної технології глибокого навчання виник від ImageNET, завершеного професором Лі Фейфей у 2012 році, який є стандартизованим бенчмарком і набором даних у галузі комп'ютерного зору.

Забезпечуючи єдиний стандарт оцінки, бенчмарки не тільки надають розробникам чіткі цілі та орієнтири, але й стимулюють технологічний прогрес у галузі. Це пояснює, чому кожна нещодавно випущена велика мовна модель буде зосереджена на оголошенні своїх результатів на різних тестах. Ці результати стають «універсальною мовою» можливостей моделі, дозволяючи дослідникам знаходити прориви, розробникам вибирати моделі, які найкраще підходять для конкретних завдань, а користувачам робити обґрунтований вибір на основі об'єктивних даних. Що ще важливіше, еталонні тести часто провіщають майбутній напрямок застосування штучного інтелекту, спрямовуючи інвестиції в ресурси та дослідницьку спрямованість.

Якщо ми вважаємо, що є великий потенціал на перетині штучного інтелекту та криптографії, то створення спеціальних криптографічних бенчмарків стає терміновим завданням. Створення бенчмарків може стати ключовим мостом, що з'єднує дві галузі штучного інтелекту та шифрування, каталізувати інновації та надати чітке керівництво для майбутніх застосувань.

Однак, порівняно з вже зарекомендованими стандартами в інших галузях, побудова стандартів у галузі шифрування стикається з унікальними викликами: технологія шифрування швидко розвивається, система знань галузі ще не закріпилася, і відсутність консенсусу в декількох основних напрямках. Як міждисциплінарна галузь, шифрування охоплює криптографію, розподілені системи, економіку тощо, і його складність далеко виходить за межі однієї галузі. Ще більш складним є те, що стандарт шифрування потрібно оцінювати не лише знання, але й перевіряти практичну здатність штучного інтелекту використовувати технологію шифрування, що вимагає розробки нової архітектури оцінки. Відсутність відповідних наборів даних додатково ускладнює завдання.

Складність і важливість цієї задачі вимагає, щоб її не виконував одна людина або команда. Вона потребує об'єднання мудрості багатьох сторін від користувачів, розробників, експертів з криптографії, дослідників шифрування до багатьох інших людей у міждисциплінарних галузях і залежить від широкої участі та консенсусу спільноти. Тому криптографічний бенчмарк потребує широкої дискусії, оскільки це не лише технічна робота, а й глибоке відображення того, як ми розуміємо цю нову технологію.

Disclaimer:

  1. Цю статтю перепринтовано з [Empower Labs]. Усі авторські права належать оригінальному автору [ Wang Chao]. Якщо є виклики до цього повторення, будь ласка, зв'яжіться з Gate Learnкоманда, і вони оперативно займуться цим.
  2. Відмова від відповідальності за зобов'язання: Погляди та думки, висловлені в цій статті, належать виключно автору і не є інвестиційними порадами.
  3. Переклади статей на інші мови виконуються командою Gate Learn. Якщо не зазначено інше, копіювання, поширення або плагіат перекладених статей заборонені.
Розпочати зараз
Зареєструйтеся та отримайте ваучер на
$100
!