Сможет ли ИИ выжить в криптомире: 18 крупных модельных криптоэкспериментов

ПродвинутыйSep 26, 2024
Искусственный интеллект хорошо справляется с алгоритмами шифрования и знаниями о блокчейне, но плохо справляется с математическими вычислениями и сложным логическим анализом. Очень важно разрабатывать специальные бенчмарки искусственного интеллекта для шифрования, которые будут предоставлять важную ссылку для применения искусственного интеллекта в области шифрования.
Сможет ли ИИ выжить в криптомире: 18 крупных модельных криптоэкспериментов

В хронике технологического прогресса часто появляются революционные технологии, каждая из которых ведет изменения в свою эпоху. И когда две революционные технологии встречаются, их столкновение часто имеет экспоненциальный эффект. Сегодня мы находимся в такой исторический момент: искусственный интеллект и технология шифрования, две одинаково революционные новые технологии, входят на центральную сцену, держась за руки.

Мы предполагаем, что многие проблемы в области искусственного интеллекта могут быть решены с помощью технологии шифрования; мы с нетерпением ждем создания автономных экономических сетей AI Agent и содействия широкому принятию технологии шифрования; мы также надеемся, что искусственный интеллект сможет ускорить развитие существующих сценариев в сфере шифрования. На это обращено бесчисленное количество глаз, и вливается огромное количество средств. Как и любое модное слово, оно воплощает желание людей к инновациям, видение будущего, а также содержит неуправляемую амбицию и жадность.

Однако во всей этой сумятице мы знаем очень мало о самых основных вопросах. Насколько хорошо искусственный интеллект знает шифрование? Обладает ли Агент, оснащенный большой языковой моделью, настоящей способностью использовать инструменты шифрования? Насколько различаются результаты разных моделей при выполнении задач по шифрованию?

Ответы на эти вопросы определят взаимное влияние искусственного интеллекта и технологии шифрования, а также являются важными для выбора направления продукта и технологического маршрута в этой пересекающейся области. Чтобы изучить эти вопросы, я провел некоторые оценочные эксперименты на больших моделях языка. Оценивая их знания и возможности в области шифрования, мы измеряем уровень применения шифрования искусственным интеллектом и определяем потенциал и сложности интеграции искусственного интеллекта и технологии шифрования.

Давайте сначала поговорим о заключении

Большая модель языка хорошо справляется с основными знаниями криптографии и блокчейна, и хорошо понимает экосистему шифрования, но плохо справляется с математическими расчетами и сложным анализом бизнес-логики. В отношении приватных ключей и основных операций с кошельком модель имеет удовлетворительную базу, но сталкивается с серьезными проблемами, связанными с сохранением приватных ключей в облаке. Многие модели могут генерировать эффективный код смарт-контракта для простых сценариев, но не могут самостоятельно выполнять сложные задачи, такие как аудит контрактов и создание сложных контрактов.

Коммерческие модели закрытого исходного кода обычно имеют большое преимущество. В лагере открытого исходного кода хорошо себя показала только Llama 3.1-405B, в то время как все модели открытого исходного кода с более маленькими размерами параметров потерпели неудачу. Однако здесь есть потенциал. Благодаря направляющему словесному руководству, цепочке мыслей и технологии обучения с малым числом примеров производительность всех моделей была значительно улучшена. У ведущих моделей уже есть сильная техническая осуществимость в некоторых вертикальных сценариях применения.

Детали эксперимента

В качестве объектов оценки были выбраны 18 представительных языковых моделей, включая:

  • Модели закрытого исходного кода: GPT-4o, GPT-4o Mini, Claude 3.5 Sonnet, Gemini 1.5 Pro, Grok2 beta (временно закрытый исходный код)
  • Модели с открытым исходным кодом: Llama 3.1 8B/70b/405B, Mistral Nemo 12B, DeepSeek-coder-v2, Nous-hermes2, Phi3 3.8B/14b, Gemma2 9B\27B, Command-R
  • Математические модели оптимизации: Qwen2-math-72B, MathΣtral

Эти модели охватывают основные коммерческие и популярные модели с открытым исходным кодом, с количеством параметров, варьирующимся более ста раз от 3,8 млрд до 405 млрд. Учитывая близкую связь между технологией шифрования и математикой, для эксперимента были специально выбраны две математические оптимизационные модели.

Области знаний, охваченные экспериментом, включают криптографию, основы блокчейна, операции с закрытыми ключами и кошельками, смарт-контракты, DAO и управление, консенсус и экономические модели, Dapp/DeFi/NFT, анализ данных в блокчейне и т. д. Каждое поле состоит из серии вопросов и заданий в диапазоне от простых до сложных, которые не только проверяют запас знаний модели, но и проверяют ее работоспособность в прикладных сценариях с помощью имитационных задач.

Дизайн задачи приходит из различных источников. Некоторые из них поступают от множества экспертов в области шифрования, а другая часть генерируется с помощью искусственного интеллекта и вручную проверяется для обеспечения точности и сложности задач. Некоторые из задач используют вопросы с выбором ответа в относительно простом формате для облегчения отдельного стандартизированного автоматического тестирования и оценки. Другая часть теста использует более сложный формат вопросов, и процесс тестирования проводится с использованием комбинации программной автоматизации + ручного тестирования + искусственного интеллекта. Все тестовые задачи оцениваются с использованием метода рассуждения без примеров, мыслевого направления или инструкционных подсказок.

Поскольку сам дизайн эксперимента относительно грубый и не обладает достаточной академической строгостью, вопросы и задачи, используемые для тестирования, далеко не полностью охватывают область шифрования, а тестовая платформа также несовершенна. Поэтому в этой статье не приводятся конкретные экспериментальные данные, а фокус делается на обмене некоторыми идеями, вынесенными из экспериментов.

знание/концепция

В процессе оценки большая языковая модель хорошо показала себя в тестах на базовые знания в различных областях, таких как алгоритмы шифрования, основы блокчейна и приложения DeFi. Например, все модели давали точные ответы на вопросы, которые проверяли понимание концепции доступности данных. Что касается вопроса, который оценивает понимание моделью структуры транзакций Ethereum, хотя каждая модель имеет немного разные ответы в деталях, они, как правило, содержат правильную ключевую информацию. Вопросы с несколькими вариантами ответов, в которых исследуются понятия, еще менее сложны, а точность почти всех моделей превышает 95%.

Концептуальные вопросы и ответы абсолютно сложны для больших моделей.

Вычисление/бизнес-логика

Однако ситуация обратная, когда речь заходит о задачах, требующих специфических расчетов. Простая задача вычисления алгоритма RSA ставит большинство моделей в затруднительное положение. Это легко понять: большие языковые модели работают в основном за счет выявления и воспроизведения закономерностей в обучающих данных, а не за счет глубокого понимания природы математических концепций. Это ограничение особенно очевидно при работе с абстрактными математическими понятиями, такими как модульные операции и экспоненциальные операции. Учитывая, что область криптографии тесно связана с математикой, это означаетПолагаться непосредственно на модели для математических вычислений, связанных с шифрованием, ненадежно。

В других вычислительных проблемах производительность больших языковых моделей также неудовлетворительна. Например, при простом вопросе о расчете неустойчивых потерь AMM, хотя здесь нет сложных математических операций, только 4 из 18 моделей дали правильный ответ. Что касается более простого вопроса о расчете вероятности блока, то все модели дали неправильный ответ. Это означает не только недостатки больших языковых моделей в точных вычислениях, но и отражает их основные проблемы в анализе бизнес-логики. Стоит отметить, что даже математическая оптимизационная модель не смогла продемонстрировать явных преимуществ в расчетных вопросах, и ее производительность была разочаровывающей.

Однако задача математического расчета не является неразрешимой. Если мы внесем небольшую корректировку и потребуем, чтобы LLM предоставляли соответствующий код на Python вместо того, чтобы напрямую вычислять результаты, уровень точности будет значительно улучшен. Если взять в качестве примера вышеупомянутую задачу вычисления RSA, то коды Python, заданные большинством моделей, могут выполняться плавно и давать правильные результаты. В реальных производственных средах могут быть предоставлены предустановленные коды алгоритмов для обхода самовычисления LLM, что аналогично тому, как люди справляются с такими задачами. На уровне бизнес-логики производительность модели также может быть эффективно улучшена с помощью тщательно разработанных подсказок.

Управление приватными ключами и операции с кошельком

Если вы спросите, каков первый сценарий использования криптовалюты для Агента, мой ответ — оплата. Криптовалюту можно считать почти родной формой валюты, созданной искусственным интеллектом. По сравнению со многими препятствиями, с которыми сталкиваются агенты в традиционной финансовой системе, использование технологии шифрования для оснащения себя цифровыми удостоверениями личности и управления средствами через зашифрованные кошельки является естественным выбором. Таким образом, генерация и управление приватными ключами, а также различные операции с кошельком являются основными навыками для Агента, чтобы иметь возможность самостоятельно использовать сеть шифрования.

В основе безопасной генерации закрытых ключей лежат высококачественные случайные числа, которые, очевидно, являются возможностью, которой нет в больших языковых моделях. Тем не менее, модели имеют достаточное представление о безопасности закрытых ключей. При запросе на генерацию закрытого ключа большинство моделей предпочитают использовать код (например, библиотеки, связанные с Python), чтобы помочь пользователям генерировать закрытые ключи независимо друг от друга. Даже если модель напрямую предоставляет закрытый ключ, четко указано, что он предназначен только для демонстрационных целей и не является безопасным закрытым ключом, который можно использовать напрямую. В связи с этим все крупные модели показали удовлетворительные характеристики.

Управление закрытыми ключами сталкивается с некоторыми проблемами, которые в основном связаны с ограничениями, присущими технической архитектуре, а не с отсутствием возможностей модели. При использовании локально развернутой модели сгенерированный закрытый ключ можно считать относительно безопасным. Однако, если используется коммерческая облачная модель, мы должны предположить, что закрытый ключ был предоставлен оператору модели в момент его генерации. Но для Агента, который нацелен на независимую работу, необходимо иметь права закрытого ключа, а это значит, что закрытый ключ не может быть только локальным для пользователя. В этом случае полагаться только на саму модель уже недостаточно для обеспечения безопасности закрытого ключа, и необходимо внедрить дополнительные службы безопасности, такие как доверенная среда выполнения или HSM.

Если предположить, что Агент уже надежно хранит закрытый ключ и выполняет различные базовые операции на этой основе, то различные модели в тесте показали хорошие возможности. Несмотря на то, что в сгенерированных шагах и кодах часто встречаются ошибки, эти проблемы в значительной степени могут быть решены с помощью подходящей инженерной структуры. Можно сказать, что с технической точки зрения для Agent больше не существует особых препятствий для самостоятельного выполнения основных операций с кошельком.

умный контракт

Способность понимать, использовать, писать и определять риски смарт-контрактов является ключевым для AI Агентов для выполнения сложных задач в мире криптовалют, и поэтому также является ключевой областью тестирования экспериментов. Большие языковые модели показали значительный потенциал в этой области, но также выявили некоторые очевидные проблемы.

Почти все модели в тесте правильно ответили на основные понятия контракта, выявили простые ошибки. В плане оптимизации газа контракта большинство моделей могут определить ключевые точки оптимизации и проанализировать конфликты, которые могут быть вызваны оптимизацией. Однако, когда в дело вступает глубокая бизнес-логика, начинают проявляться ограничения больших моделей.

Возьмем в качестве примера контракт на вестинг токенов: все модели правильно понимали функции контракта, и большинство моделей обнаружили несколько уязвимостей со средним и низким уровнем риска. Однако ни одна модель не может самостоятельно обнаружить уязвимость высокого риска, скрытую в бизнес-логике, которая может привести к блокировке некоторых средств при особых обстоятельствах. В нескольких тестах с использованием реальных контрактов модель показала примерно одинаковые результаты.

Это говорит о том, что понимание контрактов в большой модели все еще остается на формальном уровне и не понимает глубокой бизнес-логики. Однако, получив дополнительные подсказки, некоторые модели в итоге смогли самостоятельно выявить глубоко скрытые уязвимости в вышеупомянутых контрактах. Основываясь на этом суждении о производительности, при поддержке хорошего инженерного проектирования, большая модель в основном может служить в качестве второго пилота в области смарт-контрактов. Тем не менее, нам еще предстоит пройти долгий путь, прежде чем мы сможем самостоятельно выполнять такие важные задачи, как аудит контрактов.

Одним из важных моментов является то, что задачи, связанные с кодом в эксперименте, в основном предназначены для контрактов с простой логикой и менее 2000 строк кода. Для более крупных и сложных проектов, без тонкой настройки или сложной инженерии подсказок, я считаю, что это, очевидно, выходит за пределы возможностей текущей модели и не было включено в тест. Кроме того, этот тест касается только Solidity и не включает другие языки смарт-контрактов, такие как Rust и Move.

Помимо вышеуказанного тестового содержания, эксперимент также охватывает множество аспектов, включая сценарии DeFi, DAO и его управление, анализ данных on-chain, консенсусный механизм и токеномика. Большие языковые модели продемонстрировали определенные способности в этих аспектах. Учитывая, что многие тесты все еще находятся в процессе и методы и структуры тестирования постоянно оптимизируются, настоящая статья пока не будет углубляться в эти области.

Различия моделей

Среди всех больших языковых моделей, участвовавших в оценке, GPT-4o и Claude 3.5 Sonnet продолжили свои отличные результаты в других областях и являются безусловными лидерами. Сталкиваясь с базовыми вопросами, обе модели почти всегда могут дать точные ответы; При анализе сложных сценариев они могут предоставить подробные и хорошо документированные сведения. Он даже показывает высокий процент выигрыша в вычислительных задачах, с которыми большие модели не справляются. Конечно, этот «высокий» процент успеха относителен и еще не достиг уровня стабильного выпуска продукции в производственной среде.

В лагере модели с открытым исходным кодом Llama 3.1-405B значительно опережает своих конкурентов благодаря большому масштабу параметров и продвинутым модельным алгоритмам. В других моделях с открытым исходным кодом с меньшими размерами параметров нет значительной разницы в производительности между моделями. Хотя оценки немного отличаются, в целом они далеко от проходной линии.

Поэтому, если вы хотите в настоящее время создавать приложения искусственного интеллекта, связанные с шифрованием, эти модели с небольшими и средними параметрами не являются подходящим выбором.

В нашем обзоре особенно выделяются две модели. Первая - модель Phi-3 3.8B, запущенная компанией Microsoft. Она является самой маленькой моделью, участвующей в данном эксперименте. Однако она достигает уровня производительности, эквивалентного модели 8B-12B, при этом имея меньше чем в два раза меньше параметров. В некоторых конкретных категориях она даже лучше. Этот результат подчеркивает важность оптимизации архитектуры модели и стратегий обучения, которые не полагаются только на увеличение размера параметров.

И модель Command-R от Cohere стала неожиданным «темным лошадью» - обратным. Command-R не так хорошо известен по сравнению с другими моделями, но Cohere - крупная модельная компания, сосредоточенная на рынке 2B. Я думаю, что здесь все еще есть много точек сходимости с такими областями, как разработка агентов, поэтому она была специально включена в тестовый объем. Однако Command-R с 35B параметрами занимает последнее место в большинстве тестов, уступая многим моделям ниже 10B.

Этот результат вызвал размышления: когда была выпущена команда Command-R, она сосредоточилась на повышении возможностей поиска и генерации, и даже не опубликовала результаты регулярных тестов производительности. Это означает, что она является «приватным ключом», разблокирующим ее полный потенциал только в определенных сценариях?

Ограничения эксперимента

В этой серии тестов мы получили предварительное представление о возможностях ИИ в области шифрования. Конечно, эти тесты далеки от профессиональных стандартов. Охват набора данных далеко не достаточен, количественные стандарты ответов относительно приблизительны, и по-прежнему отсутствует усовершенствованный и более точный механизм подсчета баллов. Это повлияет на точность результатов оценки и может привести к недооценке производительности некоторых моделей.

В части метода тестирования эксперимент использовал только один метод обучения без учителя и не исследовал методы, такие как цепочки мышления и обучение на небольшом количестве данных, которые могут вдохновить больший потенциал модели. В части параметров модели эксперименты использовали стандартные параметры модели, и влияние различных настроек параметров на производительность модели не исследовалось. Эти общие методы тестирования ограничивают наш всесторонний анализ потенциала модели и не позволяют полностью исследовать различия в производительности модели в конкретных условиях.

Хотя условия тестирования были относительно простыми, эти эксперименты все равно принесли много ценных идей и стали ориентиром для разработчиков при создании приложений.

Мир криптовалют нуждается в собственном эталоне

В области искусственного интеллекта стандарты играют ключевую роль. Бурное развитие современной технологии глубокого обучения началось с ImageNET, завершенного профессором Ли Фейфей в 2012 году, который является стандартизированным стандартом и набором данных в области компьютерного зрения.

Обеспечивая единый стандарт оценки, бенчмарки не только предоставляют разработчикам четкие цели и ориентиры, но и способствуют технологическому прогрессу в отрасли. Это объясняет, почему каждая вновь выпущенная большая языковая модель сосредоточена на объявлении своих результатов по различным бенчмаркам. Эти результаты становятся «универсальным языком» возможностей модели, позволяя исследователям находить прорывы, разработчикам выбирать наиболее подходящие модели для конкретных задач, а пользователям принимать информированные решения на основе объективных данных. Что более важно, тесты на бенчмарках часто предвещают будущее направление применения искусственного интеллекта, направляя инвестиции в ресурсы и фокус исследований.

Если мы считаем, что на пересечении искусственного интеллекта и криптографии есть огромный потенциал, то создание специальных криптографических стандартов становится срочной задачей. Создание стандартов может стать ключевым мостом, соединяющим две области искусственного интеллекта и шифрования, стимулировать инновации и предоставить четкое руководство для будущих приложений.

Тем не менее, по сравнению со зрелыми бенчмарками в других областях, создание эталонных показателей в области шифрования сталкивается с уникальными проблемами: технология шифрования быстро развивается, отраслевая система знаний еще не укреплена, и существует отсутствие консенсуса по нескольким основным направлениям. Как междисциплинарная область, шифрование охватывает криптографию, распределенные системы, экономику и т. д., и его сложность выходит далеко за рамки одной области. Что еще более сложно, так это то, что бенчмарк шифрования должен не только оценивать знания, но и изучать практическую способность ИИ использовать технологию шифрования, что требует разработки новой архитектуры оценки. Отсутствие соответствующих наборов данных еще больше усложняет задачу.

Сложность и важность этой задачи диктуют, что она не может быть выполнена одним человеком или командой. Он должен объединить мудрость многих сторон, от пользователей, разработчиков, экспертов по криптографии, исследователей шифрования до большего количества людей в междисциплинарных областях, и опирается на широкое участие сообщества и консенсус. Таким образом, бенчмарк шифрования нуждается в более широком обсуждении, потому что это не только техническая работа, но и глубокое размышление о том, как мы понимаем эту новую технологию.

Отказ от ответственности:

  1. Эта статья перепечатана из [Empower Labs]. All copyrights belong to the original author [Wang Chao]. Если есть возражения против этой перепечатки, пожалуйста, свяжитесь с Gate Learn команды, и они оперативно с этим справятся.
  2. Ответственность за отказ: Взгляды и мнения, выраженные в этой статье, являются исключительно мнениями автора и не являются инвестиционными советами.
  3. Переводы статьи на другие языки выполняются командой Gate Learn. Если не указано иное, копирование, распространение или плагиатство переведенных статей запрещено.

Сможет ли ИИ выжить в криптомире: 18 крупных модельных криптоэкспериментов

ПродвинутыйSep 26, 2024
Искусственный интеллект хорошо справляется с алгоритмами шифрования и знаниями о блокчейне, но плохо справляется с математическими вычислениями и сложным логическим анализом. Очень важно разрабатывать специальные бенчмарки искусственного интеллекта для шифрования, которые будут предоставлять важную ссылку для применения искусственного интеллекта в области шифрования.
Сможет ли ИИ выжить в криптомире: 18 крупных модельных криптоэкспериментов

В хронике технологического прогресса часто появляются революционные технологии, каждая из которых ведет изменения в свою эпоху. И когда две революционные технологии встречаются, их столкновение часто имеет экспоненциальный эффект. Сегодня мы находимся в такой исторический момент: искусственный интеллект и технология шифрования, две одинаково революционные новые технологии, входят на центральную сцену, держась за руки.

Мы предполагаем, что многие проблемы в области искусственного интеллекта могут быть решены с помощью технологии шифрования; мы с нетерпением ждем создания автономных экономических сетей AI Agent и содействия широкому принятию технологии шифрования; мы также надеемся, что искусственный интеллект сможет ускорить развитие существующих сценариев в сфере шифрования. На это обращено бесчисленное количество глаз, и вливается огромное количество средств. Как и любое модное слово, оно воплощает желание людей к инновациям, видение будущего, а также содержит неуправляемую амбицию и жадность.

Однако во всей этой сумятице мы знаем очень мало о самых основных вопросах. Насколько хорошо искусственный интеллект знает шифрование? Обладает ли Агент, оснащенный большой языковой моделью, настоящей способностью использовать инструменты шифрования? Насколько различаются результаты разных моделей при выполнении задач по шифрованию?

Ответы на эти вопросы определят взаимное влияние искусственного интеллекта и технологии шифрования, а также являются важными для выбора направления продукта и технологического маршрута в этой пересекающейся области. Чтобы изучить эти вопросы, я провел некоторые оценочные эксперименты на больших моделях языка. Оценивая их знания и возможности в области шифрования, мы измеряем уровень применения шифрования искусственным интеллектом и определяем потенциал и сложности интеграции искусственного интеллекта и технологии шифрования.

Давайте сначала поговорим о заключении

Большая модель языка хорошо справляется с основными знаниями криптографии и блокчейна, и хорошо понимает экосистему шифрования, но плохо справляется с математическими расчетами и сложным анализом бизнес-логики. В отношении приватных ключей и основных операций с кошельком модель имеет удовлетворительную базу, но сталкивается с серьезными проблемами, связанными с сохранением приватных ключей в облаке. Многие модели могут генерировать эффективный код смарт-контракта для простых сценариев, но не могут самостоятельно выполнять сложные задачи, такие как аудит контрактов и создание сложных контрактов.

Коммерческие модели закрытого исходного кода обычно имеют большое преимущество. В лагере открытого исходного кода хорошо себя показала только Llama 3.1-405B, в то время как все модели открытого исходного кода с более маленькими размерами параметров потерпели неудачу. Однако здесь есть потенциал. Благодаря направляющему словесному руководству, цепочке мыслей и технологии обучения с малым числом примеров производительность всех моделей была значительно улучшена. У ведущих моделей уже есть сильная техническая осуществимость в некоторых вертикальных сценариях применения.

Детали эксперимента

В качестве объектов оценки были выбраны 18 представительных языковых моделей, включая:

  • Модели закрытого исходного кода: GPT-4o, GPT-4o Mini, Claude 3.5 Sonnet, Gemini 1.5 Pro, Grok2 beta (временно закрытый исходный код)
  • Модели с открытым исходным кодом: Llama 3.1 8B/70b/405B, Mistral Nemo 12B, DeepSeek-coder-v2, Nous-hermes2, Phi3 3.8B/14b, Gemma2 9B\27B, Command-R
  • Математические модели оптимизации: Qwen2-math-72B, MathΣtral

Эти модели охватывают основные коммерческие и популярные модели с открытым исходным кодом, с количеством параметров, варьирующимся более ста раз от 3,8 млрд до 405 млрд. Учитывая близкую связь между технологией шифрования и математикой, для эксперимента были специально выбраны две математические оптимизационные модели.

Области знаний, охваченные экспериментом, включают криптографию, основы блокчейна, операции с закрытыми ключами и кошельками, смарт-контракты, DAO и управление, консенсус и экономические модели, Dapp/DeFi/NFT, анализ данных в блокчейне и т. д. Каждое поле состоит из серии вопросов и заданий в диапазоне от простых до сложных, которые не только проверяют запас знаний модели, но и проверяют ее работоспособность в прикладных сценариях с помощью имитационных задач.

Дизайн задачи приходит из различных источников. Некоторые из них поступают от множества экспертов в области шифрования, а другая часть генерируется с помощью искусственного интеллекта и вручную проверяется для обеспечения точности и сложности задач. Некоторые из задач используют вопросы с выбором ответа в относительно простом формате для облегчения отдельного стандартизированного автоматического тестирования и оценки. Другая часть теста использует более сложный формат вопросов, и процесс тестирования проводится с использованием комбинации программной автоматизации + ручного тестирования + искусственного интеллекта. Все тестовые задачи оцениваются с использованием метода рассуждения без примеров, мыслевого направления или инструкционных подсказок.

Поскольку сам дизайн эксперимента относительно грубый и не обладает достаточной академической строгостью, вопросы и задачи, используемые для тестирования, далеко не полностью охватывают область шифрования, а тестовая платформа также несовершенна. Поэтому в этой статье не приводятся конкретные экспериментальные данные, а фокус делается на обмене некоторыми идеями, вынесенными из экспериментов.

знание/концепция

В процессе оценки большая языковая модель хорошо показала себя в тестах на базовые знания в различных областях, таких как алгоритмы шифрования, основы блокчейна и приложения DeFi. Например, все модели давали точные ответы на вопросы, которые проверяли понимание концепции доступности данных. Что касается вопроса, который оценивает понимание моделью структуры транзакций Ethereum, хотя каждая модель имеет немного разные ответы в деталях, они, как правило, содержат правильную ключевую информацию. Вопросы с несколькими вариантами ответов, в которых исследуются понятия, еще менее сложны, а точность почти всех моделей превышает 95%.

Концептуальные вопросы и ответы абсолютно сложны для больших моделей.

Вычисление/бизнес-логика

Однако ситуация обратная, когда речь заходит о задачах, требующих специфических расчетов. Простая задача вычисления алгоритма RSA ставит большинство моделей в затруднительное положение. Это легко понять: большие языковые модели работают в основном за счет выявления и воспроизведения закономерностей в обучающих данных, а не за счет глубокого понимания природы математических концепций. Это ограничение особенно очевидно при работе с абстрактными математическими понятиями, такими как модульные операции и экспоненциальные операции. Учитывая, что область криптографии тесно связана с математикой, это означаетПолагаться непосредственно на модели для математических вычислений, связанных с шифрованием, ненадежно。

В других вычислительных проблемах производительность больших языковых моделей также неудовлетворительна. Например, при простом вопросе о расчете неустойчивых потерь AMM, хотя здесь нет сложных математических операций, только 4 из 18 моделей дали правильный ответ. Что касается более простого вопроса о расчете вероятности блока, то все модели дали неправильный ответ. Это означает не только недостатки больших языковых моделей в точных вычислениях, но и отражает их основные проблемы в анализе бизнес-логики. Стоит отметить, что даже математическая оптимизационная модель не смогла продемонстрировать явных преимуществ в расчетных вопросах, и ее производительность была разочаровывающей.

Однако задача математического расчета не является неразрешимой. Если мы внесем небольшую корректировку и потребуем, чтобы LLM предоставляли соответствующий код на Python вместо того, чтобы напрямую вычислять результаты, уровень точности будет значительно улучшен. Если взять в качестве примера вышеупомянутую задачу вычисления RSA, то коды Python, заданные большинством моделей, могут выполняться плавно и давать правильные результаты. В реальных производственных средах могут быть предоставлены предустановленные коды алгоритмов для обхода самовычисления LLM, что аналогично тому, как люди справляются с такими задачами. На уровне бизнес-логики производительность модели также может быть эффективно улучшена с помощью тщательно разработанных подсказок.

Управление приватными ключами и операции с кошельком

Если вы спросите, каков первый сценарий использования криптовалюты для Агента, мой ответ — оплата. Криптовалюту можно считать почти родной формой валюты, созданной искусственным интеллектом. По сравнению со многими препятствиями, с которыми сталкиваются агенты в традиционной финансовой системе, использование технологии шифрования для оснащения себя цифровыми удостоверениями личности и управления средствами через зашифрованные кошельки является естественным выбором. Таким образом, генерация и управление приватными ключами, а также различные операции с кошельком являются основными навыками для Агента, чтобы иметь возможность самостоятельно использовать сеть шифрования.

В основе безопасной генерации закрытых ключей лежат высококачественные случайные числа, которые, очевидно, являются возможностью, которой нет в больших языковых моделях. Тем не менее, модели имеют достаточное представление о безопасности закрытых ключей. При запросе на генерацию закрытого ключа большинство моделей предпочитают использовать код (например, библиотеки, связанные с Python), чтобы помочь пользователям генерировать закрытые ключи независимо друг от друга. Даже если модель напрямую предоставляет закрытый ключ, четко указано, что он предназначен только для демонстрационных целей и не является безопасным закрытым ключом, который можно использовать напрямую. В связи с этим все крупные модели показали удовлетворительные характеристики.

Управление закрытыми ключами сталкивается с некоторыми проблемами, которые в основном связаны с ограничениями, присущими технической архитектуре, а не с отсутствием возможностей модели. При использовании локально развернутой модели сгенерированный закрытый ключ можно считать относительно безопасным. Однако, если используется коммерческая облачная модель, мы должны предположить, что закрытый ключ был предоставлен оператору модели в момент его генерации. Но для Агента, который нацелен на независимую работу, необходимо иметь права закрытого ключа, а это значит, что закрытый ключ не может быть только локальным для пользователя. В этом случае полагаться только на саму модель уже недостаточно для обеспечения безопасности закрытого ключа, и необходимо внедрить дополнительные службы безопасности, такие как доверенная среда выполнения или HSM.

Если предположить, что Агент уже надежно хранит закрытый ключ и выполняет различные базовые операции на этой основе, то различные модели в тесте показали хорошие возможности. Несмотря на то, что в сгенерированных шагах и кодах часто встречаются ошибки, эти проблемы в значительной степени могут быть решены с помощью подходящей инженерной структуры. Можно сказать, что с технической точки зрения для Agent больше не существует особых препятствий для самостоятельного выполнения основных операций с кошельком.

умный контракт

Способность понимать, использовать, писать и определять риски смарт-контрактов является ключевым для AI Агентов для выполнения сложных задач в мире криптовалют, и поэтому также является ключевой областью тестирования экспериментов. Большие языковые модели показали значительный потенциал в этой области, но также выявили некоторые очевидные проблемы.

Почти все модели в тесте правильно ответили на основные понятия контракта, выявили простые ошибки. В плане оптимизации газа контракта большинство моделей могут определить ключевые точки оптимизации и проанализировать конфликты, которые могут быть вызваны оптимизацией. Однако, когда в дело вступает глубокая бизнес-логика, начинают проявляться ограничения больших моделей.

Возьмем в качестве примера контракт на вестинг токенов: все модели правильно понимали функции контракта, и большинство моделей обнаружили несколько уязвимостей со средним и низким уровнем риска. Однако ни одна модель не может самостоятельно обнаружить уязвимость высокого риска, скрытую в бизнес-логике, которая может привести к блокировке некоторых средств при особых обстоятельствах. В нескольких тестах с использованием реальных контрактов модель показала примерно одинаковые результаты.

Это говорит о том, что понимание контрактов в большой модели все еще остается на формальном уровне и не понимает глубокой бизнес-логики. Однако, получив дополнительные подсказки, некоторые модели в итоге смогли самостоятельно выявить глубоко скрытые уязвимости в вышеупомянутых контрактах. Основываясь на этом суждении о производительности, при поддержке хорошего инженерного проектирования, большая модель в основном может служить в качестве второго пилота в области смарт-контрактов. Тем не менее, нам еще предстоит пройти долгий путь, прежде чем мы сможем самостоятельно выполнять такие важные задачи, как аудит контрактов.

Одним из важных моментов является то, что задачи, связанные с кодом в эксперименте, в основном предназначены для контрактов с простой логикой и менее 2000 строк кода. Для более крупных и сложных проектов, без тонкой настройки или сложной инженерии подсказок, я считаю, что это, очевидно, выходит за пределы возможностей текущей модели и не было включено в тест. Кроме того, этот тест касается только Solidity и не включает другие языки смарт-контрактов, такие как Rust и Move.

Помимо вышеуказанного тестового содержания, эксперимент также охватывает множество аспектов, включая сценарии DeFi, DAO и его управление, анализ данных on-chain, консенсусный механизм и токеномика. Большие языковые модели продемонстрировали определенные способности в этих аспектах. Учитывая, что многие тесты все еще находятся в процессе и методы и структуры тестирования постоянно оптимизируются, настоящая статья пока не будет углубляться в эти области.

Различия моделей

Среди всех больших языковых моделей, участвовавших в оценке, GPT-4o и Claude 3.5 Sonnet продолжили свои отличные результаты в других областях и являются безусловными лидерами. Сталкиваясь с базовыми вопросами, обе модели почти всегда могут дать точные ответы; При анализе сложных сценариев они могут предоставить подробные и хорошо документированные сведения. Он даже показывает высокий процент выигрыша в вычислительных задачах, с которыми большие модели не справляются. Конечно, этот «высокий» процент успеха относителен и еще не достиг уровня стабильного выпуска продукции в производственной среде.

В лагере модели с открытым исходным кодом Llama 3.1-405B значительно опережает своих конкурентов благодаря большому масштабу параметров и продвинутым модельным алгоритмам. В других моделях с открытым исходным кодом с меньшими размерами параметров нет значительной разницы в производительности между моделями. Хотя оценки немного отличаются, в целом они далеко от проходной линии.

Поэтому, если вы хотите в настоящее время создавать приложения искусственного интеллекта, связанные с шифрованием, эти модели с небольшими и средними параметрами не являются подходящим выбором.

В нашем обзоре особенно выделяются две модели. Первая - модель Phi-3 3.8B, запущенная компанией Microsoft. Она является самой маленькой моделью, участвующей в данном эксперименте. Однако она достигает уровня производительности, эквивалентного модели 8B-12B, при этом имея меньше чем в два раза меньше параметров. В некоторых конкретных категориях она даже лучше. Этот результат подчеркивает важность оптимизации архитектуры модели и стратегий обучения, которые не полагаются только на увеличение размера параметров.

И модель Command-R от Cohere стала неожиданным «темным лошадью» - обратным. Command-R не так хорошо известен по сравнению с другими моделями, но Cohere - крупная модельная компания, сосредоточенная на рынке 2B. Я думаю, что здесь все еще есть много точек сходимости с такими областями, как разработка агентов, поэтому она была специально включена в тестовый объем. Однако Command-R с 35B параметрами занимает последнее место в большинстве тестов, уступая многим моделям ниже 10B.

Этот результат вызвал размышления: когда была выпущена команда Command-R, она сосредоточилась на повышении возможностей поиска и генерации, и даже не опубликовала результаты регулярных тестов производительности. Это означает, что она является «приватным ключом», разблокирующим ее полный потенциал только в определенных сценариях?

Ограничения эксперимента

В этой серии тестов мы получили предварительное представление о возможностях ИИ в области шифрования. Конечно, эти тесты далеки от профессиональных стандартов. Охват набора данных далеко не достаточен, количественные стандарты ответов относительно приблизительны, и по-прежнему отсутствует усовершенствованный и более точный механизм подсчета баллов. Это повлияет на точность результатов оценки и может привести к недооценке производительности некоторых моделей.

В части метода тестирования эксперимент использовал только один метод обучения без учителя и не исследовал методы, такие как цепочки мышления и обучение на небольшом количестве данных, которые могут вдохновить больший потенциал модели. В части параметров модели эксперименты использовали стандартные параметры модели, и влияние различных настроек параметров на производительность модели не исследовалось. Эти общие методы тестирования ограничивают наш всесторонний анализ потенциала модели и не позволяют полностью исследовать различия в производительности модели в конкретных условиях.

Хотя условия тестирования были относительно простыми, эти эксперименты все равно принесли много ценных идей и стали ориентиром для разработчиков при создании приложений.

Мир криптовалют нуждается в собственном эталоне

В области искусственного интеллекта стандарты играют ключевую роль. Бурное развитие современной технологии глубокого обучения началось с ImageNET, завершенного профессором Ли Фейфей в 2012 году, который является стандартизированным стандартом и набором данных в области компьютерного зрения.

Обеспечивая единый стандарт оценки, бенчмарки не только предоставляют разработчикам четкие цели и ориентиры, но и способствуют технологическому прогрессу в отрасли. Это объясняет, почему каждая вновь выпущенная большая языковая модель сосредоточена на объявлении своих результатов по различным бенчмаркам. Эти результаты становятся «универсальным языком» возможностей модели, позволяя исследователям находить прорывы, разработчикам выбирать наиболее подходящие модели для конкретных задач, а пользователям принимать информированные решения на основе объективных данных. Что более важно, тесты на бенчмарках часто предвещают будущее направление применения искусственного интеллекта, направляя инвестиции в ресурсы и фокус исследований.

Если мы считаем, что на пересечении искусственного интеллекта и криптографии есть огромный потенциал, то создание специальных криптографических стандартов становится срочной задачей. Создание стандартов может стать ключевым мостом, соединяющим две области искусственного интеллекта и шифрования, стимулировать инновации и предоставить четкое руководство для будущих приложений.

Тем не менее, по сравнению со зрелыми бенчмарками в других областях, создание эталонных показателей в области шифрования сталкивается с уникальными проблемами: технология шифрования быстро развивается, отраслевая система знаний еще не укреплена, и существует отсутствие консенсуса по нескольким основным направлениям. Как междисциплинарная область, шифрование охватывает криптографию, распределенные системы, экономику и т. д., и его сложность выходит далеко за рамки одной области. Что еще более сложно, так это то, что бенчмарк шифрования должен не только оценивать знания, но и изучать практическую способность ИИ использовать технологию шифрования, что требует разработки новой архитектуры оценки. Отсутствие соответствующих наборов данных еще больше усложняет задачу.

Сложность и важность этой задачи диктуют, что она не может быть выполнена одним человеком или командой. Он должен объединить мудрость многих сторон, от пользователей, разработчиков, экспертов по криптографии, исследователей шифрования до большего количества людей в междисциплинарных областях, и опирается на широкое участие сообщества и консенсус. Таким образом, бенчмарк шифрования нуждается в более широком обсуждении, потому что это не только техническая работа, но и глубокое размышление о том, как мы понимаем эту новую технологию.

Отказ от ответственности:

  1. Эта статья перепечатана из [Empower Labs]. All copyrights belong to the original author [Wang Chao]. Если есть возражения против этой перепечатки, пожалуйста, свяжитесь с Gate Learn команды, и они оперативно с этим справятся.
  2. Ответственность за отказ: Взгляды и мнения, выраженные в этой статье, являются исключительно мнениями автора и не являются инвестиционными советами.
  3. Переводы статьи на другие языки выполняются командой Gate Learn. Если не указано иное, копирование, распространение или плагиатство переведенных статей запрещено.
Начните торговать сейчас
Зарегистрируйтесь сейчас и получите ваучер на
$100
!