¿Puede la IA sobrevivir en el mundo Cripto: 18 experimentos de criptomonedas con modelos grandes?

AvanzadoSep 26, 2024
La IA se desempeña bien en algoritmos de cifrado y conocimientos de blockchain, pero no se desempeña bien en cálculos matemáticos y análisis lógico complejo. Es muy importante desarrollar puntos de referencia de IA específicos para el cifrado, lo cual proporcionará una referencia importante para la aplicación de la IA en el campo del cifrado.
¿Puede la IA sobrevivir en el mundo Cripto: 18 experimentos de criptomonedas con modelos grandes?

En la crónica del progreso tecnológico, a menudo aparecen tecnologías revolucionarias de forma independiente, cada una liderando cambios en una era. Y cuando dos tecnologías revolucionarias se encuentran, su colisión a menudo tiene un impacto exponencial. Hoy, nos encontramos en un momento histórico: la inteligencia artificial y la tecnología de encriptación, dos tecnologías igualmente disruptivas, están entrando juntas en el centro del escenario.

Imaginamos que muchos desafíos en el campo de la IA pueden ser resueltos por la tecnología de cifrado; esperamos que el Agente de IA construya redes económicas autónomas y promueva la adopción a gran escala de la tecnología de cifrado; también esperamos que la IA acelere el desarrollo de escenarios existentes en el campo de la criptografía. Innumerables ojos están enfocados en esto, y enormes fondos están vertiendo. Al igual que cualquier palabra de moda, encarna el deseo de las personas por la innovación, la visión del futuro, y también contiene ambición y codicia incontrolables.

Sin embargo, en todo este bullicio, sabemos muy poco sobre los problemas más básicos. ¿Cuánto sabe la IA sobre el cifrado? ¿Un agente equipado con un gran modelo de lenguaje tiene la capacidad real de utilizar herramientas de cifrado? ¿Cuánta diferencia hay en el rendimiento de diferentes modelos en tareas de cifrado?

Las respuestas a estas preguntas determinarán la influencia mutua de la inteligencia artificial y la tecnología de encriptación, y también son cruciales para la dirección del producto y la selección de la ruta tecnológica en este campo interdisciplinario. Para explorar estos problemas, realicé algunos experimentos de evaluación en modelos de lenguaje grandes. Al evaluar su conocimiento y capacidades en el campo de la encriptación, medimos el nivel de aplicación de la encriptación de la inteligencia artificial y determinamos el potencial y los desafíos de la integración de la inteligencia artificial y la tecnología de encriptación.

Hablemos primero sobre la conclusión

El gran modelo de lenguaje tiene un buen desempeño en conocimientos básicos de criptografía y blockchain, y comprende bien el ecosistema de encriptación, pero tiene un mal desempeño en cálculos matemáticos y análisis de lógica empresarial compleja. En cuanto a las claves privadas y las operaciones básicas de la billetera, el modelo tiene una base satisfactoria, pero enfrenta el grave desafío de cómo mantener las claves privadas en la nube. Muchos modelos pueden generar código efectivo de contrato inteligente para escenarios simples, pero no pueden realizar de forma independiente tareas difíciles como la auditoría de contratos y la creación de contratos complejos.

Los modelos comerciales de código cerrado generalmente tienen una gran ventaja. En el campo de código abierto, solo Llama 3.1-405B se desempeñó bien, mientras que todos los modelos de código abierto con tamaños de parámetros más pequeños fracasaron. Sin embargo, existe potencial. A través de la orientación de palabras rápidas, el razonamiento de cadenas de pensamiento y la tecnología de aprendizaje de pocas tomas, el rendimiento de todos los modelos ha mejorado considerablemente. Los modelos líderes ya tienen una fuerte viabilidad técnica en algunos escenarios de aplicación vertical.

Detalles del experimento

Se seleccionaron 18 modelos de lenguaje representativos como objetos de evaluación, incluyendo:

  • Modelos de código cerrado: GPT-4o, GPT-4o Mini, Claude 3.5 Sonnet, Gemini 1.5 Pro, Grok2 beta (temporalmente de código cerrado)
  • Modelos de código abierto: Llama 3.1 8B/70b/405B, Mistral Nemo 12B, DeepSeek-coder-v2, Nous-hermes2, Phi3 3.8B/14b, Gemma2 9B\27B, Command-R
  • Modelos de optimización matemática: Qwen2-math-72B, MathΣtral

Estos modelos abarcan modelos comerciales y de código abierto populares, con cantidades de parámetros que van desde más de cien veces desde 3.8B hasta 405B. Teniendo en cuenta la estrecha relación entre la tecnología de encriptación y las matemáticas, se seleccionaron especialmente dos modelos de optimización matemática para el experimento.

Las áreas de conocimiento cubiertas por el experimento incluyen criptografía, conceptos básicos de blockchain, operaciones de clave privada y monedero, contratos inteligentes, DAO y gobernanza, modelos de consenso y económicos, Dapp/DeFi/NFT, análisis de datos en cadena, etc. Cada campo consta de una serie de preguntas y tareas que van desde fáciles hasta difíciles, lo que no solo prueba la reserva de conocimientos del modelo, sino también su rendimiento en escenarios de aplicación a través de tareas de simulación.

El diseño de las tareas proviene de diversas fuentes. Algunas provienen de la entrada de múltiples expertos en el campo de la encriptación, y la otra parte se genera con la ayuda de la IA y se revisa manualmente para garantizar la precisión y el desafío de las tareas. Algunas de las tareas utilizan preguntas de opción múltiple en un formato relativamente simple para facilitar la prueba y evaluación automatizadas estandarizadas. Otra parte de la prueba adopta un formato de pregunta más complejo, y el proceso de prueba se realiza mediante una combinación de automatización de programas + manual + IA. Todas las tareas de prueba se evalúan utilizando un método de razonamiento sin muestra, sin proporcionar ningún ejemplo, guía de pensamiento o indicaciones instructivas.

Dado que el diseño del experimento en sí es relativamente rudimentario y no tiene suficiente rigor académico, las preguntas y tareas utilizadas para las pruebas están lejos de cubrir completamente el campo de la criptografía, y el marco de pruebas también es inmaduro. Por lo tanto, este artículo no lista datos experimentales específicos, sino que se centra en compartir algunas ideas obtenidas de los experimentos.

conocimiento/concepto

Durante el proceso de evaluación, el gran modelo de lenguaje tuvo un buen desempeño en pruebas de conocimientos básicos en varios campos como algoritmos de encriptación, conceptos básicos de blockchain y aplicaciones de DeFi. Por ejemplo, todos los modelos dieron respuestas precisas a preguntas que evaluaban la comprensión del concepto de disponibilidad de datos. En cuanto a la pregunta que evalúa la comprensión del modelo sobre la estructura de transacciones de Ethereum, aunque cada modelo tiene respuestas ligeramente diferentes en los detalles, generalmente contienen información clave correcta. Las preguntas de opción múltiple que examinan conceptos son incluso menos difíciles y la precisión de casi todos los modelos supera el 95%.

Las preguntas y respuestas conceptuales son completamente difíciles para los modelos grandes.

Lógica Computacional / Lógica Empresarial

Sin embargo, la situación se invierte cuando se trata de problemas que requieren cálculos específicos. Un simple problema de cálculo de algoritmo RSA pone en dificultad a la mayoría de los modelos. Es fácil de entender: los grandes modelos de lenguaje operan principalmente identificando y replicando patrones en los datos de entrenamiento, en lugar de comprender profundamente la naturaleza de los conceptos matemáticos. Esta limitación es particularmente obvia al tratar con conceptos matemáticos abstractos como las operaciones modulares y exponenciales. Dado que el campo de la criptografía está estrechamente relacionado con las matemáticas, esto significa que depender directamente de los modelos para cálculos matemáticos relacionados con la encriptación es poco confiable.

En otros problemas informáticos, el rendimiento de los grandes modelos de lenguaje también es insatisfactorio. Por ejemplo, para la simple pregunta de calcular la pérdida impermanente de AMM, aunque no implica operaciones matemáticas complejas, solo 4 de los 18 modelos dieron la respuesta correcta. En cuanto a otra pregunta más básica sobre el cálculo de la probabilidad de un bloque, todos los modelos dieron la respuesta incorrecta. Desconcertó a todos los modelos y ninguno de ellos acertó. Esto no solo expone las deficiencias de los grandes modelos de lenguaje en cálculos precisos, sino que también refleja sus principales problemas en el análisis de la lógica empresarial. Cabe destacar que incluso el modelo de optimización matemática no pudo mostrar ventajas evidentes en preguntas de cálculo y su rendimiento fue decepcionante.

Sin embargo, el problema del cálculo matemático no es irresoluble. Si hacemos un ligero ajuste y requerimos que LLMs proporcionen código Python correspondiente en lugar de calcular directamente los resultados, la tasa de precisión mejorará considerablemente. Tomando el problema de cálculo RSA mencionado anteriormente como ejemplo, los códigos Python dados por la mayoría de los modelos pueden ejecutarse sin problemas y producir resultados correctos. En entornos de producción reales, se pueden proporcionar códigos de algoritmos preestablecidos para evitar el auto cálculo de LLMs, lo que es similar a cómo los humanos manejan tales tareas. A nivel de lógica empresarial, el rendimiento del modelo también puede mejorarse de manera efectiva a través de una orientación cuidadosamente diseñada de palabras de indicación.

Gestión de claves privadas y operaciones de monedero

Si preguntas cuál es el primer escenario para que un Agente use criptomonedas, mi respuesta es el pago. Las criptomonedas casi pueden considerarse una forma de moneda nativa de la IA. En comparación con los numerosos obstáculos a los que se enfrentan los agentes en el sistema financiero tradicional, es una elección natural utilizar la tecnología de cifrado para equiparse con identidades digitales y administrar fondos a través de monederos encriptados. Por lo tanto, la generación y gestión de claves privadas y diversas operaciones de monedero constituyen los requisitos de habilidades más básicos para que un Agente pueda utilizar de forma independiente la red de cifrado.

El núcleo de la generación segura de claves privadas radica en números aleatorios de alta calidad, que obviamente es una capacidad que los modelos de lenguaje grandes no tienen. Sin embargo, los modelos tienen suficiente comprensión de la seguridad de la clave privada. Cuando se les pide que generen una clave privada, la mayoría de los modelos optan por usar código (como bibliotecas relacionadas con Python) para guiar a los usuarios a generar claves privadas de forma independiente. Incluso si un modelo proporciona directamente una clave privada, se indica claramente que esto es solo para fines de demostración y no es una clave privada segura que se pueda usar directamente. En este sentido, todos los modelos grandes mostraron un rendimiento satisfactorio.

La gestión de claves privadas se enfrenta a algunos desafíos, que se deben principalmente a las limitaciones inherentes de la arquitectura técnica más que a la falta de capacidades del modelo. Cuando se utiliza un modelo implementado localmente, la clave privada generada se puede considerar relativamente segura. Sin embargo, si se utiliza un modelo de nube comercial, debemos asumir que la clave privada ha sido expuesta al operador del modelo en el momento en que se genera. Pero para un agente que pretende trabajar de forma independiente, es necesario tener permisos de clave privada, lo que significa que la clave privada no puede ser solo local para el usuario. En este caso, confiar únicamente en el modelo en sí ya no es suficiente para garantizar la seguridad de la clave privada, y es necesario introducir servicios de seguridad adicionales, como un entorno de ejecución de confianza o HSM.

Si se asume que el Agente ya tiene de forma segura la clave privada y realiza varias operaciones básicas sobre esta base, los diversos modelos en la prueba han demostrado buenas capacidades. Aunque a menudo hay errores en los pasos y códigos generados, estos problemas pueden resolverse en gran medida con una estructura de ingeniería adecuada. Se puede decir que, desde una perspectiva técnica, ya no hay muchos obstáculos para que el Agente realice operaciones básicas de billetera de forma independiente.

contrato inteligente

La capacidad de comprender, utilizar, escribir e identificar los riesgos de los contratos inteligentes es clave para que los Agentes de IA realicen tareas complejas en el mundo en cadena, y por lo tanto también es un área de prueba clave para experimentos. Los modelos de lenguaje grandes han mostrado un potencial significativo en esta área, pero también han expuesto algunos problemas obvios.

Casi todos los modelos en la prueba respondieron correctamente a los conceptos subyacentes del contrato, identificaron errores simples. En cuanto a la optimización del gas del contrato, la mayoría de los modelos pueden identificar puntos clave de optimización y analizar conflictos que pueden ser causados por la optimización. Sin embargo, cuando se trata de la lógica empresarial profunda, las limitaciones de los modelos grandes comienzan a mostrarse.

Tomemos un contrato de asignación de tokens como ejemplo: todos los modelos entendieron correctamente las funciones del contrato, y la mayoría de los modelos encontraron varias vulnerabilidades de riesgo medio y bajo. Sin embargo, ningún modelo puede descubrir de manera independiente una vulnerabilidad de alto riesgo oculta en la lógica empresarial que puede causar que algunos fondos queden bloqueados en circunstancias especiales. A través de múltiples pruebas utilizando contratos reales, el modelo se comportó de manera similar.

Esto demuestra que la comprensión de los contratos por parte del modelo grande sigue siendo a nivel formal y carece de comprensión de la lógica empresarial profunda. Sin embargo, después de recibir pistas adicionales, algunos modelos finalmente pudieron identificar de forma independiente las vulnerabilidades profundamente ocultas en los contratos mencionados anteriormente. Basado en este juicio de rendimiento, con el apoyo de un buen diseño de ingeniería, el modelo grande tiene básicamente la capacidad de servir como copiloto en el campo de los contratos inteligentes. Sin embargo, todavía queda un largo camino por recorrer antes de que podamos llevar a cabo de forma independiente tareas importantes como las auditorías de contratos.

Una cosa a tener en cuenta es que las tareas relacionadas con el código en el experimento son principalmente para contratos con lógica simple y menos de 2,000 líneas de código. Para proyectos complejos a gran escala, sin ajustes finos o ingeniería compleja de palabras de instrucción, creo que está claramente más allá de las capacidades de procesamiento efectivo del modelo actual y no se incluyó en la prueba. Además, esta prueba solo involucra Solidity y no incluye otros lenguajes de contrato inteligentes como Rust y Move.

Además del contenido de prueba anterior, el experimento también abarca muchos aspectos, incluyendo escenarios DeFi, DAO y su gobernanza, análisis de datos on-chain, diseño de mecanismos de consenso y Tokenomics. Los modelos de lenguaje grandes han demostrado ciertas capacidades en estos aspectos. Dado que muchas pruebas todavía están en curso y los métodos y marcos de prueba se están optimizando constantemente, este artículo no se adentrará en estas áreas por ahora.

Diferencias de modelo

Entre todos los grandes modelos lingüísticos que participaron en la evaluación, GPT-4o y Claude 3.5 Sonnet continuaron su excelente desempeño en otros campos y son los líderes indiscutibles. Cuando se enfrentan a preguntas básicas, ambos modelos casi siempre pueden dar respuestas precisas; En el análisis de escenarios complejos, pueden proporcionar información detallada y bien documentada. Incluso muestra una alta tasa de ganancias en tareas informáticas en las que los modelos grandes no son buenos. Por supuesto, esta "alta" tasa de éxito es relativa y aún no ha alcanzado el nivel de producción estable en un entorno de producción.

En el campamento del modelo de código abierto, Llama 3.1-405B está muy por delante de sus competidores gracias a su gran escala de parámetros y algoritmos de modelo avanzados. En otros modelos de código abierto con tamaños de parámetros más pequeños, no hay una brecha de rendimiento significativa entre los modelos. Aunque las puntuaciones son ligeramente diferentes, en general están lejos de la línea de aprobación.

Por lo tanto, si desea construir aplicaciones de inteligencia artificial relacionadas con la criptografía actualmente, estos modelos con parámetros pequeños y medianos no son una elección adecuada.

Dos modelos destacaron especialmente en nuestra revisión. El primero es el modelo Phi-3 3.8B lanzado por Microsoft. Es el modelo más pequeño que participa en este experimento. Sin embargo, alcanza un nivel de rendimiento equivalente al modelo 8B-12B con menos de la mitad de los parámetros. En algunas categorías específicas, incluso mejor en el tema. Este resultado resalta la importancia de la optimización de la arquitectura del modelo y las estrategias de entrenamiento que no se basan únicamente en el aumento del tamaño de los parámetros.

Y el modelo Command-R de Cohere se ha convertido en un sorprendente 'caballo oscuro', es decir, al revés. Command-R no es tan conocido en comparación con otros modelos, pero Cohere es una gran empresa de modelos que se centra en el mercado 2B. Creo que todavía hay muchos puntos de convergencia con áreas como el desarrollo de agentes, por lo que se incluyó específicamente en el alcance de las pruebas. Sin embargo, el Command-R con 35B de parámetros ocupó el último lugar en la mayoría de las pruebas, perdiendo ante muchos modelos por debajo de 10B.

Este resultado desencadenó el pensamiento: cuando se lanzó Command-R, se centró en el mejoramiento de la recuperación y las capacidades de generación, e incluso no publicó resultados regulares de pruebas de referencia. ¿Esto significa que es una “clave privada” que desbloquea su máximo potencial solo en escenarios específicos?

Limitaciones experimentales

En esta serie de pruebas, obtuvimos una comprensión preliminar de las capacidades de la inteligencia artificial en el campo de la encriptación. Por supuesto, estas pruebas están lejos de los estándares profesionales. La cobertura del conjunto de datos está lejos de ser suficiente, los estándares cuantitativos para las respuestas son relativamente rudimentarios y todavía falta un mecanismo de puntuación refinado y más preciso. Esto afectará la precisión de los resultados de la evaluación y puede llevar a la subestimación del rendimiento de algunos modelos.

En términos de método de prueba, el experimento solo utilizó un método único de aprendizaje sin etiquetas, y no exploró métodos como cadenas de pensamiento y aprendizaje de pocas muestras que pueden inspirar un mayor potencial del modelo. En términos de parámetros del modelo, se utilizaron parámetros de modelo estándar en los experimentos y no se examinó el impacto de diferentes configuraciones de parámetros en el rendimiento del modelo. Estos métodos de prueba únicos en general limitan nuestra evaluación integral del potencial del modelo y no exploran completamente las diferencias en el rendimiento del modelo bajo condiciones específicas.

Aunque las condiciones de prueba fueron relativamente simples, estos experimentos aún produjeron muchas ideas valiosas y proporcionaron una referencia para que los desarrolladores construyan aplicaciones.

El espacio Cripto necesita su propio punto de referencia

En el campo de la inteligencia artificial, los puntos de referencia juegan un papel clave. El rápido desarrollo de la tecnología moderna de aprendizaje profundo se originó en ImageNET completado por el profesor Li Feifei en 2012, que es un punto de referencia estandarizado y conjunto de datos en el campo de la visión por computadora.

Al proporcionar un estándar unificado para la evaluación, los benchmarks no solo proporcionan a los desarrolladores metas claras y puntos de referencia, sino que también impulsan el progreso tecnológico en toda la industria. Esto explica por qué cada nuevo modelo de lenguaje grande lanzado se centra en anunciar sus resultados en varios benchmarks. Estos resultados se convierten en un 'lenguaje universal' de las capacidades del modelo, lo que permite a los investigadores localizar avances, a los desarrolladores seleccionar los modelos más adecuados para tareas específicas y a los usuarios tomar decisiones informadas basadas en datos objetivos. Más importante aún, las pruebas de benchmark a menudo anuncian la dirección futura de las aplicaciones de IA, lo que guía la inversión de recursos y el enfoque de investigación.

Si creemos que hay un gran potencial en la intersección de la inteligencia artificial y la criptografía, entonces establecer puntos de referencia criptográficos dedicados se convierte en una tarea urgente. El establecimiento de puntos de referencia puede convertirse en un puente clave que conecte los dos campos de la inteligencia artificial y la encriptación, catalice la innovación y proporcione orientación clara para aplicaciones futuras.

Sin embargo, en comparación con los puntos de referencia maduras en otros campos, la construcción de puntos de referencia en el campo de la encriptación enfrenta desafíos únicos: la tecnología de encriptación está evolucionando rápidamente, el sistema de conocimiento de la industria aún no se ha solidificado y hay una falta de consenso en múltiples direcciones principales. Como campo interdisciplinario, la encriptación abarca la criptografía, los sistemas distribuidos, la economía, etc., y su complejidad está mucho más allá de la de un solo campo. Lo que es aún más desafiante es que el punto de referencia de encriptación no solo necesita evaluar el conocimiento, sino que también examina la capacidad práctica de AI para utilizar la tecnología de encriptación, lo que requiere el diseño de una nueva arquitectura de evaluación. La falta de conjuntos de datos relevantes aumenta aún más la dificultad.

La complejidad e importancia de esta tarea dictan que no puede ser realizada por una sola persona o equipo. Necesita reunir la sabiduría de muchas partes, desde usuarios, desarrolladores, expertos en criptografía, investigadores en cifrado hasta más personas en campos interdisciplinarios, y depende de una amplia participación y consenso de la comunidad. Por lo tanto, el punto de referencia de encriptación necesita una discusión más amplia, porque no es solo un trabajo técnico, sino también una reflexión profunda sobre cómo entendemos esta tecnología emergente.

Descargo de responsabilidad:

  1. Este artículo es una reimpresión de [Empower Labs]. Todos los derechos de autor pertenecen al autor original [Wang Chao]. Si hay objeciones a esta reimpresión, por favor contacte a la Gate Learnequipo, y lo manejarán rápidamente.
  2. Descargo de responsabilidad: Las opiniones y puntos de vista expresados en este artículo son únicamente los del autor y no constituyen ningún consejo de inversión.
  3. Las traducciones del artículo a otros idiomas son realizadas por el equipo de Gate Learn. A menos que se mencione, está prohibido copiar, distribuir o plagiar los artículos traducidos.

¿Puede la IA sobrevivir en el mundo Cripto: 18 experimentos de criptomonedas con modelos grandes?

AvanzadoSep 26, 2024
La IA se desempeña bien en algoritmos de cifrado y conocimientos de blockchain, pero no se desempeña bien en cálculos matemáticos y análisis lógico complejo. Es muy importante desarrollar puntos de referencia de IA específicos para el cifrado, lo cual proporcionará una referencia importante para la aplicación de la IA en el campo del cifrado.
¿Puede la IA sobrevivir en el mundo Cripto: 18 experimentos de criptomonedas con modelos grandes?

En la crónica del progreso tecnológico, a menudo aparecen tecnologías revolucionarias de forma independiente, cada una liderando cambios en una era. Y cuando dos tecnologías revolucionarias se encuentran, su colisión a menudo tiene un impacto exponencial. Hoy, nos encontramos en un momento histórico: la inteligencia artificial y la tecnología de encriptación, dos tecnologías igualmente disruptivas, están entrando juntas en el centro del escenario.

Imaginamos que muchos desafíos en el campo de la IA pueden ser resueltos por la tecnología de cifrado; esperamos que el Agente de IA construya redes económicas autónomas y promueva la adopción a gran escala de la tecnología de cifrado; también esperamos que la IA acelere el desarrollo de escenarios existentes en el campo de la criptografía. Innumerables ojos están enfocados en esto, y enormes fondos están vertiendo. Al igual que cualquier palabra de moda, encarna el deseo de las personas por la innovación, la visión del futuro, y también contiene ambición y codicia incontrolables.

Sin embargo, en todo este bullicio, sabemos muy poco sobre los problemas más básicos. ¿Cuánto sabe la IA sobre el cifrado? ¿Un agente equipado con un gran modelo de lenguaje tiene la capacidad real de utilizar herramientas de cifrado? ¿Cuánta diferencia hay en el rendimiento de diferentes modelos en tareas de cifrado?

Las respuestas a estas preguntas determinarán la influencia mutua de la inteligencia artificial y la tecnología de encriptación, y también son cruciales para la dirección del producto y la selección de la ruta tecnológica en este campo interdisciplinario. Para explorar estos problemas, realicé algunos experimentos de evaluación en modelos de lenguaje grandes. Al evaluar su conocimiento y capacidades en el campo de la encriptación, medimos el nivel de aplicación de la encriptación de la inteligencia artificial y determinamos el potencial y los desafíos de la integración de la inteligencia artificial y la tecnología de encriptación.

Hablemos primero sobre la conclusión

El gran modelo de lenguaje tiene un buen desempeño en conocimientos básicos de criptografía y blockchain, y comprende bien el ecosistema de encriptación, pero tiene un mal desempeño en cálculos matemáticos y análisis de lógica empresarial compleja. En cuanto a las claves privadas y las operaciones básicas de la billetera, el modelo tiene una base satisfactoria, pero enfrenta el grave desafío de cómo mantener las claves privadas en la nube. Muchos modelos pueden generar código efectivo de contrato inteligente para escenarios simples, pero no pueden realizar de forma independiente tareas difíciles como la auditoría de contratos y la creación de contratos complejos.

Los modelos comerciales de código cerrado generalmente tienen una gran ventaja. En el campo de código abierto, solo Llama 3.1-405B se desempeñó bien, mientras que todos los modelos de código abierto con tamaños de parámetros más pequeños fracasaron. Sin embargo, existe potencial. A través de la orientación de palabras rápidas, el razonamiento de cadenas de pensamiento y la tecnología de aprendizaje de pocas tomas, el rendimiento de todos los modelos ha mejorado considerablemente. Los modelos líderes ya tienen una fuerte viabilidad técnica en algunos escenarios de aplicación vertical.

Detalles del experimento

Se seleccionaron 18 modelos de lenguaje representativos como objetos de evaluación, incluyendo:

  • Modelos de código cerrado: GPT-4o, GPT-4o Mini, Claude 3.5 Sonnet, Gemini 1.5 Pro, Grok2 beta (temporalmente de código cerrado)
  • Modelos de código abierto: Llama 3.1 8B/70b/405B, Mistral Nemo 12B, DeepSeek-coder-v2, Nous-hermes2, Phi3 3.8B/14b, Gemma2 9B\27B, Command-R
  • Modelos de optimización matemática: Qwen2-math-72B, MathΣtral

Estos modelos abarcan modelos comerciales y de código abierto populares, con cantidades de parámetros que van desde más de cien veces desde 3.8B hasta 405B. Teniendo en cuenta la estrecha relación entre la tecnología de encriptación y las matemáticas, se seleccionaron especialmente dos modelos de optimización matemática para el experimento.

Las áreas de conocimiento cubiertas por el experimento incluyen criptografía, conceptos básicos de blockchain, operaciones de clave privada y monedero, contratos inteligentes, DAO y gobernanza, modelos de consenso y económicos, Dapp/DeFi/NFT, análisis de datos en cadena, etc. Cada campo consta de una serie de preguntas y tareas que van desde fáciles hasta difíciles, lo que no solo prueba la reserva de conocimientos del modelo, sino también su rendimiento en escenarios de aplicación a través de tareas de simulación.

El diseño de las tareas proviene de diversas fuentes. Algunas provienen de la entrada de múltiples expertos en el campo de la encriptación, y la otra parte se genera con la ayuda de la IA y se revisa manualmente para garantizar la precisión y el desafío de las tareas. Algunas de las tareas utilizan preguntas de opción múltiple en un formato relativamente simple para facilitar la prueba y evaluación automatizadas estandarizadas. Otra parte de la prueba adopta un formato de pregunta más complejo, y el proceso de prueba se realiza mediante una combinación de automatización de programas + manual + IA. Todas las tareas de prueba se evalúan utilizando un método de razonamiento sin muestra, sin proporcionar ningún ejemplo, guía de pensamiento o indicaciones instructivas.

Dado que el diseño del experimento en sí es relativamente rudimentario y no tiene suficiente rigor académico, las preguntas y tareas utilizadas para las pruebas están lejos de cubrir completamente el campo de la criptografía, y el marco de pruebas también es inmaduro. Por lo tanto, este artículo no lista datos experimentales específicos, sino que se centra en compartir algunas ideas obtenidas de los experimentos.

conocimiento/concepto

Durante el proceso de evaluación, el gran modelo de lenguaje tuvo un buen desempeño en pruebas de conocimientos básicos en varios campos como algoritmos de encriptación, conceptos básicos de blockchain y aplicaciones de DeFi. Por ejemplo, todos los modelos dieron respuestas precisas a preguntas que evaluaban la comprensión del concepto de disponibilidad de datos. En cuanto a la pregunta que evalúa la comprensión del modelo sobre la estructura de transacciones de Ethereum, aunque cada modelo tiene respuestas ligeramente diferentes en los detalles, generalmente contienen información clave correcta. Las preguntas de opción múltiple que examinan conceptos son incluso menos difíciles y la precisión de casi todos los modelos supera el 95%.

Las preguntas y respuestas conceptuales son completamente difíciles para los modelos grandes.

Lógica Computacional / Lógica Empresarial

Sin embargo, la situación se invierte cuando se trata de problemas que requieren cálculos específicos. Un simple problema de cálculo de algoritmo RSA pone en dificultad a la mayoría de los modelos. Es fácil de entender: los grandes modelos de lenguaje operan principalmente identificando y replicando patrones en los datos de entrenamiento, en lugar de comprender profundamente la naturaleza de los conceptos matemáticos. Esta limitación es particularmente obvia al tratar con conceptos matemáticos abstractos como las operaciones modulares y exponenciales. Dado que el campo de la criptografía está estrechamente relacionado con las matemáticas, esto significa que depender directamente de los modelos para cálculos matemáticos relacionados con la encriptación es poco confiable.

En otros problemas informáticos, el rendimiento de los grandes modelos de lenguaje también es insatisfactorio. Por ejemplo, para la simple pregunta de calcular la pérdida impermanente de AMM, aunque no implica operaciones matemáticas complejas, solo 4 de los 18 modelos dieron la respuesta correcta. En cuanto a otra pregunta más básica sobre el cálculo de la probabilidad de un bloque, todos los modelos dieron la respuesta incorrecta. Desconcertó a todos los modelos y ninguno de ellos acertó. Esto no solo expone las deficiencias de los grandes modelos de lenguaje en cálculos precisos, sino que también refleja sus principales problemas en el análisis de la lógica empresarial. Cabe destacar que incluso el modelo de optimización matemática no pudo mostrar ventajas evidentes en preguntas de cálculo y su rendimiento fue decepcionante.

Sin embargo, el problema del cálculo matemático no es irresoluble. Si hacemos un ligero ajuste y requerimos que LLMs proporcionen código Python correspondiente en lugar de calcular directamente los resultados, la tasa de precisión mejorará considerablemente. Tomando el problema de cálculo RSA mencionado anteriormente como ejemplo, los códigos Python dados por la mayoría de los modelos pueden ejecutarse sin problemas y producir resultados correctos. En entornos de producción reales, se pueden proporcionar códigos de algoritmos preestablecidos para evitar el auto cálculo de LLMs, lo que es similar a cómo los humanos manejan tales tareas. A nivel de lógica empresarial, el rendimiento del modelo también puede mejorarse de manera efectiva a través de una orientación cuidadosamente diseñada de palabras de indicación.

Gestión de claves privadas y operaciones de monedero

Si preguntas cuál es el primer escenario para que un Agente use criptomonedas, mi respuesta es el pago. Las criptomonedas casi pueden considerarse una forma de moneda nativa de la IA. En comparación con los numerosos obstáculos a los que se enfrentan los agentes en el sistema financiero tradicional, es una elección natural utilizar la tecnología de cifrado para equiparse con identidades digitales y administrar fondos a través de monederos encriptados. Por lo tanto, la generación y gestión de claves privadas y diversas operaciones de monedero constituyen los requisitos de habilidades más básicos para que un Agente pueda utilizar de forma independiente la red de cifrado.

El núcleo de la generación segura de claves privadas radica en números aleatorios de alta calidad, que obviamente es una capacidad que los modelos de lenguaje grandes no tienen. Sin embargo, los modelos tienen suficiente comprensión de la seguridad de la clave privada. Cuando se les pide que generen una clave privada, la mayoría de los modelos optan por usar código (como bibliotecas relacionadas con Python) para guiar a los usuarios a generar claves privadas de forma independiente. Incluso si un modelo proporciona directamente una clave privada, se indica claramente que esto es solo para fines de demostración y no es una clave privada segura que se pueda usar directamente. En este sentido, todos los modelos grandes mostraron un rendimiento satisfactorio.

La gestión de claves privadas se enfrenta a algunos desafíos, que se deben principalmente a las limitaciones inherentes de la arquitectura técnica más que a la falta de capacidades del modelo. Cuando se utiliza un modelo implementado localmente, la clave privada generada se puede considerar relativamente segura. Sin embargo, si se utiliza un modelo de nube comercial, debemos asumir que la clave privada ha sido expuesta al operador del modelo en el momento en que se genera. Pero para un agente que pretende trabajar de forma independiente, es necesario tener permisos de clave privada, lo que significa que la clave privada no puede ser solo local para el usuario. En este caso, confiar únicamente en el modelo en sí ya no es suficiente para garantizar la seguridad de la clave privada, y es necesario introducir servicios de seguridad adicionales, como un entorno de ejecución de confianza o HSM.

Si se asume que el Agente ya tiene de forma segura la clave privada y realiza varias operaciones básicas sobre esta base, los diversos modelos en la prueba han demostrado buenas capacidades. Aunque a menudo hay errores en los pasos y códigos generados, estos problemas pueden resolverse en gran medida con una estructura de ingeniería adecuada. Se puede decir que, desde una perspectiva técnica, ya no hay muchos obstáculos para que el Agente realice operaciones básicas de billetera de forma independiente.

contrato inteligente

La capacidad de comprender, utilizar, escribir e identificar los riesgos de los contratos inteligentes es clave para que los Agentes de IA realicen tareas complejas en el mundo en cadena, y por lo tanto también es un área de prueba clave para experimentos. Los modelos de lenguaje grandes han mostrado un potencial significativo en esta área, pero también han expuesto algunos problemas obvios.

Casi todos los modelos en la prueba respondieron correctamente a los conceptos subyacentes del contrato, identificaron errores simples. En cuanto a la optimización del gas del contrato, la mayoría de los modelos pueden identificar puntos clave de optimización y analizar conflictos que pueden ser causados por la optimización. Sin embargo, cuando se trata de la lógica empresarial profunda, las limitaciones de los modelos grandes comienzan a mostrarse.

Tomemos un contrato de asignación de tokens como ejemplo: todos los modelos entendieron correctamente las funciones del contrato, y la mayoría de los modelos encontraron varias vulnerabilidades de riesgo medio y bajo. Sin embargo, ningún modelo puede descubrir de manera independiente una vulnerabilidad de alto riesgo oculta en la lógica empresarial que puede causar que algunos fondos queden bloqueados en circunstancias especiales. A través de múltiples pruebas utilizando contratos reales, el modelo se comportó de manera similar.

Esto demuestra que la comprensión de los contratos por parte del modelo grande sigue siendo a nivel formal y carece de comprensión de la lógica empresarial profunda. Sin embargo, después de recibir pistas adicionales, algunos modelos finalmente pudieron identificar de forma independiente las vulnerabilidades profundamente ocultas en los contratos mencionados anteriormente. Basado en este juicio de rendimiento, con el apoyo de un buen diseño de ingeniería, el modelo grande tiene básicamente la capacidad de servir como copiloto en el campo de los contratos inteligentes. Sin embargo, todavía queda un largo camino por recorrer antes de que podamos llevar a cabo de forma independiente tareas importantes como las auditorías de contratos.

Una cosa a tener en cuenta es que las tareas relacionadas con el código en el experimento son principalmente para contratos con lógica simple y menos de 2,000 líneas de código. Para proyectos complejos a gran escala, sin ajustes finos o ingeniería compleja de palabras de instrucción, creo que está claramente más allá de las capacidades de procesamiento efectivo del modelo actual y no se incluyó en la prueba. Además, esta prueba solo involucra Solidity y no incluye otros lenguajes de contrato inteligentes como Rust y Move.

Además del contenido de prueba anterior, el experimento también abarca muchos aspectos, incluyendo escenarios DeFi, DAO y su gobernanza, análisis de datos on-chain, diseño de mecanismos de consenso y Tokenomics. Los modelos de lenguaje grandes han demostrado ciertas capacidades en estos aspectos. Dado que muchas pruebas todavía están en curso y los métodos y marcos de prueba se están optimizando constantemente, este artículo no se adentrará en estas áreas por ahora.

Diferencias de modelo

Entre todos los grandes modelos lingüísticos que participaron en la evaluación, GPT-4o y Claude 3.5 Sonnet continuaron su excelente desempeño en otros campos y son los líderes indiscutibles. Cuando se enfrentan a preguntas básicas, ambos modelos casi siempre pueden dar respuestas precisas; En el análisis de escenarios complejos, pueden proporcionar información detallada y bien documentada. Incluso muestra una alta tasa de ganancias en tareas informáticas en las que los modelos grandes no son buenos. Por supuesto, esta "alta" tasa de éxito es relativa y aún no ha alcanzado el nivel de producción estable en un entorno de producción.

En el campamento del modelo de código abierto, Llama 3.1-405B está muy por delante de sus competidores gracias a su gran escala de parámetros y algoritmos de modelo avanzados. En otros modelos de código abierto con tamaños de parámetros más pequeños, no hay una brecha de rendimiento significativa entre los modelos. Aunque las puntuaciones son ligeramente diferentes, en general están lejos de la línea de aprobación.

Por lo tanto, si desea construir aplicaciones de inteligencia artificial relacionadas con la criptografía actualmente, estos modelos con parámetros pequeños y medianos no son una elección adecuada.

Dos modelos destacaron especialmente en nuestra revisión. El primero es el modelo Phi-3 3.8B lanzado por Microsoft. Es el modelo más pequeño que participa en este experimento. Sin embargo, alcanza un nivel de rendimiento equivalente al modelo 8B-12B con menos de la mitad de los parámetros. En algunas categorías específicas, incluso mejor en el tema. Este resultado resalta la importancia de la optimización de la arquitectura del modelo y las estrategias de entrenamiento que no se basan únicamente en el aumento del tamaño de los parámetros.

Y el modelo Command-R de Cohere se ha convertido en un sorprendente 'caballo oscuro', es decir, al revés. Command-R no es tan conocido en comparación con otros modelos, pero Cohere es una gran empresa de modelos que se centra en el mercado 2B. Creo que todavía hay muchos puntos de convergencia con áreas como el desarrollo de agentes, por lo que se incluyó específicamente en el alcance de las pruebas. Sin embargo, el Command-R con 35B de parámetros ocupó el último lugar en la mayoría de las pruebas, perdiendo ante muchos modelos por debajo de 10B.

Este resultado desencadenó el pensamiento: cuando se lanzó Command-R, se centró en el mejoramiento de la recuperación y las capacidades de generación, e incluso no publicó resultados regulares de pruebas de referencia. ¿Esto significa que es una “clave privada” que desbloquea su máximo potencial solo en escenarios específicos?

Limitaciones experimentales

En esta serie de pruebas, obtuvimos una comprensión preliminar de las capacidades de la inteligencia artificial en el campo de la encriptación. Por supuesto, estas pruebas están lejos de los estándares profesionales. La cobertura del conjunto de datos está lejos de ser suficiente, los estándares cuantitativos para las respuestas son relativamente rudimentarios y todavía falta un mecanismo de puntuación refinado y más preciso. Esto afectará la precisión de los resultados de la evaluación y puede llevar a la subestimación del rendimiento de algunos modelos.

En términos de método de prueba, el experimento solo utilizó un método único de aprendizaje sin etiquetas, y no exploró métodos como cadenas de pensamiento y aprendizaje de pocas muestras que pueden inspirar un mayor potencial del modelo. En términos de parámetros del modelo, se utilizaron parámetros de modelo estándar en los experimentos y no se examinó el impacto de diferentes configuraciones de parámetros en el rendimiento del modelo. Estos métodos de prueba únicos en general limitan nuestra evaluación integral del potencial del modelo y no exploran completamente las diferencias en el rendimiento del modelo bajo condiciones específicas.

Aunque las condiciones de prueba fueron relativamente simples, estos experimentos aún produjeron muchas ideas valiosas y proporcionaron una referencia para que los desarrolladores construyan aplicaciones.

El espacio Cripto necesita su propio punto de referencia

En el campo de la inteligencia artificial, los puntos de referencia juegan un papel clave. El rápido desarrollo de la tecnología moderna de aprendizaje profundo se originó en ImageNET completado por el profesor Li Feifei en 2012, que es un punto de referencia estandarizado y conjunto de datos en el campo de la visión por computadora.

Al proporcionar un estándar unificado para la evaluación, los benchmarks no solo proporcionan a los desarrolladores metas claras y puntos de referencia, sino que también impulsan el progreso tecnológico en toda la industria. Esto explica por qué cada nuevo modelo de lenguaje grande lanzado se centra en anunciar sus resultados en varios benchmarks. Estos resultados se convierten en un 'lenguaje universal' de las capacidades del modelo, lo que permite a los investigadores localizar avances, a los desarrolladores seleccionar los modelos más adecuados para tareas específicas y a los usuarios tomar decisiones informadas basadas en datos objetivos. Más importante aún, las pruebas de benchmark a menudo anuncian la dirección futura de las aplicaciones de IA, lo que guía la inversión de recursos y el enfoque de investigación.

Si creemos que hay un gran potencial en la intersección de la inteligencia artificial y la criptografía, entonces establecer puntos de referencia criptográficos dedicados se convierte en una tarea urgente. El establecimiento de puntos de referencia puede convertirse en un puente clave que conecte los dos campos de la inteligencia artificial y la encriptación, catalice la innovación y proporcione orientación clara para aplicaciones futuras.

Sin embargo, en comparación con los puntos de referencia maduras en otros campos, la construcción de puntos de referencia en el campo de la encriptación enfrenta desafíos únicos: la tecnología de encriptación está evolucionando rápidamente, el sistema de conocimiento de la industria aún no se ha solidificado y hay una falta de consenso en múltiples direcciones principales. Como campo interdisciplinario, la encriptación abarca la criptografía, los sistemas distribuidos, la economía, etc., y su complejidad está mucho más allá de la de un solo campo. Lo que es aún más desafiante es que el punto de referencia de encriptación no solo necesita evaluar el conocimiento, sino que también examina la capacidad práctica de AI para utilizar la tecnología de encriptación, lo que requiere el diseño de una nueva arquitectura de evaluación. La falta de conjuntos de datos relevantes aumenta aún más la dificultad.

La complejidad e importancia de esta tarea dictan que no puede ser realizada por una sola persona o equipo. Necesita reunir la sabiduría de muchas partes, desde usuarios, desarrolladores, expertos en criptografía, investigadores en cifrado hasta más personas en campos interdisciplinarios, y depende de una amplia participación y consenso de la comunidad. Por lo tanto, el punto de referencia de encriptación necesita una discusión más amplia, porque no es solo un trabajo técnico, sino también una reflexión profunda sobre cómo entendemos esta tecnología emergente.

Descargo de responsabilidad:

  1. Este artículo es una reimpresión de [Empower Labs]. Todos los derechos de autor pertenecen al autor original [Wang Chao]. Si hay objeciones a esta reimpresión, por favor contacte a la Gate Learnequipo, y lo manejarán rápidamente.
  2. Descargo de responsabilidad: Las opiniones y puntos de vista expresados en este artículo son únicamente los del autor y no constituyen ningún consejo de inversión.
  3. Las traducciones del artículo a otros idiomas son realizadas por el equipo de Gate Learn. A menos que se mencione, está prohibido copiar, distribuir o plagiar los artículos traducidos.
Empieza ahora
¡Regístrate y recibe un bono de
$100
!