Na crónica do progresso tecnológico, frequentemente surgem revolucionárias tecnologias de forma independente, cada uma liderando mudanças numa era. E quando duas tecnologias revolucionárias se encontram, a sua colisão frequentemente tem um impacto exponencial. Hoje, estamos perante um momento histórico: a inteligência artificial e a tecnologia de encriptação, duas novas tecnologias igualmente disruptivas, estão a entrar de mãos dadas no centro do palco.
Imaginamos que muitos desafios no campo da IA podem ser resolvidos pela tecnologia de criptografia; esperamos que o Agente de IA construa redes econômicas autônomas e promova a adoção em larga escala da tecnologia de criptografia; também esperamos que a IA possa acelerar o desenvolvimento de cenários existentes no campo da criptografia. Inúmeros olhos estão focados nisso, e fundos massivos estão sendo investidos. Assim como qualquer palavra da moda, ela incorpora o desejo das pessoas por inovação, visão para o futuro e também contém ambição e ganância incontroláveis.
No meio de toda esta agitação, sabemos muito pouco sobre as questões mais básicas. Até que ponto a IA conhece a encriptação? Terá um Agente equipado com um grande modelo de linguagem a capacidade real de utilizar ferramentas de encriptação? Qual a diferença de desempenho entre diferentes modelos em tarefas de encriptação?
As respostas a essas perguntas determinarão a influência mútua da IA e da tecnologia de criptografia, e também são cruciais para a direção do produto e a seleção da rota da tecnologia neste campo cruzado. Para explorar estas questões, realizei algumas experiências de avaliação em grandes modelos linguísticos. Ao avaliar os seus conhecimentos e capacidades no campo da encriptação, medimos o nível de aplicação de encriptação da IA e determinamos o potencial e os desafios da integração da IA e da tecnologia de encriptação.
O grande modelo de linguagem tem um bom desempenho no conhecimento básico de criptografia e blockchain, e tem uma boa compreensão do ecossistema de criptografia, mas tem um desempenho ruim em cálculos matemáticos e análise complexa de lógica de negócios. Em termos de chaves privadas e operações básicas de carteira, o modelo tem uma base satisfatória, mas enfrenta o desafio sério de como manter as chaves privadas na nuvem. Muitos modelos podem gerar código de contrato inteligente eficaz para cenários simples, mas não podem executar tarefas difíceis independentemente como auditoria de contrato e criação de contrato complexo.
Modelos comerciais fechados geralmente têm uma grande vantagem. No campo de código aberto, apenas o Llama 3.1-405B teve um bom desempenho, enquanto todos os modelos de código aberto com tamanhos de parâmetros menores falharam. No entanto, existe potencial. Através da orientação de palavras de prompt, raciocínio em cadeia de pensamento e tecnologia de aprendizado com poucas amostras, o desempenho de todos os modelos foi significativamente melhorado. Os modelos líderes já têm uma forte viabilidade técnica em alguns cenários de aplicação vertical.
Foram selecionados 18 modelos de linguagem representativos como objetos de avaliação, incluindo:
Esses modelos abrangem modelos comerciais populares de código aberto, com quantidades de parâmetros variando mais de cem vezes de 3,8B a 405B. Considerando a relação próxima entre tecnologia de criptografia e matemática, dois modelos de otimização matemática foram especialmente selecionados para o experimento.
As áreas de conhecimento cobertas pelo experimento incluem criptografia, noções básicas de blockchain, operações de chave privada e carteira, contratos inteligentes, DAO e governança, consenso e modelos econômicos, Dapp/DeFi/NFT, análise de dados on-chain, etc. Cada campo consiste numa série de perguntas e tarefas que vão do fácil ao difícil, que não só testa a reserva de conhecimento do modelo, mas também testa o seu desempenho em cenários de aplicação através de tarefas de simulação.
O design das tarefas vem de diversas fontes. Algumas vêm da entrada de múltiplos especialistas no campo de criptografia, e outra parte é gerada com a assistência de AI e manualmente revisada para garantir a precisão e o desafio das tarefas. Algumas das tarefas usam perguntas de múltipla escolha em um formato relativamente simples para facilitar testes padronizados automatizados separados e pontuação. Outra parte do teste adota um formato de pergunta mais complexo, e o processo de teste é conduzido por uma combinação de automação de programa + manual + AI. Todas as tarefas de teste são avaliadas usando um método de raciocínio de amostra zero, sem fornecer quaisquer exemplos, orientação de pensamento ou prompts instrucionais.
Uma vez que o design do próprio experimento é relativamente rudimentar e não tem rigor académico suficiente, as questões e tarefas utilizadas para testar estão longe de cobrir totalmente o campo da criptografia, e o enquadramento de teste também é imaturo. Por conseguinte, este artigo não lista dados experimentais específicos, mas centra-se em partilhar algumas perceções a partir dos experimentos.
Durante o processo de avaliação, o grande modelo de linguagem teve um bom desempenho em testes de conhecimento básico em vários campos, como algoritmos de criptografia, fundamentos de cripto e aplicações DeFi. Por exemplo, todos os modelos deram respostas precisas a perguntas que testaram a compreensão do conceito de disponibilidade de dados. Quanto à pergunta que avalia a compreensão do modelo sobre a estrutura de transação do Ethereum, embora cada modelo tenha respostas ligeiramente diferentes em detalhes, eles geralmente contêm informações corretas e importantes. As perguntas de múltipla escolha que examinam conceitos são ainda menos difíceis, e a precisão de quase todos os modelos é superior a 95%.
Questões conceituais e respostas são completamente difíceis para grandes modelos.
No entanto, a situação inverte-se quando se trata de problemas que exigem cálculos específicos. Um simples problema de cálculo do algoritmo RSA coloca a maioria dos modelos em dificuldade. É fácil de entender: grandes modelos de linguagem operam principalmente identificando e replicando padrões em dados de treinamento, em vez de entender profundamente a natureza dos conceitos matemáticos. Esta limitação é particularmente óbvia quando se lida com conceitos matemáticos abstratos, como operações modulares e operações exponenciais. Dado que o campo da criptografia está intimamente relacionado com a matemática, isto significa que confiar diretamente em modelos para cálculos matemáticos relacionados com encriptação não é fiável。
Em outros problemas de computação, o desempenho de grandes modelos de linguagem também é insatisfatório. Por exemplo, para a simples questão de calcular a perda impermanente da AMM, embora não envolva operações matemáticas complexas, apenas 4 dos 18 modelos deram a resposta correta. Quanto a outra questão mais básica sobre o cálculo da probabilidade de um bloco, todos os modelos erraram a resposta. Eles confundiram todos os modelos e nenhum deles estava correto. Isso não apenas expõe as deficiências de grandes modelos de linguagem em cálculos precisos, mas também reflete seus principais problemas na análise lógica de negócios. Vale ressaltar que até mesmo o modelo de otimização matemática falhou em mostrar vantagens óbvias em questões de cálculo, e seu desempenho foi decepcionante.
No entanto, o problema do cálculo matemático não é insolúvel. Se fizermos um ajuste ligeiro e exigirmos que os LLMs forneçam código Python correspondente em vez de calcular diretamente os resultados, a taxa de precisão será muito melhorada. Tomando o problema de cálculo RSA mencionado como exemplo, os códigos Python dados pela maioria dos modelos podem ser executados suavemente e produzir resultados corretos. Em ambientes de produção reais, códigos de algoritmos predefinidos podem ser fornecidos para contornar o auto-cálculo dos LLMs, o que é semelhante à forma como os humanos lidam com essas tarefas. Ao nível da lógica de negócios, o desempenho do modelo também pode ser melhorado eficazmente através de orientação cuidadosamente projetada de palavras de prompt.
Se me perguntar qual é o primeiro cenário para um Agente usar criptomoedas, minha resposta é pagamento. Criptomoeda pode ser considerada quase uma forma nativa de moeda para a IA. Comparado com os muitos obstáculos que os agentes enfrentam no sistema financeiro tradicional, é uma escolha natural usar a tecnologia de criptografia para equipar-se com identidades digitais e gerenciar fundos por meio de carteiras criptografadas. Portanto, a geração e gerenciamento de chaves privadas e várias operações de carteira constituem os requisitos de habilidade mais básicos para um Agente poder usar independentemente a rede de criptografia.
O núcleo da geração segura de chaves privadas reside em números aleatórios de alta qualidade, o que obviamente é uma capacidade que os grandes modelos de linguagem não possuem. No entanto, os modelos têm compreensão suficiente da segurança de chaves privadas. Quando solicitados a gerar uma chave privada, a maioria dos modelos opta por usar código (como bibliotecas relacionadas ao Python) para orientar os usuários a gerar chaves privadas independentemente. Mesmo se um modelo fornecer diretamente uma chave privada, é claramente declarado que isso é apenas para fins de demonstração e não é uma chave privada segura que pode ser usada diretamente. Nesse sentido, todos os grandes modelos mostraram um desempenho satisfatório.
O gerenciamento de chaves privadas enfrenta alguns desafios, que são principalmente devido às limitações inerentes da arquitetura técnica, em vez da falta de recursos do modelo. Ao usar um modelo implantado localmente, a chave privada gerada pode ser considerada relativamente segura. No entanto, se um modelo de nuvem comercial for usado, devemos assumir que a chave privada foi exposta ao operador do modelo no momento em que é gerada. Mas para um Agente que pretende trabalhar de forma independente, é necessário ter permissões de chave privada, o que significa que a chave privada não pode ser apenas local para o utilizador. Nesse caso, confiar apenas no modelo em si não é mais suficiente para garantir a segurança da chave privada, e serviços de segurança adicionais, como um ambiente de execução confiável ou HSM, precisam ser introduzidos.
Se for assumido que o Agente já detém a chave privada de forma segura e realiza várias operações básicas com base nisso, os vários modelos no teste mostraram boas capacidades. Embora muitas vezes existam erros nos passos e códigos gerados, estes problemas podem ser resolvidos em grande medida com uma estrutura de engenharia adequada. Pode-se dizer que, do ponto de vista técnico, já não existem muitos obstáculos para o Agente realizar operações básicas de carteira de forma independente.
A capacidade de compreender, utilizar, escrever e identificar riscos de contratos inteligentes é a chave para que os Agentes de IA realizem tarefas complexas no mundo on-chain, sendo também uma área de teste importante para experimentos. Modelos de linguagem grandes têm mostrado um potencial significativo nessa área, mas também expuseram alguns problemas óbvios.
Quase todos os modelos no teste responderam corretamente aos conceitos subjacentes do contrato, identificam bugs simples. Em termos de otimização de gás de contrato, a maioria dos modelos pode identificar pontos-chave de otimização e analisar conflitos que podem ser causados pela otimização. No entanto, quando o logic de negócios profundo está envolvido, as limitações dos grandes modelos começam a aparecer.
Tomemos como exemplo um contrato de token vesting: todos os modelos entenderam corretamente as funções do contrato e a maioria dos modelos encontrou várias vulnerabilidades de médio e baixo risco. No entanto, nenhum modelo pode descobrir independentemente uma vulnerabilidade de alto risco oculta na lógica de negócios que pode fazer com que alguns fundos sejam bloqueados em circunstâncias especiais. Em vários testes usando contratos reais, o modelo teve um desempenho aproximadamente igual.
Isso mostra que a compreensão dos contratos pelo grande modelo ainda permanece no nível formal e carece de compreensão da lógica profunda do negócio. No entanto, depois de receberem dicas adicionais, alguns modelos acabaram por ser capazes de identificar de forma independente as vulnerabilidades profundamente ocultas nos contratos acima mencionados. Com base neste julgamento de desempenho, com o apoio de um bom projeto de engenharia, o modelo grande tem basicamente a capacidade de servir como copiloto no campo dos contratos inteligentes. No entanto, ainda há um longo caminho a percorrer antes de podermos realizar de forma independente tarefas importantes, como auditorias de contratos.
Uma coisa a notar é que as tarefas relacionadas com o código no experimento são principalmente para contratos com lógica simples e menos de 2.000 linhas de código. Para projetos complexos em larga escala, sem ajuste fino ou engenharia de palavras complexas, penso que está claramente além das capacidades de processamento efetivas do modelo atual e não foi incluído no teste. Além disso, este teste envolve apenas Solidity e não inclui outras linguagens de contratos inteligentes como Rust e Move.
Para além do conteúdo de teste acima, a experiência abrange também muitos aspetos, incluindo cenários DeFi, DAO e sua governança, análise de dados on-chain, design de mecanismos de consenso e Tokenomics. Os grandes modelos de linguagem demonstraram certas capacidades nestes aspetos. Dado que muitos testes ainda estão em curso e os métodos e estruturas de teste estão constantemente a ser otimizados, este artigo não irá aprofundar nestas áreas por agora.
Entre todos os grandes modelos linguísticos que participaram na avaliação, o GPT-4o e o Claude 3.5 Sonnet continuaram o seu excelente desempenho noutros domínios e são os líderes indiscutíveis. Quando confrontados com perguntas básicas, ambos os modelos quase sempre podem dar respostas precisas; Na análise de cenários complexos, eles podem fornecer insights aprofundados e bem documentados. Ele até mostra uma alta taxa de vitória em tarefas de computação em que modelos grandes não são bons. É claro que esta "alta" taxa de sucesso é relativa e ainda não atingiu o nível de produção estável em um ambiente de produção.
No campo do modelo de código aberto, o Llama 3.1-405B está muito à frente dos seus pares, graças à sua grande escala de parâmetros e algoritmos avançados do modelo. Em outros modelos de código aberto com tamanhos de parâmetros menores, não há uma diferença significativa de desempenho entre os modelos. Embora as pontuações sejam ligeiramente diferentes, no geral estão longe da linha de aprovação.
Portanto, se deseja desenvolver aplicações de IA relacionadas à criptografia atualmente, esses modelos com parâmetros pequenos e médios não são uma escolha adequada.
Dois modelos se destacaram em nossa análise. O primeiro é o modelo Phi-3 3.8B lançado pela Microsoft. É o menor modelo que participa deste experimento. No entanto, alcança um nível de desempenho equivalente ao modelo 8B-12B com menos da metade do número de parâmetros. Em algumas categorias específicas, ainda melhor na questão. Esse resultado destaca a importância da otimização da arquitetura do modelo e das estratégias de treinamento que não dependem apenas do aumento do tamanho dos parâmetros.
E o modelo Command-R da Cohere tornou-se um surpreendente "cavalo negro" - o inverso. O Command-R não é tão conhecido em comparação com outros modelos, mas a Cohere é uma grande empresa de modelos que se concentra no mercado 2B. Acredito que ainda existem muitos pontos de convergência com áreas como o desenvolvimento de agentes, por isso foi especificamente incluído no escopo de teste. No entanto, o Command-R com 35B de parâmetros ficou em último lugar na maioria dos testes, perdendo para muitos modelos abaixo de 10B.
Este resultado desencadeou o pensamento: quando o Command-R foi lançado, concentrou-se no aprimoramento da recuperação e nas capacidades de geração, e nem sequer publicou resultados regulares de testes de referência. Isso significa que é uma "chave privada" que desbloqueia seu potencial total apenas em cenários específicos?
Nesta série de testes, obtivemos uma compreensão preliminar das capacidades de IA no campo da criptografia. Claro, esses testes estão longe dos padrões profissionais. A cobertura do conjunto de dados está longe de ser suficiente, os padrões quantitativos para respostas são relativamente grosseiros e ainda falta um mecanismo de pontuação refinado e mais preciso. Isso afetará a precisão dos resultados da avaliação e pode levar à subestimação do desempenho de alguns modelos.
Em termos de método de teste, o experimento usou apenas um método de aprendizagem sem supervisão, e não explorou métodos como cadeias de pensamento e aprendizagem com poucas amostras que podem inspirar um maior potencial do modelo. Em termos de parâmetros do modelo, foram usados parâmetros do modelo padrão nos experimentos, e o impacto de diferentes configurações de parâmetros no desempenho do modelo não foi examinado. Esses métodos de teste únicos limitam nossa avaliação abrangente do potencial do modelo e deixam de explorar totalmente as diferenças no desempenho do modelo sob condições específicas.
Embora as condições de teste tenham sido relativamente simples, esses experimentos ainda produziram muitas informações valiosas e forneceram uma referência para desenvolvedores construírem aplicações.
No campo da IA, os referências desempenham um papel fundamental. O rápido desenvolvimento da tecnologia de aprendizado profundo moderna teve origem no ImageNET, concluído pelo Professor Li Feifei em 2012, que é um referência padronizado e conjunto de dados no campo da visão computacional.
Ao fornecer um padrão unificado para avaliação, os benchmarks não apenas fornecem aos desenvolvedores metas claras e pontos de referência, mas também impulsionam o progresso tecnológico em toda a indústria. Isso explica por que cada novo grande modelo de linguagem lançado se concentrará em anunciar seus resultados em vários benchmarks. Esses resultados se tornam uma “linguagem universal” das capacidades do modelo, permitindo que os pesquisadores localizem avanços, os desenvolvedores selecionem os modelos mais adequados para tarefas específicas e os usuários façam escolhas informadas com base em dados objetivos. Mais importante ainda, os testes de benchmark frequentemente anunciam a direção futura das aplicações de IA, orientando o investimento de recursos e o foco da pesquisa.
Se acreditarmos que há um enorme potencial na interseção entre a IA e a criptografia, então estabelecer referências criptográficas dedicadas torna-se uma tarefa urgente. O estabelecimento de referências pode se tornar uma ponte chave que conecta os dois campos da IA e da criptografia, catalisando a inovação e fornecendo orientação clara para futuras aplicações.
No entanto, comparativamente com os benchmarks maduros em outros campos, a construção de benchmarks no campo da criptografia enfrenta desafios únicos: a tecnologia de criptografia está a evoluir rapidamente, o sistema de conhecimento da indústria ainda não está solidificado e existe falta de consenso em múltiplas direções centrais. Como um campo interdisciplinar, a criptografia abrange criptografia, sistemas distribuídos, economia, etc., e a sua complexidade está muito além de um único campo. O que é ainda mais desafiante é que o benchmark de criptografia não só precisa avaliar o conhecimento, mas também examina a capacidade prática da IA de usar a tecnologia de criptografia, o que requer o design de uma nova arquitetura de avaliação. A falta de conjuntos de dados relevantes aumenta ainda mais a dificuldade.
A complexidade e importância desta tarefa ditam que não pode ser realizada por uma única pessoa ou equipe. É necessário reunir a sabedoria de muitas partes, desde utilizadores, desenvolvedores, especialistas em criptografia e investigadores em encriptação até mais pessoas em áreas interdisciplinares, e depende de uma extensa participação e consenso da comunidade. Portanto, o ponto de referência de encriptação necessita de uma discussão mais ampla, porque não é apenas um trabalho técnico, mas também um reflexão profunda sobre como compreendemos esta tecnologia emergente.
Na crónica do progresso tecnológico, frequentemente surgem revolucionárias tecnologias de forma independente, cada uma liderando mudanças numa era. E quando duas tecnologias revolucionárias se encontram, a sua colisão frequentemente tem um impacto exponencial. Hoje, estamos perante um momento histórico: a inteligência artificial e a tecnologia de encriptação, duas novas tecnologias igualmente disruptivas, estão a entrar de mãos dadas no centro do palco.
Imaginamos que muitos desafios no campo da IA podem ser resolvidos pela tecnologia de criptografia; esperamos que o Agente de IA construa redes econômicas autônomas e promova a adoção em larga escala da tecnologia de criptografia; também esperamos que a IA possa acelerar o desenvolvimento de cenários existentes no campo da criptografia. Inúmeros olhos estão focados nisso, e fundos massivos estão sendo investidos. Assim como qualquer palavra da moda, ela incorpora o desejo das pessoas por inovação, visão para o futuro e também contém ambição e ganância incontroláveis.
No meio de toda esta agitação, sabemos muito pouco sobre as questões mais básicas. Até que ponto a IA conhece a encriptação? Terá um Agente equipado com um grande modelo de linguagem a capacidade real de utilizar ferramentas de encriptação? Qual a diferença de desempenho entre diferentes modelos em tarefas de encriptação?
As respostas a essas perguntas determinarão a influência mútua da IA e da tecnologia de criptografia, e também são cruciais para a direção do produto e a seleção da rota da tecnologia neste campo cruzado. Para explorar estas questões, realizei algumas experiências de avaliação em grandes modelos linguísticos. Ao avaliar os seus conhecimentos e capacidades no campo da encriptação, medimos o nível de aplicação de encriptação da IA e determinamos o potencial e os desafios da integração da IA e da tecnologia de encriptação.
O grande modelo de linguagem tem um bom desempenho no conhecimento básico de criptografia e blockchain, e tem uma boa compreensão do ecossistema de criptografia, mas tem um desempenho ruim em cálculos matemáticos e análise complexa de lógica de negócios. Em termos de chaves privadas e operações básicas de carteira, o modelo tem uma base satisfatória, mas enfrenta o desafio sério de como manter as chaves privadas na nuvem. Muitos modelos podem gerar código de contrato inteligente eficaz para cenários simples, mas não podem executar tarefas difíceis independentemente como auditoria de contrato e criação de contrato complexo.
Modelos comerciais fechados geralmente têm uma grande vantagem. No campo de código aberto, apenas o Llama 3.1-405B teve um bom desempenho, enquanto todos os modelos de código aberto com tamanhos de parâmetros menores falharam. No entanto, existe potencial. Através da orientação de palavras de prompt, raciocínio em cadeia de pensamento e tecnologia de aprendizado com poucas amostras, o desempenho de todos os modelos foi significativamente melhorado. Os modelos líderes já têm uma forte viabilidade técnica em alguns cenários de aplicação vertical.
Foram selecionados 18 modelos de linguagem representativos como objetos de avaliação, incluindo:
Esses modelos abrangem modelos comerciais populares de código aberto, com quantidades de parâmetros variando mais de cem vezes de 3,8B a 405B. Considerando a relação próxima entre tecnologia de criptografia e matemática, dois modelos de otimização matemática foram especialmente selecionados para o experimento.
As áreas de conhecimento cobertas pelo experimento incluem criptografia, noções básicas de blockchain, operações de chave privada e carteira, contratos inteligentes, DAO e governança, consenso e modelos econômicos, Dapp/DeFi/NFT, análise de dados on-chain, etc. Cada campo consiste numa série de perguntas e tarefas que vão do fácil ao difícil, que não só testa a reserva de conhecimento do modelo, mas também testa o seu desempenho em cenários de aplicação através de tarefas de simulação.
O design das tarefas vem de diversas fontes. Algumas vêm da entrada de múltiplos especialistas no campo de criptografia, e outra parte é gerada com a assistência de AI e manualmente revisada para garantir a precisão e o desafio das tarefas. Algumas das tarefas usam perguntas de múltipla escolha em um formato relativamente simples para facilitar testes padronizados automatizados separados e pontuação. Outra parte do teste adota um formato de pergunta mais complexo, e o processo de teste é conduzido por uma combinação de automação de programa + manual + AI. Todas as tarefas de teste são avaliadas usando um método de raciocínio de amostra zero, sem fornecer quaisquer exemplos, orientação de pensamento ou prompts instrucionais.
Uma vez que o design do próprio experimento é relativamente rudimentar e não tem rigor académico suficiente, as questões e tarefas utilizadas para testar estão longe de cobrir totalmente o campo da criptografia, e o enquadramento de teste também é imaturo. Por conseguinte, este artigo não lista dados experimentais específicos, mas centra-se em partilhar algumas perceções a partir dos experimentos.
Durante o processo de avaliação, o grande modelo de linguagem teve um bom desempenho em testes de conhecimento básico em vários campos, como algoritmos de criptografia, fundamentos de cripto e aplicações DeFi. Por exemplo, todos os modelos deram respostas precisas a perguntas que testaram a compreensão do conceito de disponibilidade de dados. Quanto à pergunta que avalia a compreensão do modelo sobre a estrutura de transação do Ethereum, embora cada modelo tenha respostas ligeiramente diferentes em detalhes, eles geralmente contêm informações corretas e importantes. As perguntas de múltipla escolha que examinam conceitos são ainda menos difíceis, e a precisão de quase todos os modelos é superior a 95%.
Questões conceituais e respostas são completamente difíceis para grandes modelos.
No entanto, a situação inverte-se quando se trata de problemas que exigem cálculos específicos. Um simples problema de cálculo do algoritmo RSA coloca a maioria dos modelos em dificuldade. É fácil de entender: grandes modelos de linguagem operam principalmente identificando e replicando padrões em dados de treinamento, em vez de entender profundamente a natureza dos conceitos matemáticos. Esta limitação é particularmente óbvia quando se lida com conceitos matemáticos abstratos, como operações modulares e operações exponenciais. Dado que o campo da criptografia está intimamente relacionado com a matemática, isto significa que confiar diretamente em modelos para cálculos matemáticos relacionados com encriptação não é fiável。
Em outros problemas de computação, o desempenho de grandes modelos de linguagem também é insatisfatório. Por exemplo, para a simples questão de calcular a perda impermanente da AMM, embora não envolva operações matemáticas complexas, apenas 4 dos 18 modelos deram a resposta correta. Quanto a outra questão mais básica sobre o cálculo da probabilidade de um bloco, todos os modelos erraram a resposta. Eles confundiram todos os modelos e nenhum deles estava correto. Isso não apenas expõe as deficiências de grandes modelos de linguagem em cálculos precisos, mas também reflete seus principais problemas na análise lógica de negócios. Vale ressaltar que até mesmo o modelo de otimização matemática falhou em mostrar vantagens óbvias em questões de cálculo, e seu desempenho foi decepcionante.
No entanto, o problema do cálculo matemático não é insolúvel. Se fizermos um ajuste ligeiro e exigirmos que os LLMs forneçam código Python correspondente em vez de calcular diretamente os resultados, a taxa de precisão será muito melhorada. Tomando o problema de cálculo RSA mencionado como exemplo, os códigos Python dados pela maioria dos modelos podem ser executados suavemente e produzir resultados corretos. Em ambientes de produção reais, códigos de algoritmos predefinidos podem ser fornecidos para contornar o auto-cálculo dos LLMs, o que é semelhante à forma como os humanos lidam com essas tarefas. Ao nível da lógica de negócios, o desempenho do modelo também pode ser melhorado eficazmente através de orientação cuidadosamente projetada de palavras de prompt.
Se me perguntar qual é o primeiro cenário para um Agente usar criptomoedas, minha resposta é pagamento. Criptomoeda pode ser considerada quase uma forma nativa de moeda para a IA. Comparado com os muitos obstáculos que os agentes enfrentam no sistema financeiro tradicional, é uma escolha natural usar a tecnologia de criptografia para equipar-se com identidades digitais e gerenciar fundos por meio de carteiras criptografadas. Portanto, a geração e gerenciamento de chaves privadas e várias operações de carteira constituem os requisitos de habilidade mais básicos para um Agente poder usar independentemente a rede de criptografia.
O núcleo da geração segura de chaves privadas reside em números aleatórios de alta qualidade, o que obviamente é uma capacidade que os grandes modelos de linguagem não possuem. No entanto, os modelos têm compreensão suficiente da segurança de chaves privadas. Quando solicitados a gerar uma chave privada, a maioria dos modelos opta por usar código (como bibliotecas relacionadas ao Python) para orientar os usuários a gerar chaves privadas independentemente. Mesmo se um modelo fornecer diretamente uma chave privada, é claramente declarado que isso é apenas para fins de demonstração e não é uma chave privada segura que pode ser usada diretamente. Nesse sentido, todos os grandes modelos mostraram um desempenho satisfatório.
O gerenciamento de chaves privadas enfrenta alguns desafios, que são principalmente devido às limitações inerentes da arquitetura técnica, em vez da falta de recursos do modelo. Ao usar um modelo implantado localmente, a chave privada gerada pode ser considerada relativamente segura. No entanto, se um modelo de nuvem comercial for usado, devemos assumir que a chave privada foi exposta ao operador do modelo no momento em que é gerada. Mas para um Agente que pretende trabalhar de forma independente, é necessário ter permissões de chave privada, o que significa que a chave privada não pode ser apenas local para o utilizador. Nesse caso, confiar apenas no modelo em si não é mais suficiente para garantir a segurança da chave privada, e serviços de segurança adicionais, como um ambiente de execução confiável ou HSM, precisam ser introduzidos.
Se for assumido que o Agente já detém a chave privada de forma segura e realiza várias operações básicas com base nisso, os vários modelos no teste mostraram boas capacidades. Embora muitas vezes existam erros nos passos e códigos gerados, estes problemas podem ser resolvidos em grande medida com uma estrutura de engenharia adequada. Pode-se dizer que, do ponto de vista técnico, já não existem muitos obstáculos para o Agente realizar operações básicas de carteira de forma independente.
A capacidade de compreender, utilizar, escrever e identificar riscos de contratos inteligentes é a chave para que os Agentes de IA realizem tarefas complexas no mundo on-chain, sendo também uma área de teste importante para experimentos. Modelos de linguagem grandes têm mostrado um potencial significativo nessa área, mas também expuseram alguns problemas óbvios.
Quase todos os modelos no teste responderam corretamente aos conceitos subjacentes do contrato, identificam bugs simples. Em termos de otimização de gás de contrato, a maioria dos modelos pode identificar pontos-chave de otimização e analisar conflitos que podem ser causados pela otimização. No entanto, quando o logic de negócios profundo está envolvido, as limitações dos grandes modelos começam a aparecer.
Tomemos como exemplo um contrato de token vesting: todos os modelos entenderam corretamente as funções do contrato e a maioria dos modelos encontrou várias vulnerabilidades de médio e baixo risco. No entanto, nenhum modelo pode descobrir independentemente uma vulnerabilidade de alto risco oculta na lógica de negócios que pode fazer com que alguns fundos sejam bloqueados em circunstâncias especiais. Em vários testes usando contratos reais, o modelo teve um desempenho aproximadamente igual.
Isso mostra que a compreensão dos contratos pelo grande modelo ainda permanece no nível formal e carece de compreensão da lógica profunda do negócio. No entanto, depois de receberem dicas adicionais, alguns modelos acabaram por ser capazes de identificar de forma independente as vulnerabilidades profundamente ocultas nos contratos acima mencionados. Com base neste julgamento de desempenho, com o apoio de um bom projeto de engenharia, o modelo grande tem basicamente a capacidade de servir como copiloto no campo dos contratos inteligentes. No entanto, ainda há um longo caminho a percorrer antes de podermos realizar de forma independente tarefas importantes, como auditorias de contratos.
Uma coisa a notar é que as tarefas relacionadas com o código no experimento são principalmente para contratos com lógica simples e menos de 2.000 linhas de código. Para projetos complexos em larga escala, sem ajuste fino ou engenharia de palavras complexas, penso que está claramente além das capacidades de processamento efetivas do modelo atual e não foi incluído no teste. Além disso, este teste envolve apenas Solidity e não inclui outras linguagens de contratos inteligentes como Rust e Move.
Para além do conteúdo de teste acima, a experiência abrange também muitos aspetos, incluindo cenários DeFi, DAO e sua governança, análise de dados on-chain, design de mecanismos de consenso e Tokenomics. Os grandes modelos de linguagem demonstraram certas capacidades nestes aspetos. Dado que muitos testes ainda estão em curso e os métodos e estruturas de teste estão constantemente a ser otimizados, este artigo não irá aprofundar nestas áreas por agora.
Entre todos os grandes modelos linguísticos que participaram na avaliação, o GPT-4o e o Claude 3.5 Sonnet continuaram o seu excelente desempenho noutros domínios e são os líderes indiscutíveis. Quando confrontados com perguntas básicas, ambos os modelos quase sempre podem dar respostas precisas; Na análise de cenários complexos, eles podem fornecer insights aprofundados e bem documentados. Ele até mostra uma alta taxa de vitória em tarefas de computação em que modelos grandes não são bons. É claro que esta "alta" taxa de sucesso é relativa e ainda não atingiu o nível de produção estável em um ambiente de produção.
No campo do modelo de código aberto, o Llama 3.1-405B está muito à frente dos seus pares, graças à sua grande escala de parâmetros e algoritmos avançados do modelo. Em outros modelos de código aberto com tamanhos de parâmetros menores, não há uma diferença significativa de desempenho entre os modelos. Embora as pontuações sejam ligeiramente diferentes, no geral estão longe da linha de aprovação.
Portanto, se deseja desenvolver aplicações de IA relacionadas à criptografia atualmente, esses modelos com parâmetros pequenos e médios não são uma escolha adequada.
Dois modelos se destacaram em nossa análise. O primeiro é o modelo Phi-3 3.8B lançado pela Microsoft. É o menor modelo que participa deste experimento. No entanto, alcança um nível de desempenho equivalente ao modelo 8B-12B com menos da metade do número de parâmetros. Em algumas categorias específicas, ainda melhor na questão. Esse resultado destaca a importância da otimização da arquitetura do modelo e das estratégias de treinamento que não dependem apenas do aumento do tamanho dos parâmetros.
E o modelo Command-R da Cohere tornou-se um surpreendente "cavalo negro" - o inverso. O Command-R não é tão conhecido em comparação com outros modelos, mas a Cohere é uma grande empresa de modelos que se concentra no mercado 2B. Acredito que ainda existem muitos pontos de convergência com áreas como o desenvolvimento de agentes, por isso foi especificamente incluído no escopo de teste. No entanto, o Command-R com 35B de parâmetros ficou em último lugar na maioria dos testes, perdendo para muitos modelos abaixo de 10B.
Este resultado desencadeou o pensamento: quando o Command-R foi lançado, concentrou-se no aprimoramento da recuperação e nas capacidades de geração, e nem sequer publicou resultados regulares de testes de referência. Isso significa que é uma "chave privada" que desbloqueia seu potencial total apenas em cenários específicos?
Nesta série de testes, obtivemos uma compreensão preliminar das capacidades de IA no campo da criptografia. Claro, esses testes estão longe dos padrões profissionais. A cobertura do conjunto de dados está longe de ser suficiente, os padrões quantitativos para respostas são relativamente grosseiros e ainda falta um mecanismo de pontuação refinado e mais preciso. Isso afetará a precisão dos resultados da avaliação e pode levar à subestimação do desempenho de alguns modelos.
Em termos de método de teste, o experimento usou apenas um método de aprendizagem sem supervisão, e não explorou métodos como cadeias de pensamento e aprendizagem com poucas amostras que podem inspirar um maior potencial do modelo. Em termos de parâmetros do modelo, foram usados parâmetros do modelo padrão nos experimentos, e o impacto de diferentes configurações de parâmetros no desempenho do modelo não foi examinado. Esses métodos de teste únicos limitam nossa avaliação abrangente do potencial do modelo e deixam de explorar totalmente as diferenças no desempenho do modelo sob condições específicas.
Embora as condições de teste tenham sido relativamente simples, esses experimentos ainda produziram muitas informações valiosas e forneceram uma referência para desenvolvedores construírem aplicações.
No campo da IA, os referências desempenham um papel fundamental. O rápido desenvolvimento da tecnologia de aprendizado profundo moderna teve origem no ImageNET, concluído pelo Professor Li Feifei em 2012, que é um referência padronizado e conjunto de dados no campo da visão computacional.
Ao fornecer um padrão unificado para avaliação, os benchmarks não apenas fornecem aos desenvolvedores metas claras e pontos de referência, mas também impulsionam o progresso tecnológico em toda a indústria. Isso explica por que cada novo grande modelo de linguagem lançado se concentrará em anunciar seus resultados em vários benchmarks. Esses resultados se tornam uma “linguagem universal” das capacidades do modelo, permitindo que os pesquisadores localizem avanços, os desenvolvedores selecionem os modelos mais adequados para tarefas específicas e os usuários façam escolhas informadas com base em dados objetivos. Mais importante ainda, os testes de benchmark frequentemente anunciam a direção futura das aplicações de IA, orientando o investimento de recursos e o foco da pesquisa.
Se acreditarmos que há um enorme potencial na interseção entre a IA e a criptografia, então estabelecer referências criptográficas dedicadas torna-se uma tarefa urgente. O estabelecimento de referências pode se tornar uma ponte chave que conecta os dois campos da IA e da criptografia, catalisando a inovação e fornecendo orientação clara para futuras aplicações.
No entanto, comparativamente com os benchmarks maduros em outros campos, a construção de benchmarks no campo da criptografia enfrenta desafios únicos: a tecnologia de criptografia está a evoluir rapidamente, o sistema de conhecimento da indústria ainda não está solidificado e existe falta de consenso em múltiplas direções centrais. Como um campo interdisciplinar, a criptografia abrange criptografia, sistemas distribuídos, economia, etc., e a sua complexidade está muito além de um único campo. O que é ainda mais desafiante é que o benchmark de criptografia não só precisa avaliar o conhecimento, mas também examina a capacidade prática da IA de usar a tecnologia de criptografia, o que requer o design de uma nova arquitetura de avaliação. A falta de conjuntos de dados relevantes aumenta ainda mais a dificuldade.
A complexidade e importância desta tarefa ditam que não pode ser realizada por uma única pessoa ou equipe. É necessário reunir a sabedoria de muitas partes, desde utilizadores, desenvolvedores, especialistas em criptografia e investigadores em encriptação até mais pessoas em áreas interdisciplinares, e depende de uma extensa participação e consenso da comunidade. Portanto, o ponto de referência de encriptação necessita de uma discussão mais ampla, porque não é apenas um trabalho técnico, mas também um reflexão profunda sobre como compreendemos esta tecnologia emergente.