Desconstrução de estruturas de IA: De agentes inteligentes à exploração da descentralização

Intermediário

1/16/2025, 6:03:33 AM

Este artigo analisa as tendências de desenvolvimento e a lógica de investimento no campo do AI Agent, com um foco particular na análise de projetos baseados em frameworks em detalhe. Introduz os conceitos básicos e funcionalidades dos frameworks de IA e demonstra o seu desempenho e potencial em diferentes cenários de aplicação através de estudos de caso específicos como Eliza, G.A.M.E, Rig e ZerePy. Além disso, a partir de perspectivas técnicas, de mercado e de investimento, o artigo compara as semelhanças entre os AI Agents e o ecossistema BTC, explorando a importância de trazer AI Agents para o blockchain e as inovações potenciais que isso pode trazer no futuro.

Introdução

Em artigos anteriores, discutimos frequentemente nossos pontos de vista sobre o estado atual dos memes de IA e o desenvolvimento futuro de agentes de IA. No entanto, o rápido desenvolvimento narrativo e a evolução da trilha AI Agent ainda têm sido um pouco avassaladores. Nos breves dois meses desde o lançamento de "Truth Terminal" e o início do Agent Summer, a narrativa da integração de IA e Crypto evoluiu quase semanalmente. Recentemente, a atenção do mercado começou a mudar para projetos "quadro", que são impulsionados principalmente por narrativas tecnológicas. Este subcampo de nicho já produziu vários projetos de unicórnio com um valor de mercado de mais de um bilhão de dólares nas últimas semanas. Esses projetos também levaram a um novo paradigma para a emissão de ativos, onde os projetos emitem tokens com base em seus repositórios de código do GitHub, e os agentes construídos nessas estruturas também podem emitir tokens. No núcleo desta estrutura, temos frameworks, com Agents como a camada acima. Ele se assemelha a uma plataforma de emissão de ativos, mas na verdade é um modelo de infraestrutura único emergente na era da IA. Como devemos encarar esta nova tendência? Este artigo começará com uma introdução aos frameworks e oferecerá uma interpretação do que os frameworks de IA significam para o Crypto, combinando esses insights com nossas próprias reflexões.

I. O que é um Framework?

Por definição, um framework de IA é uma ferramenta ou plataforma de desenvolvimento subjacente que integra um conjunto de módulos, bibliotecas e ferramentas predefinidas para simplificar o processo de construção de modelos de IA complexos. Estes frameworks normalmente incluem também funções para lidar com dados, treinar modelos e fazer previsões. Em termos simples, pode-se pensar num framework como um sistema operativo para a era da IA, semelhante aos sistemas operativos de computador como Windows ou Linux, ou aos sistemas operativos móveis como iOS e Android. Cada framework tem as suas próprias vantagens e desvantagens, permitindo aos programadores escolher com base nas suas necessidades específicas.

Embora o termo "estrutura de IA" seja ainda um conceito relativamente novo no campo da Cripto, o seu desenvolvimento remonta a quase 14 anos, começando com o Theano em 2010. Na comunidade tradicional de IA, tanto a academia como a indústria já desenvolveram estruturas muito maduras para escolher, como o TensorFlow da Google, o PyTorch da Meta, o PaddlePaddle da Baidu e o MagicAnimate da ByteDance, cada um dos quais tem as suas vantagens em diferentes cenários.

Os projetos de estrutura de IA atualmente emergentes em Crypto baseiam-se na demanda por um grande número de Agentes decorrente do boom de IA, e estes têm se ramificado em outras áreas em Crypto, formando assim diferentes estruturas de IA para subcampos específicos. Vamos explorar algumas das estruturas de IA atuais na indústria para ilustrar melhor este ponto.

1.1 Eliza

Primeiro, vamos considerar Eliza, uma estrutura criada por ai16z. É uma estrutura de simulação multi-agente projetada para criar, implantar e gerenciar agentes de IA autônomos. Desenvolvido usando TypeScript como linguagem de programação, sua vantagem está na melhor compatibilidade e integração mais fácil com a API. De acordo com a documentação oficial, Eliza é principalmente projetada para mídias sociais, oferecendo suporte para integrações multiplataforma. A estrutura fornece integração completa com o Discord, suportando canais de voz, contas automatizadas para X/Twitter, integração com o Telegram e acesso direto à API. Em termos de processamento de conteúdo de mídia, ele suporta a leitura e análise de documentos em PDF, extração e resumo de links, transcrição de áudio, manipulação de conteúdo de vídeo, análise de imagem e resumos de conversas.

Os casos de uso suportados atualmente pela Eliza incluem as seguintes quatro categorias:

Aplicações de Assistente de IA: Agentes de suporte ao cliente, administradores de comunidade, assistentes pessoais.
Funções nas redes sociais: Criadores de conteúdo automatizados, bots interativos, representantes de marcas.
Trabalhadores do Conhecimento: Assistentes de pesquisa, analistas de conteúdo, processadores de documentos.
Papéis Interativos: Personagens de jogos de interpretação, tutores educativos, bots de entretenimento.

Os modelos atualmente suportados por Eliza são:

Modelos de inferência local de código aberto: como Llama3, Qwen1.5, BERT.
Inferência em nuvem via API OpenAI.
Configuração padrão como Nous Hermes Llama 3.1B.
Integração com Claude para consultas complexas.

1.2 G.A.M.E

G.A.M.E (Generative Autonomous Multimodal Entities Framework) é um framework de IA multimodal para geração e gestão automática, lançado pela Virtual. É projetado principalmente para o design de NPC inteligente em jogos. Um aspecto único deste framework é que ele permite que até mesmo usuários de baixo código ou sem código participem do design do Agente simplesmente modificando parâmetros através de sua interface de teste.

Em termos de arquitetura do projeto, G.A.M.E é construído com um design modular, onde múltiplos subsistemas trabalham juntos em colaboração. A arquitetura detalhada é a seguinte:

Interface de Prompt do Agente: A interface para os desenvolvedores interagirem com o framework de IA. Através desta interface, os desenvolvedores podem iniciar uma sessão e especificar IDs de sessão, IDs de agente, IDs de usuário e outros parâmetros.
Subsistema de Percepção: Responsável por receber informações de entrada, sintetizá-las e enviá-las para o mecanismo de planeamento estratégico. Também trata de respostas do módulo de processamento de diálogo.
Motor de Planeamento Estratégico: O núcleo de todo o quadro, dividido em um planejador de alto nível e uma política de baixo nível. O planejador de alto nível é responsável por formular metas e planos de longo prazo, enquanto a política de baixo nível traduz esses planos em ações específicas.
Contexto Mundial: Contém informações ambientais, estado mundial e dados do estado do jogo, ajudando os agentes a compreender o seu contexto atual.
Módulo de Processamento de Diálogo: Lida com mensagens e respostas, gerando diálogo ou reações como saída.
Operador de Carteira On-Chain: Provavelmente relacionado a aplicações de tecnologia blockchain, embora funções específicas sejam incertas.
Módulo de Aprendizagem: Aprende com o feedback e atualiza a base de conhecimento do agente.
Memória de Trabalho: Armazena ações recentes, resultados e planos atuais, entre outras informações de curto prazo.
Processador de Memória de Longo Prazo: Extrai e classifica informações importantes sobre o agente e sua memória de trabalho com base em fatores como importância, recenticidade e relevância.
Repositório do Agente: Armazena os objetivos, reflexões, experiências e características do agente.
Planeador de Ações: Gera planos de ação específicos com base em estratégias de baixo nível.
Executor do Plano: Executa os planos de ação gerados pelo planejador de ação.

Fluxo de trabalho: Os desenvolvedores iniciam um Agente através da Interface de Solicitação de Agente, onde o Subsistema de Percepção recebe a entrada e a envia para o Motor de Planeamento Estratégico. O motor, com a ajuda do sistema de memória, contexto mundial e repositório de Agentes, formula e executa um plano de ação. O Módulo de Aprendizagem monitora as ações do Agente e ajusta seu comportamento em conformidade.

Cenários de Aplicação: A partir da arquitetura técnica geral, este framework foca na tomada de decisões, feedback, percepção e personalidade dos Agentes em ambientes virtuais. Além de jogos, este framework também é aplicável ao Metaverso. A lista abaixo da Virtual mostra que muitos projetos já adotaram este framework para construção.

1.3 Rig

Rig é uma ferramenta de código aberto escrita em Rust, projetada especificamente para simplificar o desenvolvimento de aplicações de grandes modelos de linguagem (LLM). Ele fornece uma interface unificada que permite aos desenvolvedores interagir facilmente com vários provedores de serviços LLM (como OpenAI e Anthropic) e vários bancos de dados de vetores (como MongoDB e Neo4j).

Principais características:

Interface Unificada: Independentemente do fornecedor LLM ou armazenamento de vetor utilizado, Rig oferece um método de acesso consistente, reduzindo significativamente a complexidade do trabalho de integração.
Arquitetura Modular: O framework utiliza um design modular, que inclui componentes-chave como “Camada de Abstração de Fornecedores”, “Interface de Armazenamento em Vetor” e “Sistema de Agente Inteligente”, garantindo flexibilidade e escalabilidade do sistema.
Segurança de tipo: Aproveitando as características do Rust, o Rig alcança operações de incorporação seguras em termos de tipo, garantindo qualidade de código e segurança em tempo de execução.
Alto Desempenho: O sistema suporta programação assíncrona, otimizando as capacidades de processamento de concorrência. As funcionalidades de registo e monitorização integradas ajudam na manutenção e resolução de problemas.

Fluxo de trabalho: Quando um usuário entra no sistema Rig, o pedido passa primeiro pela “Camada de Abstração do Provedor”, que padroniza as diferenças entre vários provedores e garante o tratamento consistente de erros. Na camada central, agentes inteligentes podem chamar diferentes ferramentas ou consultar o armazenamento de vetores para recuperar as informações necessárias. Finalmente, mecanismos avançados como a Geração com Recuperação Aprimorada (RAG) combinam recuperação de documentos e compreensão contextual para gerar respostas precisas e significativas antes de devolvê-las ao usuário.

Casos de uso: O Rig é adequado para construir sistemas que exigem respostas rápidas e precisas, criar ferramentas eficientes de pesquisa de documentos, desenvolver chatbots ou assistentes virtuais conscientes do contexto e até mesmo apoiar a criação de conteúdo gerando automaticamente texto ou outras formas de conteúdo com base em padrões de dados existentes.

1.4 ZerePy

ZerePy é um framework de código aberto baseado em Python projetado para simplificar a implantação e o gerenciamento de agentes de IA na plataforma X (anteriormente Twitter). Ele evoluiu a partir do projeto Zerebro e herdou suas funcionalidades principais, mas foi projetado de maneira mais modular e escalável. O objetivo é permitir que os desenvolvedores criem facilmente agentes de IA personalizados e implementem várias tarefas de automação e criação de conteúdo no X.

O ZerePy fornece uma interface de linha de comando (CLI), tornando conveniente para os usuários gerenciarem e controlarem os agentes de IA que implantam. Sua arquitetura principal é modular, permitindo que os desenvolvedores integrem flexivelmente diferentes módulos funcionais, como:

Integração LLM: ZerePy suporta grandes modelos de linguagem (LLMs) da OpenAI e Anthropic, permitindo aos desenvolvedores selecionar o modelo mais adequado para a sua aplicação. Isto permite que os agentes gerem conteúdo textual de alta qualidade.
Integração da Plataforma X: O framework integra diretamente com a API da X, permitindo que os agentes executem tarefas como postar, responder, curtir e retuitar.
Sistema de Conexão Modular: Este sistema permite que os desenvolvedores adicionem facilmente suporte para outras plataformas sociais ou serviços, ampliando a funcionalidade do framework.
Sistema de Memória (Planos Futuros): Embora não esteja totalmente implementado na versão atual, o objetivo de design do ZerePy inclui a integração de um sistema de memória que permitiria aos agentes lembrar interações anteriores e informações contextuais para gerar conteúdo mais coerente e personalizado.

Embora tanto o ZerePy como o projeto Eliza da a16z visem construir e gerir agentes de IA, diferem em arquitetura e foco. Eliza é mais orientada para simulações multi-agente e pesquisa de IA mais ampla, enquanto o ZerePy foca em simplificar a implantação de agentes de IA em plataformas sociais específicas (X), tornando-o mais orientado para aplicativos.

II. Uma Réplica do Ecossistema BTC

Em termos de caminho de desenvolvimento, os agentes de IA compartilham muitas semelhanças com o ecossistema BTC de final de 2023 a início de 2024. A trajetória de desenvolvimento do ecossistema BTC pode ser resumida de forma simples como: competição multi-protocolo BRC20-Atomical/Rune e outros — BTC L2 — BTCFi centrado em Babylon. Enquanto os agentes de IA têm se desenvolvido mais rapidamente com base em pilhas de tecnologia de IA tradicional maduras, seu caminho de desenvolvimento geral espelha o ecossistema BTC em vários aspectos. Eu resumiria da seguinte forma: GOAT/ACT — Agentes do tipo social — Competição de estrutura de agente de IA analítica. Do ponto de vista das tendências, projetos de infraestrutura focados em descentralização e segurança em torno de agentes também provavelmente seguirão essa onda de estrutura, tornando-se o próximo tema dominante.

Então, este rastreamento, como o ecossistema BTC, levará à homogeneização e à bolha? Eu não acho. Em primeiro lugar, a narrativa dos agentes de IA não se trata de recriar a história das cadeias de contratos inteligentes. Em segundo lugar, quer esses projetos existentes de estrutura de IA sejam tecnicamente fortes ou ainda estejam presos na fase de PPT ou apenas Ctrl+C e Ctrl+V, pelo menos eles fornecem uma nova abordagem de desenvolvimento de infraestrutura. Muitos artigos compararam estruturas de IA a plataformas de emissão de ativos e agentes a ativos. No entanto, em comparação com Memecoin Launchpads e protocolos de inscrição, pessoalmente acredito que as estruturas de IA se assemelham a futuras cadeias públicas, enquanto os agentes se assemelham a futuros DApps.

No espaço de criptografia de hoje, temos milhares de blockchains públicas e dezenas de milhares de DApps. No campo das blockchains de propósito geral, temos BTC, Ethereum e várias blockchains heterogêneas, enquanto as formas de blockchains de aplicação são mais diversas, como blockchains de jogos, blockchains de armazenamento e blockchains de Dex. Blockchains públicas e estruturas de IA são bastante semelhantes em natureza, e DApps podem corresponder bem a agentes.

Na era do Crypto na IA, é altamente provável que o espaço evolua nessa direção, com debates futuros mudando de EVM versus cadeias heterogêneas para debates de estrutura. A questão atual é mais sobre a descentralização, ou como "encadeá-la". Acredito que futuros projetos de infraestrutura de IA se desenvolverão em torno dessa base. Outro ponto importante é: qual a importância de fazer isso no blockchain?

III. O Significado de On-Chain

Independentemente do que a blockchain se combina, ela enfrenta, em última instância, uma questão crítica: é significativa? No artigo do ano passado, critiquei o GameFi por suas prioridades mal colocadas, onde o desenvolvimento da infraestrutura estava excessivamente avançado, e em artigos anteriores sobre IA, expressei ceticismo sobre a praticidade atual de combinar IA com Crypto. Afinal, a força motriz da narrativa para projetos tradicionais tem enfraquecido cada vez mais. Os poucos projetos tradicionais que se saíram bem no ano passado em termos de preço do token geralmente foram aqueles que conseguiram igualar ou exceder a força do preço.

O que a IA pode fazer pelo Crypto? Anteriormente, pensei em casos de uso como agentes de IA executando tarefas em nome de usuários, Metaverso e agentes como funcionários — ideias relativamente mundanas, mas com certas demandas. No entanto, essas demandas não exigem estar totalmente on-chain e, do ponto de vista da lógica de negócios, não podem formar um ciclo fechado. O navegador do agente mencionado no último artigo, que implementa intenções, poderia gerar demandas por etiquetagem de dados e poder de computação de inferência, mas esses dois elementos ainda não estão fortemente integrados e, em termos de poder computacional, a computação centralizada ainda mantém a vantagem.

Revisitando o sucesso do DeFi, a razão pela qual o DeFi conseguiu conquistar uma fatia das finanças tradicionais é porque oferece maior acessibilidade, melhor eficiência, custos mais baixos e segurança sem confiança. Se considerarmos este quadro, acho que pode haver várias razões pelas quais a "cadeia de agentes" pode fazer sentido:

Redução de custos: A cadeia de agentes pode reduzir os custos de utilização, permitindo assim uma maior acessibilidade e mais opções para os utilizadores? Isto poderia eventualmente permitir que os utilizadores comuns participassem no que tradicionalmente tem sido o domínio exclusivo dos gigantes da tecnologia Web2 com alugueres de IA.
Segurança: De acordo com a definição mais simples, um agente é uma IA que pode interagir com o mundo virtual ou real. Se um agente pode intervir no mundo real ou até mesmo na minha carteira virtual, então soluções de segurança baseadas em blockchain podem se tornar uma necessidade.
Jogo Financeiro Específico de Blockchain: Os agentes podem criar um conjunto único de mecanismos financeiros na blockchain? Por exemplo, em AMM (Automated Market Maker), os provedores de liquidez (LPs) permitem que usuários comuns participem de market-making automatizado. Da mesma forma, se os agentes necessitam de poder computacional ou rotulagem de dados, os usuários podem investir nesses protocolos na forma de USDT, com base em sua confiança no sistema. Ou seja, agentes em diferentes cenários de aplicação podem formar novas estruturas financeiras.
Interoperabilidade DeFi: Embora DeFi atualmente careça de interoperabilidade perfeita, os agentes podem ser capazes de resolver este problema ao permitir processos de raciocínio transparentes e rastreáveis, preenchendo as lacunas.

IV. Criatividade?

Projetos de framework no futuro também irão proporcionar oportunidades empreendedoras semelhantes à GPT Store. Embora lançar um agente através de um framework ainda seja complexo para usuários comuns, acredito que simplificar o processo de construção do agente e proporcionar combinações de funções mais complexas dará a esses frameworks uma vantagem competitiva no futuro. Isso poderia levar à criação de uma economia criativa Web3 muito mais interessante do que a GPT Store.

Atualmente, a GPT Store ainda está mais orientada para usos práticos tradicionais, com a maioria dos aplicativos populares sendo criados por empresas Web2 tradicionais. Além disso, a renda gerada é em grande parte monopolizada pelos criadores. De acordo com a explicação oficial da OpenAI, a estratégia é simplesmente oferecer suporte financeiro a desenvolvedores excepcionais nos Estados Unidos, oferecendo subsídios até certo valor.

Do ponto de vista da demanda, a Web3 ainda tem muitas lacunas a preencher e, do ponto de vista do sistema econômico, ela pode tornar as políticas injustas dos gigantes Web2 mais equitativas. Além disso, podemos introduzir naturalmente economias comunitárias para melhorar ainda mais os agentes. A economia criativa em torno dos agentes apresentará às pessoas comuns uma oportunidade de participação. No futuro, os memes de IA serão muito mais inteligentes e interessantes do que os agentes emitidos pelo GOAT ou Clanker.

Sobre YBB

YBB é um fundo web3 dedicado a identificar projetos que definem o Web3 com a visão de criar um habitat online melhor para todos os residentes da internet. Fundado por um grupo de entusiastas de blockchain que têm participado ativamente desta indústria desde 2013, YBB está sempre disposto a ajudar projetos em estágio inicial a evoluir de 0 a 1. Valorizamos a inovação, a paixão autoimpulsionada e os produtos orientados para o usuário, reconhecendo o potencial das criptomoedas e das aplicações blockchain.

Website | Twi: @YBBCapital

Aviso Legal:

Este artigo é reproduzido a partir de [YBB Capital]. Todos os direitos autorais pertencem ao autor original [Investigador da YBB Capital, Zeke]. Se houver objeções a esta reimpressão, por favor contacte o Gate Learnequipa, e eles irão tratar disso prontamente.
Aviso de responsabilidade: As opiniões expressas neste artigo são exclusivamente as do autor e não constituem aconselhamento de investimento.
A equipe de aprendizado da gate traduziu o artigo para outros idiomas. Copiar, distribuir ou plagiar os artigos traduzidos é proibido, a menos que seja mencionado.

Partilhar

İçerik

Desconstrução de estruturas de IA: De agentes inteligentes à exploração da descentralização

Intermediário1/16/2025, 6:03:33 AM

DeFi Tecnologia IA

Introdução