No dia 16 de fevereiro, a OpenAI anunciou o seu mais recente modelo de difusão generativa de texto para vídeo denominado "Sora", assinalando mais um marco na IA generativa com a sua capacidade de produzir vídeos de alta qualidade numa vasta gama de tipos de dados visuais. Ao contrário das ferramentas de geração de vídeo com IA, como o Pika, que gera alguns segundos de vídeo a partir de várias imagens, o Sora treina no espaço latente comprimido de vídeos e imagens, dividindo-os em manchas espácio-temporais para uma geração de vídeo escalável. Além disso, o modelo demonstra a capacidade de simular tanto o mundo físico como o digital, sendo a sua demonstração de 60 segundos descrita como um "simulador universal do mundo físico".
O Sora prossegue a trajetória técnica "dados de origem-Transformador-Difusão-emergência" observada nos modelos GPT anteriores, o que indica que a sua maturidade de desenvolvimento assenta também na capacidade de cálculo. Dado o maior volume de dados necessário para a formação em vídeo em comparação com o texto, prevê-se que a procura de potência computacional aumente ainda mais. No entanto, conforme discutido em nosso artigo anterior "Previsão de setor promissor: The Decentralized Computing Power Market", a importância da potência computacional na era da IA foi explorada e, com a crescente popularidade da IA, surgiram inúmeros projectos de potência computacional, beneficiando outros projectos Depin (armazenamento, potência computacional, etc.) com um aumento de valor. Para além do Depin, este artigo pretende atualizar e completar discussões passadas, ponderando as faíscas que podem surgir do entrelaçamento da Web3 e da IA e as oportunidades desta trajetória na era da IA.
A Inteligência Artificial (IA) é um campo em expansão centrado na emulação, extensão e enriquecimento da inteligência humana. Desde a sua criação nas décadas de 1950 e 1960, a IA passou por mais de meio século de evolução, emergindo como uma tecnologia fundamental que impulsiona a transformação da sociedade e de vários sectores. Ao longo deste percurso, o progresso entrelaçado de três direcções de investigação principais - simbolismo, conexionismo e behaviorismo - lançou as bases para o rápido avanço da IA atual.
O simbolismo, também designado por logicismo ou raciocínio baseado em regras, defende que é possível reproduzir a inteligência humana através do processamento de símbolos. Esta abordagem utiliza símbolos para representar e manipular objectos, conceitos e as suas relações num determinado domínio problemático, empregando o raciocínio lógico para resolver questões. O simbolismo obteve um êxito notável, nomeadamente nos sistemas especializados e na representação do conhecimento. O seu princípio central é que o comportamento inteligente pode ser realizado através da manipulação de símbolos e da inferência lógica, servindo os símbolos como abstracções de alto nível do mundo real.
O conexionismo, alternativamente conhecido como a abordagem da rede neural, procura alcançar a inteligência espelhando a estrutura e a funcionalidade do cérebro humano. Esta metodologia constrói redes que incluem numerosas unidades de processamento simples, semelhantes a neurónios, e ajusta a intensidade das ligações entre estas unidades, semelhantes a sinapses, para facilitar a aprendizagem. Ao enfatizar a aprendizagem e a generalização a partir de dados, o conexionismo é adequado para tarefas como o reconhecimento de padrões, a classificação e o mapeamento contínuo de entrada-saída. A aprendizagem profunda, uma evolução do conexionismo, conseguiu avanços em domínios como o reconhecimento de imagens e de voz, bem como o processamento de linguagem natural.
O behaviorismo, intimamente ligado à robótica biomimética e à investigação de sistemas inteligentes autónomos, sublinha que os agentes inteligentes podem aprender através da interação com o ambiente. Ao contrário das abordagens precedentes, o behaviorismo não se concentra na simulação de representações internas ou de processos cognitivos, mas alcança o comportamento adaptativo através do ciclo perceção-ação. Esta abordagem defende que a inteligência se manifesta através da interação dinâmica com o ambiente e da aprendizagem, o que a torna especialmente eficaz para robôs móveis e sistemas de controlo adaptativos que operam em ambientes complexos e imprevisíveis.
Apesar das suas disparidades fundamentais, estas três direcções de investigação podem sinergizar-se e complementar-se na investigação e aplicações práticas de IA, impulsionando coletivamente o desenvolvimento deste campo.
O crescente domínio dos Conteúdos Gerados por Inteligência Artificial (AIGC) representa uma evolução e aplicação do conexionismo, facilitando a geração de novos conteúdos através da emulação da criatividade humana. Estes modelos são treinados utilizando vastos conjuntos de dados e algoritmos de aprendizagem profunda para discernir estruturas, relações e padrões subjacentes nos dados. A partir dos dados introduzidos pelo utilizador, produzem diversos resultados, incluindo imagens, vídeos, código, música, desenhos, traduções, respostas a perguntas e texto. Atualmente, o AIGC é fundamentalmente composto por três elementos: Aprendizagem Profunda (DL), Grandes Dados e Poder Computacional Massivo.
A Aprendizagem Profunda, um subconjunto da Aprendizagem Automática (AM), utiliza algoritmos modelados com base nas redes neuronais do cérebro humano. Tal como o cérebro humano é constituído por neurónios interligados que processam informações, as redes neuronais de aprendizagem profunda são constituídas por várias camadas de neurónios artificiais que efectuam cálculos num computador. Estes neurónios artificiais, ou nós, utilizam operações matemáticas para processar dados e resolver problemas complexos através de algoritmos de aprendizagem profunda.
As redes neuronais são constituídas por camadas: entrada, oculta e saída, com parâmetros que ligam estas camadas.
- Camada de entrada: A primeira camada da rede neural recebe dados de entrada externos. Cada neurónio dentro desta camada corresponde a uma caraterística dos dados de entrada. Por exemplo, no processamento de dados de imagem, os neurónios individuais podem representar valores de pixel.
- Camadas ocultas: A seguir à camada de entrada, as camadas ocultas processam e transmitem dados através da rede. Estas camadas analisam a informação a vários níveis, adaptando o seu comportamento à medida que recebem novas informações. As redes de aprendizagem profunda podem ter centenas de camadas ocultas, permitindo a análise de problemas multifacetados. Por exemplo, ao classificar um animal desconhecido a partir de uma imagem, a rede pode compará-lo com animais conhecidos, avaliando características como a forma das orelhas, o número de patas e o tamanho da pupila. As camadas ocultas funcionam de forma semelhante, cada uma processando diferentes características dos animais para ajudar numa classificação exacta.
- Camada de saída: A última camada da rede neural produz a saída da rede. Os neurónios desta camada representam potenciais categorias ou valores de saída. Nas tarefas de classificação, cada neurónio pode corresponder a uma categoria, enquanto nas tarefas de regressão, a camada de saída pode apresentar um único neurónio cujo valor prevê o resultado.
- Parâmetros: Nas redes neuronais, as ligações entre as diferentes camadas são representadas por pesos e desvios, que são optimizados durante o processo de formação para permitir que a rede reconheça com precisão os padrões nos dados e faça previsões. O aumento dos parâmetros pode melhorar a capacidade de modelação da rede neuronal, ou seja, a capacidade de aprender e representar padrões complexos nos dados. No entanto, isto também aumenta a procura de potência computacional.
O treino eficaz de redes neuronais requer, normalmente, dados extensos, diversificados, de elevada qualidade e de várias fontes. Esses dados constituem a pedra angular para a formação e validação de modelos de aprendizagem automática. Através da análise de grandes volumes de dados, os modelos de aprendizagem automática podem identificar padrões e relações nos dados, facilitando as previsões ou classificações.
A intrincada estrutura multicamada das redes neuronais, os numerosos parâmetros, os requisitos para o processamento de grandes volumes de dados, os métodos de formação iterativos (que envolvem cálculos repetidos de propagação para a frente e para trás, incluindo cálculos de funções de ativação e de perda, cálculos de gradientes e actualizações de pesos), as necessidades de computação de alta precisão, as capacidades de computação paralela, as técnicas de otimização e regularização e os processos de avaliação e validação de modelos contribuem coletivamente para exigências computacionais substanciais.
Sora, o mais recente modelo de IA de geração de vídeo da OpenAI, representa um avanço substancial na capacidade da inteligência artificial para processar e compreender diversos dados visuais. Ao utilizar redes de compressão de vídeo e técnicas de correção espácio-temporal, o Sora pode converter grandes quantidades de dados visuais capturados em todo o mundo e a partir de vários dispositivos numa representação unificada. Esta capacidade permite o processamento e a compreensão eficientes de conteúdos visuais complexos. O Sora utiliza modelos de difusão condicionados por texto para gerar vídeos ou imagens altamente correlacionados com mensagens de texto, demonstrando uma criatividade e adaptabilidade notáveis.
Apesar dos avanços de Sora na geração de vídeo e na simulação de interacções no mundo real, encontra algumas limitações. Estas incluem a precisão das simulações do mundo físico, a consistência na geração de vídeos longos, a compreensão de instruções de texto complexas e a eficiência na formação e geração. Essencialmente, Sora segue a trajetória técnica "big data-Transformador-Difusão-emergência", facilitada pelo poder computacional monopolista da OpenAI e pela vantagem de ser a primeira empresa a fazê-lo, resultando numa forma de estética de força bruta. No entanto, outras empresas de IA ainda têm o potencial de ultrapassar a Sora através da inovação tecnológica.
Embora a ligação da Sora à cadeia de blocos continue a ser modesta, prevê-se que, nos próximos um ou dois anos, a influência da Sora conduza ao aparecimento e ao rápido desenvolvimento de outras ferramentas de geração de IA de elevada qualidade. Prevê-se que estes desenvolvimentos tenham impacto em vários sectores da Web3, como a GameFi, as plataformas sociais, as plataformas criativas, o Depin, etc. Consequentemente, é essencial adquirir uma compreensão geral de Sora e considerar como a IA se integrará efetivamente com Web3 no futuro torna-se uma consideração crucial.
Como já foi referido, os componentes fundamentais essenciais para a IA generativa podem ser resumidos em três elementos principais: algoritmos, dados e capacidade de computação. Por outro lado, a IA, sendo uma ferramenta universal com efeitos de longo alcance nos métodos de produção, revoluciona a forma como as indústrias funcionam. Entretanto, os impactos significativos da tecnologia blockchain são duplos: reestrutura as relações de produção e permite a descentralização. Assim, a convergência destas duas tecnologias pode dar origem a quatro vias potenciais:
Esta secção tem como objetivo fornecer informações sobre o panorama atual da capacidade de computação. No domínio da IA, a capacidade de computação tem uma enorme importância. A procura de capacidade de computação no domínio da IA, particularmente evidenciada após o aparecimento da Sora, atingiu níveis sem precedentes. Durante o Fórum Económico Mundial em Davos, na Suíça, em 2024, o CEO da OpenAI, Sam Altman, sublinhou que a capacidade de computação e a energia são atualmente os principais constrangimentos, sugerindo a sua futura equivalência à moeda. Posteriormente, a 10 de fevereiro, Sam Altman anunciou um plano inovador através do Twitter para angariar uns impressionantes 7 biliões de dólares (equivalentes a 40% do PIB da China em 2023) para revolucionar a indústria global de semicondutores, com o objetivo de estabelecer um império dos semicondutores. Anteriormente, as minhas considerações sobre o poder de computação limitavam-se a restrições nacionais e monopólios empresariais; no entanto, a noção de uma única entidade que aspira a dominar o sector global dos semicondutores é verdadeiramente notável.
A importância do poder de computação descentralizado é evidente. As características da Blockchain oferecem soluções para os problemas prevalecentes de monopolização do poder de computação e os custos exorbitantes associados à aquisição de GPUs especializadas. Do ponto de vista dos requisitos da IA, a utilização da potência de computação pode ser classificada em dois aspectos: inferência e formação. Os projectos centrados principalmente na formação são escassos devido à integração complexa necessária para as redes descentralizadas e às exigências substanciais em termos de hardware, o que coloca obstáculos significativos à implementação. Por outro lado, as tarefas de inferência são relativamente mais simples, com concepções de rede descentralizadas menos complexas e requisitos de hardware e largura de banda mais baixos, representando assim uma via mais acessível.
O panorama da capacidade de computação centralizada tem um vasto potencial, frequentemente associado ao descritor "trilião de níveis", e continua a ser um tópico altamente sensacionalista na era da IA. No entanto, ao observar a multiplicidade de projectos recentes, muitos parecem ser empreendimentos concebidos à pressa com o objetivo de capitalizar as tendências. Embora estes projectos defendam frequentemente a descentralização, tendem a evitar discussões sobre as ineficiências das redes descentralizadas. Além disso, existe um grau notável de uniformidade na conceção, com numerosos projectos a adoptarem abordagens semelhantes (como o L2 de um clique e a conceção de mineração), o que pode levar ao fracasso e complicar os esforços para se diferenciarem da corrida tradicional à IA.
Os algoritmos de aprendizagem automática são concebidos para aprender padrões e regras a partir dos dados, permitindo-lhes fazer previsões ou tomar decisões com base nesses padrões aprendidos. Devido à complexidade envolvida na sua conceção e otimização, os algoritmos são intrinsecamente intensivos em tecnologia, exigindo uma profunda especialização e inovação tecnológica. Servem como espinha dorsal do treino de modelos de IA, ditando a forma como os dados são processados para obter informações úteis ou tomar decisões. Algoritmos de IA generativa notáveis, como as Redes Adversárias Generativas (GAN), os Autoencodificadores Variacionais (VAE) e os Transformadores, são adaptados a domínios específicos como a pintura, o reconhecimento de línguas, a tradução ou a geração de vídeo, e são fundamentais para a formação de modelos de IA especializados.
A multiplicidade de algoritmos e modelos com pontos fortes distintos levanta a questão: podem ser integrados num modelo versátil? O Bittensor, um projeto recentemente proeminente, lidera os esforços nesta direção, incentivando a colaboração entre vários modelos e algoritmos de IA, promovendo assim o desenvolvimento de modelos de IA mais eficientes e capazes. Outras iniciativas, como a Commune AI, centram-se na promoção da colaboração de código, embora a partilha de algoritmos e modelos continue a ser um desafio devido à sua natureza proprietária nas empresas de IA.
O conceito de um ecossistema colaborativo de IA é intrigante, tirando partido da tecnologia de cadeia de blocos para atenuar os inconvenientes associados aos algoritmos de IA isolados. No entanto, a sua capacidade de gerar o valor correspondente está ainda por determinar. As empresas de IA estabelecidas, equipadas com algoritmos e modelos próprios, possuem fortes capacidades de atualização, iteração e integração das suas tecnologias. Por exemplo, a OpenAI progrediu rapidamente dos primeiros modelos de geração de texto para modelos generativos multi-domínio num espaço de dois anos. Projectos como o Bittensor podem ter de explorar vias inovadoras nos seus domínios-alvo para competir eficazmente.
De um ponto de vista simplista, a integração de dados privados para alimentar a IA e a anotação de dados são vias que se harmonizam bem com a tecnologia blockchain. As principais preocupações giram em torno da forma de impedir dados inúteis e actividades maliciosas. Além disso, o armazenamento de dados pode ser vantajoso para projectos do Depin, como o FIL e o AR.
Numa perspetiva mais complexa, a utilização de dados de cadeias de blocos para a aprendizagem automática (ML), a fim de resolver o problema da acessibilidade dos dados de cadeias de blocos, apresenta outra direção interessante, tal como explorado por Giza.
Em teoria, os dados da cadeia de blocos estão acessíveis em qualquer altura e reflectem o estado de toda a cadeia de blocos. No entanto, para quem não pertence ao ecossistema da cadeia de blocos, o acesso a estes extensos conjuntos de dados não é simples. O armazenamento de uma cadeia de blocos inteira requer conhecimentos substanciais e recursos de hardware especializados.
Para ultrapassar os desafios do acesso aos dados da cadeia de blocos, a indústria assistiu ao aparecimento de várias soluções. Por exemplo, os fornecedores de RPC oferecem acesso aos nós através de APIs, enquanto os serviços de indexação facilitam a recuperação de dados através de SQL e GraphQL, desempenhando um papel fundamental na atenuação do problema. No entanto, estes métodos têm as suas limitações. Os serviços RPC são inadequados para casos de utilização de alta densidade que exigem consultas de dados extensas e, frequentemente, não conseguem satisfazer a procura. Entretanto, embora os serviços de indexação ofereçam uma abordagem mais estruturada à recuperação de dados, a complexidade dos protocolos Web3 torna a construção de consultas eficientes extremamente difícil, necessitando por vezes de centenas ou mesmo milhares de linhas de código complexo. Esta complexidade constitui um obstáculo significativo para os profissionais de dados em geral e para aqueles que têm um conhecimento limitado das complexidades da Web3. O impacto coletivo destas limitações sublinha a necessidade de um método mais acessível e utilizável para obter e tirar partido dos dados da cadeia de blocos, o que poderia estimular uma aplicação e inovação mais vastas neste domínio.
Assim, a fusão de ZKML (Zero-Knowledge Proof Machine Learning, que alivia o ónus da aprendizagem automática na cadeia) com dados de cadeias de blocos de alta qualidade pode potencialmente produzir conjuntos de dados que resolvam os desafios de acessibilidade dos dados de cadeias de blocos. A IA tem o potencial de reduzir significativamente os obstáculos ao acesso aos dados da cadeia de blocos. Com o tempo, os programadores, investigadores e entusiastas do ML poderão ter acesso a mais conjuntos de dados relevantes e de alta qualidade para criar soluções eficazes e inovadoras.
Desde a explosão do ChatGPT3 em 2023, a capacitação de IA para Dapps tornou-se uma direção muito comum. A IA generativa de aplicação geral pode ser integrada através de API, simplificando e tornando mais inteligentes as plataformas de dados, os bots de negociação, as enciclopédias de cadeias de blocos e outras aplicações. Também pode funcionar como chatbots (como o Myshell) ou companheiros de IA (como o Sleepless AI), e até criar NPCs em jogos de blockchain usando IA generativa. No entanto, devido às baixas barreiras técnicas, a maioria das implementações são meros ajustes após a integração de uma API, e a integração com os próprios projectos é frequentemente imperfeita, pelo que raramente é mencionada.
Com o advento de Sora, acredito pessoalmente que a capacitação da IA para a GameFi (incluindo o metaverso) e para as plataformas criativas será o principal objetivo a seguir. Dada a natureza ascendente do campo Web3, é improvável produzir produtos que possam competir diretamente com jogos tradicionais ou empresas criativas. No entanto, o aparecimento de Sora tem o potencial de quebrar este impasse, possivelmente dentro de apenas dois ou três anos. A partir da demonstração de Sora, parece capaz de competir com as empresas de microdrama. Além disso, a cultura de comunidade ativa da Web3 pode fomentar uma infinidade de ideias interessantes. Quando o único limite for a imaginação, as barreiras entre a indústria de baixo para cima e a indústria tradicional de cima para baixo cairão por terra.
À medida que as ferramentas de IA generativa continuam a avançar, estamos preparados para viver mais "momentos iPhone" transformadores no futuro. Apesar do ceticismo inicial em torno da integração da IA com a Web3, estou confiante de que as trajectórias actuais estão, de um modo geral, no bom caminho, embora com três pontos problemáticos principais que requerem atenção: necessidade, eficiência e compatibilidade. Embora a convergência destes domínios continue a ser exploratória, não deve impedir-nos de prever a sua adoção generalizada no próximo mercado em alta.
Manter uma mentalidade de curiosidade e recetividade a novas ideias é crucial. Os precedentes históricos, como a rápida transição das carruagens puxadas por cavalos para os automóveis e a evolução das inscrições em NFTs passados, sublinham a importância de evitar preconceitos excessivos, que muitas vezes resultam em oportunidades perdidas.
No dia 16 de fevereiro, a OpenAI anunciou o seu mais recente modelo de difusão generativa de texto para vídeo denominado "Sora", assinalando mais um marco na IA generativa com a sua capacidade de produzir vídeos de alta qualidade numa vasta gama de tipos de dados visuais. Ao contrário das ferramentas de geração de vídeo com IA, como o Pika, que gera alguns segundos de vídeo a partir de várias imagens, o Sora treina no espaço latente comprimido de vídeos e imagens, dividindo-os em manchas espácio-temporais para uma geração de vídeo escalável. Além disso, o modelo demonstra a capacidade de simular tanto o mundo físico como o digital, sendo a sua demonstração de 60 segundos descrita como um "simulador universal do mundo físico".
O Sora prossegue a trajetória técnica "dados de origem-Transformador-Difusão-emergência" observada nos modelos GPT anteriores, o que indica que a sua maturidade de desenvolvimento assenta também na capacidade de cálculo. Dado o maior volume de dados necessário para a formação em vídeo em comparação com o texto, prevê-se que a procura de potência computacional aumente ainda mais. No entanto, conforme discutido em nosso artigo anterior "Previsão de setor promissor: The Decentralized Computing Power Market", a importância da potência computacional na era da IA foi explorada e, com a crescente popularidade da IA, surgiram inúmeros projectos de potência computacional, beneficiando outros projectos Depin (armazenamento, potência computacional, etc.) com um aumento de valor. Para além do Depin, este artigo pretende atualizar e completar discussões passadas, ponderando as faíscas que podem surgir do entrelaçamento da Web3 e da IA e as oportunidades desta trajetória na era da IA.
A Inteligência Artificial (IA) é um campo em expansão centrado na emulação, extensão e enriquecimento da inteligência humana. Desde a sua criação nas décadas de 1950 e 1960, a IA passou por mais de meio século de evolução, emergindo como uma tecnologia fundamental que impulsiona a transformação da sociedade e de vários sectores. Ao longo deste percurso, o progresso entrelaçado de três direcções de investigação principais - simbolismo, conexionismo e behaviorismo - lançou as bases para o rápido avanço da IA atual.
O simbolismo, também designado por logicismo ou raciocínio baseado em regras, defende que é possível reproduzir a inteligência humana através do processamento de símbolos. Esta abordagem utiliza símbolos para representar e manipular objectos, conceitos e as suas relações num determinado domínio problemático, empregando o raciocínio lógico para resolver questões. O simbolismo obteve um êxito notável, nomeadamente nos sistemas especializados e na representação do conhecimento. O seu princípio central é que o comportamento inteligente pode ser realizado através da manipulação de símbolos e da inferência lógica, servindo os símbolos como abstracções de alto nível do mundo real.
O conexionismo, alternativamente conhecido como a abordagem da rede neural, procura alcançar a inteligência espelhando a estrutura e a funcionalidade do cérebro humano. Esta metodologia constrói redes que incluem numerosas unidades de processamento simples, semelhantes a neurónios, e ajusta a intensidade das ligações entre estas unidades, semelhantes a sinapses, para facilitar a aprendizagem. Ao enfatizar a aprendizagem e a generalização a partir de dados, o conexionismo é adequado para tarefas como o reconhecimento de padrões, a classificação e o mapeamento contínuo de entrada-saída. A aprendizagem profunda, uma evolução do conexionismo, conseguiu avanços em domínios como o reconhecimento de imagens e de voz, bem como o processamento de linguagem natural.
O behaviorismo, intimamente ligado à robótica biomimética e à investigação de sistemas inteligentes autónomos, sublinha que os agentes inteligentes podem aprender através da interação com o ambiente. Ao contrário das abordagens precedentes, o behaviorismo não se concentra na simulação de representações internas ou de processos cognitivos, mas alcança o comportamento adaptativo através do ciclo perceção-ação. Esta abordagem defende que a inteligência se manifesta através da interação dinâmica com o ambiente e da aprendizagem, o que a torna especialmente eficaz para robôs móveis e sistemas de controlo adaptativos que operam em ambientes complexos e imprevisíveis.
Apesar das suas disparidades fundamentais, estas três direcções de investigação podem sinergizar-se e complementar-se na investigação e aplicações práticas de IA, impulsionando coletivamente o desenvolvimento deste campo.
O crescente domínio dos Conteúdos Gerados por Inteligência Artificial (AIGC) representa uma evolução e aplicação do conexionismo, facilitando a geração de novos conteúdos através da emulação da criatividade humana. Estes modelos são treinados utilizando vastos conjuntos de dados e algoritmos de aprendizagem profunda para discernir estruturas, relações e padrões subjacentes nos dados. A partir dos dados introduzidos pelo utilizador, produzem diversos resultados, incluindo imagens, vídeos, código, música, desenhos, traduções, respostas a perguntas e texto. Atualmente, o AIGC é fundamentalmente composto por três elementos: Aprendizagem Profunda (DL), Grandes Dados e Poder Computacional Massivo.
A Aprendizagem Profunda, um subconjunto da Aprendizagem Automática (AM), utiliza algoritmos modelados com base nas redes neuronais do cérebro humano. Tal como o cérebro humano é constituído por neurónios interligados que processam informações, as redes neuronais de aprendizagem profunda são constituídas por várias camadas de neurónios artificiais que efectuam cálculos num computador. Estes neurónios artificiais, ou nós, utilizam operações matemáticas para processar dados e resolver problemas complexos através de algoritmos de aprendizagem profunda.
As redes neuronais são constituídas por camadas: entrada, oculta e saída, com parâmetros que ligam estas camadas.
- Camada de entrada: A primeira camada da rede neural recebe dados de entrada externos. Cada neurónio dentro desta camada corresponde a uma caraterística dos dados de entrada. Por exemplo, no processamento de dados de imagem, os neurónios individuais podem representar valores de pixel.
- Camadas ocultas: A seguir à camada de entrada, as camadas ocultas processam e transmitem dados através da rede. Estas camadas analisam a informação a vários níveis, adaptando o seu comportamento à medida que recebem novas informações. As redes de aprendizagem profunda podem ter centenas de camadas ocultas, permitindo a análise de problemas multifacetados. Por exemplo, ao classificar um animal desconhecido a partir de uma imagem, a rede pode compará-lo com animais conhecidos, avaliando características como a forma das orelhas, o número de patas e o tamanho da pupila. As camadas ocultas funcionam de forma semelhante, cada uma processando diferentes características dos animais para ajudar numa classificação exacta.
- Camada de saída: A última camada da rede neural produz a saída da rede. Os neurónios desta camada representam potenciais categorias ou valores de saída. Nas tarefas de classificação, cada neurónio pode corresponder a uma categoria, enquanto nas tarefas de regressão, a camada de saída pode apresentar um único neurónio cujo valor prevê o resultado.
- Parâmetros: Nas redes neuronais, as ligações entre as diferentes camadas são representadas por pesos e desvios, que são optimizados durante o processo de formação para permitir que a rede reconheça com precisão os padrões nos dados e faça previsões. O aumento dos parâmetros pode melhorar a capacidade de modelação da rede neuronal, ou seja, a capacidade de aprender e representar padrões complexos nos dados. No entanto, isto também aumenta a procura de potência computacional.
O treino eficaz de redes neuronais requer, normalmente, dados extensos, diversificados, de elevada qualidade e de várias fontes. Esses dados constituem a pedra angular para a formação e validação de modelos de aprendizagem automática. Através da análise de grandes volumes de dados, os modelos de aprendizagem automática podem identificar padrões e relações nos dados, facilitando as previsões ou classificações.
A intrincada estrutura multicamada das redes neuronais, os numerosos parâmetros, os requisitos para o processamento de grandes volumes de dados, os métodos de formação iterativos (que envolvem cálculos repetidos de propagação para a frente e para trás, incluindo cálculos de funções de ativação e de perda, cálculos de gradientes e actualizações de pesos), as necessidades de computação de alta precisão, as capacidades de computação paralela, as técnicas de otimização e regularização e os processos de avaliação e validação de modelos contribuem coletivamente para exigências computacionais substanciais.
Sora, o mais recente modelo de IA de geração de vídeo da OpenAI, representa um avanço substancial na capacidade da inteligência artificial para processar e compreender diversos dados visuais. Ao utilizar redes de compressão de vídeo e técnicas de correção espácio-temporal, o Sora pode converter grandes quantidades de dados visuais capturados em todo o mundo e a partir de vários dispositivos numa representação unificada. Esta capacidade permite o processamento e a compreensão eficientes de conteúdos visuais complexos. O Sora utiliza modelos de difusão condicionados por texto para gerar vídeos ou imagens altamente correlacionados com mensagens de texto, demonstrando uma criatividade e adaptabilidade notáveis.
Apesar dos avanços de Sora na geração de vídeo e na simulação de interacções no mundo real, encontra algumas limitações. Estas incluem a precisão das simulações do mundo físico, a consistência na geração de vídeos longos, a compreensão de instruções de texto complexas e a eficiência na formação e geração. Essencialmente, Sora segue a trajetória técnica "big data-Transformador-Difusão-emergência", facilitada pelo poder computacional monopolista da OpenAI e pela vantagem de ser a primeira empresa a fazê-lo, resultando numa forma de estética de força bruta. No entanto, outras empresas de IA ainda têm o potencial de ultrapassar a Sora através da inovação tecnológica.
Embora a ligação da Sora à cadeia de blocos continue a ser modesta, prevê-se que, nos próximos um ou dois anos, a influência da Sora conduza ao aparecimento e ao rápido desenvolvimento de outras ferramentas de geração de IA de elevada qualidade. Prevê-se que estes desenvolvimentos tenham impacto em vários sectores da Web3, como a GameFi, as plataformas sociais, as plataformas criativas, o Depin, etc. Consequentemente, é essencial adquirir uma compreensão geral de Sora e considerar como a IA se integrará efetivamente com Web3 no futuro torna-se uma consideração crucial.
Como já foi referido, os componentes fundamentais essenciais para a IA generativa podem ser resumidos em três elementos principais: algoritmos, dados e capacidade de computação. Por outro lado, a IA, sendo uma ferramenta universal com efeitos de longo alcance nos métodos de produção, revoluciona a forma como as indústrias funcionam. Entretanto, os impactos significativos da tecnologia blockchain são duplos: reestrutura as relações de produção e permite a descentralização. Assim, a convergência destas duas tecnologias pode dar origem a quatro vias potenciais:
Esta secção tem como objetivo fornecer informações sobre o panorama atual da capacidade de computação. No domínio da IA, a capacidade de computação tem uma enorme importância. A procura de capacidade de computação no domínio da IA, particularmente evidenciada após o aparecimento da Sora, atingiu níveis sem precedentes. Durante o Fórum Económico Mundial em Davos, na Suíça, em 2024, o CEO da OpenAI, Sam Altman, sublinhou que a capacidade de computação e a energia são atualmente os principais constrangimentos, sugerindo a sua futura equivalência à moeda. Posteriormente, a 10 de fevereiro, Sam Altman anunciou um plano inovador através do Twitter para angariar uns impressionantes 7 biliões de dólares (equivalentes a 40% do PIB da China em 2023) para revolucionar a indústria global de semicondutores, com o objetivo de estabelecer um império dos semicondutores. Anteriormente, as minhas considerações sobre o poder de computação limitavam-se a restrições nacionais e monopólios empresariais; no entanto, a noção de uma única entidade que aspira a dominar o sector global dos semicondutores é verdadeiramente notável.
A importância do poder de computação descentralizado é evidente. As características da Blockchain oferecem soluções para os problemas prevalecentes de monopolização do poder de computação e os custos exorbitantes associados à aquisição de GPUs especializadas. Do ponto de vista dos requisitos da IA, a utilização da potência de computação pode ser classificada em dois aspectos: inferência e formação. Os projectos centrados principalmente na formação são escassos devido à integração complexa necessária para as redes descentralizadas e às exigências substanciais em termos de hardware, o que coloca obstáculos significativos à implementação. Por outro lado, as tarefas de inferência são relativamente mais simples, com concepções de rede descentralizadas menos complexas e requisitos de hardware e largura de banda mais baixos, representando assim uma via mais acessível.
O panorama da capacidade de computação centralizada tem um vasto potencial, frequentemente associado ao descritor "trilião de níveis", e continua a ser um tópico altamente sensacionalista na era da IA. No entanto, ao observar a multiplicidade de projectos recentes, muitos parecem ser empreendimentos concebidos à pressa com o objetivo de capitalizar as tendências. Embora estes projectos defendam frequentemente a descentralização, tendem a evitar discussões sobre as ineficiências das redes descentralizadas. Além disso, existe um grau notável de uniformidade na conceção, com numerosos projectos a adoptarem abordagens semelhantes (como o L2 de um clique e a conceção de mineração), o que pode levar ao fracasso e complicar os esforços para se diferenciarem da corrida tradicional à IA.
Os algoritmos de aprendizagem automática são concebidos para aprender padrões e regras a partir dos dados, permitindo-lhes fazer previsões ou tomar decisões com base nesses padrões aprendidos. Devido à complexidade envolvida na sua conceção e otimização, os algoritmos são intrinsecamente intensivos em tecnologia, exigindo uma profunda especialização e inovação tecnológica. Servem como espinha dorsal do treino de modelos de IA, ditando a forma como os dados são processados para obter informações úteis ou tomar decisões. Algoritmos de IA generativa notáveis, como as Redes Adversárias Generativas (GAN), os Autoencodificadores Variacionais (VAE) e os Transformadores, são adaptados a domínios específicos como a pintura, o reconhecimento de línguas, a tradução ou a geração de vídeo, e são fundamentais para a formação de modelos de IA especializados.
A multiplicidade de algoritmos e modelos com pontos fortes distintos levanta a questão: podem ser integrados num modelo versátil? O Bittensor, um projeto recentemente proeminente, lidera os esforços nesta direção, incentivando a colaboração entre vários modelos e algoritmos de IA, promovendo assim o desenvolvimento de modelos de IA mais eficientes e capazes. Outras iniciativas, como a Commune AI, centram-se na promoção da colaboração de código, embora a partilha de algoritmos e modelos continue a ser um desafio devido à sua natureza proprietária nas empresas de IA.
O conceito de um ecossistema colaborativo de IA é intrigante, tirando partido da tecnologia de cadeia de blocos para atenuar os inconvenientes associados aos algoritmos de IA isolados. No entanto, a sua capacidade de gerar o valor correspondente está ainda por determinar. As empresas de IA estabelecidas, equipadas com algoritmos e modelos próprios, possuem fortes capacidades de atualização, iteração e integração das suas tecnologias. Por exemplo, a OpenAI progrediu rapidamente dos primeiros modelos de geração de texto para modelos generativos multi-domínio num espaço de dois anos. Projectos como o Bittensor podem ter de explorar vias inovadoras nos seus domínios-alvo para competir eficazmente.
De um ponto de vista simplista, a integração de dados privados para alimentar a IA e a anotação de dados são vias que se harmonizam bem com a tecnologia blockchain. As principais preocupações giram em torno da forma de impedir dados inúteis e actividades maliciosas. Além disso, o armazenamento de dados pode ser vantajoso para projectos do Depin, como o FIL e o AR.
Numa perspetiva mais complexa, a utilização de dados de cadeias de blocos para a aprendizagem automática (ML), a fim de resolver o problema da acessibilidade dos dados de cadeias de blocos, apresenta outra direção interessante, tal como explorado por Giza.
Em teoria, os dados da cadeia de blocos estão acessíveis em qualquer altura e reflectem o estado de toda a cadeia de blocos. No entanto, para quem não pertence ao ecossistema da cadeia de blocos, o acesso a estes extensos conjuntos de dados não é simples. O armazenamento de uma cadeia de blocos inteira requer conhecimentos substanciais e recursos de hardware especializados.
Para ultrapassar os desafios do acesso aos dados da cadeia de blocos, a indústria assistiu ao aparecimento de várias soluções. Por exemplo, os fornecedores de RPC oferecem acesso aos nós através de APIs, enquanto os serviços de indexação facilitam a recuperação de dados através de SQL e GraphQL, desempenhando um papel fundamental na atenuação do problema. No entanto, estes métodos têm as suas limitações. Os serviços RPC são inadequados para casos de utilização de alta densidade que exigem consultas de dados extensas e, frequentemente, não conseguem satisfazer a procura. Entretanto, embora os serviços de indexação ofereçam uma abordagem mais estruturada à recuperação de dados, a complexidade dos protocolos Web3 torna a construção de consultas eficientes extremamente difícil, necessitando por vezes de centenas ou mesmo milhares de linhas de código complexo. Esta complexidade constitui um obstáculo significativo para os profissionais de dados em geral e para aqueles que têm um conhecimento limitado das complexidades da Web3. O impacto coletivo destas limitações sublinha a necessidade de um método mais acessível e utilizável para obter e tirar partido dos dados da cadeia de blocos, o que poderia estimular uma aplicação e inovação mais vastas neste domínio.
Assim, a fusão de ZKML (Zero-Knowledge Proof Machine Learning, que alivia o ónus da aprendizagem automática na cadeia) com dados de cadeias de blocos de alta qualidade pode potencialmente produzir conjuntos de dados que resolvam os desafios de acessibilidade dos dados de cadeias de blocos. A IA tem o potencial de reduzir significativamente os obstáculos ao acesso aos dados da cadeia de blocos. Com o tempo, os programadores, investigadores e entusiastas do ML poderão ter acesso a mais conjuntos de dados relevantes e de alta qualidade para criar soluções eficazes e inovadoras.
Desde a explosão do ChatGPT3 em 2023, a capacitação de IA para Dapps tornou-se uma direção muito comum. A IA generativa de aplicação geral pode ser integrada através de API, simplificando e tornando mais inteligentes as plataformas de dados, os bots de negociação, as enciclopédias de cadeias de blocos e outras aplicações. Também pode funcionar como chatbots (como o Myshell) ou companheiros de IA (como o Sleepless AI), e até criar NPCs em jogos de blockchain usando IA generativa. No entanto, devido às baixas barreiras técnicas, a maioria das implementações são meros ajustes após a integração de uma API, e a integração com os próprios projectos é frequentemente imperfeita, pelo que raramente é mencionada.
Com o advento de Sora, acredito pessoalmente que a capacitação da IA para a GameFi (incluindo o metaverso) e para as plataformas criativas será o principal objetivo a seguir. Dada a natureza ascendente do campo Web3, é improvável produzir produtos que possam competir diretamente com jogos tradicionais ou empresas criativas. No entanto, o aparecimento de Sora tem o potencial de quebrar este impasse, possivelmente dentro de apenas dois ou três anos. A partir da demonstração de Sora, parece capaz de competir com as empresas de microdrama. Além disso, a cultura de comunidade ativa da Web3 pode fomentar uma infinidade de ideias interessantes. Quando o único limite for a imaginação, as barreiras entre a indústria de baixo para cima e a indústria tradicional de cima para baixo cairão por terra.
À medida que as ferramentas de IA generativa continuam a avançar, estamos preparados para viver mais "momentos iPhone" transformadores no futuro. Apesar do ceticismo inicial em torno da integração da IA com a Web3, estou confiante de que as trajectórias actuais estão, de um modo geral, no bom caminho, embora com três pontos problemáticos principais que requerem atenção: necessidade, eficiência e compatibilidade. Embora a convergência destes domínios continue a ser exploratória, não deve impedir-nos de prever a sua adoção generalizada no próximo mercado em alta.
Manter uma mentalidade de curiosidade e recetividade a novas ideias é crucial. Os precedentes históricos, como a rápida transição das carruagens puxadas por cavalos para os automóveis e a evolução das inscrições em NFTs passados, sublinham a importância de evitar preconceitos excessivos, que muitas vezes resultam em oportunidades perdidas.