Eu não me livrei dessa grande perda.
Ainda me assombra porque foi a aposta mais óbvia para qualquer pessoa prestar atenção, mas eu não investi um único dólar.
Não, não foi o próximo assassino de Solana ou um memecoin com um cachorro usando um chapéu engraçado.
Foi… NVIDIA.
Preço das ações da NVDA até o momento. Fonte: Google
Em apenas um ano, a NVDA triplicou, saltando de uma capitalização de mercado de $1T para $3T. Até superou o Bitcoin no mesmo período.
Claro, parte disso é a empolgação com a IA. Mas uma grande parte disso é baseada na realidade. A NVIDIA relatou receita de $60B para o FY2024, um aumento impressionante de 126% em relação a 2023. Esse crescimento foi impulsionado pela corrida global de IA para AGI, na qual as grandes empresas de tecnologia estão comprando GPUs.
Então, por que eu perdi isso?
Por dois anos, eu estava completamente focado em cripto e não olhei para o que estava acontecendo em IA. Isso foi um grande erro e ainda me incomoda.
Mas não estou cometendo o mesmo erro duas vezes.
Hoje, Crypto AI parece estranhamente semelhante. Estamos à beira de uma explosão de inovação. As semelhanças com a corrida do ouro da Califórnia do meio do século XIX são difíceis de ignorar - indústrias e cidades surgiram da noite para o dia, a infraestrutura avançou em velocidade vertiginosa e fortunas foram feitas por aqueles que ousaram dar um salto.
Assim como a NVIDIA em seus primeiros dias, a Cripto IA parecerá óbvia em retrospecto.
Em Parte I da minha tese, Expliquei por que a Cripto IA é a oportunidade mais emocionante e subestimada para investidores e construtores hoje.
Aqui está uma rápida recapitulação:
No seu cerne, Crypto AI é IA com infraestrutura cripto sobreposta. Isso significa que é mais provável acompanhar a trajetória de crescimento exponencial da IA do que o mercado cripto em geral. Portanto, para se manter à frente, você precisa sintonizar a pesquisa mais recente em IA no Arxiv e conversar com os fundadores que acreditam estar construindo a próxima grande coisa.
Na Parte II da minha tese, vou mergulhar em quatro dos subsectores mais promissores da Cripto IA:
Esta peça representa a culminação de semanas de pesquisa profunda e conversas com fundadores e equipes em todo o cenário de Cripto IA. Não foi projetado para ser uma imersão profunda exaustiva em todos os setores - isso é um buraco de coelho para outro dia.
Em vez disso, considere-o um roteiro de alto nível elaborado para despertar curiosidade, afiar sua pesquisa e orientar o pensamento de investimento.
Eu vejo o pilha de IA descentralizada como um ecossistema em camadas: começa com computação descentralizada e redes de dados abertos em uma extremidade, que alimentam o treinamento de modelo de IA descentralizada.
Cada inferência é então verificada - entradas e saídas igualmente - usando uma combinação de criptografia, incentivos criptoeconômicos e redes de avaliação. Essas saídas verificadas fluem para agentes de IA que podem operar autonomamente on-chain, bem como aplicações de IA para consumidores e empresas que os usuários podem realmente confiar.
As redes de coordenação unem tudo isso, permitindo uma comunicação e colaboração perfeitas em todo o ecossistema.
Nesta visão, qualquer pessoa que esteja construindo em IA poderia acessar uma ou mais camadas desta pilha, dependendo de suas necessidades específicas. Seja alavancando cálculos descentralizados para treinamento de modelo ou usando redes de avaliação para garantir saídas de alta qualidade, a pilha oferece uma variedade de opções.
Graças à composibilidade inerente do blockchain, acredito que estamos naturalmente caminhando em direção a um futuro modular. Cada camada está se tornando hiperespecializada, com protocolos otimizados para funções distintas em vez de uma abordagem integrada tudo-em-um.
Fonte: topology.vc
Houve uma explosão cambriana de startups construindo em cada camada da pilha de IA descentralizada, a maioria fundada nos últimos 1 - 3 anos. Está claro: ainda estamos no início.
O mapa mais abrangente e atualizado do cenário inicial de IA de Cripto que já vi é mantido por Casey e sua equipe em topology.vc. É um recurso inestimável para quem acompanha o espaço.
Ao mergulhar nos subsetores de IA de cripto, estou constantemente me perguntando: qual é a dimensão da oportunidade aqui? Não estou interessado em apostas pequenas - estou procurando mercados que possam escalar para centenas de bilhões.
Vamos começar com o tamanho do mercado. Ao avaliar um sub-setor, pergunto a mim mesmo: ele está criando um mercado completamente novo ou perturbando um existente?
Veja a computação descentralizada, por exemplo. É uma categoria disruptiva cujo potencial pode ser estimado olhando para o mercado de computação em nuvem estabelecido, vale ~$680B hojee espera-se que alcance US$2,5 trilhões em 2032.
Novos mercados sem precedentes, como agentes de IA, são mais difíceis de quantificar. Sem dados históricos, dimensioná-los envolve uma combinação de suposições fundamentadas e verificações intuitivas dos problemas que eles estão resolvendo. E a armadilha é que às vezes, o que parece ser um novo mercado é apenas uma solução em busca de um problema.
A sincronização é tudo. A tecnologia tende a melhorar e ficar mais barata com o tempo, mas o ritmo do progresso varia.
Quão madura é a tecnologia em um determinado sub setor? Está pronta para escalar, ou ainda está na fase de pesquisa, com aplicações práticas a anos de distância? O momento determina se um setor merece atenção imediata ou se deve ser deixado na categoria de “esperar para ver”.
Tome a Criptografia Totalmente Homomórfica (FHE) como exemplo: o potencial é inegável, mas hoje ainda é muito lento para uso generalizado. Provavelmente ainda estamos a vários anos de ver sua viabilidade atingir o mainstream. Ao focar primeiro em setores mais próximos da escala, posso dedicar meu tempo e energia onde o impulso - e a oportunidade - estão se construindo.
Se eu fosse mapear essas categorias em um gráfico de tamanho vs. tempo, seria algo parecido com isso. Tenha em mente que isso é mais um esboço conceitual do que um guia rígido e rápido. Há muitas nuances - por exemplo, dentro da inferência verificável, abordagens diferentes como zkML e opML estão em níveis de prontidão diferentes para uso.
Dito isso, estou convencido de que a escala da IA será tão massiva que até mesmo o que parece “nicho” hoje poderia se tornar um mercado significativo.
Vale ressaltar também que o progresso tecnológico nem sempre segue uma linha reta - muitas vezes ocorre em saltos. Minhas opiniões sobre timing e tamanho de mercado mudarão quando ocorrerem avanços emergentes.
Com este framework em mente, vamos analisar cada sub-setor.
Várias equipes de IA de Cripto estão se posicionando para capitalizar a escassez de GPUs em relação à demanda, construindo redes descentralizadas que aproveitam o pool global de potência de cálculo latente.
A proposta de valor central para os mercados de GPU é tripla:
Para enfrentar o lado da oferta do mercado, esses mercados obtêm computação de:
Por outro lado, a demanda por computação descentralizada hoje vem de:
A coisa importante a lembrar: os desenvolvedores sempre priorizam custos e confiabilidade.
Startups neste espaço frequentemente exibem o tamanho de suas redes de fornecimento de GPU como um sinal de sucesso. Mas isso é enganoso - é uma métrica vaidosa no máximo.
A verdadeira restrição não é o fornecimento, mas a demanda. As principais métricas a serem acompanhadas não são o número de GPUs disponíveis, mas sim a taxa de utilização e o número de GPUs realmente alugadas.
Os tokens são excelentes para inicializar o lado da oferta, criando os incentivos necessários para escalar rapidamente. No entanto, eles não resolvem inerentemente o problema da demanda. O verdadeiro teste é levar o produto a um estado suficientemente bom para que a demanda latente se materialize.
Haseeb Qureshi (Dragonfly) coloca o melhor:
Ao contrário do que se pensa, o maior obstáculo para os marketplaces distribuídos de GPU da web3 hoje em dia é simplesmente fazê-los funcionar corretamente.
Este não é um problema trivial.
Orquestrar GPUs em uma rede distribuída é complexo, com camadas de desafios - alocação de recursos, dimensionamento dinâmico da carga de trabalho, balanceamento de carga entre nós e GPUs, gerenciamento de latência, transferência de dados, tolerância a falhas e tratamento de hardware diversificado espalhado por várias geografias. Eu poderia continuar indefinidamente.
Para alcançar isso, é necessário um engenharia séria e uma arquitetura de rede robusta e adequadamente projetada.
Para colocar em perspectiva, considere o Kubernetes do Google. É amplamente considerado o padrão ouro para a orquestração de contêineres, automatizando processos como balanceamento de carga e escalonamento em ambientes distribuídos - desafios muito semelhantes aos enfrentados pelas redes de GPU distribuídas. O próprio Kubernetes foi construído com mais de uma década de experiência do Google e, mesmo assim, levou anos de iteração implacável para acertar.
Algumas das plataformas de mercado de computação GPU que já estão ativas hoje podem lidar com cargas de trabalho em pequena escala, mas as falhas começam a aparecer assim que tentam escalar. Suspeito que isso ocorra porque foram construídas sobre bases arquitetônicas mal projetadas.
Outro desafio/oportunidade para redes de computação descentralizadas é garantir a confiabilidade: verificar se cada nó está realmente fornecendo a potência de computação que alega. Atualmente, isso depende da reputação da rede e, em alguns casos, os provedores de computação são classificados por pontuações de reputação. A blockchain parece ser um ajuste natural para sistemas de verificação sem confiança. Startups como GensyneSpheronestão buscando uma abordagem sem confiança para resolver esse problema.
Hoje, muitas equipes web3 ainda estão enfrentando esses desafios, o que significa que a oportunidade está completamente aberta.
Qual é o tamanho do mercado para redes de computação descentralizadas?
Hoje, provavelmente é apenas uma pequena fração da indústria de computação em nuvem de $680B - $2.5T. No entanto, apesar do atrito adicional para os usuários, sempre haverá alguma demanda enquanto os custos permanecerem mais baixos do que os dos provedores tradicionais.
Acredito que os custos permanecerão mais baixos no curto e médio prazo devido a uma combinação de subsídios de tokens e desbloqueio de oferta por parte de usuários que não são sensíveis ao preço (por exemplo, se eu puder alugar meu laptop de jogos por dinheiro extra, estou feliz, quer seja $20 ou $50 por mês).
Mas o verdadeiro potencial de crescimento para redes de computação descentralizadas - e a real expansão de sua TAM - virá quando:
Computação descentralizada e sem permissão é a camada base - a infraestrutura fundamental - para um ecossistema de IA descentralizada.
Apesar da contínua expansão na cadeia de suprimentos de silício (ou seja, GPUs), acredito que estamos apenas no início da era da Inteligência da humanidade. Haverá uma demanda insaciável por computação.
Fique atento ao ponto de inflexão que poderia desencadear uma grande reavaliação de todos os marketplaces de GPU em funcionamento. Provavelmente, está chegando em breve.
Imagine isso: um modelo de IA enorme e transformador, não desenvolvido em laboratórios elitistas secretos, mas trazido à vida por milhões de pessoas comuns. Jogadores, cujas GPUs normalmente geram explosões cinematográficas do Call of Duty, agora emprestam seu hardware para algo maior - um modelo de IA de código aberto e coletivamente de propriedade, sem gatekeepers centrais.
Neste futuro, modelos de escala de fundação não são apenas o domínio dos principais laboratórios de IA.
Mas vamos fundamentar essa visão na realidade atual. Por enquanto, a maior parte do treinamento pesado de IA continua ancorada em centros de dados centralizados, e essa provavelmente será a norma por algum tempo.
Empresas como a OpenAI estão ampliando suas enormes clusters. Elon Musk recentemente anunciadoque o xAI está prestes a concluir um centro de dados com o equivalente a 200.000 GPUs H100.
Mas não se trata apenas do número bruto de GPU. Utilização de FLOPS do modelo (MFU) - uma métrica introduzida em O artigo do PaLM do Googleem 2022 - acompanha o quão efetivamente a capacidade máxima de uma GPU é utilizada. Surpreendentemente, o MFU geralmente fica em torno de 35-40%.
Por que tão baixo? Embora o desempenho da GPU tenha aumentado muito ao longo dos anos, seguindo a lei de Moore, as melhorias na rede, memória e armazenamento têm ficado significativamente para trás, criando gargalos. Como resultado, as GPUs frequentemente ficam ociosas, aguardando dados.
O treinamento de IA permanece altamente centralizado hoje por uma palavra - Eficiência.
Treinar grandes modelos depende de técnicas como:
• Paralelismo de dados: Dividir conjuntos de dados em várias GPUs para realizar operações em paralelo, acelerando o processo de treinamento.
• Paralelismo do modelo: Distribuição de partes do modelo entre GPUs para contornar as limitações de memória.
Esses métodos requerem GPUs para trocar dados constantemente, tornando a velocidade de interconexão - a taxa na qual os dados são transferidos entre computadores na rede - absolutamente essencial.
Quando o treinamento do modelo de IA de fronteira pode custar mais de $1B, cada ganho de eficiência importa.
Com suas interconexões de alta velocidade, os centros de dados centralizados permitem a transferência rápida de dados entre GPUs e geram economias substanciais durante o tempo de treinamento que as configurações descentralizadas não conseguem igualar… ainda.
Se você conversar com pessoas que trabalham no espaço de IA, muitos lhe dirão que o treinamento descentralizado simplesmente não funcionará.
Em configurações descentralizadas, clusters de GPU não estão fisicamente localizados juntos, então transferir dados entre eles é muito mais lento e se torna um gargalo. O treinamento requer que as GPUs sincronizem e troquem dados a cada etapa. Quanto mais distantes eles estiverem, maior será a latência. Maior latência significa velocidade de treinamento mais lenta e custos mais altos.
O que poderia levar alguns dias em um centro de dados centralizado poderia se estender a duas semanas com uma abordagem descentralizada a um custo mais alto. Simplesmente não é viável.
Mas isso está prestes a mudar.
A boa notícia é que houve um enorme aumento de interesse em pesquisas sobre treinamento distribuído. Os pesquisadores estão explorando simultaneamente várias abordagens, como evidenciado pela quantidade de estudos e papers publicados. Esses avanços se acumularão e se combinarão, acelerando o progresso no campo.
Também se trata de testar em produção e ver até onde podemos ir além dos limites.
Algumas técnicas de treinamento descentralizado já podem lidar com modelos menores em ambientes de interconexão lenta. Agora, a pesquisa de fronteira está se esforçando para estender esses métodos para modelos cada vez maiores.
Outro desafio é gerenciar uma ampla variedade de hardware de GPU, incluindo GPUs de consumo com memória limitada que são comuns em redes descentralizadas. Técnicas como paralelismo de modelo (dividindo camadas do modelo entre dispositivos) podem ajudar a tornar isso viável.
Métodos de treinamento descentralizados atuais ainda limitam-se a tamanhos de modelo bem abaixo da fronteira (o GPT-4 está supostamente próximo de um trilhão de parâmetros, 100 vezes maior que o modelo de 10B do Prime Intellect). Para realmente escalar, precisaremos de avanços na arquitetura do modelo, infraestrutura de rede melhor e divisão mais inteligente de tarefas entre dispositivos.
E podemos sonhar grande. Imagine um mundo onde o treinamento descentralizado agregue mais poder de computação de GPU do que até mesmo os maiores centros de dados centralizados poderiam reunir.
Pluralis Research(uma equipe afiada em treinamento descentralizado, para ficar de olho de perto) argumenta que isso não é apenas possível, é inevitável. Os centros de dados centralizados estão sujeitos a restrições físicas como espaço e o disponibilidade de energia, enquanto as redes descentralizadas podem acessar um pool efetivamente ilimitado de recursos globais.
Até Jensen Huang, da NVIDIA, reconheceu quetreinamento descentralizado assíncronopoderia desbloquear o verdadeiro potencial da escala de IA. As redes de treinamento distribuído também são mais tolerantes a falhas.
Então, em um futuro potencial, os modelos de IA mais poderosos do mundo serão treinados de forma descentralizada.
É uma perspectiva empolgante, mas ainda não estou completamente convencido. Precisamos de evidências mais fortes de que o treinamento descentralizado dos maiores modelos seja tecnicamente e economicamente viável.
Aqui é onde vejo um promissor imenso: o ponto forte do treinamento descentralizado poderia estar em modelos menores, especializados e de código aberto projetados para casos de uso específicos, em vez de competir com os modelos de fronteira ultra grandes impulsionados por IA geral. Certas arquiteturas, especialmente modelos não-transformadores, já estão provando ser uma combinação natural para configurações descentralizadas.
E há mais uma peça para este quebra-cabeça: tokens. Uma vez que o treinamento descentralizado se torna viável em grande escala, os tokens poderiam desempenhar um papel crucial na incentivação e recompensa aos contribuidores, efetivamente inicializando essas redes.
O caminho para esta visão é longo, mas o progresso é profundamente encorajador. Avanços na formação descentralizada beneficiarão a todos — até mesmo grandes empresas de tecnologia e laboratórios de pesquisa de IA de primeira linha — já que a escala de modelos futuros superará a capacidade de um único centro de dados.
O futuro é distribuído. E quando uma tecnologia tem um potencial tão amplo, a história mostra que ela sempre melhora e se desenvolve mais rápido do que qualquer um espera.
Atualmente, a maioria do poder computacional em IA está sendo canalizada para treinar modelos massivos. Os principais laboratórios de IA estão em uma corrida armamentista para desenvolver os melhores modelos fundamentais e, em última instância, alcançar a AGI.
Mas aqui está minha opinião: esse foco intenso em computação para treinamento se voltará para a inferência nos próximos anos. À medida que a IA se torna cada vez mais incorporada nas aplicações que usamos diariamente - da saúde ao entretenimento - os recursos computacionais necessários para suportar a inferência serão impressionantes.
E não é apenas especulação. A escalabilidade computacional do tempo de inferência é a última palavra da moda em IA. A OpenAI lançou recentemente uma prévia/mini versão de seu último modelo, o1 (codinome: Strawberry), e a grande mudança? Ele leva seu tempo para pensar, primeiro perguntando a si mesmo quais são as etapas que deve seguir para responder a pergunta, e então passa por cada uma dessas etapas.
Este modelo é projetado para tarefas mais complexas e com muita programação, como resolvendo palavras cruzadas—e aborda problemas que exigem um raciocínio mais profundo. Você notará que é mais lento, levando mais tempo para gerar respostas, mas os resultados são muito mais ponderados e matizados. Também é muito mais caro correr (25x o custo do GPT-4)
A mudança de foco é clara: o próximo salto no desempenho da IA não virá apenas do treinamento de modelos maiores, mas também da ampliação do uso computacional durante a inferência.
Se quiser ler mais, vários estudos papéisdemonstrar:
Uma vez que os modelos poderosos são treinados, suas tarefas de inferência—onde os modelos fazem coisas—podem ser transferidas para redes de computação descentralizadas. Isso faz tanto sentido porque:
Pense na inferência descentralizada como uma CDN (rede de entrega de conteúdo) para IA: em vez de entregar sites rapidamente conectando-se a servidores próximos, a inferência descentralizada aproveita o poder de computação local para fornecer respostas de IA em tempo recorde. Ao abraçar a inferência descentralizada, os aplicativos de IA se tornam mais eficientes, responsivos e confiáveis.
A tendência é clara. O novo chip M4 Pro da Apple rivaliza com a NVIDIARTX 3070 Ti - uma GPU que, até recentemente, era o domínio dos jogadores hardcore. O hardware que já temos está cada vez mais capaz de lidar com cargas de trabalho avançadas de IA.
Para que as redes de inferência descentralizadas tenham sucesso, deve haver incentivos econômicos convincentes para a participação. Os nós na rede precisam ser compensados por suas contribuições de computação. O sistema deve garantir uma distribuição justa e eficiente das recompensas. A diversidade geográfica é essencial, reduzindo a latência para tarefas de inferência e melhorando a tolerância a falhas.
E a melhor maneira de construir redes descentralizadas? Cripto.
Os tokens fornecem um mecanismo poderoso para alinhar os interesses dos participantes, garantindo que todos estejam trabalhando em direção ao mesmo objetivo: escalando a rede e aumentando o valor do token.
Tokens também impulsionam o crescimento da rede. Eles ajudam a resolver o clássico problema do ovo e da galinha que estagna a maioria das redes, recompensando os primeiros adotantes e incentivando a participação desde o primeiro dia.
O sucesso do Bitcoin e do Ethereum prova esse ponto - eles já agregaram as maiores pools de poder de computação do planeta.
Redes de inferência descentralizadas estão na próxima linha. Com diversidade geográfica, elas reduzem a latência, melhoram a tolerância a falhas e aproximam a IA do usuário. E com incentivos cripto-alimentados, elas escalarão mais rápido e melhor do que as redes tradicionais jamais poderiam.
Eu não me livrei dessa grande perda.
Ainda me assombra porque foi a aposta mais óbvia para qualquer pessoa prestar atenção, mas eu não investi um único dólar.
Não, não foi o próximo assassino de Solana ou um memecoin com um cachorro usando um chapéu engraçado.
Foi… NVIDIA.
Preço das ações da NVDA até o momento. Fonte: Google
Em apenas um ano, a NVDA triplicou, saltando de uma capitalização de mercado de $1T para $3T. Até superou o Bitcoin no mesmo período.
Claro, parte disso é a empolgação com a IA. Mas uma grande parte disso é baseada na realidade. A NVIDIA relatou receita de $60B para o FY2024, um aumento impressionante de 126% em relação a 2023. Esse crescimento foi impulsionado pela corrida global de IA para AGI, na qual as grandes empresas de tecnologia estão comprando GPUs.
Então, por que eu perdi isso?
Por dois anos, eu estava completamente focado em cripto e não olhei para o que estava acontecendo em IA. Isso foi um grande erro e ainda me incomoda.
Mas não estou cometendo o mesmo erro duas vezes.
Hoje, Crypto AI parece estranhamente semelhante. Estamos à beira de uma explosão de inovação. As semelhanças com a corrida do ouro da Califórnia do meio do século XIX são difíceis de ignorar - indústrias e cidades surgiram da noite para o dia, a infraestrutura avançou em velocidade vertiginosa e fortunas foram feitas por aqueles que ousaram dar um salto.
Assim como a NVIDIA em seus primeiros dias, a Cripto IA parecerá óbvia em retrospecto.
Em Parte I da minha tese, Expliquei por que a Cripto IA é a oportunidade mais emocionante e subestimada para investidores e construtores hoje.
Aqui está uma rápida recapitulação:
No seu cerne, Crypto AI é IA com infraestrutura cripto sobreposta. Isso significa que é mais provável acompanhar a trajetória de crescimento exponencial da IA do que o mercado cripto em geral. Portanto, para se manter à frente, você precisa sintonizar a pesquisa mais recente em IA no Arxiv e conversar com os fundadores que acreditam estar construindo a próxima grande coisa.
Na Parte II da minha tese, vou mergulhar em quatro dos subsectores mais promissores da Cripto IA:
Esta peça representa a culminação de semanas de pesquisa profunda e conversas com fundadores e equipes em todo o cenário de Cripto IA. Não foi projetado para ser uma imersão profunda exaustiva em todos os setores - isso é um buraco de coelho para outro dia.
Em vez disso, considere-o um roteiro de alto nível elaborado para despertar curiosidade, afiar sua pesquisa e orientar o pensamento de investimento.
Eu vejo o pilha de IA descentralizada como um ecossistema em camadas: começa com computação descentralizada e redes de dados abertos em uma extremidade, que alimentam o treinamento de modelo de IA descentralizada.
Cada inferência é então verificada - entradas e saídas igualmente - usando uma combinação de criptografia, incentivos criptoeconômicos e redes de avaliação. Essas saídas verificadas fluem para agentes de IA que podem operar autonomamente on-chain, bem como aplicações de IA para consumidores e empresas que os usuários podem realmente confiar.
As redes de coordenação unem tudo isso, permitindo uma comunicação e colaboração perfeitas em todo o ecossistema.
Nesta visão, qualquer pessoa que esteja construindo em IA poderia acessar uma ou mais camadas desta pilha, dependendo de suas necessidades específicas. Seja alavancando cálculos descentralizados para treinamento de modelo ou usando redes de avaliação para garantir saídas de alta qualidade, a pilha oferece uma variedade de opções.
Graças à composibilidade inerente do blockchain, acredito que estamos naturalmente caminhando em direção a um futuro modular. Cada camada está se tornando hiperespecializada, com protocolos otimizados para funções distintas em vez de uma abordagem integrada tudo-em-um.
Fonte: topology.vc
Houve uma explosão cambriana de startups construindo em cada camada da pilha de IA descentralizada, a maioria fundada nos últimos 1 - 3 anos. Está claro: ainda estamos no início.
O mapa mais abrangente e atualizado do cenário inicial de IA de Cripto que já vi é mantido por Casey e sua equipe em topology.vc. É um recurso inestimável para quem acompanha o espaço.
Ao mergulhar nos subsetores de IA de cripto, estou constantemente me perguntando: qual é a dimensão da oportunidade aqui? Não estou interessado em apostas pequenas - estou procurando mercados que possam escalar para centenas de bilhões.
Vamos começar com o tamanho do mercado. Ao avaliar um sub-setor, pergunto a mim mesmo: ele está criando um mercado completamente novo ou perturbando um existente?
Veja a computação descentralizada, por exemplo. É uma categoria disruptiva cujo potencial pode ser estimado olhando para o mercado de computação em nuvem estabelecido, vale ~$680B hojee espera-se que alcance US$2,5 trilhões em 2032.
Novos mercados sem precedentes, como agentes de IA, são mais difíceis de quantificar. Sem dados históricos, dimensioná-los envolve uma combinação de suposições fundamentadas e verificações intuitivas dos problemas que eles estão resolvendo. E a armadilha é que às vezes, o que parece ser um novo mercado é apenas uma solução em busca de um problema.
A sincronização é tudo. A tecnologia tende a melhorar e ficar mais barata com o tempo, mas o ritmo do progresso varia.
Quão madura é a tecnologia em um determinado sub setor? Está pronta para escalar, ou ainda está na fase de pesquisa, com aplicações práticas a anos de distância? O momento determina se um setor merece atenção imediata ou se deve ser deixado na categoria de “esperar para ver”.
Tome a Criptografia Totalmente Homomórfica (FHE) como exemplo: o potencial é inegável, mas hoje ainda é muito lento para uso generalizado. Provavelmente ainda estamos a vários anos de ver sua viabilidade atingir o mainstream. Ao focar primeiro em setores mais próximos da escala, posso dedicar meu tempo e energia onde o impulso - e a oportunidade - estão se construindo.
Se eu fosse mapear essas categorias em um gráfico de tamanho vs. tempo, seria algo parecido com isso. Tenha em mente que isso é mais um esboço conceitual do que um guia rígido e rápido. Há muitas nuances - por exemplo, dentro da inferência verificável, abordagens diferentes como zkML e opML estão em níveis de prontidão diferentes para uso.
Dito isso, estou convencido de que a escala da IA será tão massiva que até mesmo o que parece “nicho” hoje poderia se tornar um mercado significativo.
Vale ressaltar também que o progresso tecnológico nem sempre segue uma linha reta - muitas vezes ocorre em saltos. Minhas opiniões sobre timing e tamanho de mercado mudarão quando ocorrerem avanços emergentes.
Com este framework em mente, vamos analisar cada sub-setor.
Várias equipes de IA de Cripto estão se posicionando para capitalizar a escassez de GPUs em relação à demanda, construindo redes descentralizadas que aproveitam o pool global de potência de cálculo latente.
A proposta de valor central para os mercados de GPU é tripla:
Para enfrentar o lado da oferta do mercado, esses mercados obtêm computação de:
Por outro lado, a demanda por computação descentralizada hoje vem de:
A coisa importante a lembrar: os desenvolvedores sempre priorizam custos e confiabilidade.
Startups neste espaço frequentemente exibem o tamanho de suas redes de fornecimento de GPU como um sinal de sucesso. Mas isso é enganoso - é uma métrica vaidosa no máximo.
A verdadeira restrição não é o fornecimento, mas a demanda. As principais métricas a serem acompanhadas não são o número de GPUs disponíveis, mas sim a taxa de utilização e o número de GPUs realmente alugadas.
Os tokens são excelentes para inicializar o lado da oferta, criando os incentivos necessários para escalar rapidamente. No entanto, eles não resolvem inerentemente o problema da demanda. O verdadeiro teste é levar o produto a um estado suficientemente bom para que a demanda latente se materialize.
Haseeb Qureshi (Dragonfly) coloca o melhor:
Ao contrário do que se pensa, o maior obstáculo para os marketplaces distribuídos de GPU da web3 hoje em dia é simplesmente fazê-los funcionar corretamente.
Este não é um problema trivial.
Orquestrar GPUs em uma rede distribuída é complexo, com camadas de desafios - alocação de recursos, dimensionamento dinâmico da carga de trabalho, balanceamento de carga entre nós e GPUs, gerenciamento de latência, transferência de dados, tolerância a falhas e tratamento de hardware diversificado espalhado por várias geografias. Eu poderia continuar indefinidamente.
Para alcançar isso, é necessário um engenharia séria e uma arquitetura de rede robusta e adequadamente projetada.
Para colocar em perspectiva, considere o Kubernetes do Google. É amplamente considerado o padrão ouro para a orquestração de contêineres, automatizando processos como balanceamento de carga e escalonamento em ambientes distribuídos - desafios muito semelhantes aos enfrentados pelas redes de GPU distribuídas. O próprio Kubernetes foi construído com mais de uma década de experiência do Google e, mesmo assim, levou anos de iteração implacável para acertar.
Algumas das plataformas de mercado de computação GPU que já estão ativas hoje podem lidar com cargas de trabalho em pequena escala, mas as falhas começam a aparecer assim que tentam escalar. Suspeito que isso ocorra porque foram construídas sobre bases arquitetônicas mal projetadas.
Outro desafio/oportunidade para redes de computação descentralizadas é garantir a confiabilidade: verificar se cada nó está realmente fornecendo a potência de computação que alega. Atualmente, isso depende da reputação da rede e, em alguns casos, os provedores de computação são classificados por pontuações de reputação. A blockchain parece ser um ajuste natural para sistemas de verificação sem confiança. Startups como GensyneSpheronestão buscando uma abordagem sem confiança para resolver esse problema.
Hoje, muitas equipes web3 ainda estão enfrentando esses desafios, o que significa que a oportunidade está completamente aberta.
Qual é o tamanho do mercado para redes de computação descentralizadas?
Hoje, provavelmente é apenas uma pequena fração da indústria de computação em nuvem de $680B - $2.5T. No entanto, apesar do atrito adicional para os usuários, sempre haverá alguma demanda enquanto os custos permanecerem mais baixos do que os dos provedores tradicionais.
Acredito que os custos permanecerão mais baixos no curto e médio prazo devido a uma combinação de subsídios de tokens e desbloqueio de oferta por parte de usuários que não são sensíveis ao preço (por exemplo, se eu puder alugar meu laptop de jogos por dinheiro extra, estou feliz, quer seja $20 ou $50 por mês).
Mas o verdadeiro potencial de crescimento para redes de computação descentralizadas - e a real expansão de sua TAM - virá quando:
Computação descentralizada e sem permissão é a camada base - a infraestrutura fundamental - para um ecossistema de IA descentralizada.
Apesar da contínua expansão na cadeia de suprimentos de silício (ou seja, GPUs), acredito que estamos apenas no início da era da Inteligência da humanidade. Haverá uma demanda insaciável por computação.
Fique atento ao ponto de inflexão que poderia desencadear uma grande reavaliação de todos os marketplaces de GPU em funcionamento. Provavelmente, está chegando em breve.
Imagine isso: um modelo de IA enorme e transformador, não desenvolvido em laboratórios elitistas secretos, mas trazido à vida por milhões de pessoas comuns. Jogadores, cujas GPUs normalmente geram explosões cinematográficas do Call of Duty, agora emprestam seu hardware para algo maior - um modelo de IA de código aberto e coletivamente de propriedade, sem gatekeepers centrais.
Neste futuro, modelos de escala de fundação não são apenas o domínio dos principais laboratórios de IA.
Mas vamos fundamentar essa visão na realidade atual. Por enquanto, a maior parte do treinamento pesado de IA continua ancorada em centros de dados centralizados, e essa provavelmente será a norma por algum tempo.
Empresas como a OpenAI estão ampliando suas enormes clusters. Elon Musk recentemente anunciadoque o xAI está prestes a concluir um centro de dados com o equivalente a 200.000 GPUs H100.
Mas não se trata apenas do número bruto de GPU. Utilização de FLOPS do modelo (MFU) - uma métrica introduzida em O artigo do PaLM do Googleem 2022 - acompanha o quão efetivamente a capacidade máxima de uma GPU é utilizada. Surpreendentemente, o MFU geralmente fica em torno de 35-40%.
Por que tão baixo? Embora o desempenho da GPU tenha aumentado muito ao longo dos anos, seguindo a lei de Moore, as melhorias na rede, memória e armazenamento têm ficado significativamente para trás, criando gargalos. Como resultado, as GPUs frequentemente ficam ociosas, aguardando dados.
O treinamento de IA permanece altamente centralizado hoje por uma palavra - Eficiência.
Treinar grandes modelos depende de técnicas como:
• Paralelismo de dados: Dividir conjuntos de dados em várias GPUs para realizar operações em paralelo, acelerando o processo de treinamento.
• Paralelismo do modelo: Distribuição de partes do modelo entre GPUs para contornar as limitações de memória.
Esses métodos requerem GPUs para trocar dados constantemente, tornando a velocidade de interconexão - a taxa na qual os dados são transferidos entre computadores na rede - absolutamente essencial.
Quando o treinamento do modelo de IA de fronteira pode custar mais de $1B, cada ganho de eficiência importa.
Com suas interconexões de alta velocidade, os centros de dados centralizados permitem a transferência rápida de dados entre GPUs e geram economias substanciais durante o tempo de treinamento que as configurações descentralizadas não conseguem igualar… ainda.
Se você conversar com pessoas que trabalham no espaço de IA, muitos lhe dirão que o treinamento descentralizado simplesmente não funcionará.
Em configurações descentralizadas, clusters de GPU não estão fisicamente localizados juntos, então transferir dados entre eles é muito mais lento e se torna um gargalo. O treinamento requer que as GPUs sincronizem e troquem dados a cada etapa. Quanto mais distantes eles estiverem, maior será a latência. Maior latência significa velocidade de treinamento mais lenta e custos mais altos.
O que poderia levar alguns dias em um centro de dados centralizado poderia se estender a duas semanas com uma abordagem descentralizada a um custo mais alto. Simplesmente não é viável.
Mas isso está prestes a mudar.
A boa notícia é que houve um enorme aumento de interesse em pesquisas sobre treinamento distribuído. Os pesquisadores estão explorando simultaneamente várias abordagens, como evidenciado pela quantidade de estudos e papers publicados. Esses avanços se acumularão e se combinarão, acelerando o progresso no campo.
Também se trata de testar em produção e ver até onde podemos ir além dos limites.
Algumas técnicas de treinamento descentralizado já podem lidar com modelos menores em ambientes de interconexão lenta. Agora, a pesquisa de fronteira está se esforçando para estender esses métodos para modelos cada vez maiores.
Outro desafio é gerenciar uma ampla variedade de hardware de GPU, incluindo GPUs de consumo com memória limitada que são comuns em redes descentralizadas. Técnicas como paralelismo de modelo (dividindo camadas do modelo entre dispositivos) podem ajudar a tornar isso viável.
Métodos de treinamento descentralizados atuais ainda limitam-se a tamanhos de modelo bem abaixo da fronteira (o GPT-4 está supostamente próximo de um trilhão de parâmetros, 100 vezes maior que o modelo de 10B do Prime Intellect). Para realmente escalar, precisaremos de avanços na arquitetura do modelo, infraestrutura de rede melhor e divisão mais inteligente de tarefas entre dispositivos.
E podemos sonhar grande. Imagine um mundo onde o treinamento descentralizado agregue mais poder de computação de GPU do que até mesmo os maiores centros de dados centralizados poderiam reunir.
Pluralis Research(uma equipe afiada em treinamento descentralizado, para ficar de olho de perto) argumenta que isso não é apenas possível, é inevitável. Os centros de dados centralizados estão sujeitos a restrições físicas como espaço e o disponibilidade de energia, enquanto as redes descentralizadas podem acessar um pool efetivamente ilimitado de recursos globais.
Até Jensen Huang, da NVIDIA, reconheceu quetreinamento descentralizado assíncronopoderia desbloquear o verdadeiro potencial da escala de IA. As redes de treinamento distribuído também são mais tolerantes a falhas.
Então, em um futuro potencial, os modelos de IA mais poderosos do mundo serão treinados de forma descentralizada.
É uma perspectiva empolgante, mas ainda não estou completamente convencido. Precisamos de evidências mais fortes de que o treinamento descentralizado dos maiores modelos seja tecnicamente e economicamente viável.
Aqui é onde vejo um promissor imenso: o ponto forte do treinamento descentralizado poderia estar em modelos menores, especializados e de código aberto projetados para casos de uso específicos, em vez de competir com os modelos de fronteira ultra grandes impulsionados por IA geral. Certas arquiteturas, especialmente modelos não-transformadores, já estão provando ser uma combinação natural para configurações descentralizadas.
E há mais uma peça para este quebra-cabeça: tokens. Uma vez que o treinamento descentralizado se torna viável em grande escala, os tokens poderiam desempenhar um papel crucial na incentivação e recompensa aos contribuidores, efetivamente inicializando essas redes.
O caminho para esta visão é longo, mas o progresso é profundamente encorajador. Avanços na formação descentralizada beneficiarão a todos — até mesmo grandes empresas de tecnologia e laboratórios de pesquisa de IA de primeira linha — já que a escala de modelos futuros superará a capacidade de um único centro de dados.
O futuro é distribuído. E quando uma tecnologia tem um potencial tão amplo, a história mostra que ela sempre melhora e se desenvolve mais rápido do que qualquer um espera.
Atualmente, a maioria do poder computacional em IA está sendo canalizada para treinar modelos massivos. Os principais laboratórios de IA estão em uma corrida armamentista para desenvolver os melhores modelos fundamentais e, em última instância, alcançar a AGI.
Mas aqui está minha opinião: esse foco intenso em computação para treinamento se voltará para a inferência nos próximos anos. À medida que a IA se torna cada vez mais incorporada nas aplicações que usamos diariamente - da saúde ao entretenimento - os recursos computacionais necessários para suportar a inferência serão impressionantes.
E não é apenas especulação. A escalabilidade computacional do tempo de inferência é a última palavra da moda em IA. A OpenAI lançou recentemente uma prévia/mini versão de seu último modelo, o1 (codinome: Strawberry), e a grande mudança? Ele leva seu tempo para pensar, primeiro perguntando a si mesmo quais são as etapas que deve seguir para responder a pergunta, e então passa por cada uma dessas etapas.
Este modelo é projetado para tarefas mais complexas e com muita programação, como resolvendo palavras cruzadas—e aborda problemas que exigem um raciocínio mais profundo. Você notará que é mais lento, levando mais tempo para gerar respostas, mas os resultados são muito mais ponderados e matizados. Também é muito mais caro correr (25x o custo do GPT-4)
A mudança de foco é clara: o próximo salto no desempenho da IA não virá apenas do treinamento de modelos maiores, mas também da ampliação do uso computacional durante a inferência.
Se quiser ler mais, vários estudos papéisdemonstrar:
Uma vez que os modelos poderosos são treinados, suas tarefas de inferência—onde os modelos fazem coisas—podem ser transferidas para redes de computação descentralizadas. Isso faz tanto sentido porque:
Pense na inferência descentralizada como uma CDN (rede de entrega de conteúdo) para IA: em vez de entregar sites rapidamente conectando-se a servidores próximos, a inferência descentralizada aproveita o poder de computação local para fornecer respostas de IA em tempo recorde. Ao abraçar a inferência descentralizada, os aplicativos de IA se tornam mais eficientes, responsivos e confiáveis.
A tendência é clara. O novo chip M4 Pro da Apple rivaliza com a NVIDIARTX 3070 Ti - uma GPU que, até recentemente, era o domínio dos jogadores hardcore. O hardware que já temos está cada vez mais capaz de lidar com cargas de trabalho avançadas de IA.
Para que as redes de inferência descentralizadas tenham sucesso, deve haver incentivos econômicos convincentes para a participação. Os nós na rede precisam ser compensados por suas contribuições de computação. O sistema deve garantir uma distribuição justa e eficiente das recompensas. A diversidade geográfica é essencial, reduzindo a latência para tarefas de inferência e melhorando a tolerância a falhas.
E a melhor maneira de construir redes descentralizadas? Cripto.
Os tokens fornecem um mecanismo poderoso para alinhar os interesses dos participantes, garantindo que todos estejam trabalhando em direção ao mesmo objetivo: escalando a rede e aumentando o valor do token.
Tokens também impulsionam o crescimento da rede. Eles ajudam a resolver o clássico problema do ovo e da galinha que estagna a maioria das redes, recompensando os primeiros adotantes e incentivando a participação desde o primeiro dia.
O sucesso do Bitcoin e do Ethereum prova esse ponto - eles já agregaram as maiores pools de poder de computação do planeta.
Redes de inferência descentralizadas estão na próxima linha. Com diversidade geográfica, elas reduzem a latência, melhoram a tolerância a falhas e aproximam a IA do usuário. E com incentivos cripto-alimentados, elas escalarão mais rápido e melhor do que as redes tradicionais jamais poderiam.