Nossa Tese de IA Cripto (Parte II): Computação Descentralizada é KING

Avançado12/18/2024, 2:23:28 AM
Na Parte II da minha tese, vou mergulhar em quatro dos sub-setores mais promissores em Cripto IA: Cálculo Descentralizado: Treinamento, Inferência & Mercados de GPU, Redes de Dados, IA Verificável, Agentes de IA que vivem on-chain. Esta peça representa a culminação de semanas de pesquisa aprofundada e conversas com fundadores e equipes em toda a paisagem de Cripto IA. Não foi projetada para ser um mergulho profundo exaustivo em todos os setores - isso é uma toca de coelho para outro dia.

Eu não me livrei dessa grande perda.

Ainda me assombra porque foi a aposta mais óbvia para qualquer pessoa prestar atenção, mas eu não investi um único dólar.

Não, não foi o próximo assassino de Solana ou um memecoin com um cachorro usando um chapéu engraçado.

Foi… NVIDIA.

Preço das ações da NVDA até o momento. Fonte: Google

Em apenas um ano, a NVDA triplicou, saltando de uma capitalização de mercado de $1T para $3T. Até superou o Bitcoin no mesmo período.

Claro, parte disso é a empolgação com a IA. Mas uma grande parte disso é baseada na realidade. A NVIDIA relatou receita de $60B para o FY2024, um aumento impressionante de 126% em relação a 2023. Esse crescimento foi impulsionado pela corrida global de IA para AGI, na qual as grandes empresas de tecnologia estão comprando GPUs.

Então, por que eu perdi isso?

Por dois anos, eu estava completamente focado em cripto e não olhei para o que estava acontecendo em IA. Isso foi um grande erro e ainda me incomoda.

Mas não estou cometendo o mesmo erro duas vezes.

Hoje, Crypto AI parece estranhamente semelhante. Estamos à beira de uma explosão de inovação. As semelhanças com a corrida do ouro da Califórnia do meio do século XIX são difíceis de ignorar - indústrias e cidades surgiram da noite para o dia, a infraestrutura avançou em velocidade vertiginosa e fortunas foram feitas por aqueles que ousaram dar um salto.

Assim como a NVIDIA em seus primeiros dias, a Cripto IA parecerá óbvia em retrospecto.

Em Parte I da minha tese, Expliquei por que a Cripto IA é a oportunidade mais emocionante e subestimada para investidores e construtores hoje.

Aqui está uma rápida recapitulação:

  • Muitos ainda o consideram como ‘vaporware’.
  • Cripto IA está em seu ciclo inicial—provavelmente a 1-2 anos de distância do pico de empolgação.
  • Existe uma oportunidade de crescimento de mais de $230B neste espaço, no mínimo.

No seu cerne, Crypto AI é IA com infraestrutura cripto sobreposta. Isso significa que é mais provável acompanhar a trajetória de crescimento exponencial da IA do que o mercado cripto em geral. Portanto, para se manter à frente, você precisa sintonizar a pesquisa mais recente em IA no Arxiv e conversar com os fundadores que acreditam estar construindo a próxima grande coisa.

Na Parte II da minha tese, vou mergulhar em quatro dos subsectores mais promissores da Cripto IA:

  1. Computação Descentralizada: Treinamento, Inferência e Mercados de GPU
  2. Redes de dados
  3. Verificável IA
  4. Agentes de IA vivendo na cadeia

Esta peça representa a culminação de semanas de pesquisa profunda e conversas com fundadores e equipes em todo o cenário de Cripto IA. Não foi projetado para ser uma imersão profunda exaustiva em todos os setores - isso é um buraco de coelho para outro dia.

Em vez disso, considere-o um roteiro de alto nível elaborado para despertar curiosidade, afiar sua pesquisa e orientar o pensamento de investimento.

Mapeando a paisagem

Eu vejo o pilha de IA descentralizada como um ecossistema em camadas: começa com computação descentralizada e redes de dados abertos em uma extremidade, que alimentam o treinamento de modelo de IA descentralizada.

Cada inferência é então verificada - entradas e saídas igualmente - usando uma combinação de criptografia, incentivos criptoeconômicos e redes de avaliação. Essas saídas verificadas fluem para agentes de IA que podem operar autonomamente on-chain, bem como aplicações de IA para consumidores e empresas que os usuários podem realmente confiar.

As redes de coordenação unem tudo isso, permitindo uma comunicação e colaboração perfeitas em todo o ecossistema.

Nesta visão, qualquer pessoa que esteja construindo em IA poderia acessar uma ou mais camadas desta pilha, dependendo de suas necessidades específicas. Seja alavancando cálculos descentralizados para treinamento de modelo ou usando redes de avaliação para garantir saídas de alta qualidade, a pilha oferece uma variedade de opções.

Graças à composibilidade inerente do blockchain, acredito que estamos naturalmente caminhando em direção a um futuro modular. Cada camada está se tornando hiperespecializada, com protocolos otimizados para funções distintas em vez de uma abordagem integrada tudo-em-um.

Fonte: topology.vc

Houve uma explosão cambriana de startups construindo em cada camada da pilha de IA descentralizada, a maioria fundada nos últimos 1 - 3 anos. Está claro: ainda estamos no início.

O mapa mais abrangente e atualizado do cenário inicial de IA de Cripto que já vi é mantido por Casey e sua equipe em topology.vc. É um recurso inestimável para quem acompanha o espaço.

Ao mergulhar nos subsetores de IA de cripto, estou constantemente me perguntando: qual é a dimensão da oportunidade aqui? Não estou interessado em apostas pequenas - estou procurando mercados que possam escalar para centenas de bilhões.

1. Tamanho do mercado

Vamos começar com o tamanho do mercado. Ao avaliar um sub-setor, pergunto a mim mesmo: ele está criando um mercado completamente novo ou perturbando um existente?

Veja a computação descentralizada, por exemplo. É uma categoria disruptiva cujo potencial pode ser estimado olhando para o mercado de computação em nuvem estabelecido, vale ~$680B hojee espera-se que alcance US$2,5 trilhões em 2032.

Novos mercados sem precedentes, como agentes de IA, são mais difíceis de quantificar. Sem dados históricos, dimensioná-los envolve uma combinação de suposições fundamentadas e verificações intuitivas dos problemas que eles estão resolvendo. E a armadilha é que às vezes, o que parece ser um novo mercado é apenas uma solução em busca de um problema.

2. Temporização

A sincronização é tudo. A tecnologia tende a melhorar e ficar mais barata com o tempo, mas o ritmo do progresso varia.

Quão madura é a tecnologia em um determinado sub setor? Está pronta para escalar, ou ainda está na fase de pesquisa, com aplicações práticas a anos de distância? O momento determina se um setor merece atenção imediata ou se deve ser deixado na categoria de “esperar para ver”.

Tome a Criptografia Totalmente Homomórfica (FHE) como exemplo: o potencial é inegável, mas hoje ainda é muito lento para uso generalizado. Provavelmente ainda estamos a vários anos de ver sua viabilidade atingir o mainstream. Ao focar primeiro em setores mais próximos da escala, posso dedicar meu tempo e energia onde o impulso - e a oportunidade - estão se construindo.

Se eu fosse mapear essas categorias em um gráfico de tamanho vs. tempo, seria algo parecido com isso. Tenha em mente que isso é mais um esboço conceitual do que um guia rígido e rápido. Há muitas nuances - por exemplo, dentro da inferência verificável, abordagens diferentes como zkML e opML estão em níveis de prontidão diferentes para uso.

Dito isso, estou convencido de que a escala da IA será tão massiva que até mesmo o que parece “nicho” hoje poderia se tornar um mercado significativo.

Vale ressaltar também que o progresso tecnológico nem sempre segue uma linha reta - muitas vezes ocorre em saltos. Minhas opiniões sobre timing e tamanho de mercado mudarão quando ocorrerem avanços emergentes.

Com este framework em mente, vamos analisar cada sub-setor.

Setor 1: Computação descentralizada

TL;dr

  • A computação descentralizada é a espinha dorsal da IA descentralizada.
  • Mercados de GPU, treinamento descentralizado e inferência descentralizada estão profundamente interconectados e prosperam juntos.
  • O lado da oferta geralmente vem de centros de dados de pequeno e médio porte e GPUs de consumidores.
  • O lado da demanda é pequeno, mas está crescendo. Hoje, vem de usuários sensíveis ao preço e à latência e de startups menores de IA.
  • O maior desafio para os mercados de GPU da Web3 hoje é realmente fazê-los funcionar.
  • Orquestrar GPUs em uma rede descentralizada requer engenharia avançada e uma arquitetura de rede bem projetada e robusta.

1.1. Mercados de GPU / Redes de Computação

Várias equipes de IA de Cripto estão se posicionando para capitalizar a escassez de GPUs em relação à demanda, construindo redes descentralizadas que aproveitam o pool global de potência de cálculo latente.

A proposta de valor central para os mercados de GPU é tripla:

  1. Você pode acessar computação de ‘até 90% mais barato’ do que a AWS, o que resulta da (1) eliminação de intermediários e (2) abertura do lado da oferta. Essencialmente, esses mercados permitem que você acesse o menor custo marginal de computação globalmente.
  2. Maior flexibilidade: Sem contratos de fidelização, sem KYC, sem tempos de espera.
  3. Resistência à censura

Para enfrentar o lado da oferta do mercado, esses mercados obtêm computação de:

  • GPUs de nível empresarial (por exemplo, A100s, H100s) de centros de dados de pequeno e médio porte lutando para encontrar demanda por conta própria ou por mineradores de Bitcoin que procuram diversificar. Também sei de equipes aproveitando grandes projetos de infraestrutura financiados pelo governo, onde os centros de dados foram construídos como parte das iniciativas de crescimento tecnológico. Esses provedores muitas vezes são incentivados a manter suas GPUs na rede, o que os ajuda a compensar os custos de amortização de suas GPUs.
  • GPUs de consumo dos milhões de jogadores e usuários domésticos que conectam seus computadores à rede em troca de incentivos de tokens

Por outro lado, a demanda por computação descentralizada hoje vem de:

  1. Usuários sensíveis a preço e insensíveis a latência. Este segmento prioriza a acessibilidade em vez da velocidade. Pense em pesquisadores explorando novas áreas, desenvolvedores de IA independentes e outros usuários conscientes de custos que não precisam de processamento em tempo real. Devido a restrições orçamentárias, muitos deles podem enfrentar dificuldades com os hiperescaladores tradicionais como AWS ou Azure. Por estarem bastante distribuídos na população, o marketing direcionado é crucial para trazer esse grupo a bordo.
  2. Startups de IA menores enfrentam desafios para garantir recursos de computação flexíveis e escaláveis sem ficar presos a contratos de longo prazo com grandes provedores de nuvem. O desenvolvimento de negócios é vital para atrair esse segmento, pois estão buscando ativamente alternativas ao bloqueio dos gigantes da hiperescala.
  3. Startups de IA de cripto construindo produtos de IA descentralizados, mas sem seu próprio suprimento de computação, precisarão acessar os recursos de uma dessas redes.
  4. Jogos na nuvem: Embora não seja diretamente impulsionado por IA, os jogos na nuvem são uma fonte crescente de demanda por recursos de GPU.

A coisa importante a lembrar: os desenvolvedores sempre priorizam custos e confiabilidade.

O Verdadeiro Desafio: Demanda, Não Oferta

Startups neste espaço frequentemente exibem o tamanho de suas redes de fornecimento de GPU como um sinal de sucesso. Mas isso é enganoso - é uma métrica vaidosa no máximo.

A verdadeira restrição não é o fornecimento, mas a demanda. As principais métricas a serem acompanhadas não são o número de GPUs disponíveis, mas sim a taxa de utilização e o número de GPUs realmente alugadas.

Os tokens são excelentes para inicializar o lado da oferta, criando os incentivos necessários para escalar rapidamente. No entanto, eles não resolvem inerentemente o problema da demanda. O verdadeiro teste é levar o produto a um estado suficientemente bom para que a demanda latente se materialize.

Haseeb Qureshi (Dragonfly) coloca o melhor:

Fazendo as Redes de Computação Realmente Funcionarem

Ao contrário do que se pensa, o maior obstáculo para os marketplaces distribuídos de GPU da web3 hoje em dia é simplesmente fazê-los funcionar corretamente.

Este não é um problema trivial.

Orquestrar GPUs em uma rede distribuída é complexo, com camadas de desafios - alocação de recursos, dimensionamento dinâmico da carga de trabalho, balanceamento de carga entre nós e GPUs, gerenciamento de latência, transferência de dados, tolerância a falhas e tratamento de hardware diversificado espalhado por várias geografias. Eu poderia continuar indefinidamente.

Para alcançar isso, é necessário um engenharia séria e uma arquitetura de rede robusta e adequadamente projetada.

Para colocar em perspectiva, considere o Kubernetes do Google. É amplamente considerado o padrão ouro para a orquestração de contêineres, automatizando processos como balanceamento de carga e escalonamento em ambientes distribuídos - desafios muito semelhantes aos enfrentados pelas redes de GPU distribuídas. O próprio Kubernetes foi construído com mais de uma década de experiência do Google e, mesmo assim, levou anos de iteração implacável para acertar.

Algumas das plataformas de mercado de computação GPU que já estão ativas hoje podem lidar com cargas de trabalho em pequena escala, mas as falhas começam a aparecer assim que tentam escalar. Suspeito que isso ocorra porque foram construídas sobre bases arquitetônicas mal projetadas.

Outro desafio/oportunidade para redes de computação descentralizadas é garantir a confiabilidade: verificar se cada nó está realmente fornecendo a potência de computação que alega. Atualmente, isso depende da reputação da rede e, em alguns casos, os provedores de computação são classificados por pontuações de reputação. A blockchain parece ser um ajuste natural para sistemas de verificação sem confiança. Startups como GensyneSpheronestão buscando uma abordagem sem confiança para resolver esse problema.

Hoje, muitas equipes web3 ainda estão enfrentando esses desafios, o que significa que a oportunidade está completamente aberta.

Tamanho do Mercado de Computação Descentralizada

Qual é o tamanho do mercado para redes de computação descentralizadas?

Hoje, provavelmente é apenas uma pequena fração da indústria de computação em nuvem de $680B - $2.5T. No entanto, apesar do atrito adicional para os usuários, sempre haverá alguma demanda enquanto os custos permanecerem mais baixos do que os dos provedores tradicionais.

Acredito que os custos permanecerão mais baixos no curto e médio prazo devido a uma combinação de subsídios de tokens e desbloqueio de oferta por parte de usuários que não são sensíveis ao preço (por exemplo, se eu puder alugar meu laptop de jogos por dinheiro extra, estou feliz, quer seja $20 ou $50 por mês).

Mas o verdadeiro potencial de crescimento para redes de computação descentralizadas - e a real expansão de sua TAM - virá quando:

  1. Treinamento descentralizado de modelos de IA se torna prático
  2. A demanda por inferência está explodindo e os data centers existentes não conseguem atendê-la. Isso já está começando a acontecer. Jensen Huang diz que a demanda por inferência vai aumentar “um bilhão de vezes”.
  3. Service-Level Agreements (SLAs) adequados tornam-se disponíveis, abordando uma barreira crítica para a adoção empresarial. Atualmente, a computação descentralizada opera com base no melhor esforço, deixando os usuários com diferentes níveis de qualidade de serviço (por exemplo, % de tempo de atividade). Com os SLAs em vigor, essas redes podem oferecer métricas padronizadas de confiabilidade e desempenho, tornando a computação descentralizada uma alternativa viável aos provedores tradicionais de computação em nuvem.

Computação descentralizada e sem permissão é a camada base - a infraestrutura fundamental - para um ecossistema de IA descentralizada.

Apesar da contínua expansão na cadeia de suprimentos de silício (ou seja, GPUs), acredito que estamos apenas no início da era da Inteligência da humanidade. Haverá uma demanda insaciável por computação.

Fique atento ao ponto de inflexão que poderia desencadear uma grande reavaliação de todos os marketplaces de GPU em funcionamento. Provavelmente, está chegando em breve.

Outras Notas:

  • O mercado de GPUs exclusivas está lotado, com competição entre plataformas descentralizadas e também a ascensão das nuvens neoclouds de IA web2como Vast.ai e Lambda.
  • Pequenos nós (por exemplo, 4 x H100) não têm muita demanda devido ao uso limitado, mas boa sorte encontrando alguém vendendo grandes clusters - eles ainda estão em alta demanda.
  • Um jogador dominante agregará todo o suprimento de computação para protocolos descentralizados, ou permanecerá fragmentado entre vários mercados? Estou inclinado para o primeiro cenário e uma distribuição de lei de potência nos resultados, já que a consolidação frequentemente impulsiona a eficiência na infraestrutura. Mas levará tempo para se desenrolar e, enquanto isso, a fragmentação e a confusão continuam.
  • Os desenvolvedores desejam se concentrar na construção de aplicativos, não em lidar com implantação e configuração. Os mercados devem abstrair essas complexidades, tornando o acesso à computação o mais livre de atritos possível.

1.2. Treinamento Descentralizado

TL;dr

  • Se as leis de escala forem válidas, treinar a próxima geração de modelos de IA de fronteira em um único centro de dados se tornará fisicamente impossível um dia.
  • Treinar modelos de IA requer muita transferência de dados entre GPUs. Baixa velocidade de transferência de dados (interconexão) entre GPUs distribuídos é frequentemente a maior barreira.
  • Pesquisadores estão explorando várias abordagens simultaneamente, e avanços estão acontecendo (por exemplo, Open DiLoCo, DisTrO). Esses avanços se acumularão e se comporão, acelerando o progresso no espaço.
  • O futuro do treinamento descentralizado provavelmente está em modelos menores e especializados projetados para aplicações de nicho, em vez de modelos de ponta focados em AGI.
  • A demanda por inferência está pronta para disparar com a mudança para modelos como o o1 da OpenAI, criando oportunidades para redes de inferência descentralizadas.

Imagine isso: um modelo de IA enorme e transformador, não desenvolvido em laboratórios elitistas secretos, mas trazido à vida por milhões de pessoas comuns. Jogadores, cujas GPUs normalmente geram explosões cinematográficas do Call of Duty, agora emprestam seu hardware para algo maior - um modelo de IA de código aberto e coletivamente de propriedade, sem gatekeepers centrais.

Neste futuro, modelos de escala de fundação não são apenas o domínio dos principais laboratórios de IA.

Mas vamos fundamentar essa visão na realidade atual. Por enquanto, a maior parte do treinamento pesado de IA continua ancorada em centros de dados centralizados, e essa provavelmente será a norma por algum tempo.

Empresas como a OpenAI estão ampliando suas enormes clusters. Elon Musk recentemente anunciadoque o xAI está prestes a concluir um centro de dados com o equivalente a 200.000 GPUs H100.

Mas não se trata apenas do número bruto de GPU. Utilização de FLOPS do modelo (MFU) - uma métrica introduzida em O artigo do PaLM do Googleem 2022 - acompanha o quão efetivamente a capacidade máxima de uma GPU é utilizada. Surpreendentemente, o MFU geralmente fica em torno de 35-40%.

Por que tão baixo? Embora o desempenho da GPU tenha aumentado muito ao longo dos anos, seguindo a lei de Moore, as melhorias na rede, memória e armazenamento têm ficado significativamente para trás, criando gargalos. Como resultado, as GPUs frequentemente ficam ociosas, aguardando dados.

O treinamento de IA permanece altamente centralizado hoje por uma palavra - Eficiência.

Treinar grandes modelos depende de técnicas como:

• Paralelismo de dados: Dividir conjuntos de dados em várias GPUs para realizar operações em paralelo, acelerando o processo de treinamento.

• Paralelismo do modelo: Distribuição de partes do modelo entre GPUs para contornar as limitações de memória.

Esses métodos requerem GPUs para trocar dados constantemente, tornando a velocidade de interconexão - a taxa na qual os dados são transferidos entre computadores na rede - absolutamente essencial.

Quando o treinamento do modelo de IA de fronteira pode custar mais de $1B, cada ganho de eficiência importa.

Com suas interconexões de alta velocidade, os centros de dados centralizados permitem a transferência rápida de dados entre GPUs e geram economias substanciais durante o tempo de treinamento que as configurações descentralizadas não conseguem igualar… ainda.

Superando a velocidade lenta da interconexão

Se você conversar com pessoas que trabalham no espaço de IA, muitos lhe dirão que o treinamento descentralizado simplesmente não funcionará.

Em configurações descentralizadas, clusters de GPU não estão fisicamente localizados juntos, então transferir dados entre eles é muito mais lento e se torna um gargalo. O treinamento requer que as GPUs sincronizem e troquem dados a cada etapa. Quanto mais distantes eles estiverem, maior será a latência. Maior latência significa velocidade de treinamento mais lenta e custos mais altos.

O que poderia levar alguns dias em um centro de dados centralizado poderia se estender a duas semanas com uma abordagem descentralizada a um custo mais alto. Simplesmente não é viável.

Mas isso está prestes a mudar.

A boa notícia é que houve um enorme aumento de interesse em pesquisas sobre treinamento distribuído. Os pesquisadores estão explorando simultaneamente várias abordagens, como evidenciado pela quantidade de estudos e papers publicados. Esses avanços se acumularão e se combinarão, acelerando o progresso no campo.

Também se trata de testar em produção e ver até onde podemos ir além dos limites.

Algumas técnicas de treinamento descentralizado já podem lidar com modelos menores em ambientes de interconexão lenta. Agora, a pesquisa de fronteira está se esforçando para estender esses métodos para modelos cada vez maiores.

  • Por exemplo, Prime Intellect’s abrir o papel DiCoLodemonstra uma abordagem prática que envolve “ilhas” de GPUs realizando 500 etapas locais antes da sincronização, reduzindo os requisitos de largura de banda em até 500 vezes. O que começou como pesquisa do Google DeepMind em modelos menores agora foi escalado para treinar um modelo de 10 bilhões de parâmetros em novembro e totalmente aberto hoje.
  • Nous Researchestá elevando o nível com sua estrutura DisTrO, que utiliza otimizadores para proporcionar uma redução impressionante de até 10.000 vezes nos requisitos de comunicação entre GPUs ao treinar um modelo de 1,2 bilhão de parâmetros.
  • E o momentum continua a crescer. Em dezembro, a Nous anunciou o pré-treinamento de um modelo de 15B parâmetros com uma curva de perda (como o erro do modelo diminui ao longo do tempo) e uma taxa de convergência (a velocidade com que o desempenho do modelo se estabiliza) - que corresponde ou supera os resultados normalmente observados com configurações de treinamento centralizadas. Sim, melhor que o centralizado.
  • Paralelismo SWARM e DTFMHE são outros métodos para treinar modelos de IA muito grandes em diferentes tipos de dispositivos, mesmo que esses dispositivos tenham velocidades e conexões variadas.

Outro desafio é gerenciar uma ampla variedade de hardware de GPU, incluindo GPUs de consumo com memória limitada que são comuns em redes descentralizadas. Técnicas como paralelismo de modelo (dividindo camadas do modelo entre dispositivos) podem ajudar a tornar isso viável.

O Futuro do Treinamento Descentralizado

Métodos de treinamento descentralizados atuais ainda limitam-se a tamanhos de modelo bem abaixo da fronteira (o GPT-4 está supostamente próximo de um trilhão de parâmetros, 100 vezes maior que o modelo de 10B do Prime Intellect). Para realmente escalar, precisaremos de avanços na arquitetura do modelo, infraestrutura de rede melhor e divisão mais inteligente de tarefas entre dispositivos.

E podemos sonhar grande. Imagine um mundo onde o treinamento descentralizado agregue mais poder de computação de GPU do que até mesmo os maiores centros de dados centralizados poderiam reunir.

Pluralis Research(uma equipe afiada em treinamento descentralizado, para ficar de olho de perto) argumenta que isso não é apenas possível, é inevitável. Os centros de dados centralizados estão sujeitos a restrições físicas como espaço e o disponibilidade de energia, enquanto as redes descentralizadas podem acessar um pool efetivamente ilimitado de recursos globais.

Até Jensen Huang, da NVIDIA, reconheceu quetreinamento descentralizado assíncronopoderia desbloquear o verdadeiro potencial da escala de IA. As redes de treinamento distribuído também são mais tolerantes a falhas.

Então, em um futuro potencial, os modelos de IA mais poderosos do mundo serão treinados de forma descentralizada.

É uma perspectiva empolgante, mas ainda não estou completamente convencido. Precisamos de evidências mais fortes de que o treinamento descentralizado dos maiores modelos seja tecnicamente e economicamente viável.

Aqui é onde vejo um promissor imenso: o ponto forte do treinamento descentralizado poderia estar em modelos menores, especializados e de código aberto projetados para casos de uso específicos, em vez de competir com os modelos de fronteira ultra grandes impulsionados por IA geral. Certas arquiteturas, especialmente modelos não-transformadores, já estão provando ser uma combinação natural para configurações descentralizadas.

E há mais uma peça para este quebra-cabeça: tokens. Uma vez que o treinamento descentralizado se torna viável em grande escala, os tokens poderiam desempenhar um papel crucial na incentivação e recompensa aos contribuidores, efetivamente inicializando essas redes.

O caminho para esta visão é longo, mas o progresso é profundamente encorajador. Avanços na formação descentralizada beneficiarão a todos — até mesmo grandes empresas de tecnologia e laboratórios de pesquisa de IA de primeira linha — já que a escala de modelos futuros superará a capacidade de um único centro de dados.

O futuro é distribuído. E quando uma tecnologia tem um potencial tão amplo, a história mostra que ela sempre melhora e se desenvolve mais rápido do que qualquer um espera.

1.3. Inferência Descentralizada

Atualmente, a maioria do poder computacional em IA está sendo canalizada para treinar modelos massivos. Os principais laboratórios de IA estão em uma corrida armamentista para desenvolver os melhores modelos fundamentais e, em última instância, alcançar a AGI.

Mas aqui está minha opinião: esse foco intenso em computação para treinamento se voltará para a inferência nos próximos anos. À medida que a IA se torna cada vez mais incorporada nas aplicações que usamos diariamente - da saúde ao entretenimento - os recursos computacionais necessários para suportar a inferência serão impressionantes.

E não é apenas especulação. A escalabilidade computacional do tempo de inferência é a última palavra da moda em IA. A OpenAI lançou recentemente uma prévia/mini versão de seu último modelo, o1 (codinome: Strawberry), e a grande mudança? Ele leva seu tempo para pensar, primeiro perguntando a si mesmo quais são as etapas que deve seguir para responder a pergunta, e então passa por cada uma dessas etapas.

Este modelo é projetado para tarefas mais complexas e com muita programação, como resolvendo palavras cruzadas—e aborda problemas que exigem um raciocínio mais profundo. Você notará que é mais lento, levando mais tempo para gerar respostas, mas os resultados são muito mais ponderados e matizados. Também é muito mais caro correr (25x o custo do GPT-4)

A mudança de foco é clara: o próximo salto no desempenho da IA não virá apenas do treinamento de modelos maiores, mas também da ampliação do uso computacional durante a inferência.

Se quiser ler mais, vários estudos papéisdemonstrar:

  • Escalonar a computação de inferência através de amostragem repetida leva a grandes melhorias em várias tarefas.
  • Também há uma lei de escala exponencial para inferência.

Uma vez que os modelos poderosos são treinados, suas tarefas de inferência—onde os modelos fazem coisas—podem ser transferidas para redes de computação descentralizadas. Isso faz tanto sentido porque:

  • A inferência consome muito menos recursos do que o treinamento. Uma vez treinados, os modelos podem ser comprimidos e otimizados usando técnicas como quantização, poda ou destilação. Eles até podem ser divididos com paralelismo de tensor ou pipeline para serem executados em dispositivos de consumo diário. Você não precisa de uma GPU de alta qualidade para alimentar a inferência.
  • Já está acontecendo.Exo Labsdescobriu como executar um modelo Llama3 de 450B parâmetros em hardware de consumo como MacBooks e Mac Minis. Distribuir a inferência em vários dispositivos pode lidar com cargas de trabalho de grande escala de forma eficiente e econômica.
  • Melhor experiência do usuário. A execução de cálculos mais próxima do usuário reduz a latência, o que é crítico para aplicativos em tempo real como jogos, RA ou carros autônomos. Cada milissegundo importa.

Pense na inferência descentralizada como uma CDN (rede de entrega de conteúdo) para IA: em vez de entregar sites rapidamente conectando-se a servidores próximos, a inferência descentralizada aproveita o poder de computação local para fornecer respostas de IA em tempo recorde. Ao abraçar a inferência descentralizada, os aplicativos de IA se tornam mais eficientes, responsivos e confiáveis.

A tendência é clara. O novo chip M4 Pro da Apple rivaliza com a NVIDIARTX 3070 Ti - uma GPU que, até recentemente, era o domínio dos jogadores hardcore. O hardware que já temos está cada vez mais capaz de lidar com cargas de trabalho avançadas de IA.

Valor Agregado da Cripto

Para que as redes de inferência descentralizadas tenham sucesso, deve haver incentivos econômicos convincentes para a participação. Os nós na rede precisam ser compensados por suas contribuições de computação. O sistema deve garantir uma distribuição justa e eficiente das recompensas. A diversidade geográfica é essencial, reduzindo a latência para tarefas de inferência e melhorando a tolerância a falhas.

E a melhor maneira de construir redes descentralizadas? Cripto.

Os tokens fornecem um mecanismo poderoso para alinhar os interesses dos participantes, garantindo que todos estejam trabalhando em direção ao mesmo objetivo: escalando a rede e aumentando o valor do token.

Tokens também impulsionam o crescimento da rede. Eles ajudam a resolver o clássico problema do ovo e da galinha que estagna a maioria das redes, recompensando os primeiros adotantes e incentivando a participação desde o primeiro dia.

O sucesso do Bitcoin e do Ethereum prova esse ponto - eles já agregaram as maiores pools de poder de computação do planeta.

Redes de inferência descentralizadas estão na próxima linha. Com diversidade geográfica, elas reduzem a latência, melhoram a tolerância a falhas e aproximam a IA do usuário. E com incentivos cripto-alimentados, elas escalarão mais rápido e melhor do que as redes tradicionais jamais poderiam.

  1. Este artigo é reproduzido de [[](https://www.chainofthought.xyz/p/our-crypto-ai-thesis-part-ii-decentralised-compute)[Cadeia de Pensamento](https://www.chainofthought.xyz/)\]. Todos os direitos autorais pertencem ao autor original [Teng Yan]. Se houver objeções a este reenvio, entre em contato com oGate Learnequipe, e eles vão lidar com isso prontamente.
  2. Aviso de responsabilidade: As opiniões expressas neste artigo são exclusivamente do autor e não constituem nenhum conselho de investimento.
  3. As traduções do artigo para outros idiomas são feitas pela equipe da Gate Learn. Salvo indicação em contrário, é proibido copiar, distribuir ou plagiar os artigos traduzidos.

Nossa Tese de IA Cripto (Parte II): Computação Descentralizada é KING

Avançado12/18/2024, 2:23:28 AM
Na Parte II da minha tese, vou mergulhar em quatro dos sub-setores mais promissores em Cripto IA: Cálculo Descentralizado: Treinamento, Inferência & Mercados de GPU, Redes de Dados, IA Verificável, Agentes de IA que vivem on-chain. Esta peça representa a culminação de semanas de pesquisa aprofundada e conversas com fundadores e equipes em toda a paisagem de Cripto IA. Não foi projetada para ser um mergulho profundo exaustivo em todos os setores - isso é uma toca de coelho para outro dia.

Eu não me livrei dessa grande perda.

Ainda me assombra porque foi a aposta mais óbvia para qualquer pessoa prestar atenção, mas eu não investi um único dólar.

Não, não foi o próximo assassino de Solana ou um memecoin com um cachorro usando um chapéu engraçado.

Foi… NVIDIA.

Preço das ações da NVDA até o momento. Fonte: Google

Em apenas um ano, a NVDA triplicou, saltando de uma capitalização de mercado de $1T para $3T. Até superou o Bitcoin no mesmo período.

Claro, parte disso é a empolgação com a IA. Mas uma grande parte disso é baseada na realidade. A NVIDIA relatou receita de $60B para o FY2024, um aumento impressionante de 126% em relação a 2023. Esse crescimento foi impulsionado pela corrida global de IA para AGI, na qual as grandes empresas de tecnologia estão comprando GPUs.

Então, por que eu perdi isso?

Por dois anos, eu estava completamente focado em cripto e não olhei para o que estava acontecendo em IA. Isso foi um grande erro e ainda me incomoda.

Mas não estou cometendo o mesmo erro duas vezes.

Hoje, Crypto AI parece estranhamente semelhante. Estamos à beira de uma explosão de inovação. As semelhanças com a corrida do ouro da Califórnia do meio do século XIX são difíceis de ignorar - indústrias e cidades surgiram da noite para o dia, a infraestrutura avançou em velocidade vertiginosa e fortunas foram feitas por aqueles que ousaram dar um salto.

Assim como a NVIDIA em seus primeiros dias, a Cripto IA parecerá óbvia em retrospecto.

Em Parte I da minha tese, Expliquei por que a Cripto IA é a oportunidade mais emocionante e subestimada para investidores e construtores hoje.

Aqui está uma rápida recapitulação:

  • Muitos ainda o consideram como ‘vaporware’.
  • Cripto IA está em seu ciclo inicial—provavelmente a 1-2 anos de distância do pico de empolgação.
  • Existe uma oportunidade de crescimento de mais de $230B neste espaço, no mínimo.

No seu cerne, Crypto AI é IA com infraestrutura cripto sobreposta. Isso significa que é mais provável acompanhar a trajetória de crescimento exponencial da IA do que o mercado cripto em geral. Portanto, para se manter à frente, você precisa sintonizar a pesquisa mais recente em IA no Arxiv e conversar com os fundadores que acreditam estar construindo a próxima grande coisa.

Na Parte II da minha tese, vou mergulhar em quatro dos subsectores mais promissores da Cripto IA:

  1. Computação Descentralizada: Treinamento, Inferência e Mercados de GPU
  2. Redes de dados
  3. Verificável IA
  4. Agentes de IA vivendo na cadeia

Esta peça representa a culminação de semanas de pesquisa profunda e conversas com fundadores e equipes em todo o cenário de Cripto IA. Não foi projetado para ser uma imersão profunda exaustiva em todos os setores - isso é um buraco de coelho para outro dia.

Em vez disso, considere-o um roteiro de alto nível elaborado para despertar curiosidade, afiar sua pesquisa e orientar o pensamento de investimento.

Mapeando a paisagem

Eu vejo o pilha de IA descentralizada como um ecossistema em camadas: começa com computação descentralizada e redes de dados abertos em uma extremidade, que alimentam o treinamento de modelo de IA descentralizada.

Cada inferência é então verificada - entradas e saídas igualmente - usando uma combinação de criptografia, incentivos criptoeconômicos e redes de avaliação. Essas saídas verificadas fluem para agentes de IA que podem operar autonomamente on-chain, bem como aplicações de IA para consumidores e empresas que os usuários podem realmente confiar.

As redes de coordenação unem tudo isso, permitindo uma comunicação e colaboração perfeitas em todo o ecossistema.

Nesta visão, qualquer pessoa que esteja construindo em IA poderia acessar uma ou mais camadas desta pilha, dependendo de suas necessidades específicas. Seja alavancando cálculos descentralizados para treinamento de modelo ou usando redes de avaliação para garantir saídas de alta qualidade, a pilha oferece uma variedade de opções.

Graças à composibilidade inerente do blockchain, acredito que estamos naturalmente caminhando em direção a um futuro modular. Cada camada está se tornando hiperespecializada, com protocolos otimizados para funções distintas em vez de uma abordagem integrada tudo-em-um.

Fonte: topology.vc

Houve uma explosão cambriana de startups construindo em cada camada da pilha de IA descentralizada, a maioria fundada nos últimos 1 - 3 anos. Está claro: ainda estamos no início.

O mapa mais abrangente e atualizado do cenário inicial de IA de Cripto que já vi é mantido por Casey e sua equipe em topology.vc. É um recurso inestimável para quem acompanha o espaço.

Ao mergulhar nos subsetores de IA de cripto, estou constantemente me perguntando: qual é a dimensão da oportunidade aqui? Não estou interessado em apostas pequenas - estou procurando mercados que possam escalar para centenas de bilhões.

1. Tamanho do mercado

Vamos começar com o tamanho do mercado. Ao avaliar um sub-setor, pergunto a mim mesmo: ele está criando um mercado completamente novo ou perturbando um existente?

Veja a computação descentralizada, por exemplo. É uma categoria disruptiva cujo potencial pode ser estimado olhando para o mercado de computação em nuvem estabelecido, vale ~$680B hojee espera-se que alcance US$2,5 trilhões em 2032.

Novos mercados sem precedentes, como agentes de IA, são mais difíceis de quantificar. Sem dados históricos, dimensioná-los envolve uma combinação de suposições fundamentadas e verificações intuitivas dos problemas que eles estão resolvendo. E a armadilha é que às vezes, o que parece ser um novo mercado é apenas uma solução em busca de um problema.

2. Temporização

A sincronização é tudo. A tecnologia tende a melhorar e ficar mais barata com o tempo, mas o ritmo do progresso varia.

Quão madura é a tecnologia em um determinado sub setor? Está pronta para escalar, ou ainda está na fase de pesquisa, com aplicações práticas a anos de distância? O momento determina se um setor merece atenção imediata ou se deve ser deixado na categoria de “esperar para ver”.

Tome a Criptografia Totalmente Homomórfica (FHE) como exemplo: o potencial é inegável, mas hoje ainda é muito lento para uso generalizado. Provavelmente ainda estamos a vários anos de ver sua viabilidade atingir o mainstream. Ao focar primeiro em setores mais próximos da escala, posso dedicar meu tempo e energia onde o impulso - e a oportunidade - estão se construindo.

Se eu fosse mapear essas categorias em um gráfico de tamanho vs. tempo, seria algo parecido com isso. Tenha em mente que isso é mais um esboço conceitual do que um guia rígido e rápido. Há muitas nuances - por exemplo, dentro da inferência verificável, abordagens diferentes como zkML e opML estão em níveis de prontidão diferentes para uso.

Dito isso, estou convencido de que a escala da IA será tão massiva que até mesmo o que parece “nicho” hoje poderia se tornar um mercado significativo.

Vale ressaltar também que o progresso tecnológico nem sempre segue uma linha reta - muitas vezes ocorre em saltos. Minhas opiniões sobre timing e tamanho de mercado mudarão quando ocorrerem avanços emergentes.

Com este framework em mente, vamos analisar cada sub-setor.

Setor 1: Computação descentralizada

TL;dr

  • A computação descentralizada é a espinha dorsal da IA descentralizada.
  • Mercados de GPU, treinamento descentralizado e inferência descentralizada estão profundamente interconectados e prosperam juntos.
  • O lado da oferta geralmente vem de centros de dados de pequeno e médio porte e GPUs de consumidores.
  • O lado da demanda é pequeno, mas está crescendo. Hoje, vem de usuários sensíveis ao preço e à latência e de startups menores de IA.
  • O maior desafio para os mercados de GPU da Web3 hoje é realmente fazê-los funcionar.
  • Orquestrar GPUs em uma rede descentralizada requer engenharia avançada e uma arquitetura de rede bem projetada e robusta.

1.1. Mercados de GPU / Redes de Computação

Várias equipes de IA de Cripto estão se posicionando para capitalizar a escassez de GPUs em relação à demanda, construindo redes descentralizadas que aproveitam o pool global de potência de cálculo latente.

A proposta de valor central para os mercados de GPU é tripla:

  1. Você pode acessar computação de ‘até 90% mais barato’ do que a AWS, o que resulta da (1) eliminação de intermediários e (2) abertura do lado da oferta. Essencialmente, esses mercados permitem que você acesse o menor custo marginal de computação globalmente.
  2. Maior flexibilidade: Sem contratos de fidelização, sem KYC, sem tempos de espera.
  3. Resistência à censura

Para enfrentar o lado da oferta do mercado, esses mercados obtêm computação de:

  • GPUs de nível empresarial (por exemplo, A100s, H100s) de centros de dados de pequeno e médio porte lutando para encontrar demanda por conta própria ou por mineradores de Bitcoin que procuram diversificar. Também sei de equipes aproveitando grandes projetos de infraestrutura financiados pelo governo, onde os centros de dados foram construídos como parte das iniciativas de crescimento tecnológico. Esses provedores muitas vezes são incentivados a manter suas GPUs na rede, o que os ajuda a compensar os custos de amortização de suas GPUs.
  • GPUs de consumo dos milhões de jogadores e usuários domésticos que conectam seus computadores à rede em troca de incentivos de tokens

Por outro lado, a demanda por computação descentralizada hoje vem de:

  1. Usuários sensíveis a preço e insensíveis a latência. Este segmento prioriza a acessibilidade em vez da velocidade. Pense em pesquisadores explorando novas áreas, desenvolvedores de IA independentes e outros usuários conscientes de custos que não precisam de processamento em tempo real. Devido a restrições orçamentárias, muitos deles podem enfrentar dificuldades com os hiperescaladores tradicionais como AWS ou Azure. Por estarem bastante distribuídos na população, o marketing direcionado é crucial para trazer esse grupo a bordo.
  2. Startups de IA menores enfrentam desafios para garantir recursos de computação flexíveis e escaláveis sem ficar presos a contratos de longo prazo com grandes provedores de nuvem. O desenvolvimento de negócios é vital para atrair esse segmento, pois estão buscando ativamente alternativas ao bloqueio dos gigantes da hiperescala.
  3. Startups de IA de cripto construindo produtos de IA descentralizados, mas sem seu próprio suprimento de computação, precisarão acessar os recursos de uma dessas redes.
  4. Jogos na nuvem: Embora não seja diretamente impulsionado por IA, os jogos na nuvem são uma fonte crescente de demanda por recursos de GPU.

A coisa importante a lembrar: os desenvolvedores sempre priorizam custos e confiabilidade.

O Verdadeiro Desafio: Demanda, Não Oferta

Startups neste espaço frequentemente exibem o tamanho de suas redes de fornecimento de GPU como um sinal de sucesso. Mas isso é enganoso - é uma métrica vaidosa no máximo.

A verdadeira restrição não é o fornecimento, mas a demanda. As principais métricas a serem acompanhadas não são o número de GPUs disponíveis, mas sim a taxa de utilização e o número de GPUs realmente alugadas.

Os tokens são excelentes para inicializar o lado da oferta, criando os incentivos necessários para escalar rapidamente. No entanto, eles não resolvem inerentemente o problema da demanda. O verdadeiro teste é levar o produto a um estado suficientemente bom para que a demanda latente se materialize.

Haseeb Qureshi (Dragonfly) coloca o melhor:

Fazendo as Redes de Computação Realmente Funcionarem

Ao contrário do que se pensa, o maior obstáculo para os marketplaces distribuídos de GPU da web3 hoje em dia é simplesmente fazê-los funcionar corretamente.

Este não é um problema trivial.

Orquestrar GPUs em uma rede distribuída é complexo, com camadas de desafios - alocação de recursos, dimensionamento dinâmico da carga de trabalho, balanceamento de carga entre nós e GPUs, gerenciamento de latência, transferência de dados, tolerância a falhas e tratamento de hardware diversificado espalhado por várias geografias. Eu poderia continuar indefinidamente.

Para alcançar isso, é necessário um engenharia séria e uma arquitetura de rede robusta e adequadamente projetada.

Para colocar em perspectiva, considere o Kubernetes do Google. É amplamente considerado o padrão ouro para a orquestração de contêineres, automatizando processos como balanceamento de carga e escalonamento em ambientes distribuídos - desafios muito semelhantes aos enfrentados pelas redes de GPU distribuídas. O próprio Kubernetes foi construído com mais de uma década de experiência do Google e, mesmo assim, levou anos de iteração implacável para acertar.

Algumas das plataformas de mercado de computação GPU que já estão ativas hoje podem lidar com cargas de trabalho em pequena escala, mas as falhas começam a aparecer assim que tentam escalar. Suspeito que isso ocorra porque foram construídas sobre bases arquitetônicas mal projetadas.

Outro desafio/oportunidade para redes de computação descentralizadas é garantir a confiabilidade: verificar se cada nó está realmente fornecendo a potência de computação que alega. Atualmente, isso depende da reputação da rede e, em alguns casos, os provedores de computação são classificados por pontuações de reputação. A blockchain parece ser um ajuste natural para sistemas de verificação sem confiança. Startups como GensyneSpheronestão buscando uma abordagem sem confiança para resolver esse problema.

Hoje, muitas equipes web3 ainda estão enfrentando esses desafios, o que significa que a oportunidade está completamente aberta.

Tamanho do Mercado de Computação Descentralizada

Qual é o tamanho do mercado para redes de computação descentralizadas?

Hoje, provavelmente é apenas uma pequena fração da indústria de computação em nuvem de $680B - $2.5T. No entanto, apesar do atrito adicional para os usuários, sempre haverá alguma demanda enquanto os custos permanecerem mais baixos do que os dos provedores tradicionais.

Acredito que os custos permanecerão mais baixos no curto e médio prazo devido a uma combinação de subsídios de tokens e desbloqueio de oferta por parte de usuários que não são sensíveis ao preço (por exemplo, se eu puder alugar meu laptop de jogos por dinheiro extra, estou feliz, quer seja $20 ou $50 por mês).

Mas o verdadeiro potencial de crescimento para redes de computação descentralizadas - e a real expansão de sua TAM - virá quando:

  1. Treinamento descentralizado de modelos de IA se torna prático
  2. A demanda por inferência está explodindo e os data centers existentes não conseguem atendê-la. Isso já está começando a acontecer. Jensen Huang diz que a demanda por inferência vai aumentar “um bilhão de vezes”.
  3. Service-Level Agreements (SLAs) adequados tornam-se disponíveis, abordando uma barreira crítica para a adoção empresarial. Atualmente, a computação descentralizada opera com base no melhor esforço, deixando os usuários com diferentes níveis de qualidade de serviço (por exemplo, % de tempo de atividade). Com os SLAs em vigor, essas redes podem oferecer métricas padronizadas de confiabilidade e desempenho, tornando a computação descentralizada uma alternativa viável aos provedores tradicionais de computação em nuvem.

Computação descentralizada e sem permissão é a camada base - a infraestrutura fundamental - para um ecossistema de IA descentralizada.

Apesar da contínua expansão na cadeia de suprimentos de silício (ou seja, GPUs), acredito que estamos apenas no início da era da Inteligência da humanidade. Haverá uma demanda insaciável por computação.

Fique atento ao ponto de inflexão que poderia desencadear uma grande reavaliação de todos os marketplaces de GPU em funcionamento. Provavelmente, está chegando em breve.

Outras Notas:

  • O mercado de GPUs exclusivas está lotado, com competição entre plataformas descentralizadas e também a ascensão das nuvens neoclouds de IA web2como Vast.ai e Lambda.
  • Pequenos nós (por exemplo, 4 x H100) não têm muita demanda devido ao uso limitado, mas boa sorte encontrando alguém vendendo grandes clusters - eles ainda estão em alta demanda.
  • Um jogador dominante agregará todo o suprimento de computação para protocolos descentralizados, ou permanecerá fragmentado entre vários mercados? Estou inclinado para o primeiro cenário e uma distribuição de lei de potência nos resultados, já que a consolidação frequentemente impulsiona a eficiência na infraestrutura. Mas levará tempo para se desenrolar e, enquanto isso, a fragmentação e a confusão continuam.
  • Os desenvolvedores desejam se concentrar na construção de aplicativos, não em lidar com implantação e configuração. Os mercados devem abstrair essas complexidades, tornando o acesso à computação o mais livre de atritos possível.

1.2. Treinamento Descentralizado

TL;dr

  • Se as leis de escala forem válidas, treinar a próxima geração de modelos de IA de fronteira em um único centro de dados se tornará fisicamente impossível um dia.
  • Treinar modelos de IA requer muita transferência de dados entre GPUs. Baixa velocidade de transferência de dados (interconexão) entre GPUs distribuídos é frequentemente a maior barreira.
  • Pesquisadores estão explorando várias abordagens simultaneamente, e avanços estão acontecendo (por exemplo, Open DiLoCo, DisTrO). Esses avanços se acumularão e se comporão, acelerando o progresso no espaço.
  • O futuro do treinamento descentralizado provavelmente está em modelos menores e especializados projetados para aplicações de nicho, em vez de modelos de ponta focados em AGI.
  • A demanda por inferência está pronta para disparar com a mudança para modelos como o o1 da OpenAI, criando oportunidades para redes de inferência descentralizadas.

Imagine isso: um modelo de IA enorme e transformador, não desenvolvido em laboratórios elitistas secretos, mas trazido à vida por milhões de pessoas comuns. Jogadores, cujas GPUs normalmente geram explosões cinematográficas do Call of Duty, agora emprestam seu hardware para algo maior - um modelo de IA de código aberto e coletivamente de propriedade, sem gatekeepers centrais.

Neste futuro, modelos de escala de fundação não são apenas o domínio dos principais laboratórios de IA.

Mas vamos fundamentar essa visão na realidade atual. Por enquanto, a maior parte do treinamento pesado de IA continua ancorada em centros de dados centralizados, e essa provavelmente será a norma por algum tempo.

Empresas como a OpenAI estão ampliando suas enormes clusters. Elon Musk recentemente anunciadoque o xAI está prestes a concluir um centro de dados com o equivalente a 200.000 GPUs H100.

Mas não se trata apenas do número bruto de GPU. Utilização de FLOPS do modelo (MFU) - uma métrica introduzida em O artigo do PaLM do Googleem 2022 - acompanha o quão efetivamente a capacidade máxima de uma GPU é utilizada. Surpreendentemente, o MFU geralmente fica em torno de 35-40%.

Por que tão baixo? Embora o desempenho da GPU tenha aumentado muito ao longo dos anos, seguindo a lei de Moore, as melhorias na rede, memória e armazenamento têm ficado significativamente para trás, criando gargalos. Como resultado, as GPUs frequentemente ficam ociosas, aguardando dados.

O treinamento de IA permanece altamente centralizado hoje por uma palavra - Eficiência.

Treinar grandes modelos depende de técnicas como:

• Paralelismo de dados: Dividir conjuntos de dados em várias GPUs para realizar operações em paralelo, acelerando o processo de treinamento.

• Paralelismo do modelo: Distribuição de partes do modelo entre GPUs para contornar as limitações de memória.

Esses métodos requerem GPUs para trocar dados constantemente, tornando a velocidade de interconexão - a taxa na qual os dados são transferidos entre computadores na rede - absolutamente essencial.

Quando o treinamento do modelo de IA de fronteira pode custar mais de $1B, cada ganho de eficiência importa.

Com suas interconexões de alta velocidade, os centros de dados centralizados permitem a transferência rápida de dados entre GPUs e geram economias substanciais durante o tempo de treinamento que as configurações descentralizadas não conseguem igualar… ainda.

Superando a velocidade lenta da interconexão

Se você conversar com pessoas que trabalham no espaço de IA, muitos lhe dirão que o treinamento descentralizado simplesmente não funcionará.

Em configurações descentralizadas, clusters de GPU não estão fisicamente localizados juntos, então transferir dados entre eles é muito mais lento e se torna um gargalo. O treinamento requer que as GPUs sincronizem e troquem dados a cada etapa. Quanto mais distantes eles estiverem, maior será a latência. Maior latência significa velocidade de treinamento mais lenta e custos mais altos.

O que poderia levar alguns dias em um centro de dados centralizado poderia se estender a duas semanas com uma abordagem descentralizada a um custo mais alto. Simplesmente não é viável.

Mas isso está prestes a mudar.

A boa notícia é que houve um enorme aumento de interesse em pesquisas sobre treinamento distribuído. Os pesquisadores estão explorando simultaneamente várias abordagens, como evidenciado pela quantidade de estudos e papers publicados. Esses avanços se acumularão e se combinarão, acelerando o progresso no campo.

Também se trata de testar em produção e ver até onde podemos ir além dos limites.

Algumas técnicas de treinamento descentralizado já podem lidar com modelos menores em ambientes de interconexão lenta. Agora, a pesquisa de fronteira está se esforçando para estender esses métodos para modelos cada vez maiores.

  • Por exemplo, Prime Intellect’s abrir o papel DiCoLodemonstra uma abordagem prática que envolve “ilhas” de GPUs realizando 500 etapas locais antes da sincronização, reduzindo os requisitos de largura de banda em até 500 vezes. O que começou como pesquisa do Google DeepMind em modelos menores agora foi escalado para treinar um modelo de 10 bilhões de parâmetros em novembro e totalmente aberto hoje.
  • Nous Researchestá elevando o nível com sua estrutura DisTrO, que utiliza otimizadores para proporcionar uma redução impressionante de até 10.000 vezes nos requisitos de comunicação entre GPUs ao treinar um modelo de 1,2 bilhão de parâmetros.
  • E o momentum continua a crescer. Em dezembro, a Nous anunciou o pré-treinamento de um modelo de 15B parâmetros com uma curva de perda (como o erro do modelo diminui ao longo do tempo) e uma taxa de convergência (a velocidade com que o desempenho do modelo se estabiliza) - que corresponde ou supera os resultados normalmente observados com configurações de treinamento centralizadas. Sim, melhor que o centralizado.
  • Paralelismo SWARM e DTFMHE são outros métodos para treinar modelos de IA muito grandes em diferentes tipos de dispositivos, mesmo que esses dispositivos tenham velocidades e conexões variadas.

Outro desafio é gerenciar uma ampla variedade de hardware de GPU, incluindo GPUs de consumo com memória limitada que são comuns em redes descentralizadas. Técnicas como paralelismo de modelo (dividindo camadas do modelo entre dispositivos) podem ajudar a tornar isso viável.

O Futuro do Treinamento Descentralizado

Métodos de treinamento descentralizados atuais ainda limitam-se a tamanhos de modelo bem abaixo da fronteira (o GPT-4 está supostamente próximo de um trilhão de parâmetros, 100 vezes maior que o modelo de 10B do Prime Intellect). Para realmente escalar, precisaremos de avanços na arquitetura do modelo, infraestrutura de rede melhor e divisão mais inteligente de tarefas entre dispositivos.

E podemos sonhar grande. Imagine um mundo onde o treinamento descentralizado agregue mais poder de computação de GPU do que até mesmo os maiores centros de dados centralizados poderiam reunir.

Pluralis Research(uma equipe afiada em treinamento descentralizado, para ficar de olho de perto) argumenta que isso não é apenas possível, é inevitável. Os centros de dados centralizados estão sujeitos a restrições físicas como espaço e o disponibilidade de energia, enquanto as redes descentralizadas podem acessar um pool efetivamente ilimitado de recursos globais.

Até Jensen Huang, da NVIDIA, reconheceu quetreinamento descentralizado assíncronopoderia desbloquear o verdadeiro potencial da escala de IA. As redes de treinamento distribuído também são mais tolerantes a falhas.

Então, em um futuro potencial, os modelos de IA mais poderosos do mundo serão treinados de forma descentralizada.

É uma perspectiva empolgante, mas ainda não estou completamente convencido. Precisamos de evidências mais fortes de que o treinamento descentralizado dos maiores modelos seja tecnicamente e economicamente viável.

Aqui é onde vejo um promissor imenso: o ponto forte do treinamento descentralizado poderia estar em modelos menores, especializados e de código aberto projetados para casos de uso específicos, em vez de competir com os modelos de fronteira ultra grandes impulsionados por IA geral. Certas arquiteturas, especialmente modelos não-transformadores, já estão provando ser uma combinação natural para configurações descentralizadas.

E há mais uma peça para este quebra-cabeça: tokens. Uma vez que o treinamento descentralizado se torna viável em grande escala, os tokens poderiam desempenhar um papel crucial na incentivação e recompensa aos contribuidores, efetivamente inicializando essas redes.

O caminho para esta visão é longo, mas o progresso é profundamente encorajador. Avanços na formação descentralizada beneficiarão a todos — até mesmo grandes empresas de tecnologia e laboratórios de pesquisa de IA de primeira linha — já que a escala de modelos futuros superará a capacidade de um único centro de dados.

O futuro é distribuído. E quando uma tecnologia tem um potencial tão amplo, a história mostra que ela sempre melhora e se desenvolve mais rápido do que qualquer um espera.

1.3. Inferência Descentralizada

Atualmente, a maioria do poder computacional em IA está sendo canalizada para treinar modelos massivos. Os principais laboratórios de IA estão em uma corrida armamentista para desenvolver os melhores modelos fundamentais e, em última instância, alcançar a AGI.

Mas aqui está minha opinião: esse foco intenso em computação para treinamento se voltará para a inferência nos próximos anos. À medida que a IA se torna cada vez mais incorporada nas aplicações que usamos diariamente - da saúde ao entretenimento - os recursos computacionais necessários para suportar a inferência serão impressionantes.

E não é apenas especulação. A escalabilidade computacional do tempo de inferência é a última palavra da moda em IA. A OpenAI lançou recentemente uma prévia/mini versão de seu último modelo, o1 (codinome: Strawberry), e a grande mudança? Ele leva seu tempo para pensar, primeiro perguntando a si mesmo quais são as etapas que deve seguir para responder a pergunta, e então passa por cada uma dessas etapas.

Este modelo é projetado para tarefas mais complexas e com muita programação, como resolvendo palavras cruzadas—e aborda problemas que exigem um raciocínio mais profundo. Você notará que é mais lento, levando mais tempo para gerar respostas, mas os resultados são muito mais ponderados e matizados. Também é muito mais caro correr (25x o custo do GPT-4)

A mudança de foco é clara: o próximo salto no desempenho da IA não virá apenas do treinamento de modelos maiores, mas também da ampliação do uso computacional durante a inferência.

Se quiser ler mais, vários estudos papéisdemonstrar:

  • Escalonar a computação de inferência através de amostragem repetida leva a grandes melhorias em várias tarefas.
  • Também há uma lei de escala exponencial para inferência.

Uma vez que os modelos poderosos são treinados, suas tarefas de inferência—onde os modelos fazem coisas—podem ser transferidas para redes de computação descentralizadas. Isso faz tanto sentido porque:

  • A inferência consome muito menos recursos do que o treinamento. Uma vez treinados, os modelos podem ser comprimidos e otimizados usando técnicas como quantização, poda ou destilação. Eles até podem ser divididos com paralelismo de tensor ou pipeline para serem executados em dispositivos de consumo diário. Você não precisa de uma GPU de alta qualidade para alimentar a inferência.
  • Já está acontecendo.Exo Labsdescobriu como executar um modelo Llama3 de 450B parâmetros em hardware de consumo como MacBooks e Mac Minis. Distribuir a inferência em vários dispositivos pode lidar com cargas de trabalho de grande escala de forma eficiente e econômica.
  • Melhor experiência do usuário. A execução de cálculos mais próxima do usuário reduz a latência, o que é crítico para aplicativos em tempo real como jogos, RA ou carros autônomos. Cada milissegundo importa.

Pense na inferência descentralizada como uma CDN (rede de entrega de conteúdo) para IA: em vez de entregar sites rapidamente conectando-se a servidores próximos, a inferência descentralizada aproveita o poder de computação local para fornecer respostas de IA em tempo recorde. Ao abraçar a inferência descentralizada, os aplicativos de IA se tornam mais eficientes, responsivos e confiáveis.

A tendência é clara. O novo chip M4 Pro da Apple rivaliza com a NVIDIARTX 3070 Ti - uma GPU que, até recentemente, era o domínio dos jogadores hardcore. O hardware que já temos está cada vez mais capaz de lidar com cargas de trabalho avançadas de IA.

Valor Agregado da Cripto

Para que as redes de inferência descentralizadas tenham sucesso, deve haver incentivos econômicos convincentes para a participação. Os nós na rede precisam ser compensados por suas contribuições de computação. O sistema deve garantir uma distribuição justa e eficiente das recompensas. A diversidade geográfica é essencial, reduzindo a latência para tarefas de inferência e melhorando a tolerância a falhas.

E a melhor maneira de construir redes descentralizadas? Cripto.

Os tokens fornecem um mecanismo poderoso para alinhar os interesses dos participantes, garantindo que todos estejam trabalhando em direção ao mesmo objetivo: escalando a rede e aumentando o valor do token.

Tokens também impulsionam o crescimento da rede. Eles ajudam a resolver o clássico problema do ovo e da galinha que estagna a maioria das redes, recompensando os primeiros adotantes e incentivando a participação desde o primeiro dia.

O sucesso do Bitcoin e do Ethereum prova esse ponto - eles já agregaram as maiores pools de poder de computação do planeta.

Redes de inferência descentralizadas estão na próxima linha. Com diversidade geográfica, elas reduzem a latência, melhoram a tolerância a falhas e aproximam a IA do usuário. E com incentivos cripto-alimentados, elas escalarão mais rápido e melhor do que as redes tradicionais jamais poderiam.

  1. Este artigo é reproduzido de [[](https://www.chainofthought.xyz/p/our-crypto-ai-thesis-part-ii-decentralised-compute)[Cadeia de Pensamento](https://www.chainofthought.xyz/)\]. Todos os direitos autorais pertencem ao autor original [Teng Yan]. Se houver objeções a este reenvio, entre em contato com oGate Learnequipe, e eles vão lidar com isso prontamente.
  2. Aviso de responsabilidade: As opiniões expressas neste artigo são exclusivamente do autor e não constituem nenhum conselho de investimento.
  3. As traduções do artigo para outros idiomas são feitas pela equipe da Gate Learn. Salvo indicação em contrário, é proibido copiar, distribuir ou plagiar os artigos traduzidos.
Inizia Ora
Registrati e ricevi un buono da
100$
!