Huang Renxun fala com os sete autores do artigo do Transformer: Estamos presos no modelo original e precisamos de uma nova arquitetura mais poderosa

![Huang Renxun fala com os sete autores do artigo Transformer: Estamos presos no modelo original e precisamos de uma nova arquitetura mais poderosa](https://cdn-img.panewslab.com//panews/2022/3/23 /images/ 3209736c2376bc78f33a30e387cc4e77.jpeg)

Autor: Guo Xiaojing

Fonte: Notícias Tencent

Em 2017, foi publicado um artigo marcante - "Atenção é tudo que você precisa". Ele introduziu pela primeira vez o modelo Transformer baseado no mecanismo de autoatenção. Essa arquitetura inovadora livrou-se das restrições da RNN e da CNN tradicionais. Através do mecanismo de atenção do processamento paralelo, o problema da dependência de longa distância é efetivamente superado e a velocidade do processamento de dados sequenciais é significativamente melhorada. A estrutura do codificador-decodificador do Transformer e o mecanismo de atenção de múltiplas cabeças desencadearam uma tempestade no campo da inteligência artificial.O popular ChatGPT é construído sobre esta arquitetura.

Imagine que o modelo do Transformer é como o seu cérebro conversando com um amigo, prestando atenção a cada palavra que a outra pessoa diz ao mesmo tempo e entendendo as conexões entre essas palavras. Ele fornece aos computadores capacidades de compreensão de linguagem semelhantes às humanas. Antes disso, o RNN era o método convencional para processamento de linguagem, mas sua velocidade de processamento de informações era lenta, como um toca-fitas antigo que precisava ser tocado palavra por palavra. O modelo Transformer é como um DJ eficiente, capaz de controlar várias faixas ao mesmo tempo e capturar rapidamente informações importantes.

O surgimento do modelo Transformer melhorou muito a capacidade dos computadores de processar linguagem, tornando tarefas como tradução automática, reconhecimento de fala e resumo de texto mais eficientes e precisas. Este é um grande salto para toda a indústria.

Esta inovação resultou dos esforços conjuntos de oito cientistas de IA que trabalharam anteriormente no Google. O objetivo inicial era simples: melhorar o serviço de tradução automática do Google. Eles querem que as máquinas sejam capazes de compreender e ler frases inteiras, em vez de traduzi-las palavra por palavra isoladamente. Este conceito tornou-se o ponto de partida da arquitetura “Transformer” – o mecanismo de “autoatenção”. Com base nisso, esses oito autores usaram seus respectivos conhecimentos e publicaram o artigo "Atenção é tudo que você precisa" em dezembro de 2017, descrevendo detalhadamente a arquitetura do Transformer e abrindo um novo capítulo na IA generativa.

No mundo da IA generativa, a Lei de Escalabilidade é um princípio fundamental. Em suma, à medida que a escala do modelo Transformer aumenta, o seu desempenho também aumenta, mas isso também significa que são necessários recursos de computação mais poderosos para suportar modelos maiores e redes mais profundas, e são necessários serviços de computação de alto desempenho. A NVIDIA também se tornou um jogador-chave nesta onda de IA.

Na conferência GTC deste ano, Jen-Hsun Huang da Nvidia convidou os sete autores do Transformer (Niki Parmar foi temporariamente incapaz de comparecer por algum motivo) para participar de uma mesa redonda de forma cerimonial. Esta foi a primeira vez que os sete autores participaram discutir seu trabalho em público. Aparência em grupo.

Eles também destacaram alguns pontos impressionantes durante a conversa:

  • O mundo precisa de algo melhor que o Transformer, e acho que todos nós aqui esperamos que ele seja substituído por algo que nos leve a um novo patamar de desempenho.
  • Não obtivemos sucesso em nosso objetivo original. Nossa intenção original ao iniciar o Transformer era simular o processo de evolução do Token. Não é apenas um processo de geração linear, mas uma evolução passo a passo de texto ou código.
  • Problemas simples como 2+2, que podem usar trilhões de recursos de parâmetros de modelos grandes. Acho que a computação adaptativa é uma das próximas coisas que precisa acontecer, onde sabemos quantos recursos computacionais devem ser gastos em um problema específico.
  • Acho que o modelo atual é muito acessível e muito pequeno. O preço de cerca de US$ 1 milhão é 100 vezes mais barato do que sair e comprar um livro de bolso.

A seguir está o conteúdo real:

Jensen Huang: Nos últimos sessenta anos, a tecnologia informática não parece ter sofrido mudanças fundamentais, pelo menos desde o momento em que nasci. Os sistemas informáticos que utilizamos atualmente, sejam multitarefa, separação de hardware e software, compatibilidade de software, capacidades de backup de dados e habilidades de programação de engenheiros de software, baseiam-se basicamente nos princípios de design do IBM 360 - Processador Central, Bio subsistema, multitarefa, hardware e software, compatibilidade de sistema de software, etc.

Não creio que a computação moderna tenha mudado fundamentalmente desde 1964. Embora nas décadas de 1980 e 1990, os computadores tenham passado por uma grande transformação na forma que conhecemos hoje. Mas com o passar do tempo, o custo marginal dos computadores continua a diminuir, reduzindo o seu custo em dez vezes a cada dez anos, em mil vezes em quinze anos e em dez mil vezes em vinte anos. Nesta revolução informática, a redução de custos foi tão grande que, em duas décadas, o custo dos computadores caiu quase 10.000 vezes.Esta mudança trouxe um enorme poder para a sociedade.

Tente imaginar se todos os itens caros da sua vida fossem reduzidos a um décimo milésimo do seu valor original. Por exemplo, o carro que você comprou por US$ 200 mil há vinte anos agora custa apenas US$ 1. Você consegue imaginar a mudança? No entanto, a diminuição dos custos dos computadores não aconteceu de um dia para o outro, mas atingiu gradualmente um ponto crítico, e depois a tendência de redução dos custos parou subitamente.Continuou a melhorar um pouco todos os anos, mas a taxa de mudança estagnou.

Começamos a explorar a computação acelerada, mas usar a computação acelerada não é fácil: é preciso projetá-la aos poucos, do zero. No passado, poderíamos ter seguido passos estabelecidos para resolver um problema passo a passo, mas agora precisamos redesenhar esses passos.Este é um campo completamente novo da ciência, reformulando as regras anteriores em algoritmos paralelos.

Reconhecemos isso e acreditamos que se pudermos acelerar pelo menos 1% do código e economizar 99% do tempo de execução, então haverá aplicações que se beneficiarão com isso. Nosso objetivo é tornar possível o impossível, ou tornar impossível o possível, ou tornar mais eficientes as coisas que já são possíveis. É disso que se trata a computação acelerada.

Olhando para trás, para a história da empresa, vemos nossa capacidade de acelerar uma variedade de aplicações. Inicialmente, alcançamos uma aceleração significativa na área de jogos, tão eficaz que as pessoas pensaram erroneamente que éramos uma empresa de jogos. Mas, na verdade, o nosso objetivo é muito mais do que isso, porque este mercado é enorme e suficientemente grande para impulsionar um progresso tecnológico incrível. Esta situação não é comum, mas encontramos um caso especial.

Para resumir a história, em 2012, AlexNet acendeu uma faísca, que foi a primeira colisão entre inteligência artificial e GPUs NVIDIA. Isso marca o início de nossa incrível jornada neste campo. Alguns anos depois, descobrimos um cenário de aplicação perfeito que lançou as bases para onde estamos hoje.

Em suma, estas conquistas lançam as bases para o desenvolvimento da inteligência artificial generativa. A IA generativa pode não apenas reconhecer imagens, mas também converter texto em imagens e até criar conteúdo totalmente novo. Agora temos capacidade técnica suficiente para compreender os pixels, identificá-los e compreender o significado por trás deles. Através do significado por trás deles, podemos criar novos conteúdos. A capacidade da inteligência artificial de compreender o significado por trás dos dados é uma grande mudança.

Temos razões para acreditar que este é o início de uma nova revolução industrial. Nesta revolução, estamos criando algo que nunca foi feito antes. Por exemplo, na revolução industrial anterior, a água era uma fonte de energia, e a água entrou nos dispositivos que criamos, e os geradores começaram a funcionar, a água entrou e a eletricidade saiu, como num passe de mágica.

A IA generativa é um “software” totalmente novo que pode criar software e depende dos esforços conjuntos de muitos cientistas. Imagine que você fornece matérias-primas à IA - dados, e eles entram em um "edifício" - uma máquina que chamamos de GPU, e pode produzir resultados mágicos. Está a remodelar tudo e estamos a testemunhar o nascimento de “fábricas de IA”.

Essa mudança pode ser chamada de nova revolução industrial. Nunca experimentamos mudanças como essa no passado, mas agora elas estão se revelando lentamente diante de nós. Não perca os próximos dez anos, porque nestes dez anos criaremos uma produtividade enorme. O pêndulo do tempo entrou em movimento e nossos pesquisadores já estão agindo.

Hoje convidamos os criadores do Tansformer para discutir onde a IA generativa nos levará no futuro.

eles são:

Ashish Vaswani: ingressou na equipe do Google Brain em 2016. Em abril de 2022, ele cofundou a Adept AI com Niki Parmar, deixou a empresa em dezembro do mesmo ano e cofundou outra startup de inteligência artificial, a Essential AI.

Niki Parmar: trabalhou no Google Brain por quatro anos antes de cofundar a Adept AI e a Essential AI com Ashish Vaswani.

Jakob Uszkoreit: Trabalhou no Google de 2008 a 2021. Ele deixou o Google em 2021 e foi cofundador da Inceptive. O principal negócio da empresa são ciências biológicas de inteligência artificial e está comprometida em usar redes neurais e experimentos de alto rendimento para projetar a próxima geração de moléculas de RNA.

Illia Polosukhin: Ingressou no Google em 2014 e foi uma das primeiras pessoas a sair da equipe de oito pessoas. Em 2017, ele cofundou a empresa de blockchain NEAR Protocol.

Noam Shazeer: trabalhou no Google de 2000 a 2009 e de 2012 a 2021. Em 2021, Shazeer deixou o Google e foi cofundador da Character.AI com o ex-engenheiro do Google Daniel De Freitas.

**Llion Jones: **Trabalhou na Delcam e no YouTube. Ingressou no Google em 2012 como engenheiro de software. Mais tarde, ele deixou o Google e fundou a start-up de inteligência artificial sakana.ai.

Lukasz Kaiser: Ex-pesquisador do Centro Nacional Francês de Pesquisa Científica. Ingressou no Google em 2013. Em 2021, deixou o Google e tornou-se pesquisador da OpenAI.

Aidan Gomez: se formou na Universidade de Toronto, no Canadá. Quando o artigo sobre o Transformer foi publicado, ele ainda era estagiário na equipe do Google Brain. Ele é a segunda pessoa da equipe de oito pessoas a deixar o Google. Em 2019, foi cofundador da Cohere.

![Huang Renxun fala com os sete autores do artigo Transformer: Estamos presos no modelo original e precisamos de uma nova arquitetura mais poderosa](https://cdn-img.panewslab.com//panews/2022/3/23 /imagens/ e2cb0168e261ffba0c0ea67a5502acf8.png)

Renxun Huang: Enquanto estou sentado aqui hoje, por favor, esforce-se ativamente pela oportunidade de falar. Não há tópico que não possa ser discutido aqui. Você pode até pular da cadeira para discutir questões. Vamos começar com a pergunta mais básica: quais problemas você encontrou naquela época e o que o inspirou a se tornar um Transformer?

Illia Polosukhin: Se você deseja lançar modelos que possam realmente ler os resultados da pesquisa, como processar pilhas de documentos, você precisa de alguns modelos que possam processar essas informações rapidamente. A rede neural recorrente (RNN) naquela época não conseguia atender a tais necessidades.

Na verdade, embora as redes neurais recorrentes (RNN) e alguns mecanismos de atenção preliminar (Arnens) atraíssem a atenção naquela época, eles ainda exigiam a leitura palavra por palavra, o que não era eficiente.

Jakob Uszkoreit: A velocidade com que geramos dados de treinamento excede em muito a nossa capacidade de treinar arquiteturas de última geração. Na verdade, usamos arquiteturas mais simples, como redes feed-forward com n-gramas como recursos de entrada. Essas arquiteturas geralmente superam modelos mais complexos e avançados porque treinam mais rápido, pelo menos em grandes quantidades de dados de treinamento na escala do Google.

Naquela época, RNNs poderosas, especialmente redes de memória de curto prazo (LSTM), já existiam.

Noam Shazeer: Parece que esta é uma questão candente. Começamos a notar essas leis de escala por volta de 2015, e você pode ver que à medida que o tamanho do modelo aumenta, sua inteligência aumenta. É o melhor problema da história do mundo, é muito simples: você está apenas prevendo o próximo token, e ele será tão inteligente e capaz de fazer um milhão de coisas diferentes, e você só quer aumentá-lo e melhorar.

Uma grande frustração é que o RNN é muito problemático para lidar. E então ouvi esses caras falando, ei, vamos substituir isso por uma convolução ou um mecanismo de atenção. Eu pensei, ótimo, vamos fazer isso. Gosto de comparar o Transformer ao salto dos motores a vapor para os motores de combustão interna. Poderíamos ter completado a revolução industrial com motores a vapor, mas isso teria sido doloroso, e o motor de combustão interna tornou tudo melhor.

Ashish Vaswani: Comecei a aprender algumas lições difíceis durante meus anos de pós-graduação, especialmente quando estava trabalhando com tradução automática. Percebi, ei, não vou aprender essas regras complicadas da linguagem. Acho que o Gradient Descent - a forma como treinamos esses modelos - é um professor melhor do que eu. Então não vou aprender as regras, vou apenas deixar o Gradient Descent fazer todo o trabalho para mim, e essa é minha segunda lição.

O que aprendi da maneira mais difícil é que arquiteturas gerais que podem ser escalonadas acabarão vencendo no longo prazo. Hoje podem ser tokens, amanhã podem ser ações que realizamos em computadores, e eles começarão a imitar nossas atividades e serão capazes de automatizar grande parte do trabalho que fazemos. Como discutimos, o Transformer, especialmente seu mecanismo de autoatenção, tem uma aplicabilidade muito ampla e também melhora a descida do gradiente. A outra coisa é física, porque uma coisa que aprendi com Noam é que a multiplicação de matrizes é uma boa ideia.

Noam Shazeer: Esse padrão continua recorrente. Então, toda vez que você adiciona um monte de regras, a descida gradiente acaba sendo melhor do que você para aprender essas regras. É isso. Assim como o aprendizado profundo que temos feito, estamos construindo um modelo de IA em forma de GPU. E agora estamos construindo um modelo de IA em forma de supercomputador. Sim, os supercomputadores são o modelo agora. Sim isso é verdade. Sim. Supercomputador Só para você saber, estamos construindo um supercomputador no formato do modelo.

** Jen-Hsun Huang: Então, qual problema você está tentando resolver? **

Lukasz Kaiser: Tradução automática. Pensando em cinco anos atrás, esse processo parecia muito difícil: era preciso coletar dados, talvez traduzi-los, e o resultado poderia ser apenas marginalmente correto. O nível naquela época ainda era muito básico. Mas agora, esses modelos podem aprender a traduzir mesmo sem dados. Basta fornecer um idioma e outro idioma, e o modelo aprende a traduzir sozinho, e a habilidade surge de forma natural e satisfatória.

Llion Jones: Mas a intuição da “Atenção” é tudo que você precisa. Então eu criei esse título, e basicamente o que aconteceu foi quando estávamos procurando por um título.

Estávamos apenas fazendo a ablação e começamos a jogar fora pedaços do modelo só para ver se pioraria. Para nossa surpresa, começou a melhorar. É muito melhor incluir o descarte de todas as circunvoluções assim. Então é daí que vem o título.

Ashish Vaswani: Basicamente, o que é interessante é que começamos com uma estrutura muito básica e depois adicionamos coisas, adicionamos convoluções e então acho que as eliminamos. Há também muitas outras coisas muito importantes, como a atenção multicabeças.

** Jensen Huang: Quem inventou o nome Transformer? Por que é chamado de Transformador? **

Jakob Uszkoreit: Gostamos desse nome. Escolhemos ele aleatoriamente e achamos que era muito criativo. Ele mudou nosso modelo de produção de dados e usou essa lógica. Todo aprendizado de máquina é um transformador e um disruptor.

Noam Shazeer: Não pensamos nesse nome antes, acho que é muito simples e muitas pessoas acham que é muito bom. Pensei em muitos nomes antes, como Yaakov, e finalmente decidi por "Transformer", que descreve o princípio do modelo. Na verdade, ele transforma todo o sinal. De acordo com essa lógica, quase todo o aprendizado de máquina será transformado.

Llion Jones: A razão pela qual Transformer se tornou um nome tão familiar não é apenas por causa do conteúdo da tradução, mas também porque queríamos descrever essa transformação de uma forma mais geral. Não creio que tenhamos feito um bom trabalho, mas como agente de mudanças, como piloto e como motor, fazia sentido. Todos podem entender um modelo de linguagem, mecanismo e lógica tão grande. Do ponto de vista arquitetônico, este é um período de início relativamente precoce.

Mas percebemos que estávamos na verdade tentando criar algo que fosse muito, muito versátil, que pudesse realmente transformar qualquer coisa em qualquer outra coisa. E não acho que previmos o quão bom isso seria quando os Transformers fossem usados para imagens, o que é um pouco surpreendente. Isso pode parecer lógico para vocês, mas na verdade, vocês podem dividir a imagem e rotular cada pontinho, certo. Acho que isso foi algo que existiu muito cedo na arquitetura.

Então, quando estávamos construindo bibliotecas de tensor a tensor, o que realmente nos concentramos foi na ampliação do treinamento autoregressivo. Não é apenas linguagem, mas também componentes de imagem e áudio.

Então Lukasz disse que o que ele estava fazendo era traduzir. Acho que ele se subestimou, e todas essas ideias, agora estamos começando a ver esses padrões se juntando, todos acrescentando ao modelo.

Mas, na verdade, tudo estava lá desde o início e as ideias estão se infiltrando e isso leva algum tempo. O objetivo de Lukasz é que tenhamos todos esses conjuntos de dados acadêmicos que vão de imagem a texto, de texto a imagem, de áudio a texto, de texto a texto. Devemos treinar para tudo.

Essa ideia realmente impulsionou o trabalho de extensão e acabou funcionando, e foi tão interessante que pudemos traduzir imagens em texto, texto em imagens e texto em texto.

Você o usa para estudar biologia, ou software biológico, que pode ser semelhante ao software de computador, pois começa como um programa e depois o compila em algo que pode ser executado em uma GPU.

A vida de um software biológico começa com a especificação de determinados comportamentos. Digamos que você queira imprimir uma proteína, como uma proteína específica em uma célula. E então você aprendeu como usar o aprendizado profundo para converter isso em uma molécula de RNA, mas na verdade exibir esses comportamentos assim que entrar em suas células. Portanto, a ideia não é apenas traduzir para o inglês.

**Jensen Huang: Você criou um grande laboratório para produzir tudo isso? **

Aidan Gomez: Muita coisa está disponível e, na verdade, permanece publicamente disponível porque esses dados muitas vezes ainda são em grande parte financiados publicamente. Mas, na realidade, você ainda precisa de dados para ilustrar claramente o fenômeno que está tentando alcançar.

Tentando modelar dentro de um determinado produto, digamos expressão de proteínas e vacinas de mRNA e coisas assim, ou sim, em Palo Alto temos um monte de robôs e pessoas em jalecos, ambos aprendendo pessoal de pesquisa, incluindo ex-biólogos.

Agora, nos consideramos pioneiros em algo novo, trabalhando para realmente criar esses dados e validar os modelos que projetam essas moléculas. Mas a ideia original era traduzir.

** Jen-Hsun Huang: A ideia original era a tradução automática. O que quero perguntar é: quais são os principais nós vistos no fortalecimento e avanço da arquitetura? E que impacto eles têm no design do Transformer? **

Aidan Gomez: Ao longo do caminho, todos vocês viram isso. Vocês acham que há realmente uma grande contribuição adicional além do design básico do Transformer? Acho que do lado da inferência tem havido muito trabalho para acelerar esses modelos e torná-los mais eficientes.

Ainda acho que é um pouco perturbador para mim por causa de quão semelhantes eram as nossas formas originais. Acho que o mundo precisa de algo melhor que o Transformer, e acho que todos nós aqui queremos que ele seja substituído por algo que nos leve a um novo patamar de desempenho.

Quero fazer uma pergunta a todos aqui. O que você acha que vai acontecer depois? Como se fosse um passo emocionante porque acho que é muito parecido com coisas de 6 a 7 anos atrás, certo?

Llion Jones: Sim, acho que as pessoas ficariam surpresas com o quão semelhante você diz que é, certo? As pessoas gostam de me perguntar o que acontece a seguir porque sou o autor deste artigo. Como mágica, você agita a varinha mágica e o que acontece a seguir? O que quero salientar é como esse princípio específico foi concebido. Não precisamos apenas ser melhores, precisamos ser comprovadamente melhores.

Porque se for apenas um pouco melhor, não será suficiente para empurrar toda a indústria de IA para algo novo. Portanto, estamos presos ao modelo original, embora tecnicamente provavelmente não seja a coisa mais poderosa que temos no momento.

Mas todos sabem que tipo de ferramentas pessoais desejam, você deseja janelas contextuais melhores, deseja a capacidade de gerar tokens mais rapidamente. Bem, não tenho certeza se você gostou desta resposta, mas eles estão usando muitos recursos de computação no momento. Acho que as pessoas fazem muitos cálculos desperdiçados. Estamos trabalhando muito para melhorar a eficiência, obrigado.

** Jensen Huang: Acho que estamos tornando isso mais eficaz, obrigado! **

Jakob Uszkoreit: Mas penso que se trata principalmente de como os recursos são distribuídos, e não de quantos recursos são consumidos no total. Por exemplo, não queremos gastar muito dinheiro num problema fácil, ou gastar muito pouco num problema muito difícil e acabar não conseguindo uma solução.

Illiya Polosukhin: Este exemplo é como 2+2, se você inseri-lo corretamente neste modelo, ele usa um trilhão de parâmetros. Então, acho que a computação adaptativa é uma das coisas que vem a seguir, onde sabemos quantos recursos de computação devem ser gastos em um problema específico.

Aidan Gomez: Sabemos quanta capacidade de geração de computadores temos atualmente. Acho que esta é a próxima questão que precisa ser focada. Acho que esta é uma mudança de nível cósmico e esta é também a tendência de desenvolvimento futuro.

Lukasz Kaiser: Este conceito existia antes do Transformer e foi integrado ao modelo do Transformer. Na verdade, não tenho certeza se todos aqui sabem que não obtivemos sucesso em nosso objetivo original. Nossa intenção original ao iniciar este projeto era simular o processo de evolução do Token. Não é apenas um processo de geração linear, mas uma evolução passo a passo de texto ou código. Nós iteramos, editamos, o que nos permite não apenas imitar como os humanos desenvolvem os textos, mas também usá-los como parte desse processo. Porque se você pudesse gerar conteúdo tão naturalmente quanto os humanos, eles seriam capazes de fornecer feedback, certo?

Todos nós lemos o artigo de Shannon e nossa ideia original era focar apenas na modelagem da linguagem e na perplexidade, mas isso não aconteceu. Penso que é também aqui que podemos desenvolver-nos ainda mais. É também sobre como agora organizamos os recursos computacionais de forma inteligente, e esta organização agora também se aplica ao processamento de imagens. Quero dizer, os modelos de difusão têm uma propriedade interessante de serem capazes de refinar e melhorar continuamente a sua qualidade através da iteração. E atualmente não temos tais capacidades.

Quero dizer, esta questão fundamental: que conhecimento deve ser incorporado ao modelo e que conhecimento deve estar fora do modelo? Você está usando um modelo de recuperação? O modelo RAG (Retri-Augmented Generation) é um exemplo. Da mesma forma, isto também envolve a questão da inferência, ou seja, quais tarefas de inferência devem ser realizadas externamente através de sistemas simbólicos e quais tarefas de inferência devem ser realizadas diretamente dentro do modelo. Esta é uma discussão sobre eficiência. Acredito que modelos grandes eventualmente aprenderão a fazer cálculos como 2+2, mas se você quiser calcular 2+2 e fazê-lo somando números, isso é obviamente ineficiente.

** Jen-Hsun Huang: Se a IA precisa apenas calcular 2+2, então ela deve usar a calculadora diretamente para completar esta tarefa com o mínimo de energia, porque sabemos que a calculadora é a ferramenta mais eficaz para fazendo cálculos 2+2. Porém, se alguém perguntar à IA, como você chegou à decisão 2+2? Você sabia que 2+2 é a resposta correta? Isso consumirá muitos recursos? **

![Huang Renxun fala com os sete autores do artigo Transformer: Estamos presos no modelo original e precisamos de uma nova arquitetura mais poderosa](https://cdn-img.panewslab.com//panews/2022/3/23 /imagens/ 943398d349cf0e17db81b1469281b267.png)

Noam Shazeer: Exatamente. Você mencionou um exemplo antes, mas também estou convencido de que os sistemas de inteligência artificial que todos aqui desenvolvem são inteligentes o suficiente para usar calculadoras ativamente.

Atualmente, os bens públicos globais (BPP) fazem exatamente isso. Acho que o modelo atual é muito acessível e muito pequeno. A razão pela qual é barato é por causa de tecnologias como a NV, graças ao seu rendimento.

O custo computacional por operação é de aproximadamente US$ 10 a US$ 18. Em outras palavras, aproximadamente nesta ordem de grandeza. Obrigado por criar tantos recursos de computação. Mas se olharmos para um modelo com 500 mil milhões de parâmetros e um bilião de cálculos por token, isso equivale a cerca de um dólar por milhão de tokens, o que é 100 vezes mais barato do que comprar um livro de bolso e lê-lo. Nossa aplicação é um milhão de vezes ou mais valiosa do que a computação eficiente em redes neurais gigantes. Quero dizer, eles são certamente mais valiosos do que algo como a cura do câncer, mas são mais do que isso.

Ashish Vaswani: Acho que tornar o mundo mais inteligente significa como obter feedback do mundo e se podemos alcançar a paralelização multitarefa e multilinha. Se você realmente deseja construir tal modelo, esta é uma ótima maneira de nos ajudar a projetá-lo.

** Jensen Huang: Você pode compartilhar rapidamente por que iniciou sua empresa? **

Ashish Vaswani: Em nossa empresa, nosso objetivo é construir modelos e resolver novas tarefas. Nosso trabalho é entender os objetivos e o conteúdo da tarefa e adaptar esse conteúdo para atender às necessidades do cliente. Na verdade, a partir de 2021, acho que o maior problema com os modelos é que não se pode apenas torná-los mais inteligentes, mas também é preciso encontrar as pessoas certas para interpretar esses modelos. Esperamos interligar o mundo e o modelo, tornando o modelo maior e mais marcante. Há um certo progresso necessário no processo de aprendizagem que não pode ser alcançado inicialmente no ambiente de vácuo de um laboratório.

Noam Shazeer: Em 2021, fomos cofundadores desta empresa. Temos uma tecnologia excelente, mas ela não está alcançando muitas pessoas. Imagine se eu fosse um paciente ouvindo você dizer isso, pensaria que existem dezenas de bilhões de pessoas com tarefas diferentes que precisam ser concluídas. É disso que se trata o aprendizado profundo: melhoramos a tecnologia por meio da comparação. Na verdade, devido ao desenvolvimento contínuo da tecnologia, impulsionado por Jensen Huang, o nosso objetivo final é ajudar pessoas em todo o mundo. É preciso testar, e agora precisamos desenvolver soluções mais rápidas que permitam que centenas de pessoas usem esses aplicativos. Inicialmente, nem todo mundo usava esses aplicativos, muitas pessoas os usavam apenas para se divertir, mas funcionavam, funcionavam.

Jakob Uszkoreit: Obrigado. Quero falar sobre o sistema de software ecológico que criamos. Em 2021, fui cofundador desta empresa e o nosso objetivo é resolver alguns problemas com real impacto científico. No passado, estávamos lidando com conteúdos bastante complexos. Mas quando tive meu primeiro filho, a forma como eu via o mundo mudou. Esperamos tornar a vida humana mais conveniente e contribuir para a pesquisa de proteínas. Especialmente depois de ter filhos, espero mudar a estrutura médica existente e espero que o desenvolvimento da ciência e da tecnologia possa ter um impacto positivo na sobrevivência e no desenvolvimento humano. Por exemplo, a estrutura e a desconstrução das proteínas foram afetadas até certo ponto, mas atualmente não temos dados. Devemos basear os nossos esforços nos dados, não apenas como um dever, mas como pai.

** Jen-Hsun Huang: Gosto do seu ponto de vista. Estou sempre interessado no design de novos medicamentos e no processo de permitir que os computadores aprendam como desenvolver e gerar novos medicamentos. Se novos medicamentos pudessem ser aprendidos e concebidos, e um laboratório pudesse testá-los, seria possível determinar se tal modelo funcionaria. **

Llion JonesLlion Jones: Sim, sou o último a compartilhar. A empresa que cofundamos se chama Sakana AI, que significa “peixe”. A razão pela qual batizamos nossa empresa com o nome do “peixe” japonês é porque somos como um cardume de peixes, o que naturalmente nos inspira a encontrar inteligência. Se conseguirmos combinar muitos dos elementos examinados, podemos criar algo complexo e bonito. Muitos podem não entender as especificidades do processo e do conteúdo, mas nossa filosofia central internamente é “Aprender sempre vence”.

Quer você queira resolver um problema ou aprender alguma coisa, aprender sempre o ajudará a vencer. No processo de IA generativa, o conteúdo de aprendizagem também nos ajudará a vencer. Como pesquisador presente, gostaria de lembrar a todos que damos um significado real aos modelos de IA computacional, para que eles possam realmente nos ajudar a compreender os mistérios do universo. Na verdade, também queria dizer que estamos prestes a anunciar um novo empreendimento que nos deixa muito entusiasmados. Embora tenhamos agora um corpo de investigação como alicerce, estamos a experienciar um desenvolvimento transformador onde o modelo atual de gestão é organizado e permite que as pessoas se envolvam verdadeiramente. Tornamos estes modelos mais viáveis, utilizando estes grandes modelos e modelos transformadores para mudar a forma como as pessoas compreendem o mundo e o universo. este é o nosso alvo.

Aidan Gomez: Minha intenção original de abrir a empresa era semelhante à de Noam Shazeer. Acredito que a computação está entrando em um novo paradigma que está mudando os produtos existentes e a forma como trabalhamos. Tudo é baseado em computador e muda dentro da tecnologia até certo ponto. Qual é o nosso papel? Na verdade, estou preenchendo a lacuna, preenchendo o abismo. Podemos ver diferentes empresas criando tais plataformas, permitindo que cada empresa adapte e integre produtos, o que é uma forma de enfrentar diretamente os usuários. É assim que avançamos a tecnologia e a tornamos mais acessível e mais onipresente.

** Jensen Huang: O que eu particularmente aprecio é que quando Noam Shazeer parece particularmente calmo, você parece muito animado. As diferenças em suas personalidades são tão marcantes. Agora passo a palavra ao Lukasz Kaiser. **

Lukasz Kaiser: Minha experiência na OpenAI foi muito perturbadora. É muito divertido na empresa e processamos muitos dados para fazer cálculos, mas no final das contas minha função ainda é a de triturador de dados.

Illiya Polosukhin: Fui o primeiro a sair. Acredito firmemente que faremos progressos significativos e que o software mudará o mundo inteiro. A maneira mais direta é ensinar as máquinas a escrever códigos e tornar a programação acessível a todos.

Na NEAR, embora o nosso progresso seja limitado, estamos empenhados em integrar a sabedoria humana e obter dados relevantes, como inspirar ainda mais as pessoas a perceberem que precisamos de uma metodologia básica. Este modelo é um desenvolvimento fundamental. Este grande modelo é amplamente utilizado em todo o mundo. Tem muitas aplicações na indústria aeroespacial e em outros campos. Está relacionado à comunicação e interação em vários campos e realmente nos fornece capacidades. Com o aprofundamento do uso, descobrimos que trouxe mais modelos, e atualmente não há muitas disputas sobre direitos autorais.

Estamos agora numa nova era generativa, uma era que celebra a inovação e os inovadores, e queremos participar ativamente e abraçar a mudança, por isso procurámos diferentes formas de ajudar a construir um modelo muito interessante.

** Jensen Huang: Este sistema de feedback positivo é muito benéfico para a nossa economia em geral. Agora somos mais capazes de projetar a nossa economia. Alguém perguntou: nesta era em que os modelos GPT estão treinando bilhões de bancos de dados em escala de tokens, qual é o próximo passo? Qual será a nova tecnologia de modelagem? O que você quer explorar? Qual é a sua fonte de dados? **

Illia Polosukhin: Nosso ponto de partida são vetores e deslocamentos. Precisamos de modelos que tenham valor económico real, que as pessoas possam avaliar e, em última análise, colocar em prática as suas técnicas e ferramentas para melhorar todo o modelo.

** Jen-Hsun Huang: Como você treina o modelo em domínio? Quais foram as interações iniciais e os padrões de interação? É comunicação e interação entre modelos? Ou existem modelos e técnicas generativos? **

Illia Polosukhin: Em nossa equipe, cada um tem seu conhecimento técnico.

Jakob Uszkoreit: O próximo passo é o raciocínio. Todos reconhecemos a importância do raciocínio, mas muito do trabalho ainda é feito manualmente por engenheiros. Na verdade, estamos ensinando-os a responder em um formato interativo de perguntas e respostas e esperamos que juntos entendam o porquê e forneçam um forte padrão de raciocínio juntos. Esperamos que o modelo possa gerar o conteúdo que desejamos, e esse método de geração é o que buscamos. Quer se trate de vídeo, texto ou informação 3D, todos devem estar integrados.

Lukasz Kaiser: Acho que as pessoas entendem que a inferência realmente vem de dados? Se começarmos a raciocinar, temos um conjunto de dados e pensamos porque é que estes dados são diferentes? Então aprenderemos que vários aplicativos são, na verdade, baseados no processo de raciocínio de dados. Graças ao poder dos computadores, graças a sistemas como este, podemos começar a desenvolver-nos ainda mais a partir daí. Podemos raciocinar sobre conteúdos relevantes e realizar experimentos.

Muitas vezes, estes são derivados de dados. Acredito que a inferência está evoluindo muito rapidamente, os modelos de dados são muito importantes e haverá mais conteúdo interativo num futuro próximo. Ainda não fizemos treinamento suficiente, não é o conteúdo e o elemento chave, precisamos tornar os dados mais detalhados.

Noam Shazeer: Projetar alguns dados, como projetar uma máquina de ensino, pode envolver centenas ou centenas de milhões de tokens diferentes.

Ashish Vaswani: O que quero ressaltar é que, nesta área, temos muitos parceiros que alcançaram alguns marcos. Qual é o melhor algoritmo automatizado? Na verdade, trata-se de dividir as tarefas do mundo real em diferentes conteúdos. Nosso modelo também é muito importante, pois nos ajuda a obter os dados e ver se os dados estão no lugar certo. Por um lado, ajuda-nos a focar nos dados; por outro lado, esses dados nos fornecem modelos de alta qualidade para completar tarefas abstratas. Portanto, acreditamos que medir esse progresso é também uma forma de criatividade, uma forma de desenvolvimento científico e uma forma de desenvolvimento da nossa automação.

** Jen-Hsun Huang: Não é possível realizar grandes projetos sem um bom sistema de medição. Vocês têm alguma pergunta um para o outro? **

Illia Polosukhin: Ninguém quer realmente saber que medidas foram tomadas. Mas, na verdade, esperamos compreender e explorar o que estamos a fazer, obter dados e informações suficientes e fazer inferências razoáveis. Por exemplo, se você tem seis etapas, mas na verdade pode pular uma etapa raciocinando em cinco etapas. Às vezes você não precisa de seis etapas e às vezes precisa de mais etapas, então como replicar um cenário como este? O que você precisa para se afastar do Token?

Lukasz Kaiser: Minha convicção pessoal é que reproduzir um modelo tão grande é um processo muito complicado. Os sistemas evoluirão, mas essencialmente você precisa criar um método. Os seres humanos são criaturas boas em recorrência. Ao longo da história humana, reproduzimos repetidamente cenas de sucesso.

** Jen-Hsun Huang: Estou muito feliz em me comunicar com você e espero que vocês tenham a oportunidade de se comunicar e produzir uma magia indescritível. Obrigado por participar deste encontro, muito obrigado! **

Ver original
  • Recompensa
  • Comentar
  • Partilhar
Comentar
Nenhum comentário