O robô ChatGPT está aqui: o grande modelo entra no mundo real, o avanço de peso da DeepMind

Sabemos que, depois de dominar a linguagem e as imagens na Internet, o modelo grande acabará entrando no mundo real e a "inteligência incorporada" deve ser a próxima direção de desenvolvimento.

Conectar grandes modelos a robôs, usando linguagem natural simples em vez de instruções complexas para formar planos de ação específicos, sem dados adicionais e treinamento, essa visão parece boa, mas parece um pouco distante. Afinal, o campo da robótica é notoriamente difícil.

No entanto, a IA está evoluindo mais rápido do que pensávamos.

Nesta sexta-feira, Google DeepMind anunciou o lançamento do RT-2: o primeiro modelo Vision-Language-Action (VLA) do mundo para controlar robôs.

Agora que instruções complexas não são mais usadas, o robô pode ser manipulado diretamente como o ChatGPT.

Quão inteligente é o RT-2? Os pesquisadores da DeepMind mostraram isso com um braço robótico, disseram à IA para escolher "animais extintos", o braço se esticou, as garras se abriram e caíram e ele agarrou o boneco de dinossauro.

Antes disso, os robôs não conseguiam entender de forma confiável objetos que nunca tinham visto, muito menos raciocinar sobre coisas como ligar "animais extintos" a "bonecos de dinossauros de plástico".

Diga ao robô para dar a Taylor Swift a lata de Coca-Cola:

Pode-se ver que este robô é um verdadeiro fã, o que é uma boa notícia para os humanos.

O desenvolvimento de grandes modelos de linguagem como o ChatGPT está provocando uma revolução no campo dos robôs. O Google instalou os modelos de linguagem mais avançados em robôs, para que eles finalmente tenham um cérebro artificial.

Em um artigo enviado recentemente pela DeepMind, os pesquisadores afirmaram que o modelo RT-2 é treinado com base em dados de rede e robôs, usando o progresso da pesquisa de modelos de linguagem em larga escala, como Bard, e combinando-os com dados de robôs. também pode entender as instruções em outros idiomas além do inglês.

Os executivos do Google dizem que o RT-2 é um salto quântico na forma como os robôs são construídos e programados. "Por causa dessa mudança, tivemos que repensar todo o nosso plano de pesquisa", diz Vincent Vanhoucke, diretor de robótica da DeepMind do Google. "Muitas coisas que fiz antes são completamente inúteis."

Como o RT-2 é implementado?

O RT-2 da DeepMind é desmontado e lido como Robotic Transformer - o modelo transformador do robô.

Não é uma tarefa fácil para os robôs entender a fala humana e demonstrar capacidade de sobrevivência como nos filmes de ficção científica. Comparado com o ambiente virtual, o mundo físico real é complexo e desordenado, e os robôs geralmente precisam de instruções complexas para fazer algumas coisas simples para os humanos. Em vez disso, os humanos sabem instintivamente o que fazer.

Anteriormente, levava muito tempo para treinar o robô e os pesquisadores tinham que construir soluções para diferentes tarefas individualmente, mas com o poder do RT-2, o robô pode analisar mais informações por si só e inferir o que fazer a seguir.

O RT-2 baseia-se no Vision-Language Model (VLM) e cria um novo conceito: o modelo Vision-Language-Action (VLA), que pode aprender com os dados da rede e do robô e combinar esse conhecimento Traduzir em instruções gerais que o robô pode ao controle. O modelo foi até capaz de usar pistas de pensamento como qual bebida seria melhor para uma pessoa cansada (bebidas energéticas).

Arquitetura RT-2 e processo de treinamento

Na verdade, no ano passado, o Google lançou a versão RT-1 do robô. Apenas um único modelo pré-treinado é necessário, e o RT-1 pode gerar instruções a partir de diferentes entradas sensoriais (como visão, texto etc. ) para executar várias tarefas. tipo de tarefa.

Como um modelo pré-treinado, naturalmente requer muitos dados para que o aprendizado autossupervisionado seja bem construído. O RT-2 se baseia no RT-1 e usa dados de demonstração do RT-1 coletados por 13 robôs em um ambiente de escritório e cozinha durante 17 meses.

DeepMind criou modelo VLA

Mencionamos anteriormente que o RT-2 é construído com base no VLM, onde os modelos de VLMs foram treinados em dados em escala da Web e podem ser usados para executar tarefas como resposta visual a perguntas, geração de legendas de imagens ou reconhecimento de objetos. Além disso, os pesquisadores também fizeram ajustes adaptativos nos dois modelos VLM propostos anteriormente, PaLI-X (Pathways Language and Image model) e PaLM-E (Pathways Language model Embody), como a espinha dorsal do RT-2, e esses modelos The Vision -As versões do Language-Movement são chamadas de RT-2-PaLI-X e RT-2-PaLM-E.

Para que o modelo de linguagem de visão seja capaz de controlar o robô, ainda é necessário controlar o movimento. O estudo adotou uma abordagem muito simples: eles representaram as ações do robô em outro idioma, tokens de texto, e os treinaram com um conjunto de dados de linguagem de visão em escala da web.

A codificação do movimento do robô é baseada no método de discretização proposto por Brohan et al., para o modelo RT-1.

Conforme mostrado na figura abaixo, esta pesquisa representa as ações do robô como strings de texto, que podem ser uma sequência de números de token de ação do robô, como "1 128 91 241 5 101 127 217".

A string começa com uma bandeira indicando se o robô está continuando ou encerrando o episódio atual, e o robô então muda a posição e a rotação do efetor final e comandos como a garra do robô conforme indicado.

Como as ações são representadas como strings de texto, é tão fácil para um robô executar um comando de ação quanto um comando de string. Com essa representação, podemos ajustar diretamente os modelos de linguagem de visão existentes e convertê-los em modelos de ação de linguagem de visão.

Durante a inferência, os tokens de texto são decompostos em ações do robô para obter o controle de malha fechada.

Experimental

Os pesquisadores realizaram uma série de experimentos qualitativos e quantitativos no modelo RT-2.

A figura abaixo demonstra o desempenho do RT-2 na compreensão semântica e no raciocínio básico. Por exemplo, para a tarefa de "colocar morangos na tigela correta", RT-2 não só precisa entender a representação de morangos e tigelas, mas também precisa raciocinar no contexto da cena para saber que os morangos devem ser colocados com frutas semelhantes. Juntos. Para a tarefa de pegar uma sacola que está prestes a cair de uma mesa, o RT-2 precisa entender as propriedades físicas da sacola para eliminar a ambiguidade entre as duas sacolas e identificar objetos em posições instáveis.

Deve-se notar que todas as interações testadas nesses cenários nunca foram vistas em dados de robótica.

A figura abaixo mostra que o modelo RT-2 supera as linhas de base RT-1 e pré-treinadas de visão (VC-1) anteriores em quatro benchmarks.

O RT-2 preserva o desempenho do robô na tarefa original e melhora o desempenho do robô em cenários inéditos, de 32% para 62% para o RT-1.

Uma série de resultados mostra que o modelo de linguagem de visão (VLM) pode ser transformado em um poderoso modelo de ação de linguagem de visão (VLA), e o robô pode ser controlado diretamente combinando o pré-treinamento do VLM com os dados do robô.

Semelhante ao ChatGPT, se tal capacidade for aplicada em larga escala, estima-se que o mundo sofrerá mudanças consideráveis. No entanto, o Google não tem planos imediatos de aplicar o robô RT-2, dizendo apenas que os pesquisadores acreditam que esses robôs que podem entender a fala humana nunca pararão no nível de demonstração de recursos.

Imagine um robô com um modelo de linguagem embutido que pode ser colocado em um depósito, pegar seus remédios para você ou até mesmo ser usado como assistente doméstico, dobrando roupas, removendo itens da máquina de lavar louça e arrumando a casa.

Isso pode realmente abrir a porta para o uso de robôs em um ambiente humano, e todas as direções que exigem trabalho manual podem ser assumidas - ou seja, no relatório anterior da OpenAI sobre a previsão do impacto do ChatGPT nos trabalhos, a parte que o modelo grande não pode afetar pode agora está coberto.

Inteligência incorporada, não muito longe de nós?

Recentemente, a inteligência incorporada é uma direção que um grande número de pesquisadores está explorando. Este mês, a equipe Li Feifei da Universidade de Stanford demonstrou alguns novos resultados: por meio de um grande modelo de linguagem mais um modelo de linguagem visual, a IA pode analisar e planejar no espaço 3D e orientar as ações do robô.

A empresa start-up de robôs humanóides universais de Zhihui Jun, “Agibot”, lançou um vídeo ontem à noite, que também demonstrou a programação automática e os recursos de execução de tarefas de robôs baseados em modelos de linguagem grandes.