A grande jogada do robô AGI do Google: equipe de 54 pessoas retida por 7 meses, forte generalização e forte raciocínio, novos resultados após a fusão da DeepMind e do Google Brain

Fonte original: Qubit

O grande modelo explosivo está reformulando a pesquisa de robôs do DeepMind do Google.

Uma das últimas conquistas é o projeto do robô RT-2, que levou 7 meses para ser construído e se tornou popular na Internet:

Quão eficaz é?

Basta dar uma ordem em linguagem humana, e o carinha à sua frente pode agitar seu braço robótico, pensar e concluir a "tarefa do mestre".

Como dar água para a cantora pop Taylor Swift ou identificar o logotipo de um time de estrelas:

Ele pode até pensar ativamente e deixá-lo "pegar animais extintos" e pode escolher dinossauros com precisão dos três brinquedos de plástico de leões, baleias e dinossauros.

Nas palavras dos internautas, não subestime essa habilidade. Este é um salto lógico de "animais extintos" para "dinossauros de plástico".

O que é mais "assustador" é que ele pode resolver facilmente o problema de raciocínio em vários estágios de "escolher uma bebida para uma pessoa cansada" que precisa ser combinado com a cadeia de pensamento - assim que o pedido for ouvido , a mãozinha vai direto para o Red Bull, Só não seja esperto demais.

Alguns internautas lamentaram após a leitura:

Mal posso esperar, avance para lavar pratos para humanos (cabeça de cachorro manual)

Entende-se que a conquista do Google DeepMind foi produzida em conjunto por 54 pesquisadores, e levou 7 meses antes e depois, antes de finalmente se tornar o "tão fácil" que vimos.

Segundo o New York Times, Vincent Vanhoucke, diretor de robótica do Google DeepMind, acredita que os grandes modelos mudaram completamente a direção de pesquisa de seu departamento:

Por causa dessa mudança (grande modelo), tivemos que repensar todo o projeto de pesquisa. Muitas coisas que estudamos antes falharam completamente.

Então, que tipo de efeitos o RT-2 pode alcançar e sobre o que exatamente é essa pesquisa?

Conecte o modelo grande multimodal no braço robótico

O projeto do robô, chamado RT-2 (Robotic Transformer 2), é uma "versão evolutiva" do RT-1 lançado no final do ano passado.

Comparado com outras pesquisas de robôs, a principal vantagem do RT-2 é que ele pode não apenas entender "palavras humanas", mas também raciocinar sobre "palavras humanas" e convertê-las em instruções que os robôs possam entender, de modo a concluir tarefas em etapas. .

Especificamente, ele tem três recursos principais - entendimento de símbolo (compreensão de símbolo), raciocínio (raciocínio) e reconhecimento humano (reconhecimento humano).

A primeira habilidade é a "compreensão simbólica", que pode estender diretamente o conhecimento do pré-treinamento de modelos grandes para dados que o robô nunca viu antes. Por exemplo, embora não haja "Red Bull" no banco de dados do robô, ele pode entender e compreender a aparência de "Red Bull" a partir do conhecimento do modelo grande e manipular objetos.

A segunda habilidade é "raciocínio", que também é a vantagem principal do RT-2, que exige que o robô domine as três habilidades principais de matemática, raciocínio visual e compreensão multilíngue.

Habilidade 1, incluindo o domínio do raciocínio lógico matemático, "coloque a banana na soma de 2+1":

Habilidade Dois, Raciocínio Visual, como "Coloque os morangos na tigela certa":

Habilidade 3, compreensão multilíngue, pode completar instruções mesmo sem o inglês, por exemplo, comandar em espanhol para "escolher o mais distinto de um monte de itens":

A terceira habilidade é o reconhecimento humano, que reconhece e entende com precisão o comportamento humano.O exemplo de "entregar água para Taylor Swift" visto no início é uma das demonstrações de habilidade.

Então, como essas três habilidades são realizadas?

Simplificando, é combinar as capacidades de "raciocínio", "reconhecimento" e "matemática" do grande modelo multimodal de texto visual (VLM) com as capacidades operacionais de robôs.

Para conseguir isso, os pesquisadores adicionaram diretamente um modo chamado "modo de ação do robô" ao modelo grande de texto visual (VLM), transformando-o em um modelo grande de ação de texto visual (VLA).

Posteriormente, os dados de ação do robô muito específicos originais são convertidos em um token de texto.

Por exemplo, os dados como o grau de rotação e o ponto de coordenada a ser colocado são convertidos em texto "colocar em uma determinada posição".

Desta forma, os dados do robô também podem ser usados no conjunto de dados de linguagem visual para treinamento. Ao mesmo tempo, no processo de raciocínio, as instruções de texto originais serão reconvertidas em dados do robô para realizar uma série de operações como como controlar o robô.

Isso mesmo, é tão simples e rude (cabeça de cachorro manual)

Nesta pesquisa, a equipe "atualizou" principalmente com base em uma série de modelos básicos de grande escala do Google, incluindo 5 bilhões e 55 bilhões de PaLI-X, 3 bilhões de PaLI e 12 bilhões PaLM-E.

Para melhorar a capacidade do próprio modelo grande, os pesquisadores também se esforçaram muito, usando a cadeia de pensamento recentemente popular, banco de dados de vetores e arquiteturas sem gradiente.

Essa série de operações também oferece ao RT-2 muitas novas vantagens em comparação com o RT-1 lançado no ano passado.

Vamos dar uma olhada nos resultados experimentais específicos.

Até três vezes o desempenho do RT-1

O RT-2 usa os dados do modelo de robô da geração anterior RT-1 para treinamento (ou seja, os dados não foram alterados, mas o método é diferente).

Os dados foram coletados durante 17 meses usando 13 robôs em um ambiente de cozinha montado no escritório.

No teste real (um total de 6.000 vezes), o autor deu ao RT-2 muitos objetos inéditos, exigindo que o RT-2 realizasse a compreensão semântica além dos dados de ajuste fino para concluir a tarefa.

Os resultados são todos muito bem feitos:

Desde o reconhecimento simples de letras, bandeiras nacionais e personagens até o reconhecimento de animais terrestres a partir de bonecos, seleção daquele com cor diferente e até comandos complexos como pegar salgadinhos que estão prestes a cair da mesa.

Do ponto de vista das três capacidades de subdivisão de compreensão de símbolos, raciocínio e reconhecimento humano, as duas variantes do RT-2 são muito melhores que o RT-1 e outro método de pré-treinamento visual VC-1, com um desempenho de até 3 vezes .

Conforme mencionado anteriormente, as duas variantes são treinadas em PaLM-E com 12 bilhões de parâmetros e PaLI-X com 55 bilhões de parâmetros, respectivamente.

Em termos de avaliação da habilidade específica de generalização, por meio de testes de subdivisão multicategoria com múltiplos modelos de linha de base, foi finalmente constatado que o desempenho do RT-2 foi melhorado em cerca de 2 vezes.

(Infelizmente, não o vimos em comparação com os métodos robóticos baseados em LLM mais recentes de outras equipes)

Para entender melhor como diferentes configurações de RT-2 afetam os resultados da generalização, o autor projetou duas categorias de avaliações:

Primeiro, em termos de tamanho do modelo, apenas a variante RT-2 PaLI-X usa 5 bilhões de parâmetros e 55 bilhões de parâmetros para treinamento;

O segundo é o método de treinamento, que adota o método de treinamento do modelo do zero x ajuste fino x ajuste fino colaborativo.

Os resultados finais mostram que a importância dos pesos pré-treinados do VLM e a capacidade de generalização do modelo tendem a aumentar com o tamanho do modelo.

Além disso, os autores também avaliam o RT-2 no benchmark de tabela de linguagem de código aberto, e os resultados mostram que ele alcança resultados SOTA no benchmark simulado (90% contra 77% antes).

Finalmente, como a variante RT-2 PaLM-E é um modelo de visão-linguagem-ação que pode atuar como um LLM, VLM e controlador de robô em uma única rede neural, o RT-2 também pode executar o raciocínio controlado da cadeia de pensamento.

Entre as cinco tarefas de raciocínio mostradas na figura abaixo (especialmente a última é muito interessante: escolha um item que possa substituir o martelo), ele produzirá as etapas de linguagem natural após receber o comando e, em seguida, fornecerá o token de ação específico.

Finalmente, em resumo, este último modelo RT-2 pode não apenas se aplicar melhor a diferentes cenas que a máquina nunca viu antes, mas também tem melhor capacidade de generalização; ao mesmo tempo, devido a melhor Com a bênção do modelo grande, também dominou algumas novas habilidades difíceis, como o raciocínio.

Mais uma coisa

O foco do Google na pesquisa de robótica em grandes modelos não parece ser "infundado".

Apenas nos últimos dois dias, um artigo sobre "Usando modelos grandes para ajudar a adquirir mais habilidades de operação de robôs" em co-autoria com a Universidade de Columbia também é muito popular:

Este artigo propõe uma nova estrutura que não apenas permite que o robô se adapte bem ao modelo grande, mas também retém as capacidades básicas de operação e controle do robô original:

Ao contrário do RT-2, este projeto tem código aberto:

É verdade que o modelo grande foi usado para conduzir a atualização de todo o departamento de robôs.

Lembrando as realizações de inteligência incorporada da equipe de Li Feifei não muito tempo atrás, pode-se dizer que o uso de modelos grandes para conduzir robôs tornou-se uma tendência de pesquisa e vimos uma onda de progresso muito promissor.

Quais são suas expectativas para essa direção de pesquisa?

endereço do projeto:

Link de referência:

[1]

[2]

[3]

[4]

Ver original
  • Recompensa
  • Comentar
  • Partilhar
Comentar
Nenhum comentário