原文來源:量子位爆火的**大模型**,正在重塑谷歌DeepMind的**機器人**研究。最新成果之一,就是他們耗時7個月打造的機器人項目**RT-2**,狠狠在網上火了一把:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-55a40d14ff-dd1a6f-7649e1) 效果究竟有多好?只需**用人話**下達命令,面前這個小傢伙就能揮動機械臂,思考並完成“主人的任務”。像是給流行歌手黴黴(Taylor Swift)遞水、或是辨認明星球隊Logo:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8cdfd5ce2b-dd1a6f-7649e1) 甚至能主動思考,讓它“撿起已滅絕的動物”,就能從獅子、鯨魚、恐龍這三個塑料玩具中準確pick恐龍。用網友的話來說,別小看這個能力,這是實現了從“滅絕的動物”到“塑料恐龍”的**邏輯飛躍**。更“要命”的是,它還能輕鬆解決“給疲憊的人選一種飲料”這種需要結合思想鏈的**多階段推理問題**——一聽到命令小手就直奔紅牛而去,簡直不要太聰明。有網友看完感嘆:> 等不及了,趕緊快進到**給人類洗碗**吧(手動狗頭)![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-93a35dda91-dd1a6f-7649e1) 據了解,谷歌DeepMind這項成果由**54位研究員合作產出**,前前後後拉扯7個月,最終才變成我們看到的這樣“so easy”。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b6d0c60207-dd1a6f-7649e1) 《紐約時報》介紹稱,谷歌DeepMind**機器人技術主管**Vincent Vanhoucke認為,大模型徹底改變了他們部門的研究方向:> 由於(大模型)這一變化,我們不得不**重新考慮**整個研究項目。> 我們之前研究的很多東西,都已經完全失效了。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5b3d6cd91a-dd1a6f-7649e1) 所以,RT-2究竟能實現什麼樣的效果,這研究又具體是怎麼一回事兒?## **將多模態大模型“塞進”機械臂**這個名叫**RT-2**(Robotic Transformer 2)的機器人項目,是去年年底發布的RT-1的“進化版”。相比於其他的機器人研究,RT-2的核心優勢在於,不僅能理解“人話”,還能對“人話”進行推理,並轉變為機器人能理解的指令,從而分階段完成任務。具體來說,它具備三大能力——**符號理解**(Symbol understanding)、**推理**(Reasoning)和**人類識別**(Human recognition)。第一個能力是“符號理解”,能將大模型預訓練的知識,直接延展到機器人此前沒見過的數據上。例如機器人數據庫中雖然沒有“紅牛”,但它卻能從大模型的知識中理解並掌握“紅牛”的外貌,並拿捏物品。第二個能力是“推理”,這也是RT-2的**核心優勢**,要求機器人掌握數學、視覺推理和多語言理解三大技能。技能一,包含**數學**邏輯推理的命令,“將香蕉放到2+1的總和的位置”:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-88afb8f0fe-dd1a6f-7649e1) 技能二,**視覺推理**,像是“將草莓放進正確的碗中”:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8cb8851352-dd1a6f-7649e1) 技能三,**多語言理解**,即使不用英語也能完成指令,例如用西班牙語命令它“從一堆物品中挑出最與眾不同的那個”:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-97873a01e3-dd1a6f-7649e1) 第三個能力是人類識別,準確識別並理解人類的行為,像開頭看到的“將水遞給泰勒·斯威夫特”例子就是能力展現之一。那麼,這三個能力是怎麼實現的?簡單來說,就是將視覺-文本多模態大模型(VLM)具備的“推理”、“識別”、“數學”等能力,和機器人的操作能力結合起來。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-93bba89469-dd1a6f-7649e1) 為了實現這一點,研究人員直接給視覺-文本大模型(VLM)增加了一個模態,叫做“機器人動作模態”,從而把它變成了視覺-文本-動作大模型(VLA)。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6fb2de89bf-dd1a6f-7649e1) 隨後,將原本非常具體的機器人動作數據,轉變成文本token。例如將轉動度數、放到哪個坐標點等數據,轉變成文本“放到某個位置”。這樣一來,機器人數據也能被用到視覺-語言數據集中進行訓練,同時在進行推理的過程中,原本的文本指令也會被重新轉化為機器人數據,實現控制機器人等一系列操作。沒錯,就是這麼簡單粗暴(手動狗頭)在這次的研究中,團隊主要基於**谷歌**的一系列基礎大模型來“做升級”,包括50億和550億的**PaLI-X**、30億的**PaLI**以及120億的**PaLM-E**。為了提升大模型本身的能力,研究人員也下了不少功夫,把最近爆火的思維鏈、向量數據庫和無梯度架構(no-gradient architectures)都用上了。這一系列操作,也讓RT-2和去年發布的RT-1相比,具有了不少新優勢。下面就來看看具體的實驗結果。## **性能可達RT-1三倍**RT-2使用上一代機器人模型RT-1的數據進行訓練(也就是說數據沒變,只是方法不同了)。這些數據是用13個機器人在辦公室搭建的一個廚房環境中**耗時17個月**收集到的。在實際測試中(一共歷經6000次),作者給了RT-2許多以前未見過的物體,需要RT-2在微調數據之外進行語義理解來完成任務。結果完成的都相當不錯:包括從簡單的識別字母、國旗、人物到從玩偶中識別陸生動物、選出顏色不相同的那隻,甚至是**撿起快要從桌上掉下去的零食**等複雜的命令。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6aab8f40eb-dd1a6f-7649e1) 而從符號理解、推理和人類識別這三個細分能力上來看,RT-2的兩個變體都比RT-1和另一種視覺預訓練方法VC-1要好很多,性能最高可達3倍。如前文所述,這兩個變體分別在120億參數的PaLM-E和550億參數的PaLI-X上進行訓練。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8cb1a44578-dd1a6f-7649e1) 具體的泛化能力評估上,通過與多個基線模型的多類細分測試,最終發現RT-2性能提高了大約2倍。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2b26bc9c1b-dd1a6f-7649e1) (稍顯遺憾的是,我們還沒看到它和其他團隊最新基於LLM的機器人方法進行對比)而為了更好地理解RT-2的不同設置如何影響泛化結果,作者又設計了兩大類評估:一是在模型尺寸上,僅在RT-2 PaLI-X變體分別採用50億參數與550億參數進行訓練;二是訓練方法上,分別採用從頭開始訓練模型vs微調vs協同微調的方法。最終結果表明,視覺語言模型預訓練權重的重要性以及模型泛化能力有隨著模型大小而提高的趨勢。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cfef382588-dd1a6f-7649e1) 另外,作者還在開源語言表基准上評估了RT-2,結果顯示它在模擬基准上實現了SOTA結果(90%vs之前的77%)。最後,由於RT-2 PaLM-E變體是一個視覺-語言-動作模型,可以在單個神經網絡中充當LLM、VLM和機器人控制器,因此RT-2還可以執行可控的思想鏈推理。如下圖所示的5個需要推理的任務中(尤其最後一個非常有意思:選擇可以替代錘子的物品),它接到命令後會先輸出自然語言步驟,然後再給出具體的動作token。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e159697bc9-dd1a6f-7649e1) 最最後,總結來說,這個最新的RT-2模型,不僅能更好地適用於不同的、機器此前沒見過的場景中,泛化能力更好了;與此同時,由於有了更好的大模型加持,它也掌握了一些有難度的新能力,比如推理。## **還有一件事**谷歌將機器人研究的重心放在**大模型**上,似乎也不是“空穴來風”。就在這兩天,他們和哥倫比亞大學合作的一篇關於“用大模型幫助獲取更多機器人操作技能”的論文,同樣很火:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-46f94186a0-dd1a6f-7649e1) 這篇論文提出了一種新的框架,不僅能讓機器人很好地適應大模型,同時還能保留原本機器人的基礎操作和控制能力:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9ddbdf94a2-dd1a6f-7649e1) 和RT-2有所不同的是,這一項目已經開源:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ea53d32ae8-dd1a6f-7649e1) 屬實是用大模型帶動整個機器人部門升級了。再聯想到前不久李飛飛團隊的具身智能成果,可以說,用大模型帶動機器人著實成為一種研究趨勢,且已經讓我們看到了一波非常有潛力的進展。對於這個研究方向,你有哪些期待?項目地址:**參考鏈接:**[1][2][3][4]
谷歌AGI機器人大招:54人天團憋7個月,強泛化強推理,DeepMind和谷歌大腦合併後新成果
原文來源:量子位
爆火的大模型,正在重塑谷歌DeepMind的機器人研究。
最新成果之一,就是他們耗時7個月打造的機器人項目RT-2,狠狠在網上火了一把:
效果究竟有多好?
只需用人話下達命令,面前這個小傢伙就能揮動機械臂,思考並完成“主人的任務”。
像是給流行歌手黴黴(Taylor Swift)遞水、或是辨認明星球隊Logo:
甚至能主動思考,讓它“撿起已滅絕的動物”,就能從獅子、鯨魚、恐龍這三個塑料玩具中準確pick恐龍。
用網友的話來說,別小看這個能力,這是實現了從“滅絕的動物”到“塑料恐龍”的邏輯飛躍。
更“要命”的是,它還能輕鬆解決“給疲憊的人選一種飲料”這種需要結合思想鏈的多階段推理問題——一聽到命令小手就直奔紅牛而去,簡直不要太聰明。
有網友看完感嘆:
據了解,谷歌DeepMind這項成果由54位研究員合作產出,前前後後拉扯7個月,最終才變成我們看到的這樣“so easy”。
《紐約時報》介紹稱,谷歌DeepMind機器人技術主管Vincent Vanhoucke認為,大模型徹底改變了他們部門的研究方向:
所以,RT-2究竟能實現什麼樣的效果,這研究又具體是怎麼一回事兒?
將多模態大模型“塞進”機械臂
這個名叫RT-2(Robotic Transformer 2)的機器人項目,是去年年底發布的RT-1的“進化版”。
相比於其他的機器人研究,RT-2的核心優勢在於,不僅能理解“人話”,還能對“人話”進行推理,並轉變為機器人能理解的指令,從而分階段完成任務。
具體來說,它具備三大能力——符號理解(Symbol understanding)、推理(Reasoning)和人類識別(Human recognition)。
第一個能力是“符號理解”,能將大模型預訓練的知識,直接延展到機器人此前沒見過的數據上。例如機器人數據庫中雖然沒有“紅牛”,但它卻能從大模型的知識中理解並掌握“紅牛”的外貌,並拿捏物品。
第二個能力是“推理”,這也是RT-2的核心優勢,要求機器人掌握數學、視覺推理和多語言理解三大技能。
技能一,包含數學邏輯推理的命令,“將香蕉放到2+1的總和的位置”:
技能二,視覺推理,像是“將草莓放進正確的碗中”:
技能三,多語言理解,即使不用英語也能完成指令,例如用西班牙語命令它“從一堆物品中挑出最與眾不同的那個”:
第三個能力是人類識別,準確識別並理解人類的行為,像開頭看到的“將水遞給泰勒·斯威夫特”例子就是能力展現之一。
那麼,這三個能力是怎麼實現的?
簡單來說,就是將視覺-文本多模態大模型(VLM)具備的“推理”、“識別”、“數學”等能力,和機器人的操作能力結合起來。
為了實現這一點,研究人員直接給視覺-文本大模型(VLM)增加了一個模態,叫做“機器人動作模態”,從而把它變成了視覺-文本-動作大模型(VLA)。
隨後,將原本非常具體的機器人動作數據,轉變成文本token。
例如將轉動度數、放到哪個坐標點等數據,轉變成文本“放到某個位置”。
這樣一來,機器人數據也能被用到視覺-語言數據集中進行訓練,同時在進行推理的過程中,原本的文本指令也會被重新轉化為機器人數據,實現控制機器人等一系列操作。
沒錯,就是這麼簡單粗暴(手動狗頭)
在這次的研究中,團隊主要基於谷歌的一系列基礎大模型來“做升級”,包括50億和550億的PaLI-X、30億的PaLI以及120億的PaLM-E。
為了提升大模型本身的能力,研究人員也下了不少功夫,把最近爆火的思維鏈、向量數據庫和無梯度架構(no-gradient architectures)都用上了。
這一系列操作,也讓RT-2和去年發布的RT-1相比,具有了不少新優勢。
下面就來看看具體的實驗結果。
性能可達RT-1三倍
RT-2使用上一代機器人模型RT-1的數據進行訓練(也就是說數據沒變,只是方法不同了)。
這些數據是用13個機器人在辦公室搭建的一個廚房環境中耗時17個月收集到的。
在實際測試中(一共歷經6000次),作者給了RT-2許多以前未見過的物體,需要RT-2在微調數據之外進行語義理解來完成任務。
結果完成的都相當不錯:
包括從簡單的識別字母、國旗、人物到從玩偶中識別陸生動物、選出顏色不相同的那隻,甚至是撿起快要從桌上掉下去的零食等複雜的命令。
而從符號理解、推理和人類識別這三個細分能力上來看,RT-2的兩個變體都比RT-1和另一種視覺預訓練方法VC-1要好很多,性能最高可達3倍。
如前文所述,這兩個變體分別在120億參數的PaLM-E和550億參數的PaLI-X上進行訓練。
具體的泛化能力評估上,通過與多個基線模型的多類細分測試,最終發現RT-2性能提高了大約2倍。
(稍顯遺憾的是,我們還沒看到它和其他團隊最新基於LLM的機器人方法進行對比)
而為了更好地理解RT-2的不同設置如何影響泛化結果,作者又設計了兩大類評估:
一是在模型尺寸上,僅在RT-2 PaLI-X變體分別採用50億參數與550億參數進行訓練;
二是訓練方法上,分別採用從頭開始訓練模型vs微調vs協同微調的方法。
最終結果表明,視覺語言模型預訓練權重的重要性以及模型泛化能力有隨著模型大小而提高的趨勢。
另外,作者還在開源語言表基准上評估了RT-2,結果顯示它在模擬基准上實現了SOTA結果(90%vs之前的77%)。
最後,由於RT-2 PaLM-E變體是一個視覺-語言-動作模型,可以在單個神經網絡中充當LLM、VLM和機器人控制器,因此RT-2還可以執行可控的思想鏈推理。
如下圖所示的5個需要推理的任務中(尤其最後一個非常有意思:選擇可以替代錘子的物品),它接到命令後會先輸出自然語言步驟,然後再給出具體的動作token。
最最後,總結來說,這個最新的RT-2模型,不僅能更好地適用於不同的、機器此前沒見過的場景中,泛化能力更好了;與此同時,由於有了更好的大模型加持,它也掌握了一些有難度的新能力,比如推理。
## 還有一件事
谷歌將機器人研究的重心放在大模型上,似乎也不是“空穴來風”。
就在這兩天,他們和哥倫比亞大學合作的一篇關於“用大模型幫助獲取更多機器人操作技能”的論文,同樣很火:
這篇論文提出了一種新的框架,不僅能讓機器人很好地適應大模型,同時還能保留原本機器人的基礎操作和控制能力:
和RT-2有所不同的是,這一項目已經開源:
屬實是用大模型帶動整個機器人部門升級了。
再聯想到前不久李飛飛團隊的具身智能成果,可以說,用大模型帶動機器人著實成為一種研究趨勢,且已經讓我們看到了一波非常有潛力的進展。
對於這個研究方向,你有哪些期待?
項目地址:
參考鏈接:
[1]
[2]
[3]
[4]