元のソース: Qubit爆発的な **ビッグ モデル**は、Google の DeepMind の **ロボット** 研究を再構築しています。最新の成果の 1 つはロボット プロジェクト **RT-2** です。このプロジェクトは構築に 7 か月かかり、インターネットで人気になりました。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-55a40d14ff-dd1a6f-7649e1) どれくらい効果があるのでしょうか?**人間の言葉**で命令するだけで、目の前の小さな男はロボットアームを振り、考えて「主人の仕事」を完了することができます。ポップ歌手テイラー・スウィフトに水をあげたり、スターチームのロゴを特定したりするのと同じです。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8cdfd5ce2b-dd1a6f-7649e1) 能動的に考えて「絶滅動物を拾う」こともでき、ライオン、クジラ、恐竜の3つのプラスチック製のおもちゃから正確に恐竜を選ぶことができる。ネチズンの言葉を借りれば、この能力を過小評価しないでください。これは「絶滅した動物」から「プラスチック恐竜」への論理的な飛躍です。さらに「恐ろしい」のは、思考の連鎖と組み合わせる必要がある「疲れた人に飲み物を選ぶ」という**多段階推論問題**を、命令を聞いた瞬間に簡単に解決してしまうことです。 、小さな手は真っすぐにレッドブルに向かうでしょう、ただ賢くなりすぎないでください。一部のネチズンはこれを読んで嘆きました。> 待ちきれません。**人間の皿洗い** (手動の犬の頭) に早送りしてください。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-93a35dda91-dd1a6f-7649e1) Google DeepMind の成果は **54 人の研究者**によって共同で生み出されたもので、最終的に私たちが見た「とても簡単」になるまでに前後 7 か月かかったことがわかっています。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b6d0c60207-dd1a6f-7649e1) New York Times によると、Google DeepMind のロボティクス担当ディレクターである Vincent Vanhoucke 氏は、大型モデルによって部門の研究の方向性が完全に変わったと考えています。> この(大きなモデルの)変更により、私たちは研究プロジェクト全体を**再考**する必要がありました。> 私たちがこれまで研究してきたことの多くは完全に失敗しました。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5b3d6cd91a-dd1a6f-7649e1) では、RT-2はどのような効果をもたらすのか、またこの研究は一体どのようなものなのでしょうか?## **マルチモーダル大型モデルをロボット アームに接続します****RT-2** (Robotic Transformer 2) と呼ばれるこのロボット プロジェクトは、昨年末にリリースされた RT-1 の「進化版」です。他のロボット研究と比較したRT-2の主な利点は、「人間の言葉」を理解できるだけでなく、「人間の言葉」を推論してロボットが理解できる命令に変換し、段階的にタスクを完了できることです。 。具体的には、**シンボル理解** (シンボル理解)、**推論** (推論)、**人間認識** (人間認識) という 3 つの主要な機能があります。1 つ目の能力は「記号理解」で、大規模モデルの事前トレーニングの知識をロボットがこれまで見たことのないデータに直接拡張できます。例えば、ロボットのデータベースには「レッドブル」は存在しませんが、大型モデルの知識から「レッドブル」の姿を理解・把握し、物体を扱うことができます。2 番目の能力は「推論」で、これは RT-2 の **核心的な利点**でもあり、ロボットが数学、視覚的推論、多言語理解の 3 つの主要なスキルを習得する必要があります。スキル 1 (**数学** 論理的推論のコマンドを含む)、「バナナを 2+1 の合計に入れる」:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-88afb8f0fe-dd1a6f-7649e1) スキル 2、**視覚的推論**、「イチゴを正しいボウルに入れる」など:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8cb8851352-dd1a6f-7649e1) スキル 3、**多言語理解** は、英語がなくても指示を完了できます。たとえば、スペイン語で「たくさんのアイテムから最も特徴的なものを選びなさい」と命令します。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-97873a01e3-dd1a6f-7649e1) 3つ目の能力は人間の行動を正確に認識し理解する人間認識能力で、冒頭で見た「テイラー・スウィフトに水を渡す」例もその能力発揮の一つです。では、これら 3 つの能力はどのように実現されるのでしょうか?簡単に言うと、ビジュアル・テキスト・マルチモーダル・ラージ・モデル(VLM)の「推論」「認識」「数学」の能力と、ロボットの操作能力を組み合わせることです。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-93bba89469-dd1a6f-7649e1) これを実現するために、研究者らはビジュアル・テキスト・ラージ・モデル(VLM)に「ロボット・アクション・モード」と呼ばれるモードを直接追加し、ビジュアル・テキスト・アクション・ラージ・モデル(VLA)に変えた。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6fb2de89bf-dd1a6f-7649e1) 続いて、元の非常に具体的なロボット動作データがテキスト トークンに変換されます。例えば、回転角度や配置する座標点などのデータを「ある位置に配置する」というテキストに変換します。このように、視覚言語データセット内のロボットデータを学習用に活用すると同時に、推論の過程で元のテキスト命令をロボットデータに再変換することで、一連の動作を実現します。ロボットを制御するように。そう、単純で失礼なのだ(手動犬頭)この研究では、チームは主に、50 億と 550 億の **PaLI-X**、30 億の **PaLI**、および 12 を含む **Google** の一連の基本的な大規模モデルに基づいて「アップグレード」しました。億 **PaLM-E**。大規模モデル自体の能力を向上させるために、研究者らは最近人気の思考連鎖、ベクトルデータベース、無勾配アーキテクチャなどを利用して多大な努力を払ってきました。この一連の操作により、RT-2 は昨年発売された RT-1 に比べて多くの新たなメリットを得ることができます。具体的な実験結果を見てみましょう。## **RT-1 の最大 3 倍のパフォーマンス**RT-2は、前世代のロボットモデルRT-1のデータを学習に使用します(つまり、データは変更されていませんが、方法が異なります)。データは、オフィス内に設置されたキッチン環境で 13 台のロボットを使用して **17 か月**にわたって収集されました。実際のテスト (合計 6,000 回) では、作成者は RT-2 にこれまでに見たことのない多くのオブジェクトを与え、タスクを完了するためにデータの微調整を超えた意味の理解を RT-2 が実行することを要求しました。結果はすべて非常にうまくいきました。文字、国旗、キャラクターなどの単純な認識から、人形による陸生動物の認識、色の違うものを選択する、さらには**テーブルから落ちそうなお菓子を拾う**などの複雑なコマンドも含まれています。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6aab8f40eb-dd1a6f-7649e1) シンボルの理解、推論、人間の認識という 3 つの細分化機能の観点から見ると、RT-2 の 2 つのバリアントは、RT-1 および別の視覚的な事前トレーニング方法 VC-1 よりもはるかに優れており、パフォーマンスは最大 3 倍です。 。前述したように、2 つのバリアントは、それぞれ 120 億のパラメータを備えた PaLM-E と 550 億のパラメータを備えた PaLI-X でトレーニングされています。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8cb1a44578-dd1a6f-7649e1) 具体的な汎化能力評価については、複数のベースラインモデルを用いた多カテゴリー細分化テストにより、最終的にRT-2の性能が約2倍向上することが判明した。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2b26bc9c1b-dd1a6f-7649e1) (残念ながら、他のチームの最新の LLM ベースのロボット手法と比較したことはありません)RT-2 のさまざまな設定が汎化結果にどのような影響を与えるかをよりよく理解するために、著者は 2 つの評価カテゴリを設計しました。まず、モデル サイズの点で、RT-2 PaLI-X バリアントのみがトレーニングに 50 億のパラメーターと 550 億のパラメーターを使用します。2 つ目はトレーニング方法で、モデルを最初からトレーニングする方法、微調整する方法、共同で微調整する方法を採用します。最終結果は、VLM の事前トレーニングされた重みの重要性とモデルの汎化能力がモデルのサイズに応じて増加する傾向があることを示しています。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cfef382588-dd1a6f-7649e1) さらに、著者らはオープンソース言語テーブルベンチマークでも RT-2 を評価しており、その結果はシミュレートされたベンチマークで SOTA の結果を達成していることを示しています (以前は 77% でしたが 90%)。最後に、RT-2 PaLM-E バリアントは、単一のニューラル ネットワーク内で LLM、VLM、およびロボット コントローラーとして機能できるビジョン言語アクション モデルであるため、RT-2 は制御された思考連鎖推論も実行できます。以下の図に示す 5 つの推論タスク (特に最後のタスクは非常に興味深い: ハンマーに代わるアイテムを選択する) のうち、コマンドを受け取った後に自然言語ステップを出力し、その後、特定のアクション トークンを与えます。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e159697bc9-dd1a6f-7649e1) 最後に、要約すると、この最新の RT-2 モデルは、これまでマシンが見たことのないさまざまなシーンに適用できるだけでなく、汎用性も向上しており、同時に、大型モデルの恩恵により、また、推論などのいくつかの難しい新しい能力も習得しました。## **もう一つ**Google が **大型モデル**のロボット研究に重点を置いているのは「根拠がない」わけではないようです。ここ 2 日間で、コロンビア大学と共著した「ロボット操作スキルの習得に役立つ大規模モデルの使用」に関する論文も非常に人気になりました。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-46f94186a0-dd1a6f-7649e1) この論文では、ロボットが大規模モデルにうまく適応できるだけでなく、元のロボットの基本的な操作および制御機能も保持できる新しいフレームワークを提案します。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9ddbdf94a2-dd1a6f-7649e1) RT-2 とは異なり、このプロジェクトはオープンソースです。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ea53d32ae8-dd1a6f-7649e1) 大型モデルを活用してロボット部門全体のレベルアップを推進したのは事実だ。少し前の李飛飛チームの身体化された知能の成果を思い出させると、ロボットを駆動するために大型モデルを使用することが研究トレンドになり、非常に有望な進歩の波が見られたと言えます。この研究の方向性についてどのようなことを期待していますか?プロジェクトアドレス:**参考リンク:**[1][2][3][4]
Google の AGI ロボットの大規模な動き: 54 人のチームが 7 か月間抑制、強力な一般化と強力な推論、DeepMind と Google Brain の合併後の新たな成果
元のソース: Qubit
爆発的な ビッグ モデルは、Google の DeepMind の ロボット 研究を再構築しています。
最新の成果の 1 つはロボット プロジェクト RT-2 です。このプロジェクトは構築に 7 か月かかり、インターネットで人気になりました。
どれくらい効果があるのでしょうか?
人間の言葉で命令するだけで、目の前の小さな男はロボットアームを振り、考えて「主人の仕事」を完了することができます。
ポップ歌手テイラー・スウィフトに水をあげたり、スターチームのロゴを特定したりするのと同じです。
能動的に考えて「絶滅動物を拾う」こともでき、ライオン、クジラ、恐竜の3つのプラスチック製のおもちゃから正確に恐竜を選ぶことができる。
ネチズンの言葉を借りれば、この能力を過小評価しないでください。これは「絶滅した動物」から「プラスチック恐竜」への論理的な飛躍です。
さらに「恐ろしい」のは、思考の連鎖と組み合わせる必要がある「疲れた人に飲み物を選ぶ」という多段階推論問題を、命令を聞いた瞬間に簡単に解決してしまうことです。 、小さな手は真っすぐにレッドブルに向かうでしょう、ただ賢くなりすぎないでください。
一部のネチズンはこれを読んで嘆きました。
Google DeepMind の成果は 54 人の研究者によって共同で生み出されたもので、最終的に私たちが見た「とても簡単」になるまでに前後 7 か月かかったことがわかっています。
New York Times によると、Google DeepMind のロボティクス担当ディレクターである Vincent Vanhoucke 氏は、大型モデルによって部門の研究の方向性が完全に変わったと考えています。
では、RT-2はどのような効果をもたらすのか、またこの研究は一体どのようなものなのでしょうか?
マルチモーダル大型モデルをロボット アームに接続します
RT-2 (Robotic Transformer 2) と呼ばれるこのロボット プロジェクトは、昨年末にリリースされた RT-1 の「進化版」です。
他のロボット研究と比較したRT-2の主な利点は、「人間の言葉」を理解できるだけでなく、「人間の言葉」を推論してロボットが理解できる命令に変換し、段階的にタスクを完了できることです。 。
具体的には、シンボル理解 (シンボル理解)、推論 (推論)、人間認識 (人間認識) という 3 つの主要な機能があります。
1 つ目の能力は「記号理解」で、大規模モデルの事前トレーニングの知識をロボットがこれまで見たことのないデータに直接拡張できます。例えば、ロボットのデータベースには「レッドブル」は存在しませんが、大型モデルの知識から「レッドブル」の姿を理解・把握し、物体を扱うことができます。
2 番目の能力は「推論」で、これは RT-2 の 核心的な利点でもあり、ロボットが数学、視覚的推論、多言語理解の 3 つの主要なスキルを習得する必要があります。
スキル 1 (数学 論理的推論のコマンドを含む)、「バナナを 2+1 の合計に入れる」:
スキル 2、視覚的推論、「イチゴを正しいボウルに入れる」など:
スキル 3、多言語理解 は、英語がなくても指示を完了できます。たとえば、スペイン語で「たくさんのアイテムから最も特徴的なものを選びなさい」と命令します。
3つ目の能力は人間の行動を正確に認識し理解する人間認識能力で、冒頭で見た「テイラー・スウィフトに水を渡す」例もその能力発揮の一つです。
では、これら 3 つの能力はどのように実現されるのでしょうか?
簡単に言うと、ビジュアル・テキスト・マルチモーダル・ラージ・モデル(VLM)の「推論」「認識」「数学」の能力と、ロボットの操作能力を組み合わせることです。
これを実現するために、研究者らはビジュアル・テキスト・ラージ・モデル(VLM)に「ロボット・アクション・モード」と呼ばれるモードを直接追加し、ビジュアル・テキスト・アクション・ラージ・モデル(VLA)に変えた。
続いて、元の非常に具体的なロボット動作データがテキスト トークンに変換されます。
例えば、回転角度や配置する座標点などのデータを「ある位置に配置する」というテキストに変換します。
このように、視覚言語データセット内のロボットデータを学習用に活用すると同時に、推論の過程で元のテキスト命令をロボットデータに再変換することで、一連の動作を実現します。ロボットを制御するように。
そう、単純で失礼なのだ(手動犬頭)
この研究では、チームは主に、50 億と 550 億の PaLI-X、30 億の PaLI、および 12 を含む Google の一連の基本的な大規模モデルに基づいて「アップグレード」しました。億 PaLM-E。
大規模モデル自体の能力を向上させるために、研究者らは最近人気の思考連鎖、ベクトルデータベース、無勾配アーキテクチャなどを利用して多大な努力を払ってきました。
この一連の操作により、RT-2 は昨年発売された RT-1 に比べて多くの新たなメリットを得ることができます。
具体的な実験結果を見てみましょう。
RT-1 の最大 3 倍のパフォーマンス
RT-2は、前世代のロボットモデルRT-1のデータを学習に使用します(つまり、データは変更されていませんが、方法が異なります)。
データは、オフィス内に設置されたキッチン環境で 13 台のロボットを使用して 17 か月にわたって収集されました。
実際のテスト (合計 6,000 回) では、作成者は RT-2 にこれまでに見たことのない多くのオブジェクトを与え、タスクを完了するためにデータの微調整を超えた意味の理解を RT-2 が実行することを要求しました。
結果はすべて非常にうまくいきました。
文字、国旗、キャラクターなどの単純な認識から、人形による陸生動物の認識、色の違うものを選択する、さらにはテーブルから落ちそうなお菓子を拾うなどの複雑なコマンドも含まれています。
シンボルの理解、推論、人間の認識という 3 つの細分化機能の観点から見ると、RT-2 の 2 つのバリアントは、RT-1 および別の視覚的な事前トレーニング方法 VC-1 よりもはるかに優れており、パフォーマンスは最大 3 倍です。 。
前述したように、2 つのバリアントは、それぞれ 120 億のパラメータを備えた PaLM-E と 550 億のパラメータを備えた PaLI-X でトレーニングされています。
具体的な汎化能力評価については、複数のベースラインモデルを用いた多カテゴリー細分化テストにより、最終的にRT-2の性能が約2倍向上することが判明した。
(残念ながら、他のチームの最新の LLM ベースのロボット手法と比較したことはありません)
RT-2 のさまざまな設定が汎化結果にどのような影響を与えるかをよりよく理解するために、著者は 2 つの評価カテゴリを設計しました。
まず、モデル サイズの点で、RT-2 PaLI-X バリアントのみがトレーニングに 50 億のパラメーターと 550 億のパラメーターを使用します。
2 つ目はトレーニング方法で、モデルを最初からトレーニングする方法、微調整する方法、共同で微調整する方法を採用します。
最終結果は、VLM の事前トレーニングされた重みの重要性とモデルの汎化能力がモデルのサイズに応じて増加する傾向があることを示しています。
さらに、著者らはオープンソース言語テーブルベンチマークでも RT-2 を評価しており、その結果はシミュレートされたベンチマークで SOTA の結果を達成していることを示しています (以前は 77% でしたが 90%)。
最後に、RT-2 PaLM-E バリアントは、単一のニューラル ネットワーク内で LLM、VLM、およびロボット コントローラーとして機能できるビジョン言語アクション モデルであるため、RT-2 は制御された思考連鎖推論も実行できます。
以下の図に示す 5 つの推論タスク (特に最後のタスクは非常に興味深い: ハンマーに代わるアイテムを選択する) のうち、コマンドを受け取った後に自然言語ステップを出力し、その後、特定のアクション トークンを与えます。
最後に、要約すると、この最新の RT-2 モデルは、これまでマシンが見たことのないさまざまなシーンに適用できるだけでなく、汎用性も向上しており、同時に、大型モデルの恩恵により、また、推論などのいくつかの難しい新しい能力も習得しました。
## もう一つ
Google が 大型モデルのロボット研究に重点を置いているのは「根拠がない」わけではないようです。
ここ 2 日間で、コロンビア大学と共著した「ロボット操作スキルの習得に役立つ大規模モデルの使用」に関する論文も非常に人気になりました。
この論文では、ロボットが大規模モデルにうまく適応できるだけでなく、元のロボットの基本的な操作および制御機能も保持できる新しいフレームワークを提案します。
RT-2 とは異なり、このプロジェクトはオープンソースです。
大型モデルを活用してロボット部門全体のレベルアップを推進したのは事実だ。
少し前の李飛飛チームの身体化された知能の成果を思い出させると、ロボットを駆動するために大型モデルを使用することが研究トレンドになり、非常に有望な進歩の波が見られたと言えます。
この研究の方向性についてどのようなことを期待していますか?
プロジェクトアドレス:
参考リンク:
[1]
[2]
[3]
[4]