Huang Renxun 氏が Transformer 論文の 7 人の著者と対談: 私たちはオリジナルのモデルに囚われており、より強力な新しいアーキテクチャが必要です

Huang Renxun が Transformer 論文の 7 人の著者と語る: 私たちはオリジナルのモデルに囚われており、より強力な新しいアーキテクチャが必要です /images/ 3209736c2376bc78f33a30e387cc4e77.jpeg)

著者: Guo Xiaojing

出典: テンセントニュース

2017 年に、画期的な論文「Attending is All You Need」が発表されました。この論文では、自己注意メカニズムに基づく Transformer モデルが初めて導入されました。この革新的なアーキテクチャは、従来の RNN と CNN の制約を取り除きました。並列処理の注目メカニズムにより、長距離依存の問題が効果的に克服され、シーケンスデータ処理の速度が大幅に向上します。 Transformer のエンコーダ/デコーダ構造とマルチヘッド アテンション メカニズムは人工知能の分野に旋風を巻き起こし、人気のある ChatGPT はこのアーキテクチャに基づいて構築されています。

Transformer モデルは、友人と話している脳のようなもので、相手が同時に言うすべての単語に注意を払い、それらの単語間のつながりを理解していると想像してください。それはコンピュータに人間のような言語理解能力を与えます。それまでは言語処理として RNN が主流でしたが、その情報処理速度は遅く、一字一句再生しなければならない昔ながらのテーププレーヤーのようなものでした。 Transformer モデルは効率的な DJ のようなもので、複数のトラックを同時にコントロールし、重要な情報を素早くキャプチャできます。

Transformer モデルの登場により、コンピューターの言語処理能力が大幅に向上し、機械翻訳、音声認識、テキスト要約などのタスクがより効率的かつ正確になりました。これは業界全体にとって大きな進歩です。

このイノベーションは、以前 Google で働いていた 8 人の AI 科学者の共同の努力から生まれました。彼らの当初の目標は単純で、Google の機械翻訳サービスを改善することでした。彼らは、機械が文章を一語一語単独で翻訳するのではなく、文章全体を完全に理解し、読み取ることができるようにしたいと考えています。このコンセプトは、「Transformer」アーキテクチャ、つまり「セルフアテンション」メカニズムの出発点となりました。これに基づいて、これら 8 人の著者がそれぞれの専門知識を活用し、Transformer アーキテクチャを詳細に説明し、生成 AI の新たな章を開く論文「Attending Is All You Need」を 2017 年 12 月に発表しました。

生成 AI の世界では、スケーリングの法則が中心原則です。つまり、Transformer モデルの規模が大きくなるにつれて、そのパフォーマンスも向上しますが、これは同時に、より大きなモデルやより深いネットワークをサポートするためにより強力なコンピューティング リソースが必要になることを意味し、高性能コンピューティング サービスを提供する NVIDIA もまた、この AI の波の中心人物。

今年の GTC カンファレンスでは、Nvidia の Jen-Hsun Huang 氏が、『Transformer』の著者 7 名 (Niki Parmar 氏は何らかの理由で一時的に出席できませんでした) を儀式的な方法でラウンドテーブル ディスカッションに参加するよう招待しました。公の場で自分の仕事について話し合う。

彼らは会話中にいくつかの印象的な点も述べました:

  • 世界はトランスフォーマーよりも優れたものを必要としています。ここにいる私たち全員が、トランスフォーマーが新しいパフォーマンスのプラトーに連れて行ってくれる何かに取って代わられることを望んでいると思います。
  • 当初の目的は達成できませんでした Transformer を開始した当初の目的は、Token の進化過程をシミュレートすることでした。これは単なる直線的な生成プロセスではなく、テキストやコードが段階的に進化するものです。
  • 2+2 のような単純な問題では、大規模モデルの何兆ものパラメータ リソースが使用される可能性があります。アダプティブ コンピューティングは、次に実現しなければならないことの 1 つであり、特定の問題にどれだけのコンピューティング リソースを費やすべきかを知ることだと思います。
  • 現在のモデルは手頃すぎて小さすぎると思いますが、約 100 万ドルのトークンの価格は、ペーパーバック本を買うより 100 倍安いです。

以下は実際の内容です:

ジェンセン・ファン: 過去 60 年間、少なくとも私が生まれた瞬間から、コンピューター技術は根本的な変化を遂げていないようです。私たちが現在使用しているコンピューター システムは、マルチタスク、ハードウェアとソフトウェアの分離、ソフトウェアの互換性、データ バックアップ機能、ソフトウェア エンジニアのプログラミング スキルなど、基本的に IBM 360 (中央プロセッサ、バイオ) の設計原則に基づいています。サブシステム、マルチタスク、ハードウェアとソフトウェア、ソフトウェア システムの互換性など。

現代のコンピューティングは 1964 年以来根本的に変わっていないと思います。 1980 年代から 1990 年代にかけて、コンピューターは今日私たちがよく知っている形に大きな変化を遂げました。しかし、時間が経つにつれて、コンピューターの限界費用は下がり続け、10年ごとに10倍、15年で1,000倍、20年で1万倍にコストが下がります。このコンピュータ革命では、コスト削減が著しく、20年間でコンピュータの価格は1万倍近くに下がり、この変化は社会に大きな力をもたらしました。

あなたの生活にあるすべての高価な品物が元の価値の 1 万分の 1 になった場合を想像してみてください。たとえば、20 年前に 20 万ドルで買った車が、今ではわずか 1 ドルです。この変化を想像できますか? ?しかし、コンピュータのコスト低下は一夜にして起こったわけではなく、徐々に臨界点に達し、その後、突然コスト低下傾向が止まり、毎年少しずつ改善し続けましたが、その変化率は停滞しました。

アクセラレーテッド コンピューティングの検討を開始しましたが、アクセラレーテッド コンピューティングを使用するのは簡単ではなく、最初から少しずつ設計する必要があります。これまでは、確立された手順に従って問題を段階的に解決していましたが、現在はそれらの手順を再設計する必要があります。これは、以前のルールを並列アルゴリズムに再定式化する、まったく新しい科学分野です。

私たちはこれを認識しており、コードを 1% でも高速化して実行時間を 99% 節約できれば、その恩恵を受けるアプリケーションが現れると信じています。私たちの目標は、不可能を可能にすること、あるいは可能を不可能にすること、あるいはすでに可能になっているものをより効率的にすること、これがアクセラレーテッド コンピューティングの意味です。

会社の歴史を振り返ると、さまざまなアプリケーションを高速化する能力があることがわかります。当初、当社はゲーム分野で大幅な加速を達成し、その効果は人々に当社がゲーム会社であると誤解されるほどでした。しかし実際には、この市場は巨大であり、信じられないほどの技術進歩を推進するのに十分な大きさであるため、私たちの目標はそれをはるかに超えています。この状況は一般的ではありませんが、特殊なケースが見つかりました。

簡単に言うと、2012 年に AlexNet が火花を散らし、これが人工知能と NVIDIA GPU の間の最初の衝突となりました。これは、この分野における私たちの素晴らしい旅の始まりです。数年後、私たちは今日の基礎を築く完璧なアプリケーション シナリオを発見しました。

つまり、これらの成果は、生成人工知能の開発の基礎を築きました。生成 AI は画像を認識するだけでなく、テキストを画像に変換し、まったく新しいコンテンツを作成することもできます。私たちは現在、ピクセルを理解し、識別し、その背後にある意味を理解するのに十分な技術的能力を持っています。その背後にある意味を通して、私たちは新しいコンテンツを生み出すことができます。データの背後にある意味を理解する人工知能の能力は、大きな変化です。

これが新たな産業革命の始まりであると信じる理由があります。この革命において、私たちはこれまでになかったものを生み出しています。たとえば、前の産業革命では、水がエネルギー源でした。私たちが作った装置に水が入り、発電機が動き始め、水が入ってきて、魔法のように電気が出てきました。

Generative AI は、ソフトウェアを作成できるまったく新しい「ソフトウェア」であり、多くの科学者の共同作業に依存しています。 AI に生の素材 (データ) を与えると、それらが「建物」 (GPU と呼ばれるマシン) に入り、魔法のような結果が出力されると想像してください。それはすべてを再構築しており、私たちは「AI 工場」の誕生を目の当たりにしています。

この変化は新たな産業革命とも言えます。私たちは過去にこのような変化を実際に経験したことはありませんでしたが、今ではそれがゆっくりと私たちの前で展開されています。今後 10 年をお見逃しなく。この 10 年で私たちは大きな生産性を生み出すことになるからです。時の振り子が動き始めており、研究者たちはすでに行動を起こしています。

今日、私たちは Tansformer の作成者を招待し、生成 AI が将来私たちをどこへ連れていくのかについて話し合いました。

彼らです:

Ashish Vaswani: 2016 年に Google Brain チームに加わりました。 2022年4月にニキ・パーマー氏とアデプトAIを共同設立し、同年12月に退社し、別の人工知能スタートアップであるエッセンシャルAIを共同設立した。

ニキ・パーマー: は、Adept AI および Essential AI を Ashish Vaswani と共同設立するまで、Google Brain に 4 年間勤務していました。

Jakob Uszkoreit: 2008 年から 2021 年まで Google に勤務。彼は 2021 年に Google を退社し、Inceptive を共同設立しました。同社の主な事業は人工知能ライフ サイエンスであり、ニューラル ネットワークとハイスループット実験を使用して次世代の RNA 分子を設計することに取り組んでいます。

Illia Polosukhin: 2014 年に Google に入社し、8 人チームの中で最初に退職した 1 人でしたが、2017 年にブロックチェーン会社 NEAR Protocol を共同設立しました。

Noam Shazeer: は、2000 年から 2009 年と 2012 年から 2021 年まで Google に勤務していました。 2021年にShazeer氏はGoogleを退職し、元GoogleエンジニアのDaniel De Freitas氏とCharacter.AIを共同設立した。

**ライオン・ジョーンズ: **デルカムと YouTube で働いていました。 2012年にソフトウェアエンジニアとしてGoogleに入社。その後、Googleを退社し、人工知能のスタートアップsakana.aiを設立した。

ルカシュ・カイザー: 元はフランス国立科学研究センターの研究員。 2013年にGoogleに入社。 2021年にGoogleを退社し、OpenAIの研究員となった。

Aidan Gomez: はカナダのトロント大学を卒業しており、Transformer の論文が発表されたとき、彼はまだ Google Brain チームのインターンでした。彼は、8 人のチームのうち Google を退職する 2 人目です。 2019 年に Cohere を共同設立しました。

Huang Renxun が Transformer 論文の 7 人の著者と語る: 私たちはオリジナルのモデルに囚われており、より強力な新しいアーキテクチャが必要です /images/ e2cb0168e261ffba0c0ea67a5502acf8.png)

Renxun Huang: 今日はここに座っていますが、発言の機会を積極的に獲得してください。ここで議論できないテーマはありません。問題を議論するために椅子から飛び上がっても構いません。最も基本的な質問から始めましょう。当時、あなたはどのような問題に遭遇しましたか。また、トランスフォーマーになろうと思ったきっかけは何ですか?

Illia Polosukhin: 大量の文書の処理など、実際に検索結果を読み取ることができるモデルをリリースしたい場合は、この情報を迅速に処理できるモデルが必要です。当時のリカレント ニューラル ネットワーク (RNN) では、このようなニーズを満たすことができませんでした。

実際、リカレント ニューラル ネットワーク (RNN) といくつかの事前注意メカニズム (Arnens) が当時注目を集めましたが、それでも単語ごとに読み取る必要があり、効率的ではありませんでした。

Jakob Uszkoreit: トレーニング データを生成する速度は、最先端のアーキテクチャをトレーニングする能力をはるかに超えています。実際、入力特徴として n グラムを使用するフィードフォワード ネットワークなど、より単純なアーキテクチャを使用しています。これらのアーキテクチャは、少なくとも Google 規模の大量のトレーニング データでより高速にトレーニングできるため、より複雑で高度なモデルよりも優れたパフォーマンスを発揮することがよくあります。

当時の強力な RNN、特に長短期記憶ネットワーク (LSTM) はすでに存在していました。

ノーム・シェイザー: これは深刻な問題のようですね。これらのスケーリングの法則に気づき始めたのは 2015 年頃で、モデルのサイズが大きくなるにつれて、その知能も向上していることがわかります。これは世界史上最高の問題のようなもので、非常に単純です。次のトークンを予測しているだけで、それは非常に賢く、何百万もの異なることができるようになり、それをスケールアップして、改善する。

大きな不満は、RNN を扱うのが面倒すぎることです。そして、彼らが「これを畳み込みかアテンションメカニズムに置き換えましょう」と話しているのを耳にしました。すごい、これをやってみよう、と思いました。私は変圧器を蒸気機関から内燃機関への飛躍に喩えるのが好きです。蒸気機関があれば産業革命を完了することもできましたが、それは困難を伴い、内燃機関によってすべてが改善されました。

Ashish Vaswani: 私は大学院時代、特に機械翻訳に取り組んでいたときに、いくつかの難しいレッスンを学び始めました。私は、言語の複雑なルールを学ぶつもりはないことに気づきました。これらのモデルをトレーニングする方法である勾配降下法は、私よりも優れた教師だと思います。したがって、ルールを学ぶつもりはありません。すべての作業を勾配降下法に任せるつもりです。これが 2 番目のレッスンです。

私が苦労して学んだのは、拡張可能な一般的なアーキテクチャが長期的には最終的には勝つということです。今日それはトークンかもしれないし、明日は私たちがコンピューター上で行うアクションかもしれない。そしてコンピューターは私たちの活動を模倣し始め、私たちが行う多くの作業を自動化できるようになるだろう。すでに説明したように、Transformer、特にそのセルフアテンション メカニズムは非常に幅広い適用性を備えており、また、勾配降下法をより優れたものにします。もう 1 つは物理学です。ノームから学んだことの 1 つは、行列の乗算が良いアイデアであるということです。

ノーム・シェイザー: このパターンは繰り返し起こり続けます。そのため、大量のルールを追加するたびに、勾配降下法の方がそれらのルールを学習するのが人よりも得意になります。それでおしまい。これまで行ってきたディープラーニングと同様に、GPU のような形状の AI モデルを構築しています。そして現在、スーパーコンピューターのような形のAIモデルを構築しています。はい、今はスーパーコンピューターがモデルです。ええそれはそうです。はい。スーパーコンピューター お知らせしますが、私たちはモデルの形でスーパーコンピューターを構築しています。

** Jen-Hsun Huang: それで、あなたはどんな問題を解決しようとしているのですか? **

ルカシュ・カイザー: 機械翻訳。 5 年前を振り返ると、このプロセスは非常に困難に思えました。データを収集し、場合によってはそれを翻訳する必要があり、結果はかろうじて正しいだけかもしれません。当時のレベルはまだ非常に基礎的なものでした。しかし現在では、これらのモデルはデータがなくても翻訳を学習できるようになりました。ある言語と別の言語を指定するだけで、モデルが自動的に翻訳することを学習し、その能力が自然かつ満足のいくものになります。

ライオン・ジョーンズ: でも、必要なのは「注目」という直感だけです。それでこのタイトルを思いつきました。基本的に、タイトルを探していたときに起こったのです。

私たちはアブレーションを行っているところだったので、さらに悪化するかどうかを確認するためにモデルの破片を捨て始めました。驚いたことに、症状は改善し始めました。このようにすべての畳み込みを破棄することを含めた方がはるかに優れています。それで、タイトルはそこから来ています。

Ashish Vaswani: 基本的に興味深いのは、実際に非常に基本的なフレームワークから始めて、その後、さまざまなものを追加し、畳み込みを追加し、その後それらを取り除いたということです。他にも、複数の頭の注意など、非常に重要なことはたくさんあります。

** ジェンセン・ファン: トランスフォーマーという名前は誰が考えたのですか?なぜトランスフォーマーと呼ばれるのですか? **

Jakob Uszkoreit: 私たちはこの名前が気に入っています。ただランダムに選んだだけで、非常にクリエイティブだと思いました。これは私たちのデータ生成モデルを変え、そのようなロジックを使用しました。すべての機械学習は変革者であり破壊者です。

Noam Shazeer: この名前についてはこれまで考えたことはありませんでしたが、この名前は非常にシンプルで、多くの人がこの名前がとても良いと考えていると思います。以前は Yaakov などの名前をたくさん考えましたが、最終的にモデルの原理を説明する「Transformer」に落ち着きました。これは実際に信号全体を変換します。このロジックによれば、ほぼすべての機械学習が変換されます。

ライオン・ジョーンズ: トランスフォーマーがこれほどよく知られた名前になった理由は、翻訳の内容だけではなく、この変革をより一般的な方法で説明したかったからでもあります。私たちが素晴らしい仕事をしたとは思わないが、チェンジメーカーとして、ドライバーとして、そしてエンジンとして、それは理にかなっていた。このような大規模な言語モデル、エンジン、ロジックは誰もが理解できるものであり、アーキテクチャの観点から見ると、これは比較的早い段階で開始されるものです。

しかし、私たちは実際に、あらゆるものを別のものに変えることができる、非常に多用途なものを作ろうとしていることに気づきました。そして、トランスフォーマーが画像に使用されたときに、これが実際にどれほど優れたものになるかは予想していなかったと思いますが、これは少し驚くべきことです。これは論理的に思えるかもしれませんが、実際には、画像を分割して、それぞれの小さなドットにラベルを付けることができます。これは建築界の非常に早い段階から存在していたものだと思います。

したがって、テンソルからテンソルへのライブラリを構築するときに私たちが実際に焦点を当てたのは、自己回帰トレーニングのスケールアップでした。言語だけでなく、画像や音声のコンポーネントも含まれます。

そこでルカシュ氏は、自分がやっているのは翻訳だと言いました。彼は自分自身を過小評価していたと思います。これらすべてのアイデアが、現在、パターンに統合され、モデルに追加されるのが見え始めています。

しかし実際には、すべてが早い段階から存在していて、アイデアが浸透しつつあり、時間がかかります。 Lukasz 氏の目標は、画像からテキスト、テキストから画像、音声からテキスト、テキストからテキストに至る学術データセットをすべて用意することです。私たちはあらゆることに備えて訓練する必要があります。

このアイデアが拡張作業の原動力となり、最終的には機能し、画像をテキストに、テキストを画像に、テキストをテキストに変換できるようになったのは非常に興味深いことでした。

これは生物学の研究、つまり生物学的ソフトウェアの研究に使用されています。これはプログラムとして開始され、それを GPU で実行できるものにコンパイルするという点でコンピューター ソフトウェアに似ているかもしれません。

生物学的ソフトウェアの寿命は、特定の動作の仕様から始まります。細胞内の特定のタンパク質などのタンパク質を印刷したいとします。そして、深層学習を使用してそれを RNA 分子に変換し、細胞に入ると実際にこれらの動作を示す方法を学びました。つまり、このアイデアは単に英語に翻訳するというだけではありません。

**ジェンセン・ファン: これらすべてを生産するために大規模な研究所を設立しましたか? **

Aidan Gomez: これらのデータは依然として大部分が公的資金で賄われていることが多いため、多くのデータが入手可能であり、実際に公開されたままになっています。しかし実際には、達成しようとしている現象を明確に説明するためのデータが依然として必要です。

特定の製品内でモデル化しようとして、たとえばタンパク質発現や mRNA ワクチンなど、あるいはそう、パロアルトにはたくさんのロボットと白衣を着た人々がいて、どちらも元生物学者を含む学習中の研究員です。

現在、私たちは自分たちを何か新しいものの先駆者であると考えており、これらのデータを実際に作成し、これらの分子を設計するモデルを検証することに取り組んでいます。しかし、当初のアイデアは翻訳することでした。

** Jen-Hsun Huang: 元々のアイデアは機械翻訳でしたが、私が聞きたいのは、アーキテクチャの強化とブレークスルーにおいて重要なノードは何なのかということです。そして、それらはTransformerの設計にどのような影響を与えますか? **

エイダン・ゴメス: 皆さんもご覧になったことがあると思いますが、トランスフォーマーの基本設計に加えて、本当に大きな追加の貢献があると思いますか?推論側では、これらのモデルを高速化し、より効率的にするために多くの作業が行われてきたと思います。

私たちの元の姿が非常に似ていたので、それは私にとって少し気になることだと今でも思います。世界はトランスフォーマーよりも優れたものを必要としていると思います。そしてここにいる私たち全員が、トランスフォーマーがパフォーマンスの新たな高原に到達する何かに置き換えられることを望んでいると思います。

ここにいる皆さんに質問したいです。次に何が起こると思いますか? 6、7年前のことととても似ていると思うので、それはエキサイティングなステップですよね?

リオン・ジョーンズ: ええ、あなたが言うのがあまりにも似ていると人々は驚くと思いますね?私がこの論文の著者であるため、人々は私に次に何が起こるかを尋ねたがります。魔法のように、魔法の杖を振ると、次に何が起こるでしょうか?私が指摘したいのは、この特定の原則がどのように設計されたかということです。私たちはより良くなる必要があるだけでなく、明らかにより良くなる必要があります。

なぜなら、ほんの少し改善されただけでは、AI 業界全体を何か新しいものに押し上げるには十分ではないからです。したがって、技術的にはおそらく現時点で最も強力なものではありませんが、私たちはオリジナルのモデルにこだわっています。

しかし、どのような種類の個人ツールが必要か、より優れたコンテキスト ウィンドウが必要か、トークンをより速く生成できる機能が必要かは誰もが知っています。この答えが気に入るかどうかはわかりませんが、現在、彼らはあまりにも多くのコンピューティング リソースを使用しています。人間は無駄な計算をたくさんしていると思います。効率化に努めてまいりますので、よろしくお願いいたします。

** ジェンセン・ファン: これはより効果的だと思います、ありがとう! **

Jakob Uszkoreit: しかし、問題は主に、合計で消費されるリソースの数ではなく、リソースがどのように分配されるかということだと思います。たとえば、簡単な問題に多額のお金をかけすぎたり、難しすぎる問題にあまりお金をかけずに結局解決策が得られなかったりすることは望ましくありません。

Illiya Polosukhin: この例は 2+2 のようなもので、このモデルに正しく入力すると、1 兆個のパラメーターが使用されます。したがって、特定の問題にどれだけのコンピューティング リソースを費やすべきかを知るアダプティブ コンピューティングは、次に来るべきものの 1 つだと思います。

エイダン・ゴメス: 私たちは現在、どれだけのコンピューター生成能力を持っているかを知っています。これが次に焦点を当てるべき問題だと思います。これは宇宙レベルの変化であり、これは将来の開発傾向でもあると思います。

Lukasz Kaiser: このコンセプトはトランスフォーマー以前から存在しており、トランスフォーマー モデルに統合されました。実際のところ、ここにいる皆さんが私たちが当初の目標を達成できなかったことをご存知かどうかはわかりませんが、このプロジェクトを開始した当初の目的は、Token の進化プロセスをシミュレーションすることでした。これは単なる直線的な生成プロセスではなく、テキストやコードが段階的に進化するものです。私たちは反復し、編集するので、人間がテキストを作成する方法を模倣するだけでなく、そのプロセスの一部としてテキストを使用することも可能になります。人間と同じように自然にコンテンツを生成できれば、人間は実際にフィードバックを提供できるようになるでしょう?

私たち全員がシャノンの論文を読んでいたので、当初のアイデアは言語モデリングと複雑さにのみ焦点を当てることでしたが、それは実現しませんでした。ここも私たちがさらに発展できるところだと思います。これは、コンピューティング リソースをどのようにインテリジェントに編成するかということでもあり、この編成は画像処理にも適用されるようになりました。つまり、拡散モデルには、反復を通じて継続的に改良し、品質を向上させることができるという興味深い特性があります。そして、現時点ではそのような機能はありません。

つまり、この基本的な質問は、どのような知識をモデルに組み込む必要があり、どのような知識をモデルの外にあるべきなのかということです。検索モデルを使用していますか? RAG (Retri-Augmented Generation) モデルはその一例です。同様に、これには推論の問題、つまりどの推論タスクがシンボリック システムを介して外部で実行されるべきか、どの推論タスクがモデル内で直接実行されるべきかという問題も含まれます。これは非常に効率に関する議論です。大規模なモデルは最終的には 2+2 のような計算を行う方法を学習すると信じていますが、2+2 を計算したい場合、数値を足し合わせて計算するのは明らかに非効率です。

** Jen-Hsun Huang: AI が 2+2 の計算のみを必要とする場合は、電卓を直接使用して最小限のエネルギーでこのタスクを完了する必要があります。電卓が最も効果的なツールであることがわかっているからです。 2+2の計算を行っています。しかし、誰かが AI に尋ねたら、どうやって 2+2 の決定に至ったのでしょうか? 2+2が正解だということをご存知ですか?これは多くのリソースを消費しますか? **

Huang Renxun が Transformer 論文の 7 人の著者と語る: 私たちはオリジナルのモデルに囚われており、より強力な新しいアーキテクチャが必要です /images/ 943398d349cf0e17db81b1469281b267.png)

ノーム・シェイザー: その通りです。先ほど例を挙げられましたが、ここにいる皆さんが開発している人工知能システムは、電卓を積極的に使用できるほど賢いものであると私も確信しています。

世界公共財 (GPP) は現在、まさにそれを行っています。現行モデルは手頃すぎて小さすぎると思います。安いのはNVのような技術のおかげで、その出力のおかげです。

1 操作あたりの計算コストは約 10 ドルから 18 ドルです。言い換えれば、おおよそこの程度の大きさです。非常に多くのコンピューティング リソースを作成していただきありがとうございます。しかし、5,000 億のパラメーターとトークンごとに 1 兆回の計算を行うモデルを見ると、それは 100 万トークンあたり約 1 ドルに相当し、ペーパーバックの本を買って読むよりも 100 倍安くなります。私たちのアプリケーションは、巨大なニューラル ネットワークでの効率的な計算よりも 100 万倍以上の価値があります。つまり、それらは癌を治すようなものよりも確かに価値がありますが、それ以上です。

Ashish Vaswani: 世界をよりスマートにするということは、世界からのフィードバックをどのように得るか、そしてマルチタスクと複数行の並列化を実現できるかどうかを意味すると思います。本当にそのようなモデルを構築したい場合、これはそのようなモデルの設計に役立つ素晴らしい方法です。

** ジェンセン・ファン: 会社を始めた理由を簡単に教えていただけますか? **

Ashish Vaswani: 私たちの会社では、モデルを構築して新しいタスクを解決することが目標です。私たちの仕事は、任務の目標と内容を理解し、それらの内容をクライアントのニーズに合わせて調整することです。実際、2021 年から、モデルに関する最大の問題は、モデルをよりスマートにするだけではなく、これらのモデルを解釈する適切な人材を見つける必要があることだとわかりました。私たちは世界とモデルを結びつけ、モデルをより大きく、より目立つものにしたいと考えています。学習プロセスにはある程度の進歩が必要ですが、研究室の真空環境では最初は達成できません。

ノーム・シャジーア:2021年に私たちはこの会社を共同設立しました。私たちは素晴らしいテクノロジーを持っていますが、それが多くの人に届けられていません。想像してみてください。私があなたのこの言葉を聞いている患者だったら、完了する必要のあるさまざまなタスクを抱えた何百億人もの人々がいると思うでしょう。これがディープラーニングであり、比較を通じて技術を向上させます。実際、ジェンスン・ファンが推進するテクノロジーの継続的な開発により、私たちの最終目標は世界中の人々を助けることです。テストする必要があり、私たちは今、何百人もの人々がこれらのアプリケーションを使用できるようにする、より高速なソリューションを開発する必要があります。当初と同じように、誰もがこれらのアプリを使用していたわけではなく、多くの人がただ楽しみのためにそれらを使用していましたが、実際には機能しました。

ヤコブ・ウスコレイト: ありがとう。私たちが作成したエコロジーソフトウェアシステムについて話したいと思います。 2021 年に私はこの会社を共同設立しました。私たちの目標は、実際の科学的影響を伴ういくつかの問題を解決することです。以前は、非常に複雑なコンテンツを扱っていました。しかし、最初の子供が生まれたとき、世界の見方が変わりました。私たちは人類の生活をより便利にし、タンパク質の研究に貢献したいと考えています。特に子どもが生まれてからは、既存の医療構造を変え、科学技術の発展が人類の生存と発展に良い影響をもたらすことを願っています。たとえば、タンパク質の構造と分解はある程度影響を受けていますが、現時点ではデータが不足しています。私たちは義務としてだけでなく、父親としてもデータに基づいて努力しなければなりません。

** Jen-Hsun Huang: あなたの視点は気に入っています。私は常に新薬の設計と、コンピュータに新薬の開発と生成方法を学習させるプロセスに興味があります。新薬を学習して設計でき、研究室でそれらをテストできれば、そのようなモデルが機能するかどうかを判断できるでしょう。 **

ライオン・ジョーンズライオン・ジョーンズ: ああ、私が最後にシェアするよ。私たちが共同設立した会社は「Sakana AI」です。これは「魚」を意味します。社名を日本語の「魚」にちなんで名付けたのは、私たちが自然と知性を探求する魚の群れのようなものだからです。検討した要素をたくさん組み合わせることができれば、複雑で美しいものを生み出すことができます。プロセスや内容の詳細を理解していない人も多いかもしれませんが、私たちの社内の中心的な哲学は「学習は常に勝利します」です。

問題を解決したい場合でも、何かを学びたい場合でも、学ぶことは常に勝利に役立ちます。生成 AI のプロセスでは、学習コンテンツも勝利に役立ちます。この場にいる研究者として、私たちはコンピューター AI モデルに本当の意味を与え、宇宙の謎を理解するのに真に役立つことを皆さんに思い出していただきたいと思います。実際、私たちが非常に楽しみにしている新しい開発を近々発表する予定であることもお伝えしたいと思いました。私たちは現在、基礎となる一連の研究を持っていますが、現在のモデル管理が組織化され、人々が真に参加できるようにする変革的な発展を経験しています。私たちは、これらの大規模なモデルと変革的なモデルを使用して、人々が世界と宇宙を理解する方法を変えることで、これらのモデルをより実現可能にします。これが私たちの目標です。

Aidan Gomez: 私の会社設立の当初の意図は、Noam Shazeer と似ていました。コンピューティングは、既存の製品と私たちの働き方を変える新しいパラダイムに入りつつあると思います。すべてはコンピューターベースであり、テクノロジーの範囲内である程度変化します。私たちの役割は何でしょうか?私は実際にギャップを埋め、溝を埋めています。さまざまな企業がそのようなプラットフォームを作成し、各企業が製品を適応および統合できるようにすることで、ユーザーと直接向き合う方法が見られます。このようにして私たちはテクノロジーを進歩させ、それをより手頃な価格でより普及させることができます。

** ジェンセン・ファン: 私が特に感謝しているのは、ノーム・シャザーが特に落ち着いているように見えるとき、あなたはとても興奮しているように見えることです。お互いの性格の違いは歴然です。さて、私はウカシュ・カイザーに発言権を譲ります。 **

Lukasz Kaiser: OpenAI での私の経験は非常に破壊的でした。会社ではとても楽しい仕事で、計算を行うために大量のデータを処理しますが、結局のところ、私の役割は依然としてデータ処理者です。

イリヤ・ポロスキン: 最初に帰ったのは私でした。私たちは今後大きな進歩を遂げ、ソフトウェアが世界全体を変えるだろうと強く信じています。最も直接的な方法は、機械にコードの書き方を教えて、誰もがプログラミングにアクセスできるようにすることです。

NEARでは、私たちの進歩は限られていますが、基本的な方法論が必要であることを人々にさらに認識させるなど、人類の知恵を統合し、関連するデータを取得することに取り組んでいます。このモデルは基礎的な開発であり、この大型モデルは世界中で広く使用されており、航空宇宙やその他の分野で多くの用途があり、さまざまな分野の通信やインタラクションに関連し、実際に私たちに機能を提供しています。使用が深まるにつれて、より多くのモデルが生まれ、現在では著作権に関する紛争はそれほど多くありません。

私たちは現在、新しい生成の時代、イノベーションとイノベーターを称える時代にいます。私たちは積極的に参加して変化を受け入れたいと考えているため、本当にクールなモデルの構築を支援するさまざまな方法を探しました。

** ジェンセン・ファン: この正のフィードバック システムは、経済全体にとって非常に有益です。私たちは今、経済をより適切に設計できるようになりました。 GPT モデルが数十億のトークンスケールのデータベースをトレーニングしているこの時代に、次のステップは何ですか? と誰かが尋ねました。新しいモデリング技術とは何でしょうか?何を探索したいですか?データソースは何ですか? **

Illia Polosukhin: 私たちの出発点はベクトルと変位です。私たちには、実際の経済的価値があり、人々が評価し、最終的にはモデル全体をより良くするためにテクニックやツールを実践できるモデルが必要です。

** Jen-Hsun Huang: モデルでドメイン トレーニングをどのように実行しますか?最初の相互作用と相互作用パターンは何でしたか?モデル間のコミュニケーションやインタラクションでしょうか?それとも生成モデルや手法はあるのでしょうか? **

Illia Polosukhin: 私たちのチームでは、誰もが独自の技術的専門知識を持っています。

Jakob Uszkoreit: 次のステップは推論です。推論の重要性は誰もが認識していますが、多くの作業は依然としてエンジニアによって手作業で行われています。私たちは実際に、インタラクティブな質疑応答形式で答え方を教えていますが、彼らがその理由を一緒に理解し、強力な推論パターンを一緒に提供できることを願っています。私たちは、このモデルが私たちが望むコンテンツを生成できることを願っており、この生成方法が私たちが追求しているものです。ビデオ、テキスト、3D 情報のいずれであっても、それらはすべて統合される必要があります。

Lukasz Kaiser: 人々は推論が実際にデータから得られることを理解していると思いますか?推論を始めると、一連のデータがあり、このデータがなぜ異なるのかを考えます。次に、さまざまなアプリケーションが実際にデータ推論のプロセスに基づいていることを学びます。コンピューターの力のおかげで、このようなシステムのおかげで、私たちはそこからさらなる発展を始めることができます。関連するコンテンツについて推論し、実験を行うことができます。

多くの場合、これらはデータから得られます。推論は非常に急速に進化しており、データ モデルは非常に重要であり、近い将来にはさらにインタラクティブなコンテンツが登場すると思います。まだ十分なトレーニングが行われていません。これは重要なコンテンツや要素ではないため、データをさらに肉付けする必要があります。

Noam Shazeer: ティーチングマシンの設計など、一部のデータの設計には、数億または数億の異なるトークンが関係する場合があります。

Ashish Vaswani: 私が言いたいのは、この分野では、いくつかのマイルストーンを達成した多くのパートナーがいるということです。最適な自動アルゴリズムは何ですか?実際には、現実世界のタスクをさまざまな内容に分解することです。私たちのモデルも非常に重要で、データを取得し、データが正しい場所にあるかどうかを確認するのに役立ちます。一方では、データに集中するのに役立ちますが、他方では、そのようなデータは抽象的なタスクを完了するための高品質のモデルを提供します。したがって、この進歩を測定することも創造性の方法、科学の開発の方法、そして自動化の開発の方法であると私たちは信じています。

** Jen-Hsun Huang: 優れた測定システムがなければ、素晴らしいプロジェクトを実行することはできません。お互いに何か質問はありますか? **

イリア・ポロスキン: 彼らがどのような措置を講じたかを知りたがる人は誰もいません。しかし実際には、私たちは自分たちがやっていることを理解して探索し、十分なデータと情報を入手して、合理的な推論をしたいと考えています。たとえば、6 つのステップがある場合、5 つのステップを推論することで、実際には 1 つのステップをスキップできます。 6 つのステップが必要ない場合もあれば、さらに多くのステップが必要な場合もあります。このようなシナリオをどのように再現すればよいでしょうか?トークンからさらに前進するには何が必要ですか?

Lukasz Kaiser: 私の個人的な考えでは、これほど大きなモデルを再現する方法は非常に複雑なプロセスであると考えています。システムは進化しますが、本質的には方法を工夫する必要があります。人間は再現が得意な生き物で、人類の歴史の中で成功シーンを繰り返し再現してきました。

** Jen-Hsun Huang: 皆さんとコミュニケーションをとることができてとてもうれしいです。皆さんがお互いにコミュニケーションをとり、言葉では言い表せない魔法を生み出す機会を得られることを願っています。この度はご参加いただき、誠にありがとうございました! **

原文表示
  • 報酬
  • コメント
  • 共有
コメント
コメントなし