私たちの暗号資産AIテーゼ(パートII):分散コンピューティングがキングである

上級12/18/2024, 2:24:57 AM
私の論文の第2部では、Crypto AIの最も有望な4つのサブセクターについて詳しく調査します: 分散型コンピュート:トレーニング、推論&GPUマーケットプレイス、データネットワーク、検証可能なAI、チェーン上で生活するAIエージェント。この記事は、数週間にわたる深い調査やCrypto AI分野の創設者やチームとの対話の集大成を表しています。これはすべてのセクターについて徹底的に掘り下げたものではなく、それは別の日のウサギの穴です。

私はこれを sacuden’t 大きなミスに。

それはまだ私を苦しめています。誰もが気をつけていれば、最も明白な賭けでしたが、私は一ドルも投資しませんでした。

いいえ、それは次のSolana killerでも、犬が面白い帽子を被っているmemecoinでもありませんでした。

それは…NVIDIA でした。

NVDA株価の年初来の推移。出典:Google

わずか1年で、NVDAは3倍になり、1兆ドルから3兆ドルの時価総額に跳ね上がりました。さらに、同じ期間においてビットコインを上回るパフォーマンスを示しました。

もちろん、それらの一部はAIの誇大広告です。しかし、それの大部分は現実に基づいています。NVIDIAはFY2024の売上高が600億ドルで、2023年から126%増加しました。この成長は、ビッグテックがGPUを世界的なAI競争でAGIに向けて大量購入したことによるものです。

なぜ私はそれを見逃したのか?

2年間、私は暗号資産に集中し、AIの進展を見逃していました。それは大きな間違いであり、今でも私を苛立たせています。

しかし、私は同じ間違いを二度と繰り返さないつもりです。

今日、暗号資産AIは不気味に似ています。イノベーションの爆発の瀬戸際にいます。19世紀中頃のカリフォルニア・ゴールドラッシュとの類似点は無視できません。産業や都市が一夜にして生まれ、インフラが猛スピードで進化し、大金を手にしたのは、飛び込んだ者たちでした。

NVIDIA の初期の頃と同様に、Crypto AI は後になって明らかに感じるでしょう。

In 私の論文のパートI, 私はなぜ暗号資産AIが投資家やビルダーにとって今日最もエキサイティングな穴場の機会であるかを説明しました。

ここで簡単に振り返ります:

  • Many still dismiss it as “vaporware.”
  • 暗号資産AIはまだ初期段階にあり、ピークの興奮までおそらく1〜2年かかるでしょう。
  • この領域には、最低でも2300億ドル以上の成長機会があります。

その核心にあるのは、Crypto AIはトップに暗号インフラストラクチャが重ねられたAIです。これは、一般の暗号市場よりもAIの指数関数的な成長軌道を追跡する可能性が高いことを意味します。したがって、先を見越すためには、Arxivで最新のAI研究に注目し、次なる大物を築き上げていると信じている創業者と話す必要があります。

私の論文の第II部では、Crypto AIの最も有望な4つのサブセクターについて詳しく取り上げます。

  1. 分散コンピューティング:トレーニング、推論&GPUマーケットプレイス
  2. データネットワーク
  3. 検証可能なAI
  4. チェーン上で生活するAIエージェント

この記事は、数週間にわたる深い研究と、暗号AI分野の創設者やチームとの対話の集大成を表しています。これはあらゆるセクターに徹底的に踏み込むためのものではありません。それは別の日のための兎穴です。

代わりに、それを興味をそそるために作られた高いレベルのロードマップと考え、研究を磨き、投資の考えを導くものと考えてください。

景色をマッピングする

分散型AIスタックを階層化されたエコシステムとして描く: それは分散型コンピューティングとオープンデータネットワークから始まり、分散型AIモデルトレーニングを支えるものです。

すべての推論は、暗号化、暗号経済的インセンティブ、評価ネットワークの組み合わせを使用して検証されます。これらの検証された出力は、チェーン上で自律的に動作できるAIエージェントや、実際に信頼できるユーザー向けの消費者およびエンタープライズAIアプリケーションに流れ込みます。

連携ネットワークはすべてを結びつけ、エコシステム全体でのシームレスなコミュニケーションとコラボレーションを実現します。

このビジョンでは、AIを構築するすべての人が、特定のニーズに応じて、このスタックの1つ以上のレイヤーにアクセスできるようになります。モデルトレーニングに分散コンピュートを活用するか、評価ネットワークを使用して高品質な出力を確保するかに関わらず、このスタックはさまざまなオプションを提供しています。

ブロックチェーンの固有の合成性により、私たちは自然にモジュラーな未来に向かっていると信じています。各層はハイパースペシャリスト化しており、オールインワンの統合アプローチではなく、異なる機能に最適化されたプロトコルを持つようになっています。

ソース: topology.vc

分散型AIスタックのあらゆるレイヤーで構築するスタートアップがカンブリア紀に爆発的に増加しており、そのほとんどが過去1〜3年の間に設立されました。それは明らかです:私たちはまだ早いです。

私が見た中で最も包括的で最新の暗号資産AIスタートアップの地図は、Caseyと彼女のチームが管理しています。topology.vc. それは、この分野を追跡しているすべての人にとって貴重な情報源です。

暗号資産AIサブセクターに飛び込むと、私は常に自問自答しています: ここにはどれほどの機会があるのでしょうか?私は小さな賭けに興味はありません―数千億ドル規模にスケール可能な市場を探しています。

1. 市場規模

市場の規模から始めましょう。サブセクターを評価する際、自問自答します: それは新たな市場を創造しているのか、既存の市場を破壊しているのか?

例えば、分散型コンピューティングを考えてみましょう。これは、確立されたクラウドコンピューティング市場の規模を見ることで、その潜在能力を推測することができます。(~価値)今日の時価総額は$680Bそして2032年に$2.5Tに達すると予想されています。

歴史データのないAIエージェントなどの先例のない新しい市場を定量化するのは難しい。それらが解決している問題に関しての教育を受けた推測と直感的なチェックの組み合わせを用いることによって、その規模を把握する必要がある。そして落とし穴は、時には新しい市場のように見えるものが、実際には問題を解決しようとしている解決策に過ぎないことがある。

2. タイミング

タイミングはすべてです。 技術は時間とともに改善され、安くなりがちですが、進歩のペースは異なります。

特定のサブセクターの技術はどの程度成熟していますか?拡大する準備ができていますか、それとも実用的な応用は数年先ですか?タイミングは、セクターが直ちに注目に値するか、それとも「様子を見る」カテゴリーに置かれるべきかを決定します。

Fully Homomorphic Encryption(FHE)を例に取ると、その可能性は否定できませんが、現在は普及にはまだ速すぎます。主流の実用化までには数年かかる可能性が高いでしょう。まずはスケーリングに近い分野に焦点を当てることで、勢いや機会が築かれているところに時間とエネルギーを費やすことができます。

もし、これらのカテゴリをサイズ対タイミングのチャートにマッピングするとしたら、それはこのようなものになるでしょう。これはハードで早いガイドよりもむしろ概念的なスケッチであることを念頭に置いてください。たとえば、検証可能な推論の中でも、zkMLやopMLのような異なるアプローチが使用のための異なる準備レベルにあるという微妙な点がたくさんあります。

それは言うまでもなく、私はAIのスケールが非常に大きいため、今日の「ニッチ」に見えるものも重要な市場に発展する可能性があると確信しています。

技術の進歩は常に一直線に進むわけではなく、しばしば飛躍的に進むこともあるということは注目に値します。新たなブレークスルーが起こると、私の時期や市場規模に対する考え方も変わるでしょう。

このフレームワークを念頭に置いて、各サブセクターを分解してみましょう。

セクター1:分散コンピューティング

要約すると

  • 分散コンピュートは分散AIのバックボーンです。
  • GPUマーケットプレイス、分散型トレーニング、分散型推論は深く結びついており、共に繁栄しています。
  • 供給側は通常、小中規模のデータセンターや消費者向けGPUから供給されます。
  • 需要側は小さいですが成長しています。今日は価格に敏感で、レイテンシに無関心なユーザーや小規模なAIスタートアップから需要があります。
  • Web3 GPUマーケットプレイスにとって、最大の課題は実際にそれらが機能するようにすることです。
  • GPUを分散ネットワーク上でオーケストレーションするには、高度なエンジニアリングと、よく設計された堅牢なネットワークアーキテクチャが必要です。

1.1. GPUマーケットプレイス / コンピューティングネットワーク

いくつかの暗号資産AIチームは、需要に対してGPUの不足を利用して、グローバルな潜在的な計算能力のプールにアクセスする分散型ネットワークを構築することで、自己の立場を確立しようとしています。

GPUマーケットプレイスのコアバリュープロポジションは3つあります:

  1. AWSよりも「最大90%安い価格で」コンピュートにアクセスできます。これは(1)仲介業者を排除し、(2)供給側を開放することによるものです。基本的に、これらのマーケットプレイスを利用すると、グローバルな最低限のコンピュートコストにアクセスできます。
  2. より柔軟性のある:契約の縛りがなく、KYCも不要で、待ち時間もありません。
  3. 検閲抵抗性

市場の供給側に取り組むために、これらのマーケットプレイスはコンピュートを供給元から提供しています:

  • 小規模から中規模のデータセンターからのエンタープライズグレードのGPU(例:A100、H100など)は、独自で需要を見つけるのに苦労しています。また、ビットコインマイナーは多様化を図っています。また、技術の成長イニシアチブの一環としてデータセンターが建設された大規模な政府資金によるインフラプロジェクトに参加しているチームも知っています。これらのプロバイダーは、GPUの償却コストを相殺するのに役立つネットワーク上でGPUを維持することを推奨されることがよくあります。
  • 数百万人のゲーマーや家庭ユーザーが、トークンのインセンティブと引き換えに、ネットワークにコンピュータを接続することで提供されるコンシューマーグレードのGPU

一方、今日の分散コンピューティングへの需要側は、以下の通りです:

  1. 価格に敏感で遅延に敏感でないユーザー。このセグメントは速度よりも手頃な価格を重視します。新しい分野を探求する研究者、個人のAI開発者、リアルタイム処理が必要ないコスト意識の高いユーザーなどを想定しています。予算の制約のため、彼らの多くはAWSやAzureのような従来のハイパースケーラーに苦労するかもしれません。彼らは人口に広く分布しているため、ターゲティングマーケティングはこのグループを引き込むために重要です。
  2. 主要なクラウドプロバイダーとの長期契約に縛られることなく、柔軟でスケーラブルなコンピューティングリソースを確保することは、小規模なAIスタートアップにとって課題となっています。ビジネス開発は、このセグメントを引き付けるために重要です。彼らはハイパースケーラーロックインの代替手段を積極的に探しています。
  3. 自前のコンピューティングリソースを持たない分散型AI製品を開発している暗号資産AIスタートアップは、これらのネットワークのリソースを利用する必要があります。
  4. クラウドゲーミング:直接的にAIによるものではありませんが、クラウドゲーミングはGPUリソースの需要の上昇源です。

忘れないでください: 開発者は常にコストと信頼性を優先します。

本当の課題:需要ではなく供給

この分野のスタートアップは、しばしばGPU供給ネットワークの規模を成功の兆候として誇示します。しかし、これは誤解を招くものであり、それが最善の場合でも虚栄心の指標に過ぎません。

実際の制約は供給ではなく需要です。追跡する主要な指標は、利用率と実際にレンタルされたGPUの数であり、利用可能なGPUの数ではありません。

トークンは、供給側の立ち上げに優れており、迅速にスケールアップするために必要なインセンティブを作成することができます。ただし、それらは本来的に需要の問題を解決するものではありません。真のテストは、潜在的な需要が具体化する十分な状態に製品を持ってくることです。

Haseeb Qureshi(Dragonfly)が最善を尽くす:

実際に機能するコンピュートネットワークを作る

一般的な考えとは異なり、現在のweb3分散GPUマーケットプレイスにおける最大の障壁は、適切に機能するようにすることにあります。

これは取るに足らない問題ではありません。

分散ネットワーク全体でGPUを組織化することは複雑であり、さまざまな地理的位置に散らばった多様なハードウェアを扱うリソース割り当て、動的ワークロードのスケーリング、ノードとGPU間の負荷分散、遅延管理、データ転送、障害耐性など、さまざまな課題が存在します。

これを達成するには、真剣なエンジニアリングと堅牢な、適切に設計されたネットワークアーキテクチャが必要です。

GoogleのKubernetesを例に挙げると、これはコンテナのオーケストレーションのための金の基準として広く認識されています。負荷分散や分散環境でのスケーリングなどのプロセスを自動化します。これは分散GPUネットワークが直面する課題と非常に類似しています。Kubernetes自体はGoogleの10年以上にわたる経験を元に構築されましたが、それでも、正しく機能するようになるまで何年もの執拗な反復作業が必要でした。

すでに利用可能ないくつかのGPUコンピューティングマーケットプレイスは、小規模なワークロードを処理できますが、スケーリングを試みるとすぐに欠陥が現れ始めます。これは、設計が不十分なアーキテクチャ上に構築されていたためだと思われます。

分散型コンピュートネットワークのもう一つの課題/機会は、信頼性の確保です。各ノードが実際に提供している計算能力を確認することです。現在、これはネットワークの評判に依存しており、一部の場合では、計算プロバイダーは評判スコアでランク付けされています。ブロックチェーンは、信頼できない検証システムには自然な適合性があるように思われます。スタートアップ企業のようなものGensynそしてスフェロンは、この問題を解決するために信頼できないアプローチを推進しています。

今日、多くのWeb3チームはまだこれらの課題に取り組んでいますが、そのための機会は広がっています。

分散型コンピュート市場規模

分散コンピュートネットワークの市場規模はどのくらいですか?

今日、それはおそらく$680B - $2.5Tのクラウドコンピューティング産業のごくわずかな部分に過ぎません。しかし、ユーザーにとって追加の摩擦があるにもかかわらず、コストが従来のプロバイダーのそれよりも低い限り、常に需要があるでしょう。

トークンの補助金と価格に敏感でないユーザーからの供給の解除の組み合わせにより、コストは近い将来から中期まで低いままであると考えています(たとえば、ゲーミングノートパソコンを追加の現金のために貸し出すことができれば、月額20ドルでも50ドルでも満足しています)。

しかし、分散型コンピュートネットワークの真の成長ポテンシャル、そしてそのTAMの実際の拡大は、次のような場合に訪れます:

  1. AIモデルの分散トレーニングは実用的になります
  2. 推論の需要が急増し、既存のデータセンターではそれを満たすことができません。これはすでに始まっています。ジェンセン・ファンは、推論の需要が増加していくと述べています。「一億倍に増加する」.
  3. 適切なサービスレベル契約(SLA)が利用可能になり、企業の採用の重要な障壁に対処します。現在、分散コンピューティングはベストエフォートの基準で動作しており、ユーザーにはさまざまなサービス品質(例:%の稼働時間)が残されています。SLAが設定されていると、これらのネットワークは標準化された信頼性とパフォーマンスの指標を提供でき、分散コンピューティングは従来のクラウドコンピュートプロバイダーに対する実用的な代替手段となり得ます。

分散化された、許可なしの計算は、分散化されたAIエコシステムの基盤としての基本的なインフラストラクチャです。

シリコン(つまりGPU)の供給チェーンの拡大が続いていますが、私は人類の知能時代が始まったばかりだと信じています。計算ニーズは枯渇することはありません。

すべての稼働中のGPUマーケットプレイスの大幅な再評価を引き起こす可能性のある転換点に注意してください。おそらく近々やって来るでしょう。

その他の注意事項:

  • 純粋なGPUマーケットプレイスは混雑しており、分散プラットフォーム間の競争も激化しています。rise of web2 AI neocloudsVast.aiとLambdaのようなもの。
  • 小さなノード(たとえば、4 x H100)は使用範囲が限られているため、需要があまりありませんが、大規模なクラスタを売っている人を見つけるのは幸運です。それらはまだ深刻な需要があります。
  • 支配的なプレーヤーは、分散型プロトコルのすべてのコンピューティング供給を集約するのでしょうか、それとも複数の市場間で断片化されたままになるのでしょうか?私は前者とべき乗則の分布に傾いていますが、これは統合によってインフラストラクチャの効率が向上することが多いためです。しかし、それが実現するまでには時間がかかり、その間、断片化と混乱は続きます。
  • 開発者はアプリケーションの構築に集中したいので、展開と設定に対処する必要はありません。マーケットプレイスは、これらの複雑さを抽象化し、コンピューティングへのアクセスをできるだけ摩擦のないものにする必要があります。

1.2. 分散型トレーニング

TL;dr

  • スケーリング法則が成立する場合、単一のデータセンターで次世代のフロンティアAIモデルをトレーニングすることは、いつか物理的に不可能になるでしょう。
  • AIモデルのトレーニングには、GPU間のデータ転送が多く必要です。分散GPU間のデータ転送(インターコネクト)速度が低いことは、しばしば最も大きな障壁となります。
  • 研究者は同時に複数のアプローチを探索しており、革新は起こっています(例:Open DiLoCo、DisTrO)。これらの進歩は積み重なり、進歩を加速させます。
  • 分散型トレーニングの将来はおそらく、フロンティア志向のAGIモデルではなく、ニッチなアプリケーション向けに設計された小規模で特化したモデルにあると考えられます。
  • 推論需要は、OpenAIのo1などのモデルにシフトすることで急速に拡大する可能性があり、分散推論ネットワークの機会が生まれています。

このように想像してみてください:巨大で世界を変えるようなAIモデルがありますが、それは秘密のエリート研究所ではなく、何百万もの普通の人々によって生み出されています。普段はCall of Dutyのシネマティックな爆発を生み出すゲーマーたちが、それらのハードウェアをより壮大な何かに貸与しています。中央のゲートキーパーがいないオープンソースで共同所有のAIモデルです。

この将来では、基礎的なスケールのモデルは、トップのAI研究所の領域に限られるものではありません。

しかし、このビジョンを今日の現実に基づけましょう。現時点では、重量級のAIトレーニングの大部分は中央集権化されたデータセンターに固定されており、しばらくはこの状況が続くでしょう。

OpenAIのような企業は、大規模なクラスターを拡大しています。最近、イーロン・マスクは発表xAIが、20万台のH100 GPUに相当するデータセンターの完成が迫っていることを誇示しています。

ただし、GPUの数だけではありません。モデルFLOPS利用率(MFU)-導入されたメトリックです。GoogleのPaLM論文2022年には、GPUの最大容量がどれだけ効果的に使用されているかを追跡します。驚くべきことに、MFUはしばしば35-40%程度にとどまります。

なぜそんなに低いのですか?GPUの性能は年々Mooreの法則に従って急速に向上していますが、ネットワーク、メモリ、およびストレージの改善は大幅に遅れており、ボトルネックを作成しています。その結果、GPUは頻繁にデータを待ちながらアイドル状態になります。

AIトレーニングは、1つの単語、つまり「効率」という理由で、今日でも非常に中央集権的なままです。

大規模モデルのトレーニングは、次のような技術に依存しています:

• データ並列処理:複数のGPUにデータセットを分割して並行して操作を行い、トレーニングプロセスを加速します。

• モデル並列処理:モデルの一部をGPU間に分散させ、メモリ制限を回避する

これらの方法は、データを常に交換するためにGPUを必要とし、ネットワーク内のコンピュータ間でデータが転送される速度である接続速度が絶対に必要です。

フロンティアAIモデルトレーニングのコストが10億ドルを超える場合、効率の向上は重要です。

高速インターコネクトを備えた集中型データセンターは、GPU間の高速データ転送を可能にし、分散型のセットアップではまだ到達できない訓練時間中の大幅なコスト削減を実現します。

低速なインターコネクト速度の克服

AIスペースで働く人々と話すと、多くの人が分散型トレーニングはうまくいかないと言うでしょう。

分散設定では、GPUクラスタは物理的に共有されていないため、それらの間でデータを転送すると速度が低下し、ボトルネックとなります。トレーニングには、GPUが各ステップで同期し、データを交換する必要があります。それらが離れているほど、遅延が増えます。遅延が大きいと、トレーニング速度が遅くなり、コストも上がります。

集中データセンターで数日かかることが、分散アプローチでは、高コストで2週間に及ぶ可能性があります。それでは単純に実現不可能です。

しかし、これは変わる予定です。

良いニュースは、分散トレーニングに関する研究への大きな関心の急増があったことです。研究者は、多くのアプローチを同時に探求しており、その証拠として、急増する研究と発表された論文が示されています。これらの進歩は積み重なり、進展を加速させることになります。

それはまた、本番でのテストと、どれだけ限界を押し広げることができるかを見ることについてもです。

いくつかの分散トレーニング技術はすでに、遅いインターコネクト環境で小さなモデルを処理できます。現在、フロンティアの研究では、これらの手法をますます大きなモデルに拡張することを目指しています。

  • 例えば、Prime Intellect’s DiCoLo論文を開くGoogle DeepMindの研究から始まった小さいモデルの研究は、11月には10兆パラメータのモデルのトレーニングにスケールアップされ、本日完全にオープンソース化されました。これにより、GPUの「島々」が同期する前に500回のローカルステップを実行するという実用的なアプローチが実証され、帯域幅要件が最大500倍削減されます。
  • Nous ResearchDisTrOフレームワークを使用して、最適化プログラムを使用して、1.2Bパラメーターモデルのトレーニング中におけるGPU間通信要件の驚異的な10,000倍の削減を実現することで、ハードルを引き上げる
  • そして勢いはますます増しています。12月に、Nousは、15Bパラメーターモデルの事前トレーニングを発表しました。損失曲線(モデルのエラーが時間とともにどのように減少するか)や収束率(モデルのパフォーマンスが安定する速度)が、通常の中央集権的なトレーニングセットアップで見られる結果を上回るか、あるいは一致するという結果です。はい、中央集権的なトレーニングセットアップよりも優れています。
  • SWARM ParallelismとDTFMHEは、異なる種類のデバイス間で非常に大規模なAIモデルを訓練するための他の方法です。それらのデバイスが異なる速度や接続を持っていても、訓練することができます。

別の課題は、典型的な分散ネットワークであるメモリ制限のあるコンシューマー向けGPUを含む多様なGPUハードウェアの管理です。モデル並列処理(デバイス間でモデルレイヤーを分割する)などの手法は、これを実現可能にするのに役立ちます。

分散型トレーニングの未来

現在の分散トレーニング方法は、まだフロンティアよりもはるかに小さいモデルサイズで限界となっています(報告によると、GPT-4は1兆パラメータに近く、Prime Intellectの10Bモデルの100倍の大きさです)。本当にスケールするためには、モデルアーキテクチャのブレークスルー、より良いネットワークインフラ、そしてデバイス間でのよりスマートなタスク分割が必要です。

そして、私たちは大きな夢を描くことができます。最大の中央集権化されたデータセンターですら集めることができないほどのGPUコンピューティングパワーを分散化したトレーニングが集約する世界を想像してみてください。

プララリスリサーチ(分散型トレーニングの優れたチーム、注目すべきものの一つ)は、これが可能だけでなく、避けられないと主張しています。中央集権化されたデータセンターは、空間や電力の利用可能性、一方で、分散型ネットワークは事実上無限のグローバルリソースを利用することができます。

NVIDIAのJensen Huangも認めているように、非同期分散トレーニングAIスケーリングの真の可能性を解き放つことができます。分散トレーニングネットワークは、より耐障害性もあります。

したがって、潜在的な将来の1つでは、世界で最も強力なAIモデルは分散型の方法で訓練されるでしょう。

それは興味深い見通しですが、まだ完全に納得していません。最大のモデルの分散トレーニングが技術的にも経済的にも実現可能であることを示すより強力な証拠が必要です。

私が非常に有望と考えるのはここです:分散型トレーニングのスイートスポットは、超大型のAGI駆動のフロンティアモデルと競合するのではなく、ターゲットとなるユースケース向けに設計された、小規模で特化したオープンソースモデルにあるかもしれません。特に非トランスフォーマーモデルなどの特定のアーキテクチャは、既に分散型セットアップに適していることが証明されています。

そして、このパズルのもう1つの要素があります: トークン。分散型トレーニングが規模で実現可能になると、トークンは貢献者を動機付けし、報酬を与えるために重要な役割を果たすかもしれません。これにより、これらのネットワークを効果的にブートストラップすることができます。

このビジョンへの道は長いですが、進歩は大変エンカレージングです。分散型トレーニングの進歩は誰にとっても利益をもたらします。大手テック企業やトップレベルのAI研究所を含め、将来のモデルの規模は単一のデータセンターの容量を超えるためです。

未来は分散型です。そして、そのような広範な可能性を持つ技術は、歴史が示すように、誰もが予想しているよりもはるかに良く、速くなります。

1.3. 分散型推論

現在、AIの大部分の計算能力は、巨大なモデルのトレーニングに注がれています。トップのAI研究所は、最高の基礎モデルを開発し、最終的にAGIを実現するために競争しています。

しかし、以下は私の意見です:このトレーニングに集中した高度な計算は、将来的には推論にシフトするでしょう。人工知能が日常的に使用されるアプリケーション(医療からエンターテイメントまで)にますます組み込まれるにつれて、推論をサポートするために必要な計算リソースは膨大になるでしょう。

そして、それは単なる推測だけではありません。推論時間の計算スケーリングは、AIの最新のキーワードです。OpenAIは最近、最新モデルo1(コードネーム:Strawberry)のプレビュー/ミニバージョンをリリースしましたが、大きな変化は?質問に答えるために取るべき手順は何かを自問することから始めて、それぞれの手順を進めていきます。

このモデルは、より複雑で計画重視のタスクに適しています。クロスワードパズルを解く—そして、より深い推論が必要な問題に取り組みます。 応答を生成するのに時間がかかり、遅いことに気づくでしょうが、その結果ははるかに慎重で微妙です。 実行するのにもずっと高価ですが(GPT-4のコストの25倍)

焦点のシフトは明確です: AIのパフォーマンスの次の飛躍は、より大きなモデルのトレーニングだけでなく、推論中のコンピュート使用のスケーリングアップからも生じます。

もっと読みたい場合、いくつかのリサーチ論文デモンストレーション:

  • 繰り返しサンプリングを通じた推論計算のスケーリングは、さまざまなタスクで大幅な改善をもたらします。
  • 推論にも指数関数的なスケーリング則が存在します。

一度強力なモデルが訓練されると、モデルが何かを行う推論タスクは、分散コンピュートネットワークにオフロードされる可能性があります。これはとても理にかなっています。

  • 推論はトレーニングよりもはるかにリソースを消費しません。 一度トレーニングされたモデルは、量子化、剪定、蒸留などの技術を使用して圧縮および最適化することができます。 さらに、テンソルまたはパイプライン並列処理を使用して分割し、日常の消費者デバイスで実行することもできます。 推論をパワーするために高性能GPUは必要ありません。
  • もう始まっています。Exo Labs450BパラメータのLlama3モデルをMacBookやMac Miniなどの消費者向けハードウェアで実行する方法を見つけました。多くのデバイスに推論を分散させることで、大規模なワークロードも効率的かつコスト効果的に処理できます。
  • ユーザーエクスペリエンスの向上。ユーザーに近い計算を実行することで、ゲーム、AR、自動運転などのリアルタイムアプリケーションにとって重要なレイテンシーが削減されます。ミリ秒単位での時間が重要です。

分散推論を考えると、これはAIのためのCDN(コンテンツ配信ネットワーク)のようなものです。近くのサーバーに接続してウェブサイトを迅速に提供する代わりに、分散推論はローカルな計算能力にアクセスしてAIの応答を瞬時に提供します。分散推論を取り入れることで、AIアプリはより効率的で、迅速で信頼性のあるものになります。

トレンドは明確です。Appleの新しいM4 ProチップNVIDIAのライバルRTX 3070 Tiは、最近までハードコアゲーマーの領域であったGPUです。既に持っているハードウェアは、高度なAIワークロードの処理能力がますます向上しています。

暗号資産の付加価値

分散型の推論ネットワークが成功するためには、参加するための魅力的な経済的インセンティブが必要です。ネットワーク内のノードは、計算への貢献に対して補償を受ける必要があります。システムは、報酬の公平かつ効率的な分配を確保する必要があります。地理的な多様性は必要不可欠であり、推論タスクのレイテンシを低減し、障害耐性を向上させる必要があります。

そして分散型ネットワークを構築する最良の方法は?暗号資産です。

トークンは、参加者の利害を一致させる強力なメカニズムを提供し、みんなが同じ目標に向かって働いていることを確認し、ネットワークの拡大とトークンの価値の向上を促進します。

トークンはネットワークの成長を加速させることもできます。彼らは、多くのネットワークを停滞させる古典的な鶏と卵の問題を解決し、初期採用者を報酬し、初日からの参加を促進します。

BitcoinとEthereumの成功は、既に地球上で最大の計算能力を集めていることを証明しています。

分散型推論ネットワークは次に来ます。地理的多様性を持ち、遅延を減らし、障害耐性を向上させ、AIをユーザーにより近づけます。また、暗号資産によるインセンティブを活用することで、従来のネットワークよりも速く、より良くスケールするでしょう。

免責事項:

  1. この記事は再掲載されました[[](https://www.chainofthought.xyz/p/our-crypto-ai-thesis-part-ii-decentralised-compute)[チェーン・オブ・ソウト](https://www.chainofthought.xyz/)\]. すべての著作権は元の作者に帰属します [テン・ヤン]. If there are objections to this reprint, please contact the ゲートラーンチームにお任せください。迅速に対応いたします。
  2. 免責事項:本文に表現されている見解や意見は、著者個人のものであり、投資アドバイスを提供するものではありません。
  3. 記事の翻訳は、gateのLearnチームによって他の言語に行われます。特に記載がない限り、翻訳された記事のコピー、配布、または盗作は禁止されています。

私たちの暗号資産AIテーゼ(パートII):分散コンピューティングがキングである

上級12/18/2024, 2:24:57 AM
私の論文の第2部では、Crypto AIの最も有望な4つのサブセクターについて詳しく調査します: 分散型コンピュート:トレーニング、推論&GPUマーケットプレイス、データネットワーク、検証可能なAI、チェーン上で生活するAIエージェント。この記事は、数週間にわたる深い調査やCrypto AI分野の創設者やチームとの対話の集大成を表しています。これはすべてのセクターについて徹底的に掘り下げたものではなく、それは別の日のウサギの穴です。

私はこれを sacuden’t 大きなミスに。

それはまだ私を苦しめています。誰もが気をつけていれば、最も明白な賭けでしたが、私は一ドルも投資しませんでした。

いいえ、それは次のSolana killerでも、犬が面白い帽子を被っているmemecoinでもありませんでした。

それは…NVIDIA でした。

NVDA株価の年初来の推移。出典:Google

わずか1年で、NVDAは3倍になり、1兆ドルから3兆ドルの時価総額に跳ね上がりました。さらに、同じ期間においてビットコインを上回るパフォーマンスを示しました。

もちろん、それらの一部はAIの誇大広告です。しかし、それの大部分は現実に基づいています。NVIDIAはFY2024の売上高が600億ドルで、2023年から126%増加しました。この成長は、ビッグテックがGPUを世界的なAI競争でAGIに向けて大量購入したことによるものです。

なぜ私はそれを見逃したのか?

2年間、私は暗号資産に集中し、AIの進展を見逃していました。それは大きな間違いであり、今でも私を苛立たせています。

しかし、私は同じ間違いを二度と繰り返さないつもりです。

今日、暗号資産AIは不気味に似ています。イノベーションの爆発の瀬戸際にいます。19世紀中頃のカリフォルニア・ゴールドラッシュとの類似点は無視できません。産業や都市が一夜にして生まれ、インフラが猛スピードで進化し、大金を手にしたのは、飛び込んだ者たちでした。

NVIDIA の初期の頃と同様に、Crypto AI は後になって明らかに感じるでしょう。

In 私の論文のパートI, 私はなぜ暗号資産AIが投資家やビルダーにとって今日最もエキサイティングな穴場の機会であるかを説明しました。

ここで簡単に振り返ります:

  • Many still dismiss it as “vaporware.”
  • 暗号資産AIはまだ初期段階にあり、ピークの興奮までおそらく1〜2年かかるでしょう。
  • この領域には、最低でも2300億ドル以上の成長機会があります。

その核心にあるのは、Crypto AIはトップに暗号インフラストラクチャが重ねられたAIです。これは、一般の暗号市場よりもAIの指数関数的な成長軌道を追跡する可能性が高いことを意味します。したがって、先を見越すためには、Arxivで最新のAI研究に注目し、次なる大物を築き上げていると信じている創業者と話す必要があります。

私の論文の第II部では、Crypto AIの最も有望な4つのサブセクターについて詳しく取り上げます。

  1. 分散コンピューティング:トレーニング、推論&GPUマーケットプレイス
  2. データネットワーク
  3. 検証可能なAI
  4. チェーン上で生活するAIエージェント

この記事は、数週間にわたる深い研究と、暗号AI分野の創設者やチームとの対話の集大成を表しています。これはあらゆるセクターに徹底的に踏み込むためのものではありません。それは別の日のための兎穴です。

代わりに、それを興味をそそるために作られた高いレベルのロードマップと考え、研究を磨き、投資の考えを導くものと考えてください。

景色をマッピングする

分散型AIスタックを階層化されたエコシステムとして描く: それは分散型コンピューティングとオープンデータネットワークから始まり、分散型AIモデルトレーニングを支えるものです。

すべての推論は、暗号化、暗号経済的インセンティブ、評価ネットワークの組み合わせを使用して検証されます。これらの検証された出力は、チェーン上で自律的に動作できるAIエージェントや、実際に信頼できるユーザー向けの消費者およびエンタープライズAIアプリケーションに流れ込みます。

連携ネットワークはすべてを結びつけ、エコシステム全体でのシームレスなコミュニケーションとコラボレーションを実現します。

このビジョンでは、AIを構築するすべての人が、特定のニーズに応じて、このスタックの1つ以上のレイヤーにアクセスできるようになります。モデルトレーニングに分散コンピュートを活用するか、評価ネットワークを使用して高品質な出力を確保するかに関わらず、このスタックはさまざまなオプションを提供しています。

ブロックチェーンの固有の合成性により、私たちは自然にモジュラーな未来に向かっていると信じています。各層はハイパースペシャリスト化しており、オールインワンの統合アプローチではなく、異なる機能に最適化されたプロトコルを持つようになっています。

ソース: topology.vc

分散型AIスタックのあらゆるレイヤーで構築するスタートアップがカンブリア紀に爆発的に増加しており、そのほとんどが過去1〜3年の間に設立されました。それは明らかです:私たちはまだ早いです。

私が見た中で最も包括的で最新の暗号資産AIスタートアップの地図は、Caseyと彼女のチームが管理しています。topology.vc. それは、この分野を追跡しているすべての人にとって貴重な情報源です。

暗号資産AIサブセクターに飛び込むと、私は常に自問自答しています: ここにはどれほどの機会があるのでしょうか?私は小さな賭けに興味はありません―数千億ドル規模にスケール可能な市場を探しています。

1. 市場規模

市場の規模から始めましょう。サブセクターを評価する際、自問自答します: それは新たな市場を創造しているのか、既存の市場を破壊しているのか?

例えば、分散型コンピューティングを考えてみましょう。これは、確立されたクラウドコンピューティング市場の規模を見ることで、その潜在能力を推測することができます。(~価値)今日の時価総額は$680Bそして2032年に$2.5Tに達すると予想されています。

歴史データのないAIエージェントなどの先例のない新しい市場を定量化するのは難しい。それらが解決している問題に関しての教育を受けた推測と直感的なチェックの組み合わせを用いることによって、その規模を把握する必要がある。そして落とし穴は、時には新しい市場のように見えるものが、実際には問題を解決しようとしている解決策に過ぎないことがある。

2. タイミング

タイミングはすべてです。 技術は時間とともに改善され、安くなりがちですが、進歩のペースは異なります。

特定のサブセクターの技術はどの程度成熟していますか?拡大する準備ができていますか、それとも実用的な応用は数年先ですか?タイミングは、セクターが直ちに注目に値するか、それとも「様子を見る」カテゴリーに置かれるべきかを決定します。

Fully Homomorphic Encryption(FHE)を例に取ると、その可能性は否定できませんが、現在は普及にはまだ速すぎます。主流の実用化までには数年かかる可能性が高いでしょう。まずはスケーリングに近い分野に焦点を当てることで、勢いや機会が築かれているところに時間とエネルギーを費やすことができます。

もし、これらのカテゴリをサイズ対タイミングのチャートにマッピングするとしたら、それはこのようなものになるでしょう。これはハードで早いガイドよりもむしろ概念的なスケッチであることを念頭に置いてください。たとえば、検証可能な推論の中でも、zkMLやopMLのような異なるアプローチが使用のための異なる準備レベルにあるという微妙な点がたくさんあります。

それは言うまでもなく、私はAIのスケールが非常に大きいため、今日の「ニッチ」に見えるものも重要な市場に発展する可能性があると確信しています。

技術の進歩は常に一直線に進むわけではなく、しばしば飛躍的に進むこともあるということは注目に値します。新たなブレークスルーが起こると、私の時期や市場規模に対する考え方も変わるでしょう。

このフレームワークを念頭に置いて、各サブセクターを分解してみましょう。

セクター1:分散コンピューティング

要約すると

  • 分散コンピュートは分散AIのバックボーンです。
  • GPUマーケットプレイス、分散型トレーニング、分散型推論は深く結びついており、共に繁栄しています。
  • 供給側は通常、小中規模のデータセンターや消費者向けGPUから供給されます。
  • 需要側は小さいですが成長しています。今日は価格に敏感で、レイテンシに無関心なユーザーや小規模なAIスタートアップから需要があります。
  • Web3 GPUマーケットプレイスにとって、最大の課題は実際にそれらが機能するようにすることです。
  • GPUを分散ネットワーク上でオーケストレーションするには、高度なエンジニアリングと、よく設計された堅牢なネットワークアーキテクチャが必要です。

1.1. GPUマーケットプレイス / コンピューティングネットワーク

いくつかの暗号資産AIチームは、需要に対してGPUの不足を利用して、グローバルな潜在的な計算能力のプールにアクセスする分散型ネットワークを構築することで、自己の立場を確立しようとしています。

GPUマーケットプレイスのコアバリュープロポジションは3つあります:

  1. AWSよりも「最大90%安い価格で」コンピュートにアクセスできます。これは(1)仲介業者を排除し、(2)供給側を開放することによるものです。基本的に、これらのマーケットプレイスを利用すると、グローバルな最低限のコンピュートコストにアクセスできます。
  2. より柔軟性のある:契約の縛りがなく、KYCも不要で、待ち時間もありません。
  3. 検閲抵抗性

市場の供給側に取り組むために、これらのマーケットプレイスはコンピュートを供給元から提供しています:

  • 小規模から中規模のデータセンターからのエンタープライズグレードのGPU(例:A100、H100など)は、独自で需要を見つけるのに苦労しています。また、ビットコインマイナーは多様化を図っています。また、技術の成長イニシアチブの一環としてデータセンターが建設された大規模な政府資金によるインフラプロジェクトに参加しているチームも知っています。これらのプロバイダーは、GPUの償却コストを相殺するのに役立つネットワーク上でGPUを維持することを推奨されることがよくあります。
  • 数百万人のゲーマーや家庭ユーザーが、トークンのインセンティブと引き換えに、ネットワークにコンピュータを接続することで提供されるコンシューマーグレードのGPU

一方、今日の分散コンピューティングへの需要側は、以下の通りです:

  1. 価格に敏感で遅延に敏感でないユーザー。このセグメントは速度よりも手頃な価格を重視します。新しい分野を探求する研究者、個人のAI開発者、リアルタイム処理が必要ないコスト意識の高いユーザーなどを想定しています。予算の制約のため、彼らの多くはAWSやAzureのような従来のハイパースケーラーに苦労するかもしれません。彼らは人口に広く分布しているため、ターゲティングマーケティングはこのグループを引き込むために重要です。
  2. 主要なクラウドプロバイダーとの長期契約に縛られることなく、柔軟でスケーラブルなコンピューティングリソースを確保することは、小規模なAIスタートアップにとって課題となっています。ビジネス開発は、このセグメントを引き付けるために重要です。彼らはハイパースケーラーロックインの代替手段を積極的に探しています。
  3. 自前のコンピューティングリソースを持たない分散型AI製品を開発している暗号資産AIスタートアップは、これらのネットワークのリソースを利用する必要があります。
  4. クラウドゲーミング:直接的にAIによるものではありませんが、クラウドゲーミングはGPUリソースの需要の上昇源です。

忘れないでください: 開発者は常にコストと信頼性を優先します。

本当の課題:需要ではなく供給

この分野のスタートアップは、しばしばGPU供給ネットワークの規模を成功の兆候として誇示します。しかし、これは誤解を招くものであり、それが最善の場合でも虚栄心の指標に過ぎません。

実際の制約は供給ではなく需要です。追跡する主要な指標は、利用率と実際にレンタルされたGPUの数であり、利用可能なGPUの数ではありません。

トークンは、供給側の立ち上げに優れており、迅速にスケールアップするために必要なインセンティブを作成することができます。ただし、それらは本来的に需要の問題を解決するものではありません。真のテストは、潜在的な需要が具体化する十分な状態に製品を持ってくることです。

Haseeb Qureshi(Dragonfly)が最善を尽くす:

実際に機能するコンピュートネットワークを作る

一般的な考えとは異なり、現在のweb3分散GPUマーケットプレイスにおける最大の障壁は、適切に機能するようにすることにあります。

これは取るに足らない問題ではありません。

分散ネットワーク全体でGPUを組織化することは複雑であり、さまざまな地理的位置に散らばった多様なハードウェアを扱うリソース割り当て、動的ワークロードのスケーリング、ノードとGPU間の負荷分散、遅延管理、データ転送、障害耐性など、さまざまな課題が存在します。

これを達成するには、真剣なエンジニアリングと堅牢な、適切に設計されたネットワークアーキテクチャが必要です。

GoogleのKubernetesを例に挙げると、これはコンテナのオーケストレーションのための金の基準として広く認識されています。負荷分散や分散環境でのスケーリングなどのプロセスを自動化します。これは分散GPUネットワークが直面する課題と非常に類似しています。Kubernetes自体はGoogleの10年以上にわたる経験を元に構築されましたが、それでも、正しく機能するようになるまで何年もの執拗な反復作業が必要でした。

すでに利用可能ないくつかのGPUコンピューティングマーケットプレイスは、小規模なワークロードを処理できますが、スケーリングを試みるとすぐに欠陥が現れ始めます。これは、設計が不十分なアーキテクチャ上に構築されていたためだと思われます。

分散型コンピュートネットワークのもう一つの課題/機会は、信頼性の確保です。各ノードが実際に提供している計算能力を確認することです。現在、これはネットワークの評判に依存しており、一部の場合では、計算プロバイダーは評判スコアでランク付けされています。ブロックチェーンは、信頼できない検証システムには自然な適合性があるように思われます。スタートアップ企業のようなものGensynそしてスフェロンは、この問題を解決するために信頼できないアプローチを推進しています。

今日、多くのWeb3チームはまだこれらの課題に取り組んでいますが、そのための機会は広がっています。

分散型コンピュート市場規模

分散コンピュートネットワークの市場規模はどのくらいですか?

今日、それはおそらく$680B - $2.5Tのクラウドコンピューティング産業のごくわずかな部分に過ぎません。しかし、ユーザーにとって追加の摩擦があるにもかかわらず、コストが従来のプロバイダーのそれよりも低い限り、常に需要があるでしょう。

トークンの補助金と価格に敏感でないユーザーからの供給の解除の組み合わせにより、コストは近い将来から中期まで低いままであると考えています(たとえば、ゲーミングノートパソコンを追加の現金のために貸し出すことができれば、月額20ドルでも50ドルでも満足しています)。

しかし、分散型コンピュートネットワークの真の成長ポテンシャル、そしてそのTAMの実際の拡大は、次のような場合に訪れます:

  1. AIモデルの分散トレーニングは実用的になります
  2. 推論の需要が急増し、既存のデータセンターではそれを満たすことができません。これはすでに始まっています。ジェンセン・ファンは、推論の需要が増加していくと述べています。「一億倍に増加する」.
  3. 適切なサービスレベル契約(SLA)が利用可能になり、企業の採用の重要な障壁に対処します。現在、分散コンピューティングはベストエフォートの基準で動作しており、ユーザーにはさまざまなサービス品質(例:%の稼働時間)が残されています。SLAが設定されていると、これらのネットワークは標準化された信頼性とパフォーマンスの指標を提供でき、分散コンピューティングは従来のクラウドコンピュートプロバイダーに対する実用的な代替手段となり得ます。

分散化された、許可なしの計算は、分散化されたAIエコシステムの基盤としての基本的なインフラストラクチャです。

シリコン(つまりGPU)の供給チェーンの拡大が続いていますが、私は人類の知能時代が始まったばかりだと信じています。計算ニーズは枯渇することはありません。

すべての稼働中のGPUマーケットプレイスの大幅な再評価を引き起こす可能性のある転換点に注意してください。おそらく近々やって来るでしょう。

その他の注意事項:

  • 純粋なGPUマーケットプレイスは混雑しており、分散プラットフォーム間の競争も激化しています。rise of web2 AI neocloudsVast.aiとLambdaのようなもの。
  • 小さなノード(たとえば、4 x H100)は使用範囲が限られているため、需要があまりありませんが、大規模なクラスタを売っている人を見つけるのは幸運です。それらはまだ深刻な需要があります。
  • 支配的なプレーヤーは、分散型プロトコルのすべてのコンピューティング供給を集約するのでしょうか、それとも複数の市場間で断片化されたままになるのでしょうか?私は前者とべき乗則の分布に傾いていますが、これは統合によってインフラストラクチャの効率が向上することが多いためです。しかし、それが実現するまでには時間がかかり、その間、断片化と混乱は続きます。
  • 開発者はアプリケーションの構築に集中したいので、展開と設定に対処する必要はありません。マーケットプレイスは、これらの複雑さを抽象化し、コンピューティングへのアクセスをできるだけ摩擦のないものにする必要があります。

1.2. 分散型トレーニング

TL;dr

  • スケーリング法則が成立する場合、単一のデータセンターで次世代のフロンティアAIモデルをトレーニングすることは、いつか物理的に不可能になるでしょう。
  • AIモデルのトレーニングには、GPU間のデータ転送が多く必要です。分散GPU間のデータ転送(インターコネクト)速度が低いことは、しばしば最も大きな障壁となります。
  • 研究者は同時に複数のアプローチを探索しており、革新は起こっています(例:Open DiLoCo、DisTrO)。これらの進歩は積み重なり、進歩を加速させます。
  • 分散型トレーニングの将来はおそらく、フロンティア志向のAGIモデルではなく、ニッチなアプリケーション向けに設計された小規模で特化したモデルにあると考えられます。
  • 推論需要は、OpenAIのo1などのモデルにシフトすることで急速に拡大する可能性があり、分散推論ネットワークの機会が生まれています。

このように想像してみてください:巨大で世界を変えるようなAIモデルがありますが、それは秘密のエリート研究所ではなく、何百万もの普通の人々によって生み出されています。普段はCall of Dutyのシネマティックな爆発を生み出すゲーマーたちが、それらのハードウェアをより壮大な何かに貸与しています。中央のゲートキーパーがいないオープンソースで共同所有のAIモデルです。

この将来では、基礎的なスケールのモデルは、トップのAI研究所の領域に限られるものではありません。

しかし、このビジョンを今日の現実に基づけましょう。現時点では、重量級のAIトレーニングの大部分は中央集権化されたデータセンターに固定されており、しばらくはこの状況が続くでしょう。

OpenAIのような企業は、大規模なクラスターを拡大しています。最近、イーロン・マスクは発表xAIが、20万台のH100 GPUに相当するデータセンターの完成が迫っていることを誇示しています。

ただし、GPUの数だけではありません。モデルFLOPS利用率(MFU)-導入されたメトリックです。GoogleのPaLM論文2022年には、GPUの最大容量がどれだけ効果的に使用されているかを追跡します。驚くべきことに、MFUはしばしば35-40%程度にとどまります。

なぜそんなに低いのですか?GPUの性能は年々Mooreの法則に従って急速に向上していますが、ネットワーク、メモリ、およびストレージの改善は大幅に遅れており、ボトルネックを作成しています。その結果、GPUは頻繁にデータを待ちながらアイドル状態になります。

AIトレーニングは、1つの単語、つまり「効率」という理由で、今日でも非常に中央集権的なままです。

大規模モデルのトレーニングは、次のような技術に依存しています:

• データ並列処理:複数のGPUにデータセットを分割して並行して操作を行い、トレーニングプロセスを加速します。

• モデル並列処理:モデルの一部をGPU間に分散させ、メモリ制限を回避する

これらの方法は、データを常に交換するためにGPUを必要とし、ネットワーク内のコンピュータ間でデータが転送される速度である接続速度が絶対に必要です。

フロンティアAIモデルトレーニングのコストが10億ドルを超える場合、効率の向上は重要です。

高速インターコネクトを備えた集中型データセンターは、GPU間の高速データ転送を可能にし、分散型のセットアップではまだ到達できない訓練時間中の大幅なコスト削減を実現します。

低速なインターコネクト速度の克服

AIスペースで働く人々と話すと、多くの人が分散型トレーニングはうまくいかないと言うでしょう。

分散設定では、GPUクラスタは物理的に共有されていないため、それらの間でデータを転送すると速度が低下し、ボトルネックとなります。トレーニングには、GPUが各ステップで同期し、データを交換する必要があります。それらが離れているほど、遅延が増えます。遅延が大きいと、トレーニング速度が遅くなり、コストも上がります。

集中データセンターで数日かかることが、分散アプローチでは、高コストで2週間に及ぶ可能性があります。それでは単純に実現不可能です。

しかし、これは変わる予定です。

良いニュースは、分散トレーニングに関する研究への大きな関心の急増があったことです。研究者は、多くのアプローチを同時に探求しており、その証拠として、急増する研究と発表された論文が示されています。これらの進歩は積み重なり、進展を加速させることになります。

それはまた、本番でのテストと、どれだけ限界を押し広げることができるかを見ることについてもです。

いくつかの分散トレーニング技術はすでに、遅いインターコネクト環境で小さなモデルを処理できます。現在、フロンティアの研究では、これらの手法をますます大きなモデルに拡張することを目指しています。

  • 例えば、Prime Intellect’s DiCoLo論文を開くGoogle DeepMindの研究から始まった小さいモデルの研究は、11月には10兆パラメータのモデルのトレーニングにスケールアップされ、本日完全にオープンソース化されました。これにより、GPUの「島々」が同期する前に500回のローカルステップを実行するという実用的なアプローチが実証され、帯域幅要件が最大500倍削減されます。
  • Nous ResearchDisTrOフレームワークを使用して、最適化プログラムを使用して、1.2Bパラメーターモデルのトレーニング中におけるGPU間通信要件の驚異的な10,000倍の削減を実現することで、ハードルを引き上げる
  • そして勢いはますます増しています。12月に、Nousは、15Bパラメーターモデルの事前トレーニングを発表しました。損失曲線(モデルのエラーが時間とともにどのように減少するか)や収束率(モデルのパフォーマンスが安定する速度)が、通常の中央集権的なトレーニングセットアップで見られる結果を上回るか、あるいは一致するという結果です。はい、中央集権的なトレーニングセットアップよりも優れています。
  • SWARM ParallelismとDTFMHEは、異なる種類のデバイス間で非常に大規模なAIモデルを訓練するための他の方法です。それらのデバイスが異なる速度や接続を持っていても、訓練することができます。

別の課題は、典型的な分散ネットワークであるメモリ制限のあるコンシューマー向けGPUを含む多様なGPUハードウェアの管理です。モデル並列処理(デバイス間でモデルレイヤーを分割する)などの手法は、これを実現可能にするのに役立ちます。

分散型トレーニングの未来

現在の分散トレーニング方法は、まだフロンティアよりもはるかに小さいモデルサイズで限界となっています(報告によると、GPT-4は1兆パラメータに近く、Prime Intellectの10Bモデルの100倍の大きさです)。本当にスケールするためには、モデルアーキテクチャのブレークスルー、より良いネットワークインフラ、そしてデバイス間でのよりスマートなタスク分割が必要です。

そして、私たちは大きな夢を描くことができます。最大の中央集権化されたデータセンターですら集めることができないほどのGPUコンピューティングパワーを分散化したトレーニングが集約する世界を想像してみてください。

プララリスリサーチ(分散型トレーニングの優れたチーム、注目すべきものの一つ)は、これが可能だけでなく、避けられないと主張しています。中央集権化されたデータセンターは、空間や電力の利用可能性、一方で、分散型ネットワークは事実上無限のグローバルリソースを利用することができます。

NVIDIAのJensen Huangも認めているように、非同期分散トレーニングAIスケーリングの真の可能性を解き放つことができます。分散トレーニングネットワークは、より耐障害性もあります。

したがって、潜在的な将来の1つでは、世界で最も強力なAIモデルは分散型の方法で訓練されるでしょう。

それは興味深い見通しですが、まだ完全に納得していません。最大のモデルの分散トレーニングが技術的にも経済的にも実現可能であることを示すより強力な証拠が必要です。

私が非常に有望と考えるのはここです:分散型トレーニングのスイートスポットは、超大型のAGI駆動のフロンティアモデルと競合するのではなく、ターゲットとなるユースケース向けに設計された、小規模で特化したオープンソースモデルにあるかもしれません。特に非トランスフォーマーモデルなどの特定のアーキテクチャは、既に分散型セットアップに適していることが証明されています。

そして、このパズルのもう1つの要素があります: トークン。分散型トレーニングが規模で実現可能になると、トークンは貢献者を動機付けし、報酬を与えるために重要な役割を果たすかもしれません。これにより、これらのネットワークを効果的にブートストラップすることができます。

このビジョンへの道は長いですが、進歩は大変エンカレージングです。分散型トレーニングの進歩は誰にとっても利益をもたらします。大手テック企業やトップレベルのAI研究所を含め、将来のモデルの規模は単一のデータセンターの容量を超えるためです。

未来は分散型です。そして、そのような広範な可能性を持つ技術は、歴史が示すように、誰もが予想しているよりもはるかに良く、速くなります。

1.3. 分散型推論

現在、AIの大部分の計算能力は、巨大なモデルのトレーニングに注がれています。トップのAI研究所は、最高の基礎モデルを開発し、最終的にAGIを実現するために競争しています。

しかし、以下は私の意見です:このトレーニングに集中した高度な計算は、将来的には推論にシフトするでしょう。人工知能が日常的に使用されるアプリケーション(医療からエンターテイメントまで)にますます組み込まれるにつれて、推論をサポートするために必要な計算リソースは膨大になるでしょう。

そして、それは単なる推測だけではありません。推論時間の計算スケーリングは、AIの最新のキーワードです。OpenAIは最近、最新モデルo1(コードネーム:Strawberry)のプレビュー/ミニバージョンをリリースしましたが、大きな変化は?質問に答えるために取るべき手順は何かを自問することから始めて、それぞれの手順を進めていきます。

このモデルは、より複雑で計画重視のタスクに適しています。クロスワードパズルを解く—そして、より深い推論が必要な問題に取り組みます。 応答を生成するのに時間がかかり、遅いことに気づくでしょうが、その結果ははるかに慎重で微妙です。 実行するのにもずっと高価ですが(GPT-4のコストの25倍)

焦点のシフトは明確です: AIのパフォーマンスの次の飛躍は、より大きなモデルのトレーニングだけでなく、推論中のコンピュート使用のスケーリングアップからも生じます。

もっと読みたい場合、いくつかのリサーチ論文デモンストレーション:

  • 繰り返しサンプリングを通じた推論計算のスケーリングは、さまざまなタスクで大幅な改善をもたらします。
  • 推論にも指数関数的なスケーリング則が存在します。

一度強力なモデルが訓練されると、モデルが何かを行う推論タスクは、分散コンピュートネットワークにオフロードされる可能性があります。これはとても理にかなっています。

  • 推論はトレーニングよりもはるかにリソースを消費しません。 一度トレーニングされたモデルは、量子化、剪定、蒸留などの技術を使用して圧縮および最適化することができます。 さらに、テンソルまたはパイプライン並列処理を使用して分割し、日常の消費者デバイスで実行することもできます。 推論をパワーするために高性能GPUは必要ありません。
  • もう始まっています。Exo Labs450BパラメータのLlama3モデルをMacBookやMac Miniなどの消費者向けハードウェアで実行する方法を見つけました。多くのデバイスに推論を分散させることで、大規模なワークロードも効率的かつコスト効果的に処理できます。
  • ユーザーエクスペリエンスの向上。ユーザーに近い計算を実行することで、ゲーム、AR、自動運転などのリアルタイムアプリケーションにとって重要なレイテンシーが削減されます。ミリ秒単位での時間が重要です。

分散推論を考えると、これはAIのためのCDN(コンテンツ配信ネットワーク)のようなものです。近くのサーバーに接続してウェブサイトを迅速に提供する代わりに、分散推論はローカルな計算能力にアクセスしてAIの応答を瞬時に提供します。分散推論を取り入れることで、AIアプリはより効率的で、迅速で信頼性のあるものになります。

トレンドは明確です。Appleの新しいM4 ProチップNVIDIAのライバルRTX 3070 Tiは、最近までハードコアゲーマーの領域であったGPUです。既に持っているハードウェアは、高度なAIワークロードの処理能力がますます向上しています。

暗号資産の付加価値

分散型の推論ネットワークが成功するためには、参加するための魅力的な経済的インセンティブが必要です。ネットワーク内のノードは、計算への貢献に対して補償を受ける必要があります。システムは、報酬の公平かつ効率的な分配を確保する必要があります。地理的な多様性は必要不可欠であり、推論タスクのレイテンシを低減し、障害耐性を向上させる必要があります。

そして分散型ネットワークを構築する最良の方法は?暗号資産です。

トークンは、参加者の利害を一致させる強力なメカニズムを提供し、みんなが同じ目標に向かって働いていることを確認し、ネットワークの拡大とトークンの価値の向上を促進します。

トークンはネットワークの成長を加速させることもできます。彼らは、多くのネットワークを停滞させる古典的な鶏と卵の問題を解決し、初期採用者を報酬し、初日からの参加を促進します。

BitcoinとEthereumの成功は、既に地球上で最大の計算能力を集めていることを証明しています。

分散型推論ネットワークは次に来ます。地理的多様性を持ち、遅延を減らし、障害耐性を向上させ、AIをユーザーにより近づけます。また、暗号資産によるインセンティブを活用することで、従来のネットワークよりも速く、より良くスケールするでしょう。

免責事項:

  1. この記事は再掲載されました[[](https://www.chainofthought.xyz/p/our-crypto-ai-thesis-part-ii-decentralised-compute)[チェーン・オブ・ソウト](https://www.chainofthought.xyz/)\]. すべての著作権は元の作者に帰属します [テン・ヤン]. If there are objections to this reprint, please contact the ゲートラーンチームにお任せください。迅速に対応いたします。
  2. 免責事項:本文に表現されている見解や意見は、著者個人のものであり、投資アドバイスを提供するものではありません。
  3. 記事の翻訳は、gateのLearnチームによって他の言語に行われます。特に記載がない限り、翻訳された記事のコピー、配布、または盗作は禁止されています。
今すぐ始める
登録して、
$100
のボーナスを獲得しよう!