GPTはテキストを翻訳してデータを要約し、マーケティングなどのさまざまな目的に適したコンテンツを作成できます。MetaのMegabyteは、OpenAiのGPT-4やChatGPTなどの他のGPTシステムが直面する障害を克服することを目的としています。Megabyteはトークン化を使用しないため、他のGPTモデルとは異なります。Megabyteモデルは、ローカルトランスフォーマー、パッチエンベッダーおよびグローバルトランスフォーマーで構成されます。
技術革新は、人間が対話し、個人やビジネスを含むさまざまなタスクを実行する方法に革命をもたらしました。機械学習とも呼ばれる人工知能は、エッセイを書いたり、財務計画を立てたりするなど、さまざまな活動を実行できます。この記事では、自然言語処理とそのアプリケーションにおける生成事前学習トランスフォーマー(GPT)の重要性、GPTのいくつかの障害を克服するMetaのMegabyteシステムにも焦点を当てます。
Generative Pre-trained トランスフォーマー(GPT)は、生産性を向上させ、社会的意識を高めるため、経済のさまざまな分野で多くの利点があります。まず、GPTがさまざまな主題について人間のようなテキストを作成することを知っておくことが重要です。
GPTは、さまざまなパラメーターを使用してデータを処理し、わかりやすい方法でデータを表示します。GPTを使用して人間と社会一般に価値を生み出すさまざまなアプリケーションがあります。
基本的に、GPTは、情報をある言語から別の言語に翻訳する人工知能駆動アプリケーションの重要なコンポーネントです。また、大量のデータを生成し、理解しやすい情報に要約します。場合によっては、GPTにより、詩、ブログ投稿、学術エッセイ、マーケティング資料などのさまざまな言語のコンテンツの生成が可能になります。
企業はGPTを使用して、会話形式で現実の人々と対話できるチャットボットや仮想アシスタントを強化することもでき、ビジネスや社会のさまざまな側面を理解するのに役立ちます。ビジネス目的では、興味のあるトピックや分野に関するセンチメント分析を生成できます。一例として、トレーダーや他の投資家が情報に基づいた投資決定を行えるようにする暗号資産市場のセンチメントを生成するAI主導のプロトコルがあります。
自然言語プロセスおよびAIアプリケーションにおけるGPTのその他の使用例には、マーケティング商品、顧客サービス、財務情報の分析、データ抽出およびレポート用のコンテンツ作成などが含まれます。
GPTの種類は色々あり、ChatGPTやOpenaiなどのさまざまなプラットフォームによって作成されていますが、そのほとんどには重大な制限があります。
OpenAIのGPT-4およびChatGPTを含む現在最高の生成AIモデルは、Google研究者によって導入されたトランスフォーマーアーキテクチャを使用します。自己注意スケールの増加と入力と出力の長さにより、各単語に注意が必要になるため課題が生じます。基本的に、このシステムは入力として使用される単語が少ない場合にうまく機能します。
ただし、Megabyte方式では、入力と出力のシーケンスをトークンではなくパッチに分割する異なるアーキテクチャが使用されているため、現在のモデルよりも多くのワードを処理できます。
また、Metaのアプローチは、現在市場に出ているほとんどのモデルに共通するスケーラビリティの問題を解決します。基本的に、Megabyteモデルでは、単一のフィードフォワードネットワークが複数のトークンで構成されるパッチに作用できるようになります。したがって、MetaのMegabyteシステムは、シリアルではなく並列で実行されます。これにより、ベースモデルに多くのパラメーターがある場合でも、効率が向上します。
こちらもお読みください:Metaについて、会社は何に取り組んでいますか?
ディープニューラルネットワークなどの一部のモデルは理解と説明が複雑で、信頼性や説明責任が低下し、倫理的懸念が生じる可能性があります。そのため、説明が簡単なMeta AIのようなシンプルなモデルが必要です。システムがどのように機能して信頼を置くのかを知りたがります。
もう1つの問題は、これらのモデルの一部には、検証とトレーニングに多くのデータが必要であるということです。それにも関わらず、そのようなデータが利用できない可能性があるため、効率が低下します。さらに、ほとんどのGPTモデルの堅牢性とパフォーマンスにはデータの不完全性だけでなく、プライバシー、偏見、ノイズ、セキュリティに関連する問題も悪影響を及ぼします。
従来のAIモデルのほとんどは高価で、計算時に多くのエネルギーを消費します。これは、ほとんどのシステムが計算集約型であるためであり、そのため、多くのリソースを消費し、環境コストが増加します。
さらに、これらのモデルのほとんどは、標準化の違いにより相互運用性が低くなります。したがって、異なる言語、フレームワーク、フォーマットを使用するため、統合することは非常に困難です。しかし、ONNXやユニバーサルコンパイラなどのオープンフォーマットにより、モデルの相互運用性を強化できます。
Meta AIのアーキテクチャは、これらの問題のほとんどを克服する方法で作成されていることを認識することが重要です。
Meta AIが新たに開発したMegabyteと呼ばれるGPTシステムは、ほとんどのGPTモデルが使用するトークン化を回避することを目的としており、その生成事前トレーニング変換器(GPT)システムは、ビデオや小説などのテキストなどの大量のデータをトークン化を使用せずに処理します。
ポイントとして、トークン化は大量のデータをトークンに変換することでファイル圧縮と同様に機能し、トランスフォーマーはトークンを処理して、システムがデコードする出力トークンを作成します。
通常、トークン化により、AIモデルは大きな文字列のデータを数値に変換できます。例えば、システムは「私の好きな色は赤です」のようなフレーズを、3666、4004、3124、318、2266などのトークン文字列に変換できます。
ただし、この方法では処理できるデータ量に制限があり、例えばGPT-3.5の制限は3,000〜4,000ワードであるのに対し、GPT-4の制限は24,000〜32,000ワードです。
対照的に、Metaはトークン化を廃止し、100万バイトを超えるデータのエンドツーエンドモデリングに依存する新しい多層予測アーキテクチャを採用しました。これは、最大750,000ワードで構成されるドキュメントを処理できることを考慮すると、素晴らしい成果です。これは、Megabyteシステムが平均的なサイズの小説3冊に含まれるデータを処理できることを意味します。
前述したように、Megabyteは、厳しいデータ制限、システムのトレーニングに必要な多大な時間、および高エネルギー消費から生じるトークン化の障害を克服します。また、トークン化せずに、AIモデルをトレーニングして英語以外の言語をサポートすることも可能です。例えば、標準の8ビット文字でエンコードされます。
Metaの人工知能暗号AIは、さまざまなブロックチェーン技術の民主化をさらに進め、既存の機会を拡大します。一例として、開発者はロシア語やフランス語などの母国語で暗号資産取引ボットを導入できます。さらに重要なのは、分散型自律組織(DAO)ができることです。プロトコルも現地の言語でコーディングします。
マルチスケールデコーダアーキテクチャであるMegabyteは、エンドツーエンドの微分可能性を維持しながら100万バイトを超えるシーケンスをモデル化し、データ内のグローバルとローカルの両方のpパターンをモデル化することで、アーキテクチャ内にさまざまなレベルを組み込むマルチスケールトランスフォーマーを使用します。
基本的に、Megabyteモデルは3つのコンポーネント、つまりローカルモジュール、パッチエンベッダー、およびグローバルモジュール(グローバルトランスフォーマー)で構成されます。ローカルモジュール(ローカルトランスフォーマーとも呼ばれる)は、各パッチ内のバイトを予測し、エンベッダーはパッチのエンコードを担当します。最後に、グローバルトランスフォーマーとしても知られるグローバルモジュールが、さまざまなパッチ表現を入力および出力します。
次の図は、Megabyteの概要を示しています。
上の図は、Megabyteの主要なコンポーネントの一部を示しています。最近の実験では、Megabyteがトランスフォーマーモデルよりも40%高速であることが示されました。ただし、実験中に使用されたMegabyteには15億のパラメータがあり、トランスフォーマーモデルには15億のパラメータがあることに注意することが重要です。なお、3億5000万ありました。
全体として、Megabyteには従来のトランスフォーマーに比べていくつかの利点があり、例えば、自己認証の計算コストが削減され、長いシーケンスの処理が可能になります。
第2に、位置ごとではなくパスごとにフィードフォワード層を使用するため、計算リソースが効率的に利用されます。また、処理中の並列性が向上し、高いパフォーマンスを維持しながらシーケンス生成の高速化につながります。
Megabyteアーキテクチャは、スケーラビリティを向上させ、リソース消費を削減し、さまざまなGPTベースのアプリケーションとのスムーズな通信を可能にします。長いシーケンスを2つの短いシーケンスに分割することで、セルフアテンションコストを最低限に抑え、これらの利点の一部やパラメータ共有および圧縮アルゴリズムにより、GPTのリソース要件を実現します。
MetaのMegabyteは、事前にトレーニングされた生成変換システムを使用して、トークン化を使用せずに大量のデータを処理し、その代わりに、コストを最低限に抑え、速度を向上させ、効率を向上させる多層予測アーキテクチャを利用し、スケーラビリティと相互運用性を向上させます。
著者:Gate.ioの研究者Mashell C.
翻訳者:AkihitoY.
免責事項:
*この記事は研究者の意見を表すものであり、取引に関するアドバイスを構成するものではありません。
*本記事の内容はオリジナルであり、著作権はGate.ioに帰属します。転載が必要な場合は、作者と出典を明記してください。そうでない場合は法的責任を負います。