オープンAIとニューズコープとレディットの間の最近の注目すべきデータ認可取引などは、AIにおける高品質なデータの必要性を強調しています。先進のAIモデルは既にインターネットの大部分をトレーニングしています。たとえば、Common Crawlは大規模な言語モデルのトレーニングのためにWebページの約10%をインデックス化しており、100兆トークン以上を含んでいます。
AIモデルをさらに改善するためには、トレーニングに使用可能なデータを拡大・強化することが重要です。データを集約する方法について話し合ってきましたが、特に分散型の手法を通じてデータを集めることに興味があります。分散型のアプローチが新しいデータセットの作成や貢献者・クリエイターに経済的なインセンティブを提供するのにどのように役立つかに特に興味があります。
近年、暗号通貨界で注目されているトピックの1つは、データDAOの概念です。データDAOとは、データを作成、整理、管理するグループのことです。このトピックはMulticoinなどで議論されてきましたが、AIの急速な進化が新たな問いを提起しています。「なぜ今、データDAOが適切なのか?」
この記事では、データDAOについての私たちの洞察を共有し、データDAOがAI開発をどのように加速させるかという問いに取り組みます。
今日、AIモデルは主に公共のデータで訓練されています。ニュースコープやレディットなどの企業との提携を通じて、またはオープンインターネットからデータをスクレイピングすることによって。たとえば、メタのLlama 3は、公共のソースから15兆トークンを使用して訓練されました。これらの方法は、大量のデータを迅速に収集するために効果的ですが、収集されるデータの種類やその取得方法には制限があります。
まず、収集すべきデータについて。AIの開発は、データの品質と量のボトルネックによって妨げられています。レオポルド・アッシェンブレナーは、さらなるアルゴリズムの改善を制限する「データの壁」について議論しました。「まもなく、より多くのスクレイピングされたデータに基づいてより大きな言語モデルを事前トレーニングするという単純なアプローチも重要なボトルネックに直面するかもしれません。」
データの壁を乗り越える方法の一つは、新しいデータセットを利用可能にすることです。たとえば、モデル会社は、ほとんどのウェブサイトの利用規約に違反することなく、ログイン保護されたデータをスクレイプすることはできませんし、収集されていないデータにもアクセスできません。現在、Googleドライブ、Slack、個人の健康記録、その他の個人情報など、AIトレーニングがアクセスできない大量のプライベートデータがあります。
2つ目は、データの収集方法に関する問題です。現在のモデルでは、データ収集会社が大部分の価値を捕捉しています。RedditのS-1ファイリングでは、データライセンスが主要な予想収益源として強調されています。「私たちは、将来のLLMトレーニングにおいて、私たちの成長するデータ優位性と知的財産が重要な要素であると考えています。」しかし、実際のコンテンツを生成するエンドユーザーは、これらのライセンス契約やAIモデル自体から経済的な利益を受け取ることはありません。この不一致は、参加を desし、ジェネレーティブAI企業を訴えたり、トレーニングデータセットから外れたりする動きもすでにあります。さらに、エンドユーザーと共有せずにモデル企業またはプラットフォームに収益を集中させることにより、重要な社会経済的な影響が生じる可能性があります。
前述のデータに関する問題は、多様で代表的なユーザーサンプルからの重要な貢献を受けています。1つのデータポイントがモデルのパフォーマンスに対して微々たる影響しか与えないかもしれませんが、多数のユーザーが集まると、新しいデータセットを生成することができます。このため、データDAO(分散型自治組織)が登場します。データDAOを使用すると、データ貢献者はデータの提供に対する経済的報酬を得ることができ、データの使用方法と収益化を制御することができます。
データDAOSは、現在のデータの景色にどのような影響を与えることができるのでしょうか? 以下にいくつかのアイデアを挙げますが、これは完全なリストではなく、データDAOSには他の機会もあります:
(1) 実世界データ
分散型物理インフラ(Depin)の分野では、Hivemapperなどのネットワークは、ダッシュカムの所有者にデータを共有するようにインセンティブを与え、ユーザーにデータを提供するように奨励することで、最新のグローバルマップデータを収集することを目指しています(たとえば、道路閉鎖や修理に関する情報など)。 Depinは、ハードウェアデバイスおよび/またはユーザーネットワークから生成されたデータが商業価値を持つ実世界データDAOと見なすことができます。このデータは多くの企業にとって商業価値があり、貢献者はトークンで報酬されます。
(2) 個人の健康データ
バイオハッキングは、個人やコミュニティがDIYアプローチで生物学を研究し、しばしば自己実験を行う社会運動です。例えば、誰かが脳のパフォーマンスを向上させるために異なるノートロピック薬を使用したり、睡眠を改善するためにさまざまな治療法や環境の変化を試したり、実験的な物質を注射したりすることがあります。
データDAOは、参加者を共有実験の周りに組織化し、結果を体系的に収集することで、これらのバイオハッキングの取り組みをサポートできます。研究所や製薬会社などの個人健康DAOから得られる収入は、自分の個人健康データを提供した参加者に返還される可能性があります。
(3) 人間のフィードバックを用いた強化学習
人間のフィードバックを用いた強化学習(RLHF)は、人間の入力を使用してAIモデルを微調整し、そのパフォーマンスを向上させることを意味します。通常、フィードバックは特定の分野の専門家から得られ、モデルの出力を効果的に評価できる人々から得られます。たとえば、研究所は数学の博士号を持つ人から協力を得て、AIの数学的な能力を向上させるかもしれません。トークン報酬は専門家を引き付け、参加を促進し、暗号通貨決済システムを通じて仮想価値とグローバルなアクセスを提供します。Sapien、Fraction、Saharaなどの企業がこの分野で積極的に取り組んでいます。
(4) プライベートデータ
公開データがAIトレーニング用に少なくなるにつれて、焦点は所有データセットに移るかもしれません。プライベートユーザーデータを含む独自のデータセットが注目されます。ログインの壁の背後には、プライベートメッセージや文書など、アクセスできない高品質のデータがあります。このデータは個人用AIのトレーニングに非常に効果的であり、一般のインターネットにはない貴重な情報が含まれています。
このデータへのアクセスと使用には、重大な法的および倫理的課題があります。Data DAOは、意欲的な参加者がデータの使用を管理しながらデータをアップロードして収益化できるようにすることで、ソリューションを提供できます。例えば、RedditデータDAOでは、ユーザーがコメント、投稿、投票履歴など、エクスポートしたRedditデータをアップロードし、プライバシー保護の観点からAI企業に販売またはリースすることができます。トークンインセンティブにより、ユーザーは1回限りのトランザクションからだけでなく、データでトレーニングされたAIモデルによって生成された継続的な価値からも得ることができます。
データDAOは重要な利点を持っていますが、対処する必要のあるいくつかの重要な考慮事項と課題があります。
(1) インセンティブの歪み
暗号通貨におけるトークンインセンティブの使用の歴史から得られる重要な教訓は、外部報酬がユーザーの行動を変える可能性があるということです。これは、データ収集にトークンインセンティブを使用する場合に直接的な影響を与えます:インセンティブが参加者プールや彼らが貢献するデータの種類を歪める可能性があります。
トークンインセンティブを導入することにより、参加者がシステムを悪用する可能性があるため、低品質または捏造されたデータを提出して収入を最大化することがあります。これは、データDAOの成功がデータの品質に依存するため、重要です。寄稿が目的とする目標から逸脱する場合、データセットの価値が損なわれる可能性があります。
(2) データの計測と報酬
データDAOの中心的なアイデアは、貢献者にトークンでデータを報酬することであり、これによりDAOは長期的に収益を生み出します。ただし、データ価値の主観的な性質のため、異なるデータの貢献に対する適切な報酬を決定することは非常に困難です。たとえば、バイオハッキングのシナリオでは、一部のユーザーのデータは他のユーザーよりも価値が高いのでしょうか?もしそうなら、何がこれを決定する要因なのでしょうか?地図データの場合、特定の地域からの情報は他の地域よりも価値が高いのでしょうか?これらの違いはどのように数量化すべきですか?(AIにおけるデータの価値を測定するための研究は進行中ですが、計算量が膨大になる可能性があります。)
さらに、データの真正性と正確性を検証するための堅牢なメカニズムを確立することが重要です。これらの手段がなければ、システムは詐欺的なデータの提出(例:偽のアカウントの作成)やシビル攻撃に対して脆弱になる可能性があります。Depinネットワークは、ハードウェアデバイスレベルでの検証を統合することによって、この問題に対処していますが、ユーザーの貢献に依存する他のタイプのデータDAOは操作に対してより脆弱かもしれません。
(3) 新しいデータの増分値
ほとんどのオープンネットワークはすでにトレーニングの目的で活用されているため、データDAOオペレーターは、分散型の方法で収集されたデータセットが既存のオープンネットワークのデータに真に付加価値をもたらすかどうか、そして研究者がこのデータにプラットフォームを通じてまたは他の手段でアクセスできるかどうかを検討する必要があります。この考えは、現在利用可能なものを上回る完全に新しいデータを収集することの重要性を強調しており、次に考慮すべき点につながります。それは、影響の規模と収益の機会です。
(4) 収益機会の評価
基本的に、データDAOは、データバイヤーとデータ貢献者をつなぐ2つの側面のマーケットプレイスを構築しています。したがって、データDAOの成功は、安定した多様な顧客基盤を引き付け、データに対して支払いを行う意欲のある顧客に依存しています。
データDAOは、データの需要を特定し、確認し、収益機会が十分に大きいことを確認する必要があります(総額または投稿者ごと)。たとえば、広告の目的で個人の好みや閲覧データを集約するユーザーデータDAOを作成する概念は何年も前から議論されていますが、ユーザーの潜在的な収益は最小限かもしれません(文脈として、MetaのグローバルARPUは2023年末で13.12ドルでした)。AI企業が訓練に数兆ドルを投資する計画を立てている中、データからの潜在的な収益は大規模な貢献を促進するには十分かもしれません。これはデータDAOにとって興味深い問題を提起しています:“なぜ今なのか?”
データDAOは、新しい高品質のデータセットの作成と、人工知能に挑戦するデータの壁を突破するための有望な解決策を提供します。具体的な方法はまだ決まっていませんが、この分野がどのように進化するかには興味があります。
オープンAIとニューズコープとレディットの間の最近の注目すべきデータ認可取引などは、AIにおける高品質なデータの必要性を強調しています。先進のAIモデルは既にインターネットの大部分をトレーニングしています。たとえば、Common Crawlは大規模な言語モデルのトレーニングのためにWebページの約10%をインデックス化しており、100兆トークン以上を含んでいます。
AIモデルをさらに改善するためには、トレーニングに使用可能なデータを拡大・強化することが重要です。データを集約する方法について話し合ってきましたが、特に分散型の手法を通じてデータを集めることに興味があります。分散型のアプローチが新しいデータセットの作成や貢献者・クリエイターに経済的なインセンティブを提供するのにどのように役立つかに特に興味があります。
近年、暗号通貨界で注目されているトピックの1つは、データDAOの概念です。データDAOとは、データを作成、整理、管理するグループのことです。このトピックはMulticoinなどで議論されてきましたが、AIの急速な進化が新たな問いを提起しています。「なぜ今、データDAOが適切なのか?」
この記事では、データDAOについての私たちの洞察を共有し、データDAOがAI開発をどのように加速させるかという問いに取り組みます。
今日、AIモデルは主に公共のデータで訓練されています。ニュースコープやレディットなどの企業との提携を通じて、またはオープンインターネットからデータをスクレイピングすることによって。たとえば、メタのLlama 3は、公共のソースから15兆トークンを使用して訓練されました。これらの方法は、大量のデータを迅速に収集するために効果的ですが、収集されるデータの種類やその取得方法には制限があります。
まず、収集すべきデータについて。AIの開発は、データの品質と量のボトルネックによって妨げられています。レオポルド・アッシェンブレナーは、さらなるアルゴリズムの改善を制限する「データの壁」について議論しました。「まもなく、より多くのスクレイピングされたデータに基づいてより大きな言語モデルを事前トレーニングするという単純なアプローチも重要なボトルネックに直面するかもしれません。」
データの壁を乗り越える方法の一つは、新しいデータセットを利用可能にすることです。たとえば、モデル会社は、ほとんどのウェブサイトの利用規約に違反することなく、ログイン保護されたデータをスクレイプすることはできませんし、収集されていないデータにもアクセスできません。現在、Googleドライブ、Slack、個人の健康記録、その他の個人情報など、AIトレーニングがアクセスできない大量のプライベートデータがあります。
2つ目は、データの収集方法に関する問題です。現在のモデルでは、データ収集会社が大部分の価値を捕捉しています。RedditのS-1ファイリングでは、データライセンスが主要な予想収益源として強調されています。「私たちは、将来のLLMトレーニングにおいて、私たちの成長するデータ優位性と知的財産が重要な要素であると考えています。」しかし、実際のコンテンツを生成するエンドユーザーは、これらのライセンス契約やAIモデル自体から経済的な利益を受け取ることはありません。この不一致は、参加を desし、ジェネレーティブAI企業を訴えたり、トレーニングデータセットから外れたりする動きもすでにあります。さらに、エンドユーザーと共有せずにモデル企業またはプラットフォームに収益を集中させることにより、重要な社会経済的な影響が生じる可能性があります。
前述のデータに関する問題は、多様で代表的なユーザーサンプルからの重要な貢献を受けています。1つのデータポイントがモデルのパフォーマンスに対して微々たる影響しか与えないかもしれませんが、多数のユーザーが集まると、新しいデータセットを生成することができます。このため、データDAO(分散型自治組織)が登場します。データDAOを使用すると、データ貢献者はデータの提供に対する経済的報酬を得ることができ、データの使用方法と収益化を制御することができます。
データDAOSは、現在のデータの景色にどのような影響を与えることができるのでしょうか? 以下にいくつかのアイデアを挙げますが、これは完全なリストではなく、データDAOSには他の機会もあります:
(1) 実世界データ
分散型物理インフラ(Depin)の分野では、Hivemapperなどのネットワークは、ダッシュカムの所有者にデータを共有するようにインセンティブを与え、ユーザーにデータを提供するように奨励することで、最新のグローバルマップデータを収集することを目指しています(たとえば、道路閉鎖や修理に関する情報など)。 Depinは、ハードウェアデバイスおよび/またはユーザーネットワークから生成されたデータが商業価値を持つ実世界データDAOと見なすことができます。このデータは多くの企業にとって商業価値があり、貢献者はトークンで報酬されます。
(2) 個人の健康データ
バイオハッキングは、個人やコミュニティがDIYアプローチで生物学を研究し、しばしば自己実験を行う社会運動です。例えば、誰かが脳のパフォーマンスを向上させるために異なるノートロピック薬を使用したり、睡眠を改善するためにさまざまな治療法や環境の変化を試したり、実験的な物質を注射したりすることがあります。
データDAOは、参加者を共有実験の周りに組織化し、結果を体系的に収集することで、これらのバイオハッキングの取り組みをサポートできます。研究所や製薬会社などの個人健康DAOから得られる収入は、自分の個人健康データを提供した参加者に返還される可能性があります。
(3) 人間のフィードバックを用いた強化学習
人間のフィードバックを用いた強化学習(RLHF)は、人間の入力を使用してAIモデルを微調整し、そのパフォーマンスを向上させることを意味します。通常、フィードバックは特定の分野の専門家から得られ、モデルの出力を効果的に評価できる人々から得られます。たとえば、研究所は数学の博士号を持つ人から協力を得て、AIの数学的な能力を向上させるかもしれません。トークン報酬は専門家を引き付け、参加を促進し、暗号通貨決済システムを通じて仮想価値とグローバルなアクセスを提供します。Sapien、Fraction、Saharaなどの企業がこの分野で積極的に取り組んでいます。
(4) プライベートデータ
公開データがAIトレーニング用に少なくなるにつれて、焦点は所有データセットに移るかもしれません。プライベートユーザーデータを含む独自のデータセットが注目されます。ログインの壁の背後には、プライベートメッセージや文書など、アクセスできない高品質のデータがあります。このデータは個人用AIのトレーニングに非常に効果的であり、一般のインターネットにはない貴重な情報が含まれています。
このデータへのアクセスと使用には、重大な法的および倫理的課題があります。Data DAOは、意欲的な参加者がデータの使用を管理しながらデータをアップロードして収益化できるようにすることで、ソリューションを提供できます。例えば、RedditデータDAOでは、ユーザーがコメント、投稿、投票履歴など、エクスポートしたRedditデータをアップロードし、プライバシー保護の観点からAI企業に販売またはリースすることができます。トークンインセンティブにより、ユーザーは1回限りのトランザクションからだけでなく、データでトレーニングされたAIモデルによって生成された継続的な価値からも得ることができます。
データDAOは重要な利点を持っていますが、対処する必要のあるいくつかの重要な考慮事項と課題があります。
(1) インセンティブの歪み
暗号通貨におけるトークンインセンティブの使用の歴史から得られる重要な教訓は、外部報酬がユーザーの行動を変える可能性があるということです。これは、データ収集にトークンインセンティブを使用する場合に直接的な影響を与えます:インセンティブが参加者プールや彼らが貢献するデータの種類を歪める可能性があります。
トークンインセンティブを導入することにより、参加者がシステムを悪用する可能性があるため、低品質または捏造されたデータを提出して収入を最大化することがあります。これは、データDAOの成功がデータの品質に依存するため、重要です。寄稿が目的とする目標から逸脱する場合、データセットの価値が損なわれる可能性があります。
(2) データの計測と報酬
データDAOの中心的なアイデアは、貢献者にトークンでデータを報酬することであり、これによりDAOは長期的に収益を生み出します。ただし、データ価値の主観的な性質のため、異なるデータの貢献に対する適切な報酬を決定することは非常に困難です。たとえば、バイオハッキングのシナリオでは、一部のユーザーのデータは他のユーザーよりも価値が高いのでしょうか?もしそうなら、何がこれを決定する要因なのでしょうか?地図データの場合、特定の地域からの情報は他の地域よりも価値が高いのでしょうか?これらの違いはどのように数量化すべきですか?(AIにおけるデータの価値を測定するための研究は進行中ですが、計算量が膨大になる可能性があります。)
さらに、データの真正性と正確性を検証するための堅牢なメカニズムを確立することが重要です。これらの手段がなければ、システムは詐欺的なデータの提出(例:偽のアカウントの作成)やシビル攻撃に対して脆弱になる可能性があります。Depinネットワークは、ハードウェアデバイスレベルでの検証を統合することによって、この問題に対処していますが、ユーザーの貢献に依存する他のタイプのデータDAOは操作に対してより脆弱かもしれません。
(3) 新しいデータの増分値
ほとんどのオープンネットワークはすでにトレーニングの目的で活用されているため、データDAOオペレーターは、分散型の方法で収集されたデータセットが既存のオープンネットワークのデータに真に付加価値をもたらすかどうか、そして研究者がこのデータにプラットフォームを通じてまたは他の手段でアクセスできるかどうかを検討する必要があります。この考えは、現在利用可能なものを上回る完全に新しいデータを収集することの重要性を強調しており、次に考慮すべき点につながります。それは、影響の規模と収益の機会です。
(4) 収益機会の評価
基本的に、データDAOは、データバイヤーとデータ貢献者をつなぐ2つの側面のマーケットプレイスを構築しています。したがって、データDAOの成功は、安定した多様な顧客基盤を引き付け、データに対して支払いを行う意欲のある顧客に依存しています。
データDAOは、データの需要を特定し、確認し、収益機会が十分に大きいことを確認する必要があります(総額または投稿者ごと)。たとえば、広告の目的で個人の好みや閲覧データを集約するユーザーデータDAOを作成する概念は何年も前から議論されていますが、ユーザーの潜在的な収益は最小限かもしれません(文脈として、MetaのグローバルARPUは2023年末で13.12ドルでした)。AI企業が訓練に数兆ドルを投資する計画を立てている中、データからの潜在的な収益は大規模な貢献を促進するには十分かもしれません。これはデータDAOにとって興味深い問題を提起しています:“なぜ今なのか?”
データDAOは、新しい高品質のデータセットの作成と、人工知能に挑戦するデータの壁を突破するための有望な解決策を提供します。具体的な方法はまだ決まっていませんが、この分野がどのように進化するかには興味があります。