最近引人注目的數據授權交易(例如 openai 和新聞公司以及 reddit 之間的交易)強調了人工智慧中高質量數據的需要。領先的人工智慧模型已經在互聯網上的大部分內容上進行了訓練。例如,Common Crawl 已經為大型語言模型訓練索引了約 10% 的網頁,其中包括超過 100 萬億個標記。
為了進一步改善人工智能模型,擴大和增強可用於訓練的數據至關重要。我們一直在討論如何通過去中心化的方法來聚合數據,特別是通過去中心化的方法。我們對去中心化方法如何幫助創建新的數據集並為貢獻者和創造者提供經濟激勵特別感興趣。
近年來,加密貨幣世界中的熱門話題之一是數據 DAO 的概念,即由一群人創建、組織和管理數據的團體。雖然這個話題已被 Multicoin 和其他人討論過,但人工智能的快速發展提出了一個新問題:“為什麼現在是數據 DAO 的合適時機?”
在本文中,我們將分享有關數據 DAO 的見解,以解答這個問題:數據 DAO 如何加速人工智慧的發展?
如今,AI 模型主要是在公共數據上進行訓練,通過與新聞集團和 Reddit 等公司的合作,或者通過從公開互聯網上抓取數據。例如,Meta 的 Llama 3 是使用從公共來源獲取的 15 萬億令牌進行訓練的。儘管這些方法對於快速收集大量數據是有效的,但它們在收集的數據類型和數據獲取方式方面存在一些限制。
首先,關於應收集哪些數據:AI 發展受制於數據質量和數量的瓶頸。Leopold Aschenbrenner 討論了限制進一步算法改進的“數據壁壘”:“很快,通過在更多的刮取數據上預訓練更大的語言模型的簡單方法可能面臨重大的瓶頸。”
克服數據障礙的一種方法是提供新的數據集。例如,模型公司無法在不違反大多數網站服務條款的情況下抓取登錄保護的數據,也無法訪問尚未收集的數據。目前,有大量的私人數據,人工智能訓練無法訪問,例如來自Google Drive、Slack、個人健康記錄和其他私人信息的數據。
其次,關於數據收集方式:在當前模式下,數據收集公司捕獲了大部分價值。Reddit的S-1申報文件強調數據許可證是主要預期收入來源:“我們預計我們的日益增長的數據優勢和知識產權將成為未來LLM培訓的關鍵要素。”然而,實際生成內容的最終用戶並未從這些許可協議或AI模型本身中獲得任何經濟利益。這種不對齊可能會阻礙參與 - 已經出現了起訴生成AI公司或選擇退出培訓數據集的運動。此外,將收益集中在模型公司或平台手中而不與最終用戶分享具有重大的社會經濟影響。
前面提到的數據問題共享一個共同主題:它們從多樣化和代表性的用戶樣本中獲得了大量貢獻。雖然任何單個數據點對模型性能可能沒有影響,但是大量用戶的集體作用可以生成對AI訓練非常有價值的新數據集。這就是數據DAO(去中心化自治組織)的作用。通過數據DAO,數據貢獻者可以獲得經濟獎勵並控制其數據的使用和貨幣化。
在當前的數據景觀中,數據DAO可以在哪些領域產生重大影響?這裡有幾個想法-這不是一個完整的清單,數據DAO肯定還有其他機會:
(1) 真實世界數據
在分散式物理基礎設施(depin)領域中,像Hivemapper這樣的網路旨在通過激勵行車記錄儀擁有者分享他們的數據並通過他們的應用程序鼓勵用戶提供數據(例如關於道路關閉或修復的信息)來收集最新的全球地圖數據。 depin可以被視為現實世界數據dao,其中數據集是從硬件設備和/或用戶網絡生成的。這些數據對許多公司具有商業價值,貢獻者將獲得代幣獎勵。
(2) 個人健康數據
生物黑客是一種社會運動,個人和社區採用自己動手的方式來研究生物學,通常在自己身上進行實驗。例如,有人可能使用不同的腦功能增強藥物來提升大腦表現,嘗試各種治療方法或環境變化來改善睡眠,甚至注射實驗性物質到自己身上。
數據 DAO 可以通過組織參與者共同進行實驗並系統地收集結果來支持這些生物駭客的努力。這些個人健康 DAO 所產生的收入,例如來自研究室或製藥公司,可以返還給貢獻其個人健康數據的參與者。
(3) 帶有人類反饋的強化學習
強化學習與人類反饋(RLHF)涉及使用人類輸入來微調AI模型並改善其性能。通常,反饋來自特定領域的專家,他們能夠有效評估模型的輸出。例如,一個研究實驗室可能會尋求數學博士的幫助,以增強他們的AI的數學能力。通過加密支付系統,代幣獎勵可以吸引和激勵專家參與,提供投機價值和全球訪問。像Sapien、Fraction和Sahara這樣的公司正在積極從事這方面的工作。
(4) 私有數據
隨著可用於AI訓練的公共數據變得越來越稀缺,焦點可能轉向專有數據集,包括私人用戶數據。在登錄牆後面,有一大批高質量的無法訪問的數據,如私人訊息和文件。這些數據對於訓練個性化AI非常有效,包含了在公共互聯網上找不到的有價值信息。
存取和使用這些數據存在著重大的法律和道德挑戰。數據DAO可以通過允許願意參與者上傳和賺取他們的數據,同時管理其使用,提供解決方案。例如,Reddit數據DAO可以讓用戶上傳他們匯出的Reddit數據,包括評論、帖子和投票歷史,以隱私保護的方式出售或租借給人工智能公司。通證激勵讓用戶不僅可以從一次交易中賺取報酬,還可以從使用他們數據訓練的人工智能模型產生的持續價值中獲益。
雖然數據DAO提供了重大的潛在收益,但也有幾個重要的考慮因素和挑戰需要解決。
(1) 激勵扭曲
從加密貨幣使用代幣激勵的歷史中得出的一個重要教訓是,外部獎勵可以改變用戶行為。這直接影響了使用代幣激勵來收集數據:激勵可能扭曲參與者群體和他們貢獻的數據類型。
引入代幣獎勵也打開了參與者濫用系統的可能性,例如提交低質量或捏造的數據以最大化他們的收入。這是至關重要的,因為數據 DAO 的成功取決於數據的質量。如果貢獻偏離了期望的目標,數據集的價值可能會受到損害。
(2) 測量和獎勵數據
數據 DAO 的核心理念是通過代幣獎勵貢獻者的數據提交,這將為 DAO 長期帶來收入。然而,由於數據價值的主觀性,確定不同數據貢獻的適當獎勵是非常具有挑戰性的。例如,在生物黑客的情景中:一些用戶的數據是否比其他人更有價值?如果是這樣,是什麼因素決定了這一點?對於地圖數據:來自某些地區的信息是否比來自其他地區的信息更有價值?這些差異應該如何量化?(通過評估數據對模型性能的增量貢獻來研究衡量數據價值在人工智能中的方法仍在進行中,但可能需要大量計算。)
此外,建立強大的機制來驗證數據的真實性和準確性至關重要。如果沒有這些措施,系統可能容易受到欺詐性數據提交(例如,創建假帳戶)或偽造攻擊的威脅。Depin網絡通過在硬件設備級別集成驗證來解決這個問題,而依賴用戶貢獻的其他類型的數據DAO可能更容易受到操縱。
(3)新數據的增量值
大多數開放網絡已經被用於培訓目的,因此數據DAO運營商必須考慮以分散方式收集的數據是否真正為開放網絡上的現有數據增加了增量價值,以及研究人員是否可以從平台或通過其他方式訪問這些數據。這個想法強調了收集完全新的數據的重要性,這些數據超越了目前可用的數據,從而引起下一個考慮因素:影響規模和收入機會。
(4) 評估收入機會
從根本上說,數據DAO正在建立一個雙邊市場,連接數據買家與數據貢獻者。因此,數據DAO的成功取決於其吸引穩定和多樣化的客戶群體,願意為數據支付費用。
數據 DAO 需要確定並確認其數據的需求,並確保收入機會足夠重要(無論是總體還是按貢獻者計算)以激勵必要的數量和質量的數據。例如,多年來一直在討論創建用戶數據 DAO 以匯總個人偏好和瀏覽數據以進行廣告用途的概念,但是對用戶的潛在回報可能很少。(作為背景,Meta 在 2023 年底的全球 ARPU 為 13.12 美元。)隨著人工智能公司計劃投資數以兆計的美元進行培訓,來自數據的潛在收入可能足以激勵大規模貢獻,這對數據 DAO 提出了一個有趣的問題:“為什麼現在?”
數據DAO提供了一個有前途的解決方案,用於創建新的高質量數據集,並突破挑戰人工智慧的數據壁壘。儘管尚未確定實現此目標的確切方法,但我們對這一領域的發展感到興奮。
最近引人注目的數據授權交易(例如 openai 和新聞公司以及 reddit 之間的交易)強調了人工智慧中高質量數據的需要。領先的人工智慧模型已經在互聯網上的大部分內容上進行了訓練。例如,Common Crawl 已經為大型語言模型訓練索引了約 10% 的網頁,其中包括超過 100 萬億個標記。
為了進一步改善人工智能模型,擴大和增強可用於訓練的數據至關重要。我們一直在討論如何通過去中心化的方法來聚合數據,特別是通過去中心化的方法。我們對去中心化方法如何幫助創建新的數據集並為貢獻者和創造者提供經濟激勵特別感興趣。
近年來,加密貨幣世界中的熱門話題之一是數據 DAO 的概念,即由一群人創建、組織和管理數據的團體。雖然這個話題已被 Multicoin 和其他人討論過,但人工智能的快速發展提出了一個新問題:“為什麼現在是數據 DAO 的合適時機?”
在本文中,我們將分享有關數據 DAO 的見解,以解答這個問題:數據 DAO 如何加速人工智慧的發展?
如今,AI 模型主要是在公共數據上進行訓練,通過與新聞集團和 Reddit 等公司的合作,或者通過從公開互聯網上抓取數據。例如,Meta 的 Llama 3 是使用從公共來源獲取的 15 萬億令牌進行訓練的。儘管這些方法對於快速收集大量數據是有效的,但它們在收集的數據類型和數據獲取方式方面存在一些限制。
首先,關於應收集哪些數據:AI 發展受制於數據質量和數量的瓶頸。Leopold Aschenbrenner 討論了限制進一步算法改進的“數據壁壘”:“很快,通過在更多的刮取數據上預訓練更大的語言模型的簡單方法可能面臨重大的瓶頸。”
克服數據障礙的一種方法是提供新的數據集。例如,模型公司無法在不違反大多數網站服務條款的情況下抓取登錄保護的數據,也無法訪問尚未收集的數據。目前,有大量的私人數據,人工智能訓練無法訪問,例如來自Google Drive、Slack、個人健康記錄和其他私人信息的數據。
其次,關於數據收集方式:在當前模式下,數據收集公司捕獲了大部分價值。Reddit的S-1申報文件強調數據許可證是主要預期收入來源:“我們預計我們的日益增長的數據優勢和知識產權將成為未來LLM培訓的關鍵要素。”然而,實際生成內容的最終用戶並未從這些許可協議或AI模型本身中獲得任何經濟利益。這種不對齊可能會阻礙參與 - 已經出現了起訴生成AI公司或選擇退出培訓數據集的運動。此外,將收益集中在模型公司或平台手中而不與最終用戶分享具有重大的社會經濟影響。
前面提到的數據問題共享一個共同主題:它們從多樣化和代表性的用戶樣本中獲得了大量貢獻。雖然任何單個數據點對模型性能可能沒有影響,但是大量用戶的集體作用可以生成對AI訓練非常有價值的新數據集。這就是數據DAO(去中心化自治組織)的作用。通過數據DAO,數據貢獻者可以獲得經濟獎勵並控制其數據的使用和貨幣化。
在當前的數據景觀中,數據DAO可以在哪些領域產生重大影響?這裡有幾個想法-這不是一個完整的清單,數據DAO肯定還有其他機會:
(1) 真實世界數據
在分散式物理基礎設施(depin)領域中,像Hivemapper這樣的網路旨在通過激勵行車記錄儀擁有者分享他們的數據並通過他們的應用程序鼓勵用戶提供數據(例如關於道路關閉或修復的信息)來收集最新的全球地圖數據。 depin可以被視為現實世界數據dao,其中數據集是從硬件設備和/或用戶網絡生成的。這些數據對許多公司具有商業價值,貢獻者將獲得代幣獎勵。
(2) 個人健康數據
生物黑客是一種社會運動,個人和社區採用自己動手的方式來研究生物學,通常在自己身上進行實驗。例如,有人可能使用不同的腦功能增強藥物來提升大腦表現,嘗試各種治療方法或環境變化來改善睡眠,甚至注射實驗性物質到自己身上。
數據 DAO 可以通過組織參與者共同進行實驗並系統地收集結果來支持這些生物駭客的努力。這些個人健康 DAO 所產生的收入,例如來自研究室或製藥公司,可以返還給貢獻其個人健康數據的參與者。
(3) 帶有人類反饋的強化學習
強化學習與人類反饋(RLHF)涉及使用人類輸入來微調AI模型並改善其性能。通常,反饋來自特定領域的專家,他們能夠有效評估模型的輸出。例如,一個研究實驗室可能會尋求數學博士的幫助,以增強他們的AI的數學能力。通過加密支付系統,代幣獎勵可以吸引和激勵專家參與,提供投機價值和全球訪問。像Sapien、Fraction和Sahara這樣的公司正在積極從事這方面的工作。
(4) 私有數據
隨著可用於AI訓練的公共數據變得越來越稀缺,焦點可能轉向專有數據集,包括私人用戶數據。在登錄牆後面,有一大批高質量的無法訪問的數據,如私人訊息和文件。這些數據對於訓練個性化AI非常有效,包含了在公共互聯網上找不到的有價值信息。
存取和使用這些數據存在著重大的法律和道德挑戰。數據DAO可以通過允許願意參與者上傳和賺取他們的數據,同時管理其使用,提供解決方案。例如,Reddit數據DAO可以讓用戶上傳他們匯出的Reddit數據,包括評論、帖子和投票歷史,以隱私保護的方式出售或租借給人工智能公司。通證激勵讓用戶不僅可以從一次交易中賺取報酬,還可以從使用他們數據訓練的人工智能模型產生的持續價值中獲益。
雖然數據DAO提供了重大的潛在收益,但也有幾個重要的考慮因素和挑戰需要解決。
(1) 激勵扭曲
從加密貨幣使用代幣激勵的歷史中得出的一個重要教訓是,外部獎勵可以改變用戶行為。這直接影響了使用代幣激勵來收集數據:激勵可能扭曲參與者群體和他們貢獻的數據類型。
引入代幣獎勵也打開了參與者濫用系統的可能性,例如提交低質量或捏造的數據以最大化他們的收入。這是至關重要的,因為數據 DAO 的成功取決於數據的質量。如果貢獻偏離了期望的目標,數據集的價值可能會受到損害。
(2) 測量和獎勵數據
數據 DAO 的核心理念是通過代幣獎勵貢獻者的數據提交,這將為 DAO 長期帶來收入。然而,由於數據價值的主觀性,確定不同數據貢獻的適當獎勵是非常具有挑戰性的。例如,在生物黑客的情景中:一些用戶的數據是否比其他人更有價值?如果是這樣,是什麼因素決定了這一點?對於地圖數據:來自某些地區的信息是否比來自其他地區的信息更有價值?這些差異應該如何量化?(通過評估數據對模型性能的增量貢獻來研究衡量數據價值在人工智能中的方法仍在進行中,但可能需要大量計算。)
此外,建立強大的機制來驗證數據的真實性和準確性至關重要。如果沒有這些措施,系統可能容易受到欺詐性數據提交(例如,創建假帳戶)或偽造攻擊的威脅。Depin網絡通過在硬件設備級別集成驗證來解決這個問題,而依賴用戶貢獻的其他類型的數據DAO可能更容易受到操縱。
(3)新數據的增量值
大多數開放網絡已經被用於培訓目的,因此數據DAO運營商必須考慮以分散方式收集的數據是否真正為開放網絡上的現有數據增加了增量價值,以及研究人員是否可以從平台或通過其他方式訪問這些數據。這個想法強調了收集完全新的數據的重要性,這些數據超越了目前可用的數據,從而引起下一個考慮因素:影響規模和收入機會。
(4) 評估收入機會
從根本上說,數據DAO正在建立一個雙邊市場,連接數據買家與數據貢獻者。因此,數據DAO的成功取決於其吸引穩定和多樣化的客戶群體,願意為數據支付費用。
數據 DAO 需要確定並確認其數據的需求,並確保收入機會足夠重要(無論是總體還是按貢獻者計算)以激勵必要的數量和質量的數據。例如,多年來一直在討論創建用戶數據 DAO 以匯總個人偏好和瀏覽數據以進行廣告用途的概念,但是對用戶的潛在回報可能很少。(作為背景,Meta 在 2023 年底的全球 ARPU 為 13.12 美元。)隨著人工智能公司計劃投資數以兆計的美元進行培訓,來自數據的潛在收入可能足以激勵大規模貢獻,這對數據 DAO 提出了一個有趣的問題:“為什麼現在?”
數據DAO提供了一個有前途的解決方案,用於創建新的高質量數據集,並突破挑戰人工智慧的數據壁壘。儘管尚未確定實現此目標的確切方法,但我們對這一領域的發展感到興奮。