Die Überwindung von KI-Datenbarrieren: Warum Daten-DAOs jetzt entscheidend sind

Fortgeschrittene7/14/2024, 3:17:08 PM

Dieser Artikel untersucht die aktuellen Einschränkungen von KI-Datenquellen und schlägt vor, dass Data DAOs neue, hochwertige Datensätze zur Weiterentwicklung von KI-Modellen bereitstellen können. Data DAOs können das KI-Training mit realen Daten, persönlichen Gesundheitsdaten und menschlichem Feedback verbessern, stehen jedoch auch vor Herausforderungen wie Anreizverzerrung, Datenverifizierung und Nutzenbewertung.

DAO KI

Kürzlich bemerkenswerte Datenberechtigungsgeschäfte, wie die zwischen OpenAI und News Corp und Reddit, betonen die Notwendigkeit von hochwertigen Daten in AI. Führende AI-Modelle wurden bereits auf einem erheblichen Teil des Internets trainiert. Zum Beispiel hat Common Crawl etwa 10% der Webseiten für das Training großer Sprachmodelle indiziert, was über 100 Billionen Tokens umfasst.

Um KI-Modelle weiter zu verbessern, ist es unerlässlich, die verfügbaren Daten für das Training zu erweitern und zu verbessern. Wir haben Möglichkeiten zur Zusammenführung von Daten diskutiert, insbesondere durch dezentrale Methoden. Wir sind besonders daran interessiert, wie dezentrale Ansätze dazu beitragen können, neue Datensätze zu erstellen und wirtschaftliche Anreize für Beitragende und Ersteller zu schaffen.

In den letzten Jahren war eines der heißen Themen in der Kryptowelt das Konzept der Daten-DAOs, die Gruppen von Menschen sind, die Daten erstellen, organisieren und verwalten. Während dieses Thema von Multicoin und anderen diskutiert wurde, wirft der schnelle Fortschritt der KI eine neue Frage auf: „Warum ist jetzt der richtige Zeitpunkt für Daten-DAOs?“

In diesem Artikel werden wir unsere Erkenntnisse zu Daten-DAOs teilen, um die Frage zu beantworten: Wie können Daten-DAOs die KI-Entwicklung beschleunigen?

1. der aktuelle Stand der Daten in KI

Heute werden KI-Modelle hauptsächlich mit öffentlichen Daten trainiert, entweder durch Partnerschaften mit Unternehmen wie News Corp und Reddit oder durch das Scraping von Daten aus dem offenen Internet. Zum Beispiel wurde Meta's Llama 3 mit 15 Billionen Tokens aus öffentlichen Quellen trainiert. Obwohl diese Methoden effektiv sind, um schnell große Datenmengen zu sammeln, gibt es Einschränkungen hinsichtlich der Arten von gesammelten Daten und deren Beschaffung.

Zunächst einmal in Bezug auf die zu sammelnden Daten: Die Entwicklung von KI wird durch Engpässe bei der Qualität und Quantität von Daten gehemmt. Leopold Aschenbrenner diskutierte die "Datenmauer", die eine weitere Verbesserung der Algorithmen einschränkt: "Bald könnten bedeutende Engpässe bei dem einfachen Ansatz auftreten, größere Sprachmodelle anhand von mehr gescrapten Daten vorzuschulen."

Eine Möglichkeit, die Datensperre zu überwinden, besteht darin, neue Datensätze verfügbar zu machen. Zum Beispiel können Modellunternehmen keine passwortgeschützten Daten abrufen, ohne gegen die Nutzungsbedingungen der meisten Websites zu verstoßen, und sie können nicht auf Daten zugreifen, die nicht gesammelt wurden. Derzeit gibt es eine große Menge an privaten Daten, auf die KI-Training nicht zugreifen kann, wie Daten von Google Drive, Slack, persönlichen Gesundheitsakten und anderen privaten Informationen.

Zweitens, was die Datenerfassung betrifft: Im aktuellen Modell erfassen Datensammlungsunternehmen den Großteil des Werts. In der S-1-Einreichung von Reddit wird die Datenlizenzierung als eine wichtige erwartete Einnahmequelle hervorgehoben: „Wir erwarten, dass unser wachsender Datenvorteil und geistiges Eigentum auch in Zukunft entscheidende Elemente im Training von llm bleiben.“ Die Endbenutzer, die tatsächliche Inhalte generieren, erhalten jedoch keine wirtschaftlichen Vorteile aus diesen Lizenzvereinbarungen oder den KI-Modellen selbst. Diese Missverhältnis könnte die Beteiligung entmutigen – es gibt bereits Bewegungen, generative KI-Unternehmen zu verklagen oder sich aus Schulungsdatensätzen abzumelden. Darüber hinaus hat die Konzentration von Einnahmen in den Händen von Modellunternehmen oder Plattformen ohne Beteiligung der Endbenutzer erhebliche sozioökonomische Auswirkungen.

2. die Auswirkungen von Daten-DAOs

Die oben genannten Datenprobleme haben ein gemeinsames Thema: Sie profitieren von erheblichen Beiträgen aus diversen und repräsentativen Benutzergruppen. Während jeder einzelne Datenpunkt möglicherweise vernachlässigbaren Einfluss auf die Modellleistung hat, können eine große Gruppe von Benutzern gemeinsam neue Datensätze generieren, die für das AI-Training äußerst wertvoll sind. Hier kommen Daten-DAOs (dezentrale autonome Organisationen) ins Spiel. Mit Daten-DAOs können Datenbeiträger wirtschaftliche Belohnungen für die Bereitstellung von Daten erhalten und kontrollieren, wie ihre Daten genutzt und monetarisiert werden.

In welchen Bereichen können Daten-DAOs einen bedeutenden Einfluss auf die aktuelle Datenlandschaft haben? Hier sind ein paar Ideen - dies ist keine erschöpfende Liste, und Daten-DAOs haben sicherlich auch andere Möglichkeiten:

(1) Echtwelt Daten
Im Bereich der dezentralisierten physischen Infrastruktur (DePin) zielen Netzwerke wie Hivemapper darauf ab, die neuesten globalen Kartendaten zu sammeln, indem sie Dashcam-Besitzer dazu anregen, ihre Daten zu teilen und Benutzer dazu ermutigen, Daten über ihre Anwendungen bereitzustellen (z. B. Informationen über Straßensperrungen oder Reparaturen). DePin kann als ein DAO für realen Daten betrachtet werden, bei dem Datensätze aus Hardwaregeräten und/oder Benutzernetzwerken generiert werden. Diese Daten haben einen kommerziellen Wert für viele Unternehmen, und Beitragende werden mit Tokens belohnt.

(2) persönliche Gesundheitsdaten
Biohacking ist eine soziale Bewegung, bei der Einzelpersonen und Gemeinschaften einen Do-it-yourself-Ansatz zur Erforschung der Biologie übernehmen und oft an sich selbst experimentieren. Zum Beispiel könnte jemand verschiedene Nootropika verwenden, um die Gehirnleistung zu steigern, verschiedene Behandlungen oder Umweltveränderungen ausprobieren, um den Schlaf zu verbessern, oder sich sogar mit experimentellen Substanzen injizieren.

Daten-Daos können diese Biohacking-Bemühungen unterstützen, indem sie Teilnehmer bei gemeinsamen Experimenten organisieren und systematisch Ergebnisse sammeln. Das Einkommen, das durch diese persönlichen Gesundheits-Daos generiert wird, wie zum Beispiel von Forschungslaboren oder pharmazeutischen Unternehmen, kann an Teilnehmer zurückgegeben werden, die ihre persönlichen Gesundheitsdaten beigesteuert haben.

(3) Verstärkungslernen mit menschlichem Feedback
Das verstärkte Lernen mit menschlichem Feedback (RLHF) beinhaltet die Verwendung menschlicher Eingaben zur Feinabstimmung von KI-Modellen und zur Verbesserung ihrer Leistung. In der Regel stammt das Feedback von Experten auf bestimmten Gebieten, die das Modelloutput effektiv bewerten können. Zum Beispiel könnte ein Forschungslabor die Hilfe eines Mathematik-PhD suchen, um die mathematischen Fähigkeiten seiner KI zu verbessern. Token-Belohnungen können Experten anziehen und Anreize schaffen, sich zu beteiligen, indem sie spekulativen Wert und globalen Zugang über Krypto-Zahlungssysteme bieten. Unternehmen wie Sapien, Fraction und Sahara arbeiten aktiv in diesem Bereich.

(4) private Daten
Da öffentlich verfügbare Daten für das KI-Training knapper werden, könnte der Fokus auf proprietäre Datensätze, einschließlich privater Benutzerdaten, verlagert werden. Hinter Anmelde-Schranken liegt eine Fülle hochwertiger Daten, die nicht zugänglich sind, wie private Nachrichten und Dokumente. Diese Daten können äußerst effektiv für das Training personalisierter KI sein und wertvolle Informationen enthalten, die im öffentlichen Internet nicht zu finden sind.

Der Zugriff auf diese Daten und deren Nutzung stellt bedeutende rechtliche und ethische Herausforderungen dar. Data DAOs bieten eine Lösung, indem sie bereitwilligen Teilnehmern ermöglichen, ihre Daten hochzuladen und zu monetarisieren, während sie deren Nutzung verwalten. Beispielsweise könnte ein Reddit Data DAO Benutzern ermöglichen, ihre exportierten Reddit-Daten, einschließlich Kommentaren, Beiträgen und Abstimmungshistorie, auf eine datenschutzfreundliche Weise zu verkaufen oder zu vermieten. Token-Anreize ermöglichen es Benutzern, nicht nur von einer einmaligen Transaktion, sondern auch vom fortlaufenden Wert zu profitieren, der durch mit ihren Daten trainierten KI-Modellen generiert wird.

3. offene Fragen und Herausforderungen

Während Daten-DAOs erhebliche potenzielle Vorteile bieten, gibt es mehrere wichtige Überlegungen und Herausforderungen, die zu beachten sind.

(1) Verzerrung von Anreizen
Eine wichtige Lektion aus der Geschichte der Verwendung von Token-Anreizen in der Kryptowährung ist, dass externe Belohnungen das Nutzerverhalten beeinflussen können. Dies hat direkte Auswirkungen auf die Verwendung von Token-Anreizen zur Datenerfassung: Anreize können den Teilnehmerpool und die Arten von Daten, die sie beitragen, verzerren.

Die Einführung von Token-Anreizen eröffnet auch die Möglichkeit, dass Teilnehmer das System ausnutzen, indem sie minderwertige oder gefälschte Daten einreichen, um ihr Einkommen zu maximieren. Dies ist entscheidend, da der Erfolg von Data DAOs von der Qualität der Daten abhängt. Wenn Beiträge von den gewünschten Zielen abweichen, kann der Wert des Datensatzes beeinträchtigt werden.

(2) Messung und Belohnung von Daten

Die zentrale Idee von Data DAOs besteht darin, Beitragende für ihre Datenbeiträge mit Tokens zu belohnen, die dem DAO langfristig Einnahmen generieren werden. Aufgrund der subjektiven Natur des Datenwerts ist es jedoch äußerst herausfordernd, die angemessene Belohnung für unterschiedliche Datenbeiträge festzulegen. Zum Beispiel im Biohacking-Szenario: Sind die Daten einiger Benutzer wertvoller als die anderer? Wenn ja, welche Faktoren bestimmen dies? Bei Kartendaten: Sind Informationen aus bestimmten Gebieten wertvoller als aus anderen? Wie sollten diese Unterschiede quantifiziert werden? (Die Forschung zur Messung des Datenwerts in KI durch Bewertung des inkrementellen Beitrags von Daten zur Modellleistung ist im Gange, kann jedoch rechenintensiv sein.)

Darüber hinaus ist es wichtig, robuste Mechanismen zur Überprüfung der Authentizität und Genauigkeit der Daten zu etablieren. Ohne diese Maßnahmen könnte das System anfällig für betrügerische Dateneingaben (z. B. das Erstellen gefälschter Konten) oder Sybil-Angriffe sein. Depin Networks gehen dieses Problem an, indem sie die Überprüfung auf der Hardwaregeräteebene integrieren, aber andere Arten von Daten-DAOs, die auf Benutzerbeiträgen beruhen, könnten anfälliger für Manipulation sein.

(3) inkrementeller Wert neuer Daten
Die meisten offenen Netzwerke wurden bereits für Schulungszwecke genutzt, daher müssen Daten DAO-Betreiber prüfen, ob die dezentral gesammelten Datensätze tatsächlich einen inkrementellen Wert zu den vorhandenen Daten auf offenen Netzwerken hinzufügen und ob Forscher auf diese Daten von der Plattform aus oder auf andere Weise zugreifen können. Diese Idee unterstreicht die Bedeutung der Sammlung völlig neuer Daten, die das derzeit Verfügbar übersteigen und führt zur nächsten Überlegung: dem Ausmaß der Auswirkungen und der Umsatzmöglichkeiten.

(4) Bewertung von Einnahmemöglichkeiten
Grundlegend bauen Data DAOs einen zweiseitigen Marktplatz auf, der Datenkäufer mit Datenbeiträgern verbindet. Daher hängt der Erfolg eines Data DAOs von seiner Fähigkeit ab, eine stabile und vielfältige Kundenbasis anzuziehen, die bereit ist, für Daten zu zahlen.

Daten-DAOs müssen die Nachfrage nach ihren Daten identifizieren und bestätigen und sicherstellen, dass die Ertragschancen ausreichend sind (ob insgesamt oder pro Beitragende), um die erforderliche Menge und Qualität der Daten zu motivieren. Zum Beispiel wird seit Jahren über das Konzept der Erstellung eines Benutzerdaten-DAOs diskutiert, um persönliche Vorlieben und Browsing-Daten für Werbezwecke zu aggregieren, aber die potenziellen Renditen für Benutzer könnten minimal sein. (Zum Kontext betrug der globale ARPU von Meta Ende 2023 13,12 USD.) Da KI-Unternehmen planen, Billionen von Dollar in die Ausbildung zu investieren, könnten die potenziellen Einnahmen aus Daten ausreichen, um groß angelegte Beiträge zu fördern und eine faszinierende Frage für Daten-DAOs aufzuwerfen: „Warum jetzt?“

4. Durchbrechen der Datenmauer

Data DAOs bieten eine vielversprechende Lösung zur Erstellung neuer hochwertiger Datensätze und zum Durchbrechen der Datenmauer, die künstliche Intelligenz herausfordert. Obwohl die genauen Methoden zur Erreichung dieses Ziels noch festgelegt werden müssen, sind wir gespannt, wie sich dieses Gebiet entwickelt.

Haftungsausschluss：

Dieser Artikel wird aus [reproduziertJinse Finanzen], und das Urheberrecht gehört dem Originalautor [Li Jin]. Wenn Sie Einwände gegen diesen Nachdruck haben, wenden Sie sich bitte an das Gate Learn-Team untergatelearn@Gate.io.Das Team wird alle Bedenken gemäß den relevanten Verfahren umgehend angehen.
Haftungsausschluss: Die in diesem Artikel geäußerten Ansichten und Meinungen sind ausschließlich die des Autors und stellen keine Anlageberatung dar.
Andere Sprachversionen dieses Artikels wurden vom Gate Learn-Team übersetzt. Ohne Erwähnung.Gate.ioDie übersetzten Artikel dürfen nicht kopiert, verteilt oder plagiiert werden.

1. Der aktuelle Stand der Daten in AI2. Die Auswirkungen von Data DAOs3. Offene Fragen und Herausforderungen4. Durchbruch durch die Datenwand

Die Überwindung von KI-Datenbarrieren: Warum Daten-DAOs jetzt entscheidend sind

Fortgeschrittene7/14/2024, 3:17:08 PM

DAO KI

1. Der aktuelle Stand der Daten in AI2. Die Auswirkungen von Data DAOs3. Offene Fragen und Herausforderungen4. Durchbruch durch die Datenwand

In diesem Artikel werden wir unsere Erkenntnisse zu Daten-DAOs teilen, um die Frage zu beantworten: Wie können Daten-DAOs die KI-Entwicklung beschleunigen?

1. der aktuelle Stand der Daten in KI

2. die Auswirkungen von Daten-DAOs

3. offene Fragen und Herausforderungen

Während Daten-DAOs erhebliche potenzielle Vorteile bieten, gibt es mehrere wichtige Überlegungen und Herausforderungen, die zu beachten sind.

(2) Messung und Belohnung von Daten

4. Durchbrechen der Datenmauer

Haftungsausschluss：

Dieser Artikel wird aus [reproduziertJinse Finanzen], und das Urheberrecht gehört dem Originalautor [Li Jin]. Wenn Sie Einwände gegen diesen Nachdruck haben, wenden Sie sich bitte an das Gate Learn-Team untergatelearn@Gate.io.Das Team wird alle Bedenken gemäß den relevanten Verfahren umgehend angehen.
Haftungsausschluss: Die in diesem Artikel geäußerten Ansichten und Meinungen sind ausschließlich die des Autors und stellen keine Anlageberatung dar.
Andere Sprachversionen dieses Artikels wurden vom Gate Learn-Team übersetzt. Ohne Erwähnung.Gate.ioDie übersetzten Artikel dürfen nicht kopiert, verteilt oder plagiiert werden.

Jetzt anfangen

Registrieren Sie sich und erhalten Sie einen

100

-Euro-Gutschein!

Die Überwindung von KI-Datenbarrieren: Warum Daten-DAOs jetzt entscheidend sind

1. der aktuelle Stand der Daten in KI

2. die Auswirkungen von Daten-DAOs

3. offene Fragen und Herausforderungen

4. Durchbrechen der Datenmauer

Haftungsausschluss：

Verwandte Artikel

Die Überwindung von KI-Datenbarrieren: Warum Daten-DAOs jetzt entscheidend sind

1. der aktuelle Stand der Daten in KI

2. die Auswirkungen von Daten-DAOs

3. offene Fragen und Herausforderungen

4. Durchbrechen der Datenmauer

Haftungsausschluss：

Verwandte Artikel