Dezentralisierte Daten-Layer: Die neue Infrastruktur für das KI-Zeitalter #247

Fortgeschrittene11/26/2024, 4:28:16 AM
Wir haben zuvor besprochen, wie KI und Web3 sich in vertikalen Branchen wie berechnenden Netzwerken, Vermittlungsplattformen und Verbraucheranwendungen ergänzen können. Wenn wir uns auf Datenressourcen als vertikales Feld konzentrieren, bieten aufstrebende Webprojekte neue Möglichkeiten für die Beschaffung, den Austausch und die Nutzung von Daten.

TL/DR

Wir haben bereits besprochen, wie KI und Web3 sich in vertikalen Branchen wie Rechennetzwerken, Vermittlungsplattformen und Verbraucheranwendungen ergänzen können. Wenn wir uns auf Datenressourcen als vertikales Feld konzentrieren, bieten aufstrebende Webprojekte neue Möglichkeiten für die Beschaffung, den Austausch und die Nutzung von Daten.

  • Traditionelle Datenanbieter kämpfen damit, die Nachfrage nach hochwertigen, Echtzeit- und verifizierbaren Daten in KI und anderen datengetriebenen Branchen zu erfüllen, insbesondere in Bezug auf Transparenz, Benutzerkontrolle und Datenschutz.
  • Web3-Lösungen formen das Datensystem um. Technologien wie MPC (Multi-Party Computation), Zero-Knowledge-Proofs und TLS-Notar gewährleisten die Authentizität und Privatsphäre von Daten während des Flusses zwischen mehreren Quellen, während verteilte Speicherung und Edge-Computing eine höhere Flexibilität und Effizienz bei der Echtzeit-Datenverarbeitung bieten.
  • Dezentrale Datennetzwerke als aufstrebende Infrastruktur haben zu mehreren repräsentativen Projekten geführt, wie OpenLayer (eine modulare Echtzeitdatenschicht), Grass (Nutzung der ungenutzten Bandbreite der Benutzer und dezentralisierte Crawler-Knotennetzwerke) und Vana (ein Layer 1-Netzwerk für die Datensouveränität der Benutzer), die neue Perspektiven für Bereiche wie KI-Training und Anwendungen durch unterschiedliche technologische Wege eröffnen.
  • Durch die Nutzung von crowdsourced Kapazitäten, vertrauenslosen Abstraktionsschichten und tokenbasierten Anreizmechanismen kann die dezentrale Dateninfrastruktur im Vergleich zu Web2-Giganten mehr private, sichere, effiziente und kostengünstige Lösungen bieten. Sie gibt den Nutzern auch die Kontrolle über ihre Daten und zugehörigen Ressourcen und schafft so ein offeneres, sichereres und vernetzteres digitales Ökosystem.

1. Der Anstieg der Datennachfrage

Daten sind zum wichtigsten Treiber von Innovationen und Entscheidungsfindung in verschiedenen Branchen geworden. UBS prognostiziert, dass das weltweite Datenvolumen von 2020 bis 2030 um das Zehnfache wachsen wird und 660 ZB erreicht. Bis 2025 wird erwartet, dass jeder einzelne weltweit täglich 463 EB (Exabytes, 1 EB = 1 Milliarde GB) an Daten generiert. Der Markt für Data-as-a-Service (DaaS) expandiert rasant. Laut Grand View Research betrug der weltweite DaaS-Markt im Jahr 2023 14,36 Milliarden US-Dollar und wird voraussichtlich mit einer jährlichen Wachstumsrate von 28,1 % auf 76,8 Milliarden US-Dollar bis 2030 wachsen.

Das Training von KI-Modellen ist stark auf große Datensätze angewiesen, um Muster zu identifizieren und Parameter anzupassen. Nach dem Training werden auch Datensätze benötigt, um die Leistung und Verallgemeinerungsfähigkeiten der Modelle zu testen. Darüber hinaus benötigen KI-Agenten als aufstrebende intelligente Anwendungsformen Echtzeit- und zuverlässige Datenquellen, um genaue Entscheidungsfindung und Aufgabenausführung zu gewährleisten.

(Quelle: Leewayhertz)

Die Nachfrage nach Business-Analytik wird auch vielfältiger und weitreichender, da sie als ein Kernwerkzeug dient, um die Innovationskraft von Unternehmen voranzutreiben. Zum Beispiel benötigen soziale Medienplattformen und Marktforschungsunternehmen zuverlässige Nutzerverhaltensdaten, um Strategien zu formulieren und Trends zu analysieren, indem sie vielfältige Daten von mehreren sozialen Plattformen integrieren, um ein umfassenderes Bild zu erstellen.

Für das Web3-Ökosystem ist auch zuverlässige und authentische Daten on-chain erforderlich, um neue Finanzprodukte zu unterstützen. Mit zunehmender Tokenisierung innovativer Vermögenswerte werden flexible und zuverlässige Daten-Schnittstellen benötigt, um die Produktentwicklung und das Risikomanagement zu unterstützen und Smart Contracts die Ausführung basierend auf überprüfbaren Echtzeitdaten zu ermöglichen.

Darüber hinaus verdeutlichen Anwendungsfälle in wissenschaftlicher Forschung, IoT und anderen Bereichen den stark steigenden Bedarf an vielfältigen, authentischen und Echtzeit-Daten. Traditionelle Systeme könnten Schwierigkeiten haben, mit dem rapiden Anstieg des Datenvolumens und den sich ständig ändernden Anforderungen Schritt zu halten.

2. Grenzen und Herausforderungen traditioneller Daten-Ökosysteme

Ein typisches Datensystem umfasst Datensammlung, Speicherung, Verarbeitung, Analyse und Anwendung. Zentralisierte Modelle zeichnen sich durch zentrale Datensammlung und -speicherung aus, die von einem Kern-IT-Team mit strenger Zugangskontrolle verwaltet werden. Beispielsweise erstreckt sich das Datensystem von Google über verschiedene Datenquellen wie Suchmaschinen, Gmail und das Android-Betriebssystem. Diese Plattformen sammeln Benutzerdaten, speichern sie in global verteilten Rechenzentren und verarbeiten sie mithilfe von Algorithmen zur Unterstützung der Entwicklung und Optimierung verschiedener Produkte und Dienstleistungen.

An den Finanzmärkten sammelt LSEG (ehemals Refinitiv) Echtzeit- und historische Daten von globalen Börsen, Banken und großen Finanzinstituten und nutzt dabei sein proprietäres Reuters News-Netzwerk, um marktbezogene Nachrichten zu sammeln. Sie verarbeiten diese Informationen mithilfe eigener Algorithmen und Modelle, um Analyse- und Risikobewertungsprodukte als Mehrwertdienste zu generieren.

(Quelle: kdnuggets.com)

Während traditionelle Datenarchitekturen im Bereich der professionellen Dienstleistungen wirksam sind, werden die Grenzen zentralisierter Modelle zunehmend deutlich, insbesondere bei der Abdeckung aufkommender Datenquellen, Transparenz und dem Schutz der Privatsphäre von Benutzern. Im Folgenden sind einige wichtige Themen aufgeführt:

  • Unzureichende Datenabdeckung: Herkömmliche Datenanbieter haben Schwierigkeiten, neue Datenquellen wie Social-Media-Stimmungen und IoT-Gerätedaten schnell zu erfassen und zu analysieren. Für zentralisierte Systeme ist es eine Herausforderung, "Long-Tail"-Daten aus zahlreichen kleinen oder nicht Mainstream-Quellen effizient zu erfassen und zu integrieren.

Das GameStop-Ereignis von 2021 zum Beispiel hat die Grenzen herkömmlicher Finanzdatenanbieter bei der Analyse von Stimmungen in sozialen Medien aufgezeigt. Die Anlegerstimmung auf Plattformen wie Reddit beeinflusst schnell Markttrends, aber Daten-Terminals wie Bloomberg und Reuters konnten diese Dynamiken nicht rechtzeitig erfassen, was zu verzögerten Marktvorhersagen führte.

  • Begrenzter Datenzugriff: Monopol begrenzt den Zugriff. Viele traditionelle Anbieter öffnen Teile ihrer Daten über APIs/Cloud-Services, aber hohe Zugangsgebühren und komplexe Autorisierungsprozesse erhöhen die Schwierigkeit der Datenintegration. On-Chain-Entwickler haben Schwierigkeiten, zuverlässige Off-Chain-Daten schnell abzurufen, da hochwertige Daten von einigen wenigen Giganten zu hohen Kosten monopolisiert werden.
  • Probleme der Daten-Transparenz und Glaubwürdigkeit: Viele zentrale Datenanbieter fehlen Transparenz bei ihren Daten-Erfassungs- und Verarbeitungsmethoden. Es fehlen auch effektive Mechanismen zur Überprüfung der Authentizität und Vollständigkeit von groß angelegten Daten. Die Überprüfung von Echtzeitdaten in großem Maßstab bleibt komplex und die zentrale Natur erhöht das Risiko einer Datenmanipulation oder -manipulation.
  • Datenschutz und Datenbesitz: Große Technologieunternehmen haben Benutzerdaten umfangreich kommerzialisiert. Benutzer als Ersteller von personenbezogenen Daten erhalten selten den angemessenen Wert dafür. Sie können oft nicht verstehen, wie ihre Daten erfasst, verarbeitet oder genutzt werden, noch können sie den Umfang und die Art ihrer Nutzung bestimmen. Übermäßige Datensammlung und Missbrauch führen auch zu erheblichen Datenschutzrisiken. Zum Beispiel hat der Cambridge Analytica-Skandal von Facebook erhebliche Mängel in Transparenz und Datenschutz in traditionellen Datensystemen aufgedeckt.
  • Daten-Silos: Echtzeitdaten aus verschiedenen Quellen und Formaten sind schwer schnell zu integrieren, was umfassende Analysen behindert. Ein Großteil dieser Daten bleibt innerhalb von Organisationen eingeschlossen und begrenzt den branchenübergreifenden und organisationsübergreifenden Austausch und Innovation. Dieser „Daten-Silo“-Effekt erschwert die Integration und Analyse von Daten in verschiedenen Bereichen. Zum Beispiel benötigen Marken in der Konsumgüterindustrie Daten von E-Commerce-Plattformen, physischen Geschäften, sozialen Medien und Marktforschung, aber diese Datensätze können aufgrund von Plattforminkonsistenzen oder Segregation isoliert sein. Ebenso sammeln Ride-Sharing-Unternehmen wie Uber und Lyft große Mengen an Echtzeitdaten zu Verkehr, Passagierbedarf und geografischen Standorten, aber wettbewerbsbedingte Dynamiken verhindern den Austausch oder die Integration dieser Datensätze.

Jenseits dieser Probleme sehen sich traditionelle Datendienstleister mit Herausforderungen in Bezug auf Kosteneffizienz und Flexibilität konfrontiert. Obwohl sie diese Probleme aktiv angehen, bieten aufstrebende Web3-Technologien neue Perspektiven und Möglichkeiten, um sie anzugehen.

3. Das Web3-Daten-Ökosystem

Seit der Einführung von dezentralen Speicherlösungen wie IPFS (InterPlanetary File System) im Jahr 2014 haben eine Reihe von aufstrebenden Projekten das Ziel, die Einschränkungen traditioneller Datensysteme zu adressieren. Dezentralisierte Datelösungen haben sich zu einem mehrschichtigen, vernetzten Ökosystem entwickelt, das alle Phasen des Datenlebenszyklus umfasst, einschließlich Datengenerierung, Speicherung, Austausch, Verarbeitung und Analyse, Überprüfung und Sicherheit sowie Datenschutz und Eigentum.

  • Datenspeicherung: Die rasante Entwicklung von Filecoin und Arweave zeigt, dass dezentrale Speicherung (DCS) zu einem Paradigmenwechsel im Speicherbereich wird. DCS reduziert einzelne Fehlerpunkte durch verteilte Architektur und zieht Teilnehmer mit wettbewerbsfähiger Kosteneffizienz an. Mit dem Aufkommen von großangelegten Anwendungen ist die DCS-Speicherkapazität exponentiell gewachsen (z. B. erreichte die Gesamtnetzwerkspeicherkapazität von Filecoin bis 2024 22 Exabyte).
  • Verarbeitung und Analyse: Dezentralisierte Datenverarbeitungsplattformen wie Fluence verbessern die Echtzeit-Performance und Effizienz der Datenverarbeitung durch Edge Computing, insbesondere für Echtzeitszenarien wie IoT und KI-Inferenz. Web3-Projekte nutzen Technologien wie föderiertes Lernen, differentielle Privatsphäre, vertrauenswürdige Ausführungsumgebungen und vollständig homomorphe Verschlüsselung, um flexible Datenschutzmaßnahmen auf der Rechenebene zu bieten.
  • Datenmarktplätze/Austauschplattformen: Um die Bewertung und Zirkulation von Daten zu erleichtern, setzt Ocean Protocol Tokenisierungs- und DEX-Mechanismen ein, um effiziente und offene Datenaustauschkanäle zu schaffen. So hat das Unternehmen beispielsweise mit Daimler (dem Mutterkonzern von Mercedes-Benz) zusammengearbeitet, um Datenaustauschmärkte für das Supply Chain Management zu entwickeln. Streamr hingegen hat ein erlaubnisfreies, abonnementbasiertes Datenstromnetzwerk entwickelt, das auf IoT- und Echtzeitanalyseszenarien zugeschnitten ist und ein außergewöhnliches Potenzial für Transport- und Logistikprojekte aufweist (z. B. Zusammenarbeit mit dem finnischen Smart-City-Projekt).

Mit zunehmendem Datenaustausch und -nutzung wird die Sicherstellung von Authentizität, Glaubwürdigkeit und Datenschutz immer wichtiger. Dies treibt das Web3-Ökosystem dazu an, bei der Datenüberprüfung und dem Datenschutz innovative Lösungen zu schaffen, die bahnbrechend sind.

3.1 Innovationen in der Datenverifizierung und dem Schutz der Privatsphäre

Viele Web3-Technologien und native Projekte konzentrieren sich darauf, Probleme der Datenauthentizität und des Datenschutzes zu lösen. Neben der weit verbreiteten Nutzung von Technologien wie Zero-Knowledge Proofs (ZK) und Multi-Party Computation (MPC) hat sich TLS Notary als bemerkenswerte neue Verifizierungsmethode herausgebildet.

Einführung in TLS-Notar

Das Transport Layer Security (TLS)-Protokoll ist ein weit verbreitetes Verschlüsselungsprotokoll für Netzwerkkommunikation. Sein Hauptzweck besteht darin, die Sicherheit, Integrität und Vertraulichkeit der Datenübertragung zwischen einem Client und einem Server zu gewährleisten. TLS ist ein gängiger Verschlüsselungsstandard in modernen Netzwerkkommunikationen, der in Szenarien wie HTTPS, E-Mail und Instant Messaging angewendet wird.

(TLS-Verschlüsselungsprinzipien, Quelle: TechTarget)

Als TLS-Notar vor einem Jahrzehnt erstmals eingeführt wurde, war sein Ziel, die Echtheit von TLS-Sitzungen zu überprüfen, indem ein Dritter „Notar“ außerhalb des Clients (Beweisers) und des Servers eingeführt wurde.

Mithilfe der Key-Splitting-Technologie wird der Hauptschlüssel einer TLS-Sitzung in zwei Teile geteilt, die getrennt vom Client und dem Notar verwaltet werden. Dieses Design ermöglicht es dem Notar, als vertrauenswürdige dritte Partei am Verifizierungsprozess teilzunehmen, ohne auf den tatsächlichen Kommunikationsinhalt zuzugreifen. Dieser Mechanismus zielt darauf ab, Man-in-the-Middle-Angriffe zu erkennen, betrügerische Zertifikate zu verhindern und sicherzustellen, dass Kommunikationsdaten während der Übertragung nicht manipuliert werden. Er ermöglicht es auch vertrauenswürdigen Dritten, die Legitimität von Kommunikationen zu bestätigen und gleichzeitig die Privatsphäre zu schützen.

Somit bietet TLS Notary sichere Datenüberprüfung und gleicht effektiv Überprüfungsbedürfnisse mit Datenschutz aus.

Im Jahr 2022 wurde das TLS Notary-Projekt vom Forschungslabor für Privatsphäre und Skalierung (PSE) der Ethereum Foundation umstrukturiert. Die neue Version des TLS Notary-Protokolls wurde von Grund auf in der Programmiersprache Rust neu geschrieben und mit fortschrittlicheren kryptografischen Protokollen wie MPC integriert. Diese Updates ermöglichen es Benutzern, die Authentizität von Daten, die von einem Server an eine dritte Partei übertragen wurden, nachzuweisen, ohne den Inhalt der Daten preiszugeben. Die neue TLS Notary verbessert die Datenschutzfunktionen erheblich, während sie ihre Kernverifikationsfähigkeiten beibehält und somit besser für aktuelle und zukünftige Datenschutzanforderungen geeignet ist.

3.2 Varianten und Erweiterungen von TLS Notary

In den letzten Jahren hat sich die TLS Notary-Technologie weiterentwickelt und verschiedene Derivate hervorgebracht, die ihre Privatsphäre- und Verifizierungsfähigkeiten weiter verbessern:

  • zkTLS: Eine datenschutzverstärkte Version von TLS Notary, die ZKP-Technologie integriert, die es Benutzern ermöglicht, kryptografische Beweise von Webseitendaten zu generieren, ohne dabei sensible Informationen preiszugeben. Es ist besonders geeignet für Kommunikationsszenarien, die einen hohen Datenschutz erfordern.
  • 3P-TLS (Dreiparteien-TLS): Dieses Protokoll führt drei Parteien ein - Client, Server und Auditor - und ermöglicht es dem Auditor, die Sicherheit der Kommunikation zu überprüfen, ohne den Inhalt preiszugeben. Dieses Protokoll ist nützlich in Szenarien, die sowohl Transparenz als auch Datenschutz erfordern, wie z.B. Compliance-Audits oder Überprüfung von Finanztransaktionen.

Web3-Projekte nutzen diese kryptografischen Technologien zur Verbesserung der Datenverifizierung und des Datenschutzes, um Probleme wie Datenmonopole, Silos und vertrauenswürdige Übertragungen anzugehen. Benutzer können den Besitz von Social-Media-Konten, Einkaufsprotokollen für Finanzkredite, Bankkreditgeschichte, beruflichen Hintergrund und akademische Qualifikationen sicher verifizieren, ohne ihre Privatsphäre zu gefährden. Beispiele sind:

  • Reclaim-Protokoll: Verwendet zkTLS, um Nullwissensnachweise des HTTPS-Verkehrs zu generieren, wodurch Benutzer sicher Aktivitäts-, Ruf- und Identitätsdaten von externen Websites importieren können, ohne sensible Informationen preiszugeben.
  • zkPass: Kombiniert die 3P-TLS-Technologie, um Benutzern zu ermöglichen, private Echtwelt-Daten sicher zu überprüfen, mit Anwendungen im Bereich KYC und Kreditdienstleistungen. Es ist auch kompatibel mit dem HTTPS-Netzwerk.
  • Opacity-Netzwerk: Basierend auf zkTLS können Benutzer sicher ihre Aktivitäten auf Plattformen wie Uber, Spotify und Netflix nachweisen, ohne direkt auf diese Plattformen-APIs zuzugreifen, was eine plattformübergreifende Aktivitätsverifizierung ermöglicht.

(Projekte, die an TLS-Oracles arbeiten, Quelle: Bastian Wetzel)

Die Datenüberprüfung in Web3 ist ein wesentliches Element im Datenökosystem mit großen Anwendungsaussichten. Die Blüte dieses Ökosystems lenkt die digitale Wirtschaft in Richtung eines offeneren, dynamischeren und nutzerzentrierten Modells. Die Entwicklung von Technologien zur Authentifizierungsüberprüfung ist jedoch nur der Anfang beim Aufbau einer Dateninfrastruktur der nächsten Generation.

4. Dezentralisierte Daten-Netzwerke

Einige Projekte haben die oben genannten Datenüberprüfungstechnologien mit weiterer Erforschung von Datenökosystemen stromaufwärts kombiniert, wie z.B. Datenrückverfolgbarkeit, verteilte Datensammlung und vertrauenswürdige Übertragung. Im Folgenden stellen wir drei repräsentative Projekte vor - OpenLayer, Grass und Vana -, die einzigartiges Potenzial beim Aufbau einer Dateninfrastruktur der nächsten Generation aufzeigen.

4.1 OpenLayer

OpenLayer, eines der Projekte aus dem a16z Crypto 2024 Spring Startup Accelerator, ist der erste modulare authentische Daten-Layer. Es zielt darauf ab, eine innovative modulare Lösung zur Koordinierung der Datensammlung, -prüfung und -transformation zu bieten, um den Bedürfnissen sowohl von Web2- als auch von Web3-Unternehmen gerecht zu werden. OpenLayer hat Unterstützung von namhaften Fonds und Business-Angels, einschließlich Geometry Ventures und LongHash Ventures, erhalten.

Traditionelle Daten-Layer stehen vor mehreren Herausforderungen: Mangel an zuverlässigen Verifizierungsmechanismen, Abhängigkeit von zentralisierten Architekturen, die die Zugänglichkeit einschränken, Mangel an Interoperabilität und Fluss zwischen verschiedenen Systemen und das Fehlen fairer Mechanismen zur Datenwerteverteilung.

Ein spezifischeres Problem ist die zunehmende Knappheit von Trainingsdaten für KI. Im öffentlichen Internet setzen viele Websites mittlerweile Anti-Scraping-Maßnahmen ein, um das massenhafte Abschöpfen von Daten durch KI-Unternehmen zu verhindern. Bei privaten proprietären Daten ist die Situation noch komplexer. Wertvolle Daten werden oft aufgrund ihrer sensiblen Natur in einer datenschutzgeschützten Weise gespeichert und es fehlen effektive Anreizmechanismen. Benutzer können ihre privaten Daten nicht sicher monetarisieren und sind daher zurückhaltend, sensible Informationen zu teilen.

Um diese Probleme zu lösen, kombiniert OpenLayer Datenüberprüfungstechnologien, um eine modulare authentische Daten-Layer aufzubauen. Durch Dezentralisierung und wirtschaftliche Anreize koordiniert es die Prozesse der Datenerfassung, -überprüfung und -umwandlung und bietet eine sicherere, effizientere und flexiblere Dateninfrastruktur für Web2- und Web3-Unternehmen.

4.1.1 Kernkomponenten des modularen Designs von OpenLayer

OpenLayer bietet eine modulare Plattform, die Datensammlung, vertrauenswürdige Verifizierung und Transformationsprozesse vereinfacht.

a) OpenNodes

OpenNodes sind die Kernkomponenten, die für die dezentrale Datensammlung im OpenLayer-Ökosystem verantwortlich sind. Über mobile Apps, Browsererweiterungen und andere Kanäle können Benutzer Daten sammeln. Unterschiedliche Betreiber/Nodes können ihre Belohnungen optimieren, indem sie Aufgaben ausführen, die am besten zu ihren Hardware-Spezifikationen passen.

OpenNodes unterstützen drei Hauptarten von Daten:

  • Öffentlich verfügbare Internetdaten (z. B. Finanz-, Wetter-, Sport- und Social-Media-Daten)
  • Benutzerdaten (z. B. Netflix-Anzeigeverlauf, Amazon-Bestellprotokolle)
  • Selbst gemeldete Daten von vertrauenswürdigen Quellen (z.B. Daten, die von Eigentümern oder spezifischen vertrauenswürdigen Hardware verifiziert wurden).

Entwickler können ganz einfach neue Datentypen hinzufügen, Datenquellen angeben und Anforderungen sowie Abrufmethoden definieren. Benutzer können anonymisierte Daten gegen Belohnungen bereitstellen. Dieses Design ermöglicht es dem System, kontinuierlich zu wachsen, um neuen Datenanforderungen gerecht zu werden. Die vielfältigen Datenquellen machen OpenLayer für verschiedene Anwendungsszenarien geeignet und senken die Schwelle für Datenbereitstellung.

b) OpenValidators

OpenValidators übernehmen die Überprüfung der gesammelten Daten und ermöglichen es Datenkonsumenten, die Genauigkeit der vom Benutzer bereitgestellten Daten gegenüber ihrer Quelle zu bestätigen. Die Überprüfungsmethoden verwenden kryptographische Beweise, und die Ergebnisse können im Nachhinein validiert werden. Mehrere Anbieter können Überprüfungsdienste für denselben Typ von Beweis anbieten, sodass Entwickler den am besten geeigneten Anbieter für ihre Bedürfnisse auswählen können.

In ersten Anwendungsfällen, insbesondere für öffentliche oder private Daten von Internet-APIs, verwendet OpenLayer TLS Notary als Verifizierungslösung. Es exportiert Daten aus jeder Webanwendung und überprüft deren Authentizität, ohne die Privatsphäre zu beeinträchtigen.

Jenseits von TLS-Notar, dank seines modularen Designs kann das Verifikationssystem problemlos andere Methoden integrieren, um vielfältige Daten- und Verifikationsanforderungen zu erfüllen, einschließlich:

  1. Attested TLS-Verbindungen: Nutzung von Trusted Execution Environments (TEEs) zur Herstellung zertifizierter TLS-Verbindungen, um die Datenintegrität und Authentizität während der Übertragung sicherzustellen.
  2. Sichere Enklaven: Verwendung von sicher isolierten Umgebungen auf Hardware-Ebene (z. B. Intel SGX) zur Verarbeitung und Überprüfung sensibler Daten, die einen höheren Schutz der Daten bieten.
  3. ZK Proof Generators: Integration von Zero-Knowledge Proofs zur Überprüfung von Datenattributen oder Berechnungsergebnissen, ohne die zugrunde liegenden Daten offenzulegen.

c) OpenConnect

OpenConnect ist das Modul, das für die Datenverarbeitung und die Benutzerfreundlichkeit innerhalb des OpenLayer-Ökosystems verantwortlich ist. Es verarbeitet Daten aus verschiedenen Quellen und gewährleistet die Interoperabilität zwischen verschiedenen Systemen, um vielfältige Anwendungsanforderungen zu erfüllen. Zum Beispiel:

  • Konvertierung von Daten in ein on-Chain Oracle-Format zur direkten Verwendung durch Smart Contracts.
  • Vorbereitung von unstrukturierten Rohdaten zu strukturierten Daten für das Training von KI.

Bereitstellung von datenschutzfreundlicher Datenanonymisierung für Benutzerprivate Konten zur Verbesserung der Sicherheit bei der Datenfreigabe zur Reduzierung von Lecks und Missbrauch.

Um den Echtzeit-Datennachfrage von KI- und Blockchain-Anwendungen gerecht zu werden, unterstützt OpenConnect effiziente Echtzeit-Datenübertragung.

Derzeit überwachen die Betreiber von OpenLayer AVS (Active Validation Service) durch Integration mit EigenLayer Datenanforderungsaufgaben, sammeln Daten, überprüfen sie und melden die Ergebnisse an das System zurück. Die Betreiber setzen oder setzen Assets auf EigenLayer neu, um wirtschaftliche Garantien für ihre Handlungen zu bieten. Bösartiges Verhalten führt zu Assetslashings. Als eines der ersten AVS-Projekte auf dem EigenLayer-Mainnet hat OpenLayer über 50 Betreiber und $4 Milliarden an erneut eingesetzten Assets angezogen.

4.2 Gras

Grass, das Flaggschiffprojekt von Wynd Network, soll ein dezentralisiertes Netzwerk-Crawler- und KI-Trainingsdaten-Plattform erstellen. Bis Ende 2023 hat Grass eine Seed-Finanzierungsrunde in Höhe von 3,5 Millionen US-Dollar abgeschlossen, die von Polychain Capital und Tribe Capital geleitet wurde. Im September 2024 sicherte es sich eine Serie-A-Finanzierung in Höhe von 5 Millionen US-Dollar, angeführt von HackVC und zusätzlicher Beteiligung von Polychain, Delphi, Lattice und Brevan Howard.

Da das KI-Training zunehmend auf vielfältige und umfangreiche Datenquellen angewiesen ist, geht Grass auf diese Notwendigkeit ein, indem es ein verteiltes Web-Crawler-Knotennetzwerk erstellt. Dieses Netzwerk nutzt dezentrale physische Infrastruktur und ungenutzte Benutzerbandbreite, um verifizierbare Datensätze für das KI-Training zu sammeln und bereitzustellen. Die Knoten leiten Webanfragen über die Internetverbindungen der Benutzer weiter und greifen auf öffentliche Websites zu und stellen strukturierte Datensätze zusammen. Die anfängliche Datenbereinigung und -formatierung erfolgt mithilfe von Edge-Computing-Technologie, um hochwertige Ausgaben zu gewährleisten.

Grass nutzt die Solana Layer 2 Data Rollup-Architektur, um die Verarbeitungseffizienz zu verbessern. Validator:innen empfangen, überprüfen und stapeln Webtransaktionen von Knotenpunkten, generieren Zero-Knowledge (ZK)-Beweise zur Bestätigung der Datenauthentizität. Verifizierte Daten werden im Grass Data Ledger (L2) gespeichert, wobei entsprechende Beweise mit der Solana L1-Blockchain verknüpft sind.

4.2.1 Schlüsselkomponenten von Grass

a) Grass-Knoten:

Benutzer installieren die Grass-App oder Browsererweiterung, um ihre ungenutzte Bandbreite zur dezentralen Web-Crawling zu nutzen. Knoten leiten Webanfragen, greifen auf öffentliche Websites zu und kompilieren strukturierte Datensätze. Unter Verwendung von Edge Computing führen sie die anfängliche Datenbereinigung und -formatierung durch. Benutzer verdienen GRASS-Token als Belohnung basierend auf ihrem Bandbreitenbeitrag und dem bereitgestellten Datenvolumen.

b) Router:

Als Vermittler verbinden Router Grass-Knoten mit Validatoren. Sie verwalten das Knotennetzwerk und übertragen Bandbreite. Ihre Anreize basieren auf der insgesamt verifizierten Bandbreite, die sie erleichtern.

c) Validatoren:

Validators empfangen und überprüfen Web-Transaktionen, die von Routern weitergeleitet werden. Sie generieren ZK-Beweise, um die Gültigkeit der Daten zu bestätigen, wobei sie einzigartige Schlüsselsätze nutzen, um sichere TLS-Verbindungen und Verschlüsselungssuiten zu etablieren. Obwohl Grass derzeit zentrale Validator nutzt, sind Pläne in Arbeit, um zu einem dezentralisierten Validator-Komitee überzugehen.

d) ZK-Prozessoren:

Diese Prozessoren validieren Knotensitzungsdatenbeweise und stapeln alle Webanforderungsbeweise zur Einreichung bei Solana Layer 1.

e) Gras-Daten-Layer (Gras L2):

Das Grass Data Ledger speichert umfassende Datensätze und verknüpft sie mit ihren entsprechenden L1-Beweisen auf Solana, um Transparenz und Rückverfolgbarkeit zu gewährleisten.

f) Kanten-Einbettungsmodelle:

Diese Modelle wandeln unstrukturierte Webdaten in strukturierte Datensätze um, die für das Training von KI geeignet sind.

Quelle: Gras

Vergleich: Gras vs. OpenLayer

Grass und OpenLayer teilen das Engagement, verteilte Netzwerke zu nutzen, um Unternehmen Zugang zu offenen Internetdaten und authentifizierten privaten Daten zu ermöglichen. Beide nutzen Anreizmechanismen, um den Datenaustausch und die Produktion hochwertiger Datensätze zu fördern, aber ihre technischen Architekturen und Geschäftsmodelle unterscheiden sich.

Technische Architektur:

Grass nutzt eine Solana Layer 2 Data Rollup-Architektur mit zentralisierter Validierung, die auf einem einzigen Validator beruht. OpenLayer, als früher Anwender von EigenLayers AVS (Active Validation Service), setzt einen dezentralen Validierungsmechanismus mit ökonomischen Anreizen und Strafen ein. Sein modulares Design betont Skalierbarkeit und Flexibilität bei Datenverifizierungsdiensten.

Produktschwerpunkt:

Beide Projekte ermöglichen es Benutzern, Daten über Knoten zu monetarisieren, aber ihre Geschäftsfälle weichen voneinander ab:

  • Grass verfügt über ein Datenmarktplatzmodell, das L2 verwendet, um strukturierte, qualitativ hochwertige Datensätze überprüfbar zu speichern. Diese Datensätze sind als Schulungsressourcen auf KI-Unternehmen zugeschnitten.
  • OpenLayer konzentriert sich auf die Echtzeit-Verifizierung von Datenströmen (VaaS) anstelle der dedizierten Datenspeicherung. Es bedient dynamische Szenarien wie Orakel für RWA/DeFi/Prognosemärkte, Echtzeit-Sozialdaten und KI-Anwendungen, die sofortige Dateninputs erfordern.

Grass richtet sich hauptsächlich an KI-Unternehmen und Datenwissenschaftler, die große, strukturierte Datensätze benötigen, sowie an Forschungseinrichtungen und Unternehmen, die webbasierte Daten benötigen. OpenLayer richtet sich an Web3-Entwickler, die Off-Chain-Datenquellen benötigen, KI-Unternehmen, die Echtzeit- und überprüfbare Datenströme benötigen, sowie an Unternehmen, die innovative Strategien wie die Überprüfung der Nutzung von Konkurrenzprodukten verfolgen.

Zukünftiger Wettbewerb und Synergien

Obwohl beide Projekte derzeit unterschiedliche Nischen besetzen, können sich ihre Funktionalitäten im Laufe der Entwicklung der Branche möglicherweise angleichen:

  • Grass könnte sich ausdehnen, um Echtzeit-Strukturdaten anzubieten.
  • OpenLayer könnte ein spezielles Daten-Ledger zur Verwaltung von Datensätzen entwickeln.

Beide Projekte könnten auch die Integration von Datenbeschriftung als kritischen Schritt für Training-Datasets vornehmen. Grass, mit seinem umfangreichen Netzwerk von über 2,2 Millionen aktiven Knotenpunkten, könnte schnell Verstärkungslernen mit menschlichem Feedback (RLHF) Dienste bereitstellen, um KI-Modelle zu optimieren. OpenLayer, mit seiner Expertise in Echtzeit-Datenverifizierung und -Verarbeitung, könnte einen Vorteil in Bezug auf Datenkredibilität und -qualität, insbesondere für private Datensätze, beibehalten.

Trotz möglicher Überschneidungen könnten ihre einzigartigen Stärken und technologischen Ansätze es ihnen ermöglichen, verschiedene Nischen innerhalb des dezentralen Daten-Ökosystems zu dominieren.

(Quelle:IOSG, David)

4.3 Vana: Ein datenzentriertes Netzwerk für Benutzerdatenpools

Vana ist ein nutzerzentriertes Datennetzwerk, das hochwertige Daten für KI und verwandte Anwendungen bereitstellt. Im Vergleich zu OpenLayer und Grass verfolgt Vana einen eigenständigen technologischen und geschäftlichen Ansatz. Im September 2024 sicherte sich Vana eine Finanzierung in Höhe von 5 Millionen US-Dollar, angeführt von Coinbase Ventures, nach einer Series-A-Runde in Höhe von 18 Millionen US-Dollar, bei der Paradigm als Hauptinvestor fungierte und Beteiligungen von Polychain und Casey Caruso erfolgten.

Ursprünglich im Jahr 2018 als Forschungsprojekt des MIT gestartet, ist Vana eine Layer 1 Blockchain, die dem privaten Benutzerdaten gewidmet ist. Ihre Innovationen in Bezug auf Datenbesitz und Werteverteilung ermöglichen es den Benutzern, von KI-Modellen, die auf ihren Daten trainiert sind, zu profitieren. Vana erreicht dies durch vertrauenswürdige, private und zuordenbare Data Liquidity Pools (DLPs) sowie einen innovativen Beitragssicherungsmechanismus, der den Fluss und die Monetarisierung privater Daten erleichtert.

4.3.1. Datenliquiditätspools (DLPs)

Vana führt ein einzigartiges Konzept von Datenliquiditätspools (DLPs) ein, die im Mittelpunkt des Vana-Netzwerks stehen. Jeder DLP ist ein unabhängiges Peer-to-Peer-Netzwerk, das spezifische Arten von Datenwerten aggregiert. Benutzer können ihre privaten Daten - wie Einkaufsdaten, Surfverhalten und Aktivitäten in sozialen Medien - in dafür vorgesehene DLPs hochladen und entscheiden, ob sie die spezifische Nutzung durch Dritte autorisieren möchten.

Die Daten in diesen Pools werden zur Wahrung der Benutzerprivatsphäre deidentifiziert, bleiben aber für kommerzielle Anwendungen wie das Training von KI-Modellen und Marktforschungszwecke nutzbar. Benutzer, die Daten zu einem DLP beitragen, werden mit entsprechenden DLP-Token belohnt. Diese Token repräsentieren den Beitrag des Benutzers zum Pool, gewähren Governance-Rechte und berechtigen den Benutzer zu einem Anteil an zukünftigen Gewinnen.

Im Gegensatz zum traditionellen einmaligen Verkauf von Daten ermöglicht es Vana, dass Daten kontinuierlich am Wirtschaftskreislauf teilnehmen und Benutzer transparente, visualisierte Nutzungsverfolgung erhalten.

4.3.2. Mechanismus des Beitragsnachweises

Der Proof of Contribution (PoC)-Mechanismus ist ein Eckpfeiler von Vanas Ansatz zur Sicherstellung der Datenqualität. Jeder Daten-Layer-Provider (DLP) kann eine einzigartige PoC-Funktion definieren, die auf seine Eigenschaften zugeschnitten ist, um die Authentizität und Vollständigkeit der übermittelten Daten zu überprüfen und ihren Beitrag zur Verbesserung der Leistung des KI-Modells zu bewerten. Dieser Mechanismus quantifiziert die Benutzerbeiträge und zeichnet sie zur Belohnungszuweisung auf. Ähnlich dem Konzept des „Proof of Work“ in Kryptowährungen belohnt PoC Benutzer basierend auf Datenqualität, -menge und -nutzungshäufigkeit. Smart Contracts automatisieren diesen Prozess und gewährleisten eine faire und transparente Entschädigung der Beitragenden.

Vanas technische Architektur

  1. Datenliquiditätsschicht:

Diese Kernschicht ermöglicht die Beitrag, Überprüfung und Aufzeichnung von Daten in DLPs, wodurch Daten in übertragbare digitale Vermögenswerte on-chain umgewandelt werden. DLP-Ersteller setzen Smart Contracts ein, um Zwecke, Überprüfungsmethoden und Beitragparameter festzulegen. Datenbeitragende reichen Daten zur Validierung ein, und das PoC-Modul bewertet die Datenqualität und weist Governance-Rechte und Belohnungen zu.

  1. Datenportabilitäts-Schicht:

Als Anwendungsschicht von Vana dient diese Plattform zur Zusammenarbeit zwischen Datenlieferanten und Entwicklern. Sie stellt die Infrastruktur zum Aufbau verteilter KI-Trainingsmodelle und KI-DApps unter Verwendung der Liquidität in DLPs bereit.

  1. Connectome:

Ein dezentrales Ledger, das das Vana-Ökosystem unterstützt, fungiert Connectome als Echtzeit-Datenflusskarte. Es zeichnet alle Echtzeitdatentransaktionen unter Verwendung des Proof-of-Stake-Konsenses auf und gewährleistet den effizienten Transfer von DLP-Token und ermöglicht den plattformübergreifenden Zugriff auf DLP-Daten. Vollständig kompatibel mit EVM ermöglicht es die Interoperabilität mit anderen Netzwerken, Protokollen und DeFi-Anwendungen.

(Quelle: Vana)

Vana bietet einen frischen Ansatz, indem es sich auf die Liquidität und die Stärkung der Nutzerdaten konzentriert. Dieses dezentrale Daten-Austausch-Modell unterstützt nicht nur KI-Training und Daten-Marktplätze, sondern ermöglicht auch nahtloses plattformübergreifendes Daten-Sharing und Eigentum im Web3-Ökosystem. Letztendlich fördert es ein offenes Internet, in dem Nutzer ihre Daten und die intelligenten Produkte, die daraus entstehen, besitzen und verwalten können.

5. Der Wertvorschlag dezentralisierter Datennetzwerke

Im Jahr 2006 äußerte der Datenwissenschaftler Clive Humby berühmt: "Daten sind das neue Öl." In den letzten zwei Jahrzehnten haben wir die rasante Entwicklung von Technologien erlebt, die diese Ressource "veredeln", wie z. B. Big Data-Analyse und maschinelles Lernen, die einen beispiellosen Wert aus Daten freigesetzt haben. Laut IDC wird sich die globale Datensphäre bis 2025 auf 163 ZB ausdehnen, wobei der Großteil von Einzelpersonen stammt. Da das IoT, tragbare Geräte, KI und personalisierte Dienste immer verbreiteter werden, wird der größte Teil der für kommerzielle Zwecke erforderlichen Daten von Einzelpersonen stammen.

Herausforderungen traditioneller Lösungen und Web3-Innovationen

Web3-Datenlösungen überwinden die Einschränkungen herkömmlicher Infrastrukturen, indem sie verteilte Knotennetzwerke nutzen. Diese Netzwerke ermöglichen eine breitere, effizientere Datensammlung und verbessern die Echtzeit-Zugänglichkeit und Verifizierbarkeit spezifischer Datensätze. Web3-Technologien gewährleisten die Authentizität und Integrität von Daten und schützen die Privatsphäre der Benutzer, fördern ein gerechteres Modell der Datennutzung. Diese dezentrale Architektur demokratisiert den Zugang zu Daten und befähigt die Benutzer, an den ökonomischen Vorteilen der Datenwirtschaft teilzuhaben.

Sowohl OpenLayer als auch Grass setzen auf Benutzer-Knoten-Modelle, um spezifische Datensammlungsprozesse zu verbessern, während Vana private Benutzerdaten monetarisiert. Diese Ansätze verbessern nicht nur die Effizienz, sondern ermöglichen es auch normalen Benutzern, an dem vom Datenmarkt geschaffenen Wert teilzunehmen und schaffen eine Win-Win-Situation für Benutzer und Entwickler.

Durch Tokenomics gestalten Web3-Datenlösungen Anreizmodelle neu und etablieren einen gerechteren Wertverteilungsmechanismus. Diese Systeme ziehen erhebliche Nutzerbeteiligung, Hardware-Ressourcen und Kapitalinvestitionen an und optimieren den Betrieb des gesamten Datennetzwerks.

Web3-Lösungen bieten Modularität und Skalierbarkeit, die technologische Iteration und Ökosystemerweiterung ermöglichen. Beispiel: Das modulare Design von OpenLayer bietet Flexibilität für zukünftige Fortschritte; Die verteilte Architektur von Grass optimiert das Training von KI-Modellen, indem sie vielfältige und hochwertige Datensätze bereitstellt.

Von der Datenerzeugung, -speicherung und -überprüfung bis hin zum Austausch und zur Analyse adressieren Web3-basierte Lösungen die Schwächen traditioneller Infrastrukturen. Indem sie es den Nutzern ermöglichen, ihre Daten zu monetarisieren, transformieren diese Lösungen grundlegend die Datenwirtschaft.

Mit der Entwicklung von Technologien und der Ausweitung von Anwendungsszenarien werden dezentrale Daten-Layer voraussichtlich zu einem Eckpfeiler der Infrastruktur der nächsten Generation. Sie werden eine Vielzahl datengetriebener Branchen unterstützen und Benutzern ermöglichen, die Kontrolle über ihre Daten und ihr wirtschaftliches Potenzial zu übernehmen.

Haftungsausschluss:

  1. Dieser Artikel wurde aus [wiederveröffentlichtIOSG Ventures]. Alle Urheberrechte gehören dem Originalautor [IOSG Ventures]. Wenn es Einwände gegen diesen Nachdruck gibt, wenden Sie sich bitte an den gate lernen Team, und sie werden sich umgehend darum kümmern.
  2. Haftungsausschluss: Die in diesem Artikel geäußerten Ansichten und Meinungen sind ausschließlich die des Autors und stellen keine Anlageberatung dar.
  3. Das Gate Learn-Team hat den Artikel in andere Sprachen übersetzt. Das Kopieren, Verteilen oder Plagiieren der übersetzten Artikel ist untersagt, es sei denn, es wurde erwähnt.

Dezentralisierte Daten-Layer: Die neue Infrastruktur für das KI-Zeitalter #247

Fortgeschrittene11/26/2024, 4:28:16 AM
Wir haben zuvor besprochen, wie KI und Web3 sich in vertikalen Branchen wie berechnenden Netzwerken, Vermittlungsplattformen und Verbraucheranwendungen ergänzen können. Wenn wir uns auf Datenressourcen als vertikales Feld konzentrieren, bieten aufstrebende Webprojekte neue Möglichkeiten für die Beschaffung, den Austausch und die Nutzung von Daten.

TL/DR

Wir haben bereits besprochen, wie KI und Web3 sich in vertikalen Branchen wie Rechennetzwerken, Vermittlungsplattformen und Verbraucheranwendungen ergänzen können. Wenn wir uns auf Datenressourcen als vertikales Feld konzentrieren, bieten aufstrebende Webprojekte neue Möglichkeiten für die Beschaffung, den Austausch und die Nutzung von Daten.

  • Traditionelle Datenanbieter kämpfen damit, die Nachfrage nach hochwertigen, Echtzeit- und verifizierbaren Daten in KI und anderen datengetriebenen Branchen zu erfüllen, insbesondere in Bezug auf Transparenz, Benutzerkontrolle und Datenschutz.
  • Web3-Lösungen formen das Datensystem um. Technologien wie MPC (Multi-Party Computation), Zero-Knowledge-Proofs und TLS-Notar gewährleisten die Authentizität und Privatsphäre von Daten während des Flusses zwischen mehreren Quellen, während verteilte Speicherung und Edge-Computing eine höhere Flexibilität und Effizienz bei der Echtzeit-Datenverarbeitung bieten.
  • Dezentrale Datennetzwerke als aufstrebende Infrastruktur haben zu mehreren repräsentativen Projekten geführt, wie OpenLayer (eine modulare Echtzeitdatenschicht), Grass (Nutzung der ungenutzten Bandbreite der Benutzer und dezentralisierte Crawler-Knotennetzwerke) und Vana (ein Layer 1-Netzwerk für die Datensouveränität der Benutzer), die neue Perspektiven für Bereiche wie KI-Training und Anwendungen durch unterschiedliche technologische Wege eröffnen.
  • Durch die Nutzung von crowdsourced Kapazitäten, vertrauenslosen Abstraktionsschichten und tokenbasierten Anreizmechanismen kann die dezentrale Dateninfrastruktur im Vergleich zu Web2-Giganten mehr private, sichere, effiziente und kostengünstige Lösungen bieten. Sie gibt den Nutzern auch die Kontrolle über ihre Daten und zugehörigen Ressourcen und schafft so ein offeneres, sichereres und vernetzteres digitales Ökosystem.

1. Der Anstieg der Datennachfrage

Daten sind zum wichtigsten Treiber von Innovationen und Entscheidungsfindung in verschiedenen Branchen geworden. UBS prognostiziert, dass das weltweite Datenvolumen von 2020 bis 2030 um das Zehnfache wachsen wird und 660 ZB erreicht. Bis 2025 wird erwartet, dass jeder einzelne weltweit täglich 463 EB (Exabytes, 1 EB = 1 Milliarde GB) an Daten generiert. Der Markt für Data-as-a-Service (DaaS) expandiert rasant. Laut Grand View Research betrug der weltweite DaaS-Markt im Jahr 2023 14,36 Milliarden US-Dollar und wird voraussichtlich mit einer jährlichen Wachstumsrate von 28,1 % auf 76,8 Milliarden US-Dollar bis 2030 wachsen.

Das Training von KI-Modellen ist stark auf große Datensätze angewiesen, um Muster zu identifizieren und Parameter anzupassen. Nach dem Training werden auch Datensätze benötigt, um die Leistung und Verallgemeinerungsfähigkeiten der Modelle zu testen. Darüber hinaus benötigen KI-Agenten als aufstrebende intelligente Anwendungsformen Echtzeit- und zuverlässige Datenquellen, um genaue Entscheidungsfindung und Aufgabenausführung zu gewährleisten.

(Quelle: Leewayhertz)

Die Nachfrage nach Business-Analytik wird auch vielfältiger und weitreichender, da sie als ein Kernwerkzeug dient, um die Innovationskraft von Unternehmen voranzutreiben. Zum Beispiel benötigen soziale Medienplattformen und Marktforschungsunternehmen zuverlässige Nutzerverhaltensdaten, um Strategien zu formulieren und Trends zu analysieren, indem sie vielfältige Daten von mehreren sozialen Plattformen integrieren, um ein umfassenderes Bild zu erstellen.

Für das Web3-Ökosystem ist auch zuverlässige und authentische Daten on-chain erforderlich, um neue Finanzprodukte zu unterstützen. Mit zunehmender Tokenisierung innovativer Vermögenswerte werden flexible und zuverlässige Daten-Schnittstellen benötigt, um die Produktentwicklung und das Risikomanagement zu unterstützen und Smart Contracts die Ausführung basierend auf überprüfbaren Echtzeitdaten zu ermöglichen.

Darüber hinaus verdeutlichen Anwendungsfälle in wissenschaftlicher Forschung, IoT und anderen Bereichen den stark steigenden Bedarf an vielfältigen, authentischen und Echtzeit-Daten. Traditionelle Systeme könnten Schwierigkeiten haben, mit dem rapiden Anstieg des Datenvolumens und den sich ständig ändernden Anforderungen Schritt zu halten.

2. Grenzen und Herausforderungen traditioneller Daten-Ökosysteme

Ein typisches Datensystem umfasst Datensammlung, Speicherung, Verarbeitung, Analyse und Anwendung. Zentralisierte Modelle zeichnen sich durch zentrale Datensammlung und -speicherung aus, die von einem Kern-IT-Team mit strenger Zugangskontrolle verwaltet werden. Beispielsweise erstreckt sich das Datensystem von Google über verschiedene Datenquellen wie Suchmaschinen, Gmail und das Android-Betriebssystem. Diese Plattformen sammeln Benutzerdaten, speichern sie in global verteilten Rechenzentren und verarbeiten sie mithilfe von Algorithmen zur Unterstützung der Entwicklung und Optimierung verschiedener Produkte und Dienstleistungen.

An den Finanzmärkten sammelt LSEG (ehemals Refinitiv) Echtzeit- und historische Daten von globalen Börsen, Banken und großen Finanzinstituten und nutzt dabei sein proprietäres Reuters News-Netzwerk, um marktbezogene Nachrichten zu sammeln. Sie verarbeiten diese Informationen mithilfe eigener Algorithmen und Modelle, um Analyse- und Risikobewertungsprodukte als Mehrwertdienste zu generieren.

(Quelle: kdnuggets.com)

Während traditionelle Datenarchitekturen im Bereich der professionellen Dienstleistungen wirksam sind, werden die Grenzen zentralisierter Modelle zunehmend deutlich, insbesondere bei der Abdeckung aufkommender Datenquellen, Transparenz und dem Schutz der Privatsphäre von Benutzern. Im Folgenden sind einige wichtige Themen aufgeführt:

  • Unzureichende Datenabdeckung: Herkömmliche Datenanbieter haben Schwierigkeiten, neue Datenquellen wie Social-Media-Stimmungen und IoT-Gerätedaten schnell zu erfassen und zu analysieren. Für zentralisierte Systeme ist es eine Herausforderung, "Long-Tail"-Daten aus zahlreichen kleinen oder nicht Mainstream-Quellen effizient zu erfassen und zu integrieren.

Das GameStop-Ereignis von 2021 zum Beispiel hat die Grenzen herkömmlicher Finanzdatenanbieter bei der Analyse von Stimmungen in sozialen Medien aufgezeigt. Die Anlegerstimmung auf Plattformen wie Reddit beeinflusst schnell Markttrends, aber Daten-Terminals wie Bloomberg und Reuters konnten diese Dynamiken nicht rechtzeitig erfassen, was zu verzögerten Marktvorhersagen führte.

  • Begrenzter Datenzugriff: Monopol begrenzt den Zugriff. Viele traditionelle Anbieter öffnen Teile ihrer Daten über APIs/Cloud-Services, aber hohe Zugangsgebühren und komplexe Autorisierungsprozesse erhöhen die Schwierigkeit der Datenintegration. On-Chain-Entwickler haben Schwierigkeiten, zuverlässige Off-Chain-Daten schnell abzurufen, da hochwertige Daten von einigen wenigen Giganten zu hohen Kosten monopolisiert werden.
  • Probleme der Daten-Transparenz und Glaubwürdigkeit: Viele zentrale Datenanbieter fehlen Transparenz bei ihren Daten-Erfassungs- und Verarbeitungsmethoden. Es fehlen auch effektive Mechanismen zur Überprüfung der Authentizität und Vollständigkeit von groß angelegten Daten. Die Überprüfung von Echtzeitdaten in großem Maßstab bleibt komplex und die zentrale Natur erhöht das Risiko einer Datenmanipulation oder -manipulation.
  • Datenschutz und Datenbesitz: Große Technologieunternehmen haben Benutzerdaten umfangreich kommerzialisiert. Benutzer als Ersteller von personenbezogenen Daten erhalten selten den angemessenen Wert dafür. Sie können oft nicht verstehen, wie ihre Daten erfasst, verarbeitet oder genutzt werden, noch können sie den Umfang und die Art ihrer Nutzung bestimmen. Übermäßige Datensammlung und Missbrauch führen auch zu erheblichen Datenschutzrisiken. Zum Beispiel hat der Cambridge Analytica-Skandal von Facebook erhebliche Mängel in Transparenz und Datenschutz in traditionellen Datensystemen aufgedeckt.
  • Daten-Silos: Echtzeitdaten aus verschiedenen Quellen und Formaten sind schwer schnell zu integrieren, was umfassende Analysen behindert. Ein Großteil dieser Daten bleibt innerhalb von Organisationen eingeschlossen und begrenzt den branchenübergreifenden und organisationsübergreifenden Austausch und Innovation. Dieser „Daten-Silo“-Effekt erschwert die Integration und Analyse von Daten in verschiedenen Bereichen. Zum Beispiel benötigen Marken in der Konsumgüterindustrie Daten von E-Commerce-Plattformen, physischen Geschäften, sozialen Medien und Marktforschung, aber diese Datensätze können aufgrund von Plattforminkonsistenzen oder Segregation isoliert sein. Ebenso sammeln Ride-Sharing-Unternehmen wie Uber und Lyft große Mengen an Echtzeitdaten zu Verkehr, Passagierbedarf und geografischen Standorten, aber wettbewerbsbedingte Dynamiken verhindern den Austausch oder die Integration dieser Datensätze.

Jenseits dieser Probleme sehen sich traditionelle Datendienstleister mit Herausforderungen in Bezug auf Kosteneffizienz und Flexibilität konfrontiert. Obwohl sie diese Probleme aktiv angehen, bieten aufstrebende Web3-Technologien neue Perspektiven und Möglichkeiten, um sie anzugehen.

3. Das Web3-Daten-Ökosystem

Seit der Einführung von dezentralen Speicherlösungen wie IPFS (InterPlanetary File System) im Jahr 2014 haben eine Reihe von aufstrebenden Projekten das Ziel, die Einschränkungen traditioneller Datensysteme zu adressieren. Dezentralisierte Datelösungen haben sich zu einem mehrschichtigen, vernetzten Ökosystem entwickelt, das alle Phasen des Datenlebenszyklus umfasst, einschließlich Datengenerierung, Speicherung, Austausch, Verarbeitung und Analyse, Überprüfung und Sicherheit sowie Datenschutz und Eigentum.

  • Datenspeicherung: Die rasante Entwicklung von Filecoin und Arweave zeigt, dass dezentrale Speicherung (DCS) zu einem Paradigmenwechsel im Speicherbereich wird. DCS reduziert einzelne Fehlerpunkte durch verteilte Architektur und zieht Teilnehmer mit wettbewerbsfähiger Kosteneffizienz an. Mit dem Aufkommen von großangelegten Anwendungen ist die DCS-Speicherkapazität exponentiell gewachsen (z. B. erreichte die Gesamtnetzwerkspeicherkapazität von Filecoin bis 2024 22 Exabyte).
  • Verarbeitung und Analyse: Dezentralisierte Datenverarbeitungsplattformen wie Fluence verbessern die Echtzeit-Performance und Effizienz der Datenverarbeitung durch Edge Computing, insbesondere für Echtzeitszenarien wie IoT und KI-Inferenz. Web3-Projekte nutzen Technologien wie föderiertes Lernen, differentielle Privatsphäre, vertrauenswürdige Ausführungsumgebungen und vollständig homomorphe Verschlüsselung, um flexible Datenschutzmaßnahmen auf der Rechenebene zu bieten.
  • Datenmarktplätze/Austauschplattformen: Um die Bewertung und Zirkulation von Daten zu erleichtern, setzt Ocean Protocol Tokenisierungs- und DEX-Mechanismen ein, um effiziente und offene Datenaustauschkanäle zu schaffen. So hat das Unternehmen beispielsweise mit Daimler (dem Mutterkonzern von Mercedes-Benz) zusammengearbeitet, um Datenaustauschmärkte für das Supply Chain Management zu entwickeln. Streamr hingegen hat ein erlaubnisfreies, abonnementbasiertes Datenstromnetzwerk entwickelt, das auf IoT- und Echtzeitanalyseszenarien zugeschnitten ist und ein außergewöhnliches Potenzial für Transport- und Logistikprojekte aufweist (z. B. Zusammenarbeit mit dem finnischen Smart-City-Projekt).

Mit zunehmendem Datenaustausch und -nutzung wird die Sicherstellung von Authentizität, Glaubwürdigkeit und Datenschutz immer wichtiger. Dies treibt das Web3-Ökosystem dazu an, bei der Datenüberprüfung und dem Datenschutz innovative Lösungen zu schaffen, die bahnbrechend sind.

3.1 Innovationen in der Datenverifizierung und dem Schutz der Privatsphäre

Viele Web3-Technologien und native Projekte konzentrieren sich darauf, Probleme der Datenauthentizität und des Datenschutzes zu lösen. Neben der weit verbreiteten Nutzung von Technologien wie Zero-Knowledge Proofs (ZK) und Multi-Party Computation (MPC) hat sich TLS Notary als bemerkenswerte neue Verifizierungsmethode herausgebildet.

Einführung in TLS-Notar

Das Transport Layer Security (TLS)-Protokoll ist ein weit verbreitetes Verschlüsselungsprotokoll für Netzwerkkommunikation. Sein Hauptzweck besteht darin, die Sicherheit, Integrität und Vertraulichkeit der Datenübertragung zwischen einem Client und einem Server zu gewährleisten. TLS ist ein gängiger Verschlüsselungsstandard in modernen Netzwerkkommunikationen, der in Szenarien wie HTTPS, E-Mail und Instant Messaging angewendet wird.

(TLS-Verschlüsselungsprinzipien, Quelle: TechTarget)

Als TLS-Notar vor einem Jahrzehnt erstmals eingeführt wurde, war sein Ziel, die Echtheit von TLS-Sitzungen zu überprüfen, indem ein Dritter „Notar“ außerhalb des Clients (Beweisers) und des Servers eingeführt wurde.

Mithilfe der Key-Splitting-Technologie wird der Hauptschlüssel einer TLS-Sitzung in zwei Teile geteilt, die getrennt vom Client und dem Notar verwaltet werden. Dieses Design ermöglicht es dem Notar, als vertrauenswürdige dritte Partei am Verifizierungsprozess teilzunehmen, ohne auf den tatsächlichen Kommunikationsinhalt zuzugreifen. Dieser Mechanismus zielt darauf ab, Man-in-the-Middle-Angriffe zu erkennen, betrügerische Zertifikate zu verhindern und sicherzustellen, dass Kommunikationsdaten während der Übertragung nicht manipuliert werden. Er ermöglicht es auch vertrauenswürdigen Dritten, die Legitimität von Kommunikationen zu bestätigen und gleichzeitig die Privatsphäre zu schützen.

Somit bietet TLS Notary sichere Datenüberprüfung und gleicht effektiv Überprüfungsbedürfnisse mit Datenschutz aus.

Im Jahr 2022 wurde das TLS Notary-Projekt vom Forschungslabor für Privatsphäre und Skalierung (PSE) der Ethereum Foundation umstrukturiert. Die neue Version des TLS Notary-Protokolls wurde von Grund auf in der Programmiersprache Rust neu geschrieben und mit fortschrittlicheren kryptografischen Protokollen wie MPC integriert. Diese Updates ermöglichen es Benutzern, die Authentizität von Daten, die von einem Server an eine dritte Partei übertragen wurden, nachzuweisen, ohne den Inhalt der Daten preiszugeben. Die neue TLS Notary verbessert die Datenschutzfunktionen erheblich, während sie ihre Kernverifikationsfähigkeiten beibehält und somit besser für aktuelle und zukünftige Datenschutzanforderungen geeignet ist.

3.2 Varianten und Erweiterungen von TLS Notary

In den letzten Jahren hat sich die TLS Notary-Technologie weiterentwickelt und verschiedene Derivate hervorgebracht, die ihre Privatsphäre- und Verifizierungsfähigkeiten weiter verbessern:

  • zkTLS: Eine datenschutzverstärkte Version von TLS Notary, die ZKP-Technologie integriert, die es Benutzern ermöglicht, kryptografische Beweise von Webseitendaten zu generieren, ohne dabei sensible Informationen preiszugeben. Es ist besonders geeignet für Kommunikationsszenarien, die einen hohen Datenschutz erfordern.
  • 3P-TLS (Dreiparteien-TLS): Dieses Protokoll führt drei Parteien ein - Client, Server und Auditor - und ermöglicht es dem Auditor, die Sicherheit der Kommunikation zu überprüfen, ohne den Inhalt preiszugeben. Dieses Protokoll ist nützlich in Szenarien, die sowohl Transparenz als auch Datenschutz erfordern, wie z.B. Compliance-Audits oder Überprüfung von Finanztransaktionen.

Web3-Projekte nutzen diese kryptografischen Technologien zur Verbesserung der Datenverifizierung und des Datenschutzes, um Probleme wie Datenmonopole, Silos und vertrauenswürdige Übertragungen anzugehen. Benutzer können den Besitz von Social-Media-Konten, Einkaufsprotokollen für Finanzkredite, Bankkreditgeschichte, beruflichen Hintergrund und akademische Qualifikationen sicher verifizieren, ohne ihre Privatsphäre zu gefährden. Beispiele sind:

  • Reclaim-Protokoll: Verwendet zkTLS, um Nullwissensnachweise des HTTPS-Verkehrs zu generieren, wodurch Benutzer sicher Aktivitäts-, Ruf- und Identitätsdaten von externen Websites importieren können, ohne sensible Informationen preiszugeben.
  • zkPass: Kombiniert die 3P-TLS-Technologie, um Benutzern zu ermöglichen, private Echtwelt-Daten sicher zu überprüfen, mit Anwendungen im Bereich KYC und Kreditdienstleistungen. Es ist auch kompatibel mit dem HTTPS-Netzwerk.
  • Opacity-Netzwerk: Basierend auf zkTLS können Benutzer sicher ihre Aktivitäten auf Plattformen wie Uber, Spotify und Netflix nachweisen, ohne direkt auf diese Plattformen-APIs zuzugreifen, was eine plattformübergreifende Aktivitätsverifizierung ermöglicht.

(Projekte, die an TLS-Oracles arbeiten, Quelle: Bastian Wetzel)

Die Datenüberprüfung in Web3 ist ein wesentliches Element im Datenökosystem mit großen Anwendungsaussichten. Die Blüte dieses Ökosystems lenkt die digitale Wirtschaft in Richtung eines offeneren, dynamischeren und nutzerzentrierten Modells. Die Entwicklung von Technologien zur Authentifizierungsüberprüfung ist jedoch nur der Anfang beim Aufbau einer Dateninfrastruktur der nächsten Generation.

4. Dezentralisierte Daten-Netzwerke

Einige Projekte haben die oben genannten Datenüberprüfungstechnologien mit weiterer Erforschung von Datenökosystemen stromaufwärts kombiniert, wie z.B. Datenrückverfolgbarkeit, verteilte Datensammlung und vertrauenswürdige Übertragung. Im Folgenden stellen wir drei repräsentative Projekte vor - OpenLayer, Grass und Vana -, die einzigartiges Potenzial beim Aufbau einer Dateninfrastruktur der nächsten Generation aufzeigen.

4.1 OpenLayer

OpenLayer, eines der Projekte aus dem a16z Crypto 2024 Spring Startup Accelerator, ist der erste modulare authentische Daten-Layer. Es zielt darauf ab, eine innovative modulare Lösung zur Koordinierung der Datensammlung, -prüfung und -transformation zu bieten, um den Bedürfnissen sowohl von Web2- als auch von Web3-Unternehmen gerecht zu werden. OpenLayer hat Unterstützung von namhaften Fonds und Business-Angels, einschließlich Geometry Ventures und LongHash Ventures, erhalten.

Traditionelle Daten-Layer stehen vor mehreren Herausforderungen: Mangel an zuverlässigen Verifizierungsmechanismen, Abhängigkeit von zentralisierten Architekturen, die die Zugänglichkeit einschränken, Mangel an Interoperabilität und Fluss zwischen verschiedenen Systemen und das Fehlen fairer Mechanismen zur Datenwerteverteilung.

Ein spezifischeres Problem ist die zunehmende Knappheit von Trainingsdaten für KI. Im öffentlichen Internet setzen viele Websites mittlerweile Anti-Scraping-Maßnahmen ein, um das massenhafte Abschöpfen von Daten durch KI-Unternehmen zu verhindern. Bei privaten proprietären Daten ist die Situation noch komplexer. Wertvolle Daten werden oft aufgrund ihrer sensiblen Natur in einer datenschutzgeschützten Weise gespeichert und es fehlen effektive Anreizmechanismen. Benutzer können ihre privaten Daten nicht sicher monetarisieren und sind daher zurückhaltend, sensible Informationen zu teilen.

Um diese Probleme zu lösen, kombiniert OpenLayer Datenüberprüfungstechnologien, um eine modulare authentische Daten-Layer aufzubauen. Durch Dezentralisierung und wirtschaftliche Anreize koordiniert es die Prozesse der Datenerfassung, -überprüfung und -umwandlung und bietet eine sicherere, effizientere und flexiblere Dateninfrastruktur für Web2- und Web3-Unternehmen.

4.1.1 Kernkomponenten des modularen Designs von OpenLayer

OpenLayer bietet eine modulare Plattform, die Datensammlung, vertrauenswürdige Verifizierung und Transformationsprozesse vereinfacht.

a) OpenNodes

OpenNodes sind die Kernkomponenten, die für die dezentrale Datensammlung im OpenLayer-Ökosystem verantwortlich sind. Über mobile Apps, Browsererweiterungen und andere Kanäle können Benutzer Daten sammeln. Unterschiedliche Betreiber/Nodes können ihre Belohnungen optimieren, indem sie Aufgaben ausführen, die am besten zu ihren Hardware-Spezifikationen passen.

OpenNodes unterstützen drei Hauptarten von Daten:

  • Öffentlich verfügbare Internetdaten (z. B. Finanz-, Wetter-, Sport- und Social-Media-Daten)
  • Benutzerdaten (z. B. Netflix-Anzeigeverlauf, Amazon-Bestellprotokolle)
  • Selbst gemeldete Daten von vertrauenswürdigen Quellen (z.B. Daten, die von Eigentümern oder spezifischen vertrauenswürdigen Hardware verifiziert wurden).

Entwickler können ganz einfach neue Datentypen hinzufügen, Datenquellen angeben und Anforderungen sowie Abrufmethoden definieren. Benutzer können anonymisierte Daten gegen Belohnungen bereitstellen. Dieses Design ermöglicht es dem System, kontinuierlich zu wachsen, um neuen Datenanforderungen gerecht zu werden. Die vielfältigen Datenquellen machen OpenLayer für verschiedene Anwendungsszenarien geeignet und senken die Schwelle für Datenbereitstellung.

b) OpenValidators

OpenValidators übernehmen die Überprüfung der gesammelten Daten und ermöglichen es Datenkonsumenten, die Genauigkeit der vom Benutzer bereitgestellten Daten gegenüber ihrer Quelle zu bestätigen. Die Überprüfungsmethoden verwenden kryptographische Beweise, und die Ergebnisse können im Nachhinein validiert werden. Mehrere Anbieter können Überprüfungsdienste für denselben Typ von Beweis anbieten, sodass Entwickler den am besten geeigneten Anbieter für ihre Bedürfnisse auswählen können.

In ersten Anwendungsfällen, insbesondere für öffentliche oder private Daten von Internet-APIs, verwendet OpenLayer TLS Notary als Verifizierungslösung. Es exportiert Daten aus jeder Webanwendung und überprüft deren Authentizität, ohne die Privatsphäre zu beeinträchtigen.

Jenseits von TLS-Notar, dank seines modularen Designs kann das Verifikationssystem problemlos andere Methoden integrieren, um vielfältige Daten- und Verifikationsanforderungen zu erfüllen, einschließlich:

  1. Attested TLS-Verbindungen: Nutzung von Trusted Execution Environments (TEEs) zur Herstellung zertifizierter TLS-Verbindungen, um die Datenintegrität und Authentizität während der Übertragung sicherzustellen.
  2. Sichere Enklaven: Verwendung von sicher isolierten Umgebungen auf Hardware-Ebene (z. B. Intel SGX) zur Verarbeitung und Überprüfung sensibler Daten, die einen höheren Schutz der Daten bieten.
  3. ZK Proof Generators: Integration von Zero-Knowledge Proofs zur Überprüfung von Datenattributen oder Berechnungsergebnissen, ohne die zugrunde liegenden Daten offenzulegen.

c) OpenConnect

OpenConnect ist das Modul, das für die Datenverarbeitung und die Benutzerfreundlichkeit innerhalb des OpenLayer-Ökosystems verantwortlich ist. Es verarbeitet Daten aus verschiedenen Quellen und gewährleistet die Interoperabilität zwischen verschiedenen Systemen, um vielfältige Anwendungsanforderungen zu erfüllen. Zum Beispiel:

  • Konvertierung von Daten in ein on-Chain Oracle-Format zur direkten Verwendung durch Smart Contracts.
  • Vorbereitung von unstrukturierten Rohdaten zu strukturierten Daten für das Training von KI.

Bereitstellung von datenschutzfreundlicher Datenanonymisierung für Benutzerprivate Konten zur Verbesserung der Sicherheit bei der Datenfreigabe zur Reduzierung von Lecks und Missbrauch.

Um den Echtzeit-Datennachfrage von KI- und Blockchain-Anwendungen gerecht zu werden, unterstützt OpenConnect effiziente Echtzeit-Datenübertragung.

Derzeit überwachen die Betreiber von OpenLayer AVS (Active Validation Service) durch Integration mit EigenLayer Datenanforderungsaufgaben, sammeln Daten, überprüfen sie und melden die Ergebnisse an das System zurück. Die Betreiber setzen oder setzen Assets auf EigenLayer neu, um wirtschaftliche Garantien für ihre Handlungen zu bieten. Bösartiges Verhalten führt zu Assetslashings. Als eines der ersten AVS-Projekte auf dem EigenLayer-Mainnet hat OpenLayer über 50 Betreiber und $4 Milliarden an erneut eingesetzten Assets angezogen.

4.2 Gras

Grass, das Flaggschiffprojekt von Wynd Network, soll ein dezentralisiertes Netzwerk-Crawler- und KI-Trainingsdaten-Plattform erstellen. Bis Ende 2023 hat Grass eine Seed-Finanzierungsrunde in Höhe von 3,5 Millionen US-Dollar abgeschlossen, die von Polychain Capital und Tribe Capital geleitet wurde. Im September 2024 sicherte es sich eine Serie-A-Finanzierung in Höhe von 5 Millionen US-Dollar, angeführt von HackVC und zusätzlicher Beteiligung von Polychain, Delphi, Lattice und Brevan Howard.

Da das KI-Training zunehmend auf vielfältige und umfangreiche Datenquellen angewiesen ist, geht Grass auf diese Notwendigkeit ein, indem es ein verteiltes Web-Crawler-Knotennetzwerk erstellt. Dieses Netzwerk nutzt dezentrale physische Infrastruktur und ungenutzte Benutzerbandbreite, um verifizierbare Datensätze für das KI-Training zu sammeln und bereitzustellen. Die Knoten leiten Webanfragen über die Internetverbindungen der Benutzer weiter und greifen auf öffentliche Websites zu und stellen strukturierte Datensätze zusammen. Die anfängliche Datenbereinigung und -formatierung erfolgt mithilfe von Edge-Computing-Technologie, um hochwertige Ausgaben zu gewährleisten.

Grass nutzt die Solana Layer 2 Data Rollup-Architektur, um die Verarbeitungseffizienz zu verbessern. Validator:innen empfangen, überprüfen und stapeln Webtransaktionen von Knotenpunkten, generieren Zero-Knowledge (ZK)-Beweise zur Bestätigung der Datenauthentizität. Verifizierte Daten werden im Grass Data Ledger (L2) gespeichert, wobei entsprechende Beweise mit der Solana L1-Blockchain verknüpft sind.

4.2.1 Schlüsselkomponenten von Grass

a) Grass-Knoten:

Benutzer installieren die Grass-App oder Browsererweiterung, um ihre ungenutzte Bandbreite zur dezentralen Web-Crawling zu nutzen. Knoten leiten Webanfragen, greifen auf öffentliche Websites zu und kompilieren strukturierte Datensätze. Unter Verwendung von Edge Computing führen sie die anfängliche Datenbereinigung und -formatierung durch. Benutzer verdienen GRASS-Token als Belohnung basierend auf ihrem Bandbreitenbeitrag und dem bereitgestellten Datenvolumen.

b) Router:

Als Vermittler verbinden Router Grass-Knoten mit Validatoren. Sie verwalten das Knotennetzwerk und übertragen Bandbreite. Ihre Anreize basieren auf der insgesamt verifizierten Bandbreite, die sie erleichtern.

c) Validatoren:

Validators empfangen und überprüfen Web-Transaktionen, die von Routern weitergeleitet werden. Sie generieren ZK-Beweise, um die Gültigkeit der Daten zu bestätigen, wobei sie einzigartige Schlüsselsätze nutzen, um sichere TLS-Verbindungen und Verschlüsselungssuiten zu etablieren. Obwohl Grass derzeit zentrale Validator nutzt, sind Pläne in Arbeit, um zu einem dezentralisierten Validator-Komitee überzugehen.

d) ZK-Prozessoren:

Diese Prozessoren validieren Knotensitzungsdatenbeweise und stapeln alle Webanforderungsbeweise zur Einreichung bei Solana Layer 1.

e) Gras-Daten-Layer (Gras L2):

Das Grass Data Ledger speichert umfassende Datensätze und verknüpft sie mit ihren entsprechenden L1-Beweisen auf Solana, um Transparenz und Rückverfolgbarkeit zu gewährleisten.

f) Kanten-Einbettungsmodelle:

Diese Modelle wandeln unstrukturierte Webdaten in strukturierte Datensätze um, die für das Training von KI geeignet sind.

Quelle: Gras

Vergleich: Gras vs. OpenLayer

Grass und OpenLayer teilen das Engagement, verteilte Netzwerke zu nutzen, um Unternehmen Zugang zu offenen Internetdaten und authentifizierten privaten Daten zu ermöglichen. Beide nutzen Anreizmechanismen, um den Datenaustausch und die Produktion hochwertiger Datensätze zu fördern, aber ihre technischen Architekturen und Geschäftsmodelle unterscheiden sich.

Technische Architektur:

Grass nutzt eine Solana Layer 2 Data Rollup-Architektur mit zentralisierter Validierung, die auf einem einzigen Validator beruht. OpenLayer, als früher Anwender von EigenLayers AVS (Active Validation Service), setzt einen dezentralen Validierungsmechanismus mit ökonomischen Anreizen und Strafen ein. Sein modulares Design betont Skalierbarkeit und Flexibilität bei Datenverifizierungsdiensten.

Produktschwerpunkt:

Beide Projekte ermöglichen es Benutzern, Daten über Knoten zu monetarisieren, aber ihre Geschäftsfälle weichen voneinander ab:

  • Grass verfügt über ein Datenmarktplatzmodell, das L2 verwendet, um strukturierte, qualitativ hochwertige Datensätze überprüfbar zu speichern. Diese Datensätze sind als Schulungsressourcen auf KI-Unternehmen zugeschnitten.
  • OpenLayer konzentriert sich auf die Echtzeit-Verifizierung von Datenströmen (VaaS) anstelle der dedizierten Datenspeicherung. Es bedient dynamische Szenarien wie Orakel für RWA/DeFi/Prognosemärkte, Echtzeit-Sozialdaten und KI-Anwendungen, die sofortige Dateninputs erfordern.

Grass richtet sich hauptsächlich an KI-Unternehmen und Datenwissenschaftler, die große, strukturierte Datensätze benötigen, sowie an Forschungseinrichtungen und Unternehmen, die webbasierte Daten benötigen. OpenLayer richtet sich an Web3-Entwickler, die Off-Chain-Datenquellen benötigen, KI-Unternehmen, die Echtzeit- und überprüfbare Datenströme benötigen, sowie an Unternehmen, die innovative Strategien wie die Überprüfung der Nutzung von Konkurrenzprodukten verfolgen.

Zukünftiger Wettbewerb und Synergien

Obwohl beide Projekte derzeit unterschiedliche Nischen besetzen, können sich ihre Funktionalitäten im Laufe der Entwicklung der Branche möglicherweise angleichen:

  • Grass könnte sich ausdehnen, um Echtzeit-Strukturdaten anzubieten.
  • OpenLayer könnte ein spezielles Daten-Ledger zur Verwaltung von Datensätzen entwickeln.

Beide Projekte könnten auch die Integration von Datenbeschriftung als kritischen Schritt für Training-Datasets vornehmen. Grass, mit seinem umfangreichen Netzwerk von über 2,2 Millionen aktiven Knotenpunkten, könnte schnell Verstärkungslernen mit menschlichem Feedback (RLHF) Dienste bereitstellen, um KI-Modelle zu optimieren. OpenLayer, mit seiner Expertise in Echtzeit-Datenverifizierung und -Verarbeitung, könnte einen Vorteil in Bezug auf Datenkredibilität und -qualität, insbesondere für private Datensätze, beibehalten.

Trotz möglicher Überschneidungen könnten ihre einzigartigen Stärken und technologischen Ansätze es ihnen ermöglichen, verschiedene Nischen innerhalb des dezentralen Daten-Ökosystems zu dominieren.

(Quelle:IOSG, David)

4.3 Vana: Ein datenzentriertes Netzwerk für Benutzerdatenpools

Vana ist ein nutzerzentriertes Datennetzwerk, das hochwertige Daten für KI und verwandte Anwendungen bereitstellt. Im Vergleich zu OpenLayer und Grass verfolgt Vana einen eigenständigen technologischen und geschäftlichen Ansatz. Im September 2024 sicherte sich Vana eine Finanzierung in Höhe von 5 Millionen US-Dollar, angeführt von Coinbase Ventures, nach einer Series-A-Runde in Höhe von 18 Millionen US-Dollar, bei der Paradigm als Hauptinvestor fungierte und Beteiligungen von Polychain und Casey Caruso erfolgten.

Ursprünglich im Jahr 2018 als Forschungsprojekt des MIT gestartet, ist Vana eine Layer 1 Blockchain, die dem privaten Benutzerdaten gewidmet ist. Ihre Innovationen in Bezug auf Datenbesitz und Werteverteilung ermöglichen es den Benutzern, von KI-Modellen, die auf ihren Daten trainiert sind, zu profitieren. Vana erreicht dies durch vertrauenswürdige, private und zuordenbare Data Liquidity Pools (DLPs) sowie einen innovativen Beitragssicherungsmechanismus, der den Fluss und die Monetarisierung privater Daten erleichtert.

4.3.1. Datenliquiditätspools (DLPs)

Vana führt ein einzigartiges Konzept von Datenliquiditätspools (DLPs) ein, die im Mittelpunkt des Vana-Netzwerks stehen. Jeder DLP ist ein unabhängiges Peer-to-Peer-Netzwerk, das spezifische Arten von Datenwerten aggregiert. Benutzer können ihre privaten Daten - wie Einkaufsdaten, Surfverhalten und Aktivitäten in sozialen Medien - in dafür vorgesehene DLPs hochladen und entscheiden, ob sie die spezifische Nutzung durch Dritte autorisieren möchten.

Die Daten in diesen Pools werden zur Wahrung der Benutzerprivatsphäre deidentifiziert, bleiben aber für kommerzielle Anwendungen wie das Training von KI-Modellen und Marktforschungszwecke nutzbar. Benutzer, die Daten zu einem DLP beitragen, werden mit entsprechenden DLP-Token belohnt. Diese Token repräsentieren den Beitrag des Benutzers zum Pool, gewähren Governance-Rechte und berechtigen den Benutzer zu einem Anteil an zukünftigen Gewinnen.

Im Gegensatz zum traditionellen einmaligen Verkauf von Daten ermöglicht es Vana, dass Daten kontinuierlich am Wirtschaftskreislauf teilnehmen und Benutzer transparente, visualisierte Nutzungsverfolgung erhalten.

4.3.2. Mechanismus des Beitragsnachweises

Der Proof of Contribution (PoC)-Mechanismus ist ein Eckpfeiler von Vanas Ansatz zur Sicherstellung der Datenqualität. Jeder Daten-Layer-Provider (DLP) kann eine einzigartige PoC-Funktion definieren, die auf seine Eigenschaften zugeschnitten ist, um die Authentizität und Vollständigkeit der übermittelten Daten zu überprüfen und ihren Beitrag zur Verbesserung der Leistung des KI-Modells zu bewerten. Dieser Mechanismus quantifiziert die Benutzerbeiträge und zeichnet sie zur Belohnungszuweisung auf. Ähnlich dem Konzept des „Proof of Work“ in Kryptowährungen belohnt PoC Benutzer basierend auf Datenqualität, -menge und -nutzungshäufigkeit. Smart Contracts automatisieren diesen Prozess und gewährleisten eine faire und transparente Entschädigung der Beitragenden.

Vanas technische Architektur

  1. Datenliquiditätsschicht:

Diese Kernschicht ermöglicht die Beitrag, Überprüfung und Aufzeichnung von Daten in DLPs, wodurch Daten in übertragbare digitale Vermögenswerte on-chain umgewandelt werden. DLP-Ersteller setzen Smart Contracts ein, um Zwecke, Überprüfungsmethoden und Beitragparameter festzulegen. Datenbeitragende reichen Daten zur Validierung ein, und das PoC-Modul bewertet die Datenqualität und weist Governance-Rechte und Belohnungen zu.

  1. Datenportabilitäts-Schicht:

Als Anwendungsschicht von Vana dient diese Plattform zur Zusammenarbeit zwischen Datenlieferanten und Entwicklern. Sie stellt die Infrastruktur zum Aufbau verteilter KI-Trainingsmodelle und KI-DApps unter Verwendung der Liquidität in DLPs bereit.

  1. Connectome:

Ein dezentrales Ledger, das das Vana-Ökosystem unterstützt, fungiert Connectome als Echtzeit-Datenflusskarte. Es zeichnet alle Echtzeitdatentransaktionen unter Verwendung des Proof-of-Stake-Konsenses auf und gewährleistet den effizienten Transfer von DLP-Token und ermöglicht den plattformübergreifenden Zugriff auf DLP-Daten. Vollständig kompatibel mit EVM ermöglicht es die Interoperabilität mit anderen Netzwerken, Protokollen und DeFi-Anwendungen.

(Quelle: Vana)

Vana bietet einen frischen Ansatz, indem es sich auf die Liquidität und die Stärkung der Nutzerdaten konzentriert. Dieses dezentrale Daten-Austausch-Modell unterstützt nicht nur KI-Training und Daten-Marktplätze, sondern ermöglicht auch nahtloses plattformübergreifendes Daten-Sharing und Eigentum im Web3-Ökosystem. Letztendlich fördert es ein offenes Internet, in dem Nutzer ihre Daten und die intelligenten Produkte, die daraus entstehen, besitzen und verwalten können.

5. Der Wertvorschlag dezentralisierter Datennetzwerke

Im Jahr 2006 äußerte der Datenwissenschaftler Clive Humby berühmt: "Daten sind das neue Öl." In den letzten zwei Jahrzehnten haben wir die rasante Entwicklung von Technologien erlebt, die diese Ressource "veredeln", wie z. B. Big Data-Analyse und maschinelles Lernen, die einen beispiellosen Wert aus Daten freigesetzt haben. Laut IDC wird sich die globale Datensphäre bis 2025 auf 163 ZB ausdehnen, wobei der Großteil von Einzelpersonen stammt. Da das IoT, tragbare Geräte, KI und personalisierte Dienste immer verbreiteter werden, wird der größte Teil der für kommerzielle Zwecke erforderlichen Daten von Einzelpersonen stammen.

Herausforderungen traditioneller Lösungen und Web3-Innovationen

Web3-Datenlösungen überwinden die Einschränkungen herkömmlicher Infrastrukturen, indem sie verteilte Knotennetzwerke nutzen. Diese Netzwerke ermöglichen eine breitere, effizientere Datensammlung und verbessern die Echtzeit-Zugänglichkeit und Verifizierbarkeit spezifischer Datensätze. Web3-Technologien gewährleisten die Authentizität und Integrität von Daten und schützen die Privatsphäre der Benutzer, fördern ein gerechteres Modell der Datennutzung. Diese dezentrale Architektur demokratisiert den Zugang zu Daten und befähigt die Benutzer, an den ökonomischen Vorteilen der Datenwirtschaft teilzuhaben.

Sowohl OpenLayer als auch Grass setzen auf Benutzer-Knoten-Modelle, um spezifische Datensammlungsprozesse zu verbessern, während Vana private Benutzerdaten monetarisiert. Diese Ansätze verbessern nicht nur die Effizienz, sondern ermöglichen es auch normalen Benutzern, an dem vom Datenmarkt geschaffenen Wert teilzunehmen und schaffen eine Win-Win-Situation für Benutzer und Entwickler.

Durch Tokenomics gestalten Web3-Datenlösungen Anreizmodelle neu und etablieren einen gerechteren Wertverteilungsmechanismus. Diese Systeme ziehen erhebliche Nutzerbeteiligung, Hardware-Ressourcen und Kapitalinvestitionen an und optimieren den Betrieb des gesamten Datennetzwerks.

Web3-Lösungen bieten Modularität und Skalierbarkeit, die technologische Iteration und Ökosystemerweiterung ermöglichen. Beispiel: Das modulare Design von OpenLayer bietet Flexibilität für zukünftige Fortschritte; Die verteilte Architektur von Grass optimiert das Training von KI-Modellen, indem sie vielfältige und hochwertige Datensätze bereitstellt.

Von der Datenerzeugung, -speicherung und -überprüfung bis hin zum Austausch und zur Analyse adressieren Web3-basierte Lösungen die Schwächen traditioneller Infrastrukturen. Indem sie es den Nutzern ermöglichen, ihre Daten zu monetarisieren, transformieren diese Lösungen grundlegend die Datenwirtschaft.

Mit der Entwicklung von Technologien und der Ausweitung von Anwendungsszenarien werden dezentrale Daten-Layer voraussichtlich zu einem Eckpfeiler der Infrastruktur der nächsten Generation. Sie werden eine Vielzahl datengetriebener Branchen unterstützen und Benutzern ermöglichen, die Kontrolle über ihre Daten und ihr wirtschaftliches Potenzial zu übernehmen.

Haftungsausschluss:

  1. Dieser Artikel wurde aus [wiederveröffentlichtIOSG Ventures]. Alle Urheberrechte gehören dem Originalautor [IOSG Ventures]. Wenn es Einwände gegen diesen Nachdruck gibt, wenden Sie sich bitte an den gate lernen Team, und sie werden sich umgehend darum kümmern.
  2. Haftungsausschluss: Die in diesem Artikel geäußerten Ansichten und Meinungen sind ausschließlich die des Autors und stellen keine Anlageberatung dar.
  3. Das Gate Learn-Team hat den Artikel in andere Sprachen übersetzt. Das Kopieren, Verteilen oder Plagiieren der übersetzten Artikel ist untersagt, es sei denn, es wurde erwähnt.
Jetzt anfangen
Registrieren Sie sich und erhalten Sie einen
100
-Euro-Gutschein!