Couche de données décentralisée : la nouvelle infrastructure pour l'ère de l'IA #247

Intermédiaire11/26/2024, 4:28:16 AM

Nous avons précédemment discuté de la façon dont l'IA et le Web3 peuvent se compléter mutuellement dans des industries verticales telles que les réseaux computationnels, les plateformes intermédiaires et les applications grand public. Lorsque l'on se concentre sur les ressources de données en tant que domaine vertical, les nouveaux projets Web offrent de nouvelles possibilités d'acquisition, de partage et d'utilisation des données.

Tendances macro Technologie IA

TL/DR

Nous avons précédemment discuté de la manière dont l'IA et Web3 peuvent se compléter mutuellement dans des industries verticales telles que les réseaux de calcul, les plates-formes intermédiaires et les applications grand public. En se concentrant sur les ressources de données en tant que domaine vertical, les nouveaux projets Web offrent de nouvelles possibilités pour l'acquisition, le partage et l'utilisation de données.

Les fournisseurs de données traditionnels ont du mal à répondre à la demande de données de haute qualité, en temps réel et vérifiables dans les domaines de l'IA et d'autres industries axées sur les données, en particulier en termes de transparence, de contrôle de l'utilisateur et de protection de la vie privée.
Les solutions Web3 façonnent l'écosystème des données. Des technologies telles que le MPC (Calcul multipartite), les preuves de connaissance nulle et le notaire TLS garantissent l'authenticité et la confidentialité des données lors de leur circulation entre plusieurs sources, tandis que le stockage distribué et le calcul en périphérie offrent une plus grande flexibilité et efficacité dans le traitement des données en temps réel.
Les réseaux de données décentralisés en tant qu'infrastructure émergente ont donné lieu à plusieurs projets représentatifs tels que OpenLayer (une couche de données réelles modulaire), Grass (exploitant la bande passante inutilisée de l'utilisateur et les réseaux de nœuds de crawler décentralisés) et Vana (un réseau de souveraineté des données utilisateur de couche 1), qui ouvrent de nouvelles perspectives pour des domaines tels que la formation en IA et les applications à travers différents chemins technologiques.
En tirant parti de la capacité de crowdsourcing, des couches d’abstraction sans confiance et des mécanismes d’incitation basés sur des jetons, l’infrastructure de données décentralisée peut fournir des solutions plus privées, sécurisées, efficaces et rentables par rapport aux géants du Web2. Il permet également aux utilisateurs de contrôler leurs données et les ressources associées, créant ainsi un écosystème numérique plus ouvert, sécurisé et interconnecté.

1. L'explosion de la demande de données

Les données sont devenues le moteur clé de l'innovation et de la prise de décision dans tous les secteurs. UBS prévoit que le volume de données mondiales augmentera de dix fois entre 2020 et 2030, atteignant 660 ZB. D'ici 2025, chaque individu dans le monde devrait générer 463 EB (exaoctets, 1 EB = 1 milliard de Go) de données par jour. Le marché des données en tant que service (DaaS) est en expansion rapide. Selon Grand View Research, le marché mondial du DaaS était évalué à 14,36 milliards de dollars en 2023 et devrait croître à un taux de croissance annuel composé (TCAC) de 28,1 %, atteignant 76,8 milliards de dollars d'ici 2030.

La formation des modèles d'IA repose fortement sur de grands ensembles de données pour identifier les motifs et ajuster les paramètres. Après la formation, des ensembles de données sont également nécessaires pour tester les performances des modèles et leurs capacités de généralisation. De plus, les agents d'IA, en tant que nouvelles formes d'applications intelligentes, nécessitent des sources de données en temps réel et fiables pour garantir une prise de décision et une exécution des tâches précises.

(Source: Leewayhertz)

La demande d'analyse commerciale est également de plus en plus diversifiée et répandue, en tant qu'outil essentiel pour stimuler l'innovation d'entreprise. Par exemple, les plateformes de médias sociaux et les sociétés d'études de marché ont besoin de données fiables sur le comportement des utilisateurs pour formuler des stratégies et analyser les tendances, en intégrant des données diverses provenant de plusieurs plateformes sociales pour bâtir une image plus complète.

Pour l'écosystème Web3, des données fiables et authentiques sont également nécessaires on-chain pour soutenir de nouveaux produits financiers. À mesure que des actifs plus innovants sont tokenisés, des interfaces de données flexibles et fiables sont nécessaires pour soutenir le développement de produits et la gestion des risques, permettant aux contrats intelligents d'être exécutés sur la base de données en temps réel vérifiables.

De plus, les cas d'utilisation dans la recherche scientifique, l'IoT et d'autres domaines mettent en évidence la demande croissante de données diverses, authentiques et en temps réel. Les systèmes traditionnels peuvent avoir du mal à faire face au volume de données en croissance rapide et aux demandes en constante évolution.

2. Limitations et défis des écosystèmes de données traditionnels

Un écosystème de données typique comprend la collecte, le stockage, le traitement, l'analyse et l'application des données. Les modèles centralisés se caractérisent par une collecte et un stockage centralisés des données, gérés par une équipe informatique centrale avec un strict contrôle d'accès. Par exemple, l'écosystème de données de Google couvre diverses sources de données telles que les moteurs de recherche, Gmail et le système d'exploitation Android. Ces plateformes collectent des données utilisateur, les stockent dans des centres de données distribués à l'échelle mondiale et les traitent à l'aide d'algorithmes pour soutenir le développement et l'optimisation de divers produits et services.

Sur les marchés financiers, LSEG (anciennement Refinitiv) collecte des données en temps réel et historiques provenant des bourses mondiales, des banques et des grandes institutions financières, tout en utilisant son réseau de nouvelles Reuters propriétaire pour recueillir des nouvelles liées au marché. Ils traitent ces informations à l'aide d'algorithmes et de modèles propriétaires pour générer des produits d'analyse et d'évaluation des risques en tant que services à valeur ajoutée.

(Source: kdnuggets.com)

Alors que l'architecture de données traditionnelle est efficace dans les services professionnels, les limites des modèles centralisés deviennent de plus en plus évidentes, notamment en ce qui concerne la couverture des sources de données émergentes, la transparence et la protection de la vie privée des utilisateurs. Voici quelques problèmes clés :

Couverture de données insuffisante : Les fournisseurs de données traditionnels ont du mal à capturer et à analyser rapidement les nouvelles sources de données telles que le sentiment des médias sociaux et les données des appareils IoT. Les systèmes centralisés trouvent difficile d'acquérir et d'intégrer efficacement les données "longue traîne" provenant de nombreuses sources de petite taille ou non conventionnelles.

Par exemple, l'événement GameStop de 2021 a révélé les limitations des fournisseurs de données financières traditionnels dans l'analyse du sentiment des médias sociaux. Le sentiment des investisseurs sur des plateformes comme Reddit a rapidement influencé les tendances du marché, mais les terminaux de données tels que Bloomberg et Reuters n'ont pas réussi à capturer ces dynamiques à temps, ce qui a entraîné des prévisions de marché retardées.

Accessibilité limitée aux données: le monopole limite l'accès. De nombreux fournisseurs traditionnels ouvrent une partie de leurs données via des API/services cloud, mais les frais d'accès élevés et les processus d'autorisation complexes augmentent la difficulté de l'intégration des données. Les développeurs on-chain ont du mal à accéder rapidement à des données hors chaîne fiables, les données de haute qualité étant monopolisées par quelques géants à un coût élevé.
Problèmes de transparence et de crédibilité des données : De nombreux fournisseurs de données centralisés manquent de transparence dans leurs méthodes de collecte et de traitement des données. Des mécanismes efficaces pour vérifier l'authenticité et l'exhaustivité des données à grande échelle font également défaut. La vérification des données en temps réel à grande échelle reste complexe, et la nature centralisée accroît le risque de falsification ou de manipulation des données.
Protection de la vie privée et propriété des données : les grandes entreprises technologiques ont largement commercialisé les données des utilisateurs. Les utilisateurs, en tant que créateurs de données personnelles, en retirent rarement une valeur équitable. Ils ne peuvent souvent pas comprendre comment leurs données sont collectées, traitées ou utilisées, ni décider de la portée et de la manière de leur utilisation. La surcollecte et l'utilisation abusive entraînent également des risques importants pour la vie privée. Par exemple, le scandale de Cambridge Analytica de Facebook a mis en évidence des lacunes importantes en matière de transparence et de protection de la vie privée dans les écosystèmes de données traditionnels.
Silos de données : les données en temps réel provenant de différentes sources et formats sont difficiles à intégrer rapidement, ce qui entrave une analyse complète. Une grande partie de ces données reste verrouillée au sein des organisations, ce qui limite le partage et l’innovation entre les secteurs et les organisations. Cet effet de « silo de données » entrave l’intégration et l’analyse des données inter-domaines. Par exemple, dans le secteur de la consommation, les marques doivent intégrer des données provenant de plateformes de commerce électronique, de magasins physiques, de médias sociaux et d’études de marché, mais ces ensembles de données peuvent être isolés en raison d’incohérences ou de ségrégation des plateformes. De même, les entreprises de covoiturage comme Uber et Lyft collectent de grandes quantités de données en temps réel sur le trafic, la demande des passagers et les emplacements géographiques, mais la dynamique concurrentielle empêche le partage ou l’intégration de ces ensembles de données.

Au-delà de ces problèmes, les fournisseurs traditionnels de données sont confrontés à des défis liés à l'efficacité des coûts et à la flexibilité. Bien qu'ils s'efforcent activement de résoudre ces problèmes, les nouvelles technologies Web3 émergentes offrent de nouvelles perspectives et possibilités pour les aborder.

3. L'écosystème de données Web3

Depuis le lancement de solutions de stockage décentralisées telles que IPFS (InterPlanetary File System) en 2014, une série de projets émergents ont cherché à résoudre les limitations des écosystèmes de données traditionnels. Les solutions de données décentralisées ont évolué en un écosystème multilatéral et interconnecté couvrant toutes les étapes du cycle de vie des données, y compris la génération, le stockage, l'échange, le traitement et l'analyse des données, la vérification et la sécurité, ainsi que la confidentialité et la propriété.

Stockage de données : Le développement rapide de Filecoin et d'Arweave démontre que le stockage décentralisé (DCS) est en train de devenir un changement de paradigme dans le domaine du stockage. Le DCS réduit les points de défaillance individuels grâce à une architecture distribuée tout en attirant les participants avec une efficacité économique compétitive. Avec l'émergence d'applications à grande échelle, la capacité de stockage DCS a augmenté de manière exponentielle (par exemple, la capacité de stockage totale du réseau Filecoin a atteint 22 exaoctets d'ici 2024).
Traitement et analyse : Les plateformes de calcul de données décentralisées comme Fluence améliorent les performances en temps réel et l'efficacité du traitement des données grâce à l'informatique de périphérie, notamment pour les scénarios d'application en temps réel tels que l'IoT et l'inférence de l'IA. Les projets Web3 utilisent des technologies telles que l'apprentissage fédéré, la confidentialité différentielle, les environnements d'exécution de confiance et le chiffrement totalement homomorphe pour fournir une protection de la vie privée flexible au niveau du calcul.
Marchés de données/Plateformes d'échange : Pour faciliter la valorisation et la circulation des données, Ocean Protocol utilise la tokenisation et des mécanismes DEX pour créer des canaux d'échange de données efficaces et ouverts. Par exemple, il a collaboré avec Daimler (la société mère de Mercedes-Benz) pour développer des marchés d'échange de données pour la gestion de la chaîne d'approvisionnement. De son côté, Streamr a développé un réseau de flux de données basé sur l'abonnement sans permission, adapté aux scénarios d'IoT et d'analyse en temps réel, montrant un potentiel exceptionnel dans les projets de transport et de logistique (par exemple, en collaborant avec le projet de ville intelligente de la Finlande).

Avec l'augmentation des échanges de données et de leur utilisation, il est devenu essentiel de garantir l'authenticité, la crédibilité et la confidentialité. Cela pousse l'écosystème Web3 à innover dans la vérification des données et la protection de la vie privée, ce qui conduit à des solutions révolutionnaires.

3.1 Innovations in Data Verification and Privacy Protection

De nombreuses technologies Web3 et projets natifs se concentrent sur la résolution des problèmes d'authenticité des données et de protection de la vie privée. Au-delà de l'adoption généralisée de technologies comme les preuves de zéro connaissance (ZK) et la computation multipartite sécurisée (MPC), TLS Notary s'est imposé comme une nouvelle méthode de vérification notable.

Introduction à TLS Notary

Le protocole de sécurité de la couche de transport (TLS) est un protocole de cryptage largement utilisé pour les communications réseau. Son objectif principal est de garantir la sécurité, l'intégrité et la confidentialité de la transmission des données entre un client et un serveur. Le TLS est une norme de cryptage courante dans les communications réseau modernes, appliquée dans des scénarios tels que HTTPS, e-mail et messagerie instantanée.

(Principes de chiffrement TLS, Source : TechTarget)

Lorsque TLS Notary a été introduit pour la première fois il y a dix ans, son objectif était de vérifier l’authenticité des sessions TLS en introduisant un « notaire » tiers en dehors du client (prouveur) et du serveur.

En utilisant la technologie de division de clé, la clé principale d'une session TLS est divisée en deux parties, détenues séparément par le client et le notaire. Cette conception permet au notaire de participer en tant que tiers de confiance dans le processus de vérification sans accéder au contenu réel de la communication. Ce mécanisme vise à détecter les attaques de l'homme du milieu, à empêcher les certificats frauduleux et à garantir que les données de communication ne sont pas altérées pendant la transmission. Il permet également à des tiers de confiance de confirmer la légitimité des communications tout en protégeant la vie privée.

Ainsi, TLS Notary offre une vérification sécurisée des données et équilibre efficacement les besoins de vérification avec la protection de la vie privée.

En 2022, le projet TLS Notary a été restructuré par le laboratoire de recherche Privacy and Scaling Exploration (PSE) de la Fondation Ethereum. La nouvelle version du protocole TLS Notary a été réécrite à partir de zéro dans le langage de programmation Rust et intégrée à des protocoles cryptographiques plus avancés comme le MPC. Ces mises à jour permettent aux utilisateurs de prouver l'authenticité des données reçues d'un serveur à un tiers sans révéler le contenu des données. Tout en conservant ses capacités de vérification de base, le nouveau TLS Notary améliore considérablement la protection de la vie privée, le rendant plus adapté aux exigences actuelles et futures en matière de confidentialité des données.

3.2 Variantes et Extensions de TLS Notary

Ces dernières années, la technologie Notary TLS a continué à évoluer, ce qui a donné lieu à divers dérivés qui renforcent encore davantage sa confidentialité et ses capacités de vérification:

zkTLS: Une version améliorée de TLS Notary qui intègre la technologie ZKP, permettant aux utilisateurs de générer des preuves cryptographiques des données de la page Web sans exposer d'informations sensibles. Il convient particulièrement aux scénarios de communication nécessitant une protection de la vie privée élevée.
3P-TLS (Three-Party TLS): Ce protocole introduit trois parties - client, serveur et auditeur - permettant à l'auditeur de vérifier la sécurité des communications sans divulguer le contenu. Ce protocole est utile dans des scénarios qui exigent à la fois transparence et confidentialité, tels que les audits de conformité ou les examens des transactions financières.

Les projets Web3 exploitent ces technologies cryptographiques pour améliorer la vérification des données et la protection de la vie privée, en s'attaquant aux problèmes tels que les monopoles de données, les silos et la transmission de confiance. Les utilisateurs peuvent vérifier en toute sécurité la propriété de leurs comptes de médias sociaux, les enregistrements d'achats pour les prêts financiers, l'historique de crédit bancaire, l'expérience professionnelle et les diplômes universitaires sans compromettre leur vie privée. Des exemples comprennent:

Protocole Reclaim: Utilise zkTLS pour générer des preuves de connaissance nulle du trafic HTTPS, permettant aux utilisateurs d'importer en toute sécurité des données d'activité, de réputation et d'identité à partir de sites Web externes sans exposer d'informations sensibles.
zkPass : Combinez la technologie 3P-TLS pour permettre aux utilisateurs de vérifier de manière sécurisée des données privées du monde réel, avec des applications dans les services KYC et de crédit. Il est également compatible avec le réseau HTTPS.
Réseau d'opacité : basé sur zkTLS, il permet aux utilisateurs de prouver en toute sécurité leurs activités sur des plates-formes telles que Uber, Spotify et Netflix sans accéder directement aux API de ces plates-formes, ce qui permet une vérification d'activité interplateforme.

(Projets travaillant sur des oracles TLS, Source: Bastian Wetzel)

La vérification des données dans Web3 est un maillon essentiel de l'écosystème des données, avec de vastes perspectives d'application. L'épanouissement de cet écosystème oriente l'économie numérique vers un modèle plus ouvert, dynamique et centré sur l'utilisateur. Cependant, le développement des technologies de vérification d'authenticité n'est que le début de la construction de l'infrastructure de données de nouvelle génération.

4. Réseaux de données décentralisés

Certains projets ont combiné les technologies de vérification de données susmentionnées avec une exploration plus poussée des écosystèmes de données en amont, tels que la traçabilité des données, la collecte de données distribuées et la transmission de confiance. Ci-dessous, nous mettons en évidence trois projets représentatifs - OpenLayer, Grass et Vana - qui présentent un potentiel unique pour la construction d'une infrastructure de données de nouvelle génération.

4.1 OpenLayer

OpenLayer, l'un des projets de l'accélérateur de démarrage a16z Crypto 2024 Spring, est la première couche de données authentiques modulaire. Il vise à fournir une solution modulaire innovante pour coordonner la collecte, la vérification et la transformation des données, répondant aux besoins des entreprises Web2 et Web3. OpenLayer a reçu le soutien de fonds renommés et d'investisseurs providentiels, notamment Geometry Ventures et LongHash Ventures.

Les couches de données traditionnelles sont confrontées à plusieurs défis : manque de mécanismes de vérification fiables, dépendance à des architectures centralisées qui limitent l'accessibilité, manque d'interopérabilité et de flux entre différents systèmes, et absence de mécanismes équitables de distribution de la valeur des données.

Une question plus spécifique est la rareté croissante des données d'entraînement pour l'IA. Sur l'internet public, de nombreux sites web déploient désormais des mesures anti-scraping pour empêcher le raclage de données à grande échelle par des entreprises d'IA. Dans les données privées et propriétaires, la situation est encore plus complexe. Les données précieuses sont souvent stockées de manière protégée en raison de leur nature sensible, en l'absence de mécanismes d'incitation efficaces. Les utilisateurs ne peuvent pas monétiser en toute sécurité leurs données privées et sont donc réticents à partager des informations sensibles.

Pour résoudre ces problèmes, OpenLayer combine des technologies de vérification des données pour construire une couche de données authentiques modulaires. Grâce à la décentralisation et aux incitations économiques, il coordonne les processus de collecte, de vérification et de transformation des données, offrant ainsi une infrastructure de données plus sûre, plus efficace et plus flexible pour les entreprises Web2 et Web3.

4.1.1 Composants principaux de la conception modulaire d'OpenLayer

OpenLayer fournit une plateforme modulaire qui simplifie la collecte de données, la vérification fiable et les processus de transformation.

a) OpenNodes

Les OpenNodes sont les composants principaux responsables de la collecte de données décentralisée dans l'écosystème OpenLayer. Les utilisateurs peuvent collecter des données via des applications mobiles, des extensions de navigateur et d'autres canaux. Différents opérateurs/nœuds peuvent optimiser leurs récompenses en effectuant des tâches les mieux adaptées à leurs spécifications matérielles.

OpenNodes prend en charge trois principaux types de données :

Données disponibles publiquement sur Internet (par exemple, données financières, météo, sportives et sociales)
Données privées de l'utilisateur (par exemple, historique de visionnage Netflix, enregistrements de commandes Amazon)
Données auto-déclarées de sources fiables (par exemple, données vérifiées par les propriétaires ou du matériel spécifique fiable).

Les développeurs peuvent facilement ajouter de nouveaux types de données, spécifier des sources de données et définir des exigences et des méthodes de récupération. Les utilisateurs peuvent fournir des données anonymisées en échange de récompenses. Cette conception permet au système de se développer en continu pour répondre aux nouvelles demandes de données. Les différentes sources de données rendent OpenLayer adapté à divers scénarios d'application et réduisent le seuil de fourniture de données.

b) OpenValidators

Les OpenValidators gèrent la vérification des données collectées, permettant aux consommateurs de données de confirmer l'exactitude des données fournies par l'utilisateur par rapport à leur source. Les méthodes de vérification utilisent des preuves cryptographiques, et les résultats peuvent être validés de manière rétrospective. Plusieurs fournisseurs peuvent offrir des services de vérification pour le même type de preuve, permettant aux développeurs de sélectionner le fournisseur le mieux adapté à leurs besoins.

Dans les cas d'utilisation initiaux, en particulier pour les données publiques ou privées provenant des API Internet, OpenLayer utilise TLS Notary comme solution de vérification. Il exporte des données à partir de n'importe quelle application Web et vérifie son authenticité sans compromettre la confidentialité.

Au-delà de TLS Notary, grâce à sa conception modulaire, le système de vérification peut facilement intégrer d'autres méthodes pour répondre à des besoins de données et de vérification divers, notamment: gate

Connexions TLS attestées : Utilisation des environnements d'exécution de confiance (TEEs) pour établir des connexions TLS certifiées, garantissant l'intégrité et l'authenticité des données lors de la transmission.
Enclaves sécurisées : Utilisation d'environnements d'isolation sécurisée au niveau matériel (par exemple, Intel SGX) pour traiter et vérifier des données sensibles, offrant une protection des données de niveau supérieur.
Générateurs de preuves ZK: Intégration de preuves à divulgation nulle pour vérifier les attributs de données ou les résultats de calcul sans exposer les données sous-jacentes.

c) OpenConnect

OpenConnect est le module responsable de la transformation des données et de la facilité d'utilisation au sein de l'écosystème OpenLayer. Il traite les données de diverses sources, garantissant l'interopérabilité entre différents systèmes pour répondre à des besoins d'application divers. Par exemple :

Conversion des données en un format Oracle on-chain pour une utilisation directe par les contrats intelligents.
Prétraitement des données brutes non structurées en données structurées pour l'entraînement de l'IA.

Fournir une anonymisation des données préservant la confidentialité des comptes privés des utilisateurs tout en renforçant la sécurité lors du partage de données pour réduire les fuites et les abus.

Pour répondre aux demandes de données en temps réel des applications d'IA et de blockchain, OpenConnect prend en charge une transformation efficace des données en temps réel.

Actuellement, grâce à l'intégration avec EigenLayer, les opérateurs d'OpenLayer AVS (Active Validation Service) surveillent les tâches de demande de données, collectent les données, les vérifient et rapportent les résultats au système. Les opérateurs misent ou remisent des actifs sur EigenLayer pour fournir des garanties économiques pour leurs actions. Un comportement malveillant entraîne une réduction des actifs. En tant que l'un des premiers projets AVS sur le mainnet d'EigenLayer, OpenLayer a attiré plus de 50 opérateurs et 4 milliards de dollars d'actifs remisés.

4.2 Herbe

Grass, le projet phare développé par Wynd Network, vise à créer un crawler de réseau décentralisé et une plateforme de données d'entraînement en IA. Fin 2023, Grass a réalisé une levée de fonds de démarrage de 3,5 millions de dollars, dirigée par Polychain Capital et Tribe Capital. En septembre 2024, il a obtenu un financement de série A de 5 millions de dollars, dirigé par HackVC et avec la participation supplémentaire de Polychain, Delphi, Lattice et Brevan Howard.

Alors que la formation de l'IA repose de plus en plus sur des sources de données diverses et étendues, Grass répond à ce besoin en créant un réseau de nœuds de crawler web distribué. Ce réseau utilise une infrastructure physique décentralisée et la bande passante inutilisée des utilisateurs pour collecter et fournir des ensembles de données vérifiables pour la formation de l'IA. Les nœuds routent les requêtes web à travers les connexions Internet des utilisateurs, accédant à des sites web publics et compilant des ensembles de données structurées. Le nettoyage initial des données et le formatage sont effectués à l'aide de la technologie de l'informatique périphérique, garantissant des sorties de haute qualité.

Grass utilise l'architecture de Rollup de données de la couche 2 de Solana pour améliorer l'efficacité du traitement. Les validateurs reçoivent, vérifient et traitent par lot les transactions web à partir des nœuds, générant des preuves de connaissance nulle (ZK) pour confirmer l'authenticité des données. Les données vérifiées sont stockées sur le Grass Data Ledger (L2), avec des preuves correspondantes liées à la blockchain Solana L1.

4.2.1 Principaux composants de l'herbe

a) Noeuds d'herbe :

Les utilisateurs installent l'application Grass ou l'extension de navigateur, permettant à leur bande passante inutilisée de alimenter le crawling web décentralisé. Les nœuds routent les demandes web, accèdent aux sites web publics et compilent des ensembles de données structurées. En utilisant l'informatique en périphérie, ils effectuent un nettoyage initial des données et les formatent. Les utilisateurs gagnent des jetons GRASS en récompense en fonction de leur contribution en bande passante et du volume de données fourni.

b) Routeurs:

Agissant en tant qu'intermédiaires, les routeurs connectent les nœuds Grass aux validateurs. Ils gèrent le réseau de nœuds, relaient la bande passante et sont incités en fonction de la bande passante totale vérifiée qu'ils facilitent.

c) Validateurs :

Les validateurs reçoivent et vérifient les transactions Web relayées par les routeurs. Ils génèrent des preuves ZK pour confirmer la validité des données, en utilisant des ensembles de clés uniques pour établir des connexions TLS sécurisées et des suites de chiffrement. Bien que Grass utilise actuellement des validateurs centralisés, des plans sont en place pour passer à un comité de validateurs décentralisé.

d) Processeurs ZK :

Ces processeurs valident les preuves de données de session des nœuds et rassemblent toutes les preuves de demandes Web pour les soumettre à la couche 1 de Solana.

e) Registre de données Grass (Grass L2):

Le Grass Data Ledger stocke des ensembles de données complets et les relie à leurs preuves L1 correspondantes sur Solana, garantissant ainsi la transparence et la traçabilité.

f) Modèles d'intégration Edge :

Ces modèles transforment les données non structurées du web en ensembles de données structurées adaptées à l'entraînement de l'IA.

Source: Herbe

Comparaison: Grass vs. OpenLayer

Grass et OpenLayer ont en commun l'engagement d'utiliser des réseaux distribués pour fournir aux entreprises un accès aux données Internet ouvertes et aux données privées authentifiées. Les deux utilisent des mécanismes d'incitation pour promouvoir le partage de données et la production d'ensembles de données de haute qualité, mais leurs architectures techniques et leurs modèles commerciaux diffèrent.

Architecture technique :

Grass utilise une architecture de Data Rollup de couche 2 Solana avec une validation centralisée, s'appuyant sur un seul validateur. OpenLayer, en tant qu'adopte précoce du service de validation actif (AVS) d'EigenLayer, emploie un mécanisme de validation décentralisé utilisant des incitations économiques et des pénalités de réduction. Sa conception modulaire met l'accent sur la scalabilité et la flexibilité dans les services de vérification des données.

Produit Focus:

Les deux projets permettent aux utilisateurs de monétiser les données via des nœuds, mais leurs cas d'utilisation commerciale divergent :

Grass propose un modèle de place de marché de données utilisant L2 pour stocker de manière vérifiable des ensembles de données structurés et de haute qualité. Ces ensembles de données sont adaptés aux entreprises d'IA en tant que ressources de formation.
OpenLayer se concentre sur la vérification en temps réel des flux de données (VaaS) plutôt que sur le stockage dédié des données. Il est utilisé dans des scénarios dynamiques tels que les oracles pour les marchés RWA/DeFi/prédiction, les données sociales en temps réel et les applications d'IA nécessitant des entrées de données instantanées.

Grass cible principalement les entreprises d'IA et les data scientists ayant besoin de jeux de données structurés à grande échelle, ainsi que les institutions de recherche et les entreprises nécessitant des données basées sur le Web. OpenLayer s'adresse aux développeurs Web3 ayant besoin de sources de données hors chaîne, aux entreprises d'IA nécessitant des flux en temps réel et vérifiables, et aux entreprises poursuivant des stratégies innovantes telles que la vérification de l'utilisation des produits concurrents.

Compétition future et synergies

Bien que les deux projets occupent actuellement des créneaux distincts, leurs fonctionnalités peuvent converger au fur et à mesure de l’évolution de l’industrie :

L'herbe pourrait se développer pour offrir des données structurées en temps réel.
OpenLayer pourrait développer un registre de données dédié à la gestion des jeux de données.

Les deux projets pourraient également intégrer l'étiquetage des données comme une étape critique pour la formation des ensembles de données. Grass, avec son vaste réseau de plus de 2,2 millions de nœuds actifs, pourrait rapidement déployer des services d'apprentissage par renforcement avec feedback humain (RLHF) pour optimiser les modèles d'IA. OpenLayer, avec son expertise en vérification et traitement des données en temps réel, pourrait maintenir un avantage en termes de crédibilité et de qualité des données, notamment pour les ensembles de données privés.

Malgré les chevauchements potentiels, leurs forces uniques et leurs approches technologiques pourraient leur permettre de dominer des niches différentes au sein de l'écosystème de données décentralisées.

（Source：IOSG, David）

4.3 Vana: Un réseau de pool de données centré sur l'utilisateur

Vana est un réseau de pool de données axé sur l'utilisateur conçu pour fournir des données de haute qualité pour l'IA et les applications connexes. Par rapport à OpenLayer et Grass, Vana adopte une approche technologique et commerciale distincte. En septembre 2024, Vana a obtenu 5 millions de dollars de financement dirigé par Coinbase Ventures, à la suite d'une série de financements de 18 millions de dollars dans laquelle Paradigm a été le principal investisseur, avec la participation de Polychain et Casey Caruso.

Lancé à l'origine en 2018 en tant que projet de recherche du MIT, Vana est une blockchain de couche 1 dédiée aux données utilisateur privées. Ses innovations en matière de propriété des données et de distribution de la valeur permettent aux utilisateurs de tirer profit des modèles d'IA formés sur leurs données. Vana y parvient grâce à des pools de liquidité de données (DLP) impartiaux, privés et attribuables et à un mécanisme innovant de preuve de contribution qui facilite le flux et la monétisation des données privées.

4.3.1. Pools de liquidité des données (DLP)

Vana introduit un concept unique de Pools de Liquidité de Données (DLP), qui sont au cœur du réseau Vana. Chaque DLP est un réseau pair-à-pair indépendant regroupant des types spécifiques d'actifs de données. Les utilisateurs peuvent télécharger leurs données privées, telles que des historiques d'achats, des habitudes de navigation et des activités sur les réseaux sociaux, dans des DLP désignés et décider s'ils autorisent une utilisation spécifique par des tiers.

Les données de ces pools subissent une dé-identification pour protéger la vie privée des utilisateurs tout en restant utilisables pour des applications commerciales, telles que la formation de modèles d'IA et la recherche de marché. Les utilisateurs qui contribuent aux données d'un DLP sont récompensés par des jetons DLP correspondants. Ces jetons représentent la contribution de l'utilisateur au pool, confèrent des droits de gouvernance et donnent droit à l'utilisateur à une part des bénéfices futurs.

Contrairement à la vente unique traditionnelle de données, Vana permet aux données de participer en permanence au cycle économique, ce qui permet aux utilisateurs de recevoir des récompenses continues grâce à un suivi transparent et visualisé de l’utilisation.

4.3.2. Mécanisme de Preuve de Contribution

Le mécanisme de preuve de contribution (PoC) est la pierre angulaire de l’approche de Vana pour garantir la qualité des données. Chaque DLP peut définir une fonction PoC unique adaptée à ses caractéristiques, en vérifiant l’authenticité et l’exhaustivité des données soumises et en évaluant sa contribution à l’amélioration des performances du modèle d’IA. Ce mécanisme quantifie les contributions des utilisateurs, en les enregistrant pour l’attribution des récompenses. Semblable au concept de « preuve de travail » dans les crypto-monnaies, le PoC récompense les utilisateurs en fonction de la qualité, de la quantité et de la fréquence d’utilisation des données. Les contrats intelligents automatisent ce processus, garantissant que les contributeurs sont rémunérés de manière équitable et transparente.

Architecture technique de Vana

Couche de Liquidité des Données:

Cette couche centrale permet la contribution, la vérification et l'enregistrement de données dans les DLP, transformant les données en actifs numériques transférables on-chain. Les créateurs de DLP déploient des contrats intelligents pour définir des objectifs, des méthodes de vérification et des paramètres de contribution. Les contributeurs de données soumettent des données pour validation, et le module PoC évalue la qualité des données et attribue des droits de gouvernance et des récompenses.

Couche de Portabilité des Données：

Servant de couche d'application de Vana, cette plate-forme facilite la collaboration entre les contributeurs de données et les développeurs. Il fournit une infrastructure pour construire des modèles d'entraînement en IA distribuée et des applications IA en utilisant la liquidité dans les DLP.

Connectome:

Un registre décentralisé qui est à la base de l'écosystème Vana, Connectome agit comme une carte de flux de données en temps réel. Il enregistre toutes les transactions de données en temps réel en utilisant un consensus Proof of Stake, garantissant le transfert efficace des jetons DLP et permettant un accès croisé aux données DLP. Entièrement compatible avec EVM, il permet l'interopérabilité avec d'autres réseaux, protocoles et applications DeFi.

(La source : Vana)

Vana propose une approche novatrice en mettant l'accent sur la liquidité et l'autonomisation des données des utilisateurs. Ce modèle d'échange de données décentralisé soutient non seulement l'entraînement de l'IA et les places de marché de données, mais permet également un partage et une propriété transparents des données entre différentes plateformes dans l'écosystème Web3. En fin de compte, cela favorise un internet ouvert où les utilisateurs peuvent posséder et gérer leurs données ainsi que les produits intelligents qui en découlent.

5. La proposition de valeur des réseaux de données décentralisés

En 2006, le scientifique des données Clive Humby a déclaré avec justesse : « Les données sont le nouveau pétrole ». Au cours des deux dernières décennies, nous avons assisté à une évolution rapide des technologies qui « raffinent » cette ressource, comme l'analyse des mégadonnées et l'apprentissage automatique, qui ont débloqué une valeur sans précédent des données. Selon IDC, d'ici 2025, la sphère mondiale des données s'étendra à 163 ZB, la majorité provenant des individus. Avec l'Internet des objets, les appareils portables, l'intelligence artificielle et les services personnalisés qui se répandent de plus en plus, une grande partie des données nécessaires à des fins commerciales proviendra des individus.

Défis des solutions traditionnelles et des innovations Web3

Les solutions de données Web3 permettent de surmonter les limites de l'infrastructure traditionnelle en exploitant des réseaux de nœuds distribués. Ces réseaux permettent une collecte de données plus large et plus efficace tout en améliorant l'accessibilité en temps réel et la vérifiabilité de ensembles de données spécifiques. Les technologies Web3 garantissent l'authenticité et l'intégrité des données tout en protégeant la vie privée des utilisateurs, favorisant ainsi un modèle d'utilisation des données plus équitable. Cette architecture décentralisée démocratise l'accès aux données et permet aux utilisateurs de partager les avantages économiques de l'économie des données.

Both OpenLayer and Grass rely on user-node models to enhance specific data collection processes, while Vana monetizes private user data. These approaches not only improve efficiency but also enable ordinary users to participate in the value created by the data economy, creating a win-win scenario for users and developers.

Grâce à la tokenomie, les solutions de données Web3 redessinent les modèles d'incitation, établissant un mécanisme de distribution de valeur plus équitable. Ces systèmes attirent une participation utilisateur significative, des ressources matérielles et des investissements en capital, optimisant le fonctionnement de l'ensemble du réseau de données.

Les solutions Web3 offrent une modularité et une évolutivité, permettant une itération technologique et une expansion de l'écosystème. Par exemple : la conception modulaire d'OpenLayer offre une flexibilité pour les avancées futures ; l'architecture distribuée de Grass optimise l'entraînement des modèles d'IA en fournissant des ensembles de données diversifiés et de haute qualité.

De la génération de données, du stockage et de la vérification à l'échange et à l'analyse, les solutions basées sur Web3 abordent les lacunes des infrastructures traditionnelles. En permettant aux utilisateurs de monétiser leurs données, ces solutions transforment fondamentalement l'économie des données.

À mesure que les technologies évoluent et que les scénarios d'application s'élargissent, les couches de données décentralisées sont sur le point de devenir un pilier de l'infrastructure de la prochaine génération. Elles soutiendront un large éventail d'industries axées sur les données tout en permettant aux utilisateurs de prendre le contrôle de leurs données et de leur potentiel économique.

Avertissement :

Cet article est reproduit à partir de [IOSG Ventures]. Tous les droits d'auteur appartiennent à l'auteur original [IOSG Ventures]. Si vous avez des objections à cette réimpression, veuillez contacter le Gate Learnéquipe, et ils s'en occuperont rapidement.
Clause de non-responsabilité : Les points de vue et opinions exprimés dans cet article sont uniquement ceux de l'auteur et ne constituent pas un conseil en investissement.
L'équipe d'apprentissage de gate a traduit l'article dans d'autres langues. La copie, la distribution ou le plagiat des articles traduits est interdit sauf mention contraire.

TL/DR

1. L'augmentation de la demande de données

2. Limitations et défis des écosystèmes de données traditionnels

3. L'écosystème de données Web3

4. Réseaux de données décentralisés

5. La proposition de valeur des réseaux de données décentralisés

Couche de données décentralisée : la nouvelle infrastructure pour l'ère de l'IA #247

Intermédiaire11/26/2024, 4:28:16 AM

Tendances macro Technologie IA

TL/DR

1. L'augmentation de la demande de données

2. Limitations et défis des écosystèmes de données traditionnels

3. L'écosystème de données Web3

4. Réseaux de données décentralisés

5. La proposition de valeur des réseaux de données décentralisés

TL/DR

Les fournisseurs de données traditionnels ont du mal à répondre à la demande de données de haute qualité, en temps réel et vérifiables dans les domaines de l'IA et d'autres industries axées sur les données, en particulier en termes de transparence, de contrôle de l'utilisateur et de protection de la vie privée.
Les solutions Web3 façonnent l'écosystème des données. Des technologies telles que le MPC (Calcul multipartite), les preuves de connaissance nulle et le notaire TLS garantissent l'authenticité et la confidentialité des données lors de leur circulation entre plusieurs sources, tandis que le stockage distribué et le calcul en périphérie offrent une plus grande flexibilité et efficacité dans le traitement des données en temps réel.
Les réseaux de données décentralisés en tant qu'infrastructure émergente ont donné lieu à plusieurs projets représentatifs tels que OpenLayer (une couche de données réelles modulaire), Grass (exploitant la bande passante inutilisée de l'utilisateur et les réseaux de nœuds de crawler décentralisés) et Vana (un réseau de souveraineté des données utilisateur de couche 1), qui ouvrent de nouvelles perspectives pour des domaines tels que la formation en IA et les applications à travers différents chemins technologiques.
En tirant parti de la capacité de crowdsourcing, des couches d’abstraction sans confiance et des mécanismes d’incitation basés sur des jetons, l’infrastructure de données décentralisée peut fournir des solutions plus privées, sécurisées, efficaces et rentables par rapport aux géants du Web2. Il permet également aux utilisateurs de contrôler leurs données et les ressources associées, créant ainsi un écosystème numérique plus ouvert, sécurisé et interconnecté.

1. L'explosion de la demande de données

(Source: Leewayhertz)

2. Limitations et défis des écosystèmes de données traditionnels

(Source: kdnuggets.com)

Couverture de données insuffisante : Les fournisseurs de données traditionnels ont du mal à capturer et à analyser rapidement les nouvelles sources de données telles que le sentiment des médias sociaux et les données des appareils IoT. Les systèmes centralisés trouvent difficile d'acquérir et d'intégrer efficacement les données "longue traîne" provenant de nombreuses sources de petite taille ou non conventionnelles.

Accessibilité limitée aux données: le monopole limite l'accès. De nombreux fournisseurs traditionnels ouvrent une partie de leurs données via des API/services cloud, mais les frais d'accès élevés et les processus d'autorisation complexes augmentent la difficulté de l'intégration des données. Les développeurs on-chain ont du mal à accéder rapidement à des données hors chaîne fiables, les données de haute qualité étant monopolisées par quelques géants à un coût élevé.
Problèmes de transparence et de crédibilité des données : De nombreux fournisseurs de données centralisés manquent de transparence dans leurs méthodes de collecte et de traitement des données. Des mécanismes efficaces pour vérifier l'authenticité et l'exhaustivité des données à grande échelle font également défaut. La vérification des données en temps réel à grande échelle reste complexe, et la nature centralisée accroît le risque de falsification ou de manipulation des données.
Protection de la vie privée et propriété des données : les grandes entreprises technologiques ont largement commercialisé les données des utilisateurs. Les utilisateurs, en tant que créateurs de données personnelles, en retirent rarement une valeur équitable. Ils ne peuvent souvent pas comprendre comment leurs données sont collectées, traitées ou utilisées, ni décider de la portée et de la manière de leur utilisation. La surcollecte et l'utilisation abusive entraînent également des risques importants pour la vie privée. Par exemple, le scandale de Cambridge Analytica de Facebook a mis en évidence des lacunes importantes en matière de transparence et de protection de la vie privée dans les écosystèmes de données traditionnels.
Silos de données : les données en temps réel provenant de différentes sources et formats sont difficiles à intégrer rapidement, ce qui entrave une analyse complète. Une grande partie de ces données reste verrouillée au sein des organisations, ce qui limite le partage et l’innovation entre les secteurs et les organisations. Cet effet de « silo de données » entrave l’intégration et l’analyse des données inter-domaines. Par exemple, dans le secteur de la consommation, les marques doivent intégrer des données provenant de plateformes de commerce électronique, de magasins physiques, de médias sociaux et d’études de marché, mais ces ensembles de données peuvent être isolés en raison d’incohérences ou de ségrégation des plateformes. De même, les entreprises de covoiturage comme Uber et Lyft collectent de grandes quantités de données en temps réel sur le trafic, la demande des passagers et les emplacements géographiques, mais la dynamique concurrentielle empêche le partage ou l’intégration de ces ensembles de données.

3. L'écosystème de données Web3

Stockage de données : Le développement rapide de Filecoin et d'Arweave démontre que le stockage décentralisé (DCS) est en train de devenir un changement de paradigme dans le domaine du stockage. Le DCS réduit les points de défaillance individuels grâce à une architecture distribuée tout en attirant les participants avec une efficacité économique compétitive. Avec l'émergence d'applications à grande échelle, la capacité de stockage DCS a augmenté de manière exponentielle (par exemple, la capacité de stockage totale du réseau Filecoin a atteint 22 exaoctets d'ici 2024).
Traitement et analyse : Les plateformes de calcul de données décentralisées comme Fluence améliorent les performances en temps réel et l'efficacité du traitement des données grâce à l'informatique de périphérie, notamment pour les scénarios d'application en temps réel tels que l'IoT et l'inférence de l'IA. Les projets Web3 utilisent des technologies telles que l'apprentissage fédéré, la confidentialité différentielle, les environnements d'exécution de confiance et le chiffrement totalement homomorphe pour fournir une protection de la vie privée flexible au niveau du calcul.
Marchés de données/Plateformes d'échange : Pour faciliter la valorisation et la circulation des données, Ocean Protocol utilise la tokenisation et des mécanismes DEX pour créer des canaux d'échange de données efficaces et ouverts. Par exemple, il a collaboré avec Daimler (la société mère de Mercedes-Benz) pour développer des marchés d'échange de données pour la gestion de la chaîne d'approvisionnement. De son côté, Streamr a développé un réseau de flux de données basé sur l'abonnement sans permission, adapté aux scénarios d'IoT et d'analyse en temps réel, montrant un potentiel exceptionnel dans les projets de transport et de logistique (par exemple, en collaborant avec le projet de ville intelligente de la Finlande).

3.1 Innovations in Data Verification and Privacy Protection

Introduction à TLS Notary

(Principes de chiffrement TLS, Source : TechTarget)

Ainsi, TLS Notary offre une vérification sécurisée des données et équilibre efficacement les besoins de vérification avec la protection de la vie privée.

3.2 Variantes et Extensions de TLS Notary

zkTLS: Une version améliorée de TLS Notary qui intègre la technologie ZKP, permettant aux utilisateurs de générer des preuves cryptographiques des données de la page Web sans exposer d'informations sensibles. Il convient particulièrement aux scénarios de communication nécessitant une protection de la vie privée élevée.
3P-TLS (Three-Party TLS): Ce protocole introduit trois parties - client, serveur et auditeur - permettant à l'auditeur de vérifier la sécurité des communications sans divulguer le contenu. Ce protocole est utile dans des scénarios qui exigent à la fois transparence et confidentialité, tels que les audits de conformité ou les examens des transactions financières.

Protocole Reclaim: Utilise zkTLS pour générer des preuves de connaissance nulle du trafic HTTPS, permettant aux utilisateurs d'importer en toute sécurité des données d'activité, de réputation et d'identité à partir de sites Web externes sans exposer d'informations sensibles.
zkPass : Combinez la technologie 3P-TLS pour permettre aux utilisateurs de vérifier de manière sécurisée des données privées du monde réel, avec des applications dans les services KYC et de crédit. Il est également compatible avec le réseau HTTPS.
Réseau d'opacité : basé sur zkTLS, il permet aux utilisateurs de prouver en toute sécurité leurs activités sur des plates-formes telles que Uber, Spotify et Netflix sans accéder directement aux API de ces plates-formes, ce qui permet une vérification d'activité interplateforme.

(Projets travaillant sur des oracles TLS, Source: Bastian Wetzel)