Les récents accords d'autorisation de données remarquables, tels que ceux entre OpenAI et News Corp et Reddit, soulignent la nécessité de données de haute qualité en matière d'IA. Les modèles d'IA leaders ont déjà été entraînés sur une partie importante d'Internet. Par exemple, Common Crawl a indexé environ 10 % des pages Web pour la formation de modèles de langage volumineux, ce qui représente plus de 100 billions de jetons.
Pour améliorer davantage les modèles d'IA, il est essentiel d'élargir et d'améliorer les données disponibles pour la formation. Nous avons discuté des moyens d'agréger les données, notamment par des méthodes décentralisées. Nous nous intéressons particulièrement à la façon dont les approches décentralisées peuvent aider à créer de nouveaux ensembles de données et à offrir des incitations économiques aux contributeurs et aux créateurs.
Ces dernières années, l'un des sujets chauds dans le monde de la crypto a été le concept de data daos, qui sont des groupes de personnes qui créent, organisent et gèrent des données. Alors que ce sujet a été discuté par Multicoin et d'autres, l'avancement rapide de l'IA soulève une nouvelle question : "pourquoi est-ce le bon moment pour les data daos ?"
Dans cet article, nous partagerons nos idées sur les DAOD de données pour répondre à la question : comment les DAOD de données peuvent-ils accélérer le développement de l'IA?
Aujourd’hui, les modèles d’IA sont principalement entraînés sur des données publiques, soit par le biais de partenariats avec des entreprises comme News Corp et Reddit, soit en récupérant des données de l’Internet ouvert. Par exemple, Lama 3 de Meta a été formé à l’aide de 15 trillions de jetons provenant de sources publiques. Bien que ces méthodes soient efficaces pour recueillir rapidement de grandes quantités de données, elles présentent des limites quant aux types de données collectées et à la manière dont ces données sont obtenues.
Tout d'abord, en ce qui concerne les données à collecter : le développement de l'IA est entravé par des goulots d'étranglement en termes de qualité et de quantité de données. Leopold Aschenbrenner a discuté du « mur des données » qui limite les améliorations supplémentaires des algorithmes : « bientôt, l'approche simple de pré-entraîner de plus grands modèles de langage sur plus de données extraites pourrait rencontrer des goulots d'étranglement importants. »
une façon de surmonter le mur des données est de rendre de nouveaux ensembles de données disponibles. Par exemple, les entreprises de modélisation ne peuvent pas extraire des données protégées par mot de passe sans violer les conditions d'utilisation de la plupart des sites Web, et elles ne peuvent pas accéder à des données qui n'ont pas été collectées. Actuellement, il existe une énorme quantité de données privées auxquelles l'entraînement AI ne peut pas accéder, telles que les données de Google Drive, Slack, les dossiers de santé personnels et autres informations privées.
Deuxièmement, en ce qui concerne la collecte de données : dans le modèle actuel, les entreprises de collecte de données capturent la majeure partie de la valeur. Le dépôt S-1 de Reddit met en évidence la licence de données comme une source de revenus majeure anticipée : « Nous prévoyons que notre avantage en matière de données en croissance et notre propriété intellectuelle resteront des éléments clés de la formation future de llm. » Cependant, les utilisateurs finaux qui génèrent le contenu réel ne reçoivent aucun avantage économique de ces accords de licence ou des modèles d'IA eux-mêmes. Ce désalignement pourrait décourager la participation - il y a déjà des mouvements pour poursuivre les entreprises d'IA générative ou se retirer des ensembles de données d'entraînement. De plus, concentrer les revenus entre les mains des entreprises ou des plates-formes de modèle sans les partager avec les utilisateurs finaux a des implications socio-économiques importantes.
les problèmes de données mentionnés précédemment partagent un thème commun : ils bénéficient de contributions substantielles de la part d'échantillons d'utilisateurs divers et représentatifs. bien qu'un seul point de données puisse avoir un impact négligeable sur les performances du modèle, un grand groupe d'utilisateurs peut générer de nouveaux ensembles de données qui sont très précieux pour la formation en intelligence artificielle. c'est là que les daos de données (organisations autonomes décentralisées) entrent en jeu. avec les daos de données, les contributeurs de données peuvent gagner des récompenses économiques pour fournir des données et contrôler la manière dont leurs données sont utilisées et monétisées.
Dans quels domaines les data DAO peuvent-elles avoir un impact significatif dans le paysage actuel des données ? Voici quelques idées - cette liste n'est pas exhaustive et les data DAO ont certainement d'autres opportunités :
(1) données du monde réel
Dans le domaine de l'infrastructure physique décentralisée (depin), des réseaux tels que Hivemapper visent à collecter les dernières données cartographiques mondiales en incitant les propriétaires de dashcam à partager leurs données et en encourageant les utilisateurs à fournir des données via leurs applications (par exemple, des informations sur les fermetures de routes ou les réparations). Depin peut être considéré comme un DAO de données du monde réel, où les ensembles de données sont générés à partir de dispositifs matériels et/ou de réseaux d'utilisateurs. Ces données ont une valeur commerciale pour de nombreuses entreprises et les contributeurs sont récompensés par des jetons.
(2) données personnelles de santé
Le biohacking est un mouvement social où les individus et les communautés adoptent une approche de bricolage pour étudier la biologie, expérimentant souvent sur eux-mêmes. Par exemple, quelqu'un pourrait utiliser différents médicaments nootropes pour améliorer les performances cérébrales, essayer divers traitements ou changements environnementaux pour améliorer le sommeil, ou même s'injecter des substances expérimentales.
Les DAO de données peuvent soutenir ces efforts de biohack en organisant les participants autour d'expériences partagées et en collectant systématiquement les résultats. Les revenus générés par ces DAO de santé personnelle, tels que les laboratoires de recherche ou les entreprises pharmaceutiques, peuvent être reversés aux participants qui ont contribué à leurs données de santé personnelle.
(3) apprentissage par renforcement avec retour humain
L'apprentissage par renforcement avec rétroaction humaine (RLHF) consiste à utiliser l'apport humain pour affiner les modèles d'IA et améliorer leurs performances. En général, la rétroaction provient d'experts dans des domaines spécifiques qui peuvent évaluer efficacement la sortie du modèle. Par exemple, un laboratoire de recherche pourrait solliciter l'aide d'un doctorat en mathématiques pour améliorer les capacités mathématiques de leur IA. Les récompenses en jetons peuvent attirer et inciter les experts à participer, offrant ainsi une valeur spéculative et un accès mondial grâce aux systèmes de paiement cryptographique. Des entreprises comme Sapien, Fraction et Sahara travaillent activement dans ce domaine.
(4) données privées
À mesure que les données publiques disponibles pour l'entraînement de l'IA deviennent plus rares, l'accent peut se déplacer vers des ensembles de données propriétaires, y compris des données utilisateur privées. Derrière les murs de connexion se trouve une mine de données de haute qualité qui reste inaccessible, comme des messages et des documents privés. Ces données peuvent être très efficaces pour l'entraînement de l'IA personnalisée et contiennent des informations précieuses que l'on ne trouve pas sur Internet public.
Accéder et utiliser ces données présente des défis juridiques et éthiques importants. Les DAO de données peuvent offrir une solution en permettant aux participants volontaires de télécharger et de monétiser leurs données tout en gérant leur utilisation. Par exemple, un DAO de données Reddit pourrait permettre aux utilisateurs de télécharger leurs données Reddit exportées, y compris les commentaires, les publications et l'historique des votes, qui pourraient être vendus ou loués à des entreprises d'IA de manière protectrice de la vie privée. Les incitations sous forme de jetons permettent aux utilisateurs de gagner non seulement à partir d'une transaction ponctuelle, mais aussi de la valeur continue générée par les modèles d'IA formés avec leurs données.
Bien que les data DAO offrent des avantages potentiels importants, il y a plusieurs considérations importantes et défis à prendre en compte.
(1) distorsion des incitations
une leçon clé de l'histoire de l'utilisation des incitations de jetons dans la crypto est que les récompenses externes peuvent modifier le comportement des utilisateurs. cela a des implications directes pour l'utilisation des incitations de jetons pour collecter des données : les incitations pourraient fausser le groupe de participants et les types de données qu'ils contribuent.
L'introduction d'incitations en jetons ouvre également la possibilité pour les participants d'exploiter le système, par exemple en soumettant des données de qualité inférieure ou fabriquées pour maximiser leurs revenus. Cela est critique car le succès des data daos dépend de la qualité des données. Si les contributions s'écartent de l'objectif souhaité, la valeur de l'ensemble de données peut être compromise.
(2) mesurer et récompenser les données
L'idée centrale des data DAO est de récompenser les contributeurs pour leurs soumissions de données avec des jetons, qui généreront des revenus pour la DAO à long terme. Cependant, en raison de la nature subjective de la valeur des données, il est extrêmement difficile de déterminer la récompense appropriée pour les différentes contributions de données. Par exemple, dans le scénario du biohacking : les données de certains utilisateurs sont-elles plus précieuses que celles des autres ? Si oui, quels facteurs déterminent cela ? Pour les données cartographiques : les informations provenant de certaines zones sont-elles plus précieuses que celles provenant d'autres ? Comment ces différences doivent-elles être quantifiées ? (La recherche visant à mesurer la valeur des données en IA en évaluant la contribution incrémentale des données à la performance du modèle est en cours mais peut être intensivement calculatrice.)
De plus, il est essentiel d'établir des mécanismes robustes pour vérifier l'authenticité et l'exactitude des données. Sans ces mesures, le système pourrait être vulnérable aux soumissions de données frauduleuses (par exemple, la création de faux comptes) ou aux attaques de sybil. Les réseaux de depin abordent ce problème en intégrant la vérification au niveau du périphérique matériel, mais d'autres types de DAO de données reposant sur les contributions des utilisateurs pourraient être plus susceptibles de manipulation.
(3) valeur incrémentielle des nouvelles données
La plupart des réseaux ouverts ont déjà été utilisés à des fins de formation, il est donc important que les opérateurs de data dao considèrent si les ensembles de données collectés de manière décentralisée ajoutent une valeur incrémentale aux données existantes sur les réseaux ouverts, et si les chercheurs peuvent accéder à ces données à partir de la plateforme ou par d'autres moyens. Cette idée souligne l'importance de rassembler des données entièrement nouvelles qui dépassent ce qui est actuellement disponible, ce qui conduit à la prochaine considération : l'ampleur de l'impact et des opportunités de revenus.
(4) évaluation des opportunités de revenus
Fondamentalement, les DAO de données construisent un marché à deux faces qui connecte les acheteurs de données avec les contributeurs de données. Par conséquent, le succès d'un DAO de données dépend de sa capacité à attirer une base de clients stable et diversifiée prête à payer pour les données.
Les data daos doivent identifier et confirmer la demande pour leurs données, et s'assurer que les opportunités de revenus sont suffisamment importantes (qu'elles soient totales ou par contributeur) pour motiver la quantité et la qualité nécessaires de données. Par exemple, le concept de création d'un utilisateur data dao pour agréger les préférences personnelles et les données de navigation à des fins publicitaires est discuté depuis des années, mais les retours potentiels pour les utilisateurs peuvent être minimes. (Pour information, le global ARPU de Meta était de 13,12 $ à la fin de 2023.) Avec les entreprises d'IA prévoyant d'investir des billions de dollars dans la formation, les gains potentiels issus des données pourraient être suffisants pour inciter à des contributions à grande échelle, soulevant une question intrigante pour les data daos : « pourquoi maintenant ? »
Les DAO de données offrent une solution prometteuse pour créer de nouveaux ensembles de données de haute qualité et surmonter le mur de données qui entrave l'intelligence artificielle. Bien que les méthodes exactes pour y parvenir restent à déterminer, nous sommes impatients de voir comment ce domaine évolue.
Les récents accords d'autorisation de données remarquables, tels que ceux entre OpenAI et News Corp et Reddit, soulignent la nécessité de données de haute qualité en matière d'IA. Les modèles d'IA leaders ont déjà été entraînés sur une partie importante d'Internet. Par exemple, Common Crawl a indexé environ 10 % des pages Web pour la formation de modèles de langage volumineux, ce qui représente plus de 100 billions de jetons.
Pour améliorer davantage les modèles d'IA, il est essentiel d'élargir et d'améliorer les données disponibles pour la formation. Nous avons discuté des moyens d'agréger les données, notamment par des méthodes décentralisées. Nous nous intéressons particulièrement à la façon dont les approches décentralisées peuvent aider à créer de nouveaux ensembles de données et à offrir des incitations économiques aux contributeurs et aux créateurs.
Ces dernières années, l'un des sujets chauds dans le monde de la crypto a été le concept de data daos, qui sont des groupes de personnes qui créent, organisent et gèrent des données. Alors que ce sujet a été discuté par Multicoin et d'autres, l'avancement rapide de l'IA soulève une nouvelle question : "pourquoi est-ce le bon moment pour les data daos ?"
Dans cet article, nous partagerons nos idées sur les DAOD de données pour répondre à la question : comment les DAOD de données peuvent-ils accélérer le développement de l'IA?
Aujourd’hui, les modèles d’IA sont principalement entraînés sur des données publiques, soit par le biais de partenariats avec des entreprises comme News Corp et Reddit, soit en récupérant des données de l’Internet ouvert. Par exemple, Lama 3 de Meta a été formé à l’aide de 15 trillions de jetons provenant de sources publiques. Bien que ces méthodes soient efficaces pour recueillir rapidement de grandes quantités de données, elles présentent des limites quant aux types de données collectées et à la manière dont ces données sont obtenues.
Tout d'abord, en ce qui concerne les données à collecter : le développement de l'IA est entravé par des goulots d'étranglement en termes de qualité et de quantité de données. Leopold Aschenbrenner a discuté du « mur des données » qui limite les améliorations supplémentaires des algorithmes : « bientôt, l'approche simple de pré-entraîner de plus grands modèles de langage sur plus de données extraites pourrait rencontrer des goulots d'étranglement importants. »
une façon de surmonter le mur des données est de rendre de nouveaux ensembles de données disponibles. Par exemple, les entreprises de modélisation ne peuvent pas extraire des données protégées par mot de passe sans violer les conditions d'utilisation de la plupart des sites Web, et elles ne peuvent pas accéder à des données qui n'ont pas été collectées. Actuellement, il existe une énorme quantité de données privées auxquelles l'entraînement AI ne peut pas accéder, telles que les données de Google Drive, Slack, les dossiers de santé personnels et autres informations privées.
Deuxièmement, en ce qui concerne la collecte de données : dans le modèle actuel, les entreprises de collecte de données capturent la majeure partie de la valeur. Le dépôt S-1 de Reddit met en évidence la licence de données comme une source de revenus majeure anticipée : « Nous prévoyons que notre avantage en matière de données en croissance et notre propriété intellectuelle resteront des éléments clés de la formation future de llm. » Cependant, les utilisateurs finaux qui génèrent le contenu réel ne reçoivent aucun avantage économique de ces accords de licence ou des modèles d'IA eux-mêmes. Ce désalignement pourrait décourager la participation - il y a déjà des mouvements pour poursuivre les entreprises d'IA générative ou se retirer des ensembles de données d'entraînement. De plus, concentrer les revenus entre les mains des entreprises ou des plates-formes de modèle sans les partager avec les utilisateurs finaux a des implications socio-économiques importantes.
les problèmes de données mentionnés précédemment partagent un thème commun : ils bénéficient de contributions substantielles de la part d'échantillons d'utilisateurs divers et représentatifs. bien qu'un seul point de données puisse avoir un impact négligeable sur les performances du modèle, un grand groupe d'utilisateurs peut générer de nouveaux ensembles de données qui sont très précieux pour la formation en intelligence artificielle. c'est là que les daos de données (organisations autonomes décentralisées) entrent en jeu. avec les daos de données, les contributeurs de données peuvent gagner des récompenses économiques pour fournir des données et contrôler la manière dont leurs données sont utilisées et monétisées.
Dans quels domaines les data DAO peuvent-elles avoir un impact significatif dans le paysage actuel des données ? Voici quelques idées - cette liste n'est pas exhaustive et les data DAO ont certainement d'autres opportunités :
(1) données du monde réel
Dans le domaine de l'infrastructure physique décentralisée (depin), des réseaux tels que Hivemapper visent à collecter les dernières données cartographiques mondiales en incitant les propriétaires de dashcam à partager leurs données et en encourageant les utilisateurs à fournir des données via leurs applications (par exemple, des informations sur les fermetures de routes ou les réparations). Depin peut être considéré comme un DAO de données du monde réel, où les ensembles de données sont générés à partir de dispositifs matériels et/ou de réseaux d'utilisateurs. Ces données ont une valeur commerciale pour de nombreuses entreprises et les contributeurs sont récompensés par des jetons.
(2) données personnelles de santé
Le biohacking est un mouvement social où les individus et les communautés adoptent une approche de bricolage pour étudier la biologie, expérimentant souvent sur eux-mêmes. Par exemple, quelqu'un pourrait utiliser différents médicaments nootropes pour améliorer les performances cérébrales, essayer divers traitements ou changements environnementaux pour améliorer le sommeil, ou même s'injecter des substances expérimentales.
Les DAO de données peuvent soutenir ces efforts de biohack en organisant les participants autour d'expériences partagées et en collectant systématiquement les résultats. Les revenus générés par ces DAO de santé personnelle, tels que les laboratoires de recherche ou les entreprises pharmaceutiques, peuvent être reversés aux participants qui ont contribué à leurs données de santé personnelle.
(3) apprentissage par renforcement avec retour humain
L'apprentissage par renforcement avec rétroaction humaine (RLHF) consiste à utiliser l'apport humain pour affiner les modèles d'IA et améliorer leurs performances. En général, la rétroaction provient d'experts dans des domaines spécifiques qui peuvent évaluer efficacement la sortie du modèle. Par exemple, un laboratoire de recherche pourrait solliciter l'aide d'un doctorat en mathématiques pour améliorer les capacités mathématiques de leur IA. Les récompenses en jetons peuvent attirer et inciter les experts à participer, offrant ainsi une valeur spéculative et un accès mondial grâce aux systèmes de paiement cryptographique. Des entreprises comme Sapien, Fraction et Sahara travaillent activement dans ce domaine.
(4) données privées
À mesure que les données publiques disponibles pour l'entraînement de l'IA deviennent plus rares, l'accent peut se déplacer vers des ensembles de données propriétaires, y compris des données utilisateur privées. Derrière les murs de connexion se trouve une mine de données de haute qualité qui reste inaccessible, comme des messages et des documents privés. Ces données peuvent être très efficaces pour l'entraînement de l'IA personnalisée et contiennent des informations précieuses que l'on ne trouve pas sur Internet public.
Accéder et utiliser ces données présente des défis juridiques et éthiques importants. Les DAO de données peuvent offrir une solution en permettant aux participants volontaires de télécharger et de monétiser leurs données tout en gérant leur utilisation. Par exemple, un DAO de données Reddit pourrait permettre aux utilisateurs de télécharger leurs données Reddit exportées, y compris les commentaires, les publications et l'historique des votes, qui pourraient être vendus ou loués à des entreprises d'IA de manière protectrice de la vie privée. Les incitations sous forme de jetons permettent aux utilisateurs de gagner non seulement à partir d'une transaction ponctuelle, mais aussi de la valeur continue générée par les modèles d'IA formés avec leurs données.
Bien que les data DAO offrent des avantages potentiels importants, il y a plusieurs considérations importantes et défis à prendre en compte.
(1) distorsion des incitations
une leçon clé de l'histoire de l'utilisation des incitations de jetons dans la crypto est que les récompenses externes peuvent modifier le comportement des utilisateurs. cela a des implications directes pour l'utilisation des incitations de jetons pour collecter des données : les incitations pourraient fausser le groupe de participants et les types de données qu'ils contribuent.
L'introduction d'incitations en jetons ouvre également la possibilité pour les participants d'exploiter le système, par exemple en soumettant des données de qualité inférieure ou fabriquées pour maximiser leurs revenus. Cela est critique car le succès des data daos dépend de la qualité des données. Si les contributions s'écartent de l'objectif souhaité, la valeur de l'ensemble de données peut être compromise.
(2) mesurer et récompenser les données
L'idée centrale des data DAO est de récompenser les contributeurs pour leurs soumissions de données avec des jetons, qui généreront des revenus pour la DAO à long terme. Cependant, en raison de la nature subjective de la valeur des données, il est extrêmement difficile de déterminer la récompense appropriée pour les différentes contributions de données. Par exemple, dans le scénario du biohacking : les données de certains utilisateurs sont-elles plus précieuses que celles des autres ? Si oui, quels facteurs déterminent cela ? Pour les données cartographiques : les informations provenant de certaines zones sont-elles plus précieuses que celles provenant d'autres ? Comment ces différences doivent-elles être quantifiées ? (La recherche visant à mesurer la valeur des données en IA en évaluant la contribution incrémentale des données à la performance du modèle est en cours mais peut être intensivement calculatrice.)
De plus, il est essentiel d'établir des mécanismes robustes pour vérifier l'authenticité et l'exactitude des données. Sans ces mesures, le système pourrait être vulnérable aux soumissions de données frauduleuses (par exemple, la création de faux comptes) ou aux attaques de sybil. Les réseaux de depin abordent ce problème en intégrant la vérification au niveau du périphérique matériel, mais d'autres types de DAO de données reposant sur les contributions des utilisateurs pourraient être plus susceptibles de manipulation.
(3) valeur incrémentielle des nouvelles données
La plupart des réseaux ouverts ont déjà été utilisés à des fins de formation, il est donc important que les opérateurs de data dao considèrent si les ensembles de données collectés de manière décentralisée ajoutent une valeur incrémentale aux données existantes sur les réseaux ouverts, et si les chercheurs peuvent accéder à ces données à partir de la plateforme ou par d'autres moyens. Cette idée souligne l'importance de rassembler des données entièrement nouvelles qui dépassent ce qui est actuellement disponible, ce qui conduit à la prochaine considération : l'ampleur de l'impact et des opportunités de revenus.
(4) évaluation des opportunités de revenus
Fondamentalement, les DAO de données construisent un marché à deux faces qui connecte les acheteurs de données avec les contributeurs de données. Par conséquent, le succès d'un DAO de données dépend de sa capacité à attirer une base de clients stable et diversifiée prête à payer pour les données.
Les data daos doivent identifier et confirmer la demande pour leurs données, et s'assurer que les opportunités de revenus sont suffisamment importantes (qu'elles soient totales ou par contributeur) pour motiver la quantité et la qualité nécessaires de données. Par exemple, le concept de création d'un utilisateur data dao pour agréger les préférences personnelles et les données de navigation à des fins publicitaires est discuté depuis des années, mais les retours potentiels pour les utilisateurs peuvent être minimes. (Pour information, le global ARPU de Meta était de 13,12 $ à la fin de 2023.) Avec les entreprises d'IA prévoyant d'investir des billions de dollars dans la formation, les gains potentiels issus des données pourraient être suffisants pour inciter à des contributions à grande échelle, soulevant une question intrigante pour les data daos : « pourquoi maintenant ? »
Les DAO de données offrent une solution prometteuse pour créer de nouveaux ensembles de données de haute qualité et surmonter le mur de données qui entrave l'intelligence artificielle. Bien que les méthodes exactes pour y parvenir restent à déterminer, nous sommes impatients de voir comment ce domaine évolue.