Le 16 février, OpenAI a annoncé son dernier modèle de diffusion générative de texte en vidéo, baptisé « Sora », marquant une nouvelle étape dans le domaine de l'IA générative grâce à sa capacité à produire des vidéos de haute qualité à partir d'un large éventail de types de données visuelles. Contrairement aux outils de génération vidéo basés sur l'IA tels que Pika, qui génèrent quelques secondes de vidéo à partir de plusieurs images, Sora s'entraîne dans l'espace latent compressé des vidéos et des images, en les décomposant en patchs spatio-temporels pour une génération de vidéos évolutive. De plus, le modèle démontre sa capacité à simuler des mondes physiques et numériques, sa démo de 60 secondes étant décrite comme un « simulateur universel du monde physique ».
Sora poursuit la voie technique de « transformation des données source, diffusion et émergence » observée dans les précédents modèles GPT, ce qui indique que sa maturité en matière de développement repose également sur sa puissance de calcul. Compte tenu du volume de données plus important requis pour la formation vidéo que pour le texte, la demande en puissance de calcul devrait encore augmenter. Cependant, comme indiqué dans notre article précédent « Promising Sector Preview : The Decentralized Computing Power Market », l'importance de la puissance de calcul à l'ère de l'IA a été explorée, et avec la popularité croissante de l'IA, de nombreux projets de puissance de calcul ont vu le jour, bénéficiant à d'autres projets Depin (stockage, puissance de calcul, etc.) avec une hausse de valeur. Au-delà de Depin, cet article vise à mettre à jour et à compléter les discussions précédentes, en réfléchissant aux étincelles qui pourraient découler de l'entrelacement du Web3 et de l'IA et aux opportunités liées à cette trajectoire à l'ère de l'IA.
L'intelligence artificielle (IA) est un domaine en plein essor qui vise à imiter, étendre et enrichir l'intelligence humaine. Depuis ses débuts dans les années 1950 et 1960, l'IA a évolué pendant plus d'un demi-siècle pour devenir une technologie essentielle au service de la transformation de la société et de divers secteurs d'activité. Tout au long de cette aventure, les progrès entrelacés de trois axes de recherche principaux, à savoir le symbolisme, le connexionnisme et le comportementalisme, ont jeté les bases des progrès rapides de l'IA aujourd'hui.
Le symbolisme, également appelé logicisme ou raisonnement basé sur des règles, part du principe qu'il est possible de reproduire l'intelligence humaine par le biais du traitement des symboles. Cette approche utilise des symboles pour représenter et manipuler des objets, des concepts et leurs relations dans un domaine problématique donné, en utilisant un raisonnement logique pour résoudre les problèmes. Le symbolisme a connu un succès remarquable, notamment en ce qui concerne les systèmes experts et la représentation des connaissances. Son principe central est qu'un comportement intelligent peut être obtenu grâce à la manipulation de symboles et à l'inférence logique, les symboles servant d'abstractions de haut niveau du monde réel.
Le connexionnisme, également connu sous le nom d'approche des réseaux neuronaux, vise à atteindre l'intelligence en reflétant la structure et les fonctionnalités du cerveau humain. Cette méthodologie construit des réseaux comprenant de nombreuses unités de traitement simples, similaires à des neurones, et ajuste la force de connexion entre ces unités, comme des synapses, pour faciliter l'apprentissage. Mettant l'accent sur l'apprentissage et la généralisation à partir des données, le connexionnisme convient parfaitement à des tâches telles que la reconnaissance des formes, la classification et le mappage continu des entrées-sorties. L'apprentissage profond, évolution du connexionnisme, a permis de réaliser des avancées dans des domaines tels que la reconnaissance d'images et de la parole, ainsi que le traitement du langage naturel.
Le comportementalisme, étroitement lié à la robotique biomimétique et à la recherche sur les systèmes intelligents autonomes, souligne que les agents intelligents peuvent apprendre grâce à des interactions avec l'environnement. Contrairement aux approches précédentes, le béhaviorisme ne se concentre pas sur la simulation de représentations internes ou de processus cognitifs, mais sur la mise en place d'un comportement adaptatif grâce au cycle perception-action. Il part du principe que l'intelligence se manifeste par une interaction environnementale dynamique et par l'apprentissage, ce qui la rend particulièrement efficace pour les robots mobiles et les systèmes de contrôle adaptatifs opérant dans des environnements complexes et imprévisibles.
Malgré leurs disparités fondamentales, ces trois axes de recherche peuvent créer des synergies et se compléter en matière de recherche et d'applications pratiques en matière d'IA, stimulant ainsi collectivement le développement du domaine.
Le domaine en plein essor du contenu généré par l'intelligence artificielle (AIGC) représente une évolution et une application du connexionnisme, qui facilite la génération de nouveaux contenus en imitant la créativité humaine. Ces modèles sont entraînés à l'aide de vastes ensembles de données et d'algorithmes d'apprentissage en profondeur pour discerner les structures, les relations et les modèles sous-jacents des données. À la demande des utilisateurs, ils produisent divers résultats, notamment des images, des vidéos, du code, de la musique, des designs, des traductions, des réponses à des questions et du texte. Actuellement, l'AIGC comprend essentiellement trois éléments : le Deep Learning (DL), le Big Data et une puissance de calcul massive.
Le Deep Learning, un sous-ensemble de l'apprentissage automatique (ML), utilise des algorithmes calqués sur les réseaux neuronaux du cerveau humain. Tout comme le cerveau humain est composé de neurones interconnectés qui traitent des informations, les réseaux neuronaux d'apprentissage profond sont composés de plusieurs couches de neurones artificiels effectuant des calculs sur un ordinateur. Ces neurones artificiels, ou nœuds, exploitent des opérations mathématiques pour traiter les données et résoudre des problèmes complexes grâce à des algorithmes d'apprentissage en profondeur.
Les réseaux de neurones se composent de couches : entrée, couche cachée et couche de sortie, avec des paramètres reliant ces couches.
· Couche d'entrée : la première couche du réseau neuronal reçoit des données d'entrée externes. Chaque neurone de cette couche correspond à une caractéristique des données d'entrée. Par exemple, lors du traitement de données d'image, les neurones individuels peuvent représenter des valeurs de pixels.
· Couches cachées : Après la couche d'entrée, les couches cachées traitent et transmettent les données via le réseau. Ces couches analysent les informations à différents niveaux, en adaptant leur comportement à mesure qu'elles reçoivent de nouvelles informations. Les réseaux d'apprentissage en profondeur peuvent comporter des centaines de couches cachées, ce qui permet une analyse des problèmes multiforme. Par exemple, lorsqu'il classe un animal inconnu à partir d'une image, le réseau peut le comparer à des animaux connus en évaluant des caractéristiques telles que la forme des oreilles, le nombre de pattes et la taille des pupilles. Les couches cachées fonctionnent de la même manière, chacune traitant des caractéristiques différentes des animaux pour faciliter une classification précise.
· Couche de sortie : La dernière couche du réseau neuronal produit la sortie du réseau. Les neurones de cette couche représentent les catégories ou valeurs de sortie potentielles. Dans les tâches de classification, chaque neurone peut correspondre à une catégorie, tandis que dans les tâches de régression, la couche de sortie peut contenir un seul neurone dont la valeur prédit le résultat.
· Paramètres : Dans les réseaux de neurones, les connexions entre les différentes couches sont représentées par des poids et des biais, qui sont optimisés pendant le processus d'entraînement pour permettre au réseau de reconnaître avec précision les modèles des données et de faire des prédictions. L'augmentation des paramètres peut améliorer la capacité de modélisation du réseau neuronal, c'est-à-dire sa capacité à apprendre et à représenter des modèles complexes dans les données. Cependant, cela augmente également la demande en puissance de calcul.
Un entraînement efficace des réseaux neuronaux nécessite généralement des données complètes, diversifiées, de haute qualité et provenant de sources multiples. Ces données constituent la pierre angulaire de la formation et de la validation des modèles d'apprentissage automatique. Grâce à l'analyse des mégadonnées, les modèles d'apprentissage automatique peuvent identifier des modèles et des relations au sein des données, facilitant ainsi les prévisions ou les classifications.
La structure multicouche complexe des réseaux de neurones, les nombreux paramètres, les exigences relatives au traitement des mégadonnées, les méthodes d'entraînement itératives (impliquant des calculs répétés de propagation vers l'avant et vers l'arrière, y compris des calculs de fonctions d'activation et de perte, des calculs de gradient et des mises à jour de poids), les besoins informatiques de haute précision, les capacités informatiques parallèles, les techniques d'optimisation et de régularisation, et les processus d'évaluation et de validation des modèles contribuent collectivement à des demandes informatiques importantes.
Sora, le dernier modèle d'IA de génération vidéo d'OpenAI, représente une avancée significative dans la capacité de l'intelligence artificielle à traiter et à comprendre diverses données visuelles. En utilisant des réseaux de compression vidéo et des techniques de patch spatio-temporel, Sora peut convertir de grandes quantités de données visuelles capturées dans le monde entier et depuis différents appareils en une représentation unifiée. Cette fonctionnalité permet de traiter et de comprendre efficacement des contenus visuels complexes. Sora utilise des modèles de diffusion conditionnés par du texte pour générer des vidéos ou des images étroitement corrélées aux instructions textuelles, faisant preuve d'une créativité et d'une adaptabilité remarquables.
Malgré les avancées de Sora en matière de génération de vidéos et de simulation d'interactions réelles, cette technologie présente certaines limites. Il s'agit notamment de la précision des simulations du monde physique, de la régularité dans la génération de longues vidéos, de la compréhension de textes complexes et de l'efficacité de l'entraînement et de la génération. Sora suit essentiellement la trajectoire technique de « transformation des mégadonnées, diffusion et émergence », facilitée par la puissance de calcul monopolistique et l'avantage de pionnier d'OpenAI, ce qui a donné naissance à une forme d'esthétique basée sur la force brute. Cependant, d'autres entreprises d'IA ont encore le potentiel de surpasser Sora grâce à l'innovation technologique.
Bien que le lien entre Sora et la blockchain reste modeste, l'influence de Sora devrait entraîner l'émergence et le développement rapide d'autres outils de génération d'IA de haute qualité dans les deux prochaines années. Ces développements devraient avoir un impact sur divers secteurs du Web3 tels que GameFi, les plateformes sociales, les plateformes créatives, Depin, etc. Par conséquent, il est essentiel d'acquérir une compréhension générale de Sora, et il est crucial de réfléchir à la manière dont l'IA s'intégrera efficacement au Web3 à l'avenir.
Comme indiqué précédemment, les composants fondamentaux essentiels à l'IA générative peuvent être résumés en trois éléments principaux : les algorithmes, les données et la puissance de calcul. À l'inverse, l'IA, en tant qu'outil universel ayant de profondes répercussions sur les méthodes de production, révolutionne le mode de fonctionnement des industries. Dans le même temps, l'impact significatif de la technologie blockchain est double : elle restructure les relations de production et permet la décentralisation. La convergence de ces deux technologies peut donc donner lieu à quatre voies potentielles :
Cette section vise à donner un aperçu du paysage actuel de la puissance informatique. Dans le domaine de l'IA, la puissance informatique revêt une importance capitale. La demande de puissance informatique dans le domaine de l'IA, particulièrement marquée depuis l'émergence de Sora, a atteint des niveaux sans précédent. Lors du Forum économique mondial de Davos, en Suisse, en 2024, le PDG d'OpenAI, Sam Altman, a souligné que la puissance informatique et l'énergie étaient actuellement les principales contraintes, laissant entrevoir leur future équivalence avec la monnaie. Par la suite, le 10 février, Sam Altman a annoncé un plan révolutionnaire via Twitter visant à lever la somme incroyable de 7 billions de dollars américains (soit 40 % du PIB de la Chine en 2023) afin de révolutionner l'industrie mondiale des semi-conducteurs, dans le but de créer un empire des semi-conducteurs. Auparavant, mes considérations concernant la puissance informatique se limitaient aux restrictions nationales et aux monopoles d'entreprises ; cependant, l'idée d'une seule entité aspirant à dominer le secteur mondial des semi-conducteurs est vraiment remarquable.
L'importance de la puissance informatique décentralisée est évidente. Les fonctionnalités de la blockchain proposent des solutions aux problèmes courants liés à la monopolisation de la puissance informatique et aux coûts exorbitants liés à l'acquisition de GPU spécialisés. Du point de vue des exigences en matière d'IA, l'utilisation de la puissance informatique peut être classée selon deux aspects : l'inférence et la formation. Les projets axés principalement sur la formation sont rares en raison de l'intégration complexe requise pour les réseaux décentralisés et de la demande matérielle importante, ce qui constitue des obstacles importants à leur mise en œuvre. À l'inverse, les tâches d'inférence sont relativement plus simples, avec des conceptions de réseaux décentralisées moins complexes et des exigences en matière de matériel et de bande passante moindres, ce qui représente une solution plus accessible.
Le paysage de la puissance informatique centralisée recèle un énorme potentiel, souvent associé au terme « billion de dollars », et reste un sujet très sensationnel à l'ère de l'IA. Cependant, si l'on observe la multitude de projets récents, nombre d'entre eux semblent être conçus à la hâte dans le but de tirer parti des tendances. Bien que ces projets défendent souvent la décentralisation, ils ont tendance à éviter les discussions sur les inefficacités des réseaux décentralisés. De plus, il existe une certaine uniformité en matière de conception, de nombreux projets adoptant des approches similaires (comme la conception L2 en un clic et le minage), ce qui peut entraîner un échec et compliquer les efforts visant à se différencier de la course traditionnelle à l'IA.
Les algorithmes d'apprentissage automatique sont conçus pour apprendre des modèles et des règles à partir de données, ce qui leur permet de faire des prédictions ou de prendre des décisions sur la base de ces modèles appris. En raison de la complexité de leur conception et de leur optimisation, les algorithmes sont intrinsèquement à forte intensité technologique, ce qui nécessite une expertise approfondie et des innovations technologiques. Ils constituent l'épine dorsale de l'entraînement des modèles d'IA, qui dictent la manière dont les données sont traitées pour obtenir des informations utiles ou prendre des décisions. Les principaux algorithmes d'IA générative, tels que les réseaux antagonistes génératifs (GAN), les autoencodeurs variationnels (VAE) et les transformateurs, sont adaptés à des domaines spécifiques tels que la peinture, la reconnaissance linguistique, la traduction ou la génération de vidéos, et jouent un rôle déterminant dans la formation de modèles d'IA spécialisés.
La pléthore d'algorithmes et de modèles dotés de points forts distincts soulève la question suivante : peuvent-ils être intégrés dans un modèle polyvalent ? Bittensor, un projet récent de premier plan, est le fer de lance des efforts dans ce sens en encourageant la collaboration entre différents modèles et algorithmes d'IA, favorisant ainsi le développement de modèles d'IA plus efficaces et plus performants. D'autres initiatives, comme Commune AI, visent à favoriser la collaboration en matière de code, bien que le partage d'algorithmes et de modèles reste un défi en raison de leur nature exclusive au sein des entreprises d'IA.
Le concept d'un écosystème collaboratif basé sur l'IA est intrigant, car il tire parti de la technologie blockchain pour atténuer les inconvénients associés à des algorithmes d'IA isolés. Cependant, sa capacité à générer la valeur correspondante n'a pas encore été déterminée. Les sociétés d'IA établies, dotées d'algorithmes et de modèles propriétaires, possèdent de solides capacités en matière de mise à jour, d'itération et d'intégration de leurs technologies. Par exemple, OpenAI est rapidement passée des premiers modèles de génération de texte à des modèles génératifs multidomaines en l'espace de deux ans. Des projets tels que Bittensor devront peut-être explorer des voies innovantes dans les domaines qu'ils ciblent pour être compétitifs.
D'un point de vue simpliste, intégrer des données privées pour alimenter l'IA et annoter des données sont des moyens qui s'harmonisent bien avec la technologie blockchain. Les principales préoccupations concernent la manière de contrecarrer les données indésirables et les activités malveillantes. De plus, le stockage des données peut être avantageux pour les projets Depin tels que FIL et AR.
D'un point de vue plus complexe, tirer parti des données de la blockchain pour l'apprentissage automatique (ML) afin d'améliorer l'accessibilité des données de la blockchain représente une autre orientation convaincante, comme l'a exploré Gizeh.
En théorie, les données de la blockchain sont accessibles à tout moment et reflètent l'état de l'ensemble de la blockchain. Cependant, pour ceux qui ne font pas partie de l'écosystème de la blockchain, accéder à ces vastes ensembles de données n'est pas simple. Le stockage d'une blockchain complète nécessite une expertise importante et des ressources matérielles spécialisées.
Pour surmonter les défis liés à l'accès aux données de la blockchain, le secteur a assisté à l'émergence de plusieurs solutions. Par exemple, les fournisseurs de RPC proposent l'accès aux nœuds via des API, tandis que les services d'indexation facilitent la récupération des données via SQL et GraphQL, jouant ainsi un rôle central dans la résolution du problème. Ces méthodes ont néanmoins leurs limites. Les services RPC ne sont pas adaptés aux cas d'utilisation à forte densité nécessitant de nombreuses requêtes de données et ne répondent souvent pas à la demande. Par ailleurs, bien que les services d'indexation proposent une approche plus structurée de la récupération des données, la complexité des protocoles Web3 rend la création de requêtes efficaces extrêmement difficile, nécessitant parfois des centaines, voire des milliers de lignes de code complexe. Cette complexité constitue un obstacle important pour les praticiens généralistes des données et ceux qui ont une compréhension limitée des subtilités du Web3. L'impact collectif de ces limites souligne la nécessité de mettre en place une méthode plus accessible et plus utilisable pour obtenir et exploiter les données de la blockchain, ce qui pourrait stimuler des applications et des innovations plus étendues dans ce domaine.
Ainsi, la fusion du ZKML (Zero-Knowledge Proof Machine Learning, qui allège la charge que représente l'apprentissage automatique sur la chaîne) et des données de haute qualité liées à la blockchain pourrait potentiellement générer des ensembles de données répondant aux défis d'accessibilité des données de la blockchain. L'IA a le potentiel de réduire de manière significative les obstacles à l'accès aux données de la blockchain. Au fil du temps, les développeurs, les chercheurs et les passionnés de machine learning pourraient avoir accès à de plus en plus de jeux de données pertinents et de haute qualité pour élaborer des solutions efficaces et innovantes.
Depuis l'explosion de ChatGPT3 en 2023, l'autonomisation des Dapps par l'IA est devenue une tendance très courante. L'IA générative largement applicable peut être intégrée via des API, simplifiant et améliorant ainsi les plateformes de données, les robots de trading, les encyclopédies blockchain et d'autres applications. Il peut également fonctionner comme un chatbot (comme Myshell) ou comme un compagnon IA (comme Sleepless AI), et même créer des PNJ dans des jeux blockchain en utilisant l'IA générative. Cependant, en raison des faibles obstacles techniques, la plupart des implémentations ne sont que de simples ajustements après l'intégration d'une API, et l'intégration aux projets eux-mêmes est souvent imparfaite, donc rarement mentionnée.
Avec l'arrivée de Sora, je pense personnellement que l'objectif principal sera de renforcer l'IA pour GameFi (y compris le métaverse) et les plateformes créatives à l'avenir. Étant donné la nature ascendante du Web3, il est peu probable que des produits puissent concurrencer directement les jeux vidéo traditionnels ou les entreprises créatives. Cependant, l'émergence de Sora est susceptible de sortir de cette impasse, peut-être en deux ou trois ans seulement. D'après la démo de Sora, l'entreprise semble capable de concurrencer les sociétés de microfiction. De plus, la culture communautaire active du Web3 peut donner naissance à une pléthore d'idées intéressantes. Lorsque la seule limite est l'imagination, les barrières entre le secteur ascendant et le secteur traditionnel descendant s'effondreront.
À mesure que les outils d'IA générative continuent de progresser, nous sommes sur le point de vivre de nouveaux « moments iPhone » transformateurs à l'avenir. Malgré le scepticisme initial quant à l'intégration de l'IA au Web3, je suis convaincue que les trajectoires actuelles sont généralement sur la bonne voie, même si trois points principaux nécessitent une attention particulière : nécessité, efficacité et compatibilité. Bien que la convergence de ces domaines reste exploratoire, cela ne devrait pas nous empêcher d'envisager son adoption généralisée lors du prochain marché haussier.
Il est crucial de faire preuve de curiosité et de réceptivité aux nouvelles idées. Les précédents historiques, tels que la transition rapide des calèches aux automobiles et l'évolution des inscriptions dans les anciens NFT, soulignent l'importance d'éviter les biais excessifs, qui se traduisent souvent par des opportunités manquées.
Le 16 février, OpenAI a annoncé son dernier modèle de diffusion générative de texte en vidéo, baptisé « Sora », marquant une nouvelle étape dans le domaine de l'IA générative grâce à sa capacité à produire des vidéos de haute qualité à partir d'un large éventail de types de données visuelles. Contrairement aux outils de génération vidéo basés sur l'IA tels que Pika, qui génèrent quelques secondes de vidéo à partir de plusieurs images, Sora s'entraîne dans l'espace latent compressé des vidéos et des images, en les décomposant en patchs spatio-temporels pour une génération de vidéos évolutive. De plus, le modèle démontre sa capacité à simuler des mondes physiques et numériques, sa démo de 60 secondes étant décrite comme un « simulateur universel du monde physique ».
Sora poursuit la voie technique de « transformation des données source, diffusion et émergence » observée dans les précédents modèles GPT, ce qui indique que sa maturité en matière de développement repose également sur sa puissance de calcul. Compte tenu du volume de données plus important requis pour la formation vidéo que pour le texte, la demande en puissance de calcul devrait encore augmenter. Cependant, comme indiqué dans notre article précédent « Promising Sector Preview : The Decentralized Computing Power Market », l'importance de la puissance de calcul à l'ère de l'IA a été explorée, et avec la popularité croissante de l'IA, de nombreux projets de puissance de calcul ont vu le jour, bénéficiant à d'autres projets Depin (stockage, puissance de calcul, etc.) avec une hausse de valeur. Au-delà de Depin, cet article vise à mettre à jour et à compléter les discussions précédentes, en réfléchissant aux étincelles qui pourraient découler de l'entrelacement du Web3 et de l'IA et aux opportunités liées à cette trajectoire à l'ère de l'IA.
L'intelligence artificielle (IA) est un domaine en plein essor qui vise à imiter, étendre et enrichir l'intelligence humaine. Depuis ses débuts dans les années 1950 et 1960, l'IA a évolué pendant plus d'un demi-siècle pour devenir une technologie essentielle au service de la transformation de la société et de divers secteurs d'activité. Tout au long de cette aventure, les progrès entrelacés de trois axes de recherche principaux, à savoir le symbolisme, le connexionnisme et le comportementalisme, ont jeté les bases des progrès rapides de l'IA aujourd'hui.
Le symbolisme, également appelé logicisme ou raisonnement basé sur des règles, part du principe qu'il est possible de reproduire l'intelligence humaine par le biais du traitement des symboles. Cette approche utilise des symboles pour représenter et manipuler des objets, des concepts et leurs relations dans un domaine problématique donné, en utilisant un raisonnement logique pour résoudre les problèmes. Le symbolisme a connu un succès remarquable, notamment en ce qui concerne les systèmes experts et la représentation des connaissances. Son principe central est qu'un comportement intelligent peut être obtenu grâce à la manipulation de symboles et à l'inférence logique, les symboles servant d'abstractions de haut niveau du monde réel.
Le connexionnisme, également connu sous le nom d'approche des réseaux neuronaux, vise à atteindre l'intelligence en reflétant la structure et les fonctionnalités du cerveau humain. Cette méthodologie construit des réseaux comprenant de nombreuses unités de traitement simples, similaires à des neurones, et ajuste la force de connexion entre ces unités, comme des synapses, pour faciliter l'apprentissage. Mettant l'accent sur l'apprentissage et la généralisation à partir des données, le connexionnisme convient parfaitement à des tâches telles que la reconnaissance des formes, la classification et le mappage continu des entrées-sorties. L'apprentissage profond, évolution du connexionnisme, a permis de réaliser des avancées dans des domaines tels que la reconnaissance d'images et de la parole, ainsi que le traitement du langage naturel.
Le comportementalisme, étroitement lié à la robotique biomimétique et à la recherche sur les systèmes intelligents autonomes, souligne que les agents intelligents peuvent apprendre grâce à des interactions avec l'environnement. Contrairement aux approches précédentes, le béhaviorisme ne se concentre pas sur la simulation de représentations internes ou de processus cognitifs, mais sur la mise en place d'un comportement adaptatif grâce au cycle perception-action. Il part du principe que l'intelligence se manifeste par une interaction environnementale dynamique et par l'apprentissage, ce qui la rend particulièrement efficace pour les robots mobiles et les systèmes de contrôle adaptatifs opérant dans des environnements complexes et imprévisibles.
Malgré leurs disparités fondamentales, ces trois axes de recherche peuvent créer des synergies et se compléter en matière de recherche et d'applications pratiques en matière d'IA, stimulant ainsi collectivement le développement du domaine.
Le domaine en plein essor du contenu généré par l'intelligence artificielle (AIGC) représente une évolution et une application du connexionnisme, qui facilite la génération de nouveaux contenus en imitant la créativité humaine. Ces modèles sont entraînés à l'aide de vastes ensembles de données et d'algorithmes d'apprentissage en profondeur pour discerner les structures, les relations et les modèles sous-jacents des données. À la demande des utilisateurs, ils produisent divers résultats, notamment des images, des vidéos, du code, de la musique, des designs, des traductions, des réponses à des questions et du texte. Actuellement, l'AIGC comprend essentiellement trois éléments : le Deep Learning (DL), le Big Data et une puissance de calcul massive.
Le Deep Learning, un sous-ensemble de l'apprentissage automatique (ML), utilise des algorithmes calqués sur les réseaux neuronaux du cerveau humain. Tout comme le cerveau humain est composé de neurones interconnectés qui traitent des informations, les réseaux neuronaux d'apprentissage profond sont composés de plusieurs couches de neurones artificiels effectuant des calculs sur un ordinateur. Ces neurones artificiels, ou nœuds, exploitent des opérations mathématiques pour traiter les données et résoudre des problèmes complexes grâce à des algorithmes d'apprentissage en profondeur.
Les réseaux de neurones se composent de couches : entrée, couche cachée et couche de sortie, avec des paramètres reliant ces couches.
· Couche d'entrée : la première couche du réseau neuronal reçoit des données d'entrée externes. Chaque neurone de cette couche correspond à une caractéristique des données d'entrée. Par exemple, lors du traitement de données d'image, les neurones individuels peuvent représenter des valeurs de pixels.
· Couches cachées : Après la couche d'entrée, les couches cachées traitent et transmettent les données via le réseau. Ces couches analysent les informations à différents niveaux, en adaptant leur comportement à mesure qu'elles reçoivent de nouvelles informations. Les réseaux d'apprentissage en profondeur peuvent comporter des centaines de couches cachées, ce qui permet une analyse des problèmes multiforme. Par exemple, lorsqu'il classe un animal inconnu à partir d'une image, le réseau peut le comparer à des animaux connus en évaluant des caractéristiques telles que la forme des oreilles, le nombre de pattes et la taille des pupilles. Les couches cachées fonctionnent de la même manière, chacune traitant des caractéristiques différentes des animaux pour faciliter une classification précise.
· Couche de sortie : La dernière couche du réseau neuronal produit la sortie du réseau. Les neurones de cette couche représentent les catégories ou valeurs de sortie potentielles. Dans les tâches de classification, chaque neurone peut correspondre à une catégorie, tandis que dans les tâches de régression, la couche de sortie peut contenir un seul neurone dont la valeur prédit le résultat.
· Paramètres : Dans les réseaux de neurones, les connexions entre les différentes couches sont représentées par des poids et des biais, qui sont optimisés pendant le processus d'entraînement pour permettre au réseau de reconnaître avec précision les modèles des données et de faire des prédictions. L'augmentation des paramètres peut améliorer la capacité de modélisation du réseau neuronal, c'est-à-dire sa capacité à apprendre et à représenter des modèles complexes dans les données. Cependant, cela augmente également la demande en puissance de calcul.
Un entraînement efficace des réseaux neuronaux nécessite généralement des données complètes, diversifiées, de haute qualité et provenant de sources multiples. Ces données constituent la pierre angulaire de la formation et de la validation des modèles d'apprentissage automatique. Grâce à l'analyse des mégadonnées, les modèles d'apprentissage automatique peuvent identifier des modèles et des relations au sein des données, facilitant ainsi les prévisions ou les classifications.
La structure multicouche complexe des réseaux de neurones, les nombreux paramètres, les exigences relatives au traitement des mégadonnées, les méthodes d'entraînement itératives (impliquant des calculs répétés de propagation vers l'avant et vers l'arrière, y compris des calculs de fonctions d'activation et de perte, des calculs de gradient et des mises à jour de poids), les besoins informatiques de haute précision, les capacités informatiques parallèles, les techniques d'optimisation et de régularisation, et les processus d'évaluation et de validation des modèles contribuent collectivement à des demandes informatiques importantes.
Sora, le dernier modèle d'IA de génération vidéo d'OpenAI, représente une avancée significative dans la capacité de l'intelligence artificielle à traiter et à comprendre diverses données visuelles. En utilisant des réseaux de compression vidéo et des techniques de patch spatio-temporel, Sora peut convertir de grandes quantités de données visuelles capturées dans le monde entier et depuis différents appareils en une représentation unifiée. Cette fonctionnalité permet de traiter et de comprendre efficacement des contenus visuels complexes. Sora utilise des modèles de diffusion conditionnés par du texte pour générer des vidéos ou des images étroitement corrélées aux instructions textuelles, faisant preuve d'une créativité et d'une adaptabilité remarquables.
Malgré les avancées de Sora en matière de génération de vidéos et de simulation d'interactions réelles, cette technologie présente certaines limites. Il s'agit notamment de la précision des simulations du monde physique, de la régularité dans la génération de longues vidéos, de la compréhension de textes complexes et de l'efficacité de l'entraînement et de la génération. Sora suit essentiellement la trajectoire technique de « transformation des mégadonnées, diffusion et émergence », facilitée par la puissance de calcul monopolistique et l'avantage de pionnier d'OpenAI, ce qui a donné naissance à une forme d'esthétique basée sur la force brute. Cependant, d'autres entreprises d'IA ont encore le potentiel de surpasser Sora grâce à l'innovation technologique.
Bien que le lien entre Sora et la blockchain reste modeste, l'influence de Sora devrait entraîner l'émergence et le développement rapide d'autres outils de génération d'IA de haute qualité dans les deux prochaines années. Ces développements devraient avoir un impact sur divers secteurs du Web3 tels que GameFi, les plateformes sociales, les plateformes créatives, Depin, etc. Par conséquent, il est essentiel d'acquérir une compréhension générale de Sora, et il est crucial de réfléchir à la manière dont l'IA s'intégrera efficacement au Web3 à l'avenir.
Comme indiqué précédemment, les composants fondamentaux essentiels à l'IA générative peuvent être résumés en trois éléments principaux : les algorithmes, les données et la puissance de calcul. À l'inverse, l'IA, en tant qu'outil universel ayant de profondes répercussions sur les méthodes de production, révolutionne le mode de fonctionnement des industries. Dans le même temps, l'impact significatif de la technologie blockchain est double : elle restructure les relations de production et permet la décentralisation. La convergence de ces deux technologies peut donc donner lieu à quatre voies potentielles :
Cette section vise à donner un aperçu du paysage actuel de la puissance informatique. Dans le domaine de l'IA, la puissance informatique revêt une importance capitale. La demande de puissance informatique dans le domaine de l'IA, particulièrement marquée depuis l'émergence de Sora, a atteint des niveaux sans précédent. Lors du Forum économique mondial de Davos, en Suisse, en 2024, le PDG d'OpenAI, Sam Altman, a souligné que la puissance informatique et l'énergie étaient actuellement les principales contraintes, laissant entrevoir leur future équivalence avec la monnaie. Par la suite, le 10 février, Sam Altman a annoncé un plan révolutionnaire via Twitter visant à lever la somme incroyable de 7 billions de dollars américains (soit 40 % du PIB de la Chine en 2023) afin de révolutionner l'industrie mondiale des semi-conducteurs, dans le but de créer un empire des semi-conducteurs. Auparavant, mes considérations concernant la puissance informatique se limitaient aux restrictions nationales et aux monopoles d'entreprises ; cependant, l'idée d'une seule entité aspirant à dominer le secteur mondial des semi-conducteurs est vraiment remarquable.
L'importance de la puissance informatique décentralisée est évidente. Les fonctionnalités de la blockchain proposent des solutions aux problèmes courants liés à la monopolisation de la puissance informatique et aux coûts exorbitants liés à l'acquisition de GPU spécialisés. Du point de vue des exigences en matière d'IA, l'utilisation de la puissance informatique peut être classée selon deux aspects : l'inférence et la formation. Les projets axés principalement sur la formation sont rares en raison de l'intégration complexe requise pour les réseaux décentralisés et de la demande matérielle importante, ce qui constitue des obstacles importants à leur mise en œuvre. À l'inverse, les tâches d'inférence sont relativement plus simples, avec des conceptions de réseaux décentralisées moins complexes et des exigences en matière de matériel et de bande passante moindres, ce qui représente une solution plus accessible.
Le paysage de la puissance informatique centralisée recèle un énorme potentiel, souvent associé au terme « billion de dollars », et reste un sujet très sensationnel à l'ère de l'IA. Cependant, si l'on observe la multitude de projets récents, nombre d'entre eux semblent être conçus à la hâte dans le but de tirer parti des tendances. Bien que ces projets défendent souvent la décentralisation, ils ont tendance à éviter les discussions sur les inefficacités des réseaux décentralisés. De plus, il existe une certaine uniformité en matière de conception, de nombreux projets adoptant des approches similaires (comme la conception L2 en un clic et le minage), ce qui peut entraîner un échec et compliquer les efforts visant à se différencier de la course traditionnelle à l'IA.
Les algorithmes d'apprentissage automatique sont conçus pour apprendre des modèles et des règles à partir de données, ce qui leur permet de faire des prédictions ou de prendre des décisions sur la base de ces modèles appris. En raison de la complexité de leur conception et de leur optimisation, les algorithmes sont intrinsèquement à forte intensité technologique, ce qui nécessite une expertise approfondie et des innovations technologiques. Ils constituent l'épine dorsale de l'entraînement des modèles d'IA, qui dictent la manière dont les données sont traitées pour obtenir des informations utiles ou prendre des décisions. Les principaux algorithmes d'IA générative, tels que les réseaux antagonistes génératifs (GAN), les autoencodeurs variationnels (VAE) et les transformateurs, sont adaptés à des domaines spécifiques tels que la peinture, la reconnaissance linguistique, la traduction ou la génération de vidéos, et jouent un rôle déterminant dans la formation de modèles d'IA spécialisés.
La pléthore d'algorithmes et de modèles dotés de points forts distincts soulève la question suivante : peuvent-ils être intégrés dans un modèle polyvalent ? Bittensor, un projet récent de premier plan, est le fer de lance des efforts dans ce sens en encourageant la collaboration entre différents modèles et algorithmes d'IA, favorisant ainsi le développement de modèles d'IA plus efficaces et plus performants. D'autres initiatives, comme Commune AI, visent à favoriser la collaboration en matière de code, bien que le partage d'algorithmes et de modèles reste un défi en raison de leur nature exclusive au sein des entreprises d'IA.
Le concept d'un écosystème collaboratif basé sur l'IA est intrigant, car il tire parti de la technologie blockchain pour atténuer les inconvénients associés à des algorithmes d'IA isolés. Cependant, sa capacité à générer la valeur correspondante n'a pas encore été déterminée. Les sociétés d'IA établies, dotées d'algorithmes et de modèles propriétaires, possèdent de solides capacités en matière de mise à jour, d'itération et d'intégration de leurs technologies. Par exemple, OpenAI est rapidement passée des premiers modèles de génération de texte à des modèles génératifs multidomaines en l'espace de deux ans. Des projets tels que Bittensor devront peut-être explorer des voies innovantes dans les domaines qu'ils ciblent pour être compétitifs.
D'un point de vue simpliste, intégrer des données privées pour alimenter l'IA et annoter des données sont des moyens qui s'harmonisent bien avec la technologie blockchain. Les principales préoccupations concernent la manière de contrecarrer les données indésirables et les activités malveillantes. De plus, le stockage des données peut être avantageux pour les projets Depin tels que FIL et AR.
D'un point de vue plus complexe, tirer parti des données de la blockchain pour l'apprentissage automatique (ML) afin d'améliorer l'accessibilité des données de la blockchain représente une autre orientation convaincante, comme l'a exploré Gizeh.
En théorie, les données de la blockchain sont accessibles à tout moment et reflètent l'état de l'ensemble de la blockchain. Cependant, pour ceux qui ne font pas partie de l'écosystème de la blockchain, accéder à ces vastes ensembles de données n'est pas simple. Le stockage d'une blockchain complète nécessite une expertise importante et des ressources matérielles spécialisées.
Pour surmonter les défis liés à l'accès aux données de la blockchain, le secteur a assisté à l'émergence de plusieurs solutions. Par exemple, les fournisseurs de RPC proposent l'accès aux nœuds via des API, tandis que les services d'indexation facilitent la récupération des données via SQL et GraphQL, jouant ainsi un rôle central dans la résolution du problème. Ces méthodes ont néanmoins leurs limites. Les services RPC ne sont pas adaptés aux cas d'utilisation à forte densité nécessitant de nombreuses requêtes de données et ne répondent souvent pas à la demande. Par ailleurs, bien que les services d'indexation proposent une approche plus structurée de la récupération des données, la complexité des protocoles Web3 rend la création de requêtes efficaces extrêmement difficile, nécessitant parfois des centaines, voire des milliers de lignes de code complexe. Cette complexité constitue un obstacle important pour les praticiens généralistes des données et ceux qui ont une compréhension limitée des subtilités du Web3. L'impact collectif de ces limites souligne la nécessité de mettre en place une méthode plus accessible et plus utilisable pour obtenir et exploiter les données de la blockchain, ce qui pourrait stimuler des applications et des innovations plus étendues dans ce domaine.
Ainsi, la fusion du ZKML (Zero-Knowledge Proof Machine Learning, qui allège la charge que représente l'apprentissage automatique sur la chaîne) et des données de haute qualité liées à la blockchain pourrait potentiellement générer des ensembles de données répondant aux défis d'accessibilité des données de la blockchain. L'IA a le potentiel de réduire de manière significative les obstacles à l'accès aux données de la blockchain. Au fil du temps, les développeurs, les chercheurs et les passionnés de machine learning pourraient avoir accès à de plus en plus de jeux de données pertinents et de haute qualité pour élaborer des solutions efficaces et innovantes.
Depuis l'explosion de ChatGPT3 en 2023, l'autonomisation des Dapps par l'IA est devenue une tendance très courante. L'IA générative largement applicable peut être intégrée via des API, simplifiant et améliorant ainsi les plateformes de données, les robots de trading, les encyclopédies blockchain et d'autres applications. Il peut également fonctionner comme un chatbot (comme Myshell) ou comme un compagnon IA (comme Sleepless AI), et même créer des PNJ dans des jeux blockchain en utilisant l'IA générative. Cependant, en raison des faibles obstacles techniques, la plupart des implémentations ne sont que de simples ajustements après l'intégration d'une API, et l'intégration aux projets eux-mêmes est souvent imparfaite, donc rarement mentionnée.
Avec l'arrivée de Sora, je pense personnellement que l'objectif principal sera de renforcer l'IA pour GameFi (y compris le métaverse) et les plateformes créatives à l'avenir. Étant donné la nature ascendante du Web3, il est peu probable que des produits puissent concurrencer directement les jeux vidéo traditionnels ou les entreprises créatives. Cependant, l'émergence de Sora est susceptible de sortir de cette impasse, peut-être en deux ou trois ans seulement. D'après la démo de Sora, l'entreprise semble capable de concurrencer les sociétés de microfiction. De plus, la culture communautaire active du Web3 peut donner naissance à une pléthore d'idées intéressantes. Lorsque la seule limite est l'imagination, les barrières entre le secteur ascendant et le secteur traditionnel descendant s'effondreront.
À mesure que les outils d'IA générative continuent de progresser, nous sommes sur le point de vivre de nouveaux « moments iPhone » transformateurs à l'avenir. Malgré le scepticisme initial quant à l'intégration de l'IA au Web3, je suis convaincue que les trajectoires actuelles sont généralement sur la bonne voie, même si trois points principaux nécessitent une attention particulière : nécessité, efficacité et compatibilité. Bien que la convergence de ces domaines reste exploratoire, cela ne devrait pas nous empêcher d'envisager son adoption généralisée lors du prochain marché haussier.
Il est crucial de faire preuve de curiosité et de réceptivité aux nouvelles idées. Les précédents historiques, tels que la transition rapide des calèches aux automobiles et l'évolution des inscriptions dans les anciens NFT, soulignent l'importance d'éviter les biais excessifs, qui se traduisent souvent par des opportunités manquées.