Huang Renxun s'entretient avec les sept auteurs de l'article Transformer : Nous sommes piégés dans le modèle original et avons besoin d'une nouvelle architecture plus puissante.

![Huang Renxun s'entretient avec les sept auteurs de l'article Transformer : Nous sommes piégés dans le modèle original et avons besoin d'une nouvelle architecture plus puissante](https://cdn-img.panewslab.com//panews/2022/3/23 /images/ 3209736c2376bc78f33a30e387cc4e77.jpeg)

Auteur : Guo Xiaojing

Source : Tencent News

En 2017, un article historique intitulé "L'attention est tout ce dont vous avez besoin" a été publié. Il introduisait pour la première fois le modèle Transformer basé sur le mécanisme d'auto-attention. Cette architecture innovante éliminait les contraintes des RNN et CNN traditionnels. Mécanisme d'attention du traitement parallèle, le problème de la dépendance à longue distance est efficacement surmonté et la vitesse de traitement des données séquentielles est considérablement améliorée. La structure d'encodeur-décodeur et le mécanisme d'attention multi-têtes de Transformer ont déclenché une tempête dans le domaine de l'intelligence artificielle. Le populaire ChatGPT est construit sur cette architecture.

Imaginez que le modèle Transformer est comme votre cerveau parlant à un ami, prêtant attention à chaque mot que l'autre personne dit simultanément et comprenant les liens entre ces mots. Il donne aux ordinateurs des capacités de compréhension du langage semblables à celles des humains. Avant cela, RNN était la méthode courante de traitement du langage, mais sa vitesse de traitement de l'information était lente, comme un lecteur de cassettes à l'ancienne qui devait être lu mot à mot. Le modèle Transformer s'apparente à un DJ efficace, capable de contrôler plusieurs pistes en même temps et de capturer rapidement les informations clés.

L'émergence du modèle Transformer a considérablement amélioré la capacité des ordinateurs à traiter le langage, rendant des tâches telles que la traduction automatique, la reconnaissance vocale et la synthèse de texte plus efficaces et plus précises. Il s'agit d'un énorme pas en avant pour l'ensemble du secteur.

Cette innovation est le résultat des efforts conjoints de huit scientifiques en IA qui travaillaient auparavant chez Google. Leur objectif initial était simple : améliorer le service de traduction automatique de Google. Ils souhaitent que les machines soient capables de comprendre et de lire pleinement des phrases entières, plutôt que de les traduire mot à mot de manière isolée. Ce concept est devenu le point de départ de l’architecture « Transformer », le mécanisme « d’auto-attention ». Sur cette base, ces huit auteurs ont utilisé leurs expertises respectives et ont publié l'article « Attention Is All You Need » en décembre 2017, décrivant en détail l'architecture de Transformer et ouvrant un nouveau chapitre de l'IA générative.

Dans le monde de l’IA générative, la loi de mise à l’échelle est un principe fondamental. En bref, à mesure que l'échelle du modèle Transformer augmente, ses performances augmentent également, mais cela signifie également que des ressources informatiques plus puissantes sont nécessaires pour prendre en charge des modèles plus grands et des réseaux plus profonds, et ceux qui fournissent des services informatiques hautes performances. NVIDIA est également devenu un acteur clé de cette vague d’IA.

Lors de la conférence GTC de cette année, Jen-Hsun Huang de Nvidia a invité les sept auteurs de Transformer (Niki Parmar était temporairement incapable d'y assister pour une raison quelconque) à participer à une table ronde de manière cérémoniale. discuter de leur travail en public.

Ils ont également fait valoir des points impressionnants au cours de la conversation :

  • Le monde a besoin de quelque chose de mieux que Transformer, et je pense que nous espérons tous ici qu'il sera remplacé par quelque chose qui nous amènera à un nouveau plateau de performances.
  • Nous n'avons pas réussi à atteindre notre objectif initial. Notre intention initiale en lançant Transformer était de simuler le processus d'évolution de Token. Il ne s’agit pas simplement d’un processus de génération linéaire, mais d’une évolution étape par étape du texte ou du code.
  • Problèmes simples comme 2+2, qui peuvent utiliser des milliards de ressources de paramètres de grands modèles. Je pense que l'informatique adaptative est l'une des prochaines choses qui doivent se produire, où nous saurons combien de ressources informatiques devraient être consacrées à un problème particulier.
  • Je pense que le modèle actuel est trop abordable et trop petit. Le prix d'environ 1 million de dollars est 100 fois moins cher que d'acheter un livre de poche.

Ce qui suit est le contenu réel :

Jensen Huang : Au cours des soixante dernières années, la technologie informatique ne semble pas avoir subi de changements fondamentaux, du moins depuis ma naissance. Les systèmes informatiques que nous utilisons actuellement, qu'il s'agisse du multitâche, de la séparation du matériel et des logiciels, de la compatibilité des logiciels, des capacités de sauvegarde des données et des compétences en programmation des ingénieurs logiciels, sont essentiellement basés sur les principes de conception d'IBM 360 - Central Processor, Bio sous-système, multitâche, matériel et logiciel, compatibilité du système logiciel, etc.

Je ne pense pas que l’informatique moderne ait fondamentalement changé depuis 1964. Cependant, dans les années 1980 et 1990, les ordinateurs ont subi une transformation majeure pour prendre la forme que nous connaissons aujourd'hui. Mais au fil du temps, le coût marginal des ordinateurs continue de diminuer, réduisant son coût de dix fois tous les dix ans, de mille fois en quinze ans et de dix mille fois en vingt ans. Dans cette révolution informatique, la réduction des coûts a été telle qu'en deux décennies, le coût des ordinateurs a été divisé par 10 000. Ce changement a apporté un pouvoir énorme à la société.

Essayez d'imaginer si tous les objets coûteux de votre vie étaient réduits à un dix millième de leur valeur d'origine. Par exemple, la voiture que vous avez achetée pour 200 000 $ il y a vingt ans ne coûte plus que 1 $. Pouvez-vous imaginer ce changement ? Cependant, la baisse des coûts informatiques ne s'est pas produite du jour au lendemain, mais a progressivement atteint un point critique, puis la tendance à la baisse des coûts s'est soudainement arrêtée et a continué à s'améliorer un peu chaque année, mais le taux de changement a stagné.

Nous avons commencé à explorer le calcul accéléré, mais utiliser le calcul accéléré n'est pas facile : il faut le concevoir petit à petit à partir de zéro. Dans le passé, nous aurions pu suivre des étapes établies pour résoudre un problème étape par étape, mais nous devons maintenant repenser ces étapes. Il s'agit d'un domaine scientifique complètement nouveau, reformulant les règles précédentes en algorithmes parallèles.

Nous le reconnaissons et pensons que si nous parvenons à accélérer ne serait-ce que 1 % du code et à économiser 99 % du temps d'exécution, certaines applications en bénéficieront. Notre objectif est de rendre possible l'impossible, ou de rendre le possible impossible, ou de rendre plus efficaces des choses qui sont déjà possibles. C'est ce qu'est l'informatique accélérée.

En regardant l’histoire de l’entreprise, nous constatons notre capacité à accélérer une variété d’applications. Au départ, nous avons réalisé une accélération significative dans le domaine du jeu, si efficace que les gens pensaient à tort que nous étions une société de jeux. Mais en réalité, notre objectif est bien plus que cela, car ce marché est immense et suffisamment vaste pour générer d’incroyables progrès technologiques. Cette situation n’est pas courante, mais nous avons trouvé un cas particulier.

Pour faire court, en 2012, AlexNet a déclenché une étincelle, qui a été la première collision entre l'intelligence artificielle et les GPU NVIDIA. Cela marque le début de notre incroyable voyage dans ce domaine. Quelques années plus tard, nous avons découvert un scénario d’application parfait qui a jeté les bases de notre situation actuelle.

Bref, ces réalisations jettent les bases du développement de l’intelligence artificielle générative. L'IA générative peut non seulement reconnaître les images, mais également convertir du texte en images et même créer un tout nouveau contenu. Nous disposons désormais de suffisamment de capacités techniques pour comprendre les pixels, les identifier et comprendre leur signification. Grâce à la signification de ceux-ci, nous pouvons créer du nouveau contenu. La capacité de l’intelligence artificielle à comprendre la signification des données constitue un énorme changement.

Nous avons des raisons de croire que c’est le début d’une nouvelle révolution industrielle. Dans cette révolution, nous créons quelque chose qui n’a jamais été fait auparavant. Par exemple, lors de la révolution industrielle précédente, l’eau était une source d’énergie, et l’eau entrait dans les appareils que nous avions créés, et les générateurs commençaient à fonctionner, l’eau entrait et l’électricité en sortait, comme par magie.

L'IA générative est un tout nouveau « logiciel » capable de créer des logiciels et qui repose sur les efforts conjoints de nombreux scientifiques. Imaginez que vous donnez à l'IA des matières premières - des données, et qu'elles entrent dans un "bâtiment" - une machine que nous appelons un GPU, et qu'elle puisse produire des résultats magiques. Cela remodèle tout et on assiste à la naissance des « usines à IA ».

Ce changement peut être qualifié de nouvelle révolution industrielle. Nous n’avons jamais vraiment connu un tel changement dans le passé, mais maintenant, il se déroule lentement devant nous. Ne manquez pas les dix prochaines années, car au cours de ces dix années, nous créerons une énorme productivité. Le pendule du temps s’est mis en marche et nos chercheurs agissent déjà.

Aujourd'hui, nous avons invité les créateurs de Tansformer à discuter de l'avenir de l'IA générative.

ils sont:

Ashish Vaswani : A rejoint l'équipe Google Brain en 2016. En avril 2022, il cofonde Adept AI avec Niki Parmar, quitte l'entreprise en décembre de la même année et cofonde une autre startup d'intelligence artificielle, Essential AI.

Niki Parmar : a travaillé chez Google Brain pendant quatre ans avant de cofonder Adept AI et Essential AI avec Ashish Vaswani.

Jakob Uszkoreit : A travaillé chez Google de 2008 à 2021. Il a quitté Google en 2021 et a cofondé Inceptive. L'activité principale de l'entreprise est l'intelligence artificielle et les sciences de la vie et s'engage à utiliser des réseaux neuronaux et des expériences à haut débit pour concevoir la prochaine génération de molécules d'ARN.

Illia Polosukhin : Il a rejoint Google en 2014 et a été l'un des premiers à quitter l'équipe de huit personnes. En 2017, il a cofondé la société blockchain NEAR Protocol.

Noam Shazeer : a travaillé chez Google de 2000 à 2009 et de 2012 à 2021. En 2021, Shazeer a quitté Google et a cofondé Character.AI avec l'ancien ingénieur de Google Daniel De Freitas.

**Llion Jones : **A travaillé chez Delcam et YouTube. A rejoint Google en 2012 en tant qu'ingénieur logiciel. Plus tard, il quitte Google et fonde la start-up d’intelligence artificielle sakana.ai.

Lukasz Kaiser : Ancien chercheur au Centre national de la recherche scientifique. A rejoint Google en 2013. En 2021, il quitte Google et devient chercheur chez OpenAI.

Aidan Gomez : est diplômé de l'Université de Toronto au Canada. Lorsque l'article sur Transformer a été publié, il était encore stagiaire dans l'équipe Google Brain. Il est la deuxième personne sur une équipe de huit personnes à quitter Google. En 2019, il co-fonde Cohere.

![Huang Renxun s'entretient avec les sept auteurs de l'article Transformer : Nous sommes piégés dans le modèle original et avons besoin d'une nouvelle architecture plus puissante](https://cdn-img.panewslab.com//panews/2022/3/23 /images/ e2cb0168e261ffba0c0ea67a5502acf8.png)

Renxun Huang : Alors que je suis assis ici aujourd'hui, efforcez-vous activement d'avoir l'opportunité de parler. Il n'y a aucun sujet qui ne puisse être discuté ici. Vous pouvez même sauter de votre chaise pour discuter de problèmes. Commençons par la question la plus fondamentale : quels problèmes avez-vous rencontrés à cette époque et qu'est-ce qui vous a inspiré à devenir Transformer ?

Illia Polosukhin : Si vous souhaitez proposer des modèles capables de réellement lire les résultats de recherche, par exemple traiter des piles de documents, vous avez besoin de modèles capables de traiter ces informations rapidement. Le réseau neuronal récurrent (RNN) de l’époque ne pouvait pas répondre à de tels besoins.

En effet, même si les réseaux de neurones récurrents (RNN) et certains mécanismes d’attention préliminaire (Arnens) retenaient à cette époque l’attention, ils nécessitaient encore une lecture mot à mot, ce qui n’était pas efficace.

Jakob Uszkoreit : La vitesse à laquelle nous générons des données de formation dépasse de loin notre capacité à former des architectures de pointe. En fait, nous utilisons des architectures plus simples, telles que des réseaux à action directe avec des n-grammes comme fonctionnalités d'entrée. Ces architectures surpassent souvent les modèles plus complexes et avancés, car elles s'entraînent plus rapidement, du moins sur de grandes quantités de données d'entraînement à l'échelle de Google.

À cette époque, des RNN puissants, notamment des réseaux de mémoire à long terme (LSTM), existaient déjà.

Noam Shazeer : Il semble que ce soit une question brûlante. Nous avons commencé à remarquer ces lois d’échelle vers 2015, et vous pouvez constater qu’à mesure que la taille du modèle augmente, son intelligence augmente. C'est comme le meilleur problème de l'histoire du monde, c'est très simple : vous prédisez simplement le prochain jeton, et il sera si intelligent et capable de faire un million de choses différentes, et vous voulez juste l'étendre et fais le mieux.

Une énorme frustration est que RNN est trop difficile à gérer. Et puis j'ai entendu ces gars parler, hé, remplaçons cela par une convolution ou un mécanisme d'attention. J'ai pensé, super, faisons ça. J'aime comparer le Transformer au passage des moteurs à vapeur aux moteurs à combustion interne. Nous aurions pu achever la révolution industrielle avec des moteurs à vapeur, mais cela aurait été douloureux, et le moteur à combustion interne a tout amélioré.

Ashish Vaswani : J'ai commencé à apprendre des leçons difficiles au cours de mes années d'études supérieures, en particulier lorsque je travaillais sur la traduction automatique. J'ai réalisé, hé, je ne vais pas apprendre ces règles compliquées du langage. Je pense que Gradient Descent - la façon dont nous formons ces modèles - est un meilleur professeur que moi. Donc je ne vais pas apprendre les règles, je vais juste laisser Gradient Descent faire tout le travail à ma place, et c'est ma deuxième leçon.

Ce que j’ai appris à mes dépens, c’est que les architectures générales évolutives finiront par l’emporter à long terme. Aujourd’hui, il s’agira peut-être de jetons, demain d’actions que nous entreprendrons sur des ordinateurs, et ils commenceront à imiter nos activités et seront capables d’automatiser une grande partie du travail que nous effectuons. Comme nous en avons discuté, Transformer, en particulier son mécanisme d'auto-attention, a une applicabilité très large et améliore également la descente de gradient. L’autre chose est la physique, car une chose que j’ai apprise de Noam, c’est que la multiplication matricielle est une bonne idée.

Noam Shazeer : Ce schéma ne cesse de se répéter. Ainsi, chaque fois que vous ajoutez un tas de règles, la descente de gradient finit par être meilleure que vous pour apprendre ces règles. C'est ça. Tout comme l’apprentissage profond que nous avons réalisé, nous construisons un modèle d’IA en forme de GPU. Et maintenant, nous construisons un modèle d’IA en forme de superordinateur. Oui, les supercalculateurs sont désormais le modèle. Oui c'est vrai. Oui. Supercalculateur Juste pour que vous le sachiez, nous construisons un supercalculateur ayant la forme du modèle.

** Jen-Hsun Huang : Alors, quel problème essayez-vous de résoudre ? **

Lukasz Kaiser : Traduction automatique. Il y a cinq ans, ce processus semblait très difficile : il fallait collecter des données, peut-être les traduire, et le résultat n'était peut-être que marginalement correct. Le niveau à cette époque était encore très basique. Mais désormais, ces modèles peuvent apprendre à traduire même sans données. Vous fournissez simplement une langue et une autre langue, et le modèle apprend à traduire tout seul, et cette capacité vient naturellement et de manière satisfaisante.

Llion Jones : Mais l'intuition de « Attention » est tout ce dont vous avez besoin. J’ai donc trouvé ce titre, et en gros, ce qui s’est passé, c’est lorsque nous cherchions un titre.

Nous faisions juste une ablation et avons commencé à jeter des morceaux du modèle juste pour voir si cela allait empirer. À notre grande surprise, la situation a commencé à s'améliorer. Il est bien préférable d'inclure le rejet de toutes les circonvolutions comme celle-ci. C'est donc de là que vient le titre.

Ashish Vaswani : Fondamentalement, ce qui est intéressant, c'est que nous avons commencé avec un cadre très basique, puis nous avons ajouté des éléments, nous avons ajouté des circonvolutions, puis je suppose que nous les avons supprimés. Il y a aussi beaucoup d’autres choses très importantes comme l’attention multi-têtes.

** Jensen Huang : Qui a trouvé le nom de Transformer ? Pourquoi s'appelle-t-il Transformateur ? **

Jakob Uszkoreit : Nous aimons ce nom. Nous l'avons choisi au hasard et avons pensé qu'il était très créatif. Il a changé notre modèle de production de données et a utilisé une telle logique. Tout apprentissage automatique est un transformateur et un perturbateur.

Noam Shazeer : Nous n'avons pas pensé à ce nom auparavant, je pense que ce nom est très simple, et beaucoup de gens pensent que ce nom est très bon. J'ai déjà pensé à de nombreux noms, comme Yaakov, et j'ai finalement opté pour "Transformer", qui décrit le principe du modèle. Il transforme en fait l'ensemble du signal. Selon cette logique, presque tout l'apprentissage automatique sera transformé.

Llion Jones : La raison pour laquelle Transformer est devenu un nom si familier n'est pas seulement due au contenu de la traduction, mais aussi parce que nous voulions décrire cette transformation d'une manière plus générale. Je ne pense pas que nous ayons fait un excellent travail, mais en tant qu'acteur du changement, en tant que moteur et moteur, cela avait du sens. Tout le monde peut comprendre un modèle de langage, un moteur et une logique aussi vastes. D'un point de vue architectural, il s'agit d'une période de démarrage relativement précoce.

Mais nous avons réalisé que nous essayions en réalité de créer quelque chose de très, très polyvalent, capable de transformer n'importe quoi en n'importe quoi d'autre. Et je ne pense pas que nous ayons prédit à quel point cela serait efficace lorsque les Transformers seraient utilisés pour les images, ce qui est un peu surprenant. Cela peut vous sembler logique, mais en réalité, vous pouvez découper l'image et étiqueter chaque petit point, n'est-ce pas. Je pense que c’est quelque chose qui existait très tôt dans l’architecture.

Ainsi, lorsque nous avons créé des bibliothèques tenseur à tenseur, nous nous sommes vraiment concentrés sur l'amélioration de l'entraînement autorégressif. Il ne s’agit pas seulement de langage, mais aussi d’images et de composants audio.

Alors Lukasz a dit que ce qu'il faisait, c'était traduire. Je pense qu'il s'est sous-estimé, et toutes ces idées, nous commençons maintenant à voir ces modèles se rassembler, ils s'ajoutent tous au modèle.

Mais en réalité, tout était là dès le début et les idées germent et cela prend du temps. L'objectif de Lukasz est que nous ayons tous ces ensembles de données académiques qui vont de l'image au texte, du texte à l'image, de l'audio au texte, du texte au texte. Nous devrions nous entraîner pour tout.

Cette idée a vraiment motivé le travail d'extension, et cela a finalement fonctionné, et c'était si intéressant que nous pouvions traduire des images en texte, du texte en images et du texte en texte.

Vous l'utilisez pour étudier la biologie, ou un logiciel biologique, qui peut être similaire à un logiciel informatique dans le sens où il démarre comme un programme, puis vous le compilez en quelque chose qui peut fonctionner sur un GPU.

La vie d'un logiciel biologique commence par la spécification de certains comportements. Disons que vous souhaitez imprimer une protéine, comme une protéine spécifique dans une cellule. Et puis vous avez appris à utiliser l’apprentissage profond pour convertir cela en une molécule d’ARN, mais vous présentez réellement ces comportements une fois qu’il pénètre dans vos cellules. L’idée n’est donc pas seulement de traduire vers l’anglais.

**Jensen Huang : Avez-vous créé un grand laboratoire pour produire tout cela ? **

Aidan Gomez : De nombreuses données sont disponibles et restent accessibles au public car ces données sont souvent encore largement financées par des fonds publics. Mais en réalité, vous avez toujours besoin de données pour illustrer clairement le phénomène que vous essayez d’obtenir.

Essayer de modéliser un produit donné, disons l'expression des protéines et les vaccins à ARNm et des choses comme ça, ou oui, à Palo Alto, nous avons un groupe de robots et de personnes en blouse de laboratoire, tous deux apprenant du personnel de recherche, y compris d'anciens biologistes.

Aujourd’hui, nous nous considérons comme les pionniers de quelque chose de nouveau, en travaillant à créer ces données et à valider les modèles qui conçoivent ces molécules. Mais l’idée de départ était de traduire.

** Jen-Hsun Huang : L'idée originale était la traduction automatique. Ce que je veux demander, c'est : quels sont les nœuds clés observés dans le renforcement et la percée de l'architecture ? Et quel impact ont-ils sur la conception de Transformer ? **

Aidan Gomez : Au fil du temps, vous l'avez tous vu. Pensez-vous qu'il y a vraiment une grande contribution supplémentaire en plus de la conception de base de Transformer ? Je pense qu'en ce qui concerne l'inférence, beaucoup de travail a été fait pour accélérer ces modèles et les rendre plus efficaces.

Je pense toujours que cela me dérange un peu en raison de la similitude de nos formes originales. Je pense que le monde a besoin de quelque chose de mieux que Transformer, et je pense que nous voulons tous ici qu'il soit remplacé par quelque chose qui nous amène à un nouveau plateau de performance.

Je veux poser une question à tout le monde ici. Que penses tu qu'il va advenir par la suite? C'est comme si c'était une étape passionnante parce que je pense que c'est tellement similaire à ce qui existait il y a 6 ou 7 ans, n'est-ce pas ?

Llion Jones : Ouais, je pense que les gens seraient surpris de voir à quel point vous dites que c'est similaire, n'est-ce pas ? Les gens aiment me demander ce qui se passera ensuite parce que je suis l'auteur de cet article. Comme par magie, vous agitez la baguette magique et que se passe-t-il ensuite ? Ce que je veux souligner, c'est comment ce principe spécifique a été conçu. Non seulement nous devons être meilleurs, mais nous devons être manifestement meilleurs.

Parce que si c’est juste un peu mieux, cela ne suffit pas pour pousser l’ensemble du secteur de l’IA vers quelque chose de nouveau. Nous sommes donc coincés avec le modèle original, même si techniquement, ce n'est probablement pas la chose la plus puissante dont nous disposons actuellement.

Mais tout le monde sait quel type d’outils personnels il souhaite, vous voulez de meilleures fenêtres contextuelles, vous voulez la possibilité de générer des jetons plus rapidement. Eh bien, je ne sais pas si vous aimez cette réponse, mais ils utilisent actuellement trop de ressources informatiques. Je pense que les gens font beaucoup de calculs inutiles. Nous travaillons dur pour améliorer l'efficacité, merci.

** Jensen Huang : Je pense que nous rendons cela plus efficace, merci ! **

Jakob Uszkoreit : Mais je pense qu'il s'agit principalement de la manière dont les ressources sont distribuées, plutôt que du nombre total de ressources consommées. Par exemple, nous ne voulons pas dépenser trop d’argent pour un problème facile, ni trop peu pour un problème trop difficile et finir par ne pas trouver de solution.

Iliya Polosukhin : Cet exemple est comme 2+2, si vous l'introduisez correctement dans ce modèle, il utilise un billion de paramètres. Je pense donc que l'informatique adaptative est l'une des choses qui doivent venir ensuite, où nous savons combien de ressources informatiques doivent être consacrées à un problème particulier.

Aidan Gomez : Nous connaissons les capacités de génération d'ordinateurs dont nous disposons actuellement. Je pense que c'est la question sur laquelle nous devons nous concentrer ensuite. Je pense qu'il s'agit d'un changement au niveau cosmique et que c'est aussi la tendance de développement future.

Lukasz Kaiser : Ce concept existait avant Transformer, et il a été intégré dans le modèle Transformer. En fait, je ne suis pas sûr que tout le monde ici sache que nous n'avons pas atteint notre objectif initial. Notre intention initiale en démarrant ce projet était de simuler le processus d'évolution de Token. Il ne s’agit pas simplement d’un processus de génération linéaire, mais d’une évolution étape par étape du texte ou du code. Nous itérons, nous éditons, ce qui nous permet non seulement d'imiter la façon dont les humains élaborent des textes, mais également de les utiliser dans le cadre de ce processus. Parce que si vous pouviez générer du contenu aussi naturellement que les humains, ils seraient réellement capables de fournir des commentaires, n'est-ce pas ?

Nous avions tous lu l'article de Shannon et notre idée initiale était de nous concentrer uniquement sur la modélisation du langage et la perplexité, mais cela ne s'est pas produit. Je pense que c'est également là que nous pouvons nous développer davantage. Il s'agit également de la façon dont nous organisons désormais intelligemment les ressources informatiques, et cette organisation s'applique désormais également au traitement des images. Je veux dire, les modèles de diffusion ont la propriété intéressante de pouvoir continuellement affiner et améliorer leur qualité par itération. Et nous n’avons actuellement pas de telles capacités.

Je veux dire, cette question fondamentale : quelles connaissances doivent être intégrées au modèle et quelles connaissances doivent être en dehors du modèle ? Utilisez-vous un modèle de récupération ? Le modèle RAG (Retri-Augmented Generation) en est un exemple. Cela implique également la question de l'inférence, c'est-à-dire quelles tâches d'inférence doivent être effectuées en externe via des systèmes symboliques et quelles tâches d'inférence doivent être effectuées directement au sein du modèle. Il s’agit essentiellement d’une discussion sur l’efficacité. Je crois que les grands modèles finiront par apprendre à faire des calculs comme 2+2, mais si vous voulez calculer 2+2 et le faire en additionnant des nombres, c'est évidemment inefficace.

** Jen-Hsun Huang : Si l'IA n'a besoin que de calculer 2+2, alors elle doit utiliser la calculatrice directement pour accomplir cette tâche avec le moins d'énergie, car nous savons que la calculatrice est l'outil le plus efficace pour faire 2+2 calculs. Cependant, si quelqu’un demande à l’IA, comment êtes-vous arrivé à la décision 2+2 ? Saviez-vous que 2+2 est la bonne réponse ? Est-ce que cela consommera beaucoup de ressources ? **

![Huang Renxun s'entretient avec les sept auteurs de l'article Transformer : Nous sommes piégés dans le modèle original et avons besoin d'une nouvelle architecture plus puissante](https://cdn-img.panewslab.com//panews/2022/3/23 /images/943398d349cf0e17db81b1469281b267.png)

Noam Shazeer : Exactement. Vous avez déjà mentionné un exemple, mais je suis également convaincu que les systèmes d'intelligence artificielle que tout le monde développe ici sont suffisamment intelligents pour utiliser activement des calculatrices.

C’est précisément ce que font actuellement les biens publics mondiaux (BPP). Je pense que le modèle actuel est trop abordable et trop petit. La raison pour laquelle il est bon marché est due à une technologie comme NV, grâce à sa production.

Le coût de calcul par opération est d'environ 10 à 18 dollars. En d’autres termes, à peu près de cet ordre de grandeur. Merci d'avoir créé autant de ressources informatiques. Mais si vous regardez un modèle avec 500 milliards de paramètres et un billion de calculs par jeton, cela représente environ un dollar par million de jetons, ce qui est 100 fois moins cher que d'acheter un livre de poche et de le lire. Notre application est au moins un million de fois plus précieuse qu’un calcul efficace sur des réseaux de neurones géants. Je veux dire, ils ont certainement plus de valeur que quelque chose comme guérir le cancer, mais c'est bien plus que cela.

Ashish Vaswani : Je pense que rendre le monde plus intelligent signifie comment obtenir des commentaires du monde et si nous pouvons parvenir à une parallélisation multitâche et multiligne. Si vous voulez vraiment construire un tel modèle, c'est un excellent moyen de nous aider à concevoir un tel modèle.

** Jensen Huang : Pouvez-vous nous expliquer rapidement pourquoi vous avez créé votre entreprise ? **

Ashish Vaswani : Dans notre entreprise, notre objectif est de créer des modèles et de résoudre de nouvelles tâches. Notre travail consiste à comprendre les objectifs et le contenu de la mission et à adapter ce contenu pour répondre aux besoins du client. En fait, à partir de 2021, je trouve que le plus gros problème avec les modèles est qu'on ne peut pas seulement rendre les modèles plus intelligents, il faut aussi trouver les bonnes personnes pour interpréter ces modèles. Nous espérons lier le monde et le modèle, rendant le modèle plus grand et plus remarquable. Il y a un certain nombre de progrès requis dans le processus d’apprentissage qui ne peuvent pas être accomplis initialement dans l’environnement vide d’un laboratoire.

Noam Shazeer : En 2021, nous avons co-fondé cette société. Nous disposons d’une technologie formidable, mais elle n’atteint pas beaucoup de monde. Imaginez si j'étais un patient qui vous entendait dire cela, je penserais qu'il y a des dizaines de milliards de personnes avec différentes tâches à accomplir. C’est à cela que sert l’apprentissage profond : nous améliorons la technologie par la comparaison. En fait, grâce au développement continu de la technologie, dirigé par Jensen Huang, notre objectif ultime est d'aider les gens du monde entier. Il faut tester, et il faut maintenant développer des solutions plus rapides qui permettent à des centaines de personnes d'utiliser ces applications. Au début, tout le monde n’utilisait pas ces applications, beaucoup de gens les utilisaient juste pour s’amuser, mais elles ont fonctionné, elles ont fonctionné.

Jakob Uszkoreit : Merci. Je veux parler du système logiciel écologique que nous avons créé. En 2021, j'ai co-fondé cette entreprise, et notre objectif est de résoudre certains problèmes avec un réel impact scientifique. Dans le passé, nous avions affaire à des contenus assez complexes. Mais quand j’ai eu mon premier enfant, ma façon de voir le monde a changé. Nous espérons rendre la vie humaine plus pratique et contribuer à la recherche sur les protéines. Surtout après avoir eu des enfants, j'espère changer la structure médicale existante et j'espère que le développement de la science et de la technologie pourra avoir un impact positif sur la survie et le développement humains. Par exemple, la structure et la déconstruction des protéines ont été affectées dans une certaine mesure, mais nous manquons actuellement de données. Nous devons fonder nos efforts sur les données, non seulement par devoir mais aussi en tant que père.

** Jen-Hsun Huang : J'aime votre point de vue. Je suis toujours intéressée par la conception de nouveaux médicaments et par le processus consistant à laisser les ordinateurs apprendre à développer et à générer de nouveaux médicaments. Si de nouveaux médicaments pouvaient être appris et conçus, et qu’un laboratoire pouvait les tester, il serait possible de déterminer si un tel modèle fonctionnerait. **

Llion JonesLlion Jones : Ouais, je suis le dernier à partager. La société que nous avons cofondée s'appelle Sakana AI, ce qui signifie « poisson ». La raison pour laquelle nous avons nommé notre entreprise d'après le « poisson » japonais est que nous sommes comme un banc de poissons, ce qui nous incite naturellement à trouver l'intelligence. Si nous pouvons combiner plusieurs des éléments examinés, nous pouvons créer quelque chose de complexe et de beau. Beaucoup ne comprennent peut-être pas les spécificités du processus et du contenu, mais notre philosophie fondamentale en interne est « Apprendre toujours gagnant ».

Que vous souhaitiez résoudre un problème ou apprendre quelque chose, apprendre vous aidera toujours à gagner. Dans le processus d’IA générative, l’apprentissage du contenu nous aidera également à gagner. En tant que chercheur présent, je voudrais rappeler à tous que nous donnons un vrai sens aux modèles informatiques d’IA, afin qu’ils puissent réellement nous aider à comprendre les mystères de l’univers. En fait, je voulais aussi vous dire que nous sommes sur le point d’annoncer un nouveau développement qui nous passionne beaucoup. Même si nous disposons désormais d’un corpus de recherche comme élément de base, nous vivons un développement transformateur où la gestion actuelle des modèles est organisée et permet aux gens de véritablement s’engager. Nous rendons ces modèles plus réalisables, en utilisant ces grands modèles et modèles transformateurs pour changer la façon dont les gens comprennent le monde et l'univers. c'est notre objectif.

Aidan Gomez : Mon intention initiale de créer l'entreprise était similaire à celle de Noam Shazeer. Je pense que l'informatique entre dans un nouveau paradigme qui modifie les produits existants et notre façon de travailler. Tout est basé sur ordinateur et cela change dans une certaine mesure en fonction de la technologie. Quel est notre rôle ? En fait, je comble le fossé, je comble le gouffre. On peut voir différentes entreprises créer de telles plateformes, permettant à chaque entreprise d'adapter et d'intégrer des produits, ce qui est une manière de se confronter directement aux utilisateurs. C’est ainsi que nous faisons progresser la technologie et la rendons plus abordable et plus omniprésente.

** Jensen Huang : Ce que j'apprécie particulièrement, c'est que lorsque Noam Shazeer semble particulièrement calme, vous avez l'air très excité. Les différences dans vos personnalités sont si frappantes. Je donne maintenant la parole à Lukasz Kaiser. **

Lukasz Kaiser : Mon expérience chez OpenAI a été très perturbatrice. C'est très amusant dans l'entreprise et nous traitons beaucoup de données pour faire des calculs, mais en fin de compte, mon rôle reste celui d'un data cruncher.

Illiya Polosukhin : J'ai été la première à partir. Je crois fermement que nous ferons des progrès significatifs et que les logiciels changeront le monde entier. Le moyen le plus direct consiste à apprendre aux machines à écrire du code et à rendre la programmation accessible à tous.

Chez NEAR, même si nos progrès sont limités, nous nous engageons à intégrer la sagesse humaine et à obtenir des données pertinentes, par exemple en incitant davantage les gens à réaliser que nous avons besoin d'une méthodologie de base. Ce modèle est un développement fondamental. Ce grand modèle est largement utilisé dans le monde entier. Il a de nombreuses applications dans l'aérospatiale et dans d'autres domaines. Il est lié à la communication et à l'interaction dans divers domaines et nous fournit réellement des capacités. Avec l'approfondissement de l'utilisation, nous avons constaté que cela apportait plus de modèles, et il n'y a actuellement pas beaucoup de litiges concernant le droit d'auteur.

Nous sommes maintenant dans une nouvelle ère générative, une ère qui célèbre l’innovation et les innovateurs, et nous voulons participer activement et accepter le changement. Nous avons donc cherché différentes façons d’aider à construire un modèle vraiment cool.

** Jensen Huang : Ce système de rétroaction positive est très bénéfique pour notre économie dans son ensemble. Nous sommes désormais mieux à même de concevoir notre économie. Quelqu'un a demandé : à l'heure où les modèles GPT entraînent des milliards de bases de données à l'échelle des jetons, quelle est la prochaine étape ? Quelle sera la nouvelle technologie de modélisation ? Que veux-tu explorer ? Quelle est votre source de données ? **

Illia Polosukhin : Notre point de départ, ce sont les vecteurs et les déplacements. Nous avons besoin de modèles qui ont une réelle valeur économique, que les gens peuvent évaluer et, finalement, mettre en pratique vos techniques et vos outils pour améliorer l'ensemble du modèle.

** Jen-Hsun Huang : Comment entraînez-vous le modèle par domaine ? Quels ont été les interactions initiales et les modèles d’interaction ? Est-ce une communication et une interaction entre les modèles ? Ou existe-t-il des modèles et des techniques génératifs ? **

Illia Polosukhin : Dans notre équipe, chacun a sa propre expertise technique.

Jakob Uszkoreit : La prochaine étape est le raisonnement. Nous reconnaissons tous l’importance du raisonnement, mais une grande partie du travail est encore effectuée manuellement par des ingénieurs. Nous leur apprenons en fait à répondre sous un format interactif de questions et réponses, et nous voulons qu'ils comprennent pourquoi ensemble et qu'ils fournissent ensemble un modèle de raisonnement solide. Nous espérons que le modèle pourra générer le contenu que nous souhaitons, et cette méthode de génération est ce que nous poursuivons. Qu'il s'agisse d'informations vidéo, textuelles ou 3D, elles doivent toutes être intégrées.

Lukasz Kaiser : Je pense que les gens comprennent que l'inférence vient réellement des données ? Si nous commençons à raisonner, nous disposons d’un ensemble de données et nous réfléchissons à la raison pour laquelle ces données sont différentes ? Nous apprendrons ensuite que diverses applications reposent en réalité sur le processus de raisonnement sur les données. Grâce à la puissance des ordinateurs, grâce à des systèmes comme celui-ci, nous pouvons commencer à nous développer davantage à partir de là. Nous pouvons raisonner sur un contenu pertinent et mener des expériences.

Souvent, ceux-ci sont dérivés de données. Je pense que l'inférence évolue très rapidement, que les modèles de données sont très importants et qu'il y aura davantage de contenu interactif dans un avenir proche. Nous n'avons pas encore fait suffisamment de formation, ce n'est pas le contenu et l'élément clé, nous devons étoffer les données.

Noam Shazeer : La conception de certaines données, comme la conception d'une machine à enseigner, peut impliquer des centaines, voire des centaines de millions de jetons différents.

Ashish Vaswani : Ce que je veux souligner, c'est que dans ce domaine, nous avons de nombreux partenaires qui ont franchi certaines étapes. Quel est le meilleur algorithme automatisé ? En fait, il s’agit de décomposer les tâches du monde réel en différents contenus. Notre modèle est également très important, il nous aide à obtenir les données et à voir si les données sont au bon endroit. D'une part, cela nous aide à nous concentrer sur les données ; d'autre part, ces données nous fournissent des modèles de haute qualité pour accomplir des tâches abstraites. Par conséquent, nous pensons que mesurer ces progrès est également une voie de créativité, une voie de développement scientifique et une voie de développement de notre automatisation.

** Jen-Hsun Huang : Vous ne pouvez pas réaliser de grands projets sans un bon système de mesure. Avez-vous des questions les uns pour les autres ? **

Illia Polosukhin : Personne ne veut vraiment savoir quelles mesures ils ont prises. Mais en fait, nous espérons comprendre et explorer ce que nous faisons, obtenir suffisamment de données et d’informations et tirer des conclusions raisonnables. Par exemple, si vous avez six étapes, mais que vous pouvez en sauter une en raisonnant sur cinq étapes. Parfois, vous n’avez pas besoin de six étapes, et parfois vous avez besoin de plus d’étapes, alors comment reproduire un scénario comme celui-ci ? De quoi avez-vous besoin pour vous éloigner de Token ?

Lukasz Kaiser : Ma conviction personnelle est que la reproduction d'un modèle aussi grand est un processus très compliqué. Les systèmes évolueront, mais il faut essentiellement concevoir une méthode. Les êtres humains sont des créatures douées pour la récurrence. Tout au long de l'histoire de l'humanité, nous avons reproduit à plusieurs reprises des scènes réussies.

** Jen-Hsun Huang : Je suis très heureuse de communiquer avec vous et j'espère que vous aurez l'occasion de communiquer les uns avec les autres et de produire une magie indescriptible. Merci d'avoir participé à cette rencontre, merci beaucoup ! **

Voir l'original
  • Récompense
  • Commentaire
  • Partager
Commentaire
Aucun commentaire