Huang Renxun spricht mit den sieben Autoren des Transformer-Papiers: Wir sind im ursprünglichen Modell gefangen und brauchen eine leistungsfähigere neue Architektur

![Huang Renxun spricht mit den sieben Autoren des Transformer-Papiers: Wir sind im ursprünglichen Modell gefangen und brauchen eine leistungsfähigere neue Architektur](https://cdn-img.panewslab.com//panews/2022/3/23 /images/ 3209736c2376bc78f33a30e387cc4e77.jpeg)

Autor: Guo Xiaojing

Quelle: Tencent News

Im Jahr 2017 wurde ein wegweisendes Papier mit dem Titel „Aufmerksamkeit ist alles, was Sie brauchen“ veröffentlicht. Darin wurde erstmals das auf dem Selbstaufmerksamkeitsmechanismus basierende Transformer-Modell vorgestellt. Diese innovative Architektur beseitigte die Einschränkungen des traditionellen RNN und CNN. Durch die Durch den Aufmerksamkeitsmechanismus der Parallelverarbeitung wird das Problem der Fernabhängigkeit effektiv überwunden und die Geschwindigkeit der Sequenzdatenverarbeitung erheblich verbessert. Die Encoder-Decoder-Struktur und der Multi-Head-Aufmerksamkeitsmechanismus von Transformer lösten einen Sturm im Bereich der künstlichen Intelligenz aus. Das beliebte ChatGPT basiert auf dieser Architektur.

Stellen Sie sich vor, dass das Transformer-Modell so ist, als ob Ihr Gehirn mit einem Freund spricht, auf jedes Wort achtet, das die andere Person gleichzeitig sagt, und die Zusammenhänge zwischen diesen Wörtern versteht. Es verleiht Computern menschenähnliche Sprachverständnisfähigkeiten. Zuvor war RNN die gängige Methode zur Sprachverarbeitung, aber seine Informationsverarbeitungsgeschwindigkeit war langsam, wie bei einem altmodischen Kassettenrekorder, der Wort für Wort abgespielt werden musste. Das Transformer-Modell ist wie ein effizienter DJ, der mehrere Tracks gleichzeitig steuern und wichtige Informationen schnell erfassen kann.

Das Aufkommen des Transformer-Modells hat die Fähigkeit von Computern, Sprache zu verarbeiten, erheblich verbessert und Aufgaben wie maschinelle Übersetzung, Spracherkennung und Textzusammenfassung effizienter und genauer gemacht. Dies ist ein großer Sprung für die gesamte Branche.

Diese Innovation ist das Ergebnis der gemeinsamen Bemühungen von acht KI-Wissenschaftlern, die zuvor bei Google gearbeitet haben. Ihr ursprüngliches Ziel war einfach: den maschinellen Übersetzungsdienst von Google zu verbessern. Sie möchten, dass Maschinen in der Lage sind, ganze Sätze vollständig zu verstehen und zu lesen, anstatt sie isoliert Wort für Wort zu übersetzen. Dieses Konzept wurde zum Ausgangspunkt der „Transformer“-Architektur – dem „Selbstaufmerksamkeits“-Mechanismus. Auf dieser Grundlage nutzten diese acht Autoren ihre jeweilige Expertise und veröffentlichten im Dezember 2017 das Papier „Attention Is All You Need“, in dem sie die Transformer-Architektur detailliert beschreiben und ein neues Kapitel in der generativen KI aufschlagen.

In der Welt der generativen KI ist das Skalierungsgesetz ein Kernprinzip. Kurz gesagt, mit zunehmender Größe des Transformer-Modells steigt auch seine Leistung, aber das bedeutet auch, dass leistungsfähigere Rechenressourcen erforderlich sind, um größere Modelle und tiefere Netzwerke zu unterstützen, und Hochleistungs-Rechendienste erforderlich sind. NVIDIA ist auch zu einem geworden Schlüsselakteur in dieser KI-Welle.

Auf der diesjährigen GTC-Konferenz lud Jen-Hsun Huang von Nvidia die sieben Autoren von Transformer (Niki Parmar konnte aus irgendeinem Grund vorübergehend nicht teilnehmen) zu einer feierlichen Diskussionsrunde ein. Dies war das erste Mal für die sieben Autoren Diskutieren Sie ihre Arbeit öffentlich. Gruppenauftritt.

Sie brachten während des Gesprächs auch einige beeindruckende Punkte vor:

  • Die Welt braucht etwas Besseres als Transformer, und ich denke, wir alle hier hoffen, dass es durch etwas ersetzt wird, das uns auf ein neues Leistungsplateau bringt.
  • Unser ursprüngliches Ziel ist uns nicht gelungen. Unsere ursprüngliche Absicht, Transformer zu starten, bestand darin, den Evolutionsprozess von Token zu simulieren. Es handelt sich nicht nur um einen linearen Generierungsprozess, sondern um eine schrittweise Weiterentwicklung von Text oder Code.
  • Einfache Probleme wie 2+2, die Billionen von Parameterressourcen großer Modelle beanspruchen können. Ich denke, adaptives Computing ist eines der nächsten Dinge, die passieren müssen, wobei wir wissen, wie viel Rechenressourcen für ein bestimmtes Problem aufgewendet werden sollten.
  • Ich denke, das aktuelle Modell ist zu erschwinglich und zu klein. Der Preis von etwa 1 Million US-Dollar ist 100-mal günstiger als der Kauf eines Taschenbuchs.

Das Folgende ist der tatsächliche Inhalt:

Jensen Huang: In den letzten sechzig Jahren scheint sich die Computertechnologie nicht grundlegend verändert zu haben, zumindest nicht seit meiner Geburt. Die Computersysteme, die wir derzeit verwenden, ob Multitasking, Trennung von Hardware und Software, Softwarekompatibilität, Datensicherungsfunktionen und die Programmierkenntnisse von Softwareentwicklern, basieren im Wesentlichen auf den Designprinzipien von IBM 360 – Central Processor, Bio Subsystem, Multitasking, Hardware und Software, Softwaresystemkompatibilität usw.

Ich glaube nicht, dass sich die moderne Informatik seit 1964 grundlegend verändert hat. Allerdings erlebten Computer in den 1980er und 1990er Jahren einen großen Wandel zu der Form, die wir heute kennen. Aber mit der Zeit sinken die Grenzkosten von Computern weiter, so dass sich ihre Kosten alle zehn Jahre um das Zehnfache, in fünfzehn Jahren um das Tausendfache und in zwanzig Jahren um das Zehntausendfache verringern. Bei dieser Computerrevolution war die Kostensenkung so groß, dass die Kosten für Computer in zwei Jahrzehnten um fast das Zehntausendfache sanken. Diese Veränderung brachte der Gesellschaft enorme Macht.

Stellen Sie sich vor, alle teuren Gegenstände in Ihrem Leben würden auf ein Zehntausendstel ihres ursprünglichen Wertes reduziert. Beispielsweise kostet das Auto, das Sie vor zwanzig Jahren für 200.000 US-Dollar gekauft haben, jetzt nur noch 1 US-Dollar. Können Sie sich die Veränderung vorstellen? Der Rückgang der Computerkosten erfolgte jedoch nicht über Nacht, sondern erreichte allmählich einen kritischen Punkt, und dann stoppte der Trend des Kostenrückgangs plötzlich. Er verbesserte sich jedes Jahr ein wenig, aber die Änderungsrate stagnierte.

Wir haben begonnen, beschleunigtes Computing zu erforschen, aber die Verwendung von beschleunigtem Computing ist nicht einfach. Sie müssen es Stück für Stück von Grund auf neu entwerfen. In der Vergangenheit sind wir vielleicht etablierten Schritten gefolgt, um ein Problem Schritt für Schritt zu lösen, aber jetzt müssen wir diese Schritte neu gestalten. Dies ist ein völlig neues Gebiet der Wissenschaft, das die bisherigen Regeln in parallele Algorithmen umformuliert.

Wir sind uns dessen bewusst und glauben, dass es Anwendungen geben wird, die davon profitieren werden, wenn wir auch nur 1 % des Codes beschleunigen und 99 % der Laufzeit einsparen können. Unser Ziel ist es, das Unmögliche möglich zu machen oder das Mögliche unmöglich zu machen oder Dinge, die bereits möglich sind, effizienter zu machen. Das bedeutet beschleunigtes Rechnen.

Wenn wir auf die Geschichte des Unternehmens zurückblicken, sehen wir unsere Fähigkeit, eine Vielzahl von Anwendungen zu beschleunigen. Anfangs haben wir im Gaming-Bereich eine deutliche Beschleunigung erzielt, die so effektiv war, dass die Leute fälschlicherweise dachten, wir seien ein Gaming-Unternehmen. Doch unser Ziel geht weit über das hinaus, denn dieser Markt ist riesig und groß genug, um unglaubliche technologische Fortschritte voranzutreiben. Diese Situation ist nicht üblich, aber wir haben einen Sonderfall gefunden.

Um es kurz zu machen: Im Jahr 2012 löste AlexNet einen Funken aus, der zum ersten Zusammenstoß zwischen künstlicher Intelligenz und NVIDIA-GPUs führte. Dies markiert den Beginn unserer erstaunlichen Reise in diesem Bereich. Einige Jahre später entdeckten wir ein perfektes Anwendungsszenario, das den Grundstein dafür legte, wo wir heute sind.

Kurz gesagt, diese Errungenschaften legen den Grundstein für die Entwicklung generativer künstlicher Intelligenz. Generative KI kann nicht nur Bilder erkennen, sondern auch Texte in Bilder umwandeln und sogar brandneue Inhalte erstellen. Wir verfügen mittlerweile über ausreichende technische Fähigkeiten, um Pixel zu verstehen, sie zu identifizieren und die Bedeutung dahinter zu verstehen. Durch die Bedeutung dahinter können wir neue Inhalte erstellen. Die Fähigkeit künstlicher Intelligenz, die Bedeutung von Daten zu verstehen, stellt eine große Veränderung dar.

Wir haben Grund zu der Annahme, dass dies der Beginn einer neuen industriellen Revolution ist. In dieser Revolution schaffen wir etwas, was es noch nie zuvor gegeben hat. In der vorherigen industriellen Revolution zum Beispiel war Wasser eine Energiequelle, und Wasser gelangte in die von uns geschaffenen Geräte, und Generatoren begannen zu arbeiten, Wasser kam herein und Elektrizität kam heraus, wie von Zauberhand.

Generative KI ist eine brandneue „Software“, die Software erstellen kann, und sie beruht auf den gemeinsamen Anstrengungen vieler Wissenschaftler. Stellen Sie sich vor, Sie geben KI-Rohstoffe – Daten – und diese gelangen in ein „Gebäude“ – eine Maschine, die wir GPU nennen, und sie kann magische Ergebnisse ausgeben. Es verändert alles und wir erleben die Geburt von „KI-Fabriken“.

Diese Veränderung kann als neue industrielle Revolution bezeichnet werden. Wir haben in der Vergangenheit noch nie einen solchen Wandel erlebt, aber jetzt entfaltet er sich langsam vor uns. Verpassen Sie nicht die nächsten zehn Jahre, denn in diesen zehn Jahren werden wir eine enorme Produktivität schaffen. Das Pendel der Zeit hat sich in Bewegung gesetzt und unsere Forscher handeln bereits.

Heute haben wir die Macher von Tansformer eingeladen, darüber zu diskutieren, wohin uns generative KI in Zukunft führen wird.

sie sind:

Ashish Vaswani: Trat 2016 dem Google Brain-Team bei. Im April 2022 gründete er zusammen mit Niki Parmar Adept AI, verließ das Unternehmen im Dezember desselben Jahres und war Mitbegründer eines weiteren Startups für künstliche Intelligenz, Essential AI.

Niki Parmar: arbeitete vier Jahre lang bei Google Brain, bevor sie zusammen mit Ashish Vaswani Adept AI und Essential AI gründete.

Jakob Uszkoreit: Arbeitete von 2008 bis 2021 bei Google. Er verließ Google im Jahr 2021 und war Mitbegründer von Inceptive. Das Hauptgeschäft des Unternehmens sind künstliche Intelligenz in den Biowissenschaften und es widmet sich der Nutzung neuronaler Netze und Hochdurchsatzexperimenten zur Entwicklung der nächsten Generation von RNA-Molekülen.

Illia Polosukhin: Kam 2014 zu Google und war einer der Ersten, die das achtköpfige Team verließen. 2017 war er Mitbegründer des Blockchain-Unternehmens NEAR Protocol.

Noam Shazeer: arbeitete von 2000 bis 2009 und von 2012 bis 2021 bei Google. Im Jahr 2021 verließ Shazeer Google und gründete gemeinsam mit dem ehemaligen Google-Ingenieur Daniel De Freitas Character.AI.

**Lion Jones: **Arbeitete bei Delcam und YouTube. Kam 2012 als Softwareentwickler zu Google. Später verließ er Google und gründete das Start-up für künstliche Intelligenz sakana.ai.

Lukasz Kaiser: Früher Forscher am französischen Nationalen Zentrum für wissenschaftliche Forschung. Seit 2013 bei Google. Im Jahr 2021 verließ er Google und wurde Forscher bei OpenAI.

Aidan Gomez: schloss sein Studium an der University of Toronto, Kanada, ab. Als der Transformer-Artikel veröffentlicht wurde, war er noch Praktikant im Google Brain-Team. Er ist der zweite aus dem achtköpfigen Team, der Google verlässt. 2019 war er Mitbegründer von Cohere.

![Huang Renxun spricht mit den sieben Autoren des Transformer-Papiers: Wir sind im ursprünglichen Modell gefangen und brauchen eine leistungsfähigere neue Architektur](https://cdn-img.panewslab.com//panews/2022/3/23 /images/ e2cb0168e261ffba0c0ea67a5502acf8.png)

Renxun Huang: Während ich heute hier sitze, bemühen Sie sich bitte aktiv um die Gelegenheit, zu Wort zu kommen. Es gibt kein Thema, das hier nicht besprochen werden kann. Sie können sogar von Ihrem Stuhl aufspringen, um Probleme zu besprechen. Beginnen wir mit der grundlegendsten Frage: Mit welchen Problemen waren Sie damals konfrontiert und was hat Sie dazu inspiriert, Transformer zu werden?

Illia Polosukhin: Wenn Sie Modelle veröffentlichen möchten, die tatsächlich Suchergebnisse lesen können, beispielsweise um Stapel von Dokumenten zu verarbeiten, benötigen Sie einige Modelle, die diese Informationen schnell verarbeiten können. Das damalige rekurrente neuronale Netzwerk (RNN) konnte diese Anforderungen nicht erfüllen.

Obwohl rekurrente neuronale Netze (RNN) und einige vorläufige Aufmerksamkeitsmechanismen (Arnens) zu dieser Zeit Aufmerksamkeit erregten, mussten sie dennoch Wort für Wort gelesen werden, was nicht effizient war.

Jakob Uszkoreit: Die Geschwindigkeit, mit der wir Trainingsdaten generieren, übersteigt bei weitem unsere Fähigkeit, modernste Architekturen zu trainieren. Tatsächlich verwenden wir einfachere Architekturen, wie zum Beispiel Feed-Forward-Netzwerke mit N-Grammen als Eingabemerkmalen. Diese Architekturen übertreffen häufig komplexere und fortschrittlichere Modelle, da sie schneller trainieren, zumindest bei großen Mengen an Trainingsdaten im Google-Maßstab.

Zu dieser Zeit gab es bereits leistungsstarke RNNs, insbesondere lange Kurzzeitgedächtnisnetzwerke (LSTM).

Noam Shazeer: Es scheint, dass dies ein brennendes Problem ist. Wir bemerkten diese Skalierungsgesetze etwa im Jahr 2015, und Sie können sehen, dass mit zunehmender Größe des Modells auch seine Intelligenz zunimmt. Es ist wie das größte Problem in der Geschichte der Welt, es ist ganz einfach: Sie sagen nur den nächsten Token voraus, und er wird so intelligent sein und in der Lage sein, eine Million verschiedene Dinge zu tun, und Sie möchten ihn einfach vergrößern und … mache es besser.

Eine große Enttäuschung ist, dass die Handhabung von RNN zu mühsam ist. Und dann hörte ich diese Leute darüber reden: „Hey, lasst uns das durch eine Faltung oder einen Aufmerksamkeitsmechanismus ersetzen.“ Ich dachte, großartig, lass uns das machen. Ich vergleiche den Transformer gerne mit dem Übergang von der Dampfmaschine zum Verbrennungsmotor. Wir hätten die industrielle Revolution mit Dampfmaschinen vollenden können, aber das wäre schmerzhaft gewesen, und der Verbrennungsmotor hat alles besser gemacht.

Ashish Vaswani: Während meiner Studienzeit lernte ich einige schwierige Lektionen, insbesondere als ich an maschineller Übersetzung arbeitete. Mir wurde klar, hey, ich werde diese komplizierten Sprachregeln nicht lernen. Ich denke, Gradient Descent – die Art und Weise, wie wir diese Modelle trainieren – ist ein besserer Lehrer als ich. Ich werde also nicht die Regeln lernen, sondern einfach Gradient Descent die ganze Arbeit für mich erledigen lassen, und das ist meine zweite Lektion.

Was ich auf die harte Tour gelernt habe, ist, dass allgemeine Architekturen, die skaliert werden können, auf lange Sicht letztendlich die Oberhand gewinnen werden. Heute könnten es Token sein, morgen könnten es Aktionen sein, die wir auf Computern ausführen, und sie werden beginnen, unsere Aktivitäten nachzuahmen und in der Lage zu sein, einen Großteil unserer Arbeit zu automatisieren. Wie wir besprochen haben, hat Transformer, insbesondere sein Selbstaufmerksamkeitsmechanismus, eine sehr breite Anwendbarkeit und verbessert auch den Gradientenabstieg. Die andere Sache ist die Physik, denn eine Sache, die ich von Noam gelernt habe, ist, dass die Matrixmultiplikation eine gute Idee ist.

Noam Shazeer: Dieses Muster wiederholt sich immer wieder. Jedes Mal, wenn Sie also eine Reihe von Regeln hinzufügen, lernt der Gradientenabstieg diese Regeln besser als Sie. Das ist es. Genau wie beim Deep Learning, das wir durchgeführt haben, erstellen wir ein KI-Modell in Form einer GPU. Und jetzt bauen wir ein KI-Modell in Form eines Supercomputers. Ja, Supercomputer sind jetzt das Vorbild. Ja, das stimmt. Ja. Supercomputer Um es Ihnen mitzuteilen: Wir bauen einen Supercomputer in der Form des Modells.

** Jen-Hsun Huang: Welches Problem versuchen Sie also zu lösen? **

Lukasz Kaiser: Maschinelle Übersetzung. Wenn man an die Zeit vor fünf Jahren zurückdenkt, schien dieser Prozess sehr schwierig zu sein. Man musste Daten sammeln, sie vielleicht übersetzen, und das Ergebnis war möglicherweise nur unwesentlich korrekt. Das damalige Niveau war noch sehr einfach. Aber jetzt können diese Modelle lernen, auch ohne Daten zu übersetzen. Sie geben einfach eine Sprache und eine andere an, und das Modell lernt selbstständig zu übersetzen, und die Fähigkeit stellt sich auf natürliche und zufriedenstellende Weise ein.

Llion Jones: Aber die Intuition von „Aufmerksamkeit“ ist alles, was Sie brauchen. Also habe ich mir diesen Titel ausgedacht, und im Grunde geschah das, als wir nach einem Titel suchten.

Wir führten gerade eine Abtragung durch und fingen an, Teile des Modells wegzuwerfen, nur um zu sehen, ob es noch schlimmer werden würde. Zu unserer Überraschung begann es besser zu werden. Es ist viel besser, alle solchen Windungen wegzuwerfen. Daher kommt auch der Titel.

Ashish Vaswani: Im Grunde genommen ist es interessant, dass wir eigentlich mit einem sehr einfachen Rahmen begonnen haben und dann Dinge hinzugefügt haben, wir haben Faltungen hinzugefügt und dann, glaube ich, haben wir sie weggenommen. Es gibt auch viele andere sehr wichtige Dinge wie die Aufmerksamkeit mehrerer Köpfe.

** Jensen Huang: Wer hat sich den Namen Transformer ausgedacht? Warum heißt es Transformer? **

Jakob Uszkoreit: Dieser Name gefällt uns. Wir haben ihn einfach zufällig ausgewählt und fanden ihn sehr kreativ. Er hat unser Datenproduktionsmodell verändert und eine solche Logik verwendet. Alles maschinelle Lernen ist ein Transformator und ein Disruptor.

Noam Shazeer: Über diesen Namen haben wir noch nie nachgedacht. Ich denke, dieser Name ist sehr einfach und viele Leute finden diesen Namen sehr gut. Ich habe vorher über viele Namen nachgedacht, wie zum Beispiel Yaakov, und mich schließlich für „Transformer“ entschieden, der das Prinzip des Modells beschreibt. Es transformiert tatsächlich das gesamte Signal. Nach dieser Logik wird fast das gesamte maschinelle Lernen transformiert.

Llion Jones: Der Grund, warum „Transformer“ zu einem so vertrauten Namen geworden ist, liegt nicht nur am Inhalt der Übersetzung, sondern auch daran, dass wir diese Transformation allgemeiner beschreiben wollten. Ich glaube nicht, dass wir großartige Arbeit geleistet haben, aber als Veränderer, als Treiber und Motor hat es Sinn gemacht. Jeder kann ein so großes Sprachmodell, eine so große Engine und eine so große Logik verstehen. Aus architektonischer Sicht ist dies eine relativ frühe Startphase.

Aber uns wurde klar, dass wir eigentlich versuchten, etwas zu schaffen, das sehr, sehr vielseitig ist und wirklich alles in alles andere verwandeln kann. Und ich glaube nicht, dass wir vorhergesehen haben, wie gut das tatsächlich sein würde, als Transformers für Bilder verwendet wurden, was ein wenig überraschend ist. Für euch mag das logisch erscheinen, aber tatsächlich kann man das Bild aufteilen und jeden kleinen Punkt beschriften, richtig. Ich glaube, das gab es schon sehr früh in der Architektur.

Als wir also Tensor-zu-Tensor-Bibliotheken bauten, konzentrierten wir uns wirklich darauf, das autoregressive Training zu erweitern. Es geht nicht nur um Sprache, sondern auch um Bild- und Audiokomponenten.

Also sagte Lukasz, dass er übersetzte. Ich glaube, er hat sich selbst unterschätzt, und all diese Ideen, wir beginnen jetzt zu sehen, wie diese Muster zusammenkommen, sie alle ergänzen das Modell.

Aber wirklich, alles war schon früh da und die Ideen sickern durch und es dauert einige Zeit. Das Ziel von Lukasz besteht darin, dass wir alle diese akademischen Datensätze haben, die von Bild zu Text, von Text zu Bild, von Audio zu Text, von Text zu Text reichen. Wir sollten für alles trainieren.

Diese Idee hat die Erweiterungsarbeit wirklich vorangetrieben, und schließlich hat sie funktioniert, und es war so interessant, dass wir Bilder in Text, Text in Bilder und Text in Text übersetzen konnten.

Sie verwenden es, um Biologie oder biologische Software zu studieren, die Computersoftware insofern ähneln könnte, als sie als Programm beginnt und dann in etwas kompiliert wird, das auf einer GPU ausgeführt werden kann.

Das Leben einer biologischen Software beginnt mit der Spezifikation bestimmter Verhaltensweisen. Nehmen wir an, Sie möchten ein Protein drucken, beispielsweise ein bestimmtes Protein in einer Zelle. Und dann haben Sie gelernt, wie man es mithilfe von Deep Learning in ein RNA-Molekül umwandelt, dieses Verhalten aber tatsächlich zeigt, sobald es in Ihre Zellen gelangt. Es geht also wirklich nicht nur um die Übersetzung ins Englische.

**Jensen Huang: Haben Sie ein großes Labor eingerichtet, um all das zu produzieren? **

Aidan Gomez: Vieles ist verfügbar und bleibt tatsächlich öffentlich zugänglich, weil diese Daten oft noch weitgehend öffentlich finanziert werden. Aber in Wirklichkeit benötigen Sie immer noch Daten, um das Phänomen, das Sie erreichen möchten, klar zu veranschaulichen.

Ich versuche, ein bestimmtes Produkt zu modellieren, sagen wir Proteinexpression und mRNA-Impfstoffe und ähnliches, oder ja, in Palo Alto haben wir eine Menge Roboter und Menschen in Laborkitteln, beide lernendes Forschungspersonal, darunter ehemalige Biologen.

Jetzt betrachten wir uns als Pioniere von etwas Neuem und arbeiten daran, diese Daten tatsächlich zu erstellen und die Modelle zu validieren, die diese Moleküle entwerfen. Aber die ursprüngliche Idee war, zu übersetzen.

** Jen-Hsun Huang: Die ursprüngliche Idee war maschinelle Übersetzung. Ich möchte fragen: Was sind die Schlüsselfaktoren für die Stärkung und den Durchbruch der Architektur? Und welchen Einfluss haben sie auf das Design von Transformer? **

Aidan Gomez: Unterwegs haben Sie es alle gesehen. Glauben Sie, dass es zusätzlich zum grundlegenden Transformer-Design wirklich einen großen zusätzlichen Beitrag gibt? Ich denke, auf der Inferenzseite wurde viel daran gearbeitet, diese Modelle zu beschleunigen und effizienter zu machen.

Ich denke immer noch, dass es mich ein wenig beunruhigt, weil unsere ursprünglichen Formen so ähnlich waren. Ich denke, die Welt braucht etwas Besseres als Transformer, und ich denke, wir alle hier möchten, dass es durch etwas ersetzt wird, das uns auf ein neues Leistungsniveau bringt.

Ich möchte allen hier eine Frage stellen. Was glaubst du wird als nächstes passieren? Es ist ein aufregender Schritt, weil ich denke, dass es den Dingen von vor 6-7 Jahren so ähnlich ist, oder?

Llion Jones: Ja, ich denke, die Leute wären überrascht, wie ähnlich es Ihrer Meinung nach ist, oder? Die Leute fragen mich gerne, was als nächstes passiert, weil ich der Autor dieses Artikels bin. Wie von Zauberhand schwingen Sie den Zauberstab und was passiert als nächstes? Ich möchte darauf hinweisen, wie dieses spezifische Prinzip entwickelt wurde. Wir müssen nicht nur besser sein, wir müssen nachweislich besser sein.

Denn wenn es nur ein bisschen besser ist, reicht das nicht aus, um die gesamte KI-Branche zu etwas Neuem zu bewegen. Wir bleiben also beim Originalmodell, obwohl es technisch gesehen wahrscheinlich nicht das Stärkste ist, was wir derzeit haben.

Aber jeder weiß, welche Art von persönlichen Tools er möchte. Sie möchten bessere kontextbezogene Fenster und die Möglichkeit, Token schneller zu generieren. Nun, ich bin mir nicht sicher, ob Ihnen diese Antwort gefällt, aber sie verbrauchen derzeit zu viele Rechenressourcen. Ich denke, die Leute machen viele verschwendete Berechnungen. Wir arbeiten hart daran, die Effizienz zu verbessern, vielen Dank.

** Jensen Huang: Ich denke, wir machen das effektiver, danke! **

Jakob Uszkoreit: Aber ich denke, es geht vor allem darum, wie Ressourcen verteilt werden, und nicht darum, wie viele Ressourcen insgesamt verbraucht werden. Wir wollen zum Beispiel nicht zu viel Geld für ein einfaches Problem ausgeben oder zu wenig für ein zu schwieriges Problem und am Ende keine Lösung bekommen.

Illiya Polosukhin: Dieses Beispiel ist wie 2+2. Wenn man es richtig in dieses Modell einspeist, verwendet es eine Billion Parameter. Daher denke ich, dass adaptives Computing eines der Dinge ist, die als nächstes kommen müssen, wobei wir wissen, wie viel Computerressourcen für ein bestimmtes Problem aufgewendet werden sollten.

Aidan Gomez: Wir wissen, über wie viele Computergenerierungskapazitäten wir derzeit verfügen. Ich denke, das ist das Thema, auf das wir uns als nächstes konzentrieren müssen. Ich denke, dass dies ein Wandel auf kosmischer Ebene ist und dass dies auch der zukünftige Entwicklungstrend ist.

Lukasz Kaiser: Dieses Konzept gab es schon vor Transformer und es wurde in das Transformer-Modell integriert. Tatsächlich bin ich mir nicht sicher, ob hier jeder weiß, dass wir unser ursprüngliches Ziel nicht erreicht haben. Unsere ursprüngliche Absicht beim Start dieses Projekts war es, den Evolutionsprozess von Token zu simulieren. Es handelt sich nicht nur um einen linearen Generierungsprozess, sondern um eine schrittweise Weiterentwicklung von Text oder Code. Wir iterieren, wir bearbeiten, was es uns ermöglicht, nicht nur die Art und Weise nachzuahmen, wie Menschen Texte entwickeln, sondern sie auch als Teil dieses Prozesses zu verwenden. Denn wenn man Inhalte so natürlich generieren könnte wie Menschen, könnten sie tatsächlich Feedback geben, oder?

Wir alle hatten Shannons Artikel gelesen und unsere ursprüngliche Idee bestand darin, uns nur auf Sprachmodellierung und Ratlosigkeit zu konzentrieren, aber das geschah nicht. Ich denke, auch hier können wir uns weiterentwickeln. Es geht auch darum, wie wir heute Rechenressourcen intelligent organisieren, und diese Organisation gilt mittlerweile auch für die Bildverarbeitung. Ich meine, Diffusionsmodelle haben die interessante Eigenschaft, dass sie ihre Qualität durch Iteration kontinuierlich verfeinern und verbessern können. Und wir verfügen derzeit nicht über solche Fähigkeiten.

Ich meine, diese grundlegende Frage: Welches Wissen sollte in das Modell eingebaut werden und welches Wissen sollte außerhalb des Modells sein? Verwenden Sie ein Retrieval-Modell? Ein Beispiel ist das RAG-Modell (Retri-Augmented Generation). Ebenso geht es hierbei auch um die Frage der Inferenz, d. h. welche Inferenzaufgaben extern über symbolische Systeme und welche Inferenzaufgaben direkt innerhalb des Modells durchgeführt werden sollen. Dies ist vor allem eine Diskussion über Effizienz. Ich glaube zwar, dass große Modelle irgendwann lernen werden, Berechnungen wie 2+2 durchzuführen, aber wenn man 2+2 berechnen möchte und dies durch Addieren von Zahlen tun möchte, ist das offensichtlich ineffizient.

** Jen-Hsun Huang: Wenn die KI nur 2+2 berechnen muss, dann sollte sie den Rechner direkt nutzen, um diese Aufgabe mit dem geringsten Energieaufwand zu erledigen, denn wir wissen, dass der Rechner dafür das effektivste Werkzeug ist 2+2 Berechnungen durchführen. Wenn jedoch jemand die KI fragt: Wie sind Sie zu der 2+2-Entscheidung gekommen? Wussten Sie, dass 2+2 die richtige Antwort ist? Wird dies viele Ressourcen verbrauchen? **

![Huang Renxun spricht mit den sieben Autoren des Transformer-Papiers: Wir sind im ursprünglichen Modell gefangen und brauchen eine leistungsfähigere neue Architektur](https://cdn-img.panewslab.com//panews/2022/3/23 /images/ 943398d349cf0e17db81b1469281b267.png)

Noam Shazeer: Genau. Sie haben bereits ein Beispiel erwähnt, aber ich bin auch davon überzeugt, dass die künstlichen Intelligenzsysteme, die hier jeder entwickelt, intelligent genug sind, um Taschenrechner aktiv zu nutzen.

Genau das leisten derzeit globale öffentliche Güter (GPP). Meiner Meinung nach ist das aktuelle Modell zu günstig und zu klein. Der Grund, warum es billig ist, liegt in der Technologie wie NV, dank seiner Leistung.

Die Rechenkosten pro Operation betragen etwa 10 bis 18 US-Dollar. Mit anderen Worten, ungefähr in dieser Größenordnung. Vielen Dank, dass Sie so viele Computerressourcen geschaffen haben. Aber wenn man sich ein Modell mit 500 Milliarden Parametern und einer Billion Berechnungen pro Token ansieht, ist das etwa ein Dollar pro Million Token, was 100-mal billiger ist, als sich ein Taschenbuch zu kaufen und es zu lesen. Unsere Anwendung ist millionenfach wertvoller als effiziente Berechnungen in riesigen neuronalen Netzen. Ich meine, sie sind sicherlich wertvoller als etwas wie die Heilung von Krebs, aber es ist mehr als das.

Ashish Vaswani: Ich denke, die Welt intelligenter zu machen bedeutet, wie wir Feedback von der Welt erhalten und ob wir Multitasking und Multi-Line-Parallelisierung erreichen können. Wenn Sie wirklich ein solches Modell bauen möchten, ist dies eine großartige Möglichkeit, uns beim Entwurf eines solchen Modells zu helfen.

** Jensen Huang: Können Sie uns kurz mitteilen, warum Sie Ihr Unternehmen gegründet haben? **

Ashish Vaswani: In unserem Unternehmen ist es unser Ziel, Modelle zu bauen und neue Aufgaben zu lösen. Unsere Aufgabe besteht darin, die Ziele und Inhalte des Auftrags zu verstehen und diese Inhalte an die Bedürfnisse des Kunden anzupassen. Tatsächlich finde ich, dass das größte Problem bei Modellen ab 2021 darin besteht, dass man die Modelle nicht nur intelligenter machen kann, sondern auch die richtigen Leute finden muss, die diese Modelle interpretieren. Wir hoffen, die Welt und das Modell miteinander zu verknüpfen und das Modell größer und herausragender zu machen. Im Lernprozess sind gewisse Fortschritte erforderlich, die zunächst in der Vakuumumgebung eines Labors nicht erreicht werden können.

Noam Shazeer: Im Jahr 2021 haben wir dieses Unternehmen mitgegründet. Wir haben so tolle Technologie, aber sie erreicht nicht viele Menschen. Stellen Sie sich vor, wenn ich ein Patient wäre, der Ihre Worte hört, würde ich denken, dass es Dutzende Milliarden Menschen mit unterschiedlichen Aufgaben gibt, die sie erledigen müssen. Darum geht es beim Deep Learning: Wir verbessern Technologie durch Vergleich. Tatsächlich besteht unser oberstes Ziel aufgrund der kontinuierlichen Weiterentwicklung der Technologie, vorangetrieben von Jensen Huang, darin, Menschen auf der ganzen Welt zu helfen. Man muss testen, und wir müssen jetzt schnellere Lösungen entwickeln, die es Hunderten von Menschen ermöglichen, diese Anwendungen zu nutzen. Anfangs nutzte nicht jeder diese Apps, viele nutzten sie nur zum Spaß, aber sie funktionierten, sie funktionierten.

Jakob Uszkoreit: Danke. Ich möchte über das ökologische Softwaresystem sprechen, das wir geschaffen haben. Im Jahr 2021 habe ich dieses Unternehmen mitgegründet und unser Ziel ist es, einige Probleme mit echter wissenschaftlicher Wirkung zu lösen. In der Vergangenheit hatten wir es mit recht komplexen Inhalten zu tun. Aber als ich mein erstes Kind bekam, veränderte sich meine Sicht auf die Welt. Wir hoffen, das menschliche Leben komfortabler zu machen und einen Beitrag zur Proteinforschung zu leisten. Insbesondere nach der Geburt von Kindern hoffe ich, die bestehende medizinische Struktur zu verändern und hoffe, dass die Entwicklung von Wissenschaft und Technologie einen positiven Einfluss auf das Überleben und die Entwicklung des Menschen haben kann. Beispielsweise wurden die Struktur und der Abbau von Proteinen in gewissem Maße beeinflusst, aber derzeit fehlen uns Daten. Wir müssen unsere Bemühungen auf Daten stützen, nicht nur als Pflicht, sondern als Vater.

** Jen-Hsun Huang: Ich mag Ihren Standpunkt. Ich interessiere mich immer für die Entwicklung neuer Medikamente und den Prozess, Computern beizubringen, wie man neue Medikamente entwickelt und herstellt. Wenn neue Medikamente erlernt und entwickelt werden könnten und ein Labor sie testen könnte, wäre es möglich festzustellen, ob ein solches Modell funktionieren würde. **

Llion JonesLlion Jones: Ja, ich bin der Letzte, der etwas teilt. Das von uns mitgegründete Unternehmen heißt Sakana AI, was „Fisch“ bedeutet. Der Grund, warum wir unser Unternehmen nach dem japanischen „Fisch“ benannt haben, liegt darin, dass wir wie ein Fischschwarm sind, der uns natürlich dazu inspiriert, Intelligenz zu finden. Wenn wir viele der untersuchten Elemente kombinieren können, können wir etwas Komplexes und Schönes schaffen. Viele verstehen vielleicht die Besonderheiten des Prozesses und des Inhalts nicht, aber unsere interne Kernphilosophie lautet „Lernen gewinnt immer“.

Ganz gleich, ob Sie ein Problem lösen oder etwas lernen möchten: Lernen wird Ihnen immer zum Sieg verhelfen. Im Prozess der generativen KI werden uns auch Lerninhalte zum Sieg verhelfen. Als anwesender Forscher möchte ich alle daran erinnern, dass wir Computer-KI-Modellen eine echte Bedeutung beimessen, damit sie uns wirklich helfen können, die Geheimnisse des Universums zu verstehen. Tatsächlich wollte ich Ihnen auch mitteilen, dass wir im Begriff sind, eine neue Entwicklung anzukündigen, über die wir uns sehr freuen. Während wir jetzt über eine Reihe von Forschungsergebnissen als Baustein verfügen, erleben wir eine transformative Entwicklung, bei der das aktuelle Modellmanagement organisiert ist und es den Menschen ermöglicht, sich wirklich zu engagieren. Wir machen diese Modelle praktikabler, indem wir diese großen Modelle und transformativen Modelle verwenden, um die Art und Weise zu verändern, wie Menschen die Welt und das Universum verstehen. Das ist unser Ziel.

Aidan Gomez: Meine ursprüngliche Absicht, das Unternehmen zu gründen, ähnelte der von Noam Shazeer. Ich denke, dass die Informatik in ein neues Paradigma eintritt, das bestehende Produkte und unsere Arbeitsweise verändert. Alles ist computergestützt und ändert sich bis zu einem gewissen Grad innerhalb der Technologie. Was ist unsere Rolle? Ich überbrück tatsächlich die Kluft, überbrück den Abgrund. Wir können sehen, dass verschiedene Unternehmen solche Plattformen erstellen und es jedem Unternehmen ermöglichen, Produkte anzupassen und zu integrieren, was eine Möglichkeit darstellt, direkt mit den Benutzern in Kontakt zu treten. Auf diese Weise bringen wir die Technologie voran und machen sie erschwinglicher und allgegenwärtiger.

** Jensen Huang: Was ich besonders schätze, ist, dass man sehr aufgeregt aussieht, wenn Noam Shazeer besonders ruhig wirkt. Die Unterschiede in Ihren Persönlichkeiten sind so groß. Jetzt erteile ich Lukasz Kaiser das Wort. **

Lukasz Kaiser: Meine Erfahrung bei OpenAI war sehr aufwühlend. Es macht viel Spaß im Unternehmen und wir verarbeiten viele Daten, um Berechnungen durchzuführen, aber am Ende des Tages ist meine Rolle immer noch die eines Datenverarbeiters.

Illiya Polosukhin: Ich war der Erste, der ging. Ich bin fest davon überzeugt, dass wir große Fortschritte machen werden und Software die ganze Welt verändern wird. Der direkteste Weg besteht darin, Maschinen das Schreiben von Code beizubringen und die Programmierung für jedermann zugänglich zu machen.

Obwohl unsere Fortschritte begrenzt sind, sind wir bei NEAR bestrebt, menschliche Weisheit zu integrieren und relevante Daten zu erhalten, um beispielsweise die Menschen weiter zu der Erkenntnis zu inspirieren, dass wir eine grundlegende Methodik benötigen. Dieses Modell ist eine grundlegende Entwicklung. Dieses große Modell ist auf der ganzen Welt weit verbreitet. Es hat viele Anwendungen in der Luft- und Raumfahrt und anderen Bereichen. Es bezieht sich auf Kommunikation und Interaktion in verschiedenen Bereichen und bietet uns tatsächlich Fähigkeiten. Wir haben festgestellt, dass mit der zunehmenden Nutzung mehr Modelle entstanden sind und es derzeit nicht viele Streitigkeiten über das Urheberrecht gibt.

Wir befinden uns jetzt in einer neuen generativen Ära, einer Ära, in der Innovation und Innovatoren gefeiert werden, und wir möchten uns aktiv beteiligen und Veränderungen annehmen. Deshalb haben wir nach verschiedenen Möglichkeiten gesucht, um beim Aufbau eines wirklich coolen Modells zu helfen.

** Jensen Huang: Dieses positive Feedback-System ist für unsere Gesamtwirtschaft von großem Nutzen. Wir sind jetzt besser in der Lage, unsere Wirtschaft zu gestalten. Jemand fragte: Was ist in dieser Zeit, in der GPT-Modelle Milliarden von Datenbanken im Token-Maßstab trainieren, der nächste Schritt? Was wird die neue Modellierungstechnologie sein? Was möchten Sie erkunden? Was sind Ihre Datenquellen? **

Illia Polosukhin: Unser Ausgangspunkt sind Vektoren und Verschiebungen. Wir brauchen Modelle, die einen echten wirtschaftlichen Wert haben, die Menschen bewerten und letztendlich Ihre Techniken und Werkzeuge in die Praxis umsetzen können, um das gesamte Modell zu verbessern.

** Jen-Hsun Huang: Wie trainieren Sie das Modell in der Domäne? Was waren die anfänglichen Interaktionen und Interaktionsmuster? Handelt es sich um Kommunikation und Interaktion zwischen Modellen? Oder gibt es generative Modelle und Techniken? **

Illia Polosukhin: In unserem Team hat jeder seine eigene technische Expertise.

Jakob Uszkoreit: Der nächste Schritt ist die Argumentation. Wir alle wissen, wie wichtig logisches Denken ist, aber ein Großteil der Arbeit wird immer noch manuell von Ingenieuren erledigt. Wir bringen ihnen tatsächlich bei, in einem interaktiven Frage-und-Antwort-Format zu antworten, und wir hoffen, dass sie gemeinsam verstehen, warum, und gemeinsam ein starkes Argumentationsmuster liefern. Wir hoffen, dass das Modell den gewünschten Inhalt generieren kann, und diese Generierungsmethode verfolgen wir. Ob Video, Text oder 3D-Informationen, sie alle sollten integriert werden.

Lukasz Kaiser: Ich denke, verstehen die Leute, dass Schlussfolgerungen tatsächlich aus Daten stammen? Wenn wir anfangen zu argumentieren, haben wir eine Reihe von Daten und denken darüber nach, warum diese Daten anders sind. Dann erfahren wir, dass verschiedene Anwendungen tatsächlich auf dem Prozess der Datenbegründung basieren. Dank der Leistungsfähigkeit von Computern und dank Systemen wie diesem können wir uns von dort aus weiterentwickeln. Wir können über relevante Inhalte nachdenken und Experimente durchführen.

Diese werden häufig aus Daten abgeleitet. Ich denke, dass sich die Inferenz sehr schnell weiterentwickelt, Datenmodelle sehr wichtig sind und es in naher Zukunft mehr interaktive Inhalte geben wird. Wir haben noch nicht genügend Schulungen durchgeführt, es ist nicht der entscheidende Inhalt und das Schlüsselelement, wir müssen die Daten konkreter gestalten.

Noam Shazeer: Das Entwerfen einiger Daten, beispielsweise das Entwerfen einer Lehrmaschine, kann Hunderte oder Hunderte Millionen verschiedener Token erfordern.

Ashish Vaswani: Ich möchte darauf hinweisen, dass wir in diesem Bereich viele Partner haben, die einige Meilensteine erreicht haben. Was ist der beste automatisierte Algorithmus? Tatsächlich geht es darum, reale Aufgaben in verschiedene Inhalte zu unterteilen. Unser Modell ist ebenfalls sehr wichtig. Es hilft uns, die Daten zu erhalten und zu sehen, ob die Daten an der richtigen Stelle sind. Einerseits hilft es uns, uns auf die Daten zu konzentrieren, andererseits liefern uns solche Daten hochwertige Modelle, um abstrakte Aufgaben zu erledigen. Daher glauben wir, dass die Messung dieses Fortschritts auch ein Weg der Kreativität, ein Weg der wissenschaftlichen Entwicklung und ein Weg unserer Automatisierungsentwicklung ist.

** Jen-Hsun Huang: Ohne ein gutes Messsystem kann man keine großartigen Projekte realisieren. Haben Sie Fragen aneinander? **

Ilja Polosukhin: Niemand möchte wirklich wissen, welche Schritte sie unternommen haben. Tatsächlich hoffen wir jedoch, zu verstehen und zu erforschen, was wir tun, genügend Daten und Informationen zu erhalten und vernünftige Schlussfolgerungen zu ziehen. Wenn Sie beispielsweise sechs Schritte haben, Sie aber tatsächlich einen Schritt überspringen können, indem Sie fünf Schritte durchgehen. Manchmal sind keine sechs Schritte erforderlich, manchmal sind mehr Schritte erforderlich. Wie kann man also ein Szenario wie dieses nachbilden? Was brauchen Sie, um sich weiter vom Token zu entfernen?

Lukasz Kaiser: Mein persönlicher Glaube ist, dass die Reproduktion eines so großen Modells ein sehr komplizierter Prozess ist. Systeme werden sich weiterentwickeln, aber im Wesentlichen müssen Sie eine Methode entwickeln. Der Mensch ist ein wiederkehrendes Wesen. Im Laufe der Menschheitsgeschichte haben wir immer wieder gelungene Szenen nachgestellt.

** Jen-Hsun Huang: Ich freue mich sehr, mit Ihnen zu kommunizieren und hoffe, dass Sie die Gelegenheit haben, miteinander zu kommunizieren und unbeschreibliche Magie zu erzeugen. Vielen Dank für Ihre Teilnahme an diesem Treffen, vielen Dank! **

Original anzeigen
  • Angebot
  • Kommentieren
  • Teilen
Kommentieren
Keine Kommentare