Weiterleiten des Originaltitels: Dezentralisierte Berechnung
Der heutige Artikel behandelt den aufstrebenden, aber oft missverstandenen Bereich des dezentralisierten Computing im Krypto-Bereich. Wir tauchen in die Landschaft der KI-Infrastruktur ein, um zu verstehen, wo dezentrale Alternativen realistisch konkurrieren können.
Wir erkunden Fragen wie: Kann ASI auf verteilten Netzwerken trainiert werden? Welche einzigartigen Vorteile bieten Krypto-Netzwerke? Und warum könnte eine genehmigungslose Recheninfrastruktur ebenso wesentlich für KI werden wie Bitcoin für die Finanzen ist.
Ein häufiges Muster, das Sie in dem Artikel bemerken werden, ist das exponentielle Wachstum von allem KI—Investitionen, Rechenleistung und Fähigkeiten. Dies fällt zusammen mit einer Wiederbelebung der Kryptomärkte und des Bewusstseins. Wir sind sehr gespannt auf die Schnittstelle dieser beiden großen Technologiewellen.
Hallo!
An einem sonnigen Tag in Memphis, Tennessee, kreiste ein Propeller-Spionageflugzeug wiederholt über einem Industriegebäude und seine Passagiere fotografierten hektisch die darunter liegenden Einrichtungen. Dies war keine Szene aus dem Kalten Krieg, sondern aus dem Jahr 2024. Das Ziel war keine militärische Einrichtung oder Urananreicherungsstätte, sondern eine ehemalige Haushaltsgerätefabrik, die jetzt einen der leistungsstärksten Supercomputer der Welt beherbergt. Die Passagiere waren keine ausländischen Agenten, sondern Mitarbeiter eines rivalisierenden Rechenzentrumsunternehmens.
Alle paar Jahrzehnte taucht eine transformative Technologie auf, die das Potenzial hat, die Entwicklung der Zivilisation unbestreitbar zu verändern. Es folgt ein Wettlauf zwischen den mächtigsten Organisationen der Welt, um diese Technologie als Erste zu realisieren. Die Belohnungen sind so immens und die Folgen eines Scheiterns so verheerend, dass diese Organisationen schnell ihr gesamtes Arsenal an Ressourcen - menschliches Talent und Kapital - mobilisieren, um die Technologie zu beherrschen.
Im 20. Jahrhundert erfüllten zwei herausragende Technologien diese Definition: Atomwaffen und Raumfahrt. Der Wettlauf um die Nutzung dieser Technologien umfasste die mächtigsten Nationen. Die Siege der Vereinigten Staaten in beiden Bereichen festigten ihren Status als dominierende Supermacht der Welt und leiteten eine Ära beispielloser Prosperität ein. Für die Besiegten - Nazi-Deutschland und die Sowjetunion - waren die Folgen verheerend, sogar tödlich.
Die riesige 44 Hektar große K-25 Anlage in Oak Ridge, Tennessee, USA, in der das Uran für die erste Atombombe hergestellt wurde (gateQuelle)
Amerikas Sieg hatte einen enormen Preis. Das Manhattan-Projekt kostete fast 2 Milliarden US-Dollar (ungefähr 30 Milliarden US-Dollar inflationsbereinigt) und beschäftigte über 120.000 Menschen - einer von tausend Amerikanern. Der Wettlauf im Weltraum erforderte noch größere Ressourcen. Das Apollo-Programm kostete in den 1960er Jahren 28 Milliarden US-Dollar (ungefähr 300 Milliarden US-Dollar von heute) und umfasste über 400.000 Menschen - einer von 490 Amerikanern. Im Jahr 1966 hatte die NASA mit 4,4% des gesamten US-Bundeshaushalts ihren Höhepunkt erreicht.
Die Apollo 11, kurz vor dem Start der Mission zum Mond (Quelle)
Die Einführung von ChatGPT im Jahr 2022 markierte den Beginn eines neuen Rennens mit zivilisationsverändernden Ausmaßen - die Verfolgung künstlicher Superintelligenz (ASI). Während KI bereits in den Alltag integriert ist - Verwaltung von Social-Media-Feeds, Netflix-Empfehlungen und E-Mail-Spam-Filtern - verspricht das Aufkommen großer Sprachmodelle (LLMs), alles zu verändern: menschliche Produktivität, Medienkreation, wissenschaftliche Forschung und Innovation selbst.
Dieses Mal sind es nicht (zumindest noch nicht) die Nationen, die um die Vorherrschaft kämpfen, sondern die größten Unternehmen der Welt (Microsoft, Google, Meta, Amazon), die heißesten Startups (OpenAI, Anthropic) und der reichste Einzelne (Elon Musk). Während Big Tech beispielloses Kapital in den Aufbau der Infrastruktur für das Training immer leistungsstärkerer Modelle lenkt, sichern Startupsrekordverdächtig Risikokapitalfinanzierung. Elon ist, nun ja, Elon Dinge tun(Das überwachte Rechenzentrum gehörte seinem Unternehmen xAI).
Und dann gibt es alle anderen - Unternehmen, kleinere Unternehmen und Start-ups -, die vielleicht nicht darauf abzielen, ASI zu entwickeln, aber bestrebt sind, die modernsten Fähigkeiten, die durch KI freigesetzt werden, zu nutzen, um ihr Geschäft zu optimieren, eine Branche zu stören oder völlig neue zu schaffen. Die potenziellen Belohnungen sind so groß, dass alle darum kämpfen, ihren Anteil an dieser neuen, KI-getriebenen Wirtschaft zu beanspruchen.
Im Herzen der KI-Revolution liegt ihr wichtigster Bestandteil: die Grafikverarbeitungseinheit (GPU). Ursprünglich für die Leistung von Videospielen entwickelt, ist dieser spezialisierte Computerchip zu der heiß begehrtesten Ware der Welt geworden. Die Nachfrage nach GPUs ist so überwältigend, dass Unternehmen oft ertragenmonatelange Wartelistennur um ein paar zu erwerben. Diese Nachfrage hat NVIDIA, ihren Haupthersteller, in die Position des wertvollsten Unternehmens der Welt katapultiert.
Für Unternehmen, die nicht in der Lage oder nicht bereit sind, GPUs direkt zu erwerben, ist die Miete von Rechenleistung zurzeit die beste Option. Dies hat zu einem Aufschwung der KI-Cloud-Anbieter geführt – Unternehmen, die hochentwickelte Rechenzentren betreiben, die speziell auf die Berechnungsanforderungen des KI-Booms zugeschnitten sind. Allerdings ist aufgrund des starken Nachfrageanstiegs und seiner unvorhersehbaren Natur weder der Preis noch die Verfügbarkeit garantiert.
Ichargumentierte dass Krypto als “Coasian”-Technologie fungiert, die entwickelt wurde, um “die Räder zu schmieren, die Straßen zu ebnen und die Brücken zu stärken”, damit andere disruptive Innovationen gedeihen können. Während sich KI als transformative Kraft unserer Zeit herausstellt, stellen die Knappheit und die exorbitanten Kosten des GPU-Zugangs ein Hindernis für Innovationen dar. Mehrere Krypto-Unternehmen springen ein und versuchen, diese Barrieren mit Blockchain-basierten Anreizen abzubauen.
In dem heutigen Artikel treten wir zunächst einen Schritt zurück von Krypto, um die Grundlagen der modernen KI-Infrastruktur zu untersuchen – wie neuronale Netzwerke lernen, warum GPUs unverzichtbar geworden sind und wie sich heutige Rechenzentren entwickeln, um beispiellose Rechenanforderungen zu erfüllen. Anschließend tauchen wir in dezentralisierte Rechenlösungen ein und untersuchen, wo sie realistisch betrachtet mit traditionellen Anbietern konkurrieren können, welche einzigartigen Vorteile Krypto-Netzwerke bieten und warum – obwohl sie uns keine AGI geben werden – sie dennoch unverzichtbar sein werden, um sicherzustellen, dass die Vorteile von KI für alle zugänglich bleiben.
Lassen Sie uns zunächst damit beginnen, warum GPUs überhaupt so wichtig sind.
Dies ist David, eine 17 Fuß hohe, 6 Tonnen schwere Marmorskulptur, die vom genialen italienischen Renaissance-Meister Michelangelo geschaffen wurde. Sie stellt den biblischen Helden aus der Geschichte von David und Goliath dar und gilt aufgrund ihrer makellosen Darstellung der menschlichen Anatomie sowie ihrer meisterhaften Aufmerksamkeit für Perspektive und Detail als Meisterwerk.
Wie alle Marmorskulpturen begann David als eine riesige, grobe Platte aus Carrara-Marmor. Um zu seiner endgültigen, majestätischen Form zu gelangen, musste Michelangelo systematisch am Stein arbeiten. Angefangen mit breiten, kühnen Strichen, um die grundlegende menschliche Form festzulegen, arbeitete er sich zu immer feineren Details vor - der Schwung eines Muskels, die Spannung in einer Vene, der subtile Ausdruck des Entschlusses in den Augen. Es dauerte drei Jahre, bis Michelangelo David aus dem Stein befreit hatte.
Aber warum wird in einem Artikel über KI eine 500 Jahre alte Marmorfigur diskutiert?
Wie David beginnt jedes neuronale Netzwerk als reines Potenzial - eine Sammlung von Knoten, die mit zufälligen Zahlen (Gewichten) initialisiert sind, so formlos wie dieser massive Block aus Carrara-Marmor.
Dieses Rohmodell wird wiederholt mit Trainingsdaten gefüttert - unzählige Instanzen von Eingaben, die mit ihren korrekten Ausgaben gepaart sind. Jeder Datenpunkt, der durch das Netzwerk geht, löst Tausende von Berechnungen aus. An jedem Knoten (Neuron) multiplizieren eingehende Verbindungen den Eingabewert mit dem Gewicht der Verbindung, summieren diese Produkte und transformieren das Ergebnis durch eine “Aktivierungsfunktion”, die die Feuerstärke des Neurons bestimmt.
Genau wie Michelangelo zurücktreten, sein Werk bewerten und korrigieren würde, durchlaufen neuronale Netzwerke einen Verfeinerungsprozess. Nach jedem Vorwärtsschritt vergleicht das Netzwerk seine Ausgabe mit der richtigen Antwort und berechnet seinen Fehlerabstand. Durch einen Prozess namens Rückpropagation misst es, wie viel jeder Verbindung zum Fehler beigetragen hat und nimmt wie Michelangelos Meißelschläge Anpassungen an seinen Werten vor. Wenn eine Verbindung zu einer falschen Vorhersage führt, nimmt ihr Einfluss ab. Wenn sie dazu beiträgt, die richtige Antwort zu finden, stärkt sich ihr Einfluss.
Wenn alle Daten durch das Netzwerk gehen (einen Vorwärts- und Rückwärtspropagationsschritt pro Datenpunkt abschließend), markiert dies das Ende eines “Epochs”. Dieser Prozess wiederholt sich mehrmals, wobei jeder Durchgang das Verständnis des Netzwerks verfeinert. Während früherer Epochen sind die Gewichtsänderungen dramatisch, da das Netzwerk weitreichende Anpassungen vornimmt - ähnlich wie die ersten kräftigen Meißelschläge. In späteren Epochen werden die Änderungen subtiler, um die Verbindungen für optimale Leistung zu feinabstimmen - genauso wie zarte letzte Handgriffe die Details von Davids Werk hervorbrachten.
Schließlich, nach Tausenden oder Millionen von Iterationen, entsteht das trainierte Modell. Wie David, der stolz in seiner fertigen Form steht, verwandelt sich das neuronale Netzwerk aus zufälligem Rauschen in ein System, das in der Lage ist, Muster zu erkennen, Vorhersagen zu treffen, Bilder von Katzen auf Rollern zu generieren oder Computern zu ermöglichen, menschliche Sprache zu verstehen und darauf zu antworten.
Michelangelo, der alleine an David arbeitete, konnte nur einen Meißelschlag auf einmal machen, wobei jeder präzise Berechnungen von Winkel, Kraft und Position erforderte. Diese mühsame Genauigkeit ist der Grund, warum er drei unermüdliche Jahre brauchte, um sein Meisterwerk zu vollenden. Stellen Sie sich jedoch Tausende ebenso talentierter Bildhauer vor, die an David in perfekter Koordination arbeiten – ein Team an den Locken des Haares, ein anderes an den Muskeln des Torsos und Hunderte weitere an den komplexen Details des Gesichts, der Hände und Füße. Eine solche parallele Anstrengung würde diese drei Jahre in nur wenigen Tagen zusammenpressen.
Ähnlich wie CPUs leistungsstark und präzise sind, können sie nur eine Berechnung gleichzeitig durchführen. Das Training eines neuronalen Netzwerks erfordert nicht eine einzige komplexe Berechnung, sondern Hunderte Millionen einfache Berechnungen - hauptsächlich Multiplikationen und Additionen an jedem Knoten. Zum Beispiel kann das zuvor erwähnte neuronale Netzwerk mit nur 18 Knoten und etwa 100 Verbindungen (Parameter) innerhalb einer angemessenen Zeitspanne auf einer CPU trainiert werden.
Die leistungsstärksten Modelle von heute, wie OpenAI’s GPT-4, haben jedoch 1,8 Billionen Parameter! Sogar kleinere moderne Modelle enthalten mindestens eine Milliarde Parameter. Das Trainieren dieser Modelle Berechnung für Berechnung würde Jahrhunderte dauern. Hier kommen GPUs zum Einsatz: Sie können eine große Anzahl einfacher mathematischer Berechnungen gleichzeitig durchführen und sind daher ideal für die gleichzeitige Verarbeitung mehrerer neuronaler Netzwerkknoten.
Moderne GPUs sind erstaunlich leistungsstark. NVIDIAs neueste B200 GPU besteht beispielsweise aus über 200 Milliarden Transistoren und unterstützt 2.250 Billionen parallele Berechnungen pro Sekunde (2.250 TFLOPS). Eine einzelne B200 GPU kann Modelle mit bis zu 740 Milliarden Parametern verarbeiten. Diese Maschinen sind Meisterleistungen moderner Technik, was erklärt, warum NVIDIA, die jedes Gerät für 40.000 $ verkauft, in fünf Jahren einen Kursanstieg von über 2.500% verzeichnet hat.
Jensen Huang präsentiert den NVIDIA B200
Aber selbst diese beeindruckenden Maschinen können AI-Modelle nicht alleine trainieren. Bedenken Sie, dass während des Trainings jede Dateninstanz einzeln durch das Modell in einem Vorwärts- und Rückwärtszyklus gehen muss. Moderne große Sprachmodelle (LLMs) werden auf Datensätzen trainiert, die das gesamte Internet umfassen. GPT-4 zum Beispiel hat geschätzte 12 Billionen Token (ungefähr 9 Billionen Wörter) verarbeitet, und die nächste Generation von Modellen soll bis zu 100 Billionen Token verarbeiten können. Die Verwendung einer einzelnen GPU für ein so immenses Datenvolumen würde immer noch Jahrhunderte dauern.
Die Lösung besteht darin, eine weitere Schicht der Parallelität hinzuzufügen - die Erstellung von GPU-Clustern, in denen Trainingsaufgaben auf zahlreiche GPUs verteilt werden, die als einheitliches System arbeiten. Modelltraining-Workloads können auf drei Arten parallelisiert werden:
Datenparallelismus: Mehrere GPUs halten jeweils eine vollständige Kopie des neuronalen Netzwerkmodells, während sie verschiedene Teile der Trainingsdaten verarbeiten. Jede GPU verarbeitet ihren zugewiesenen Datenbatch unabhängig, bevor sie sich regelmäßig mit allen anderen GPUs synchronisiert. In dieser Synchronisationsphase kommunizieren die GPUs miteinander, um einen kollektiven Durchschnitt ihrer Gewichte zu finden und dann ihre individuellen Gewichte zu aktualisieren, sodass sie alle identisch sind. Folglich setzen sie ihr Training an ihrem Datenbatch individuell fort, bevor es wieder Zeit ist, sich zu synchronisieren.
Da Modelle immer größer werden, kann eine einzelne Kopie zu groß werden, um auf einer GPU zu passen. Zum Beispiel kann die neueste B200-GPU nur 740 Milliarden Parameter speichern, während GPT-4 ein Modell mit 1,8 Billionen Parametern ist. Datenparallelismus über einzelne GPUs funktioniert in diesem Fall nicht.
Tensor-Parallelismus: Dieser Ansatz löst das Speicherproblem, indem er die Arbeit und Gewichte jeder Modellschicht auf mehrere GPUs verteilt. GPUs tauschen Zwischenberechnungen bei jedem Vorwärts- und Rückwärtsschritt mit dem gesamten Cluster aus. Diese GPUs sind in der Regel in Servern mit acht Einheiten gruppiert, die über NVLink - NVIDIAs Hochgeschwindigkeits-GPU-zu-GPU-Verbindung - verbunden sind. Diese Einrichtung erfordert eine Hochgeschwindigkeitsverbindung (bis zu 400 Gb / s) und eine geringe Latenz zwischen den GPUs. Ein Tensor-Cluster funktioniert effektiv wie eine einzige massive GPU.
Pipeline-Parallelismus: Diese Methode teilt das Modell über mehrere GPUs auf, wobei jede GPU spezifische Schichten verwaltet. Die Daten fließen sequentiell durch diese GPUs, wie bei einem Staffellauf, bei dem jeder Läufer (GPU) seinen Teil verwaltet, bevor er den Staffelstab übergibt. Pipeline-Parallelismus ist besonders effektiv für die Verbindung unterschiedlicher 8-GPU-Server innerhalb eines Rechenzentrums, wobei Hochgeschwindigkeits-InfiniBand-Netzwerke für die zwischen Server-Kommunikation genutzt werden. Während die Kommunikationsanforderungen höher sind als beim Datenparallelismus, bleiben sie niedriger als bei Tensor-Parallelismus’ intensivem GPU-zu-GPU-Austausch.
Die Skala moderner Cluster ist bemerkenswert. GPT-4 mit 1,8 Billionen Parametern und 120 Schichten benötigte 25.000 A100-GPUs für das Training. Der Prozess dauerte drei Monate und kostete über 60 Millionen Dollar. Der A100 ist zwei Generationen alt; die Verwendung der heutigen B200-GPUs würde nur etwa 8.000 Einheiten und 20 Tage Training erfordern. Nur eine weitere Demonstration dafür, wie schnell KI sich entwickelt.
Aber die GPT-4-Modelle sind jetzt alte Spielzeuge. Das Training für die nächste Generation fortschrittlicher Modelle läuft in Rechenzentren ab, die Cluster von 100.000 B100- oder H100-GPUs (letztere sind eine Generation älter) beherbergen. Diese Cluster, die allein mehr als 4 Milliarden Dollar an GPU-Kapitalausgaben ausmachen, sind die leistungsstärksten Supercomputer der Menschheit und liefern mindestens viermal die Rohrechenleistung staatlicher Rechner.
Abgesehen von der Sicherung von Rohrechnung stoßen ASI-Aspiranten auf ein weiteres Problem bei dem Versuch, diese Cluster einzurichten: Strom. Jede dieser GPUs verbraucht 700W Leistung. Wenn Sie 100.000 davon kombinieren, verbraucht der gesamte Cluster (einschließlich unterstützender Hardware) über 150MW Leistung. Um dies in Perspektive zu setzen, entspricht dieser Verbrauch dem einer Stadt mit 300.000 Einwohnern - vergleichbar mit New Orleans oder Zürich.
Der Wahnsinn hört hier nicht auf. Die meisten ASI-Anwärter glauben, dass die LLM Skalierungsgesetze, die darauf hindeuten, dass sich die Modellleistung mit zunehmender Modellgröße, Datasetgröße und Trainingsrechenleistung vorhersehbar verbessert, wird auch weiterhin gelten. Es gibt bereits Pläne für Trainingsläufe mit noch leistungsfähigeren Modellen. Bis 2025 werden die Kosten für jedes Schulungscluster voraussichtlich 10 Milliarden US-Dollar übersteigen. Bis 2027 über 100 Milliarden US-Dollar. Wenn sich diese Zahlen den Investitionen der US-Regierung in die Apollo-Programme nähern, wird klar, warum sich das Erreichen von ASI als das bestimmende Rennen unserer Ära herauskristallisiert hat.
Metriken für Modelle ab GPT-5 sind Schätzungen
Da der Stromverbrauch proportional mit der Größe der Cluster wächst, werden die Schulungsläufe des nächsten Jahres über 1 GW Leistung benötigen. Im darauffolgenden Jahr werden es 10 GW oder mehr sein. Da keine Anzeichen dafür bestehen, dass sich diese Expansion verlangsamt, wird erwartet, dass Rechenzentren ungefähr 4,5 % des globalen Umsatzes bis 2030 generiert. Bestehende Stromnetze, bereits mit den aktuellen Anforderungen des Modells zu kämpfen, kann nicht genügend Energie für zukünftige Cluster erzeugen. Dies wirft eine kritische Frage auf: Woher wird diese Energie kommen? Big Tech verfolgt einen zweigleisigen Ansatz.
Langfristig ist die einzige tragfähige Lösung, dass ASI-Bewerber ihren eigenen Strom erzeugen. Angesichts ihrer Klimaverpflichtungen muss dieser Strom aus erneuerbaren Quellen stammen. Atomenergie ist die Hauptlösung. Amazonkürzlich gekauftEin Rechenzentrumscampus, der von einem Kernkraftwerk mit 650 Millionen US-Dollar betrieben wird. Microsofthat eingestelltein Experte für Kerntechnologien und istWiederbelebung des historischen Three Mile Island-Kraftwerks. Google hat erwarb mehrere kleine Kernreaktorenvon Kaliforniens Kairos Power. OpenAI’s Sam Altman hat Energie-Startups wie Helion, Exowatt, und Oklo.
Microsoft öffnet das Three Mile Island Kernkraftwerk wieder (Bildquelle)
Während die Samen der Kernkraft jetzt gesät werden, werden die Früchte (oder die Energie) mehrere Jahre brauchen, um zu reifen. Was ist mit den Energieanforderungen für die sofortige Erzeugung von Modellen? Die Übergangslösung besteht darin, das Training auf mehrere Rechenzentren zu verteilen. Anstatt massive Leistungsanforderungen an einem Ort zu konzentrieren, verteilen Unternehmen wie Microsoft und Google ihre Schulungscluster auf mehrere Standorte.
Die Herausforderung besteht natürlich darin, diese verteilten Systeme effektiv zusammenarbeiten zu lassen. Selbst mit Lichtgeschwindigkeit dauert es etwa 43 ms, bis Daten von der Ostküste bis zur Westküste der USA hin und zurück gelangen - eine Ewigkeit in Bezug auf die Berechnung. Darüber hinaus führt bereits eine geringfügige Verzögerung von beispielsweise 10% bei einem Chip dazu, dass der gesamte Trainingslauf in gleichem Maße verlangsamt wird.
Die Lösung besteht darin, Rechenzentren an verschiedenen Standorten mit Hochgeschwindigkeits-Glasfasernetzwerken zu verbinden und eine Kombination der zuvor diskutierten Parallelitätstechniken anzuwenden, um ihre Operationen zu synchronisieren. Tensor-Parallelität wird auf GPUs innerhalb jedes Servers angewendet, um sie als eine Einheit funktionieren zu lassen. Pipeline-Parallelität mit ihren geringeren Netzwerkanforderungen wird verwendet, um Server innerhalb desselben Rechenzentrums zu verbinden. Schließlich synchronisieren Datenzentren an verschiedenen Standorten (auch als „Inseln“ bezeichnet) ihre Informationen periodisch mithilfe von Datenparallelität.
Früher haben wir festgestellt, dass die Datenparallelität für einzelne GPUs unwirksam ist, da sie große Modelle nicht unabhängig voneinander aufnehmen können. Dies ändert sich jedoch, wenn wir Inseln parallelisieren - jede Insel enthält Tausende von GPUs - anstatt einzelne Einheiten. Die Trainingsdaten werden über jede Insel verteilt und diese Inseln synchronisieren sich regelmäßig über die vergleichsweise langsameren (im Vergleich zu NVLink und Infiniband) optischen Faserverbindungen.
Lassen Sie uns unseren Fokus von Training und GPUs auf die Rechenzentren selbst verlagern.
Vor zwanzig Jahren startete Amazon Amazon Web Services (AWS) - eines der transformativesten Unternehmen in der Geschichte - und schuf eine ganz neue Branche namens Cloud Computing. Die heutigen Cloud-Führer (Amazon, Microsoft, Google und Oracle) genießen eine bequeme Dominanz und erzielen einen kombinierten Jahresumsatz von fast 300 Milliarden US-Dollar bei Margen von 30-40%. Die Entstehung von KI hat nun neue Möglichkeiten in einem Markt geschaffen, der seit Jahren weitgehend oligopolistisch geblieben ist.
Die physischen Anforderungen, technische Komplexität und Wirtschaftlichkeit von GPU-intensiven KI-Rechenzentren unterscheiden sich dramatisch von ihren traditionellen Gegenstücken.
Wir haben bereits besprochen, wie energiehungrig GPUs sind. Dies führt dazu, dass KI-Datenzentren viel leistungsdichter sind und folglich mehr Hitze erzeugen. Während herkömmliche Rechenzentren riesige Ventilatoren (Luftkühlung) verwenden, um die Hitze abzuleiten, ist dieser Ansatz weder ausreichend noch wirtschaftlich rentabel für KI-Einrichtungen. Stattdessen setzen KI-Datenzentren Flüssigkeitskühlsysteme ein, bei denen Wasserblöcke direkt an GPUs und andere heiße Komponenten angebracht werden, um die Wärme effizienter und leiser abzuleiten. (Die B200-GPUs sind mit dieser Architektur integriert). Die Unterstützung von Flüssigkühlsystemen erfordert den Einsatz großer Kühltürme, einer zentralisierten Wassersystemeinrichtung und Rohrleitungen zur Wassertransport zu und von allen GPUs - eine grundlegende Modifikation der Rechenzentreninfrastruktur.
Neben dem höheren absoluten Energieverbrauch haben KI-Rechenzentren spezifische Lastanforderungen. Während herkömmliche Rechenzentren einen vorhersehbaren Stromverbrauch aufrechterhalten, sind die Leistungsmuster für KI-Arbeitslasten wesentlich volatiler. Diese Volatilität tritt auf, weil GPUs periodisch zwischen einer Auslastung von 100 % und einer Verlangsamung bis zum Stillstand wechseln, wenn das Training bestimmte Punkte erreicht, an denen die Gewichte entweder im Speicher gespeichert oder, wie wir zuvor gesehen haben, mit anderen Inseln synchronisiert werden. KI-Rechenzentren erfordern eine spezialisierte Strominfrastruktur, um mit diesen Lastschwankungen umzugehen.
Den Aufbau von GPU-Clustern zu realisieren, ist wesentlich schwieriger als der Aufbau herkömmlicher Computer-Clouds. GPUs müssen sehr schnell miteinander kommunizieren. Um dies zu ermöglichen, müssen sie sehr eng beieinander platziert werden. Ein typisches KI-Zentrum benötigt mehr als 200.000 spezielle Kabel, sogenannte InfiniBand-Verbindungen. Diese Kabel ermöglichen den GPUs, miteinander zu kommunizieren. Wenn nur ein Kabel ausfällt, wird das gesamte System heruntergefahren. Der Schulungsprozess kann erst fortgesetzt werden, wenn das Kabel repariert ist.
Diese Infrastrukturanforderungen machen es nahezu unmöglich, herkömmliche Rechenzentren mit leistungsstarken GPUs nachzurüsten, um sie KI-fähig zu machen. Ein solches Upgrade würde einen nahezu vollständigen strukturellen Umbau erfordern. Stattdessen bauen Unternehmen neue Rechenzentren, die speziell für KI von Grund auf konzipiert sind, wobei verschiedene Organisationen dies in unterschiedlichem Maßstab verfolgen.
An vorderster Front rennen führende Tech-Unternehmen, um ihre eigenen KI-Datenzentren zu bauen. Meta investiert stark in Einrichtungen, die ausschließlich für die eigene KI-Entwicklung bestimmt sind, und behandelt sie als direkte Kapitalinvestition, da keine Cloud-Dienste angeboten werden. Microsoft baut ähnlich massive Zentren zur Unterstützung sowohl eigener KI-Projekte als auch wichtiger Kunden wie OpenAI. Oracle ist ebenfalls aggressiv in diesen Bereich eingestiegen und hat OpenAI als bedeutenden Kunden gewonnen. Amazon erweitert weiterhin seine Infrastruktur, insbesondere zur Unterstützung aufstrebender KI-Unternehmen wie Anthropic. Elon Musks xAI hat sich entschieden, sein eigenes 100.000-GPU-Cluster zu bauen, da es nicht auf ein anderes Unternehmen angewiesen sein möchte.
Im Inneren des 100.000 H100 GPU-Rechenzentrums von xAI (Quelle)
Neben den etablierten Anbietern entstehen “Neoklouddienste” - spezialisierte Cloud-Anbieter, die sich ausschließlich auf GPU-Computing für AI-Workloads konzentrieren. Diese Neoklouddienste lassen sich in zwei unterschiedliche Kategorien unterteilen, die auf der Skala basieren.
Große Neokloud-Anbieter, einschließlich CoreWeave, Crusoe, und LLama Labs, betreiben Clusters von über 2.000 GPUs. Sie unterscheiden sich von traditionellen Cloud-Diensten auf zwei Arten: Sie bieten maßgeschneiderte Infrastrukturlösungen anstatt standardisierter Pakete an und verlangen langfristige Kundenverpflichtungen anstelle von Pay-per-Use-Vereinbarungen.
Ihr Geschäftsmodell nutzt diese langfristigen Vereinbarungen und die Kreditwürdigkeit der Kunden, um die Finanzierung der Infrastruktur sicherzustellen. Die Einnahmen stammen aus den Prämien, die für spezialisierte Dienstleistungen berechnet werden, sowie aus den Gewinnen aus der Differenz zwischen den niedrigen Finanzierungskosten und den Kundenzahlungen.
So funktioniert in der Regel eine solche Vereinbarung: Ein Neocloud-Anbieter sichert sich einen Dreijahresvertrag mit einem gut finanzierten KI-Startup für 10.000 H100-GPUs zu 40 Millionen US-Dollar monatlich. Mit diesem garantierten Umsatzstrom von 1,44 Milliarden US-Dollar sichert sich der Anbieter günstige Bankfinanzierungen (mit 6% Zinsen), um Infrastruktur im Wert von 700 Millionen US-Dollar zu kaufen und zu installieren. Die monatlichen Einnahmen von 40 Millionen US-Dollar decken Betriebskosten von 10 Millionen US-Dollar und Kreditzahlungen von 20 Millionen US-Dollar ab, was monatliche Gewinne von 10 Millionen US-Dollar generiert, während das Startup maßgeschneiderte, dedizierte Rechenleistung erhält.
Dieses Modell erfordert eine außergewöhnlich sorgfältige Auswahl der Kunden. Anbieter suchen in der Regel nach Unternehmen mit großen Bargeldreserven oder einer starken Risikokapitalunterstützung, oft mit Bewertungen von 500 Millionen Dollar oder mehr.
Kleine Neowolken bieten GPU-Cluster von 2.000 oder weniger und richten sich an einen separaten Bereich des KI-Marktes - kleine und mittelständische Start-ups. Diese Unternehmen trainieren entweder kleinere Modelle (bis zu 70 Milliarden Parameter) oder optimieren Open-Source-Modelle. (Die Feinabstimmung ist der Prozess, ein Grundmodell an spezifische Anwendungsfälle anzupassen.) Beide Workloads erfordern moderate, aber dedizierte Rechenleistung für kürzere Zeiträume.
Diese Anbieter bieten bedarfsgerechte Computerleistung mit stündlichen Tarifen für unterbrechungsfreien Clusterzugriff für eine festgelegte Dauer an. Obwohl dies teurer ist als langfristige Verträge, gibt es Start-ups die Flexibilität, ohne sich auf Millionen-Dollar-Vereinbarungen festlegen zu müssen, zu experimentieren.
Schließlich haben wir neben den Cloud-Marktführern und Neocloud-Anbietern auch die Vermittler im Bereich der KI-Infrastruktur: Plattformen und Aggregatoren. Diese Vermittler besitzen keine GPU-Infrastruktur, sondern verbinden stattdessen Ressourcenbesitzer mit denen, die sie benötigen.
Plattformanbieter wie HydraHostundFluidstackDienen Sie als das Shopify des GPU-Computings. Genauso wie Shopify es Händlern ermöglicht, Online-Shops zu eröffnen, ohne E-Commerce-Infrastruktur zu entwickeln, ermöglichen diese Plattformen Rechenzentrumsbetreibern und GPU-Besitzern, Rechenleistungen anzubieten, ohne ihre eigenen Kundenschnittstellen zu entwickeln. Sie bieten ein komplettes technisches Paket für den Betrieb eines GPU-Computing-Geschäfts, einschließlich Infrastrukturverwaltungstools, Kundenzuweisungssystemen und Abrechnungslösungen.
Marktplatz-Aggregatoren wie Vast.aiFunktionieren Sie als Amazon der GPU-Welt. Sie erstellen einen Marktplatz, der verschiedene Rechenangebote von verschiedenen Anbietern kombiniert - von Consumer-Grade-RTX-Karten bis hin zu professionellen H100-GPUs. GPU-Besitzer listen ihre Ressourcen mit detaillierten Leistungsmetriken und Zuverlässigkeitsbewertungen auf, während Kunden Rechenzeit über eine Selbstbedienungsplattform erwerben.
Bisher hat sich unsere Diskussion auf das Training (oder das Feintuning) von Modellen konzentriert. Sobald jedoch ein Modell trainiert ist, muss es bereitgestellt werden, um Endbenutzer zu bedienen - ein Vorgang, der als Inferenz bezeichnet wird. Jedes Mal, wenn Sie mit ChatGPT chatten, verwenden Sie GPUs, die Inferenz-Workloads ausführen, die Ihre Eingabe entgegennehmen und die Antwort des Modells generieren. Lassen Sie uns für einen Moment zur Diskussion über Marmorstatuen zurückkehren.
Das ist auch David - nicht das Original von Michelangelo, sondern eine Gipsabdruck, die 1857 von Königin Victoria für das Victoria and Albert Museum in London in Auftrag gegeben wurde. Während Michelangelo drei anstrengende Jahre damit verbrachte, das Original in Florenz aus Marmor herauszumeißeln, wurde dieser Gipsabdruck direkt von der Statue abgenommen und reproduziert jede Kurve, jeden Winkel und jedes Detail, die Michelangelo geschaffen hatte, perfekt. Die intensive kreative Arbeit fand einmal statt. Danach ging es darum, diese Merkmale getreu zu replizieren. Heute findet man Reproduktionen von David überall, von Museumsfluren bis zu Innenhöfen von Las Vegas Casinos.
So funktioniert Inferenz in KI genau. Das Training eines großen Sprachmodells ist wie Michelangelos ursprünglicher skulpturaler Prozess – rechenaufwändig, zeitaufwändig und ressourcenintensiv, da das Modell allmählich die richtige „Form“ der Sprache durch Millionen von winzigen Anpassungen lernt. Aber die Verwendung des trainierten Modells – die Inferenz – ähnelt mehr der Erstellung einer Kopie. Wenn Sie mit ChatGPT chatten, bringen Sie ihm nicht von Grund auf Sprache bei, sondern verwenden eine Kopie eines Modells, dessen Parameter (wie die präzisen Kurven und Winkel von David) bereits perfektioniert wurden.
Inferenz-Workloads unterscheiden sich grundlegend vom Training. Während das Training große, dichte Cluster der neuesten GPUs wie H100s erfordert, um intensive Berechnungen zu bewältigen, können Inferenzen auf Single-GPU-Servern mit älterer Hardware wie A100s oder sogar Consumer-Grade-Karten ausgeführt werden, was deutlich kostengünstiger ist. Das gesagt, Inferenz-Workloads haben ihre eigenen einzigartigen Anforderungen:
Diese Merkmale machen Inferenz-Workloads ideal für Spot-Preismodelle. Unter Spot-Preisgestaltung stehen GPU-Ressourcen zu erheblichen Rabatten zur Verfügung - oft 30-50% unter den On-Demand-Preisen - mit dem Verständnis, dass der Service angehalten werden kann, wenn Kunden mit höherer Priorität Ressourcen benötigen. Dieses Modell eignet sich für Inferenz, da eine redundante Bereitstellung es ermöglicht, Workloads bei Unterbrechungen schnell auf verfügbare GPUs zu verschieben.
In diesem Kontext von GPUs und AI Cloud Computing sind wir jetzt in der Lage, zu erkunden, wo Krypto in all dem passt. Lasst uns endlich dazu kommen.
Projekte und Berichte zitieren häufig Peter Thiels Aussage, dass “KI zentralisiert, Krypto jedoch dezentralisiert” ist, wenn sie die Rolle von Krypto bei der KI-Schulung diskutieren. Obwohl Thiels Aussage zweifellos wahr ist, haben wir gerade ausreichende Beweise für den klaren Vorteil der Big Tech-Unternehmen bei der Schulung leistungsstarker KI gesehen - oft wird fälschlicherweise behauptet, dass Krypto und dezentrale Computer die Hauptlösung zur Ausgleichung des Einflusses von Big Tech bieten.
Solche Behauptungen wiederholen frühere Übertreibungen über das Potenzial von Krypto, Social Media, Gaming und unzähligen anderen Branchen zu revolutionieren. Sie sind nicht nur kontraproduktiv, sondern auch, wie ich gleich argumentieren werde, unrealistisch - zumindest kurzfristig.
Stattdessen werde ich einen pragmatischeren Ansatz wählen. Ich gehe davon aus, dass ein KI-Startup, das auf der Suche nach Rechenleistung ist, sich nicht um die Grundsätze der Dezentralisierung oder den wachsenden ideologischen Widerstand gegen Big Tech kümmert. Vielmehr haben sie ein Problem: Sie wollen Zugang zu zuverlässiger GPU-Rechenleistung zu den geringstmöglichen Kosten. Wenn ein Krypto-Projekt eine bessere Lösung für dieses Problem bieten kann als Nicht-Krypto-Alternativen, werden sie es nutzen.
Um dies zu erreichen, wollen wir zuerst verstehen, mit wem Kryptoprojekte konkurrieren. Zuvor haben wir die verschiedenen Kategorien von KI-Cloud-Anbietern besprochen - Big Tech und Hyperscaler, große Neoclouds, kleine Neoclouds, Plattformanbieter und Marktplätze.
Die grundlegende These hinter dezentralisierter Berechnung (wie alle DePIN-Projekte) ist, dass der aktuelle Berechnungsmarkt ineffizient funktioniert. Die Nachfrage nach GPUs bleibt außergewöhnlich hoch, während das Angebot in globalen Rechenzentren und einzelnen Haushalten fragmentiert und unterausgelastet ist. Die meisten Projekte in diesem Sektor konkurrieren direkt mit Marktplätzen, indem sie dieses verstreute Angebot aggregieren, um Ineffizienzen zu reduzieren.
Nachdem das festgelegt ist, schauen wir uns an, wie diese Projekte (und allgemein Computing-Märkte) bei verschiedenen KI-Workloads unterstützen können – Training, Feinabstimmung und Inferenz.
Zunächst einmal. Nein, ASI wird nicht auf einem globalen Netzwerk von dezentralisierten GPUs trainiert werden. Zumindest nicht auf der aktuellen Trajektorie der KI. Hier ist warum.
Zuvor haben wir gerade besprochen, wie groß die Cluster der Grundlagenmodelle werden. Sie benötigen 100.000 der leistungsstärksten GPUs der Welt, um überhaupt erst anzufangen zu konkurrieren. Diese Zahl steigt nur mit jedem vergehenden Jahr. Bis 2026 wird erwartet, dass die Kosten für einen Trainingsdurchlauf die Marke von 100 Milliarden Dollar überschreiten und vielleicht eine Million oder mehr GPUs erfordern.
Nur große Technologieunternehmen, unterstützt von großen nebulas und direkten Nvidia-Partnerschaften, können Cluster dieser Größenordnung zusammenstellen. Denken Sie daran, wir befinden uns in einem Wettlauf um ASI, und alle Teilnehmer sind hochmotiviert und kapitalisiert. Wenn es einen zusätzlichen Vorrat an so vielen GPUs gäbe (was nicht der Fall ist), dann wären sie die ersten, die sie sich sichern würden.
Selbst wenn ein Kryptoprojekt auf irgendeine Weise die erforderliche Rechenleistung aufbringen würde, stehen zwei grundlegende Hindernisse der dezentralen ASI-Entwicklung im Wege:
Zunächst müssen die GPUs immer noch in großen Clustern verbunden sein, um effektiv zu funktionieren. Auch wenn diese Cluster auf Inseln in Städten aufgeteilt sind, müssen sie durch dedizierte Glasfaserleitungen verbunden sein. Beides ist in einer dezentralen Umgebung nicht möglich. Die Einrichtung von KI-fähigen Rechenzentren erfordert neben der Beschaffung von GPUs eine sorgfältige Planung, die in der Regel ein ein- bis zweijähriger Prozess ist. (xAI hat es in nur 122 Tagen geschafft, aber es ist unwahrscheinlich, dass Elon in naher Zukunft einen Token starten wird.)
Zweitens reicht es nicht aus, nur ein KI-Rechenzentrum zu schaffen, um eine superintelligente KI zu schaffen. Als Anthropic-Gründer Dario Amodei kürzlich erklärtist die Skalierung in der KI analog zu einer chemischen Reaktion. So wie eine chemische Reaktion mehrere Reagenzien in präzisen Proportionen benötigt, um ablaufen zu können, hängt eine erfolgreiche KI-Skalierung von drei wesentlichen Bestandteilen ab, die gemeinsam wachsen: größere Netzwerke, längere Trainingszeiten und größere Datensätze. Wenn Sie eine Komponente ohne die anderen hochskalieren, gerät der Prozess ins Stocken.
Auch wenn es uns irgendwie gelingt, sowohl die Rechenleistung zu akkumulieren als auch die Cluster zusammenarbeiten zu lassen, benötigen wir dennoch Terabyte an hochwertigen Daten, damit das trainierte Modell überhaupt etwas taugt. Ohne die proprietären Datenquellen der Big Tech-Unternehmen, das Kapital für millionenschwere Deals mit Online-Foren und Medien oder bestehende Modelle zur Generierung synthetischer Daten ist es unmöglich, ausreichende Trainingsdaten zu erwerben.
In letzter Zeit gab es Spekulationen, dass Skalierungsgesetze möglicherweise stagnieren könnten, wobei LLMs möglicherweise Leistungsgrenzen erreichen. Einige interpretieren dies als Chance für die dezentrale KI-Entwicklung. Dabei wird jedoch ein wesentlicher Faktor übersehen - die Konzentration von Talenten. Die führenden Forscher der Welt sind heute in den Big Tech-Firmen und KI-Laboren tätig. Jeder alternative Durchbruchsweg zur AGI wird höchstwahrscheinlich aus diesen Zentren kommen. Angesichts der Wettbewerbslandschaft würden solche Entdeckungen eng gehütet bleiben.
Angesichts all dieser Argumente bin ich zu 99,99% sicher, dass das Training von ASI - oder sogar der leistungsstärksten Modelle der Welt - nicht auf einem dezentralen Rechenprojekt geschult wird. In diesem Fall, welche Modelle könnte Krypto tatsächlich beim Training helfen?
Damit Modelle über separate GPU-Cluster hinweg trainiert werden können, die sich an verschiedenen geografischen Standorten befinden, müssen wir die Datenparallelität zwischen ihnen implementieren. (Denken Sie daran, dass Datenparallelität die Art und Weise ist, wie verschiedene Inseln von GPUs, die jeweils an separaten Blöcken der Trainingsdaten arbeiten, miteinander synchronisiert werden). Je größer das zu trainierende Modell ist, desto größer ist die Datenmenge, die zwischen diesen Inseln ausgetauscht werden muss. Wie bereits erwähnt, ist die erforderliche Bandbreite für Frontier-Modelle mit über einer Billion Parametern groß genug, um dedizierte Glasfaserverbindungen zu erfordern.
Für kleinere Modelle verringern sich jedoch die Bandbreitenanforderungen proportional. Neue Durchbrüche in der geringen Kommunikation von Trainingsalgorithmen, insbesondere bei verzögerter Synchronisation, haben vielversprechende Möglichkeiten für das Training von kleinen bis mittelgroßen Modellen auf dezentralisierte Weise geschaffen. Zwei Teams führen diese experimentellen Bemühungen an.
Nous Forschungist ein Unternehmen für AI-Beschleuniger und ein führender Akteur in der Open-Source-AI-Entwicklung. Bekannt sind sie vor allem für ihre Hermes-Serie von Sprachmodellen und innovative Projekte wie World Sim. Anfang dieses Jahres betrieben sie für einige Monate ein LLM-Ranking-BitTensor-Subnetz. Sie haben ihre Zehen in die dezentralisierte Berechnung getaucht, indem sie die freigegeben haben.DisTrO(Distributed Training Over the Internet) Projekt, bei dem sie erfolgreich ein 1,2B Parameter Llama-2 Modell trainiert haben und dabei eine Reduzierung des Inter-GPU-Bandbreitenbedarfs um das 857-fache erreicht haben.
Der DisTrO-Bericht von Nous Research
Prime Intellect, ein Startup, das eine Infrastruktur für dezentrale KI in großem Maßstab entwickelt, zielt darauf ab, globale Rechenressourcen zu aggregieren und das kollaborative Training modernster Modelle durch verteilte Systeme zu ermöglichen. Ihr OpenDiLoCo-Framework(Implementierung von DeepMind’s Verteilter Low-Communication-Methode) erfolgreich ein Milliarden-Parameter-Modell über zwei Kontinente und drei Länder hinweg trainiert und dabei eine Rechenkapazitätsauslastung von 90-95% aufrechterhalten.
Aber wie funktionieren diese dezentralen Trainingseinheiten?
Beim traditionellen datenparallelen Verfahren müssen GPUs ihre Gewichte nach jedem Trainingsschritt teilen und mitteln - dies ist über Internetverbindungen unmöglich. Stattdessen lassen diese Projekte jede “Insel” von GPUs Hunderte von Schritten lang unabhängig voneinander trainieren, bevor sie synchronisiert werden. Stellen Sie es sich wie unabhängige Forschungsteams vor, die an demselben Projekt arbeiten: Anstatt ständig miteinander zu kommunizieren, erzielen sie unabhängig voneinander signifikante Fortschritte, bevor sie ihre Erkenntnisse teilen.
DisTrO und OpenDiLoCo synchronisieren nur alle 500 Schritte und verwenden dabei einen Dual-Optimierungsansatz:
Wenn sie synchronisieren, teilen sie nicht alle Gewichte, sondern teilen einen „Pseudo-Gradienten“ - im Wesentlichen den Unterschied zwischen ihren aktuellen Gewichten und den Gewichten der letzten Synchronisierung. Dies ist bemerkenswert effizient, ähnlich wie das Teilen nur dessen, was sich in einem Dokument geändert hat, anstatt jedes Mal das gesamte Dokument zu senden.
INTELLECT-1, eine praktische Umsetzung von OpenDiLoCo durch Prime Intellect, geht noch einen Schritt weiter, indem sie ein 10B-Parameter-Modell trainiert - der bisher größte dezentralisierte Schulungsversuch. Sie haben wichtige Optimierungen wie hinzugefügt:
INTELLECT-1, trainiert von über 20 GPU-Clustern, die weltweit verteilt sind, kürzlich abgeschlossen pretrainingund wird bald als vollständig Open-Source-Modell veröffentlicht werden.
INTELLECT-1 Schulungs-Dashboard
Teams wie Macrocosmosverwenden ähnliche Algorithmen wieModelle trainierenim Bittensor-Ökosystem.
Wenn diese dezentralen Trainingsalgorithmen weiterhin besser werden, könnten sie mit der nächsten Generation von GPUs Modelle mit bis zu 100 Milliarden Parametern unterstützen. Selbst Modelle dieser Größe können für eine Vielzahl von Anwendungsfällen sehr hilfreich sein:
Fine-Tuning ist der Prozess, ein vortrainiertes Grundmodell (in der Regel ein Open-Source-Modell von Meta, Mistral oder Alibaba) zu nehmen und es weiter auf einem bestimmten Datensatz zu trainieren, um es an bestimmte Aufgaben oder Domänen anzupassen. Dies erfordert wesentlich weniger Berechnungen als das Training von Grund auf, da das Modell bereits allgemeine Sprachmuster gelernt hat und nur seine Gewichte für die neue Domäne anpassen muss.
Berechnen Sie die Anforderungen für die Feinabstimmung der Skala in Abhängigkeit von der Modellgröße. Vorausgesetzt, das Training erfolgt auf einem H100:
Angesichts dieser Spezifikationen erfordert die Feinabstimmung nicht die zuvor diskutierten komplexen verteilten Trainingsalgorithmen. Das On-Demand-Modell, bei dem Entwickler GPU-Cluster für kurze, konzentrierte Zeiträume mieten, bietet ausreichende Unterstützung. Dezentrale Rechenmarktplätze mit robuster GPU-Verfügbarkeit sind ideal positioniert, um diese Workloads zu bewältigen.
Inferenz ist der Bereich, in dem dezentralisierte Rechenmärkte den klarsten Weg zum Produkt-Markt-Fit haben. Ironischerweise ist dies der am wenigsten diskutierte Workflow im Kontext des dezentralisierten Trainings. Dies hat zwei Gründe: Inferenz fehlt der Reiz von 100.000 GPU “Gott-Modell”-Trainingsläufen, und teilweise aufgrund der aktuellen Phase der KI-Revolution.
Heute wird tatsächlich der Großteil der Berechnungen für das Training verwendet. Der Wettlauf zu ASI führt zu massiven Vorabinvestitionen in die Trainingsinfrastruktur. Diese Balance verschiebt sich jedoch zwangsläufig, wenn KI-Anwendungen von der Forschung zur Produktion übergehen. Um ein nachhaltiges Geschäftsmodell rund um KI zu erreichen, muss der aus der Inferenz generierte Umsatz die Kosten für Training und Inferenz zusammen übersteigen. Obwohl das Training von GPT-4 enorm teuer war, handelte es sich um eine Einmalzahlung. Die laufenden Rechenkosten und der Weg von OpenAI zur Rentabilität werden durch die Bedienung von Milliarden von Inferenzanfragen für zahlende Kunden getrieben.
Compute-Marktplatz, dezentralisiert oder anderweitig, durch die Natur der Aggregation einer Vielzahl von Modellen von GPU (alt und neu) aus der ganzen Welt, finden sich in einer einzigartigen Position, um Inferenz-Workloads zu bedienen.
Compute-Marktplätze, ob dezentral oder traditionell, zeichnen sich natürlich durch Inferenz-Workloads aus, indem sie verschiedene GPU-Modelle (sowohl aktuelle als auch ältere) global aggregieren. Ihre inhärenten Vorteile passen perfekt zu den Inferenzanforderungen: breite geografische Verteilung, konsistente Betriebszeit, Systemredundanz und Kompatibilität über GPU-Generationen hinweg.
Wir haben die verschiedenen Workflows besprochen, bei denen dezentrales Computing helfen kann und bei denen nicht. Jetzt müssen wir eine weitere wichtige Frage beantworten: Warum sollte sich ein Entwickler dafür entscheiden, Rechenleistung von einem dezentralen Anbieter zu sichern und nicht von einem zentralen? Welche überzeugenden Vorteile bieten dezentrale Lösungen?
Stablecoins haben es geschafft, Produkt-Markt-Fit zu erreichen, indem sie eine überlegene Alternative zu traditionellen grenzüberschreitenden Zahlungen anbieten. Ein großer Faktor ist, dass Stablecoins einfach viel günstiger sind! Ebenso ist der wichtigste Faktor, der die Wahl des Cloud-Anbieters eines KI-Entwicklers beeinflusst, die Kosten. Damit dezentrale Rechenanbieter effektiv konkurrieren können, müssen sie zuerst eine überlegene Preisgestaltung bieten.
Ein Compute-Marktplatz ist wie alle Märkte ein Geschäft mit Netzwerkeffekten. Je größer das Angebot an GPUs auf einer Plattform ist, desto größer ist die Liquidität und Verfügbarkeit für Kunden, was wiederum mehr Nachfrage anzieht. Mit wachsender Nachfrage werden mehr GPU-Besitzer dazu angeregt, dem Netzwerk beizutreten und so einen Teufelskreis zu schaffen. Ein erhöhtes Angebot ermöglicht auch wettbewerbsfähigere Preise durch bessere Zuordnung und reduzierte Leerlaufzeiten. Wenn Kunden die benötigte Rechenleistung zu attraktiven Preisen finden können, ist es wahrscheinlicher, dass sie dauerhafte technische Abhängigkeiten auf der Plattform aufbauen, was die Netzwerkeffekte weiter stärkt.
Diese Dynamik ist besonders wirkungsvoll bei der Inferenz, bei der die geografische Verteilung des Angebots das Produktangebot tatsächlich verbessern kann, indem die Latenz für die Endbenutzer reduziert wird. Der erste Marktplatz, der dieses Liquiditätsschwungrad in großem Maßstab erreicht, wird einen erheblichen Wettbewerbsvorteil haben, da sowohl Lieferanten als auch Kunden mit Wechselkosten konfrontiert sind, sobald sie sich in die Tools und Workflows einer Plattform integriert haben.
Das Netzwerk des GPU-Marktplatzes wirkt sich auf das Schwungrad aus
In solchen Gewinner-nehmen-alles Märkten,Netzwerk bootstrappenund das Erreichen der Fluchtgeschwindigkeit ist die entscheidende Phase. Hier bietet die Kryptoindustrie dezentralisierten Rechenprojekten ein sehr mächtiges Werkzeug, das ihre zentralisierten Konkurrenten einfach nicht besitzen: Token-Anreize.
Die Mechanik kann einfach, aber kraftvoll sein. Das Protokoll würde zunächst einen Token starten, der einen inflationsbedingten Belohnungsplan enthält und möglicherweise anfängliche Zuweisungen an frühe Beitragszahler durch Lufttropfen verteilt. Diese Token-Emissionen würden als primäres Instrument zum Bootstrappen beider Seiten des Marktplatzes dienen.
Für GPU-Anbieter sollte die Belohnungsstruktur sorgfältig gestaltet werden, um das Verhalten auf der Angebotsseite zu beeinflussen. Die Anbieter würden Token verdienen, die proportional zu ihren beigesteuerten Rechen- und Nutzungsraten sind, aber das System sollte über einfache lineare Belohnungen hinausgehen. Das Protokoll könnte dynamische Belohnungsmultiplikatoren implementieren, um geografische oder hardwarespezifische Ungleichgewichte auszugleichen – ähnlich wie Uber Preiserhöhungen einsetzt, um Anreize für Fahrer in Gebieten mit hoher Nachfrage zu schaffen.
Ein Anbieter könnte 1,5-fache Belohnungen für die Bereitstellung von Computing in unterversorgten Regionen erhalten oder 2-fache Belohnungen für die Bereitstellung vorübergehend knapper GPU-Typen erhalten. Durch die weitere Staffelung des Belohnungssystems basierend auf konsistenten Auslastungsraten würden Anbieter ermutigt, eine stabile Verfügbarkeit aufrechtzuerhalten, anstatt opportunistisch zwischen Plattformen zu wechseln.
Auf der Nachfrageseite würden Kunden Token-Belohnungen erhalten, die ihren Verbrauch effektiv subventionieren. Das Protokoll könnte erhöhte Belohnungen für längere Rechenverpflichtungen anbieten, um die Nutzer dazu zu motivieren, tiefere technische Abhängigkeiten von der Plattform aufzubauen. Diese Belohnungen könnten weiterhin so strukturiert sein, dass sie mit den strategischen Prioritäten der Plattform, wie der Erfassung der Nachfrage in einer bestimmten geografischen Region, in Einklang stehen.
Die Basissätze für die Berechnung könnten auf oder leicht unter den Marktsätzen gehalten werden, wobei Protokolle verwendet werdenzkTLS-Orakelum kontinuierlich die Preise von Wettbewerbern zu überwachen und anzupassen. Die Token-Belohnungen würden dann als zusätzliche Anreizschicht über diesen wettbewerbsfähigen Basissätzen dienen. Dieses duale Preismodell würde es der Plattform ermöglichen, Wettbewerbsfähigkeit bei den Preisen aufrechtzuerhalten, während gleichzeitig Token-Anreize genutzt werden, um spezifisches Verhalten zu fördern, das das Netzwerk stärkt.
Durch die Verteilung von Token-Anreizen würden sowohl Anbieter als auch Kunden anfangen, einen Anteil am Netzwerk anzusammeln. Während einige, vielleicht die meisten, diese Anteile verkaufen könnten, würden andere daran festhalten und effektiv zu Stakeholdern und Befürwortern der Plattform werden. Diese engagierten Teilnehmer hätten ein persönliches Interesse am Erfolg des Netzwerks und trügen zu dessen Wachstum und Verbreitung bei, unabhängig von ihrer direkten Nutzung oder Bereitstellung von Rechenressourcen.
Im Laufe der Zeit, wenn das Netzwerk eine Fluchtgeschwindigkeit erreicht und starke Netzwerkeffekte etabliert, können diese Token-Anreize allmählich reduziert werden. Die natürlichen Vorteile, die sich aus dem größten Marktplatz ergeben - bessere Übereinstimmung, höhere Auslastung, breitere geografische Abdeckung - würden zu selbsttragenden Wachstumstreibern werden.
Wie Token-Anreize das Flywheel des GPU-Marktplatzes beschleunigen können
Während Preis und Reichweite entscheidende Unterscheidungsmerkmale sind, adressieren dezentrale Rechennetzwerke eine wachsende Sorge: operationale Beschränkungen von zentralisierten Anbietern. Traditionelle Cloud-Anbieter haben bereits ihre Bereitschaft gezeigt, Dienste aufgrund Inhaltspolitik und externer Druck. Diese Präzedenzfälle werfen berechtigte Fragen darüber auf, wie sich ähnliche Richtlinien auf die Entwicklung und Bereitstellung von KI-Modellen auswirken könnten.
Da KI-Modelle immer ausgefeilter werden und immer vielfältigere Anwendungsfälle bewältigen, besteht die reale Möglichkeit, dass Cloud-Anbieter Beschränkungen für das Training und die Bereitstellung von Modellen einführen, ähnlich wie bei ihren bestehenden Ansätzen zur Inhaltsmoderation. Dies könnte sich nicht nur auf NSFW-Inhalte und kontroverse Themen auswirken, sondern auch auf legitime Anwendungsfälle in Bereichen wie medizinischer Bildgebung, wissenschaftlicher Forschung oder kreativer Kunst, die übermäßig vorsichtige automatisierte Filter auslösen könnten.
Ein dezentrales Netzwerk bietet eine Alternative, indem es den Marktteilnehmern ermöglicht, ihre eigenen Infrastrukturentscheidungen zu treffen, wodurch möglicherweise ein freieres und uneingeschränkteres Umfeld für Innovationen geschaffen wird.
Die Kehrseite der erlaubnisfreien Architektur ist, dass der Datenschutz zu einer größeren Herausforderung wird. Wenn die Datenverarbeitung über ein Netzwerk von Anbietern verteilt ist und nicht in den Rechenzentren einer einzelnen vertrauenswürdigen Entität, müssen Entwickler über die Datensicherheit nachdenken. Verschlüsselung und vertrauenswürdige Ausführungsumgebungen können zwar hilfreich sein, aber es gibt einen inhärenten Kompromiss zwischen Zensurresistenz und Datenschutz, den Entwickler je nach ihren spezifischen Anforderungen bewältigen müssen.
Angesichts der hohen Nachfrage nach KI-Computing können GPU-Anbieter ihre Position nutzen, um maximalen Gewinn aus erfolgreichen Kunden zu ziehen. In einem Post von letztem Jahr, der berühmte Einzelentwickler Pieter Levels teilte mit, wie er und andere Entwickler erlebten, dass ihre Anbieter nach der öffentlichen Bekanntgabe der Umsatzzahlen ihrer KI-App die Preise um über 600% erhöhten.
Dezentralisierte Systeme können eine Gegenmaßnahme zu diesem Problem darstellen: vertrauenslose Vertragserfüllung. Wenn Vereinbarungen in der Blockchain codiert werden anstatt in den Dienstbedingungen vergraben zu sein, werden sie transparent und unveränderlich. Ein Anbieter kann die Preise nicht willkürlich erhöhen oder die Bedingungen während eines laufenden Vertrags ändern, ohne dass die Änderungen explizit durch das Protokoll vereinbart werden.
Über die Preisgestaltung hinaus können dezentralisierte Netzwerke nutzen Vertrauenswürdige Ausführungsumgebungen (TEEs)um verifizierbare Berechnungen bereitzustellen. Dadurch wird sichergestellt, dass Entwickler tatsächlich die GPU-Ressourcen erhalten, für die sie bezahlen - sowohl in Bezug auf die Hardware-Spezifikationen als auch den dedizierten Zugriff. Wenn beispielsweise ein Entwickler für dedizierten Zugriff auf acht H100-GPUs zur Modellschulung bezahlt, können kryptografische Beweise überprüfen, dass ihre Workloads tatsächlich auf H100s mit vollen 80 GB Speicher pro GPU ausgeführt werden, anstatt stillschweigend auf niedrigerwertige Karten herabgestuft zu werden oder Ressourcen mit anderen Benutzern zu teilen.
Dezentralisierte Computernetzwerke können Entwicklern wirklich erlaubnisfreie Alternativen bieten. Anders als traditionelle Anbieter, die umfangreiche KYC-Prozesse und Bonitätsprüfungen erfordern, kann jeder diesen Netzwerken beitreten und mit dem Konsumieren oder Bereitstellen von Rechenressourcen beginnen. Dies senkt die Einstiegshürde dramatisch, insbesondere für Entwickler in Schwellenländern oder solche, die an experimentellen Projekten arbeiten.
Die Bedeutung dieser freizügigen Natur wird noch kraftvoller, wenn wir die Zukunft der KI-Agenten betrachten. KI-Agenten haben gerade erst begonnen, ihren Platz zu finden, mit vertikal integrierte Agentenvoraussichtlich die Größe der SaaS-Branche übertreffen. Mit Größen wie Wahrheits-Terminal und Zerebro, wir sehen die ersten Anzeichen dafür, dass Agenten an Autonomie gewinnen und lernen, externe Tools wie soziale Medien und Bildgeneratoren zu nutzen.
Da diese autonomen Systeme immer ausgefeilter werden, müssen sie möglicherweise ihre eigenen Rechenressourcen dynamisch bereitstellen. Ein dezentrales Netzwerk, in dem Verträge vertrauenslos durch Code anstatt durch menschliche Vermittler ausgeführt werden können, ist die natürliche Infrastruktur für diese Zukunft. Agenten könnten autonom Verträge verhandeln, die Leistung überwachen und ihre Rechenkapazität basierend auf der Nachfrage anpassen - alles ohne menschliches Eingreifen oder Genehmigung.
Das Konzept dezentralisierter Berechnungsnetzwerke ist nicht neu - Projekte haben versucht, den Zugang zu knappen Rechenressourcen lange vor dem aktuellen AI-Boom zu demokratisieren.Render-Netzwerkbetreibt seit 2017 und aggregiert GPU-Ressourcen zur Darstellung von Computergrafiken.Akash wurde 2020 ins Leben gerufen, um einen offenen Marktplatz für allgemeines Computing zu schaffen. Beide Projekte waren in ihren Nischen mäßig erfolgreich, konzentrieren sich nun aber auf KI-Workloads.
Ähnlich verhält es sich mit dezentralen Speichernetzwerken wie Gate.io.FilecoinundArweaveexpandieren in die Berechnung. Sie erkennen, dass es sinnvoll ist, integrierte Lösungen anzubieten, da KI sowohl Speicher als auch Berechnung in Anspruch nimmt.
Genau wie traditionelle Rechenzentren Schwierigkeiten haben, mit speziell für KI entwickelten Einrichtungen zu konkurrieren, stehen diese etablierten Netzwerke vor einem steilen Kampf gegen KI-native Lösungen. Ihnen fehlt die DNA, um die komplexe Orchestrierung für KI-Workloads auszuführen. Stattdessen finden sie ihren Platz, indem sie Rechenleistung für andere KI-spezifische Netzwerke bereitstellen. Zum Beispiel machen Render und Akash nun ihre GPUs auf dem Marktplatz von io.net verfügbar.
Wer sind diese neuen KI-native Marktplätze?io.netist einer der frühen Marktführer bei der Aggregation von GPU-Angeboten für Unternehmen mit über 300.000 verifizierten GPUs in seinem Netzwerk. Sie behaupten, dass sie 90% Kostenersparnis gegenüber zentralisierten Mitbewerbern bieten und tägliche Einnahmen von über $25.000 ($9 Mio. jährlich) erzielt haben. Ebenso, Aethiraggregiert über 40.000 GPUs (einschließlich 4.000+ H100s), um sowohl KI- als auch Cloud-Computing-Anwendungsfälle zu bedienen.
Früher haben wir besprochen, wie Prime Intellect die Rahmenbedingungen für dezentrales Training im großen Maßstab schafft. Neben diesen Bemühungen stellen sie auch eine GPU Marktplatzwo Benutzer H100s auf Abruf mieten können.Wiedersehensetzt ebenfalls auf dezentrales Training mit einem ähnlichen Schulungsrahmen und einem Ansatz für den GPU-Marktplatz.
Während dies alles arbeitslastunabhängige Marktplätze sind (sie unterstützen sowohl das Training als auch die Inferenz), konzentrieren sich einige Projekte nur auf die Inferenz - die dezentralisierte Rechenlast, auf die wir uns am meisten freuen. Exo Labs ist einer der wichtigsten unter ihnen. Es ermöglicht Benutzern, LLMs der Frontier-Ebene auf Alltagsgeräten auszuführen. Sie haben eine Open-Source-Plattform entwickelt, die die Verteilung von KI-Inferenzaufgaben auf mehreren Geräten wie iPhones, Androids und Macs ermöglicht. Sie kürzlich gezeigtDie Ausführung eines 70-B-Modells (skalierbar auf 400-B), das auf vier M4 Pro Mac Minis verteilt ist.
Als Satoshi Bitcoin im Jahr 2008 startete, waren seine Vorteile - digitales Gold mit einer begrenzten Versorgung und zensurresistentem Geld - rein theoretisch. Das traditionelle Finanzsystem funktionierte trotz seiner Mängel. Zentralbanken hatten noch nicht mit der beispiellosen Geldschöpfung begonnen. Internationale Sanktionen wurden noch nicht gegen ganze Volkswirtschaften eingesetzt. Die Notwendigkeit einer Alternative schien eher akademisch als dringend.
Es dauerte ein Jahrzehnt der quantitativen Lockerung, die in der COVID-Ära monetäre Expansion kulminierte, damit die theoretischen Vorteile von Bitcoin in einen greifbaren Wert kristallisieren konnten. Heute, da die Inflation die Ersparnisse erodiert und geopolitische Spannungen die Dominanz des Dollars bedrohen, hat sich die Rolle von Bitcoin als „digitales Gold“ von einem Cypherpunk-Traum zu einem von Institutionen und Nationalstaaten angenommenen Vermögenswert entwickelt.
Dieses Muster wiederholte sich mit Stablecoins. Sobald eine allgemeine Blockchain auf Ethereum verfügbar war, wurden Stablecoins sofort zu einem der vielversprechendsten Anwendungsfälle. Dennoch dauerte es Jahre der stufenweisen Verbesserungen in der Technologie und der Wirtschaft von Ländern wie Argentinien und der Türkei, die von Inflation heimgesucht wurden, damit Stablecoins sich von einer Nischenkrypto-Innovation zu einer wichtigen Finanzinfrastruktur entwickeln konnten, die jährlich Billionen von Dollar bewegt.
Krypto ist von Natur aus eine defensive Technologie - Innovationen, die in guten Zeiten unnötig erscheinen, aber während Krisen unverzichtbar werden. Der Bedarf an diesen Lösungen wird nur dann deutlich, wenn bestehende Systeme versagen oder ihre wahren Farben zeigen.
Heute leben wir im goldenen Zeitalter der KI. Risikokapital fließt frei, Unternehmen konkurrieren um die niedrigsten Preise und Beschränkungen, wenn überhaupt, sind selten. In dieser Umgebung können dezentrale Alternativen unnötig erscheinen. Warum sich mit den Komplexitäten der Tokenökonomie und des Nachweissystems befassen, wenn herkömmliche Anbieter gut funktionieren?
Aber wenn man sich an den großen Technologiewellen der Vergangenheit orientiert, ist diese Güte zeitlich begrenzt. Wir sind kaum zwei Jahre in die AI-Revolution eingetreten. Wenn die Technologie reift und die Gewinner des AI-Rennens hervorgehen, wird ihre wahre Macht zum Vorschein kommen. Die gleichen Unternehmen, die heute großzügigen Zugang bieten, werden letztendlich Kontrolle ausüben – durch Preisgestaltung, durch Richtlinien, durch Berechtigungen.
Es geht nicht nur um einen weiteren Technologiezyklus. KI wird zum neuen Substrat der Zivilisation - die Linse, durch die wir Informationen verarbeiten, Kunst schaffen, Entscheidungen treffen und letztendlich als Spezies weiterentwickeln werden. Berechnungen sind mehr als nur eine Ressource; sie sind die Währung der Intelligenz selbst. Diejenigen, die den Fluss kontrollieren, werden die kognitive Grenze der Menschheit formen.
Dezentralisierte Berechnungen geht es nicht darum, günstigere GPUs oder flexiblere Bereitstellungsoptionen anzubieten (obwohl es beides bieten muss, um erfolgreich zu sein). Es geht darum sicherzustellen, dass der Zugang zur künstlichen Intelligenz – der bahnbrechendsten Technologie der Menschheit – nicht zensiert und souverän bleibt. Es ist unser Schutzschild gegen eine unvermeidliche Zukunft, in der nur eine Handvoll Unternehmen nicht nur bestimmt, wer KI verwenden kann, sondern auch wie sie damit denken können.
Wir bauen diese Systeme heute nicht, weil sie sofort notwendig sind, sondern weil sie morgen unverzichtbar sein werden. Wenn KI für die Gesellschaft genauso grundlegend wird wie Geld, wird das permissionless Compute nicht nur eine Alternative sein, sondern genauso wichtig sein, um der digitalen Hegemonie zu widerstehen, wie Bitcoin und Stablecoins es sind, um der finanziellen Kontrolle zu widerstehen.
Der Wettlauf zur künstlichen Superintelligenz könnte jenseits der Reichweite von dezentralisierten Systemen liegen. Aber sicherstellen, dass die Früchte dieses Intelligenz für alle zugänglich bleiben? Das ist ein Rennen, das es wert ist, geführt zu werden.
Weiterleiten des Originaltitels: Dezentralisierte Berechnung
Der heutige Artikel behandelt den aufstrebenden, aber oft missverstandenen Bereich des dezentralisierten Computing im Krypto-Bereich. Wir tauchen in die Landschaft der KI-Infrastruktur ein, um zu verstehen, wo dezentrale Alternativen realistisch konkurrieren können.
Wir erkunden Fragen wie: Kann ASI auf verteilten Netzwerken trainiert werden? Welche einzigartigen Vorteile bieten Krypto-Netzwerke? Und warum könnte eine genehmigungslose Recheninfrastruktur ebenso wesentlich für KI werden wie Bitcoin für die Finanzen ist.
Ein häufiges Muster, das Sie in dem Artikel bemerken werden, ist das exponentielle Wachstum von allem KI—Investitionen, Rechenleistung und Fähigkeiten. Dies fällt zusammen mit einer Wiederbelebung der Kryptomärkte und des Bewusstseins. Wir sind sehr gespannt auf die Schnittstelle dieser beiden großen Technologiewellen.
Hallo!
An einem sonnigen Tag in Memphis, Tennessee, kreiste ein Propeller-Spionageflugzeug wiederholt über einem Industriegebäude und seine Passagiere fotografierten hektisch die darunter liegenden Einrichtungen. Dies war keine Szene aus dem Kalten Krieg, sondern aus dem Jahr 2024. Das Ziel war keine militärische Einrichtung oder Urananreicherungsstätte, sondern eine ehemalige Haushaltsgerätefabrik, die jetzt einen der leistungsstärksten Supercomputer der Welt beherbergt. Die Passagiere waren keine ausländischen Agenten, sondern Mitarbeiter eines rivalisierenden Rechenzentrumsunternehmens.
Alle paar Jahrzehnte taucht eine transformative Technologie auf, die das Potenzial hat, die Entwicklung der Zivilisation unbestreitbar zu verändern. Es folgt ein Wettlauf zwischen den mächtigsten Organisationen der Welt, um diese Technologie als Erste zu realisieren. Die Belohnungen sind so immens und die Folgen eines Scheiterns so verheerend, dass diese Organisationen schnell ihr gesamtes Arsenal an Ressourcen - menschliches Talent und Kapital - mobilisieren, um die Technologie zu beherrschen.
Im 20. Jahrhundert erfüllten zwei herausragende Technologien diese Definition: Atomwaffen und Raumfahrt. Der Wettlauf um die Nutzung dieser Technologien umfasste die mächtigsten Nationen. Die Siege der Vereinigten Staaten in beiden Bereichen festigten ihren Status als dominierende Supermacht der Welt und leiteten eine Ära beispielloser Prosperität ein. Für die Besiegten - Nazi-Deutschland und die Sowjetunion - waren die Folgen verheerend, sogar tödlich.
Die riesige 44 Hektar große K-25 Anlage in Oak Ridge, Tennessee, USA, in der das Uran für die erste Atombombe hergestellt wurde (gateQuelle)
Amerikas Sieg hatte einen enormen Preis. Das Manhattan-Projekt kostete fast 2 Milliarden US-Dollar (ungefähr 30 Milliarden US-Dollar inflationsbereinigt) und beschäftigte über 120.000 Menschen - einer von tausend Amerikanern. Der Wettlauf im Weltraum erforderte noch größere Ressourcen. Das Apollo-Programm kostete in den 1960er Jahren 28 Milliarden US-Dollar (ungefähr 300 Milliarden US-Dollar von heute) und umfasste über 400.000 Menschen - einer von 490 Amerikanern. Im Jahr 1966 hatte die NASA mit 4,4% des gesamten US-Bundeshaushalts ihren Höhepunkt erreicht.
Die Apollo 11, kurz vor dem Start der Mission zum Mond (Quelle)
Die Einführung von ChatGPT im Jahr 2022 markierte den Beginn eines neuen Rennens mit zivilisationsverändernden Ausmaßen - die Verfolgung künstlicher Superintelligenz (ASI). Während KI bereits in den Alltag integriert ist - Verwaltung von Social-Media-Feeds, Netflix-Empfehlungen und E-Mail-Spam-Filtern - verspricht das Aufkommen großer Sprachmodelle (LLMs), alles zu verändern: menschliche Produktivität, Medienkreation, wissenschaftliche Forschung und Innovation selbst.
Dieses Mal sind es nicht (zumindest noch nicht) die Nationen, die um die Vorherrschaft kämpfen, sondern die größten Unternehmen der Welt (Microsoft, Google, Meta, Amazon), die heißesten Startups (OpenAI, Anthropic) und der reichste Einzelne (Elon Musk). Während Big Tech beispielloses Kapital in den Aufbau der Infrastruktur für das Training immer leistungsstärkerer Modelle lenkt, sichern Startupsrekordverdächtig Risikokapitalfinanzierung. Elon ist, nun ja, Elon Dinge tun(Das überwachte Rechenzentrum gehörte seinem Unternehmen xAI).
Und dann gibt es alle anderen - Unternehmen, kleinere Unternehmen und Start-ups -, die vielleicht nicht darauf abzielen, ASI zu entwickeln, aber bestrebt sind, die modernsten Fähigkeiten, die durch KI freigesetzt werden, zu nutzen, um ihr Geschäft zu optimieren, eine Branche zu stören oder völlig neue zu schaffen. Die potenziellen Belohnungen sind so groß, dass alle darum kämpfen, ihren Anteil an dieser neuen, KI-getriebenen Wirtschaft zu beanspruchen.
Im Herzen der KI-Revolution liegt ihr wichtigster Bestandteil: die Grafikverarbeitungseinheit (GPU). Ursprünglich für die Leistung von Videospielen entwickelt, ist dieser spezialisierte Computerchip zu der heiß begehrtesten Ware der Welt geworden. Die Nachfrage nach GPUs ist so überwältigend, dass Unternehmen oft ertragenmonatelange Wartelistennur um ein paar zu erwerben. Diese Nachfrage hat NVIDIA, ihren Haupthersteller, in die Position des wertvollsten Unternehmens der Welt katapultiert.
Für Unternehmen, die nicht in der Lage oder nicht bereit sind, GPUs direkt zu erwerben, ist die Miete von Rechenleistung zurzeit die beste Option. Dies hat zu einem Aufschwung der KI-Cloud-Anbieter geführt – Unternehmen, die hochentwickelte Rechenzentren betreiben, die speziell auf die Berechnungsanforderungen des KI-Booms zugeschnitten sind. Allerdings ist aufgrund des starken Nachfrageanstiegs und seiner unvorhersehbaren Natur weder der Preis noch die Verfügbarkeit garantiert.
Ichargumentierte dass Krypto als “Coasian”-Technologie fungiert, die entwickelt wurde, um “die Räder zu schmieren, die Straßen zu ebnen und die Brücken zu stärken”, damit andere disruptive Innovationen gedeihen können. Während sich KI als transformative Kraft unserer Zeit herausstellt, stellen die Knappheit und die exorbitanten Kosten des GPU-Zugangs ein Hindernis für Innovationen dar. Mehrere Krypto-Unternehmen springen ein und versuchen, diese Barrieren mit Blockchain-basierten Anreizen abzubauen.
In dem heutigen Artikel treten wir zunächst einen Schritt zurück von Krypto, um die Grundlagen der modernen KI-Infrastruktur zu untersuchen – wie neuronale Netzwerke lernen, warum GPUs unverzichtbar geworden sind und wie sich heutige Rechenzentren entwickeln, um beispiellose Rechenanforderungen zu erfüllen. Anschließend tauchen wir in dezentralisierte Rechenlösungen ein und untersuchen, wo sie realistisch betrachtet mit traditionellen Anbietern konkurrieren können, welche einzigartigen Vorteile Krypto-Netzwerke bieten und warum – obwohl sie uns keine AGI geben werden – sie dennoch unverzichtbar sein werden, um sicherzustellen, dass die Vorteile von KI für alle zugänglich bleiben.
Lassen Sie uns zunächst damit beginnen, warum GPUs überhaupt so wichtig sind.
Dies ist David, eine 17 Fuß hohe, 6 Tonnen schwere Marmorskulptur, die vom genialen italienischen Renaissance-Meister Michelangelo geschaffen wurde. Sie stellt den biblischen Helden aus der Geschichte von David und Goliath dar und gilt aufgrund ihrer makellosen Darstellung der menschlichen Anatomie sowie ihrer meisterhaften Aufmerksamkeit für Perspektive und Detail als Meisterwerk.
Wie alle Marmorskulpturen begann David als eine riesige, grobe Platte aus Carrara-Marmor. Um zu seiner endgültigen, majestätischen Form zu gelangen, musste Michelangelo systematisch am Stein arbeiten. Angefangen mit breiten, kühnen Strichen, um die grundlegende menschliche Form festzulegen, arbeitete er sich zu immer feineren Details vor - der Schwung eines Muskels, die Spannung in einer Vene, der subtile Ausdruck des Entschlusses in den Augen. Es dauerte drei Jahre, bis Michelangelo David aus dem Stein befreit hatte.
Aber warum wird in einem Artikel über KI eine 500 Jahre alte Marmorfigur diskutiert?
Wie David beginnt jedes neuronale Netzwerk als reines Potenzial - eine Sammlung von Knoten, die mit zufälligen Zahlen (Gewichten) initialisiert sind, so formlos wie dieser massive Block aus Carrara-Marmor.
Dieses Rohmodell wird wiederholt mit Trainingsdaten gefüttert - unzählige Instanzen von Eingaben, die mit ihren korrekten Ausgaben gepaart sind. Jeder Datenpunkt, der durch das Netzwerk geht, löst Tausende von Berechnungen aus. An jedem Knoten (Neuron) multiplizieren eingehende Verbindungen den Eingabewert mit dem Gewicht der Verbindung, summieren diese Produkte und transformieren das Ergebnis durch eine “Aktivierungsfunktion”, die die Feuerstärke des Neurons bestimmt.
Genau wie Michelangelo zurücktreten, sein Werk bewerten und korrigieren würde, durchlaufen neuronale Netzwerke einen Verfeinerungsprozess. Nach jedem Vorwärtsschritt vergleicht das Netzwerk seine Ausgabe mit der richtigen Antwort und berechnet seinen Fehlerabstand. Durch einen Prozess namens Rückpropagation misst es, wie viel jeder Verbindung zum Fehler beigetragen hat und nimmt wie Michelangelos Meißelschläge Anpassungen an seinen Werten vor. Wenn eine Verbindung zu einer falschen Vorhersage führt, nimmt ihr Einfluss ab. Wenn sie dazu beiträgt, die richtige Antwort zu finden, stärkt sich ihr Einfluss.
Wenn alle Daten durch das Netzwerk gehen (einen Vorwärts- und Rückwärtspropagationsschritt pro Datenpunkt abschließend), markiert dies das Ende eines “Epochs”. Dieser Prozess wiederholt sich mehrmals, wobei jeder Durchgang das Verständnis des Netzwerks verfeinert. Während früherer Epochen sind die Gewichtsänderungen dramatisch, da das Netzwerk weitreichende Anpassungen vornimmt - ähnlich wie die ersten kräftigen Meißelschläge. In späteren Epochen werden die Änderungen subtiler, um die Verbindungen für optimale Leistung zu feinabstimmen - genauso wie zarte letzte Handgriffe die Details von Davids Werk hervorbrachten.
Schließlich, nach Tausenden oder Millionen von Iterationen, entsteht das trainierte Modell. Wie David, der stolz in seiner fertigen Form steht, verwandelt sich das neuronale Netzwerk aus zufälligem Rauschen in ein System, das in der Lage ist, Muster zu erkennen, Vorhersagen zu treffen, Bilder von Katzen auf Rollern zu generieren oder Computern zu ermöglichen, menschliche Sprache zu verstehen und darauf zu antworten.
Michelangelo, der alleine an David arbeitete, konnte nur einen Meißelschlag auf einmal machen, wobei jeder präzise Berechnungen von Winkel, Kraft und Position erforderte. Diese mühsame Genauigkeit ist der Grund, warum er drei unermüdliche Jahre brauchte, um sein Meisterwerk zu vollenden. Stellen Sie sich jedoch Tausende ebenso talentierter Bildhauer vor, die an David in perfekter Koordination arbeiten – ein Team an den Locken des Haares, ein anderes an den Muskeln des Torsos und Hunderte weitere an den komplexen Details des Gesichts, der Hände und Füße. Eine solche parallele Anstrengung würde diese drei Jahre in nur wenigen Tagen zusammenpressen.
Ähnlich wie CPUs leistungsstark und präzise sind, können sie nur eine Berechnung gleichzeitig durchführen. Das Training eines neuronalen Netzwerks erfordert nicht eine einzige komplexe Berechnung, sondern Hunderte Millionen einfache Berechnungen - hauptsächlich Multiplikationen und Additionen an jedem Knoten. Zum Beispiel kann das zuvor erwähnte neuronale Netzwerk mit nur 18 Knoten und etwa 100 Verbindungen (Parameter) innerhalb einer angemessenen Zeitspanne auf einer CPU trainiert werden.
Die leistungsstärksten Modelle von heute, wie OpenAI’s GPT-4, haben jedoch 1,8 Billionen Parameter! Sogar kleinere moderne Modelle enthalten mindestens eine Milliarde Parameter. Das Trainieren dieser Modelle Berechnung für Berechnung würde Jahrhunderte dauern. Hier kommen GPUs zum Einsatz: Sie können eine große Anzahl einfacher mathematischer Berechnungen gleichzeitig durchführen und sind daher ideal für die gleichzeitige Verarbeitung mehrerer neuronaler Netzwerkknoten.
Moderne GPUs sind erstaunlich leistungsstark. NVIDIAs neueste B200 GPU besteht beispielsweise aus über 200 Milliarden Transistoren und unterstützt 2.250 Billionen parallele Berechnungen pro Sekunde (2.250 TFLOPS). Eine einzelne B200 GPU kann Modelle mit bis zu 740 Milliarden Parametern verarbeiten. Diese Maschinen sind Meisterleistungen moderner Technik, was erklärt, warum NVIDIA, die jedes Gerät für 40.000 $ verkauft, in fünf Jahren einen Kursanstieg von über 2.500% verzeichnet hat.
Jensen Huang präsentiert den NVIDIA B200
Aber selbst diese beeindruckenden Maschinen können AI-Modelle nicht alleine trainieren. Bedenken Sie, dass während des Trainings jede Dateninstanz einzeln durch das Modell in einem Vorwärts- und Rückwärtszyklus gehen muss. Moderne große Sprachmodelle (LLMs) werden auf Datensätzen trainiert, die das gesamte Internet umfassen. GPT-4 zum Beispiel hat geschätzte 12 Billionen Token (ungefähr 9 Billionen Wörter) verarbeitet, und die nächste Generation von Modellen soll bis zu 100 Billionen Token verarbeiten können. Die Verwendung einer einzelnen GPU für ein so immenses Datenvolumen würde immer noch Jahrhunderte dauern.
Die Lösung besteht darin, eine weitere Schicht der Parallelität hinzuzufügen - die Erstellung von GPU-Clustern, in denen Trainingsaufgaben auf zahlreiche GPUs verteilt werden, die als einheitliches System arbeiten. Modelltraining-Workloads können auf drei Arten parallelisiert werden:
Datenparallelismus: Mehrere GPUs halten jeweils eine vollständige Kopie des neuronalen Netzwerkmodells, während sie verschiedene Teile der Trainingsdaten verarbeiten. Jede GPU verarbeitet ihren zugewiesenen Datenbatch unabhängig, bevor sie sich regelmäßig mit allen anderen GPUs synchronisiert. In dieser Synchronisationsphase kommunizieren die GPUs miteinander, um einen kollektiven Durchschnitt ihrer Gewichte zu finden und dann ihre individuellen Gewichte zu aktualisieren, sodass sie alle identisch sind. Folglich setzen sie ihr Training an ihrem Datenbatch individuell fort, bevor es wieder Zeit ist, sich zu synchronisieren.
Da Modelle immer größer werden, kann eine einzelne Kopie zu groß werden, um auf einer GPU zu passen. Zum Beispiel kann die neueste B200-GPU nur 740 Milliarden Parameter speichern, während GPT-4 ein Modell mit 1,8 Billionen Parametern ist. Datenparallelismus über einzelne GPUs funktioniert in diesem Fall nicht.
Tensor-Parallelismus: Dieser Ansatz löst das Speicherproblem, indem er die Arbeit und Gewichte jeder Modellschicht auf mehrere GPUs verteilt. GPUs tauschen Zwischenberechnungen bei jedem Vorwärts- und Rückwärtsschritt mit dem gesamten Cluster aus. Diese GPUs sind in der Regel in Servern mit acht Einheiten gruppiert, die über NVLink - NVIDIAs Hochgeschwindigkeits-GPU-zu-GPU-Verbindung - verbunden sind. Diese Einrichtung erfordert eine Hochgeschwindigkeitsverbindung (bis zu 400 Gb / s) und eine geringe Latenz zwischen den GPUs. Ein Tensor-Cluster funktioniert effektiv wie eine einzige massive GPU.
Pipeline-Parallelismus: Diese Methode teilt das Modell über mehrere GPUs auf, wobei jede GPU spezifische Schichten verwaltet. Die Daten fließen sequentiell durch diese GPUs, wie bei einem Staffellauf, bei dem jeder Läufer (GPU) seinen Teil verwaltet, bevor er den Staffelstab übergibt. Pipeline-Parallelismus ist besonders effektiv für die Verbindung unterschiedlicher 8-GPU-Server innerhalb eines Rechenzentrums, wobei Hochgeschwindigkeits-InfiniBand-Netzwerke für die zwischen Server-Kommunikation genutzt werden. Während die Kommunikationsanforderungen höher sind als beim Datenparallelismus, bleiben sie niedriger als bei Tensor-Parallelismus’ intensivem GPU-zu-GPU-Austausch.
Die Skala moderner Cluster ist bemerkenswert. GPT-4 mit 1,8 Billionen Parametern und 120 Schichten benötigte 25.000 A100-GPUs für das Training. Der Prozess dauerte drei Monate und kostete über 60 Millionen Dollar. Der A100 ist zwei Generationen alt; die Verwendung der heutigen B200-GPUs würde nur etwa 8.000 Einheiten und 20 Tage Training erfordern. Nur eine weitere Demonstration dafür, wie schnell KI sich entwickelt.
Aber die GPT-4-Modelle sind jetzt alte Spielzeuge. Das Training für die nächste Generation fortschrittlicher Modelle läuft in Rechenzentren ab, die Cluster von 100.000 B100- oder H100-GPUs (letztere sind eine Generation älter) beherbergen. Diese Cluster, die allein mehr als 4 Milliarden Dollar an GPU-Kapitalausgaben ausmachen, sind die leistungsstärksten Supercomputer der Menschheit und liefern mindestens viermal die Rohrechenleistung staatlicher Rechner.
Abgesehen von der Sicherung von Rohrechnung stoßen ASI-Aspiranten auf ein weiteres Problem bei dem Versuch, diese Cluster einzurichten: Strom. Jede dieser GPUs verbraucht 700W Leistung. Wenn Sie 100.000 davon kombinieren, verbraucht der gesamte Cluster (einschließlich unterstützender Hardware) über 150MW Leistung. Um dies in Perspektive zu setzen, entspricht dieser Verbrauch dem einer Stadt mit 300.000 Einwohnern - vergleichbar mit New Orleans oder Zürich.
Der Wahnsinn hört hier nicht auf. Die meisten ASI-Anwärter glauben, dass die LLM Skalierungsgesetze, die darauf hindeuten, dass sich die Modellleistung mit zunehmender Modellgröße, Datasetgröße und Trainingsrechenleistung vorhersehbar verbessert, wird auch weiterhin gelten. Es gibt bereits Pläne für Trainingsläufe mit noch leistungsfähigeren Modellen. Bis 2025 werden die Kosten für jedes Schulungscluster voraussichtlich 10 Milliarden US-Dollar übersteigen. Bis 2027 über 100 Milliarden US-Dollar. Wenn sich diese Zahlen den Investitionen der US-Regierung in die Apollo-Programme nähern, wird klar, warum sich das Erreichen von ASI als das bestimmende Rennen unserer Ära herauskristallisiert hat.
Metriken für Modelle ab GPT-5 sind Schätzungen
Da der Stromverbrauch proportional mit der Größe der Cluster wächst, werden die Schulungsläufe des nächsten Jahres über 1 GW Leistung benötigen. Im darauffolgenden Jahr werden es 10 GW oder mehr sein. Da keine Anzeichen dafür bestehen, dass sich diese Expansion verlangsamt, wird erwartet, dass Rechenzentren ungefähr 4,5 % des globalen Umsatzes bis 2030 generiert. Bestehende Stromnetze, bereits mit den aktuellen Anforderungen des Modells zu kämpfen, kann nicht genügend Energie für zukünftige Cluster erzeugen. Dies wirft eine kritische Frage auf: Woher wird diese Energie kommen? Big Tech verfolgt einen zweigleisigen Ansatz.
Langfristig ist die einzige tragfähige Lösung, dass ASI-Bewerber ihren eigenen Strom erzeugen. Angesichts ihrer Klimaverpflichtungen muss dieser Strom aus erneuerbaren Quellen stammen. Atomenergie ist die Hauptlösung. Amazonkürzlich gekauftEin Rechenzentrumscampus, der von einem Kernkraftwerk mit 650 Millionen US-Dollar betrieben wird. Microsofthat eingestelltein Experte für Kerntechnologien und istWiederbelebung des historischen Three Mile Island-Kraftwerks. Google hat erwarb mehrere kleine Kernreaktorenvon Kaliforniens Kairos Power. OpenAI’s Sam Altman hat Energie-Startups wie Helion, Exowatt, und Oklo.
Microsoft öffnet das Three Mile Island Kernkraftwerk wieder (Bildquelle)
Während die Samen der Kernkraft jetzt gesät werden, werden die Früchte (oder die Energie) mehrere Jahre brauchen, um zu reifen. Was ist mit den Energieanforderungen für die sofortige Erzeugung von Modellen? Die Übergangslösung besteht darin, das Training auf mehrere Rechenzentren zu verteilen. Anstatt massive Leistungsanforderungen an einem Ort zu konzentrieren, verteilen Unternehmen wie Microsoft und Google ihre Schulungscluster auf mehrere Standorte.
Die Herausforderung besteht natürlich darin, diese verteilten Systeme effektiv zusammenarbeiten zu lassen. Selbst mit Lichtgeschwindigkeit dauert es etwa 43 ms, bis Daten von der Ostküste bis zur Westküste der USA hin und zurück gelangen - eine Ewigkeit in Bezug auf die Berechnung. Darüber hinaus führt bereits eine geringfügige Verzögerung von beispielsweise 10% bei einem Chip dazu, dass der gesamte Trainingslauf in gleichem Maße verlangsamt wird.
Die Lösung besteht darin, Rechenzentren an verschiedenen Standorten mit Hochgeschwindigkeits-Glasfasernetzwerken zu verbinden und eine Kombination der zuvor diskutierten Parallelitätstechniken anzuwenden, um ihre Operationen zu synchronisieren. Tensor-Parallelität wird auf GPUs innerhalb jedes Servers angewendet, um sie als eine Einheit funktionieren zu lassen. Pipeline-Parallelität mit ihren geringeren Netzwerkanforderungen wird verwendet, um Server innerhalb desselben Rechenzentrums zu verbinden. Schließlich synchronisieren Datenzentren an verschiedenen Standorten (auch als „Inseln“ bezeichnet) ihre Informationen periodisch mithilfe von Datenparallelität.
Früher haben wir festgestellt, dass die Datenparallelität für einzelne GPUs unwirksam ist, da sie große Modelle nicht unabhängig voneinander aufnehmen können. Dies ändert sich jedoch, wenn wir Inseln parallelisieren - jede Insel enthält Tausende von GPUs - anstatt einzelne Einheiten. Die Trainingsdaten werden über jede Insel verteilt und diese Inseln synchronisieren sich regelmäßig über die vergleichsweise langsameren (im Vergleich zu NVLink und Infiniband) optischen Faserverbindungen.
Lassen Sie uns unseren Fokus von Training und GPUs auf die Rechenzentren selbst verlagern.
Vor zwanzig Jahren startete Amazon Amazon Web Services (AWS) - eines der transformativesten Unternehmen in der Geschichte - und schuf eine ganz neue Branche namens Cloud Computing. Die heutigen Cloud-Führer (Amazon, Microsoft, Google und Oracle) genießen eine bequeme Dominanz und erzielen einen kombinierten Jahresumsatz von fast 300 Milliarden US-Dollar bei Margen von 30-40%. Die Entstehung von KI hat nun neue Möglichkeiten in einem Markt geschaffen, der seit Jahren weitgehend oligopolistisch geblieben ist.
Die physischen Anforderungen, technische Komplexität und Wirtschaftlichkeit von GPU-intensiven KI-Rechenzentren unterscheiden sich dramatisch von ihren traditionellen Gegenstücken.
Wir haben bereits besprochen, wie energiehungrig GPUs sind. Dies führt dazu, dass KI-Datenzentren viel leistungsdichter sind und folglich mehr Hitze erzeugen. Während herkömmliche Rechenzentren riesige Ventilatoren (Luftkühlung) verwenden, um die Hitze abzuleiten, ist dieser Ansatz weder ausreichend noch wirtschaftlich rentabel für KI-Einrichtungen. Stattdessen setzen KI-Datenzentren Flüssigkeitskühlsysteme ein, bei denen Wasserblöcke direkt an GPUs und andere heiße Komponenten angebracht werden, um die Wärme effizienter und leiser abzuleiten. (Die B200-GPUs sind mit dieser Architektur integriert). Die Unterstützung von Flüssigkühlsystemen erfordert den Einsatz großer Kühltürme, einer zentralisierten Wassersystemeinrichtung und Rohrleitungen zur Wassertransport zu und von allen GPUs - eine grundlegende Modifikation der Rechenzentreninfrastruktur.
Neben dem höheren absoluten Energieverbrauch haben KI-Rechenzentren spezifische Lastanforderungen. Während herkömmliche Rechenzentren einen vorhersehbaren Stromverbrauch aufrechterhalten, sind die Leistungsmuster für KI-Arbeitslasten wesentlich volatiler. Diese Volatilität tritt auf, weil GPUs periodisch zwischen einer Auslastung von 100 % und einer Verlangsamung bis zum Stillstand wechseln, wenn das Training bestimmte Punkte erreicht, an denen die Gewichte entweder im Speicher gespeichert oder, wie wir zuvor gesehen haben, mit anderen Inseln synchronisiert werden. KI-Rechenzentren erfordern eine spezialisierte Strominfrastruktur, um mit diesen Lastschwankungen umzugehen.
Den Aufbau von GPU-Clustern zu realisieren, ist wesentlich schwieriger als der Aufbau herkömmlicher Computer-Clouds. GPUs müssen sehr schnell miteinander kommunizieren. Um dies zu ermöglichen, müssen sie sehr eng beieinander platziert werden. Ein typisches KI-Zentrum benötigt mehr als 200.000 spezielle Kabel, sogenannte InfiniBand-Verbindungen. Diese Kabel ermöglichen den GPUs, miteinander zu kommunizieren. Wenn nur ein Kabel ausfällt, wird das gesamte System heruntergefahren. Der Schulungsprozess kann erst fortgesetzt werden, wenn das Kabel repariert ist.
Diese Infrastrukturanforderungen machen es nahezu unmöglich, herkömmliche Rechenzentren mit leistungsstarken GPUs nachzurüsten, um sie KI-fähig zu machen. Ein solches Upgrade würde einen nahezu vollständigen strukturellen Umbau erfordern. Stattdessen bauen Unternehmen neue Rechenzentren, die speziell für KI von Grund auf konzipiert sind, wobei verschiedene Organisationen dies in unterschiedlichem Maßstab verfolgen.
An vorderster Front rennen führende Tech-Unternehmen, um ihre eigenen KI-Datenzentren zu bauen. Meta investiert stark in Einrichtungen, die ausschließlich für die eigene KI-Entwicklung bestimmt sind, und behandelt sie als direkte Kapitalinvestition, da keine Cloud-Dienste angeboten werden. Microsoft baut ähnlich massive Zentren zur Unterstützung sowohl eigener KI-Projekte als auch wichtiger Kunden wie OpenAI. Oracle ist ebenfalls aggressiv in diesen Bereich eingestiegen und hat OpenAI als bedeutenden Kunden gewonnen. Amazon erweitert weiterhin seine Infrastruktur, insbesondere zur Unterstützung aufstrebender KI-Unternehmen wie Anthropic. Elon Musks xAI hat sich entschieden, sein eigenes 100.000-GPU-Cluster zu bauen, da es nicht auf ein anderes Unternehmen angewiesen sein möchte.
Im Inneren des 100.000 H100 GPU-Rechenzentrums von xAI (Quelle)
Neben den etablierten Anbietern entstehen “Neoklouddienste” - spezialisierte Cloud-Anbieter, die sich ausschließlich auf GPU-Computing für AI-Workloads konzentrieren. Diese Neoklouddienste lassen sich in zwei unterschiedliche Kategorien unterteilen, die auf der Skala basieren.
Große Neokloud-Anbieter, einschließlich CoreWeave, Crusoe, und LLama Labs, betreiben Clusters von über 2.000 GPUs. Sie unterscheiden sich von traditionellen Cloud-Diensten auf zwei Arten: Sie bieten maßgeschneiderte Infrastrukturlösungen anstatt standardisierter Pakete an und verlangen langfristige Kundenverpflichtungen anstelle von Pay-per-Use-Vereinbarungen.
Ihr Geschäftsmodell nutzt diese langfristigen Vereinbarungen und die Kreditwürdigkeit der Kunden, um die Finanzierung der Infrastruktur sicherzustellen. Die Einnahmen stammen aus den Prämien, die für spezialisierte Dienstleistungen berechnet werden, sowie aus den Gewinnen aus der Differenz zwischen den niedrigen Finanzierungskosten und den Kundenzahlungen.
So funktioniert in der Regel eine solche Vereinbarung: Ein Neocloud-Anbieter sichert sich einen Dreijahresvertrag mit einem gut finanzierten KI-Startup für 10.000 H100-GPUs zu 40 Millionen US-Dollar monatlich. Mit diesem garantierten Umsatzstrom von 1,44 Milliarden US-Dollar sichert sich der Anbieter günstige Bankfinanzierungen (mit 6% Zinsen), um Infrastruktur im Wert von 700 Millionen US-Dollar zu kaufen und zu installieren. Die monatlichen Einnahmen von 40 Millionen US-Dollar decken Betriebskosten von 10 Millionen US-Dollar und Kreditzahlungen von 20 Millionen US-Dollar ab, was monatliche Gewinne von 10 Millionen US-Dollar generiert, während das Startup maßgeschneiderte, dedizierte Rechenleistung erhält.
Dieses Modell erfordert eine außergewöhnlich sorgfältige Auswahl der Kunden. Anbieter suchen in der Regel nach Unternehmen mit großen Bargeldreserven oder einer starken Risikokapitalunterstützung, oft mit Bewertungen von 500 Millionen Dollar oder mehr.
Kleine Neowolken bieten GPU-Cluster von 2.000 oder weniger und richten sich an einen separaten Bereich des KI-Marktes - kleine und mittelständische Start-ups. Diese Unternehmen trainieren entweder kleinere Modelle (bis zu 70 Milliarden Parameter) oder optimieren Open-Source-Modelle. (Die Feinabstimmung ist der Prozess, ein Grundmodell an spezifische Anwendungsfälle anzupassen.) Beide Workloads erfordern moderate, aber dedizierte Rechenleistung für kürzere Zeiträume.
Diese Anbieter bieten bedarfsgerechte Computerleistung mit stündlichen Tarifen für unterbrechungsfreien Clusterzugriff für eine festgelegte Dauer an. Obwohl dies teurer ist als langfristige Verträge, gibt es Start-ups die Flexibilität, ohne sich auf Millionen-Dollar-Vereinbarungen festlegen zu müssen, zu experimentieren.
Schließlich haben wir neben den Cloud-Marktführern und Neocloud-Anbietern auch die Vermittler im Bereich der KI-Infrastruktur: Plattformen und Aggregatoren. Diese Vermittler besitzen keine GPU-Infrastruktur, sondern verbinden stattdessen Ressourcenbesitzer mit denen, die sie benötigen.
Plattformanbieter wie HydraHostundFluidstackDienen Sie als das Shopify des GPU-Computings. Genauso wie Shopify es Händlern ermöglicht, Online-Shops zu eröffnen, ohne E-Commerce-Infrastruktur zu entwickeln, ermöglichen diese Plattformen Rechenzentrumsbetreibern und GPU-Besitzern, Rechenleistungen anzubieten, ohne ihre eigenen Kundenschnittstellen zu entwickeln. Sie bieten ein komplettes technisches Paket für den Betrieb eines GPU-Computing-Geschäfts, einschließlich Infrastrukturverwaltungstools, Kundenzuweisungssystemen und Abrechnungslösungen.
Marktplatz-Aggregatoren wie Vast.aiFunktionieren Sie als Amazon der GPU-Welt. Sie erstellen einen Marktplatz, der verschiedene Rechenangebote von verschiedenen Anbietern kombiniert - von Consumer-Grade-RTX-Karten bis hin zu professionellen H100-GPUs. GPU-Besitzer listen ihre Ressourcen mit detaillierten Leistungsmetriken und Zuverlässigkeitsbewertungen auf, während Kunden Rechenzeit über eine Selbstbedienungsplattform erwerben.
Bisher hat sich unsere Diskussion auf das Training (oder das Feintuning) von Modellen konzentriert. Sobald jedoch ein Modell trainiert ist, muss es bereitgestellt werden, um Endbenutzer zu bedienen - ein Vorgang, der als Inferenz bezeichnet wird. Jedes Mal, wenn Sie mit ChatGPT chatten, verwenden Sie GPUs, die Inferenz-Workloads ausführen, die Ihre Eingabe entgegennehmen und die Antwort des Modells generieren. Lassen Sie uns für einen Moment zur Diskussion über Marmorstatuen zurückkehren.
Das ist auch David - nicht das Original von Michelangelo, sondern eine Gipsabdruck, die 1857 von Königin Victoria für das Victoria and Albert Museum in London in Auftrag gegeben wurde. Während Michelangelo drei anstrengende Jahre damit verbrachte, das Original in Florenz aus Marmor herauszumeißeln, wurde dieser Gipsabdruck direkt von der Statue abgenommen und reproduziert jede Kurve, jeden Winkel und jedes Detail, die Michelangelo geschaffen hatte, perfekt. Die intensive kreative Arbeit fand einmal statt. Danach ging es darum, diese Merkmale getreu zu replizieren. Heute findet man Reproduktionen von David überall, von Museumsfluren bis zu Innenhöfen von Las Vegas Casinos.
So funktioniert Inferenz in KI genau. Das Training eines großen Sprachmodells ist wie Michelangelos ursprünglicher skulpturaler Prozess – rechenaufwändig, zeitaufwändig und ressourcenintensiv, da das Modell allmählich die richtige „Form“ der Sprache durch Millionen von winzigen Anpassungen lernt. Aber die Verwendung des trainierten Modells – die Inferenz – ähnelt mehr der Erstellung einer Kopie. Wenn Sie mit ChatGPT chatten, bringen Sie ihm nicht von Grund auf Sprache bei, sondern verwenden eine Kopie eines Modells, dessen Parameter (wie die präzisen Kurven und Winkel von David) bereits perfektioniert wurden.
Inferenz-Workloads unterscheiden sich grundlegend vom Training. Während das Training große, dichte Cluster der neuesten GPUs wie H100s erfordert, um intensive Berechnungen zu bewältigen, können Inferenzen auf Single-GPU-Servern mit älterer Hardware wie A100s oder sogar Consumer-Grade-Karten ausgeführt werden, was deutlich kostengünstiger ist. Das gesagt, Inferenz-Workloads haben ihre eigenen einzigartigen Anforderungen:
Diese Merkmale machen Inferenz-Workloads ideal für Spot-Preismodelle. Unter Spot-Preisgestaltung stehen GPU-Ressourcen zu erheblichen Rabatten zur Verfügung - oft 30-50% unter den On-Demand-Preisen - mit dem Verständnis, dass der Service angehalten werden kann, wenn Kunden mit höherer Priorität Ressourcen benötigen. Dieses Modell eignet sich für Inferenz, da eine redundante Bereitstellung es ermöglicht, Workloads bei Unterbrechungen schnell auf verfügbare GPUs zu verschieben.
In diesem Kontext von GPUs und AI Cloud Computing sind wir jetzt in der Lage, zu erkunden, wo Krypto in all dem passt. Lasst uns endlich dazu kommen.
Projekte und Berichte zitieren häufig Peter Thiels Aussage, dass “KI zentralisiert, Krypto jedoch dezentralisiert” ist, wenn sie die Rolle von Krypto bei der KI-Schulung diskutieren. Obwohl Thiels Aussage zweifellos wahr ist, haben wir gerade ausreichende Beweise für den klaren Vorteil der Big Tech-Unternehmen bei der Schulung leistungsstarker KI gesehen - oft wird fälschlicherweise behauptet, dass Krypto und dezentrale Computer die Hauptlösung zur Ausgleichung des Einflusses von Big Tech bieten.
Solche Behauptungen wiederholen frühere Übertreibungen über das Potenzial von Krypto, Social Media, Gaming und unzähligen anderen Branchen zu revolutionieren. Sie sind nicht nur kontraproduktiv, sondern auch, wie ich gleich argumentieren werde, unrealistisch - zumindest kurzfristig.
Stattdessen werde ich einen pragmatischeren Ansatz wählen. Ich gehe davon aus, dass ein KI-Startup, das auf der Suche nach Rechenleistung ist, sich nicht um die Grundsätze der Dezentralisierung oder den wachsenden ideologischen Widerstand gegen Big Tech kümmert. Vielmehr haben sie ein Problem: Sie wollen Zugang zu zuverlässiger GPU-Rechenleistung zu den geringstmöglichen Kosten. Wenn ein Krypto-Projekt eine bessere Lösung für dieses Problem bieten kann als Nicht-Krypto-Alternativen, werden sie es nutzen.
Um dies zu erreichen, wollen wir zuerst verstehen, mit wem Kryptoprojekte konkurrieren. Zuvor haben wir die verschiedenen Kategorien von KI-Cloud-Anbietern besprochen - Big Tech und Hyperscaler, große Neoclouds, kleine Neoclouds, Plattformanbieter und Marktplätze.
Die grundlegende These hinter dezentralisierter Berechnung (wie alle DePIN-Projekte) ist, dass der aktuelle Berechnungsmarkt ineffizient funktioniert. Die Nachfrage nach GPUs bleibt außergewöhnlich hoch, während das Angebot in globalen Rechenzentren und einzelnen Haushalten fragmentiert und unterausgelastet ist. Die meisten Projekte in diesem Sektor konkurrieren direkt mit Marktplätzen, indem sie dieses verstreute Angebot aggregieren, um Ineffizienzen zu reduzieren.
Nachdem das festgelegt ist, schauen wir uns an, wie diese Projekte (und allgemein Computing-Märkte) bei verschiedenen KI-Workloads unterstützen können – Training, Feinabstimmung und Inferenz.
Zunächst einmal. Nein, ASI wird nicht auf einem globalen Netzwerk von dezentralisierten GPUs trainiert werden. Zumindest nicht auf der aktuellen Trajektorie der KI. Hier ist warum.
Zuvor haben wir gerade besprochen, wie groß die Cluster der Grundlagenmodelle werden. Sie benötigen 100.000 der leistungsstärksten GPUs der Welt, um überhaupt erst anzufangen zu konkurrieren. Diese Zahl steigt nur mit jedem vergehenden Jahr. Bis 2026 wird erwartet, dass die Kosten für einen Trainingsdurchlauf die Marke von 100 Milliarden Dollar überschreiten und vielleicht eine Million oder mehr GPUs erfordern.
Nur große Technologieunternehmen, unterstützt von großen nebulas und direkten Nvidia-Partnerschaften, können Cluster dieser Größenordnung zusammenstellen. Denken Sie daran, wir befinden uns in einem Wettlauf um ASI, und alle Teilnehmer sind hochmotiviert und kapitalisiert. Wenn es einen zusätzlichen Vorrat an so vielen GPUs gäbe (was nicht der Fall ist), dann wären sie die ersten, die sie sich sichern würden.
Selbst wenn ein Kryptoprojekt auf irgendeine Weise die erforderliche Rechenleistung aufbringen würde, stehen zwei grundlegende Hindernisse der dezentralen ASI-Entwicklung im Wege:
Zunächst müssen die GPUs immer noch in großen Clustern verbunden sein, um effektiv zu funktionieren. Auch wenn diese Cluster auf Inseln in Städten aufgeteilt sind, müssen sie durch dedizierte Glasfaserleitungen verbunden sein. Beides ist in einer dezentralen Umgebung nicht möglich. Die Einrichtung von KI-fähigen Rechenzentren erfordert neben der Beschaffung von GPUs eine sorgfältige Planung, die in der Regel ein ein- bis zweijähriger Prozess ist. (xAI hat es in nur 122 Tagen geschafft, aber es ist unwahrscheinlich, dass Elon in naher Zukunft einen Token starten wird.)
Zweitens reicht es nicht aus, nur ein KI-Rechenzentrum zu schaffen, um eine superintelligente KI zu schaffen. Als Anthropic-Gründer Dario Amodei kürzlich erklärtist die Skalierung in der KI analog zu einer chemischen Reaktion. So wie eine chemische Reaktion mehrere Reagenzien in präzisen Proportionen benötigt, um ablaufen zu können, hängt eine erfolgreiche KI-Skalierung von drei wesentlichen Bestandteilen ab, die gemeinsam wachsen: größere Netzwerke, längere Trainingszeiten und größere Datensätze. Wenn Sie eine Komponente ohne die anderen hochskalieren, gerät der Prozess ins Stocken.
Auch wenn es uns irgendwie gelingt, sowohl die Rechenleistung zu akkumulieren als auch die Cluster zusammenarbeiten zu lassen, benötigen wir dennoch Terabyte an hochwertigen Daten, damit das trainierte Modell überhaupt etwas taugt. Ohne die proprietären Datenquellen der Big Tech-Unternehmen, das Kapital für millionenschwere Deals mit Online-Foren und Medien oder bestehende Modelle zur Generierung synthetischer Daten ist es unmöglich, ausreichende Trainingsdaten zu erwerben.
In letzter Zeit gab es Spekulationen, dass Skalierungsgesetze möglicherweise stagnieren könnten, wobei LLMs möglicherweise Leistungsgrenzen erreichen. Einige interpretieren dies als Chance für die dezentrale KI-Entwicklung. Dabei wird jedoch ein wesentlicher Faktor übersehen - die Konzentration von Talenten. Die führenden Forscher der Welt sind heute in den Big Tech-Firmen und KI-Laboren tätig. Jeder alternative Durchbruchsweg zur AGI wird höchstwahrscheinlich aus diesen Zentren kommen. Angesichts der Wettbewerbslandschaft würden solche Entdeckungen eng gehütet bleiben.
Angesichts all dieser Argumente bin ich zu 99,99% sicher, dass das Training von ASI - oder sogar der leistungsstärksten Modelle der Welt - nicht auf einem dezentralen Rechenprojekt geschult wird. In diesem Fall, welche Modelle könnte Krypto tatsächlich beim Training helfen?
Damit Modelle über separate GPU-Cluster hinweg trainiert werden können, die sich an verschiedenen geografischen Standorten befinden, müssen wir die Datenparallelität zwischen ihnen implementieren. (Denken Sie daran, dass Datenparallelität die Art und Weise ist, wie verschiedene Inseln von GPUs, die jeweils an separaten Blöcken der Trainingsdaten arbeiten, miteinander synchronisiert werden). Je größer das zu trainierende Modell ist, desto größer ist die Datenmenge, die zwischen diesen Inseln ausgetauscht werden muss. Wie bereits erwähnt, ist die erforderliche Bandbreite für Frontier-Modelle mit über einer Billion Parametern groß genug, um dedizierte Glasfaserverbindungen zu erfordern.
Für kleinere Modelle verringern sich jedoch die Bandbreitenanforderungen proportional. Neue Durchbrüche in der geringen Kommunikation von Trainingsalgorithmen, insbesondere bei verzögerter Synchronisation, haben vielversprechende Möglichkeiten für das Training von kleinen bis mittelgroßen Modellen auf dezentralisierte Weise geschaffen. Zwei Teams führen diese experimentellen Bemühungen an.
Nous Forschungist ein Unternehmen für AI-Beschleuniger und ein führender Akteur in der Open-Source-AI-Entwicklung. Bekannt sind sie vor allem für ihre Hermes-Serie von Sprachmodellen und innovative Projekte wie World Sim. Anfang dieses Jahres betrieben sie für einige Monate ein LLM-Ranking-BitTensor-Subnetz. Sie haben ihre Zehen in die dezentralisierte Berechnung getaucht, indem sie die freigegeben haben.DisTrO(Distributed Training Over the Internet) Projekt, bei dem sie erfolgreich ein 1,2B Parameter Llama-2 Modell trainiert haben und dabei eine Reduzierung des Inter-GPU-Bandbreitenbedarfs um das 857-fache erreicht haben.
Der DisTrO-Bericht von Nous Research
Prime Intellect, ein Startup, das eine Infrastruktur für dezentrale KI in großem Maßstab entwickelt, zielt darauf ab, globale Rechenressourcen zu aggregieren und das kollaborative Training modernster Modelle durch verteilte Systeme zu ermöglichen. Ihr OpenDiLoCo-Framework(Implementierung von DeepMind’s Verteilter Low-Communication-Methode) erfolgreich ein Milliarden-Parameter-Modell über zwei Kontinente und drei Länder hinweg trainiert und dabei eine Rechenkapazitätsauslastung von 90-95% aufrechterhalten.
Aber wie funktionieren diese dezentralen Trainingseinheiten?
Beim traditionellen datenparallelen Verfahren müssen GPUs ihre Gewichte nach jedem Trainingsschritt teilen und mitteln - dies ist über Internetverbindungen unmöglich. Stattdessen lassen diese Projekte jede “Insel” von GPUs Hunderte von Schritten lang unabhängig voneinander trainieren, bevor sie synchronisiert werden. Stellen Sie es sich wie unabhängige Forschungsteams vor, die an demselben Projekt arbeiten: Anstatt ständig miteinander zu kommunizieren, erzielen sie unabhängig voneinander signifikante Fortschritte, bevor sie ihre Erkenntnisse teilen.
DisTrO und OpenDiLoCo synchronisieren nur alle 500 Schritte und verwenden dabei einen Dual-Optimierungsansatz:
Wenn sie synchronisieren, teilen sie nicht alle Gewichte, sondern teilen einen „Pseudo-Gradienten“ - im Wesentlichen den Unterschied zwischen ihren aktuellen Gewichten und den Gewichten der letzten Synchronisierung. Dies ist bemerkenswert effizient, ähnlich wie das Teilen nur dessen, was sich in einem Dokument geändert hat, anstatt jedes Mal das gesamte Dokument zu senden.
INTELLECT-1, eine praktische Umsetzung von OpenDiLoCo durch Prime Intellect, geht noch einen Schritt weiter, indem sie ein 10B-Parameter-Modell trainiert - der bisher größte dezentralisierte Schulungsversuch. Sie haben wichtige Optimierungen wie hinzugefügt:
INTELLECT-1, trainiert von über 20 GPU-Clustern, die weltweit verteilt sind, kürzlich abgeschlossen pretrainingund wird bald als vollständig Open-Source-Modell veröffentlicht werden.
INTELLECT-1 Schulungs-Dashboard
Teams wie Macrocosmosverwenden ähnliche Algorithmen wieModelle trainierenim Bittensor-Ökosystem.
Wenn diese dezentralen Trainingsalgorithmen weiterhin besser werden, könnten sie mit der nächsten Generation von GPUs Modelle mit bis zu 100 Milliarden Parametern unterstützen. Selbst Modelle dieser Größe können für eine Vielzahl von Anwendungsfällen sehr hilfreich sein:
Fine-Tuning ist der Prozess, ein vortrainiertes Grundmodell (in der Regel ein Open-Source-Modell von Meta, Mistral oder Alibaba) zu nehmen und es weiter auf einem bestimmten Datensatz zu trainieren, um es an bestimmte Aufgaben oder Domänen anzupassen. Dies erfordert wesentlich weniger Berechnungen als das Training von Grund auf, da das Modell bereits allgemeine Sprachmuster gelernt hat und nur seine Gewichte für die neue Domäne anpassen muss.
Berechnen Sie die Anforderungen für die Feinabstimmung der Skala in Abhängigkeit von der Modellgröße. Vorausgesetzt, das Training erfolgt auf einem H100:
Angesichts dieser Spezifikationen erfordert die Feinabstimmung nicht die zuvor diskutierten komplexen verteilten Trainingsalgorithmen. Das On-Demand-Modell, bei dem Entwickler GPU-Cluster für kurze, konzentrierte Zeiträume mieten, bietet ausreichende Unterstützung. Dezentrale Rechenmarktplätze mit robuster GPU-Verfügbarkeit sind ideal positioniert, um diese Workloads zu bewältigen.
Inferenz ist der Bereich, in dem dezentralisierte Rechenmärkte den klarsten Weg zum Produkt-Markt-Fit haben. Ironischerweise ist dies der am wenigsten diskutierte Workflow im Kontext des dezentralisierten Trainings. Dies hat zwei Gründe: Inferenz fehlt der Reiz von 100.000 GPU “Gott-Modell”-Trainingsläufen, und teilweise aufgrund der aktuellen Phase der KI-Revolution.
Heute wird tatsächlich der Großteil der Berechnungen für das Training verwendet. Der Wettlauf zu ASI führt zu massiven Vorabinvestitionen in die Trainingsinfrastruktur. Diese Balance verschiebt sich jedoch zwangsläufig, wenn KI-Anwendungen von der Forschung zur Produktion übergehen. Um ein nachhaltiges Geschäftsmodell rund um KI zu erreichen, muss der aus der Inferenz generierte Umsatz die Kosten für Training und Inferenz zusammen übersteigen. Obwohl das Training von GPT-4 enorm teuer war, handelte es sich um eine Einmalzahlung. Die laufenden Rechenkosten und der Weg von OpenAI zur Rentabilität werden durch die Bedienung von Milliarden von Inferenzanfragen für zahlende Kunden getrieben.
Compute-Marktplatz, dezentralisiert oder anderweitig, durch die Natur der Aggregation einer Vielzahl von Modellen von GPU (alt und neu) aus der ganzen Welt, finden sich in einer einzigartigen Position, um Inferenz-Workloads zu bedienen.
Compute-Marktplätze, ob dezentral oder traditionell, zeichnen sich natürlich durch Inferenz-Workloads aus, indem sie verschiedene GPU-Modelle (sowohl aktuelle als auch ältere) global aggregieren. Ihre inhärenten Vorteile passen perfekt zu den Inferenzanforderungen: breite geografische Verteilung, konsistente Betriebszeit, Systemredundanz und Kompatibilität über GPU-Generationen hinweg.
Wir haben die verschiedenen Workflows besprochen, bei denen dezentrales Computing helfen kann und bei denen nicht. Jetzt müssen wir eine weitere wichtige Frage beantworten: Warum sollte sich ein Entwickler dafür entscheiden, Rechenleistung von einem dezentralen Anbieter zu sichern und nicht von einem zentralen? Welche überzeugenden Vorteile bieten dezentrale Lösungen?
Stablecoins haben es geschafft, Produkt-Markt-Fit zu erreichen, indem sie eine überlegene Alternative zu traditionellen grenzüberschreitenden Zahlungen anbieten. Ein großer Faktor ist, dass Stablecoins einfach viel günstiger sind! Ebenso ist der wichtigste Faktor, der die Wahl des Cloud-Anbieters eines KI-Entwicklers beeinflusst, die Kosten. Damit dezentrale Rechenanbieter effektiv konkurrieren können, müssen sie zuerst eine überlegene Preisgestaltung bieten.
Ein Compute-Marktplatz ist wie alle Märkte ein Geschäft mit Netzwerkeffekten. Je größer das Angebot an GPUs auf einer Plattform ist, desto größer ist die Liquidität und Verfügbarkeit für Kunden, was wiederum mehr Nachfrage anzieht. Mit wachsender Nachfrage werden mehr GPU-Besitzer dazu angeregt, dem Netzwerk beizutreten und so einen Teufelskreis zu schaffen. Ein erhöhtes Angebot ermöglicht auch wettbewerbsfähigere Preise durch bessere Zuordnung und reduzierte Leerlaufzeiten. Wenn Kunden die benötigte Rechenleistung zu attraktiven Preisen finden können, ist es wahrscheinlicher, dass sie dauerhafte technische Abhängigkeiten auf der Plattform aufbauen, was die Netzwerkeffekte weiter stärkt.
Diese Dynamik ist besonders wirkungsvoll bei der Inferenz, bei der die geografische Verteilung des Angebots das Produktangebot tatsächlich verbessern kann, indem die Latenz für die Endbenutzer reduziert wird. Der erste Marktplatz, der dieses Liquiditätsschwungrad in großem Maßstab erreicht, wird einen erheblichen Wettbewerbsvorteil haben, da sowohl Lieferanten als auch Kunden mit Wechselkosten konfrontiert sind, sobald sie sich in die Tools und Workflows einer Plattform integriert haben.
Das Netzwerk des GPU-Marktplatzes wirkt sich auf das Schwungrad aus
In solchen Gewinner-nehmen-alles Märkten,Netzwerk bootstrappenund das Erreichen der Fluchtgeschwindigkeit ist die entscheidende Phase. Hier bietet die Kryptoindustrie dezentralisierten Rechenprojekten ein sehr mächtiges Werkzeug, das ihre zentralisierten Konkurrenten einfach nicht besitzen: Token-Anreize.
Die Mechanik kann einfach, aber kraftvoll sein. Das Protokoll würde zunächst einen Token starten, der einen inflationsbedingten Belohnungsplan enthält und möglicherweise anfängliche Zuweisungen an frühe Beitragszahler durch Lufttropfen verteilt. Diese Token-Emissionen würden als primäres Instrument zum Bootstrappen beider Seiten des Marktplatzes dienen.
Für GPU-Anbieter sollte die Belohnungsstruktur sorgfältig gestaltet werden, um das Verhalten auf der Angebotsseite zu beeinflussen. Die Anbieter würden Token verdienen, die proportional zu ihren beigesteuerten Rechen- und Nutzungsraten sind, aber das System sollte über einfache lineare Belohnungen hinausgehen. Das Protokoll könnte dynamische Belohnungsmultiplikatoren implementieren, um geografische oder hardwarespezifische Ungleichgewichte auszugleichen – ähnlich wie Uber Preiserhöhungen einsetzt, um Anreize für Fahrer in Gebieten mit hoher Nachfrage zu schaffen.
Ein Anbieter könnte 1,5-fache Belohnungen für die Bereitstellung von Computing in unterversorgten Regionen erhalten oder 2-fache Belohnungen für die Bereitstellung vorübergehend knapper GPU-Typen erhalten. Durch die weitere Staffelung des Belohnungssystems basierend auf konsistenten Auslastungsraten würden Anbieter ermutigt, eine stabile Verfügbarkeit aufrechtzuerhalten, anstatt opportunistisch zwischen Plattformen zu wechseln.
Auf der Nachfrageseite würden Kunden Token-Belohnungen erhalten, die ihren Verbrauch effektiv subventionieren. Das Protokoll könnte erhöhte Belohnungen für längere Rechenverpflichtungen anbieten, um die Nutzer dazu zu motivieren, tiefere technische Abhängigkeiten von der Plattform aufzubauen. Diese Belohnungen könnten weiterhin so strukturiert sein, dass sie mit den strategischen Prioritäten der Plattform, wie der Erfassung der Nachfrage in einer bestimmten geografischen Region, in Einklang stehen.
Die Basissätze für die Berechnung könnten auf oder leicht unter den Marktsätzen gehalten werden, wobei Protokolle verwendet werdenzkTLS-Orakelum kontinuierlich die Preise von Wettbewerbern zu überwachen und anzupassen. Die Token-Belohnungen würden dann als zusätzliche Anreizschicht über diesen wettbewerbsfähigen Basissätzen dienen. Dieses duale Preismodell würde es der Plattform ermöglichen, Wettbewerbsfähigkeit bei den Preisen aufrechtzuerhalten, während gleichzeitig Token-Anreize genutzt werden, um spezifisches Verhalten zu fördern, das das Netzwerk stärkt.
Durch die Verteilung von Token-Anreizen würden sowohl Anbieter als auch Kunden anfangen, einen Anteil am Netzwerk anzusammeln. Während einige, vielleicht die meisten, diese Anteile verkaufen könnten, würden andere daran festhalten und effektiv zu Stakeholdern und Befürwortern der Plattform werden. Diese engagierten Teilnehmer hätten ein persönliches Interesse am Erfolg des Netzwerks und trügen zu dessen Wachstum und Verbreitung bei, unabhängig von ihrer direkten Nutzung oder Bereitstellung von Rechenressourcen.
Im Laufe der Zeit, wenn das Netzwerk eine Fluchtgeschwindigkeit erreicht und starke Netzwerkeffekte etabliert, können diese Token-Anreize allmählich reduziert werden. Die natürlichen Vorteile, die sich aus dem größten Marktplatz ergeben - bessere Übereinstimmung, höhere Auslastung, breitere geografische Abdeckung - würden zu selbsttragenden Wachstumstreibern werden.
Wie Token-Anreize das Flywheel des GPU-Marktplatzes beschleunigen können
Während Preis und Reichweite entscheidende Unterscheidungsmerkmale sind, adressieren dezentrale Rechennetzwerke eine wachsende Sorge: operationale Beschränkungen von zentralisierten Anbietern. Traditionelle Cloud-Anbieter haben bereits ihre Bereitschaft gezeigt, Dienste aufgrund Inhaltspolitik und externer Druck. Diese Präzedenzfälle werfen berechtigte Fragen darüber auf, wie sich ähnliche Richtlinien auf die Entwicklung und Bereitstellung von KI-Modellen auswirken könnten.
Da KI-Modelle immer ausgefeilter werden und immer vielfältigere Anwendungsfälle bewältigen, besteht die reale Möglichkeit, dass Cloud-Anbieter Beschränkungen für das Training und die Bereitstellung von Modellen einführen, ähnlich wie bei ihren bestehenden Ansätzen zur Inhaltsmoderation. Dies könnte sich nicht nur auf NSFW-Inhalte und kontroverse Themen auswirken, sondern auch auf legitime Anwendungsfälle in Bereichen wie medizinischer Bildgebung, wissenschaftlicher Forschung oder kreativer Kunst, die übermäßig vorsichtige automatisierte Filter auslösen könnten.
Ein dezentrales Netzwerk bietet eine Alternative, indem es den Marktteilnehmern ermöglicht, ihre eigenen Infrastrukturentscheidungen zu treffen, wodurch möglicherweise ein freieres und uneingeschränkteres Umfeld für Innovationen geschaffen wird.
Die Kehrseite der erlaubnisfreien Architektur ist, dass der Datenschutz zu einer größeren Herausforderung wird. Wenn die Datenverarbeitung über ein Netzwerk von Anbietern verteilt ist und nicht in den Rechenzentren einer einzelnen vertrauenswürdigen Entität, müssen Entwickler über die Datensicherheit nachdenken. Verschlüsselung und vertrauenswürdige Ausführungsumgebungen können zwar hilfreich sein, aber es gibt einen inhärenten Kompromiss zwischen Zensurresistenz und Datenschutz, den Entwickler je nach ihren spezifischen Anforderungen bewältigen müssen.
Angesichts der hohen Nachfrage nach KI-Computing können GPU-Anbieter ihre Position nutzen, um maximalen Gewinn aus erfolgreichen Kunden zu ziehen. In einem Post von letztem Jahr, der berühmte Einzelentwickler Pieter Levels teilte mit, wie er und andere Entwickler erlebten, dass ihre Anbieter nach der öffentlichen Bekanntgabe der Umsatzzahlen ihrer KI-App die Preise um über 600% erhöhten.
Dezentralisierte Systeme können eine Gegenmaßnahme zu diesem Problem darstellen: vertrauenslose Vertragserfüllung. Wenn Vereinbarungen in der Blockchain codiert werden anstatt in den Dienstbedingungen vergraben zu sein, werden sie transparent und unveränderlich. Ein Anbieter kann die Preise nicht willkürlich erhöhen oder die Bedingungen während eines laufenden Vertrags ändern, ohne dass die Änderungen explizit durch das Protokoll vereinbart werden.
Über die Preisgestaltung hinaus können dezentralisierte Netzwerke nutzen Vertrauenswürdige Ausführungsumgebungen (TEEs)um verifizierbare Berechnungen bereitzustellen. Dadurch wird sichergestellt, dass Entwickler tatsächlich die GPU-Ressourcen erhalten, für die sie bezahlen - sowohl in Bezug auf die Hardware-Spezifikationen als auch den dedizierten Zugriff. Wenn beispielsweise ein Entwickler für dedizierten Zugriff auf acht H100-GPUs zur Modellschulung bezahlt, können kryptografische Beweise überprüfen, dass ihre Workloads tatsächlich auf H100s mit vollen 80 GB Speicher pro GPU ausgeführt werden, anstatt stillschweigend auf niedrigerwertige Karten herabgestuft zu werden oder Ressourcen mit anderen Benutzern zu teilen.
Dezentralisierte Computernetzwerke können Entwicklern wirklich erlaubnisfreie Alternativen bieten. Anders als traditionelle Anbieter, die umfangreiche KYC-Prozesse und Bonitätsprüfungen erfordern, kann jeder diesen Netzwerken beitreten und mit dem Konsumieren oder Bereitstellen von Rechenressourcen beginnen. Dies senkt die Einstiegshürde dramatisch, insbesondere für Entwickler in Schwellenländern oder solche, die an experimentellen Projekten arbeiten.
Die Bedeutung dieser freizügigen Natur wird noch kraftvoller, wenn wir die Zukunft der KI-Agenten betrachten. KI-Agenten haben gerade erst begonnen, ihren Platz zu finden, mit vertikal integrierte Agentenvoraussichtlich die Größe der SaaS-Branche übertreffen. Mit Größen wie Wahrheits-Terminal und Zerebro, wir sehen die ersten Anzeichen dafür, dass Agenten an Autonomie gewinnen und lernen, externe Tools wie soziale Medien und Bildgeneratoren zu nutzen.
Da diese autonomen Systeme immer ausgefeilter werden, müssen sie möglicherweise ihre eigenen Rechenressourcen dynamisch bereitstellen. Ein dezentrales Netzwerk, in dem Verträge vertrauenslos durch Code anstatt durch menschliche Vermittler ausgeführt werden können, ist die natürliche Infrastruktur für diese Zukunft. Agenten könnten autonom Verträge verhandeln, die Leistung überwachen und ihre Rechenkapazität basierend auf der Nachfrage anpassen - alles ohne menschliches Eingreifen oder Genehmigung.
Das Konzept dezentralisierter Berechnungsnetzwerke ist nicht neu - Projekte haben versucht, den Zugang zu knappen Rechenressourcen lange vor dem aktuellen AI-Boom zu demokratisieren.Render-Netzwerkbetreibt seit 2017 und aggregiert GPU-Ressourcen zur Darstellung von Computergrafiken.Akash wurde 2020 ins Leben gerufen, um einen offenen Marktplatz für allgemeines Computing zu schaffen. Beide Projekte waren in ihren Nischen mäßig erfolgreich, konzentrieren sich nun aber auf KI-Workloads.
Ähnlich verhält es sich mit dezentralen Speichernetzwerken wie Gate.io.FilecoinundArweaveexpandieren in die Berechnung. Sie erkennen, dass es sinnvoll ist, integrierte Lösungen anzubieten, da KI sowohl Speicher als auch Berechnung in Anspruch nimmt.
Genau wie traditionelle Rechenzentren Schwierigkeiten haben, mit speziell für KI entwickelten Einrichtungen zu konkurrieren, stehen diese etablierten Netzwerke vor einem steilen Kampf gegen KI-native Lösungen. Ihnen fehlt die DNA, um die komplexe Orchestrierung für KI-Workloads auszuführen. Stattdessen finden sie ihren Platz, indem sie Rechenleistung für andere KI-spezifische Netzwerke bereitstellen. Zum Beispiel machen Render und Akash nun ihre GPUs auf dem Marktplatz von io.net verfügbar.
Wer sind diese neuen KI-native Marktplätze?io.netist einer der frühen Marktführer bei der Aggregation von GPU-Angeboten für Unternehmen mit über 300.000 verifizierten GPUs in seinem Netzwerk. Sie behaupten, dass sie 90% Kostenersparnis gegenüber zentralisierten Mitbewerbern bieten und tägliche Einnahmen von über $25.000 ($9 Mio. jährlich) erzielt haben. Ebenso, Aethiraggregiert über 40.000 GPUs (einschließlich 4.000+ H100s), um sowohl KI- als auch Cloud-Computing-Anwendungsfälle zu bedienen.
Früher haben wir besprochen, wie Prime Intellect die Rahmenbedingungen für dezentrales Training im großen Maßstab schafft. Neben diesen Bemühungen stellen sie auch eine GPU Marktplatzwo Benutzer H100s auf Abruf mieten können.Wiedersehensetzt ebenfalls auf dezentrales Training mit einem ähnlichen Schulungsrahmen und einem Ansatz für den GPU-Marktplatz.
Während dies alles arbeitslastunabhängige Marktplätze sind (sie unterstützen sowohl das Training als auch die Inferenz), konzentrieren sich einige Projekte nur auf die Inferenz - die dezentralisierte Rechenlast, auf die wir uns am meisten freuen. Exo Labs ist einer der wichtigsten unter ihnen. Es ermöglicht Benutzern, LLMs der Frontier-Ebene auf Alltagsgeräten auszuführen. Sie haben eine Open-Source-Plattform entwickelt, die die Verteilung von KI-Inferenzaufgaben auf mehreren Geräten wie iPhones, Androids und Macs ermöglicht. Sie kürzlich gezeigtDie Ausführung eines 70-B-Modells (skalierbar auf 400-B), das auf vier M4 Pro Mac Minis verteilt ist.
Als Satoshi Bitcoin im Jahr 2008 startete, waren seine Vorteile - digitales Gold mit einer begrenzten Versorgung und zensurresistentem Geld - rein theoretisch. Das traditionelle Finanzsystem funktionierte trotz seiner Mängel. Zentralbanken hatten noch nicht mit der beispiellosen Geldschöpfung begonnen. Internationale Sanktionen wurden noch nicht gegen ganze Volkswirtschaften eingesetzt. Die Notwendigkeit einer Alternative schien eher akademisch als dringend.
Es dauerte ein Jahrzehnt der quantitativen Lockerung, die in der COVID-Ära monetäre Expansion kulminierte, damit die theoretischen Vorteile von Bitcoin in einen greifbaren Wert kristallisieren konnten. Heute, da die Inflation die Ersparnisse erodiert und geopolitische Spannungen die Dominanz des Dollars bedrohen, hat sich die Rolle von Bitcoin als „digitales Gold“ von einem Cypherpunk-Traum zu einem von Institutionen und Nationalstaaten angenommenen Vermögenswert entwickelt.
Dieses Muster wiederholte sich mit Stablecoins. Sobald eine allgemeine Blockchain auf Ethereum verfügbar war, wurden Stablecoins sofort zu einem der vielversprechendsten Anwendungsfälle. Dennoch dauerte es Jahre der stufenweisen Verbesserungen in der Technologie und der Wirtschaft von Ländern wie Argentinien und der Türkei, die von Inflation heimgesucht wurden, damit Stablecoins sich von einer Nischenkrypto-Innovation zu einer wichtigen Finanzinfrastruktur entwickeln konnten, die jährlich Billionen von Dollar bewegt.
Krypto ist von Natur aus eine defensive Technologie - Innovationen, die in guten Zeiten unnötig erscheinen, aber während Krisen unverzichtbar werden. Der Bedarf an diesen Lösungen wird nur dann deutlich, wenn bestehende Systeme versagen oder ihre wahren Farben zeigen.
Heute leben wir im goldenen Zeitalter der KI. Risikokapital fließt frei, Unternehmen konkurrieren um die niedrigsten Preise und Beschränkungen, wenn überhaupt, sind selten. In dieser Umgebung können dezentrale Alternativen unnötig erscheinen. Warum sich mit den Komplexitäten der Tokenökonomie und des Nachweissystems befassen, wenn herkömmliche Anbieter gut funktionieren?
Aber wenn man sich an den großen Technologiewellen der Vergangenheit orientiert, ist diese Güte zeitlich begrenzt. Wir sind kaum zwei Jahre in die AI-Revolution eingetreten. Wenn die Technologie reift und die Gewinner des AI-Rennens hervorgehen, wird ihre wahre Macht zum Vorschein kommen. Die gleichen Unternehmen, die heute großzügigen Zugang bieten, werden letztendlich Kontrolle ausüben – durch Preisgestaltung, durch Richtlinien, durch Berechtigungen.
Es geht nicht nur um einen weiteren Technologiezyklus. KI wird zum neuen Substrat der Zivilisation - die Linse, durch die wir Informationen verarbeiten, Kunst schaffen, Entscheidungen treffen und letztendlich als Spezies weiterentwickeln werden. Berechnungen sind mehr als nur eine Ressource; sie sind die Währung der Intelligenz selbst. Diejenigen, die den Fluss kontrollieren, werden die kognitive Grenze der Menschheit formen.
Dezentralisierte Berechnungen geht es nicht darum, günstigere GPUs oder flexiblere Bereitstellungsoptionen anzubieten (obwohl es beides bieten muss, um erfolgreich zu sein). Es geht darum sicherzustellen, dass der Zugang zur künstlichen Intelligenz – der bahnbrechendsten Technologie der Menschheit – nicht zensiert und souverän bleibt. Es ist unser Schutzschild gegen eine unvermeidliche Zukunft, in der nur eine Handvoll Unternehmen nicht nur bestimmt, wer KI verwenden kann, sondern auch wie sie damit denken können.
Wir bauen diese Systeme heute nicht, weil sie sofort notwendig sind, sondern weil sie morgen unverzichtbar sein werden. Wenn KI für die Gesellschaft genauso grundlegend wird wie Geld, wird das permissionless Compute nicht nur eine Alternative sein, sondern genauso wichtig sein, um der digitalen Hegemonie zu widerstehen, wie Bitcoin und Stablecoins es sind, um der finanziellen Kontrolle zu widerstehen.
Der Wettlauf zur künstlichen Superintelligenz könnte jenseits der Reichweite von dezentralisierten Systemen liegen. Aber sicherstellen, dass die Früchte dieses Intelligenz für alle zugänglich bleiben? Das ist ein Rennen, das es wert ist, geführt zu werden.