Der unsichtbare CO2-Rucksack von OpenAI und das Erwachen aus China
Lange Zeit galt in der Tech-Welt das ungeschriebene Gesetz: Größer ist immer besser. Um die kognitiven Fähigkeiten von Systemen wie GPT-4 zu steigern, pumpten Tech-Giganten wie Microsoft und Google Milliarden in gigantische Rechenzentren, die im Grunde wie digitale Hochöfen funktionieren. Und genau hier liegt der Hund begraben, denn die traditionelle Skalierung von dichten KI-Modellen frisst Strom in einer Dimension, die ganze Kleinstädte alt aussehen lässt. Ist DeepSeek umweltfreundlicher als ChatGPT? Um diese Frage im Jahr 2026 seriös zu beantworten, müssen wir die schiere Masse an Hardware betrachten, die im Hintergrund glüht. Wo OpenAI auf schiere Brute-Force-Gewalt setzt, versucht die Tech-Schmiede aus Hangzhou eine Art digitalen Judo-Griff. Es geht nicht mehr nur um das bloße Erringen von Spitzenplätzen in Benchmarks, sondern um das nackte Überleben in einer Welt, in der Stromnetze kollabieren und Nvidia-Chips Mangelware sind. Die Kehrseite der Medaille wird von Tech-Optimisten gerne verschwiegen. Was nützt uns ein hocheffizienter Algorithmus, wenn er durch seine Zugänglichkeit milliardenfach häufiger aufgerufen wird? Experten sind sich in diesem Punkt uneins, und ehrlich gesagt ist die Datenlage oft so transparent wie eine Betonwand.
Die nackten Zahlen des digitalen Energiehungers
Werfen wir einen Blick auf das Jahr 2023, als das Training von GPT-3 schätzungsweise 1.287 Megawattstunden verschlang. Das entspricht in etwa dem Jahresstromverbrauch von Hunderten deutschen Haushalten. Spätere Versionen wie GPT-4 setzten dem Ganzen die Krone auf, indem sie schätzungsweise das Zehnfache an Energie fraßen, obwohl OpenAI die genauen Spezifikationen hütet wie ein Staatsgeheimnis. Wenn ein Nutzer heute eine simple Promp-Anfrage an ChatGPT schickt, verbraucht das etwa zehnmal so viel Elektrizität wie eine klassische Google-Suchanfrage.
Warum herkömmliche Sprachmodelle die Stromnetze sprengen
Das Problem ist struktureller Natur. Bei einem dichten Modell (Dense Model) muss bei jedem einzelnen generierten Wort das gesamte neuronale Netzwerk aktiviert werden. Jedes einzelne Parameter-Gewicht wird berechnet. Das ist so, als würde man für das Umblättern einer Buchseite die gesamte Energieversorgung eines Hauses kurzschließen – völliger Irrsinn, wenn man länger darüber nachdenkt. Deswegen suchen Forscher weltweit nach Notausgängen aus dieser energetischen Sackgasse.
Die technologische Revolution: Warum DeepSeek-V3 die Spielregeln verändert
Hier kommt die fundamentale Wende, die den Markt im Januar 2025 erschüttert hat. DeepSeek-V3 basiert auf einer sogenannten Mixture-of-Experts-Architektur (MoE). Das Prinzip dahinter klingt simpel, ist mathematisch aber verdammt knifflig: Statt das gesamte Gehirn der KI für jede banale Frage zu aktivieren, werden nur spezialisierte Unterbaugruppen, die sogenannten Experts, hochgefahren. Dadurch werden von den insgesamt 671 Milliarden Parametern des Modells pro Token nur magere 37 Milliarden Parameter tatsächlich aktiviert. Das spart unfassbar viel Rechenzeit. Und weniger Rechenzeit bedeutet im Umkehrschluss direkt weniger glühende Serverracks in den Datenfabriken. Doch wie schlägt sich das im direkten Vergleich nieder? Die Entwickler behaupten stolz, dass das Training von DeepSeek-V3 lediglich rund 2,788 Millionen GPU-Stunden auf modernen H800-Chips im Wert von knapp 5,57 Millionen Dollar gekostet hat. Ein Klacks im Vergleich zu den geschätzten 100 Millionen Dollar und dem entsprechenden CO2-Ausstoß, den OpenAI für seine Flaggschiff-Modelle verpulvert. Das ändert alles. Plötzlich ist Spitzen-KI nicht mehr das exklusive Privileg von Firmen mit eigenem Atomkraftwerk-Anschluss.
Multi-Head Latent Attention: Das Sparwunder im Detail
Neben MoE nutzt das chinesische Modell eine verfeinerte Version der sogenannten Attention-Mechanismen. Das Ding nennt sich Multi-Head Latent Attention (MLA). Was trocken klingt, löst ein massives Problem moderner KI: den sogenannten KV-Cache-Flaschenhals, der beim Generieren langer Texte die Grafikkarten extrem ausbremst. Indem MLA die zu speichernden Daten drastisch komprimiert, sinkt der Speicherbedarf während der Inferenz massiv. Und weil weniger Daten zwischen Prozessor und Speicher hin- und hergeschoben werden müssen, sinkt die thermische Verlustleistung der Server spürbar.
Der DeepSeekMoE-Ansatz und die Vermeidung von Redundanz
Das System trennt strikt zwischen geteilten Experten (Shared Experts), die das grundlegende Basiswissen verwalten, und routeten Experten (Routed Experts), die nur bei Spezialfragen anspringen. Ein ausgeklügelter Algorithmus sorgt dafür, dass kein Experte überlastet wird oder untätig herumsteht. Das verhindert die energetische Verschwendung, die bei ChatGPT oft dadurch entsteht, dass gigantische Matrixmultiplikationen für triviale grammatikalische Verknüpfungen ausgeführt werden.
Hardware-Optimierung jenseits des Mainstreams
Es wird oft übersehen, dass DeepSeek aufgrund von US-Sanktionen gezwungen war, auf modifizierten Nvidia H800-GPUs zu trainieren, die in ihrer Kommunikationsbandbreite beschnitten sind. Die Ingenieure mussten den Code so radikal auf Effizienz trimmen, dass er die Hardware-Einschränkungen austrickst. Diese erzwungene Genügsamkeit erweist sich nun als ökologischer Segen, da das Modell inhärent ressourcenschonender operiert als die auf maximalen Durchsatz optimierten Architekturen im Westen.
Die Inferenz-Gleichung: Wo der wahre Umweltkampf ausgefochten wird
Die meisten Berichte stürzen sich wie wild auf die Trainingsphase der Modelle. Das ist zwar spektakulär, greift aber zu kurz. Das Training passiert einmal, die Inferenz – also das Beantworten von Nutzerfragen – passiert milliardenfach jeden Tag. Genau hier verschieben sich die Gewichte dramatisch. Weil DeepSeek-V3 bei der Inferenz nur einen Bruchteil seiner Parameter aktivieren muss, benötigt eine einzelne Antwort signifikant weniger Wattsekunden als eine vergleichbare Antwort von GPT-4o. Wenn man bedenkt, dass ChatGPT laut Schätzungen zeitweise über 10 Millionen Anfragen pro Tag verarbeitete, summiert sich jede gesparte Wattsekunde schnell zu gigantischen Megawattstunden. Aber die Sache hat einen gigantischen Haken, den man in der Ökonomie als Jevons-Paradoxon kennt. Wenn Technologie effizienter und billiger wird, sinkt nicht der Verbrauch, sondern die Nutzung steigt dramatisch an. Und da sind wir weit von einer echten Entlastung entfernt. Weil DeepSeek so extrem günstig anzubieten ist – teilweise zu einem Zehntel des Preises der Konkurrenz –, integrieren Entwickler weltweit die API nun in jeden erdenklichen Software-Schnipsel. Was nützt es der Umwelt, wenn eine Anfrage 90 Prozent weniger Strom verbraucht, sich die Anzahl der Anfragen aber verhundertfacht? Ich bin der festen Überzeugung, dass dieser Rebound-Effekt den architektonischen Effizienzvorteil in der globalen Gesamtbilanz komplett auffressen wird.
Der Token-Verbrauch im energetischen Kreuzfeuer
Um ein Gefühl für die Dimensionen zu bekommen: Das Generieren von einer Million Token mit DeepSeek-V3 kostet den Endnutzer oft nur wenige Cent. Dieser absurde Preisverfall spiegelt direkt den reduzierten Rechenaufwand wider. ChatGPT hingegen muss für seine dichten Modelle viel mehr Rechenleistung pro Token aufwenden, was sich in höheren API-Preisen und einem massiveren energetischen Abdruck pro Textseite niederschlägt. Doch Papier ist geduldig, und die exakten Emissionsfaktoren der chinesischen Rechenzentren bleiben oft eine Blackbox.
Das Duell der Rechenzentren: Kohleabbau vs. Tech-Monopole
Die Debatte um die Frage, ist DeepSeek umweltfreundlicher als ChatGPT, lässt sich nicht isoliert im luftleeren Raum der Algorithmen entscheiden. Wir müssen dorthin schauen, wo der Strom erzeugt wird. OpenAI greift maßgeblich auf die Azure-Cloud von Microsoft zurück. Microsoft hat sich zwar ambitionierte Ziele gesteckt und will bis 2030 CO2-negativ sein, kauft dafür aber zu einem großen Teil Zertifikate, während der reale Stromhunger ihre lokalen Netze in den USA an den Rand der Belastungsgrenze treibt. Woher nimmt DeepSeek seine Energie? Die Server stehen in China. Zwar baut kein anderes Land der Erde so rasant erneuerbare Energien aus wie China, doch gleichzeitig hängen dort immer noch gewaltige Mengen an Kohlekraftwerken am Netz, um die Grundlast zu sichern. Das ist die bittere Ironie: Ein algorithmisch ultra-effizientes Modell, das mit Kohlestrom gefüttert wird, kann am Ende eine schlechtere reale CO2-Bilanz aufweisen als ein verschwenderisches US-Modell, das zu signifikanten Teilen an Wasserkraft- oder Kernkraft-Clustern im Bundesstaat Washington hängt. Die Wahrheit ist also verdammt unbequem, weil sie sich nicht in sauberen PR-Broschüren abbilden lässt.
Die geografische Verteilung der Server-Emissionsfaktoren
Ein Rechenzentrum in Virginia, dem weltweiten Knotenpunkt für Internet-Traffic, operiert mit einem völlig anderen Energiemix als ein Serverpark in der Provinz Guizhou oder der Inneren Mongolei. Während US-Anbieter zunehmend auf Power Purchase Agreements (PPAs) für Solar- und Windenergie setzen, ist die lückenlose Verfolgung der Lieferkette und der Energieherkunft bei chinesischen Cloud-Anbietern für westliche Analysten fast unmöglich zu verifizieren. Daher bleibt jeder direkte Vergleich der Netto-Emissionen Stückwerk.
