Nvidia Nemotron 3 Super: KI-Wette mit offenem Gewicht für 26 Mrd. $

Nvidia Nemotron 3 Super ist ein 120B Open-Weight-Modell für Multi-Agenten-KI, veröffentlicht im Rahmen eines 26-Milliarden-Dollar-Open-Source-Investitionsplans.

Das Wichtigste in Kürze

Nvidia Nemotron 3 Super ist ein Open-Weight-Modell mit 120 Milliarden Parametern, das dank Mixture-of-Experts-Architektur nur 12B aktive Parameter nutzt
Das Modell verfügt über ein 1-Million-Token-Kontextfenster und wurde von Beginn an nativ im NVFP4-4-Bit-Gleitkommaformat vortrainiert
Nvidias $26 Milliarden schwere Fünfjahres-Investition in Open-Weight-KI wurde durch einen Finanzbericht von 2025 bestätigt — ein 550B-Parameter-Modell ist bereits vortrainiert
Chinesische Open-Source-Modelle stiegen von 1,2% der weltweiten Open-Model-Nutzung Ende 2024 auf rund 30% Ende 2025 — Qwen überholte Llama als meistgenutztes selbstgehostetes Modell

Nvidia Nemotron 3 Super wurde diese Woche veröffentlicht — ein Open-Weight-Modell mit 120 Milliarden Parametern, das speziell für Multi-Agenten-KI-Workflows entwickelt wurde und das bislang deutlichste Signal dafür ist, dass Nvidia sich nicht damit zufriedengibt, nur ein Chip-Unternehmen zu bleiben. Die Veröffentlichung ist Teil einer $26-Milliarden-Verpflichtung über fünf Jahre für Open-Weight-Modelle, die die meisten Menschen übersehen haben. Das hätten sie nicht tun sollen.

Was ist Nvidia Nemotron 3 Super?

Eine Hybrid-Architektur für Agenten, nicht für Chatbots

Nvidia Nemotron 3 Super ist ein Modell mit 120 Milliarden Parametern, das zur Inferenzzeit nur 12 Milliarden Parameter aktiviert und eine Mixture-of-Experts-Architektur (MoE) nutzt, um die Rechenkosten niedrig zu halten, ohne an Reasoning-Tiefe einzubüßen. Es wird mit einem 1-Million-Token-Kontextfenster ausgeliefert — genug für etwa 750.000 Wörter oder eine gesamte große Codebasis im Speicher, ohne Kontextverlust. Laut Nvidias Entwickler-Blog zielt das Modell auf Multi-Agenten-Workflows ab, bei denen Token-Kosten schnell eskalieren: Jeder Tool-Aufruf, jeder Reasoning-Schritt und jedes abgerufene Kontextfragment wird von Grund auf neu gesendet, was die Inferenzkosten exponentiell höher treibt als in einer einfachen Chat-Sitzung.

Die Architektur kombiniert drei Komponenten, die selten gemeinsam auftreten: Mamba-2-State-Space-Schichten für schnelle, speichereffiziente Verarbeitung langer Token-Sequenzen; Standard-Transformer-Attention-Schichten für präzisen Abruf; und ein neues „Latent MoE"-Design, das Token-Embeddings vor dem Experten-Routing komprimiert. Letzteres ermöglicht es dem Modell, bei gleichen Rechenkosten viermal so viele Spezialisten zu aktivieren.

Die Trainingsmethodik hebt dieses Modell ab. Nemotron 3 Super wurde nativ in NVFP4 vortrainiert — Nvidias eigenem 4-Bit-Gleitkommaformat — und lernte vom ersten Gradienten-Update an, innerhalb von 4-Bit-Arithmetik zu arbeiten, anstatt erst nach dem Training quantisiert zu werden. Nachträgliche Quantisierung verschlechtert oft die Reasoning-Qualität; natives Training tut das nicht. Das Ergebnis: mehr als fünfmal höherer Durchsatz als sein Vorgänger, 2,2-mal schnellere Inferenz als OpenAIs GPT-OSS 120B und 7,5-mal schneller als Alibabas Qwen3.5-122B.

Die $26-Milliarden-Verpflichtung hinter einem Modell

Nemotron 3 Super ist keine eigenständige Produkteinführung — es ist ein Datenpunkt in einer viel größeren Strategie. Ein 2025 veröffentlichter Finanzbericht zeigt, dass Nvidia $26 Milliarden über fünf Jahre in Open-Weight-KI-Modelle investiert. Bryan Catanzaro, Nvidias VP für angewandte Deep-Learning-Forschung, bestätigte den Umfang: Das Unternehmen hat kürzlich das Vortraining eines 550-Milliarden-Parameter-Modells abgeschlossen. Nemotron ist nicht die Obergrenze. Es ist die Untergrenze.

Die gesamte Trainings-Pipeline ist öffentlich: Gewichte auf Hugging Face, 10 Billionen kuratierte Vortrainings-Token aus insgesamt 25 Billionen während des Trainings gesehenen Token, 40 Millionen Post-Training-Samples und Reinforcement-Learning-Rezepte über 21 Umgebungskonfigurationen hinweg. Perplexity, Palantir, Cadence und Siemens integrieren das Modell bereits. Nvidia hat erstmals im November 2023 ein Nemotron-Modell veröffentlicht — der Finanzbericht macht klar, dass dies längst kein Nebenprojekt mehr ist.

Die strategische Logik ist alles andere als subtil. Nvidias GPUs sind die Standard-Infrastruktur für das Training und den Betrieb von Frontier-Modellen. Wenn Entwickler ihre Pipelines auf Nemotron aufbauen — von Grund auf für Nvidia-Hardware optimiert — ist das eine Kundenbindungsstrategie im Open-Source-Gewand. Man kann es Open-Washing nennen, aber die Gewichte sind öffentlich, die Datensätze sind öffentlich, die Rezepte sind öffentlich. Das ist mehr, als Meta in letzter Zeit getan hat.

Verliert Amerika das Open-Source-KI-Rennen?

Chinesische Modelle stiegen innerhalb eines Jahres von 1,2% auf 30% der globalen Nutzung

Hier ist die Zahl, die aufhorchen lassen sollte: Chinesische Open-Source-Modelle stiegen von etwa 1,2% der weltweiten Open-Model-Nutzung Ende 2024 auf ungefähr 30% Ende 2025, wie Untersuchungen von OpenRouter und Andreessen Horowitz zeigen. Alibabas Qwen3.5-Serie überholte Metas Llama als das weltweit meistgenutzte selbstgehostete Open-Source-Modell. Amerikanische Unternehmen — darunter Airbnb — setzten es für den Kundenservice ein. Startups weltweit bauen darauf auf. Dieses Maß an Akzeptanz lässt sich nicht schnell umkehren.

Ein am Montag veröffentlichter Bericht der Brookings Institution formuliert die Divergenz deutlich. Die USA führen ein AGI-Rennen, während China ein Adoptions-Rennen führt — mit Fokus auf Effizienz, globale Reichweite und die Einbettung von KI in reale Systeme. DeepSeek, Alibaba und andere haben das Open-Source-Ökosystem mit ihren besten Modellen geflutet, während OpenAI, Anthropic und Google ihre Modelle hinter APIs verschlossen halten. Meta war das einzige große amerikanische Gegengewicht im Open-Source-Bereich. Dann signalisierte Zuckerberg, dass das Unternehmen künftige Modelle möglicherweise nicht mehr vollständig offen machen wird.

Die Kluft zwischen dem besten proprietären Modell und dem besten Open-Source-Modell war früher groß und begünstigte Amerika. Diese Kluft hat sich fast geschlossen, und die offene Seite der Bilanz wird zunehmend chinesisch.

Unter all dem liegt eine Hardware-Dimension. Ein neues DeepSeek-Modell wird in Kürze erwartet — Gerüchten zufolge auf Chips von Huawei trainiert, einem sanktionierten chinesischen Unternehmen. Falls bestätigt, gibt das Entwicklern weltweit einen konkreten Grund, Huaweis Hardware-Stack zu testen. Chinas Ziphu AI tut dies bereits. Das Szenario, das Nvidia am dringendsten verhindern muss: Chinesische Open-Source-Modelle und chinesische Chips bilden ein Ökosystem, das Nvidias GPUs überhaupt nicht mehr benötigt.

Die USA sind besessen vom Rennen zur AGI — der künstlichen allgemeinen Intelligenz. Amerikanische Technologieunternehmen investieren Hunderte Milliarden in dieses Ziel.

— Brookings Institution report, March 2026

Was bedeutet das für KI-Entwickler?

Für Ingenieure, die Multi-Agenten-Systeme betreiben, ist die Effizienzrechnung überzeugend. Ein Modell, das 12 Milliarden Parameter aktiviert und dabei auf insgesamt 120 Milliarden zurückgreift, bedeutet Reasoning nahe der Frontier zu einem Bruchteil der Frontier-Kosten. Das 1-Million-Token-Kontextfenster ermöglicht es Agenten, den Zustand über lange Aufgaben hinweg beizubehalten, ohne ständige Resets — einer der schmerzhaftesten Fehlermodi in Produktions-Pipelines.

Nvidias interne Benchmarks zeigten, dass das Modell Fehler im Kontext erkannte, ohne dazu aufgefordert zu werden, Mathematik und Logik sauber verarbeitete und bei Prompts standhielt, die absichtlich vage oder faktisch falsch waren. Robustheit bei fehlerhaften Eingaben ist in realen agentischen Einsatzszenarien entscheidend. Perplexity und Palantir werden bald den Praxistest liefern.

Nemotron 3 Super beantwortet eine direkte Frage darüber, wohin Nvidia steuert: nicht nur Chips, nicht nur Hardware, sondern der gesamte Stack. Modelle, Trainingsrezepte, Deployment-Tools und nun auch die Erzählung rund um Open-Source-KI-Führerschaft. Ob das ausreicht, um Chinas Dynamik bei Open-Weight-Modellen zu bremsen — das ist eine ganz andere Frage.

Häufig gestellte Fragen

Was ist Nvidia Nemotron 3 Super?

Nvidia Nemotron 3 Super ist ein Open-Weight-KI-Modell mit 120 Milliarden Parametern, das zur Inferenzzeit nur 12 Milliarden Parameter über ein Mixture-of-Experts-Design aktiviert. Es verfügt über ein 1-Million-Token-Kontextfenster und wurde für Multi-Agenten-KI-Workflows entwickelt. Es bietet 2,2-mal schnellere Inferenz als OpenAIs GPT-OSS 120B und 7,5-mal schneller als Alibabas Qwen3.5-122B.

Wie viel investiert Nvidia in Open-Weight-KI-Modelle?

Nvidias Finanzbericht von 2025 bestätigt eine geplante Investition von $26 Milliarden über fünf Jahre in Open-Weight-KI-Modelle. VP Bryan Catanzaro bestätigte, dass das Unternehmen kürzlich das Vortraining eines 550-Milliarden-Parameter-Modells abgeschlossen hat, was darauf hindeutet, dass Nemotron 3 Super ein früher Meilenstein in einer langfristigen Open-Source-KI-Strategie ist, die direkt an die Nvidia-Hardware-Adoption gebunden ist.

Wie schneidet Nemotron 3 Super im Vergleich zu Qwen und GPT-Open-Modellen ab?

Nemotron 3 Super liefert 2,2-mal höheren Inferenz-Durchsatz als OpenAIs GPT-OSS 120B und 7,5-mal schneller als Alibabas Qwen3.5-122B. Es übertrifft auch seinen eigenen Vorgänger um mehr als das Fünffache beim Durchsatz und hält dabei eine starke Genauigkeit bei Reasoning-, Mathematik- und Fehlerkennungsaufgaben — einschließlich vager oder fehlerhafter Eingabe-Prompts.

Warum veröffentlicht Nvidia Open-Weight-KI-Modelle?

Nvidias Open-Weight-Strategie ist eine Hardware-Kundenbindungsmaßnahme: Modelle, die für Nvidias NVFP4-Format und GPU-Stack optimiert sind, schaffen Anreize für Entwickler, auf Nvidia-Infrastruktur zu bleiben. Sie wirkt auch dem Aufstieg chinesischer Open-Source-Modelle wie Alibabas Qwen entgegen, deren Nutzungsanteil zwischen Ende 2024 und Ende 2025 von 1,2% auf 30% der weltweiten Open-Model-Nutzung stieg und damit Nvidias Ökosystem-Dominanz bedroht.