Xiaomi MiMo V2 Pro im Test: Das KI-Modell, das mit DeepSeek V4 verwechselt wird

Xiaomi MiMo V2 Pro startete am 18. März 2026 – das 1T-Parameter-Modell, das mit DeepSeek V4 verwechselt wurde und Claude beim kreativen Schreiben zu einem Bruchteil der Kosten schlägt.

Das Wichtigste in Kürze

Xiaomi MiMo V2 Pro wurde am 18. März 2026 veröffentlicht — mit über 1 Billion Gesamtparametern und 42 Milliarden aktiven pro Anfrage dank Mixture-of-Experts-Architektur
Ein anonymes Modell namens Hunter Alpha tauchte am 11. März auf OpenRouter auf, stieg an die Spitze der Rangliste und wurde weithin für DeepSeek V4 gehalten — bis Xiaomi es für sich beanspruchte
Der Preis liegt bei $1 pro Million Input-Token und $3 pro Million Output-Token — gegenüber Claude Sonnet 4.6 mit $3/$15 — was es für Entwickler zu einem ernstzunehmenden Kostenvorteil macht
MiMo-V2-Pro belegt Platz 8 weltweit im Artificial Analysis Intelligence Index und Platz 2 unter chinesischen Modellen, nur hinter GLM-5

Xiaomi MiMo V2 Pro kündigte sich nicht so an, wie es westliche KI-Launches tun — keine aufwendige Keynote, keine atemlose Pressemitteilung, kein Countdown-Timer. Stattdessen tauchte am 11. März 2026 still und leise ein anonymes Modell mit 1 Billion Parametern auf OpenRouter auf, kletterte innerhalb weniger Tage an die Spitze der Rangliste, verbrannte insgesamt eine Billion Token an Nutzung und stürzte die KI-Community in eine Spekulationsspirale — es musste sich um DeepSeeks unveröffentlichtes V4 handeln. War es aber nicht. Eine Woche später enthüllte Xiaomis Leiter der MiMo-Forschung, dass das Modell ein früher interner Testbuild dessen war, was zu MiMo-V2-Pro werden sollte — und die Aktie des Unternehmens sprang am selben Tag um 5,8%.

Wie Hunter Alpha die gesamte KI-Community täuschte

Um zu verstehen, warum das wichtig war, muss man wissen, worauf alle gewartet haben. DeepSeeks V4 hatte wochenlang Vorfreude aufgebaut — Insider behaupteten, es würde sowohl Claude als auch ChatGPT bei Programmieraufgaben übertreffen, und die KI-Community hatte eine Art kollektives DeepSeek-V4-Radar entwickelt, das jedes anonyme oder unerklärte Modell-Release mit derselben Frage anpingte. Als also Hunter Alpha auf OpenRouter ohne jegliche Zuordnung erschien, direkt an die Spitze der OpenRouter-Rankings kletterte und insgesamt eine Billion Token an Nutzung überschritt, lag die Vermutung auf der Hand. Falsch.

Am 18. März 2026 bestätigte Luo Fuli — Leiter von Xiaomis MiMo-Abteilung und ehemaliger DeepSeek-Forscher, was die Verwechslung noch pikanter machte — dass Hunter Alpha ihnen gehörte. Ein früher, nicht gekennzeichneter Testlauf von MiMo-V2-Pro. „Ich nenne das einen stillen Überfall", schrieb er auf X, wobei das Wort „Überfall" Absicht impliziert. Ob Xiaomi bewusst ein namenloses Modell platzierte, um organische Dynamik aufzubauen, bevor die Enthüllung kam, oder ob das Timing tatsächlich zufällig war, weiß nur Luo. So oder so war das Ergebnis dasselbe: ein milliardenschwerer Aufmerksamkeitsschub für ein Unternehmen, das die meisten westlichen Beobachter noch immer hauptsächlich mit günstigen Smartphones verbinden.

Xiaomis tatsächliche Größe überrascht die meisten. Das Unternehmen ist der drittgrößte Smartphone-Hersteller der Welt, nur hinter Apple und Samsung, mit rund 170 Millionen ausgelieferten Handys im Jahr 2025. Sein SU7 Ultra stellte letztes Jahr den Nürburgring-Rekord für das schnellste Serien-Elektrofahrzeug auf. Die Marktkapitalisierung liegt bei rund $137 Milliarden. KI-Forschung ist hier kein Nebenprojekt — MiMo hat eine eigene Forschungsabteilung, und diese Veröffentlichung — drei Modelle auf einmal — deutet eher auf eine Plattformstrategie als auf ein Mondschein-Experiment hin.

Ich nenne das einen stillen Überfall — nicht weil wir es geplant haben, sondern weil der Wandel vom Chat- zum Agent-Paradigma so schnell ging, dass selbst wir es kaum glauben konnten.

— Luo Fuli, Head of Xiaomi MiMo Division

Was MiMo V2 Pro unter der Haube wirklich ist

Die Architektur verdient ernsthafte Beachtung. Xiaomi MiMo V2 Pro arbeitet mit über 1 Billion Gesamtparametern bei 42 Milliarden aktiven pro Anfrage durch ein Mixture-of-Experts-Setup — das bedeutet, das Modell leitet jede Anfrage an die relevanteste Teilmenge seines Parameterraums weiter, anstatt alles gleichzeitig zu aktivieren. Ein hybrider Aufmerksamkeitsmechanismus mit einem 7:1-Verhältnis verarbeitet ein Kontextfenster von bis zu 1 Million Token. Eine integrierte Multi-Token-Vorhersageschicht beschleunigt die Generierung, indem sie mehrere Token pro Schritt vorhersagt, anstatt den üblichen Einzeltoken-Ansatz zu verfolgen.

Dieses Kontextfenster ist keine bloße Werbezahl. Bei einer Million Token kann man das Äquivalent mehrerer vollständiger Romane, eine gesamte Codebasis oder stundenlange transkribierte Gespräche laden — und das Modell behält kohärentes Schlussfolgern über all das hinweg bei. Ob der Aufmerksamkeitsmechanismus bei diesen Tiefen tatsächlich die Qualität aufrechterhalten kann, ist eine separate Frage, aber die Obergrenze ist wirklich beeindruckend.

MiMo-V2-Pro ist derzeit Closed Source, obwohl Xiaomi eine mögliche zukünftige offene Veröffentlichung angedeutet hat. Das Schwestermodell MiMo-V2-Omni verarbeitet Bild, Audio und Video nativ — nicht als angebaute Module, sondern als Ende-zu-Ende trainierte Wahrnehmung. Eine Demo, die es beim Parsen von Dashcam-Aufnahmen als autonomen Fahrcopiloten zeigte, war den meisten „multimodalen" Modellen, die still und leise an separate spezialisierte Netzwerke weiterleiten und das Integration nennen, haushoch überlegen. Ein Text-to-Speech-Modell rundete die Veröffentlichung vom 18. März ab.

Wo steht MiMo V2 Pro in den Benchmarks?

Wie schlägt sich MiMo V2 Pro im Vergleich zu Claude Opus 4.6 bei Coding-Benchmarks?

MiMo-V2-Pro erzielt 78% auf SWE-bench Verified — dem Benchmark, der reale Software-Engineering-Aufgaben verwendet statt bereinigter Lehrbuchprobleme. Claude Opus 4.6 liegt bei 80,8%; Claude Sonnet 4.6 bei 79,6%. Der Abstand ist real, aber gering. Auf ClawEval, dem agentischen Benchmark des OpenClaw-Frameworks, erreicht MiMo-V2-Pro 61,5 und nähert sich Opus 4.6 mit 66,3. Auf PinchBench belegt es mit 81,0 den dritten Platz weltweit, knapp hinter Opus 4.6 (81,5) und seinem eigenen Schwestermodell MiMo-V2-Omni (81,2).

Laut Daten des MiMo-V2-Pro Benchmarks im Artificial Analysis Intelligence Index belegt das Modell Platz acht weltweit und Platz zwei unter chinesischen Modellen, nur hinter GLM-5. Das ist der Ranglistenkontext. Nun der Kostenkontext: MiMo-V2-Pro kostet $1 pro Million Input-Token und $3 pro Million Output-Token. Claude Sonnet 4.6 liegt bei $3 Input / $15 Output. Opus 4.6 bei $5 Input / $25 Output. Für alle, die agentische Pipelines im großen Maßstab betreiben, ist diese Differenz keine Fußnote — sie ist das gesamte Budgetgespräch.

Nahe an Anthropics besten Modellen in der Leistungsfähigkeit. Ein Fünftel des Preises beim Output. Das ist die Geschichte, die die westliche KI-Berichterstattung immer im drittletzten Absatz versteckt.

Kreatives Schreiben: Der Teil, den niemand erwartet hatte

Benchmark-Zahlen sind Näherungswerte. Was bei tatsächlichen Tests geschah, war schwerer abzutun. Der kreative Schreibprompt für MiMo-V2-Pro verlangte eine Zeitreisegeschichte verankert in mesoamerikanischer Geschichte — mit einem konkreten Protagonisten, einer kulturellen Identität, die respektvoll dargestellt werden sollte, und einem philosophischen Paradoxon über die Unveränderlichkeit der Zeit, eingewoben in die Auflösung. Das Modell lieferte über 3.000 Wörter: einen passenden Titel, fünf vollständige Kapitel, strukturelle Disziplin und einen Epilog. Das ist die längste und reichhaltigste kreative Ausgabe, die jemals von einem in dieser Kategorie getesteten Modell aufgezeichnet wurde — einzige Ausnahme ist Longwriter, ein spezialisiertes Legacy-Modell, das von Grund auf für Langform-Generierung gebaut wurde, was kein fairer Vergleich ist.

Was es vom üblichen Modell-Output unterschied, war nicht die Länge. Es war die Präzision. Die kulturelle Spezifität — Nahuatl-Namen, Erwähnungen der Temazcal-Tradition, cara de luna, Maguey-Faser — war durchgehend konsistent und nie dekorativ. Die Dialoge fügten sich so in die Erzählung ein, wie literarische Fiktion es handhabt, anstatt in Prosa-Blöcke eingebettet zu werden, wie es die meisten Modelle standardmäßig tun. Das Zeitreise-Paradoxon wurde nicht nur angedeutet. Es wurde emotional argumentiert, und die letzten Zeilen lösten es auf, ohne auf Erklärungen zurückzugreifen.

Die Prosa zeigt, dass MiMo-V2-Pro verstand, wie sich das alte Mesoamerika auf sensorischer Ebene anfühlte — nicht nur visuelles Szenen-Setting, sondern Geruch, Stimmung, Textur. Die meisten Modelle dieser Klasse setzen eine Szene und nennen es Immersion.

Draußen begann der Regen. Er fiel auf die gewundenen Türme und die wiederhergestellten Seen und den uralten Boden von Tlachinollan, wo, begraben in vulkanischer Erde unter dem Gewicht von tausend Jahren, ein schwarzes Rechteck mit der Geduld von etwas wartete, das bereits wusste, wie die Geschichte enden würde.

— MiMo-V2-Pro, creative writing output

Programmierung, Logik und wo die tatsächliche Obergrenze liegt

Programmierung ist offiziell der stärkste Benchmark-Bereich des Modells, und praktische Tests bestätigten das. Aufgefordert, ein Stealth-Spiel aus einem einzigen Prompt zu bauen, lieferte MiMo-V2-Pro beim ersten Versuch ein funktionierendes Spiel — nicht „technisch lauffähig", sondern logisch intakt, visuell kohärent und ästhetisch durchdacht. Es wählte eine 2.5D-Ästhetik statt des flachen 2D-Ansatzes, den die meisten Modelle standardmäßig verwenden, was das Ergebnis merklich polierter wirken ließ. Das Hinzufügen von Sound und MIDI-Musik in einem Folgedurchgang — eine Modifikation, bei der vorherige Modelle die Kontextkohärenz vollständig verloren haben — hielt sauber zusammen. Die Musik passte zur Stimmung. Die visuelle Identität blieb über alle Bildschirme konsistent.

Die Schwierigkeitsskalierung war repetitiv — Roboter und Spielercharakter erschienen in jeder Runde an denselben Positionen, was eine Design-Einschränkung und kein Code-Fehler ist. Aber für eine iterationsfreie Einzelprompt-Ausgabe wäre es veröffentlichungsfähig.

Logiktests legten etwas Interessanteres frei als eine falsche Antwort. Auf die Frage, ob es rechtmäßig sei, dass ein Mann die Schwester seiner Witwe nach dem Recht der Falklandinseln heiratet — eine klassische Denkfalle — identifizierte die Gedankenkette des Modells korrekt, dass ein Mann keine Witwe haben kann, solange er lebt, markierte den Widerspruch und formulierte die Frage dann stillschweigend um in „Darf ein Mann die Schwester seiner verstorbenen Frau heiraten?", bevor es diese umformulierte Version beantwortete. Die Logik war technisch korrekt. Die Entscheidung, die Prämisse stillschweigend auszutauschen statt den Widerspruch offenzulegen, war es nicht. Es gab eine selbstbewusste, gut argumentierte Antwort auf eine Frage, die niemand gestellt hatte.

Der einzige Grund, warum wir das wissen, ist, dass Xiaomi die vollständige Gedankenkette offenlegt. Wenn ein Modell fehlerhafte Schlussfolgerungen in einer verborgenen Denkschicht vergräbt, bekommt man eine selbstbewusste falsche Antwort ohne Prüfpfad. Diese Transparenz ist bedeutsam, selbst wenn das, was sie offenbart, wenig schmeichelhaft ist.

Mathematik ist die ehrliche Obergrenze. Ein FrontierMath-Problem — die Konstruktion eines Polynoms 19. Grades mit spezifischen Einschränkungen über komplexen Zahlen — verursachte zwei vollständige Einfrierungen und verbrauchte erhebliches Token-Budget, bevor eine Antwort kam. Als eine Antwort erschien, war sie falsch. Die korrekte Antwort war 1.876.572.071.974.094.803.391.179; das Modell lieferte eine Zahl, die etwa zehn Größenordnungen zu klein war. Für Standard- und mittelschwere Mathematik hält es stand. Frontier-Forschungsberechnungen sind nicht der aktuelle Anwendungsfall.

Die Formulierung „die Schwester seiner Witwe heiraten" enthält einen logischen Widerspruch. Wenn ein Mann eine „Witwe" hat, ist er verstorben und kann nicht erneut heiraten. Die korrekte Rechtsfrage lautet, ob ein Mann die Schwester seiner verstorbenen Frau heiraten darf.

— MiMo-V2-Pro, legal reasoning output

Sollten Entwickler MiMo V2 Pro tatsächlich nutzen?

Xiaomis agentischer Einstieg ist eine Ein-Klick-OpenClaw-Integration — eine vorkonfigurierte Cloud-Instanz mit MiMo-V2-Pro darunter, kein API-Setup, kein VPS, kein Fehlerbehebungsritual. Die Demo-Umgebung läuft 30 Minuten und zerstört sich dann selbst, was für jeden ernsthaften Workflow eine echte Einschränkung darstellt, aber zumindest ehrlich ist. Für Entwickler, die bereits agentische Infrastruktur haben, bringt es nichts Neues. Für alle anderen ist es der reibungsloseste Einstieg in agentische KI, der derzeit verfügbar ist.

Das Kostenargument ist stark genug, um einen direkten Vergleich zu rechtfertigen. Bei $3 pro Million Output-Token betreibt man agentische Schleifen für etwa ein Fünftel der Kosten von Claude Opus 4.6 und rund ein Fünftel der Kosten von GPT-4-Klasse-Modellen. MiMo-V2-Pro ist nicht bei jedem Benchmark gleichauf — Mathematik bleibt schwach, und agentisches Schlussfolgern offenbart gelegentlich die Art stiller Prämissensubstitution, die im Logiktest sichtbar wurde. Aber für kreative Arbeit, komplexe Codegenerierung und Langkontext-Dokumentenanalyse ist der Leistungsunterschied zu Anthropics Flaggschiff gering. Der Preisunterschied ist es nicht.

Das Modell denkt teuer in Bezug auf Token-Verbrauch bei schweren Denkaufgaben — Gedankenketten werden lang, und die Multi-Token-Vorhersageschicht bedeutet, dass die Ausgabegenerierung beschleunigt wird, aber internes Schlussfolgern trotzdem kostet. Behalten Sie den Zähler bei Frontier-Problemstellungen im Auge. Für alles andere ist das Kostenargument eindeutig: dieselbe Shortlist, ein Bruchteil der Rechnung.

Xiaomi ist kein Handyunternehmen, das zufällig in die KI gestolpert ist. Es ist ein $137 Milliarden schwerer Hardware- und Software-Konzern, der seit Jahren still darauf hingearbeitet hat. MiMo-V2-Pro ist kein Erstversuch. Es ist die zweite Generation eines Modells, das bereits mit 309 Milliarden Parametern lief und von der westlichen Presse weitgehend ignoriert wurde. Die nächste Version wird nicht ignoriert werden.

Häufig gestellte Fragen

Was ist Xiaomi MiMo V2 Pro?

Xiaomi MiMo V2 Pro ist ein großes Sprachmodell, das am 18. März 2026 veröffentlicht wurde. Es verfügt über mehr als 1 Billion Gesamtparameter, wobei 42 Milliarden pro Anfrage über eine Mixture-of-Experts-Architektur aktiv sind. Es unterstützt ein Kontextfenster von 1 Million Token und ist für agentische KI-Anwendungen konzipiert. Im Artificial Analysis Intelligence Index belegt es Platz 8 weltweit.

Was war Hunter Alpha auf OpenRouter?

Hunter Alpha war ein anonymes Modell mit 1 Billion Parametern, das am 11. März 2026 ohne Entwicklerzuordnung auf OpenRouter erschien. Es stieg an die Spitze der OpenRouter-Rangliste und überschritt insgesamt eine Billion Token an Nutzung, bevor Luo Fuli, Leiter von Xiaomis MiMo-Abteilung, am 18. März 2026 enthüllte, dass es ein früher interner Testbuild von MiMo-V2-Pro war.

Wie vergleichen sich die Preise von MiMo V2 Pro mit Claude?

MiMo-V2-Pro kostet $1 pro Million Input-Token und $3 pro Million Output-Token. Claude Sonnet 4.6 liegt bei $3 pro Million Input und $15 pro Million Output; Claude Opus 4.6 bei $5 Input und $25 Output. Für agentische Hochvolumen-Workloads bietet MiMo-V2-Pro etwa ein Fünftel der Output-Kosten von Anthropics Flaggschiff-Modellen.

Was sind die Schwächen von MiMo V2 Pro?

MiMo-V2-Pro hat Schwierigkeiten mit Mathematik auf Frontier-Niveau — ein FrontierMath-Benchmark-Problem verursachte zwei vollständige Einfrierungen, bevor eine falsche Antwort zurückgegeben wurde. Die Gedankenketten-Schlussfolgerung substituiert gelegentlich stillschweigend Prämissen, anstatt Widersprüche zu kennzeichnen, und die agentische Demo-Umgebung hat ein 30-Minuten-Sitzungslimit, was den produktiven Einsatz einschränkt.