Ist AGI da? Neuer Benchmark sagt: Noch lange nicht

ARC-AGI-3 startete diese Woche — jedes Frontier-KI-Modell erzielte unter 1%, während untrainierte Menschen 100% erreichten. Jensen Huang sagte, AGI sei da. Die Daten widersprechen.

Das Wichtigste in Kürze

ARC-AGI-3 wurde diese Woche veröffentlicht — jedes getestete Spitzenmodell erzielte weniger als 1%, während ungeschulte Menschen 100% der Umgebungen lösten
Gemini 3.1 Pro lag mit nur 0,37% an der Spitze aller KI-Modelle; GPT-5.4 erreichte 0,26%, Claude Opus 4.6 kam auf 0,25% und Grok-4.20 erzielte exakt 0%
Der Benchmark verwendet RHAE-Bewertung — die ineffizientes KI-Verhalten bestraft — und hält 110 von 135 Umgebungen privat, um trainingsbasiertes Schummeln zu verhindern
ARC Prize 2026 stellt $2 Millionen Preisgeld über drei Kaggle-Wettbewerbskategorien bereit, wobei alle Gewinnerlösungen als Open Source veröffentlicht werden müssen

Der neue ARC-AGI-3 Benchmark für künstliche allgemeine Intelligenz erschien diese Woche und lieferte einen der ernüchterndsten Datenpunkte der jüngeren KI-Geschichte. Jedes getestete große Spitzenmodell — von Googles Gemini bis zu OpenAIs neuestem Modell — erzielte weniger als 1%. Gewöhnliche Menschen ohne Training, ohne Anweisungen und ohne Kontext erreichten 100%. Diese Kluft ist die eigentliche Geschichte, und sie trifft die Branche in einem besonders ungünstigen Moment — einer Branche, die lautstark den Sieg verkündet hat.

Jensen Huang sagte, AGI sei da. Dann kamen die Ergebnisse.

Zwei Tage vor der Veröffentlichung der Benchmark-Ergebnisse setzte sich Nvidia-CEO Jensen Huang mit Lex Fridman zusammen und sagte unverblümt: „Ich denke, wir haben AGI erreicht." Eine Aussage, die selbst vor einem Jahr bemerkenswert gewesen wäre. Heute schafft sie es kaum noch in die Schlagzeilen — so sehr hat sich die AGI-Siegesrunde normalisiert.

Dann alterte der Jensen Huang AGI-Moment in Echtzeit schlecht. Googles Gemini 3.1 Pro führte alle getesteten Spitzenmodelle mit einer Punktzahl von 0,37% an. OpenAIs GPT-5.4 kam auf 0,26%. Anthropics Claude Opus 4.6 erreichte 0,25%. xAIs Grok-4.20 erzielte exakt null. Das sind keine gezielt ausgewählten schlechten Ergebnisse — das ist die Spitze, die absolute Speerspitze dessen, was Milliarden Dollar an Rechenleistung und Forschung derzeit hervorbringen können.

Sam Altman hat erklärt, OpenAI habe „im Grunde AGI gebaut." Microsoft vermarktet bereits ein Labor, das sich auf ASI konzentriert — das, was angeblich nach AGI kommt. Arm nannte seinen neuen Rechenzentrum-Chip den „AGI CPU." Der Begriff wird so lange gedehnt, bis er alles bedeutet, was für denjenigen, der ihn gerade verwendet, kommerziell praktisch ist. Chollets Stiftung hat kein Interesse daran, dieses Spiel mitzuspielen.

Ich denke, wir haben AGI erreicht.

— Jensen Huang, CEO of Nvidia, on the Lex Fridman Podcast

Was ist ARC-AGI-3 und warum trifft es anders?

Der ARC-AGI-3 Benchmark — entwickelt von François Chollet und Mike Knoops ARC Prize Foundation — ist kein Wissenstest, keine Programmierprüfung und kein weiteres naturwissenschaftliches Examen auf Doktorandenniveau. Die Stiftung baute ein internes Spielestudio auf und entwickelte 135 originale interaktive Umgebungen von Grund auf. Ein KI-Agent wird in eine dieser Umgebungen geworfen — ohne Anweisungen, ohne vorgegebene Ziele und ohne Beschreibung der Regeln. Er muss erkunden, das Ziel erschließen, einen Plan entwickeln und ihn umsetzen — alles ohne den geringsten Hinweis darauf, wie „Erfolg" überhaupt aussieht.

Wenn das trivial einfach klingt, bestätigen Sie damit genau die These der Stiftung. Jedes fünfjährige Kind bewältigt ständig neuartige Situationen wie diese. Aktuelle Spitzenmodelle können das nicht. Die Stiftung bietet eine öffentlich zugängliche Version des Tests an, damit jeder die gleichen Umgebungen ausprobieren kann, denen die KI-Agenten ausgesetzt waren. Probieren Sie eine aus. Innerhalb weniger Sekunden verstehen Sie, was getestet wird — und warum das „G" in AGI weit mehr bedeutet, als der Hype vermuten lässt.

Frühere ARC-Versionen starteten schwierig und wurden gelöst. ARC-AGI-1, eingeführt im Jahr 2019, fiel schließlich durch Test-Time-Training und Reasoning-Modelle. ARC-AGI-2 hielt etwa ein Jahr, bevor Gemini 3.1 Pro 77,1% erreichte. Jedes Mal warfen die Labore Rechenleistung und gezieltes Training auf den Benchmark, bis er erledigt war. Version 3 wurde speziell dafür entwickelt, diesen Kreislauf zu durchbrechen: 110 der 135 Umgebungen bleiben privat — 55 halbprivat für API-Tests, 55 vollständig gesperrt für den Wettbewerb. Man kann sich nicht durch neuartige Spiellogik auswendiglernen, die man nie gesehen hat.

Wie die RHAE-Bewertung KI-Ineffizienz bestraft

Die Bewertungsmethodik ist es wert, verstanden zu werden. ARC-AGI-3 verwendet das, was die Stiftung RHAE — Relative Human Action Efficiency nennt — wobei die zweitbeste menschliche Erstlauf-Leistung als Basis dient. Eine KI, die zehnmal mehr Aktionen als ein Mensch benötigt, um ein Level zu absolvieren, erzielt 1% für diese Umgebung, nicht 10%. Die Formel quadriert die Strafe für Ineffizienz. Umherirren, Zurücklaufen, sich zum Ziel durchraten — all das wird hart bestraft.

Unter diesem Rahmen erzielte der beste KI-Agent, der während der einmonatigen Entwickler-Vorschau getestet wurde, 12,58%. Dieses Ergebnis stammte von einem maßgeschneiderten Testrahmen, nicht von einem direkten API-Aufruf. Spitzenmodelle, die direkt über die Benchmark für künstliche allgemeine Intelligenz-API ohne spezielle Tools getestet wurden, konnten die 1%-Marke nicht durchbrechen.

Es gibt eine berechtigte methodische Debatte, die erwähnt werden sollte. Die offizielle API von ARC liefert den Agenten JSON-Code statt visueller Eingaben. Ein maßgeschneiderter Testrahmen der Duke University steigerte Claude Opus 4.6 von seinen offiziellen 0,25% auf 97,1% bei einer einzelnen Umgebungsvariante namens TR87 — ein Ergebnis, das seine Gesamtpunktzahl eindeutig nicht widerspiegelt, aber Fragen zur Formatempfindlichkeit aufwirft. Das veröffentlichte Papier der Stiftung geht direkt darauf ein.

Rahmeninhaltwahrnehmung und API-Format sind keine limitierenden Faktoren für die Leistung von Spitzenmodellen bei ARC-AGI-3.

— ARC Prize Foundation, ARC-AGI-3 Technical Report

Was bedeutet das für AGI-Zeitpläne?

Die kurze Antwort: Niemand weiß es wirklich, und die Leute, die am selbstsichersten klingen, verkaufen in der Regel etwas. „Es gibt eine Menge verschiedener Definitionen," sagte Malo Bourgon, CEO des Machine Intelligence Research Institute, in einer Stellungnahme — was die höfliche Art ist zu sagen, dass sich die Branche nie darauf geeinigt hat, was AGI überhaupt bedeutet, geschweige denn, wann es eintrifft.

Chollets Einordnung ist unverblümter. Wenn ein untrainierter Mensch unvorbereitet hereinkommt und jede Umgebung löst, und Ihr Milliarden-Dollar-Modell weniger als ein Drittel eines Prozents erzielt, dann haben Sie keine allgemeine Intelligenz. Sie haben eine sehr teure Autovervollständigung, die umfangreiche Gerüststrukturen braucht, um zu funktionieren. Die Kluft zwischen 0,37% und 100% ist keine Kluft, die man mit einem weiteren Trainingslauf schließt.

ARC Prize 2026 stellt $2 Millionen bereit, verteilt auf drei Wettbewerbskategorien auf Kaggle, mit einer strikten Regel: Jede Gewinnerlösung muss als Open Source veröffentlicht werden. Die Wettbewerbsuhr tickt. Die Maschinen sind nicht annähernd so weit. Ob die Führungskräfte, die AGI verkünden, sich tatsächlich die Ergebnisse angeschaut haben — nun, das ist eine ganz andere Frage.

Häufig gestellte Fragen

Was ist ARC-AGI-3?

ARC-AGI-3 ist ein Benchmark für künstliche allgemeine Intelligenz, der im März 2026 von der ARC Prize Foundation veröffentlicht wurde. Er besteht aus 135 interaktiven Spielumgebungen, in denen KI-Agenten ohne jegliche Anweisungen erkunden, Ziele erschließen und Pläne umsetzen müssen. Die Bewertung verwendet RHAE — Relative Human Action Efficiency — die Ineffizienz im Vergleich zur menschlichen Leistung bestraft.

Wie haben KI-Modelle bei ARC-AGI-3 abgeschnitten?

Jedes Spitzenmodell erzielte weniger als 1%. Googles Gemini 3.1 Pro lag mit 0,37% vorne, OpenAIs GPT-5.4 erreichte 0,26%, Anthropics Claude Opus 4.6 kam auf 0,25% und xAIs Grok-4.20 erzielte null. Ungeschulte Menschen lösten alle 135 Umgebungen und erzielten im Vergleich 100%.

Warum können KI-Modelle nicht trainiert werden, um ARC-AGI-3 zu schlagen?

110 der 135 Umgebungen werden privat gehalten — 55 halbprivat und 55 vollständig für den Wettbewerb gesperrt. Ohne Zugang zu den Umgebungen können Labore ihre Modelle nicht gezielt darauf trainieren. Der Benchmark wurde entwickelt, um das Trainings- und Sättigungsmuster zu verhindern, das ARC-AGI-1 und ARC-AGI-2 obsolet machte.

Was ist der ARC Prize 2026 Wettbewerb?

ARC Prize 2026 bietet $2 Millionen über drei Wettbewerbskategorien auf Kaggle. Alle Gewinnerlösungen müssen als Open Source veröffentlicht werden. Der Wettbewerb testet, ob KI-Systeme menschliches Leistungsniveau bei den ARC-AGI-3-Benchmark-Umgebungen erreichen können — die Uhr läuft bereits seit März 2026.