Microsoft bringt GPT und Claude zur Zusammenarbeit

Microsoft Copilot Researcher Critique kombiniert GPT und Claude nacheinander und erreicht 57,4 im DRACO-Benchmark — besser als alle KI-Forschungstools im März 2026.

Das Wichtigste in Kürze

Microsoft Copilot Researcher Critique schaltet GPT und Claude hintereinander — eines erstellt den Entwurf, das andere prüft — bevor der Bericht bei Ihnen ankommt
Im DRACO-Benchmark erzielte Critique 57,4 Punkte und schlug damit Claude Opus 4.6 allein (42,7) um fast 14%
Eine zweite Funktion namens Council lässt beide Modelle gleichzeitig arbeiten und nutzt einen dritten KI-Richter, um die Ergebnisse zu vergleichen
Beide Funktionen erfordern eine $30/Nutzer/Monat Microsoft 365 Copilot-Lizenz sowie die Teilnahme am Frontier-Frühzugangsprogramm

Microsoft Copilot Researcher Critique ist die Antwort des Unternehmens auf das KI-Forschungswettrüsten — und es bezieht keine Seite. Am Montag, dem 30. März angekündigt, kombiniert die Funktion OpenAIs GPT und Anthropics Claude für dieselbe Aufgabe in Reihenfolge, wobei ein Modell den Entwurf erstellt und das andere den Skeptiker spielt. Die Idee ist simpel: Hören Sie auf, einer einzelnen KI zu vertrauen, ihre eigenen Hausaufgaben zu benoten.

Warum Einzelmodell-Recherche ein Problem hat

Jedes große KI-Labor hat die letzten anderthalb Jahre damit verbracht, Sie davon zu überzeugen, dass sein Modell der beste Rechercheur im Raum ist. Google startete seinen Gemini-Rechercheagenten im Dezember 2024. OpenAI folgte mit seinem eigenen im Februar 2025. Perplexity verdoppelte seine Bemühungen. Anthropic baute eine treue professionelle Anhängerschaft auf und führte seinen eigenen Rechercheagenten im April 2025 ein. Die Botschaft war immer dieselbe: ein Modell, besser als alle anderen.

Microsofts Argument am 30. März war, dass der gesamte Ansatz falsch ist. Das Problem ist nicht, welches Modell man wählt — es ist, dass jedes einzelne Modell alles allein erledigt. Es plant die Recherche, sammelt die Quellen, schreibt den Entwurf und übergibt Ihnen das Ergebnis ohne zweite Meinung. So schleichen sich Halluzinationen ein. So bleiben Quellenangaben ungeprüft. So landet selbstbewusst klingender Unsinn in Ihren Arbeitsergebnissen.

Die Funktion Microsoft Copilot Researcher Critique durchbricht diese Einzelmodell-Schleife, indem sie eine strikte Aufgabenteilung zwischen GPT und Claude einführt — zwei Systeme, die nicht dasselbe Training, dieselbe Architektur oder dieselben blinden Flecken teilen.

Wie Critique tatsächlich funktioniert

Der Arbeitsablauf ist übersichtlicher als erwartet. GPT übernimmt Phase eins: Planung der Rechercheanfrage, Durchforsten von Quellen und Erstellung eines ersten Entwurfs. Dann kommt Claude als Lektor ins Spiel — nicht als Co-Autor, sondern als dedizierter Kritiker — mit der Aufgabe, die sachliche Richtigkeit, die Qualität der Quellenangaben und ob der Bericht die gestellte Frage tatsächlich beantwortet hat, zu überprüfen. Erst nach dieser Prüfung gelangt etwas zum Nutzer.

Microsoft gibt an, dass die Rollen künftig auch umgekehrt laufen können, wobei Claude den Entwurf erstellt und GPT die Kritik übernimmt, obwohl derzeit GPT die Generierungsphase anführt.

Die Beschreibung des Unternehmens bringt es auf den Punkt:

Critique ist ein neues Multi-Modell-Tiefenrecherchesystem, das für komplexe Rechercheaufgaben konzipiert wurde. Es trennt Generierung von Bewertung und nutzt eine Kombination von Modellen führender Frontier-Labore, darunter Anthropic und OpenAI. Ein Modell führt die Generierungsphase an, plant die Aufgabe, iteriert durch Quellenabfragen und erstellt einen ersten Entwurf, während sich ein zweites Modell auf Prüfung und Verfeinerung konzentriert und als Expertengutachter agiert, bevor der finale Bericht erstellt wird.

— Microsoft, offizielle Ankündigung

Was beweist der DRACO-Benchmark wirklich?

Benchmark-Ergebnisse in der KI sind leicht abzutun — Unternehmen wählen routinemäßig die Tests aus, die ihnen schmeicheln. Doch der DRACO-Benchmark ist zumindest ein standardisierter: 100 komplexe Rechercheaufgaben über 10 Fachgebiete hinweg, darunter Medizin, Recht und Technologie, konzipiert um Tiefenrecherche-Fähigkeiten statt reiner Sprachgewandtheit auf die Probe zu stellen.

Copilot mit Critique erzielte 57,4 Punkte. Claude Opus 4.6 allein erreichte 42,7. Das ist ein Abstand von fast 14 Prozentpunkten — und Microsoft vergleicht sich hier nicht mit einem veralteten Modell. Das ist das aktuelle Spitzenprodukt von Anthropic im selben Aufgabenset. Die größten Zugewinne zeigten sich bei der Analysebreite und der Darstellungsqualität, wobei auch die sachliche Genauigkeit eine deutliche Verbesserung aufwies.

Die zynische Lesart ist hier eigentlich die interessante. Microsoft muss nicht das beste Modell haben. Es muss nur die besten Modelle besser orchestrieren als alle anderen. Ein 14%-Vorsprung in einem aufgabenspezifischen Benchmark, der genau das testet, wofür Critique gebaut wurde, ist schwerer vom Tisch zu wischen als die meisten Marketing-Behauptungen in der KI. Allerdings — Microsoft hat die Pressemitteilung geschrieben, nicht ein unabhängiges Labor.

Council, Preise und worauf Microsoft wirklich setzt

Critique ist die kollaborative Variante — GPT und Claude arbeiten nacheinander. Council ist die adversariale. Statt einer sequenziellen Prüfung lässt Council beide Modelle gleichzeitig an derselben Aufgabe arbeiten und generiert zwei vollständige, unabhängige Berichte. Ein drittes Richtermodell liest dann beide Ergebnisse und verfasst eine Zusammenfassung darüber, wo sie übereinstimmten, wo sie voneinander abwichen und welche einzigartigen Perspektiven das eine Modell erfasste, die das andere übersah.

Diese Art von manuellem Vergleich war schon immer möglich, wenn man bereit war, denselben Prompt in ChatGPT und Claude.ai einzufügen und zwanzig Minuten mit dem Abgleich zu verbringen. Council automatisiert lediglich die Fleißarbeit.

Critique ist der Standardmodus innerhalb von Copilot Researcher. Council erfordert die manuelle Auswahl von ‚Model Council' in der Modellauswahl — es ist ein Opt-in, was angesichts der zwei vollständigen Berichte sinnvoll ist. Beide Funktionen erfordern derzeit eine Microsoft 365 Copilot-Lizenz für $30 pro Nutzer und Monat sowie die Teilnahme an Microsofts Frontier-Frühzugangsprogramm. Ein Datum für die allgemeine Verfügbarkeit wurde noch nicht bekannt gegeben.

OpenAI und Microsoft verbindet eine milliardenschwere Partnerschaft. Microsoft ist auch einer der größten Unternehmenskunden von Anthropic. Indem Microsoft eine Schicht aufbaut, die beide gleichzeitig betreibt und keines als dauerhaft behandelt, sendet das Unternehmen eine Botschaft an jedes KI-Labor: Die Orchestrierungsplattform zählt mehr als jedes einzelne Modell. Niemand bleibt lange an der Spitze — und Microsoft setzt alles darauf, dass das so bleibt.

Häufig gestellte Fragen

Was ist Microsoft Copilot Researcher Critique?

Critique ist eine Multi-Modell-Recherchefunktion innerhalb von Microsoft 365 Copilot, die GPT und Claude nacheinander einsetzt. GPT übernimmt die Entwurfserstellung und Quellensuche; Claude prüft den Entwurf auf Genauigkeit und Quellenqualität, bevor der Bericht dem Nutzer übergeben wird. Die Ankündigung erfolgte am 30. März 2026.

Wie hat Critique im DRACO-Benchmark abgeschnitten?

Copilot mit Critique erzielte 57,4 Punkte im DRACO-Benchmark, der 100 komplexe Rechercheaufgaben über 10 Fachgebiete hinweg testet. Claude Opus 4.6 allein erreichte 42,7 im selben Test. Dieser Abstand von fast 14 Prozentpunkten spiegelt die größten Zugewinne bei Analysebreite und Darstellungsqualität wider.

Was ist der Unterschied zwischen Critique und Council?

Critique schaltet GPT und Claude hintereinander — eines erstellt den Entwurf, das andere prüft. Council lässt beide Modelle gleichzeitig an derselben Aufgabe arbeiten und nutzt ein drittes Richtermodell, um die Ergebnisse Seite an Seite zu vergleichen. Critique ist der Standard; Council muss manuell in der Copilot Researcher-Modellauswahl ausgewählt werden.

Was kostet Copilot Researcher Critique?

Der Zugang erfordert eine Microsoft 365 Copilot-Lizenz für $30 pro Nutzer und Monat sowie die Teilnahme an Microsofts Frontier-Frühzugangsprogramm. Sowohl Critique als auch Council sind derzeit auf Frontier-Nutzer beschränkt, und ein Datum für die allgemeine Verfügbarkeit wurde Stand März 2026 noch nicht bekannt gegeben.