OpenAI hat GPT-5.4 vorgestellt – erstmals vereint ein Modell Coding, Reasoning und native Computerbedienung. Auf dem OSWorld-Benchmark übertrifft es mit 75% sogar den menschlichen Referenzwert. Was das für ChatGPT-Nutzer und Entwickler bedeutet.

GPT-5.4 ist das erste OpenAI-Modell, das Computer besser bedient als Menschen – und verschiebt den KI-Wettbewerb von «klugstes Modell» hin zu «beste KI-Arbeitskraft».
OpenAI hat gestern GPT-5.4 vorgestellt – und packt damit erstmals Coding, Reasoning, agentische Workflows und native Computerbedienung in ein einziges Modell. Das Ergebnis: Eine KI, die deinen Computer besser bedient als die meisten Menschen.
GPT-5.4 kommt in drei Varianten: als Basismodell, als GPT-5.4 Thinking (für komplexes Schlussfolgern in ChatGPT) und als GPT-5.4 Pro (maximale Leistung für Profis). Der grösste Sprung liegt bei der sogenannten Computer-Use-Fähigkeit – das Modell kann eigenständig Software bedienen, durch Screenshots navigieren und Maus- sowie Tastatureingaben ausführen.
Auf dem OSWorld-Benchmark, der genau diese Fähigkeit testet, erreicht GPT-5.4 75% – und übertrifft damit den menschlichen Referenzwert von 72,4%. Zum Vergleich: GPT-5.2 schaffte gerade mal 47,3%. Das ist kein inkrementeller Fortschritt, sondern ein Quantensprung.
Die technischen Eckdaten lesen sich beeindruckend: Das Kontextfenster (also die Menge an Text, die das Modell gleichzeitig verarbeiten kann) reicht in der API bis zu 1 Million Tokens – das entspricht rund 4'000 Seiten. Standardmässig arbeitet das Modell mit 272'000 Tokens; die Million ist als erweiterter Modus über die API verfügbar.
Bei der Genauigkeit hat OpenAI ebenfalls nachgelegt: 33% weniger Falschaussagen bei einzelnen Behauptungen und 18% weniger fehlerhafte Antworten insgesamt im Vergleich zu GPT-5.2. Gleichzeitig braucht das Modell für bestimmte Aufgaben 47% weniger Tokens – es arbeitet also effizienter, obwohl die API-Preise leicht gestiegen sind.
Neu ist auch ein Feature namens Tool Search: Bisher mussten alle verfügbaren Werkzeuge im System-Prompt definiert werden, was viele Tokens verbrauchte. GPT-5.4 sucht sich die passenden Tools selbst – das spart Kontext und beschleunigt Antworten.
Auf dem hauseigenen GDPval-Benchmark, der Wissensarbeit über 44 Berufsfelder testet, erreicht GPT-5.4 83% – ein deutlicher Sprung gegenüber den 70,9% von GPT-5.2. Auch auf Mercors APEX-Agents-Benchmark, der professionelle Fähigkeiten in Recht und Finanzen misst, führt das Modell die Rangliste an.
Die Lancierung kam nur 48 Stunden nach GPT-5.3 Instant und ist eine klare Kampfansage an Anthropic, das mit Claude im Enterprise-Bereich zuletzt Marktanteile gewonnen hat. OpenAI konsolidiert hier die Fähigkeiten mehrerer Vorgängermodelle – GPT-5.3-Codex fürs Programmieren, die Reasoning-Modelle fürs Schlussfolgern – in einem einheitlichen System.
Bemerkenswert: OpenAI vergibt erstmals die Cybersicherheits-Einstufung «High Capability» an ein allgemeines Reasoning-Modell. Das signalisiert, dass die Fähigkeiten mittlerweile ein Niveau erreichen, bei dem besondere Sicherheitsvorkehrungen nötig sind.
GPT-5.4 ist ab sofort verfügbar für ChatGPT Plus (20 Dollar/Monat), Team, Pro (200 Dollar/Monat), Enterprise und Edu. In der API kostet das Modell 2.50 Dollar pro Million Input-Tokens – etwas mehr als GPT-5.2, aber durch die höhere Effizienz relativiert sich der Aufpreis.
Konkret heisst das: Wenn du ChatGPT regelmässig nutzt, wirst du ein spürbar präziseres Modell bekommen. Die Reasoning-Variante GPT-5.4 Thinking ersetzt innerhalb der nächsten drei Monate GPT-5.2 Thinking – Abschaltung ist der 5. Juni 2026. Entwickler, die die API nutzen, profitieren vor allem vom riesigen Kontextfenster und der nativen Computer-Use-Fähigkeit für automatisierte Workflows.
Für Schweizer Unternehmen, die OpenAI-APIs im Einsatz haben, lohnt sich ein Blick auf die neuen Pricing-Stufen: Bei Anfragen über 272'000 Input-Tokens verdoppelt sich der Preis. Wer das Million-Token-Fenster nutzen will, sollte die Kosten im Auge behalten.
Mit GPT-5.4 verschiebt sich der KI-Wettbewerb von «Wer hat das klügste Modell?» hin zu «Wessen KI erledigt echte Arbeit am besten?». Die native Computerbedienung, die den menschlichen Benchmark übertrifft, markiert einen Wendepunkt: KI-Agenten werden vom Konzept zur täglichen Realität am Arbeitsplatz.
OpenAI, Anthropic und Google liefern sich hier ein enges Rennen. GPT-5.4 ist OpenAIs deutlichste Antwort darauf – ob sie reicht, werden die nächsten Wochen zeigen.

Das mysteriöse KI-Modell «Hunter Alpha», das seit dem 11. März die OpenRouter-Rangliste dominierte, gehört nicht zu DeepSeek – sondern zu Xiaomi. Mit rund 1 Billion Parametern und einem 1-Million-Token-Kontextfenster positioniert der Smartphone-Riese sein MiMo-V2-Pro als «Gehirn für KI-Agenten».
Xiaomis anonymer «Stealth Release» auf OpenRouter zeigt: Chinas KI-Ökosystem reicht weit über DeepSeek hinaus – und der Smartphone-Riese meint es ernst mit KI-Agenten.

NVIDIA stellt zwei neue KI-Modell-Familien vor: Nemotron 3 Super für agentische Systeme mit fünfmal höherem Durchsatz und Alpamayo für autonomes Fahren. Beide sind Open Source.
NVIDIA setzt mit zwei Open-Source-Modell-Familien auf ein Ökosystem-Spiel — Nemotron für Agenten, Alpamayo für selbstfahrende Autos.

Anthropics KI-Chatbot Claude ging am 2. März weltweit für knapp drei Stunden offline. Der Grund: ein historischer Nutzeransturm, angetrieben durch den Pentagon-Streit und die QuitGPT-Bewegung.
Claudes Ausfall zeigt: Anthropic hat ein Nachfrage-Problem – das beste Problem, das ein Startup haben kann.