Der neue AI Intelligence Index v4.0 ersetzt akademische Benchmarks durch wirtschaftliche Realitätsprüfungen – und die Ergebnisse sind ernüchternd. Die Spitzenwerte führender Modelle fallen von 73 auf unter 50 Prozent. Bei wissenschaftlichem Reasoning erreicht selbst GPT‑5.2 nur 11 Prozent im CritPt-Benchmark. Der Terminal-Bench Hard – 47 Aufgaben, die ein erfahrener Systemingenieur täglich erledigt – überfordert die Agenten regelmäßig.
Für Banken und Versicherungen mit ihren gewachsenen IT-Landschaften sind diese Ergebnisse weniger Aufbruchssignal als Mahnung zur Vorsicht.
Gleichzeitig zeigt Boris Cherny, der Schöpfer von Claude Code, wie er 10 bis 15 parallele KI-Instanzen produktiv orchestriert. Der scheinbare Widerspruch löst sich auf, wenn man die Randbedingungen betrachtet: Der Erfolg hängt von klaren Aufgabenstrukturen, sofortiger Verifikation und einem Orchestrator ab, der weiß, was er delegieren kann – und was nicht.
Genau diese Bedingungen sind in der Finanzbranche schwerer herzustellen als in der Softwareentwicklung.
Das Legacy-Problem
Deutsche Finanzinstitute kämpfen seit Jahren mit fragmentierten IT-Architekturen. Kernbankensysteme aus den 1980er und 1990er Jahren, angereichert um Schichten von Middleware und punktuellen Modernisierungen, bilden ein Geflecht, das selbst für menschliche Entwickler schwer zu durchdringen ist.
Die Benchmarks zeigen: Genau diese Integration in heterogene Systemlandschaften erfordert weiterhin manuelle Orchestrierung. KI-Agenten können innerhalb definierter Grenzen operieren – die Verbindung zwischen Grenzen herzustellen, bleibt Handarbeit. Das relativiert die Automatisierungsversprechen erheblich.
Halluzinationen in einer Branche ohne Fehlertoleranz
In kaum einer anderen Branche wiegt die Halluzinationsproblematik so schwer. Bankaufsichtliche Anforderungen, MaRisk, DORA – das regulatorische Rahmenwerk schreibt Präzision vor. Ein KI-System, das mit hoher Konfidenz falsche Informationen produziert, ist in diesem Kontext nicht nur unpraktisch, sondern ein Compliance-Risiko.
Die Konsequenz: Jeder KI-gestützte Prozess benötigt menschliche Validierung. Die erhofften Effizienzgewinne schrumpfen, wenn am Ende doch ein Mensch prüfen muss, was die Maschine produziert hat. Der Produktivitätsgewinn verschiebt sich – von der Ausführung zur Qualitätssicherung.
Wo KI-Agenten dennoch Wert schaffen können
Realistische Einsatzfelder existieren dort, wo drei Bedingungen zusammentreffen: klar definierte Outputs, etablierte Prüfprozesse und standardisierte Formate.
- Standardisierte Reports: Regulatorische Berichterstattung folgt festen Schema…
