Der neue AI Intel­li­gence Index v4.0 ersetzt aka­de­mi­sche Bench­marks durch wirt­schaft­li­che Rea­li­täts­prü­fun­gen – und die Ergeb­nis­se sind ernüch­ternd. Die Spit­zen­wer­te füh­ren­der Model­le fal­len von 73 auf unter 50 Pro­zent. Bei wis­sen­schaft­li­chem Reaso­ning erreicht selbst GPT‑5.2 nur 11 Pro­zent im CritPt-Bench­mark. Der Ter­mi­nal-Bench Hard – 47 Auf­ga­ben, die ein erfah­re­ner Sys­tem­in­ge­nieur täg­lich erle­digt – über­for­dert die Agen­ten regelmäßig.

Für Ban­ken und Ver­si­che­run­gen mit ihren gewach­se­nen IT-Land­schaf­ten sind die­se Ergeb­nis­se weni­ger Auf­bruchs­si­gnal als Mah­nung zur Vorsicht.

Gleich­zei­tig zeigt Boris Cher­ny, der Schöp­fer von Clau­de Code, wie er 10 bis 15 par­al­le­le KI-Instan­zen pro­duk­tiv orches­triert. Der schein­ba­re Wider­spruch löst sich auf, wenn man die Rand­be­din­gun­gen betrach­tet: Der Erfolg hängt von kla­ren Auf­ga­ben­struk­tu­ren, sofor­ti­ger Veri­fi­ka­ti­on und einem Orchestra­tor ab, der weiß, was er dele­gie­ren kann – und was nicht. 

Genau die­se Bedin­gun­gen sind in der Finanz­bran­che schwe­rer her­zu­stel­len als in der Softwareentwicklung.


Das Lega­cy-Pro­blem

Deut­sche Finanz­in­sti­tu­te kämp­fen seit Jah­ren mit frag­men­tier­ten IT-Archi­tek­tu­ren. Kern­ban­ken­sys­te­me aus den 1980er und 1990er Jah­ren, ange­rei­chert um Schich­ten von Midd­le­wa­re und punk­tu­el­len Moder­ni­sie­run­gen, bil­den ein Geflecht, das selbst für mensch­li­che Ent­wick­ler schwer zu durch­drin­gen ist.

Die Bench­marks zei­gen: Genau die­se Inte­gra­ti­on in hete­ro­ge­ne Sys­tem­land­schaf­ten erfor­dert wei­ter­hin manu­el­le Orches­trie­rung. KI-Agen­ten kön­nen inner­halb defi­nier­ter Gren­zen ope­rie­ren – die Ver­bin­dung zwi­schen Gren­zen her­zu­stel­len, bleibt Hand­ar­beit. Das rela­ti­viert die Auto­ma­ti­sie­rungs­ver­spre­chen erheblich.

Hal­lu­zi­na­tio­nen in einer Bran­che ohne Fehlertoleranz

In kaum einer ande­ren Bran­che wiegt die Hal­lu­zi­na­ti­ons­pro­ble­ma­tik so schwer. Bank­auf­sicht­li­che Anfor­de­run­gen, MaRisk, DORA – das regu­la­to­ri­sche Rah­men­werk schreibt Prä­zi­si­on vor. Ein KI-Sys­tem, das mit hoher Kon­fi­denz fal­sche Infor­ma­tio­nen pro­du­ziert, ist in die­sem Kon­text nicht nur unprak­tisch, son­dern ein Compliance-Risiko.

Die Kon­se­quenz: Jeder KI-gestütz­te Pro­zess benö­tigt mensch­li­che Vali­die­rung. Die erhoff­ten Effi­zi­enz­ge­win­ne schrump­fen, wenn am Ende doch ein Mensch prü­fen muss, was die Maschi­ne pro­du­ziert hat. Der Pro­duk­ti­vi­täts­ge­winn ver­schiebt sich – von der Aus­füh­rung zur Qualitätssicherung.

Wo KI-Agen­ten den­noch Wert schaf­fen können

Rea­lis­ti­sche Ein­satz­fel­der exis­tie­ren dort, wo drei Bedin­gun­gen zusam­men­tref­fen: klar defi­nier­te Out­puts, eta­blier­te Prüf­pro­zes­se und stan­dar­di­sier­te Formate.