Getting your Trinity Audio player ready...

Die Finanz­in­dus­trie hat sich in den ver­gan­ge­nen zwei Jah­ren in einen außer­ge­wöhn­li­chen Wider­spruch manö­vriert. Einer­seits treibt sie die Inte­gra­ti­on von Lar­ge Lan­guage Models mit Nach­druck vor­an – für Kon­ten­ab­stim­mun­gen, regu­la­to­ri­sche Berichts­pflich­ten, Kun­den­kom­mu­ni­ka­ti­on. Ande­rer­seits basiert das gesam­te Finanz­sys­tem auf Prin­zi­pi­en der Nach­voll­zieh­bar­keit, Wie­der­hol­bar­keit und Prüf­bar­keit, die mit der Funk­ti­ons­wei­se gro­ßer KI-Model­le grund­le­gend kollidieren.


Die Stu­die „LLM Out­put Drift: Cross-Pro­vi­der Vali­da­ti­on & Miti­ga­ti­on for Finan­cial Work­flows” von Raf­fi Khat­cha­dou­ri­an und Ko-Autoren lie­fert nun erst­mals eine quan­ti­ta­ti­ve Ver­mes­sung die­ses Kon­flikts. Das zen­tra­le Phä­no­men trägt den tech­ni­schen Namen „Out­put Drift”: die Ten­denz von Sprach­mo­del­len, bei iden­ti­schen Ein­ga­ben unter­schied­li­che Ant­wor­ten zu pro­du­zie­ren. Was in krea­ti­ven Anwen­dun­gen als Fea­ture gilt, wird im regu­lier­ten Finanz­um­feld zum Haftungsrisiko.

Die For­scher tes­te­ten fünf Modell­archi­tek­tu­ren mit Para­me­ter­grö­ßen zwi­schen 7 und 120 Mil­li­ar­den über typi­sche Finanz­auf­ga­ben hin­weg – struk­tu­rier­te Daten­ab­fra­gen, Doku­men­ten­zu­sam­men­fas­sun­gen, Retrie­val-Aug­men­ted Gene­ra­ti­on. Das Ergeb­nis kehrt die gän­gi­ge Grö­ßen-Leis­tungs-Annah­me der KI-Indus­trie radi­kal um: Klei­ne­re Model­le wie Granite‑3–8B und Qwen2.5–7B errei­chen bei Tem­pe­ra­tur null – dem deter­mi­nis­tischs­ten Kon­fi­gu­ra­ti­ons­mo­dus – eine hun­dert­pro­zen­ti­ge Aus­ga­be­kon­sis­tenz. Das 120-Milliarden-Par…