Getting your Trinity Audio player ready...

Das Doku­ment Model Risk Manage­ment for Gene­ra­ti­ve AI In Finan­cial Insti­tu­ti­ons befasst sich mit dem Manage­ment von Modell­ri­si­ken für gene­ra­ti­ve KI (GenAI) in Finanz­in­sti­tu­ten, wobei ein beson­de­rer Schwer­punkt auf den zusätz­li­chen Prak­ti­ken liegt, die für die Modell­va­li­die­rung erfor­der­lich sind.

Der Erfolg von GenAI-Model­len, wie Lar­ge Lan­guage Models (LLMs), hat Finanz­un­ter­neh­men dazu ver­an­lasst, deren Anwen­dun­gen zur Kos­ten­sen­kung und Umsatz­stei­ge­rung zu erfor­schen. Die­se Model­le bie­ten zwar ein gro­ßes Effi­zi­enz­po­ten­zi­al, füh­ren aber auch neue Modell­ri­si­ken ein, ins­be­son­de­re Hal­lu­zi­na­tio­nen (fal­sche oder irre­füh­ren­de Infor­ma­tio­nen) und Toxi­zi­tät (unan­ge­mes­se­ne Sprache).

Als stark regu­lier­te Unter­neh­men müs­sen Finanz­in­sti­tu­te ihre Rah­men­wer­ke für das Modell­ri­si­ko­ma­nage­ment (MRM) erwei­tern, um den siche­ren Ein­satz sol­cher Anwen­dun­gen zu gewähr­leis­ten. Das Papier schlägt ein End-to-End-MRM-Frame­work für GenAI-Model­le vor, das an die bestehen­den SR11-7-Vor­schrif­ten ange­passt ist.

Die erhöh­ten Risi­ken für GenAI-Model­le las­sen sich in Modell­ri­si­ken und Nicht-Modell­ri­si­ken unter­tei­len. Zu den Modell­ri­si­ken gehö­ren Daten- und Daten­schutz­ri­si­ken (z.B. Expo­si­ti­on pro­prie­tä­rer Daten), Erklär­bar­keit (Black-Box-Natur), Per­for­mance und Hal­lu­zi­na­ti­on (fak­ti­sche Unge­nau­ig­kei­ten), Fairness/​Toxizität (Vor­ein­ge­nom­men­heit, unan­ge­mes­se­ne Spra­che) und Nut­zungs­ri­si­ken (unbe­ab­sich­tig­te Nut­zung). Nicht-Modell­ri­si­ken umfas­sen Reputations‑, Regulierungs‑, Rechts‑, Compliance‑, Drittanbieter‑, Technologie‑, Cyber­si­cher­heits- und Humankapitalrisiken.

Das Papier kon­zen­triert sich auf die Ver­ant­wort­lich­kei­ten des Modell­ri­si­ko­ma­nage­ment-Teams und defi­niert inkre­men­tel­le Tests, die für ein effek­ti­ves MRM von GenAI-Model­len ent­lang der drei Säu­len von SR11‑7 erfor­der­lich sind: kon­zep­tio­nel­le Fun­diert­heit, Ergeb­nis-Ana­ly­se und lau­fen­de Überwachung.

Kon­zep­tio­nel­le Fun­diert­heit (CS) umfasst die Über­prü­fung der LLM-Lite­ra­tur, die Sicher­stel­lung der Daten­qua­li­tät (Daten­schutz, Stich­pro­ben­zie­hung, Vor­ein­ge­nom­men­heit, Anno­ta­ti­ons­qua­li­tät), die Bewer­tung der Modell­spe­zi­fi­ka­ti­on (Prompt Engi­nee­ring, Hyper­pa­ra­me­ter-Abstim­mung), die Ver­bes­se­rung der Erklär­bar­keit, die Durch­füh­rung von Fair­ness-Tests und das Bench­mar­king gegen alter­na­ti­ve Methoden.

Ergeb­nis-Ana­ly­se (OA) befasst sich mit der Leis­tungs­be­wer­tung und Repro­du­zier­bar­keit (unstruk­tu­rier­te Aus­ga­ben, Zufäl­lig­keit), Robust­heits­tests zur Ver­all­ge­mei­ne­rung, der Erken­nung von Schwach­stel­len in der Modell­leis­tung, der Erken­nung von Hal­lu­zi­na­tio­nen (z.B. mit­tels Natu­ral Lan­guage Infe­rence, Self-check GPT) und der Erken­nung von Toxi­zi­tät in den gene­rier­ten Ausgaben.

Dar­über hin­aus sind Imple­men­tie­rungs­tests und Kon­trol­len ent­schei­dend, um Risi­ken zu min­dern. Dazu gehö­ren Benutzer‑, Nutzungs‑, Human-in-the-Loop‑, Nutzungsbedingungen‑, Ein­ga­be- und Aus­ga­be­kon­trol­len. Eine lau­fen­de Über­wa­chung mit spe­zi­fi­schen KPIs für GenAI-Model­le (z.B. Metri­ken für Toxi­zi­tät und Hal­lu­zi­na­ti­on, Sta­bi­li­tät der Abfra­ge­do­mä­ne) ist eben­falls uner­läss­lich, um die Modell­leis­tung zu bewer­ten und Ver­schlech­te­run­gen zu erkennen.

Die Autoren beto­nen, dass die­se Model­le und ihre Anwen­dungs­fäl­le noch in einem frü­hen Sta­di­um sind und sich die Vor­schrif­ten wei­ter­ent­wi­ckeln wer­den, was zukünf­ti­ge Anpas­sun­gen des Rah­men­werks erfordert.