Getting your Trinity Audio player ready...
|
Das Dokument Model Risk Management for Generative AI In Financial Institutions befasst sich mit dem Management von Modellrisiken für generative KI (GenAI) in Finanzinstituten, wobei ein besonderer Schwerpunkt auf den zusätzlichen Praktiken liegt, die für die Modellvalidierung erforderlich sind.
Der Erfolg von GenAI-Modellen, wie Large Language Models (LLMs), hat Finanzunternehmen dazu veranlasst, deren Anwendungen zur Kostensenkung und Umsatzsteigerung zu erforschen. Diese Modelle bieten zwar ein großes Effizienzpotenzial, führen aber auch neue Modellrisiken ein, insbesondere Halluzinationen (falsche oder irreführende Informationen) und Toxizität (unangemessene Sprache).
Als stark regulierte Unternehmen müssen Finanzinstitute ihre Rahmenwerke für das Modellrisikomanagement (MRM) erweitern, um den sicheren Einsatz solcher Anwendungen zu gewährleisten. Das Papier schlägt ein End-to-End-MRM-Framework für GenAI-Modelle vor, das an die bestehenden SR11-7-Vorschriften angepasst ist.
Die erhöhten Risiken für GenAI-Modelle lassen sich in Modellrisiken und Nicht-Modellrisiken unterteilen. Zu den Modellrisiken gehören Daten- und Datenschutzrisiken (z.B. Exposition proprietärer Daten), Erklärbarkeit (Black-Box-Natur), Performance und Halluzination (faktische Ungenauigkeiten), Fairness/Toxizität (Voreingenommenheit, unangemessene Sprache) und Nutzungsrisiken (unbeabsichtigte Nutzung). Nicht-Modellrisiken umfassen Reputations‑, Regulierungs‑, Rechts‑, Compliance‑, Drittanbieter‑, Technologie‑, Cybersicherheits- und Humankapitalrisiken.
Das Papier konzentriert sich auf die Verantwortlichkeiten des Modellrisikomanagement-Teams und definiert inkrementelle Tests, die für ein effektives MRM von GenAI-Modellen entlang der drei Säulen von SR11‑7 erforderlich sind: konzeptionelle Fundiertheit, Ergebnis-Analyse und laufende Überwachung.
Konzeptionelle Fundiertheit (CS) umfasst die Überprüfung der LLM-Literatur, die Sicherstellung der Datenqualität (Datenschutz, Stichprobenziehung, Voreingenommenheit, Annotationsqualität), die Bewertung der Modellspezifikation (Prompt Engineering, Hyperparameter-Abstimmung), die Verbesserung der Erklärbarkeit, die Durchführung von Fairness-Tests und das Benchmarking gegen alternative Methoden.
Ergebnis-Analyse (OA) befasst sich mit der Leistungsbewertung und Reproduzierbarkeit (unstrukturierte Ausgaben, Zufälligkeit), Robustheitstests zur Verallgemeinerung, der Erkennung von Schwachstellen in der Modellleistung, der Erkennung von Halluzinationen (z.B. mittels Natural Language Inference, Self-check GPT) und der Erkennung von Toxizität in den generierten Ausgaben.
Darüber hinaus sind Implementierungstests und Kontrollen entscheidend, um Risiken zu mindern. Dazu gehören Benutzer‑, Nutzungs‑, Human-in-the-Loop‑, Nutzungsbedingungen‑, Eingabe- und Ausgabekontrollen. Eine laufende Überwachung mit spezifischen KPIs für GenAI-Modelle (z.B. Metriken für Toxizität und Halluzination, Stabilität der Abfragedomäne) ist ebenfalls unerlässlich, um die Modellleistung zu bewerten und Verschlechterungen zu erkennen.
Die Autoren betonen, dass diese Modelle und ihre Anwendungsfälle noch in einem frühen Stadium sind und sich die Vorschriften weiterentwickeln werden, was zukünftige Anpassungen des Rahmenwerks erfordert.