Ein kürzlich veröffentlichtes Arbeitspapier aus dem Umfeld der Deutschen Bundesbank zeigt, wie generative Sprachmodelle die Prüfung von Wertpapierprospekten auf geldpolitische Zulässigkeit robuster und präziser erledigen können als bisherige regelbasierte Verfahren. Der Beitrag ist methodisch solide und verdient Aufmerksamkeit – nicht weil er Perfektion beansprucht, sondern weil er einen praktisch gangbaren Übergang von klassischer Textklassifikation zu LLM-gestützter Informationsgewinnung im regulierten Finanzumfeld demonstriert.
Worum es geht
Ob ein Wertpapier als notenbankfähige Sicherheit zugelassen werden kann, hängt von einer Reihe rechtlicher und finanzieller Kriterien ab: Währung, Instrumententyp, Nennbetrag, Rückzahlung bei Fälligkeit, Couponstruktur, Nachrangigkeit. Diese Kriterien müssen gegen lange, halbstrukturierte Prospekte geprüft werden – Dokumente, die häufig bilingual sind, aus OCR-Verarbeitung stammen und keine einheitliche Struktur aufweisen. Bisher war das ein weitgehend manueller, aufwändiger Prozess.
Der methodische Ansatz
Die Autoren zerlegen die Aufgabe in drei Schritte: Extraktion relevanter Informationen aus dem Prospekt, Normalisierung der extrahierten Werte, Interpretation im Sinne einer Eligibility-Entscheidung. Bemerkenswert ist die Bewertungslogik: Statt reiner Positionsmetriken kombinieren sie fuzzy matching mit einem LLM-as-a-judge-Ansatz, der semantische Gleichheit besser abbildet – also erkennt, ob zwei unterschiedlich formulierte Angaben inhaltlich äquivalent sind.
Die Ergebnisse
Auf einem Datensatz von 413 Prospekten (268 Training, 145 Test, rund ein Drittel bilingual) erreichen die getesteten LLM-Systeme deutlich bessere Werte als der ältere NER-basierte Ansatz. Llama‑3.3–70B-Instruct kommt auf 0,82 Accuracy und 0,85 F1, Command‑R 08–2024 auf 0,84 Accuracy und 0,86 F1 – gegenüber 0,60 Accuracy und 0,72 F1 beim Vorgängerverfahren. Die Verbesserungen sind besonders ausgeprägt bei komplexen Kriterien sowie bei bilingualen und OCR-belasteten Dokumenten.
Einordnung
Zwei Aspekte verdienen besondere Beachtung.
Erstens: der bewusst konservative Bias des Systems. Die Autoren haben das Modell so kalibriert, dass es im Zweifelsfall ablehnt statt akzeptiert – lieber zu wenig Sicherheiten zulassen als das Risiko falsch akzeptierter Positionen eingehen. Das ist keine technische Schwäche, sondern eine regulatorische Designentscheidung, die dem Anforderungsprofil des Notenbankbetriebs entspricht. Sie illustriert, wie KI-Systeme im Finanzbereich nicht auf Genauigkeitsmaximierung, sondern auf asymmetrisches Fehlerrisikomanagement ausgelegt werden müssen.
Zweitens: die Wahl der Bewertungsmetrik. Der LLM-as-a-judge-Ansatz ist konzeptionell interessant, weil er das klassische Problem umgeht, dass Extraktionsqualität oft mit Positionsgenauigkeit gleichgesetzt wird. Ob eine Angabe korrekt extrahiert wurde, ist eine semantische Frage – und die lässt sich mit einem weiteren Sprachmodell besser beurteilen als mit rein formalen Metriken. Das hat methodische Implikationen weit über diesen Anwendungsfall hinaus.
Als offene Punkte nennen die Autoren die weitere Verbesserung der PDF-Verarbeitung, den Einsatz visionbasierter Modelle für tabellarische Prospektinhalte sowie RAG-Ansätze für besser belegte Einzelentscheidungen.
Fazit
Das Paper ist kein Triumph-Bericht, sondern ein nüchterner Praxisbericht: LLMs können in komplexen, rechtlich strukturierten Dokumentenumgebungen besser performen als ältere NLP-Verfahren, wenn die Pipeline sorgfältig gestaltet und die Bewertungslogik dem Anwendungsfall angepasst wird. Für Banken, die ähnliche Aufgaben – Kreditprüfung, Covenant-Monitoring, regulatorische Dokumentenanalyse – noch weitgehend manuell bearbeiten, ist das ein Signal, das ernst genommen werden sollte.
Ralf Keuper
