Ein kürz­lich ver­öf­fent­lich­tes Arbeits­pa­pier aus dem Umfeld der Deut­schen Bun­des­bank zeigt, wie gene­ra­ti­ve Sprach­mo­del­le die Prü­fung von Wert­pa­pier­pro­spek­ten auf geld­po­li­ti­sche Zuläs­sig­keit robus­ter und prä­zi­ser erle­di­gen kön­nen als bis­he­ri­ge regel­ba­sier­te Ver­fah­ren. Der Bei­trag ist metho­disch soli­de und ver­dient Auf­merk­sam­keit – nicht weil er Per­fek­ti­on bean­sprucht, son­dern weil er einen prak­tisch gang­ba­ren Über­gang von klas­si­scher Text­klas­si­fi­ka­ti­on zu LLM-gestütz­ter Infor­ma­ti­ons­ge­win­nung im regu­lier­ten Finanz­um­feld demonstriert.


Wor­um es geht

Ob ein Wert­pa­pier als noten­bank­fä­hi­ge Sicher­heit zuge­las­sen wer­den kann, hängt von einer Rei­he recht­li­cher und finan­zi­el­ler Kri­te­ri­en ab: Wäh­rung, Instru­men­ten­typ, Nenn­be­trag, Rück­zah­lung bei Fäl­lig­keit, Cou­pon­struk­tur, Nach­ran­gig­keit. Die­se Kri­te­ri­en müs­sen gegen lan­ge, halb­struk­tu­rier­te Pro­spek­te geprüft wer­den – Doku­men­te, die häu­fig bilin­gu­al sind, aus OCR-Ver­ar­bei­tung stam­men und kei­ne ein­heit­li­che Struk­tur auf­wei­sen. Bis­her war das ein weit­ge­hend manu­el­ler, auf­wän­di­ger Prozess.

Der metho­di­sche Ansatz

Die Autoren zer­le­gen die Auf­ga­be in drei Schrit­te: Extrak­ti­on rele­van­ter Infor­ma­tio­nen aus dem Pro­spekt, Nor­ma­li­sie­rung der extra­hier­ten Wer­te, Inter­pre­ta­ti­on im Sin­ne einer Eli­gi­bi­li­ty-Ent­schei­dung. Bemer­kens­wert ist die Bewer­tungs­lo­gik: Statt rei­ner Posi­ti­ons­me­tri­ken kom­bi­nie­ren sie fuz­zy matching mit einem LLM-as-a-judge-Ansatz, der seman­ti­sche Gleich­heit bes­ser abbil­det – also erkennt, ob zwei unter­schied­lich for­mu­lier­te Anga­ben inhalt­lich äqui­va­lent sind.

Die Ergeb­nis­se

Auf einem Daten­satz von 413 Pro­spek­ten (268 Trai­ning, 145 Test, rund ein Drit­tel bilin­gu­al) errei­chen die getes­te­ten LLM-Sys­te­me deut­lich bes­se­re Wer­te als der älte­re NER-basier­te Ansatz. Llama‑3.3–70B-Instruct kommt auf 0,82 Accu­ra­cy und 0,85 F1, Command‑R 08–2024 auf 0,84 Accu­ra­cy und 0,86 F1 – gegen­über 0,60 Accu­ra­cy und 0,72 F1 beim Vor­gän­ger­ver­fah­ren. Die Ver­bes­se­run­gen sind beson­ders aus­ge­prägt bei kom­ple­xen Kri­te­ri­en sowie bei bilin­gua­len und OCR-belas­te­ten Dokumenten.

Ein­ord­nung

Zwei Aspek­te ver­die­nen beson­de­re Beachtung.

Ers­tens: der bewusst kon­ser­va­ti­ve Bias des Sys­tems. Die Autoren haben das Modell so kali­briert, dass es im Zwei­fels­fall ablehnt statt akzep­tiert – lie­ber zu wenig Sicher­hei­ten zulas­sen als das Risi­ko falsch akzep­tier­ter Posi­tio­nen ein­ge­hen. Das ist kei­ne tech­ni­sche Schwä­che, son­dern eine regu­la­to­ri­sche Design­ent­schei­dung, die dem Anfor­de­rungs­pro­fil des Noten­bank­be­triebs ent­spricht. Sie illus­triert, wie KI-Sys­te­me im Finanz­be­reich nicht auf Genau­ig­keits­ma­xi­mie­rung, son­dern auf asym­me­tri­sches Feh­ler­ri­si­ko­ma­nage­ment aus­ge­legt wer­den müssen.

Zwei­tens: die Wahl der Bewer­tungs­me­trik. Der LLM-as-a-judge-Ansatz ist kon­zep­tio­nell inter­es­sant, weil er das klas­si­sche Pro­blem umgeht, dass Extrak­ti­ons­qua­li­tät oft mit Posi­ti­ons­ge­nau­ig­keit gleich­ge­setzt wird. Ob eine Anga­be kor­rekt extra­hiert wur­de, ist eine seman­ti­sche Fra­ge – und die lässt sich mit einem wei­te­ren Sprach­mo­dell bes­ser beur­tei­len als mit rein for­ma­len Metri­ken. Das hat metho­di­sche Impli­ka­tio­nen weit über die­sen Anwen­dungs­fall hinaus.

Als offe­ne Punk­te nen­nen die Autoren die wei­te­re Ver­bes­se­rung der PDF-Ver­ar­bei­tung, den Ein­satz visi­on­ba­sier­ter Model­le für tabel­la­ri­sche Pro­spek­tin­hal­te sowie RAG-Ansät­ze für bes­ser beleg­te Einzelentscheidungen.

Fazit

Das Paper ist kein Tri­umph-Bericht, son­dern ein nüch­ter­ner Pra­xis­be­richt: LLMs kön­nen in kom­ple­xen, recht­lich struk­tu­rier­ten Doku­men­ten­um­ge­bun­gen bes­ser per­for­men als älte­re NLP-Ver­fah­ren, wenn die Pipe­line sorg­fäl­tig gestal­tet und die Bewer­tungs­lo­gik dem Anwen­dungs­fall ange­passt wird. Für Ban­ken, die ähn­li­che Auf­ga­ben – Kre­dit­prü­fung, Coven­ant-Moni­to­ring, regu­la­to­ri­sche Doku­men­ten­ana­ly­se – noch weit­ge­hend manu­ell bear­bei­ten, ist das ein Signal, das ernst genom­men wer­den sollte.

Ralf Keu­per