Getting your Trinity Audio player ready...

Das Doku­ment “Reaso­ning Bey­ond the Obvious: Eva­lua­ting Diver­gent and Con­ver­gent Thin­king in LLMs for Finan­cial Sce­na­ri­os” stellt Con­Di­Fi vor, einen neu­en Bench­mark zur Bewer­tung von Lar­ge Lan­guage Models (LLMs) in Finanz­sze­na­ri­en. Im Gegen­satz zu den meis­ten bestehen­den Bench­marks, die sich auf fak­ti­sche Genau­ig­keit oder logi­sche Schritt-für-Schritt-Pro­zes­se kon­zen­trie­ren, bewer­tet Con­Di­Fi sowohl diver­gen­tes als auch kon­ver­gen­tes Den­ken, da Finanz­ex­per­ten nicht nur opti­ma­le Ent­schei­dun­gen tref­fen, son­dern auch krea­ti­ve, plau­si­ble Zukunfts­sze­na­ri­en unter Unsi­cher­heit gene­rie­ren müssen.

Der Con­Di­Fi-Bench­mark umfasst 607 makro­fi­nan­zi­el­le Prompts für diver­gen­tes Den­ken und 990 Mul­ti-Hop-MCQs (Mul­ti­ple-Choice-Fra­gen) für kon­ver­gen­tes Den­ken. Für die diver­gen­te Bewer­tung wer­den Sze­na­ri­en nach dem 1. Mai 2025 ver­wen­det, um Daten­kon­ta­mi­na­ti­on zu mini­mie­ren, und die gene­rier­ten Zeit­li­ni­en wer­den anhand von Plau­si­bi­li­tät, Neu­heit, Aus­ar­bei­tung, Umsetz­bar­keit und Reich­hal­tig­keit bewer­tet, wobei GPT-4o als “Rich­ter” dient. Die kon­ver­gen­ten Fra­gen wer­den durch eine Rei­he von adver­s­a­ri­el­len Pipe­lines gene­riert, um ihre Schwie­rig­keit zu erhöhen.

Die Autoren eva­lu­ier­ten 14 füh­ren­de Model­le mit Con­Di­Fi und stell­ten dabei deut­li­che Leis­tungs­un­ter­schie­de fest. Obwohl GPT-4o eine hohe Sprach­flüs­sig­keit auf­weist, zeig­te es eine unter­durch­schnitt­li­che Leis­tung in Bezug auf Neu­heit und Umsetz­bar­keit. Im Gegen­satz dazu gehör­ten Model­le wie Deep­Seek-R1 und Cohe­re Com­mand R+ zu den Top-Per­for­mern bei der Gene­rie­rung umsetz­ba­rer Erkennt­nis­se für Inves­ti­ti­ons­ent­schei­dun­gen. Die Ana­ly­se der diver­gen­ten Ergeb­nis­se zeig­te, dass Cohe­re Com­mand A und Deep­Seek-R1 durch­weg bes­ser abschnit­ten, wäh­rend GPT-4o bei Neu­heit und Umsetz­bar­keit Schwie­rig­kei­ten hat­te. Die kon­ver­gen­ten Ergeb­nis­se zeig­ten, dass die Ver­fei­ne­rung der Fra­gen die Schwie­rig­keit erhöh­te und dass Llama-Model­le sowie Ope­nAI-Model­le gut abschnitten.

Die Stu­die hebt her­vor, dass Con­Di­Fi eine neue Per­spek­ti­ve zur Bewer­tung der Denk­fä­hig­kei­ten von LLMs bie­tet, die für den siche­ren und stra­te­gi­schen Ein­satz in der Finanz­bran­che uner­läss­lich sind. Zu den Limi­ta­tio­nen des Bench­marks gehö­ren die Domä­nen­spe­zi­fi­tät, die Abhän­gig­keit von LLM-basier­ten Bewer­tun­gen, mög­li­che Ver­zer­run­gen der Rich­ness-Metrik, die begrenz­te Anzahl der eva­lu­ier­ten Model­le und die Token-Begren­zung bei der Gene­rie­rung von Antworten.