Getting your Trinity Audio player ready...
|
Das Dokument “Reasoning Beyond the Obvious: Evaluating Divergent and Convergent Thinking in LLMs for Financial Scenarios” stellt ConDiFi vor, einen neuen Benchmark zur Bewertung von Large Language Models (LLMs) in Finanzszenarien. Im Gegensatz zu den meisten bestehenden Benchmarks, die sich auf faktische Genauigkeit oder logische Schritt-für-Schritt-Prozesse konzentrieren, bewertet ConDiFi sowohl divergentes als auch konvergentes Denken, da Finanzexperten nicht nur optimale Entscheidungen treffen, sondern auch kreative, plausible Zukunftsszenarien unter Unsicherheit generieren müssen.
Der ConDiFi-Benchmark umfasst 607 makrofinanzielle Prompts für divergentes Denken und 990 Multi-Hop-MCQs (Multiple-Choice-Fragen) für konvergentes Denken. Für die divergente Bewertung werden Szenarien nach dem 1. Mai 2025 verwendet, um Datenkontamination zu minimieren, und die generierten Zeitlinien werden anhand von Plausibilität, Neuheit, Ausarbeitung, Umsetzbarkeit und Reichhaltigkeit bewertet, wobei GPT-4o als “Richter” dient. Die konvergenten Fragen werden durch eine Reihe von adversariellen Pipelines generiert, um ihre Schwierigkeit zu erhöhen.
Die Autoren evaluierten 14 führende Modelle mit ConDiFi und stellten dabei deutliche Leistungsunterschiede fest. Obwohl GPT-4o eine hohe Sprachflüssigkeit aufweist, zeigte es eine unterdurchschnittliche Leistung in Bezug auf Neuheit und Umsetzbarkeit. Im Gegensatz dazu gehörten Modelle wie DeepSeek-R1 und Cohere Command R+ zu den Top-Performern bei der Generierung umsetzbarer Erkenntnisse für Investitionsentscheidungen. Die Analyse der divergenten Ergebnisse zeigte, dass Cohere Command A und DeepSeek-R1 durchweg besser abschnitten, während GPT-4o bei Neuheit und Umsetzbarkeit Schwierigkeiten hatte. Die konvergenten Ergebnisse zeigten, dass die Verfeinerung der Fragen die Schwierigkeit erhöhte und dass Llama-Modelle sowie OpenAI-Modelle gut abschnitten.
Die Studie hebt hervor, dass ConDiFi eine neue Perspektive zur Bewertung der Denkfähigkeiten von LLMs bietet, die für den sicheren und strategischen Einsatz in der Finanzbranche unerlässlich sind. Zu den Limitationen des Benchmarks gehören die Domänenspezifität, die Abhängigkeit von LLM-basierten Bewertungen, mögliche Verzerrungen der Richness-Metrik, die begrenzte Anzahl der evaluierten Modelle und die Token-Begrenzung bei der Generierung von Antworten.