Getting your Trinity Audio player ready...
|
Trotz beeindruckender Fähigkeiten in Finanzfragen scheitern die meisten Large Language Models daran, in realen Märkten profitabel zu handeln. Der neue STOCKBENCH-Benchmark offenbart eine unbequeme Wahrheit: Wissen über Finanzen bedeutet noch lange nicht, dass man erfolgreich investieren kann.
Die Faszination für künstliche Intelligenz im Finanzwesen ist nicht neu. Seit Jahren versprechen Entwickler, dass selbstlernende Algorithmen die Märkte durchschauen und profitable Handelsentscheidungen treffen können. Doch während Large Language Models (LLMs) wie GPT oder Claude in statischen Finanzprüfungen glänzen, stellt sich die entscheidende Frage: Können diese Systeme auch in der rauen Realität dynamischer Märkte bestehen? Eine aktuelle Forschungsarbeit liefert mit STOCKBENCH erstmals einen realistischen Maßstab – und die Ergebnisse sind ernüchternd[1]STOCKBENCH: CAN LLM AGENTS TRADE STOCKS PROFITABLY IN REAL-WORLD MARKETS?.
Die Lücke zwischen Theorie und Praxis
Bisherige Benchmarks im Finanzbereich konzentrierten sich primär auf Wissensfragen: Kann ein Modell Finanzbegriffe erklären? Versteht es Jahresabschlüsse? Solche Tests erfassen jedoch nicht die Komplexität realer Investitionsentscheidungen. Märkte sind keine statischen Prüfungsbögen, sondern lebendige Systeme, in denen sich Preise, Stimmungen und Fundamentaldaten kontinuierlich verändern. STOCKBENCH wurde entwickelt, um genau diese Lücke zu schließen.
Der Benchmark basiert auf drei fundamentalen Prinzipien: Erstens erhalten die KI-Agenten realistische Marktinformationen – tägliche Kurse, Unternehmensfundamentaldaten und Nachrichtenartikel. Zweitens müssen sie über einen mehrmonatigen Zeitraum hinweg kontinuierlich Entscheidungen treffen, ob sie Aktien kaufen, verkaufen oder halten. Drittens – und dies ist besonders clever – verwendet STOCKBENCH aktuelle Daten aus dem Jahr 2025, die außerhalb des Trainingszeitraums moderner LLMs liegen. Damit wird sichergestellt, dass die Modelle nicht einfach auswendig gelernte Muster reproduzieren, sondern tatsächlich analysieren und entscheiden müssen.
Ernüchternde Ergebnisse im Härtetest
Die Forscher testeten eine Vielzahl modernster Modelle, darunter proprietäre Systeme wie GPT‑5 und Claude‑4 sowie Open-Source-Alternativen. Das Szenario: Handel mit 20 hochgewichteten Aktien des Dow Jones Industrial Average über mehrere Monate. Als Vergleichsmaßstab diente die simpelste aller Strategien – Buy and Hold, also einfach kaufen und halten. Diese passive Strategie erzielte eine Rendite von 0,4 Prozent.
Das ernüchternde Ergebnis: Die meisten LLM-Agenten kämpften damit, selbst diese bescheidene Baseline konsistent zu übertreffen. Während einige Modelle phasenweise höhere Renditen zeigten, fehlte es an Konstanz. Positiv hervorzuheben ist allerdings das Risikomanagement: Alle getesteten Modelle wiesen einen geringeren maximalen Drawdown auf als die Baseline – sie verloren in schlechten Phasen also weniger Geld. Dies deutet darauf hin, dass die Systeme zumindest in der Lage sind, Verlustrisiken zu begrenzen, auch wenn die Gewinnerzielung problematisch bleibt.
Besonders aufschlussreich ist die Diskrepanz zwischen theoretischem Wissen und praktischer Anwendung. Modelle, die in statischen Finanz-Wissenstests brillierten, versagten in der dynamischen Handelssimulation. Die Fähigkeit, Konzepte zu erklären, bedeutet offenbar nicht, dass man diese auch gewinnbringend anwenden kann – eine Lektion, die auch menschliche Investoren schmerzlich lernen müssen.
Wenn die Komplexität steigt, bricht die Performance ein
Eine detaillierte Analyse offenbart weitere Schwachstellen. Sobald die Anzahl der zu handelnden Aktien von fünf auf dreißig erhöht wurde, verschlechterte sich die Performance der Agenten dramatisch. Die Skalierung der Entscheidungsfindung stellt offensichtlich eine erhebliche Herausforderung dar. Je mehr Variablen zu berücksichtigen sind, desto überfordert scheinen die Systeme.
Ablationsstudien – also Tests, bei denen systematisch bestimmte Informationsquellen entfernt wurden – zeigten zudem, wie abhängig die Modelle von umfassenden Daten sind. Sowohl Nachrichtenartikel als auch Fundamentaldaten erwiesen sich als entscheidend. Ohne diese Inputs brach die Performance konsistent ein. Dies unterstreicht, dass LLM-Agenten nicht aus reiner “Intuition” handeln, sondern stark von der Qualität und Vollständigkeit ihrer Informationsbasis abhängen.
Besonders problematisch erwies sich das Verhalten in verschiedenen Marktphasen. Während die Agenten in Bullenmärkten – also Phasen steigender Kurse – teilweise die Baseline übertreffen konnten, versagten sie in Bärenmärkten fast vollständig. Gerade in schwierigen Zeiten, wenn antizyklisches Denken und Nervenstärke gefragt sind, zeigen die aktuellen Systeme gravierende Schwächen.
Ein Werkzeug für die Zukunft
STOCKBENCH ist mehr als nur ein weiterer Benchmark. Es ist ein Realitätscheck für die KI-Forschung im Finanzbereich. Die Ergebnisse demonstrieren, dass der Weg von beeindruckenden Chatbots zu profitablen Handelsagenten noch weit ist. Aktuelle LLMs mögen in der Lage sein, Finanznachrichten zusammenzufassen oder Anlagestrategien zu erklären, doch die konsistente, profitable Navigation komplexer Marktbedingungen übersteigt ihre derzeitigen Fähigkeiten.
Die Forscher stellen STOCKBENCH als Open-Source-Ressource zur Verfügung und planen, den Benchmark kontinuierlich mit neuen Daten zu aktualisieren. Dies schafft einen wertvollen Standard für zukünftige Entwicklungen. Vielleicht werden kommende Generationen von KI-Systemen tatsächlich lernen, was derzeit noch fehlt: die Fähigkeit, in unsicheren, dynamischen Umgebungen nicht nur zu analysieren, sondern auch klug zu handeln.
Bis dahin bleibt die Botschaft klar: Wer sein Geld an der Börse anlegen möchte, sollte nicht blind auf KI-Agenten vertrauen. Die künstliche Intelligenz mag vieles können – aber den Markt zu schlagen gehört bislang nicht zuverlässig dazu.
References