Getting your Trinity Audio player ready...

Trotz beein­dru­cken­der Fähig­kei­ten in Finanz­fra­gen schei­tern die meis­ten Lar­ge Lan­guage Models dar­an, in rea­len Märk­ten pro­fi­ta­bel zu han­deln. Der neue STOCK­BENCH-Bench­mark offen­bart eine unbe­que­me Wahr­heit: Wis­sen über Finan­zen bedeu­tet noch lan­ge nicht, dass man erfolg­reich inves­tie­ren kann.


Die Fas­zi­na­ti­on für künst­li­che Intel­li­genz im Finanz­we­sen ist nicht neu. Seit Jah­ren ver­spre­chen Ent­wick­ler, dass selbst­ler­nen­de Algo­rith­men die Märk­te durch­schau­en und pro­fi­ta­ble Han­dels­ent­schei­dun­gen tref­fen kön­nen. Doch wäh­rend Lar­ge Lan­guage Models (LLMs) wie GPT oder Clau­de in sta­ti­schen Finanz­prü­fun­gen glän­zen, stellt sich die ent­schei­den­de Fra­ge: Kön­nen die­se Sys­te­me auch in der rau­en Rea­li­tät dyna­mi­scher Märk­te bestehen? Eine aktu­el­le For­schungs­ar­beit lie­fert mit STOCKBENCH erst­mals einen rea­lis­ti­schen Maß­stab – und die Ergeb­nis­se sind ernüch­ternd[1]STOCKBENCH: CAN LLM AGENTS TRADE STOCKS PROFITABLY IN REAL-WORLD MARKETS?.

Die Lücke zwi­schen Theo­rie und Praxis

Bis­he­ri­ge Bench­marks im Finanz­be­reich kon­zen­trier­ten sich pri­mär auf Wis­sens­fra­gen: Kann ein Modell Finanz­be­grif­fe erklä­ren? Ver­steht es Jah­res­ab­schlüs­se? Sol­che Tests erfas­sen jedoch nicht die Kom­ple­xi­tät rea­ler Inves­ti­ti­ons­ent­schei­dun­gen. Märk­te sind kei­ne sta­ti­schen Prü­fungs­bö­gen, son­dern leben­di­ge Sys­te­me, in denen sich Prei­se, Stim­mun­gen und Fun­da­men­tal­da­ten kon­ti­nu­ier­lich ver­än­dern. STOCKBENCH wur­de ent­wi­ckelt, um genau die­se Lücke zu schließen.

Der Bench­mark basiert auf drei fun­da­men­ta­len Prin­zi­pi­en: Ers­tens erhal­ten die KI-Agen­ten rea­lis­ti­sche Markt­in­for­ma­tio­nen – täg­li­che Kur­se, Unter­neh­mens­fun­da­men­tal­da­ten und Nach­rich­ten­ar­ti­kel. Zwei­tens müs­sen sie über einen mehr­mo­na­ti­gen Zeit­raum hin­weg kon­ti­nu­ier­lich Ent­schei­dun­gen tref­fen, ob sie Akti­en kau­fen, ver­kau­fen oder hal­ten. Drit­tens – und dies ist beson­ders cle­ver – ver­wen­det STOCKBENCH aktu­el­le Daten aus dem Jahr 2025, die außer­halb des Trai­nings­zeit­raums moder­ner LLMs lie­gen. Damit wird sicher­ge­stellt, dass die Model­le nicht ein­fach aus­wen­dig gelern­te Mus­ter repro­du­zie­ren, son­dern tat­säch­lich ana­ly­sie­ren und ent­schei­den müssen.

Ernüch­tern­de Ergeb­nis­se im Härtetest

Die For­scher tes­te­ten eine Viel­zahl moderns­ter Model­le, dar­un­ter pro­prie­tä­re Sys­te­me wie GPT‑5 und Claude‑4 sowie Open-Source-Alter­na­ti­ven. Das Sze­na­rio: Han­del mit 20 hoch­ge­wich­te­ten Akti­en des Dow Jones Indus­tri­al Avera­ge über meh­re­re Mona­te. Als Ver­gleichs­maß­stab dien­te die sim­pels­te aller Stra­te­gien – Buy and Hold, also ein­fach kau­fen und hal­ten. Die­se pas­si­ve Stra­te­gie erziel­te eine Ren­di­te von 0,4 Prozent.

Das ernüch­tern­de Ergeb­nis: Die meis­ten LLM-Agen­ten kämpf­ten damit, selbst die­se beschei­de­ne Base­line kon­sis­tent zu über­tref­fen. Wäh­rend eini­ge Model­le pha­sen­wei­se höhe­re Ren­di­ten zeig­ten, fehl­te es an Kon­stanz. Posi­tiv her­vor­zu­he­ben ist aller­dings das Risi­ko­ma­nage­ment: Alle getes­te­ten Model­le wie­sen einen gerin­ge­ren maxi­ma­len Draw­down auf als die Base­line – sie ver­lo­ren in schlech­ten Pha­sen also weni­ger Geld. Dies deu­tet dar­auf hin, dass die Sys­te­me zumin­dest in der Lage sind, Ver­lust­ri­si­ken zu begren­zen, auch wenn die Gewinn­erzie­lung pro­ble­ma­tisch bleibt.

Beson­ders auf­schluss­reich ist die Dis­kre­panz zwi­schen theo­re­ti­schem Wis­sen und prak­ti­scher Anwen­dung. Model­le, die in sta­ti­schen Finanz-Wis­sens­tests bril­lier­ten, ver­sag­ten in der dyna­mi­schen Han­dels­si­mu­la­ti­on. Die Fähig­keit, Kon­zep­te zu erklä­ren, bedeu­tet offen­bar nicht, dass man die­se auch gewinn­brin­gend anwen­den kann – eine Lek­ti­on, die auch mensch­li­che Inves­to­ren schmerz­lich ler­nen müssen.

Wenn die Kom­ple­xi­tät steigt, bricht die Per­for­mance ein

Eine detail­lier­te Ana­ly­se offen­bart wei­te­re Schwach­stel­len. Sobald die Anzahl der zu han­deln­den Akti­en von fünf auf drei­ßig erhöht wur­de, ver­schlech­ter­te sich die Per­for­mance der Agen­ten dra­ma­tisch. Die Ska­lie­rung der Ent­schei­dungs­fin­dung stellt offen­sicht­lich eine erheb­li­che Her­aus­for­de­rung dar. Je mehr Varia­blen zu berück­sich­ti­gen sind, des­to über­for­dert schei­nen die Systeme.

Abla­ti­ons­stu­di­en – also Tests, bei denen sys­te­ma­tisch bestimm­te Infor­ma­ti­ons­quel­len ent­fernt wur­den – zeig­ten zudem, wie abhän­gig die Model­le von umfas­sen­den Daten sind. Sowohl Nach­rich­ten­ar­ti­kel als auch Fun­da­men­tal­da­ten erwie­sen sich als ent­schei­dend. Ohne die­se Inputs brach die Per­for­mance kon­sis­tent ein. Dies unter­streicht, dass LLM-Agen­ten nicht aus rei­ner “Intui­ti­on” han­deln, son­dern stark von der Qua­li­tät und Voll­stän­dig­keit ihrer Infor­ma­ti­ons­ba­sis abhängen.

Beson­ders pro­ble­ma­tisch erwies sich das Ver­hal­ten in ver­schie­de­nen Markt­pha­sen. Wäh­rend die Agen­ten in Bul­len­märk­ten – also Pha­sen stei­gen­der Kur­se – teil­wei­se die Base­line über­tref­fen konn­ten, ver­sag­ten sie in Bären­märk­ten fast voll­stän­dig. Gera­de in schwie­ri­gen Zei­ten, wenn anti­zy­kli­sches Den­ken und Ner­ven­stär­ke gefragt sind, zei­gen die aktu­el­len Sys­te­me gra­vie­ren­de Schwächen.

Ein Werk­zeug für die Zukunft

STOCKBENCH ist mehr als nur ein wei­te­rer Bench­mark. Es ist ein Rea­li­täts­check für die KI-For­schung im Finanz­be­reich. Die Ergeb­nis­se demons­trie­ren, dass der Weg von beein­dru­cken­den Chat­bots zu pro­fi­ta­blen Han­dels­agen­ten noch weit ist. Aktu­el­le LLMs mögen in der Lage sein, Finanz­nach­rich­ten zusam­men­zu­fas­sen oder Anla­ge­stra­te­gien zu erklä­ren, doch die kon­sis­ten­te, pro­fi­ta­ble Navi­ga­ti­on kom­ple­xer Markt­be­din­gun­gen über­steigt ihre der­zei­ti­gen Fähigkeiten.

Die For­scher stel­len STOCKBENCH als Open-Source-Res­sour­ce zur Ver­fü­gung und pla­nen, den Bench­mark kon­ti­nu­ier­lich mit neu­en Daten zu aktua­li­sie­ren. Dies schafft einen wert­vol­len Stan­dard für zukünf­ti­ge Ent­wick­lun­gen. Viel­leicht wer­den kom­men­de Gene­ra­tio­nen von KI-Sys­te­men tat­säch­lich ler­nen, was der­zeit noch fehlt: die Fähig­keit, in unsi­che­ren, dyna­mi­schen Umge­bun­gen nicht nur zu ana­ly­sie­ren, son­dern auch klug zu handeln.

Bis dahin bleibt die Bot­schaft klar: Wer sein Geld an der Bör­se anle­gen möch­te, soll­te nicht blind auf KI-Agen­ten ver­trau­en. Die künst­li­che Intel­li­genz mag vie­les kön­nen – aber den Markt zu schla­gen gehört bis­lang nicht zuver­läs­sig dazu.