Wäh­rend Zen­tral­ban­ker noch mit den Nach­wir­kun­gen ihrer Fehl­ein­schät­zun­gen zur „vor­über­ge­hen­den Infla­ti­on” rin­gen, expe­ri­men­tie­ren For­scher bereits mit ler­nen­den Algo­rith­men, die geld­po­li­ti­sche Ent­schei­dun­gen auto­nom opti­mie­ren könn­ten. Die Idee klingt nach Sci­ence-Fic­tion – doch sie ist theo­re­tisch fun­dier­ter, als man zunächst ver­mu­ten würde.


Die Geld­po­li­tik gehört zu jenen Domä­nen mensch­li­cher Ent­schei­dungs­fin­dung, die sich durch eine eigen­tüm­li­che Mischung aus tech­ni­scher Kom­ple­xi­tät und fun­da­men­ta­ler Unsi­cher­heit aus­zeich­nen. Zen­tral­ban­ken ope­rie­ren in einem Umfeld, das sie nur unvoll­stän­dig ver­ste­hen, mit Instru­men­ten, deren Wir­kun­gen zeit­ver­zö­gert und kon­text­ab­hän­gig ein­tre­ten, und unter dem Druck einer Öffent­lich­keit, die ein­fa­che Erklä­run­gen für kom­ple­xe Phä­no­me­ne erwar­tet. Dass in die­sem Span­nungs­feld nun maschi­nel­le Lern­ver­fah­ren als poten­zi­el­le Ent­schei­dungs­un­ter­stüt­zung dis­ku­tiert wer­den, ist weni­ger über­ra­schend als viel­mehr konsequent.

Das Modell als Arena

Eine aktu­el­le Stu­die unter­sucht sys­te­ma­tisch, wie Rein­force­ment-Lear­ning-Algo­rith­men geld­po­li­ti­sche Regeln in einem sti­li­sier­ten makro­öko­no­mi­schen Modell erler­nen kön­nen. Der metho­di­sche Ansatz ist dabei bemer­kens­wert nüch­tern: Die Autoren ver­zich­ten bewusst auf Modell­kom­ple­xi­tät, um die Leis­tungs­fä­hig­keit der Algo­rith­men selbst in den Vor­der­grund zu rücken. Die Zen­tral­bank wird als Agent kon­zi­piert, der eine Wohl­fahrts­funk­ti­on maxi­miert – kon­kret: die Abwei­chun­gen von Infla­ti­on und Out­put-Lücke von ihren Ziel­wer­ten mini­miert. Exo­ge­ne Schocks simu­lie­ren jene makro­öko­no­mi­sche Unsi­cher­heit, die das täg­li­che Brot der Geld­po­li­ti­ker darstellt.

Ver­gli­chen wer­den zwei Klas­sen von RL-Algo­rith­men: tabel­la­ri­sche Metho­den wie Q‑Learning und SARSA einer­seits, Funk­ti­ons­ap­pro­xi­ma­ti­ons­me­tho­den wie Deep Q‑Networks (DQN) ande­rer­seits. Die Unter­schei­dung ist nicht tri­vi­al. Tabel­la­ri­sche Ver­fah­ren spei­chern Wert­schät­zun­gen für jeden Zustand-Akti­ons-Paar expli­zit ab – ein Ansatz, der bei über­schau­ba­ren Zustands­räu­men funk­tio­niert, aber bei kon­ti­nu­ier­li­chen Varia­blen an sei­ne Gren­zen stößt. DQN hin­ge­gen appro­xi­miert die Wert­funk­ti­on durch neu­ro­na­le Net­ze und kann damit auf unbe­kann­te Zustän­de generalisieren.

Robust­heit ohne expli­zi­tes Weltmodell

Der zen­tra­le Befund der Stu­die ver­dient Beach­tung: Bei­de Metho­den­klas­sen sind in der Lage, robus­te geld­po­li­ti­sche Regeln zu erler­nen, die die Wohl­fahrts­funk­ti­on effek­tiv opti­mie­ren. Die tabel­la­ri­schen Ver­fah­ren zei­gen dabei hohe Lern­sta­bi­li­tät in dis­kre­ti­sier­ten Umge­bun­gen. DQN erweist sich als viel­ver­spre­chend für kom­ple­xe­re, kon­ti­nu­ier­li­che Zustands­räu­me – also für Sze­na­ri­en, die rea­lis­ti­sche­ren makro­öko­no­mi­schen Bedin­gun­gen näherkommen.

Was die­se Ergeb­nis­se bemer­kens­wert macht, ist weni­ger die tech­ni­sche Per­for­mance als die kon­zep­tio­nel­le Impli­ka­ti­on: RL-Algo­rith­men benö­ti­gen kein expli­zi­tes Modell der Wirt­schaft. Sie ler­nen durch Inter­ak­ti­on mit ihrer Umge­bung, durch Ver­such und Irr­tum, durch die Akku­mu­la­ti­on von Erfah­rung. Das unter­schei­det sie fun­da­men­tal von den struk­tu­rel­len makro­öko­no­mi­schen Model­len, die Zen­tral­ban­ken tra­di­tio­nell ver­wen­den – und die in den ver­gan­ge­nen Jah­ren wie­der­holt an der Rea­li­tät geschei­tert sind.

Die Tay­lor-Regel und ihre algo­rith­mi­schen Erben

Der impli­zi­te Ver­gleichs­maß­stab die­ser For­schung ist die Tay­lor-Regel, jene ele­gan­te For­mel, die seit den 1990er Jah­ren als Richt­schnur für Zins­ent­schei­dun­gen dient. Die Tay­lor-Regel ist im Kern eine fes­te Reak­ti­ons­funk­ti­on: Sie schreibt vor, wie stark der Leit­zins auf Abwei­chun­gen der Infla­ti­on vom Ziel­wert und auf die Out­put-Lücke reagie­ren soll­te. Ihre Ele­ganz liegt in ihrer Ein­fach­heit, ihre Schwä­che in ihrer Starrheit.

RL-Algo­rith­men ver­spre­chen dage­gen Adap­ti­vi­tät. Sie pas­sen ihre Poli­tik an ver­än­der­te Bedin­gun­gen an, ohne dass ein Mensch die Reak­ti­ons­funk­ti­on expli­zit neu kali­brie­ren müss­te. In einer Welt struk­tu­rel­ler Brü­che – man den­ke an die Finanz­kri­se, die Pan­de­mie, den Ener­gie­preis­schock – könn­te die­se Eigen­schaft von erheb­li­chem Wert sein.

Offe­ne Fra­gen und not­wen­di­ge Skepsis

Gleich­wohl wäre Eupho­rie ver­früht. Die Stu­die ope­riert in einer ver­ein­fach­ten Modell­welt, die wesent­li­che Kom­pli­ka­tio­nen der rea­len Geld­po­li­tik aus­blen­det: die Inter­ak­ti­on mit fis­kal­po­li­ti­schen Ent­schei­dun­gen, die Erwar­tungs­bil­dung der Markt­teil­neh­mer, die Kom­mu­ni­ka­ti­ons­di­men­si­on geld­po­li­ti­scher Beschlüs­se, die poli­ti­schen Zwän­ge, unter denen Zen­tral­ban­ken operieren.

Hin­zu kommt das fun­da­men­ta­le Pro­blem der Vali­die­rung. Wie tes­tet man einen RL-Algo­rith­mus für Geld­po­li­tik, ohne ihn tat­säch­lich ein­zu­set­zen? Die Geschich­te lie­fert nur eine Tra­jek­to­rie – es gibt kei­ne Par­al­lel­uni­ver­sen, in denen man alter­na­ti­ve Poli­ti­ken hät­te aus­pro­bie­ren kön­nen. Simu­la­tio­nen blei­ben not­wen­dig spe­ku­la­tiv, weil jedes Simu­la­ti­ons­mo­dell selbst nur eine Hypo­the­se über die Funk­ti­ons­wei­se der Wirt­schaft darstellt.

Schließ­lich stellt sich die Fra­ge der Ver­ant­wor­tung. Wenn ein Algo­rith­mus eine Zins­ent­schei­dung emp­fiehlt, die sich als falsch erweist – wer trägt dann die Ver­ant­wor­tung? Der Pro­gram­mie­rer? Die Zen­tral­bank, die dem Algo­rith­mus folg­te? Die­se Fra­gen sind nicht tech­ni­scher, son­dern insti­tu­tio­nel­ler Natur, und sie wer­den drän­gen­der, je leis­tungs­fä­hi­ger die Algo­rith­men werden.

Aus­blick: Ent­schei­dungs­un­ter­stüt­zung, nicht Entscheidungsersatz

Der rea­lis­tischs­te Anwen­dungs­fall für RL in der Geld­po­li­tik dürf­te vor­erst nicht die auto­no­me Ent­schei­dungs­fin­dung sein, son­dern die Ent­schei­dungs­un­ter­stüt­zung. Algo­rith­men könn­ten als eine Art Spar­rings­part­ner für mensch­li­che Geld­po­li­ti­ker fun­gie­ren: Sie könn­ten alter­na­ti­ve Sze­na­ri­en durch­spie­len, auf Inkon­sis­ten­zen in der geld­po­li­ti­schen Stra­te­gie hin­wei­sen, oder Mus­ter in his­to­ri­schen Daten iden­ti­fi­zie­ren, die mensch­li­chen Ana­lys­ten entgehen.

Das wäre kei­ne Revo­lu­ti­on, son­dern eine Evo­lu­ti­on – und viel­leicht ist das der ange­mes­se­ne Erwar­tungs­ho­ri­zont. Die Geld­po­li­tik ist zu wich­tig und zu fol­gen­reich, um sie unbe­dacht an Algo­rith­men zu dele­gie­ren. Aber sie ist auch zu kom­plex, um auf die Erkennt­nis­se zu ver­zich­ten, die maschi­nel­le Lern­ver­fah­ren lie­fern kön­nen. Die Kunst wird dar­in bestehen, die rich­ti­ge Balan­ce zwi­schen mensch­li­chem Urteil und algo­rith­mi­scher Unter­stüt­zung zu finden.

Die For­schung zu RL in der Geld­po­li­tik steht noch am Anfang. Aber sie stellt die rich­ti­gen Fra­gen – und das ist in der Wis­sen­schaft oft wich­ti­ger als die ers­ten Antworten.

Die Stu­die zeigt exem­pla­risch, wie KI-Metho­den tra­di­tio­nel­le Domä­nen insti­tu­tio­nel­ler Ent­schei­dungs­fin­dung durch­drin­gen. Für Zen­tral­ban­ken bedeu­tet das: Die Fra­ge ist nicht mehr, ob sie sich mit die­sen Tech­no­lo­gien aus­ein­an­der­set­zen müs­sen, son­dern wie.