Der Anbie­ter von Finanz­in­for­ma­tio­nen, Bloom­berg, arbei­tet an einer Art ChatGPT für Finanz­in­for­ma­tio­nen namens BloombergGPT.

Gro­ße Sprach­mo­del­le (Lar­ge Lan­guage Models, LLMs) hät­ten sich bei einer Viel­zahl von Auf­ga­ben als effek­tiv erwie­sen; in der Lite­ra­tur sei laut der Autoren von Bloom­bergGPT: A Lar­ge Lan­guage Model for Finan­ce jedoch noch kein LLM, das für den Finanz­be­reich spe­zia­li­siert ist, beschrie­ben. In dem Paper wird Bloom­bergGPT vor­ge­stellt, ein Sprach­mo­dell mit 50 Mil­li­ar­den Para­me­tern. “Wir kon­stru­ie­ren einen 363 Mil­li­ar­den Token umfas­sen­den Daten­satz, der auf Bloom­bergs umfang­rei­chen Daten­quel­len basiert, dem viel­leicht größ­ten domä­nen­spe­zi­fi­schen Daten­satz. Wir vali­die­ren Bloom­bergGPT mit Stan­dard LLM-Bench­marks, offe­nen Finanz-Bench­marks und einer Rei­he von inter­nen Bench­marks, die unse­re beab­sich­tig­te Nut­zung am genau­es­ten wider­spie­geln. Unser Trai­ning mit gemisch­ten Daten­sät­zen führt zu einem Modell, das bestehen­de Model­le bei Finanz­auf­ga­ben deut­lich über­trifft”. Dane­ben ver­wen­det Bloom­bergGPT noch eine Rei­he ande­rer, über­wie­gend eng­lisch­spra­chi­ger Daten­quel­len (non-finan­ce-spe­ci­fic-data).

Die fir­men­spe­zi­fi­schen Daten­sät­ze namens Fin­Pi­le “bestehen aus einer Viel­zahl eng­lisch­spra­chi­ger Finanz­do­ku­men­te, dar­un­ter Nach­rich­ten, Berich­te, Pres­se­mit­teilungen, im Inter­net gescrap­te Finanz­do­ku­men­te und sozia­le Medi­en aus den Bloom­berg-Archi­ven”. Hin­zu kom­men noch SEC-Berich­te, Bloom­berg-TV-Pro­to­kol­le, Fed-Daten und ande­re für die Finanz­märk­te rele­van­te Daten.  Die nicht finanz­spe­zi­fi­schen Daten­sät­ze wer­den als “The Pile” bezeich­net. Dar­in ent­hal­ten sind sämt­li­che You­Tube-Titel über Pro­ject Guten­berg bis hin zu den Enron-E-Mails, die beim KI-Trai­ning immer wie­der auf­tau­chen. Eben­falls ent­hal­ten ist eine voll­stän­di­ge Kopie von Wiki­pe­dia mit Stand vom Juli letz­ten Jah­res[1]What if ChatGPT was trai­ned on deca­des of finan­cial news and data? Bloom­bergGPT aims to be a domain-spe­ci­fic AI for busi­ness news((

Refe­ren­ces