S&P Global, ein führender Anbieter von Finanzinformationen, hat in der vergangenen Woche die Einführung von S&P AI Benchmarks by Kensho bekannt gegeben. Die Lösung (Beta) zielt darauf ab, einen neuen Standard für die Bewertung der Leistung von großen Sprachmodellen (LLMs) in komplexen finanziellen und quantitativen Anwendungen zu setzen. Das Fehlen von standardisierten Benchmarks hat es für Unternehmen bislang schwierig gemacht, die Eignung verschiedener Modelle für ihre spezifischen Anwendungsfälle zu beurteilen[1]S&P Global Redefines Financial AI Benchmarking with S&P AI Benchmarks by Kensho (Beta)[2]S&P Global launches groundbreaking AI benchmark for financial industry.
Die Methodik der S&P AI Benchmarks wurde von einem vielfältigen Expertenteam aus Ingenieuren, Forschern, Akademikern und Finanzexperten aus allen Geschäftsbereichen von S&P Global entwickelt und validiert. Der Bewertungssatz besteht aus 600 Fragen, die darauf ausgelegt sind, die Leistung eines LLM in drei Schlüsselkategorien rigoros zu testen. Bewertet wird die Fähigkeit eines LLMs, Aufgaben wie quantitatives Denken, Datenextraktion aus Finanzdokumenten und die Demonstration von domänenspezifischem Wissen zu bewältigen. Die Ergebnisse werden dann in einem Leaderboard angezeigt, das einen transparenten Überblick über die Fähigkeiten der einzelnen Modelle bietet.
Laut dem KI-Experten Shabbir Merchant wird mit der Lancierung des S&P – Benchmarks eine Brücke zwischen Spitzentechnologie und traditionellen Finanzpraktiken geschlagen[3]https://www.linkedin.com/posts/sohelmerchant_sp-global-launches-groundbreaking-ai-benchmark-activity-7181961325424627713-Ihlc/. Er zeige, dass komplexe, quantitative Aufgaben, die früher ausschließlich der menschlichen Expertise vorbehalten waren, von der KI übernommen werden können.
References