Wie man KI trainiert, um Risiken vorherzusagen

Wenn es um Vorhersagen geht, sind Techniken der künstlichen Intelligenz viel leistungsfähiger als einfache statistische Ansätze wie beispielsweise die Extrapolation einfacher Trends. Allerdings liefern diese Methoden zunächst nur Punktvorhersagen, während es oft wünschenswert ist, auch Risiken, d. h. unwahrscheinliche (und oft nachteilige) mögliche Ereignisse, vorherzusagen. Hierfür gibt es mehrere Ansätze, die aber entweder nachträglich an das eigentliche AI-Verfahren "angehängt" werden und/oder nur in Spezialfällen anwendbar sind.

Hier wird ein Ansatz vorgestellt, mit dem KI-Verfahren generisch in der Lage sind, Risiken direkt zu "lernen". Dies wird an verschiedenen amerikanischen Aktienkursen demonstriert.

Warum Risiken vorhersagen?

Warum macht es überhaupt Sinn, Risiken vorherzusagen und sich nicht mit Punktprognosen zu begnügen? Ganz einfach, weil Punktprognosen in vielen Situationen entweder nicht möglich oder nicht praktikabel sind. Stattdessen können nur probabilistische Vorhersagen gemacht werden. Risiken sind daher allgegenwärtig und die Gründe dafür sind vielfältig.

Aufgrund der fundamentalen Naturprinzipien der Quantenphysik selbst ist es unmöglich, auf der mikroskopischen Skala genaue Vorhersagen zu treffen.

Erschwerend kommt hinzu, dass oft schon sehr kleine anfängliche Wissenslücken zu gravierenden Unterschieden in den Ergebnissen führen können; dies wird durch die Chaostheorie beschrieben und lässt sich am Beispiel des Wetters gut beobachten. Darüber hinaus sind hochkomplexe Systeme durch Rückkopplungen gekennzeichnet. Ein besonders komplexes System ist beispielsweise die Börse, in der sich die Zukunftserwartungen vieler verschiedener Akteure widerspiegeln.

In diesem Zusammenhang ist es von enormer Bedeutung, Risiken so genau wie möglich zu quantifizieren, da sie oft katastrophale Auswirkungen haben. Beispiele sind Naturkatastrophen (etwa Stürme oder Erdbeben), Wirtschaftskrisen, Finanzmarktturbulenzen (Börsencrashs) oder auch Verkehrsstaus, operationelle Risiken, Hackerangriffe und Terrorismus.

Vorteile und Unzulänglichkeiten der KI

Methoden der künstlichen Intelligenz sind selbstverständlich das zeitgemäße Mittel der Wahl, um Risiken zu quantifizieren. Denn diese sind – im Gegensatz zur herkömmlichen Statistik – sehr gute Methoden, um Muster in Daten zu finden. Insbesondere sind sehr präzise Punktvorhersagen möglich.

Außerdem sind diese Methoden – wenn sie bereits trainiert sind – im Vergleich zu Monte-Carlo-Simulationen sehr schnell und können diese teilweise ersetzen.

Allerdings gibt es – im Allgemeinen und a priori – keine automatische Behandlung von Risiken, das heißt von unterschiedlichen wahrscheinlichen Ergebnissen. Darüber hinaus sind die Nomenklaturen und Definitionen von Risiken inkonsistent und es besteht oft eine Verwechslung zwischen Modellrisiko, Unsicherheit und dem hier betrachteten inhärenten Risiko; dies wird weiter unten noch genauer diskutiert.

Exkurs: Notwendigkeit einer geeigneten Nomenklatur

An dieser Stelle ist es angebracht, auf die verschiedenen Arten von Unbekannten einzugehen. Dies ist wichtig, weil sich sowohl die Konzepte über sie als auch die Verfahren zum Umgang mit ihnen grundlegend unterscheiden. Im Allgemeinen kann man unterscheiden zwischen

Ungewissheit: Hierbei handelt es sich um "unbekannte Unbekannte", d. h. um Unbekannte, die von einer KI weder quantifiziert noch vorhergesagt werden können.
Modellrisiko: Dies bezieht sich auf den KI-Prozess selbst. Es nimmt mit besserem Modell und besseren Daten ab und unterliegt der Modellvalidierung. Ein in der Literatur in diesem Zusammenhang verwendeter Begriff ist auch "epistemische Unsicherheit".
Inhärentes Risiko: Dieses Risiko ist "real" und kann quantifiziert werden, es handelt sich also um "bekannte Unbekannte".

Bessere Modelle liefern bessere Vorhersagen; das Risiko selbst wird jedoch nicht geringer. Dieses Risiko – in der Literatur auch als "aleatorische Unsicherheit" bezeichnet – ist das Thema dieses Beitrags.

Bislang verwendete Verfahren

Zur Verminderung der beschriebenen Probleme wurde eine Vielzahl von Verfahren entwickelt, die sich in Anwendung und Komplexität teilweise stark unterscheiden. Im Folgenden ist eine kurze – unvollständige und subjektive – Auflistung der Verfahren zu finden.

"Selbstbewusste" KI: Besonders in neuartigen Situationen ist es wichtig, ein Maß für die Unsicherheit des KI-Modells zu haben. Diese Methode liefert dieses Maß auf Basis der Bayes-Statistik. Sie liefert jedoch keine Risikovorhersagen im engeren Sinne und befindet sich in der Grauzone zwischen unbekannten Unbekannten und bekannten Unbekannten.
Restricted Boltzmann Machines: Dies sind neuronale Netze mit einer speziellen Architektur, die es ermöglicht, Verteilungen zu "lernen". Diese können dann nachgebildet und entsprechende Prognosen erstellt werden. Inhärente Risiken können so direkt vorhergesagt werden. Allerdings ist das Verfahren an die spezielle Architektur mit den damit verbundenen Eigenheiten gebunden.
Residualfehleranalyse: Im Backtesting werden die Vorhersagen mit realen Ereignissen verglichen und die Abweichungen (Residuen) ermittelt. Die Risiken werden somit als historische Modellfehler betrachtet. Infolgedessen werden Modell- und inhärente Risiken manchmal vermischt. Außerdem wird dieses Verfahren nur ex post durchgeführt und ist nicht Teil des AI-Modells.
Probabilistische Vorhersage: Hier werden Wahrscheinlichkeits-Scores mit realen Wahrscheinlichkeiten verglichen und das Modell ggf. kalibriert. Ein Spezialfall davon ist die Kalibrierung auf binäre mögliche Ergebnisse, wie es beispielsweise bei Ausfallwahrscheinlichkeiten bei der Bestimmung von Kreditratings gemacht wird. Hierfür müssen jedoch Verteilungsannahmen getroffen werden; außerdem wird auch dieses Verfahren nur ex post durchgeführt und ist nicht Teil des KI-Modells.
Variational Autoencoders: Hier "lernt" ein spezielles neuronales Netz die wesentlichen Merkmale der Daten, die notwendig sind, um sie zu reproduzieren. Durch Variation dieser Merkmale können Wahrscheinlichkeitsverteilungen erzeugt werden. Allerdings müssen auch hier Verteilungsannahmen getroffen werden. Außerdem ist das Verfahren an die spezielle Architektur mit ihren diesbezüglichen Eigenheiten gebunden.
Generative Adversarial Networks: Hier analysiert ein neuronales Netz die Fehler eines anderen und "lernt", den möglichen Ergebnisraum zu reproduzieren. Hier werden grundsätzlich auch Modellfehler mit inhärenten Risiken gemischt. Außerdem werden Wahrscheinlichkeiten nur indirekt "gelernt". Zudem ist auch dieses Verfahren an die spezielle Architektur mit ihren jeweiligen Eigenheiten gebunden.

Exkurs: Was sind Risiken?

Im Folgenden wird die eingangs erwähnte Methode diskutiert, mit der Risiken direkt und unabhängig vom Modell gelernt werden können. Wie sich gezeigt hat, ist es von enormer Bedeutung, überhaupt eine praktikable Definition dafür zu haben, was Risiken sind. Der folgende Ansatz basiert dementsprechend auf der folgenden Definition, die zu diesem Zweck verwendet wird:

"Risiko ist, wenn bei gleicher Information (Ausgangsbasis) unterschiedliche Ergebnisse möglich sind."

So hat man beispielsweise ein Risiko, dass es morgen kälter ist, wenn man nur weiß, wie die Temperatur heute ist. Egal wie gut das Modell ist, wenn es nur diese Information hat, wird es nur eine ungenaue – risikoreiche – Vorhersage machen können. Das Risiko stellt also einen Teil der verfügbaren Information und der hierfür gewählten Betrachtungsweise dar.

Gewählte Methode: Wahrscheinlichkeiten als Modellparameter

Bei dem Verfahren zur direkten und modellunabhängigen Vorhersage von Risiken wurden Wahrscheinlichkeiten bzw. Quantile als direkte Modellparameter, das heißt als Teil der Daten, berücksichtigt. Dadurch können KI-Modelle Wahrscheinlichkeiten – und damit Risiken – direkt lernen. Dabei spielt es keine Rolle, ob die Wahrscheinlichkeiten als Eingangs- oder Ausgangsdaten definiert sind.

Es werden also keine neuartigen Modelle oder Verfahren benötigt. Stattdessen werden die Risiken wie folgt auf die Struktur der Trainingsdaten abgebildet:

Bei identischen (oder durch Rundung identisch gemachten) Eingabedaten und mehreren möglichen Ausgabedaten dient das Quantil als zusätzlicher Ordnungsparameter, das heißt als zusätzliches Datenfeld.
Das Lernen der Input-Output-Relation erfolgt wie bei Klassifikations- oder Regressionsverfahren üblich. Das Quantil (bzw. die Wahrscheinlichkeit) ist dabei nur eine zusätzliche Variable.
Die Replikation der gelernten Verteilung erfolgt dann auch mit neuen Daten und gegebener Wahrscheinlichkeit.

Beispiel: US-amerikanische Aktien

Ziel dieses Beispiels war es, die Verteilung der Renditen für den Folgetag für Aktien verschiedener großer US-amerikanischer Unternehmen auf der Basis von nur wenigen Eingabedaten (Renditen der letzten 5 Tage) vorherzusagen.

Als Datenbasis wurden die täglichen Aktienkurse der 20 größten amerikanischen Unternehmen zwischen 2008 und 2020 verwendet. Daraus wurden die Renditen berechnet und für jeden Datenpunkt fünf Eingangsvariablen und eine Ausgangsvariable durch Windowing gebildet, das heißt die Renditen des Folgetages sollten auf Basis der Renditen der letzten fünf Tage prognostiziert werden. Soweit entsprach die Vorgehensweise dem üblichen Vorgehen bei einer Regression.

Anschließend wurden die Eingabedatensätze jedoch mittels k-means Clustering in 10 Cluster gruppiert. Für jedes Cluster wurden dann die Eingabewerte durch die Mittelwerte des jeweiligen Clusters ersetzt. Dabei zeigte sich, dass für identische Eingabedaten unterschiedliche Ausgabedaten möglich waren, was mit der obigen Risikodefinition übereinstimmt. Jeder Cluster wurde nun anhand der Ausgabedaten sortiert und das entsprechende Quantil als zusätzliche – sechste – Eingabevariable berechnet.

Dieser Datensatz wurde dann verwendet, um ein fünfschichtiges neuronales Netz mit Dropout-Schichten und ADAM-Optimierung über 30 Zyklen zu trainieren, wie es üblich ist.

Das resultierende Netzwerk war dann in der Lage, basierend auf den gegebenen Renditen der letzten fünf Tage und einem Quantil eine entsprechende Rendite des Folgetages vorherzusagen. Die Ergebnisse waren alle plausibel. Ein Beispiel über mehrere Quantile ist in der Abbildung unten dargestellt. Man sieht deutlich, dass mit kleineren Quantilen die Ausreißer extremer werden, wie es auch von realen Verteilungen bekannt ist. Das KI-Modell hat also gelernt, Risiken vorherzusagen.

Abb. 01: Renditen des Folgetages für verschiedene Quantile mit den Eingangsdaten [-0,8%, -0,7%, -0,1%, 0,2%, 0,8%] für die Tage [-1,...,-5]

Außerdem nahm das Risiko mit dem betrachteten Zeithorizont zu. Schließlich führten "wackelige" (volatile) Eingaben zu breiteren Verteilungen, was auch für riskantere Aktien zu erwarten ist.

Ausblick

Es wurde gezeigt, dass KI-Methoden nach entsprechender Datenaufbereitung generisch in der Lage sind, Risiken direkt vorherzusagen. Dies könnte in Zukunft Möglichkeiten für eine schnelle und genaue Risikovorhersage, zum Beispiel im Finanzsektor, eröffnen. Konventionelle komplexe Methoden wie Monte-Carlo-Simulationen könnten ersetzt werden und nach entsprechender Erweiterung könnten auch Korrelationen im multivariaten Fall erkannt werden.

Autor
Dr. Dimitrios Geromichalos, FRM, CEO / Founder RiskDataScience GmbH

[ Bildquelle Titelbild: Adobe Stock.com / k_yu ]

Artificial intelligence

Wie man KI trainiert, um Risiken vorherzusagen