Wie aus Daten belastbare Evidenz wird

Es gibt in der Geschichte der Statistik diese Szenen, die zunächst nach einer charmanten Nebensache klingen und sich dann als intellektuelle Sprengsätze erweisen. Eine der berühmtesten spielt nicht in einem Hörsaal, nicht in einem Labor und auch nicht vor einer Tafel voller Formeln, sondern bei einer Tasse Tee. Eine Dame behauptete, sie könne erschmecken, ob zuerst der Tee oder zuerst die Milch in die Tasse gegossen worden sei. Für die meisten Anwesenden wäre das wohl eine gesellschaftliche Kuriosität geblieben. Für Ronald Aylmer Fisher war es eine methodische Frage. Nicht die Behauptung selbst stand für ihn im Zentrum, sondern der Weg, sie so zu prüfen, dass aus Anekdote Evidenz werden konnte. Wie viele Tassen braucht man? Wie ordnet man sie an? Wie verhindert man, dass Erwartung, Sympathie oder bloßer Zufall das Ergebnis tragen? In dieser Szene beginnt bereits das, was Fisher für die Moderne so wichtig macht: Statistik ist nicht zuerst Rechnen, sondern die Kunst, die Bedingungen des Urteilens sauber zu bauen.

Mehr als ein Statistiker

Ronald Aylmer Fisher wurde im Jahr 1890 in London geboren und gehört zu den seltenen Figuren der Wissenschaftsgeschichte, deren Einfluss sich kaum auf ein einzelnes Fach begrenzen lässt. Er war Statistiker, Genetiker, Evolutionsbiologe und Theoretiker des wissenschaftlichen Experiments zugleich. Encyclopaedia Britannica beschreibt ihn knapp als den Mann, der die Anwendung statistischer Verfahren auf die Gestaltung wissenschaftlicher Experimente entscheidend vorantrieb. Das ist richtig – aber fast zu bescheiden. Fisher hat nicht nur Werkzeuge geliefert; er hat die Regeln verändert, nach denen empirisches Wissen überhaupt erzeugt wird.

Der Statistikhistoriker Anders Hald [vgl. Hald 2007, S. 147) urteilte deshalb, Fisher sei ein Genie gewesen, das fast im Alleingang die Grundlagen der modernen Statistik geschaffen habe ("Fisher was a genius who almost single-handedly created the foundations for modern statistical science“). Und auch der Evolutionsbiologe Richard Dawkins [vgl. Dawkins 1995, S. 38] nannte ihn Darwins größten Nachfolger des 20. Jahrhunderts ("Darwin's greatest twentieth-century successor“). Zusammen gelesen, sagen diese beiden Urteile etwas Wichtiges: Fisher war nicht bloß ein Techniker der Auswertung, sondern ein Denker, der Statistik, Biologie und Erkenntnistheorie tief ineinander verschränkt hat.

Sein Name blieb folgerichtig an einer ungewöhnlich großen Zahl von Methoden, Problemen und Verteilungen haften: an der Fisher-Information, dem exakten Test nach Fisher, der F-Verteilung und dem F-Test, der Fisherschen Diskriminanzfunktion, der Fisher-Tippett-Verteilung, der Cornish-Fisher-Methode, dem Fisher-Yates-Verfahren und auch am Behrens-Fisher-Problem. Doch gerade die schiere Länge dieser Liste verführt zu einem Missverständnis. Fisher war nicht in erster Linie deshalb groß, weil so viele Begriffe seinen Namen tragen. Er war groß, weil er ein gemeinsames Grundproblem hinter all diesen Verfahren erkannte: Wie gewinnt man aus endlichen, verrauschten und oft schlecht gebauten Daten vernünftige Schlüsse?

Die Dame mit dem Tee – und was sie wirklich lehrte

Die berühmte Episode der "lady tasting tea“ ist deshalb so lehrreich, weil sie im Kern ein Aufklärungsstück über Datenqualität ist. Fisher zeigte in "The Design of Experiments“ [vgl. Fisher 1935], dass eine Behauptung nur dann ernsthaft geprüft werden kann, wenn der Versuch so angelegt ist, dass alternative Erklärungen systematisch ausgeschaltet werden. Randomisierung, Wiederholung, Vergleichbarkeit der Einheiten und klare Regeln der Entscheidung sind keine dekorativen Zutaten, sondern die Bedingung dafür, dass ein Testergebnis überhaupt interpretierbar wird.

Gerade darin liegt auch Fishers bleibende Modernität. Viele seiner Nachfolger wurden vor allem als Entwickler statistischer Tests gelesen. Fisher selbst dachte früher an als die Formel. Für ihn begann Statistik beim Aufbau der Beobachtung. Eine schlecht definierte Fragestellung, eine verzerrte Stichprobe, eine unklare Messregel oder eine unkontrollierte Störgröße zerstören die Aussagekraft oft schon, bevor irgendein Test gerechnet wird. Gute Mathematik kann solche Mängel nicht heilen. Sie kann sie allenfalls eleganter maskieren.

Likelihood: Was Daten überhaupt leisten können

Diese Grundhaltung erklärt auch, warum Fisher dem Likelihood-Prinzip eine so zentrale Rolle gab. In seinen Arbeiten zur theoretischen Statistik, insbesondere zwischen "On the Mathematical Foundations of Theoretical Statistics“ [Fisher 1922] und "Theory of Statistical Estimation“ [Fisher 1925], verschob er den Blick auf statistische Schätzung grundlegend. Die entscheidende Frage lautete für ihn nicht mehr: Welcher Parameterwert ist "wahr“ und wie lässt er sich erraten? Sondern: Für welche Werte eines Parameters wären die tatsächlich beobachteten Daten am plausibelsten?

Formal bedeutet das: Hat man ein statistisches Modell mit Dichte- oder Wahrscheinlichkeitsfunktion f(x∣θ), dann wird nach Beobachtung der Daten x dieselbe Funktion als Funktion des Parameters θ gelesen. Diese Funktion

heißt Likelihood-Funktion. Sie ist keine Wahrscheinlichkeit des Parameters, sondern ein Maß dafür, wie gut verschiedene Parameterwerte zu den bereits beobachteten Daten passen. Der Maximum-Likelihood-Schätzer ist dann derjenige Wert

also der Parameterwert, unter dem die beobachteten Daten innerhalb des gewählten Modells am plausibelsten erscheinen.

Gerade diese Idee ist so elegant, dass man leicht übersieht, woran sie hängt. Likelihood arbeitet nicht im luftleeren Raum. Sie ist immer an ein Modell und an konkrete Daten gebunden. Wenn das Modell falsch spezifiziert ist, wenn Beobachtungen verzerrt ausgewählt wurden, wenn Messprozesse instabil sind oder wenn die Daten untereinander nicht wirklich vergleichbar sind, dann findet auch die schönste Likelihood nur das Optimum innerhalb einer falsch beschriebenen Welt. Mathematische Präzision garantiert dann keine sachliche Wahrheit.

Genau hier gewinnt der Satz dieses Beitrags seine eigentliche Schärfe: Gute Modelle retten schlechte Daten nicht. Fishers Größe liegt daher nicht nur in der Formulierung eines mächtigen Schätzprinzips, sondern in der Einsicht, dass statistische Exaktheit kein Ersatz für methodische Disziplin ist. Ein Modell ist nur dann stark, wenn auch sein empirischer Unterbau tragfähig ist: saubere Datenerhebung, klare Definitionen, kontrollierte Störfaktoren und eine belastbare Vergleichbarkeit der Beobachtungen.

Abb. 01: Likelihood-Funktion basierend auf einem einfachen Binomialbeispiel

Abb. 01 zeigt ein einfaches Binomialbeispiel mit n=10 Beobachtungen und x=7 Erfolgen. Die Likelihood-Funktion

erreicht ihr Maximum bei

Das ist der Maximum-Likelihood-Schätzer.

Abb. 02 zeigt den methodisch wichtigeren Punkt: Das gleiche Modell kann zu ganz unterschiedlichen Likelihood-Kurven führen, wenn sich die Daten ändern. Bei einer repräsentativen Stichprobe mit x=55 Erfolgen aus n=100 liegt das Maximum bei 0,55. Bei einer verzerrten oder selektiven Stichprobe mit x=70 aus 100 Beobachtungen verschiebt sich das Maximum auf 0,70. Die Likelihood macht also genau das, was sie soll: Sie passt das Modell an die Daten an. Aber sie kann nicht erkennen, ob die Daten selbst verzerrt oder methodisch fragwürdig sind.

Abb. 02: Gleiches Modell – unterschiedliche Daten

Das Jahr 1924: Eine neue Grammatik der Verteilungen

Ein besonders schöner Ausdruck dieser Denkbewegung findet sich in Fishers Aufsatz "On a Distribution Yielding the Error Functions of Several Well Known Statistics“ aus dem Jahr 1924 [Fisher 1924]. Dort stellte er Karl Pearsons Chi-Quadrat-Verteilung und die Studentsche t-Verteilung in denselben wahrscheinlichkeitstheoretischen Zusammenhang wie die Normalverteilung und jene z-Verteilung, aus der später die moderne F-Verteilung hervorging. Was für viele Anwender heute wie eine Selbstverständlichkeit wirkt, war damals eine tiefgreifende Neuorganisation des statistischen Denkens.

Fisher zeigte damit, dass viele der bekannten Test- und Schätzprobleme nicht als lose Sammlung einzelner Tricks verstanden werden müssen, sondern als zusammenhängendes System von Verteilungen, Transformationen und Inferenzregeln. Diese Vereinheitlichung war weit mehr als mathematische Eleganz. Sie schuf eine mathematische Grammatik, in der Forscher über Streuung, Anpassung, Signifikanz und Modellvergleich mit größerer Klarheit sprechen konnten.

Gerade an diesem Punkt wird auch deutlich, warum Fisher so oft missverstanden wird. Er war nicht bloß ein Mann des p-Werts oder der Teststatistik. Er war ein Architekt eines kohärenten Wahrscheinlichkeitsdenkens, in dem Modell, Daten, Test und Schätzproblem wechselseitig zusammengehören. Seine Verteilungslehre war kein Ornament, sondern das Gerüst, auf dem moderne angewandte Statistik lange Zeit ruhte.

Rothamsted: Wo Statistik operativ wurde

Berühmt wurde Fisher nicht zuletzt durch die Rothamsted Experimental Station, der landwirtschaftlichen Versuchsstation, an der er ab dem Jahr 1919 arbeitete. Dort traf seine Theorie auf eine Wirklichkeit, die sich nicht um ästhetische Formeln scherte: Felder unterschieden sich im Bodenqualität, Wettereffekte überlagerten Düngeversuche, Messungen waren fehlerhaft, biologische Materialien streuten. Gerade unter solchen Bedingungen entstand Fishers Lehre von Randomisierung, Wiederholung und Blockbildung. Er erkannte, dass Experimente Informationen nicht einfach enthalten, sondern erst durch eine kluge Anordnung freisetzen.

Das klingt heute selbstverständlich, war es aber keineswegs. Vor Fisher wurden Experimente oft so behandelt, als ließe sich ihr Ergebnis im Nachhinein statistisch "retten“. Fisher drehte die Richtung um. Nicht die Auswertung heilt das schlechte Design, sondern das Design bestimmt, welche Auswertung überhaupt Sinn ergibt. Damit schuf er eine Logik, die weit über die Landwirtschaft hinausreicht – in Medizin, Industrie, Psychologie, Biologie und eben auch ins heutige Risikomanagement.

Warum gute Modelle schlechte Daten nicht retten

Man kann diesen Gedanken an einem Beispiel aus der Praxis verdeutlichen. Ein Unternehmen möchte das Risiko von Lieferantenausfällen modellieren. Es sammelt historische Vorfälle, schätzt Wahrscheinlichkeiten und/oder Häufigkeiten, baut Regressionsmodelle, erzeugt Verlustszenarien und leitet Frühwarnindikatoren ab. Auf dem Papier sieht alles solide aus. Doch was, wenn im Datensatz nur jene Ausfälle erscheinen, die formell gemeldet wurden, während informell gelöste Beinahe-Ausfälle fehlen? Was, wenn Klassifikationen über die Jahre verändert wurden? Was, wenn Länderrisiken, Zweitrundeneffekte oder politische Eskalationspfade in der Historie gar nicht sichtbar sind? Dann rechnet das Modell vielleicht präzise, aber basierend auf einer unsoliden Datengrundlage.

Genau hier hätte Fisher angesetzt. Er hätte nicht zuerst nach dem Rechenverfahren gefragt, sondern nach der Konstruktion der Evidenz. Wie wurden die Fälle definiert? Welche Einheiten sind überhaupt vergleichbar? Welche Störfaktoren verzerren den Befund? Welche Auswahlmechanismen bestimmen, was im Datensatz erscheint und was unsichtbar bleibt? Ein Risikomodell, das diese Vorfragen ignoriert, gewinnt durch mathematische Raffinesse nicht an Wahrheit. Es gewinnt nur an Scheinpräzision.

Das ist eine unbequeme Einsicht, weil sie den Trost technischer Komplexität zerstört. Wer genügend Variablen, genügend Rechenleistung und genügend Visualisierung aufbietet, möchte gern glauben, dem Risiko intellektuell Herr geworden zu sein. Fisher erinnert daran, dass die Qualität der Entscheidung lange vor der Formel beginnt. Sie beginnt in der Definition des Problems, in der Güte der Beobachtung, in der Repräsentativität der Daten und in der Kontrolle jener Einflüsse, die das Bild unbemerkt verzerren.

Fisher im Risikomanagement

Gerade deshalb ist Fisher für das Risikomanagement so modern. In vielen Organisationen werden Risiken noch immer in einer Weise quantifiziert, die methodisch imponiert, aber empirisch fragil bleibt. Operationelle Verluste werden unterschiedlich klassifiziert, Beinaheverluste ("Near Misses“) nicht einheitlich erfasst, Projektrisiken bei Kalkulationen unter politischem Druck geglättet, Cybervorfälle nur teilweise gemeldet, historische Zeitreihen mit Experten-basierten Szenarioeinschätzungen vermischt, ohne die Unterschiede der Erkenntnislage sauber auszuweisen. Das Ergebnis sind Kennzahlen, die formal korrekt aussehen und dennoch analytisch schwach sein können.

Fishers Denken hilft hier in zweifacher Hinsicht. Erstens erinnert es daran, dass Datenqualität kein nachgelagertes Hygieneproblem ist, sondern der Kern jeder Inferenz [vgl. Romeike/Wieczorek 2026]. Zweitens zeigt es, dass Modellwahl, Testlogik und Entscheidungsregel nur dann belastbar sind, wenn die empirische Konstruktion des Problems transparent bleibt. Ein Value-at-Risk (VaR) oder Expected Shortfall (ES), eine Verlustverteilung, ein Stresstest oder ein Scoring-Modell ist nicht einfach deshalb gut, weil es mathematisch anspruchsvoll ist. Es ist gut, wenn es auf Daten beruht, die unter kontrollierten, nachvollziehbaren und inhaltlich sinnvollen Bedingungen gewonnen wurden.

Gerade in diesem Sinn kann man Fishers Werk als frühe Schule methodischer Demut lesen. Modelle sind notwendig. Aber sie dürfen nie darüber hinwegtäuschen, dass jede Zahl eine Entstehungsgeschichte hat – und dass diese Geschichte oft wichtiger ist als die dritte Nachkommastelle.

Eine streitbare Persönlichkeit – und ihre bleibende Lehre

Fisher war nicht nur wissenschaftlich produktiv, sondern auch streitbar. Seine Auseinandersetzungen mit Zeitgenossen, seine scharfen Urteile und seine intellektuelle Unnachgiebigkeit gehörten zu seinem Stil. Das machte ihn nicht immer angenehm, aber oft außerordentlich wirksam. Er wollte Statistik nicht als Konvention, sondern als Disziplin verstanden wissen. In gewisser Weise war er ein Purist der Evidenz.

Vielleicht erklärt das auch, warum sein Werk noch immer so lebendig ist. Es fordert nicht nur technische Beherrschung, sondern eine bestimmte Haltung: Misstrauen gegenüber bequemer Gewissheit, Präzision in der Beobachtung, Klarheit in den Annahmen und methodische Strenge in der Konstruktion von Daten. Wer diese Haltung ernst nimmt, erkennt rasch, dass Fishers wichtigste Botschaft nicht im F-Test, nicht in der Likelihood und nicht in irgendeiner einzelnen Formel aufgeht. Sie lautet vielmehr: Man kann aus Daten nur dann vernünftig schließen, wenn man den Weg zu diesen Daten ebenso ernst nimmt wie ihre mathematische Behandlung.

Fazit: Der Weg zurück zur Tasse Tee

Am Ende führt der Weg zurück zur Tasse Tee. Die Szene ist deshalb so einprägsam, weil sie in Miniatur zeigt, worum es Fisher immer ging. Eine Behauptung ist leicht aufgestellt, ein Modell schnell gerechnet, eine Kennzahl rasch produziert. Aber ob daraus Wissen wird, entscheidet sich früher: in der Anordnung des Versuchs, in der Auswahl des Materials, in der Klarheit der Vergleichslogik und in der Ehrlichkeit gegenüber dem eigenen Nichtwissen.

Ronald A. Fisher hat der Statistik eine neue Härte gegeben. Nicht die Härte des Zynismus, sondern die Härte methodischer Disziplin. Wer Risiken verstehen will, braucht gute Modelle. Aber gute Modelle allein genügen nicht. Sie können nur dann tragen, wenn die Daten, auf denen sie ruhen, mit derselben Sorgfalt gebaut wurden, mit der sie später analysiert werden. Darin liegt Fishers bleibende Aktualität – in der nüchternen, bisweilen unbequemen Einsicht, dass wissenschaftliche Präzision nicht mit der Formel beginnt, sondern lange vorher.

Quellenverzeichnis sowie weiterführende Literaturhinweise

Box, Joan Fisher (1978): R. A. Fisher: The Life of a Scientist, Wiley, New York 1978.
Dawkins, Richard (1995): River out of Eden: A Darwinian View of Life, Weidenfeld & Nicolson, London 1995.
Fisher, Ronald A. (1915): Frequency Distribution of the Values of the Correlation Coefficient in Samples from an Indefinitely Large Population. In: Biometrika, 10(4), S. 507-521.
Fisher, Ronald A. (1918): The Correlation Between Relatives on the Supposition of Mendelian Inheritance. In: Transactions of the Royal Society of Edinburgh, 52, S. 399-433.
Fisher, Ronald A. (1921): On the Probable Error of a Coefficient of Correlation Deduced from a Small Sample. In: Metron, 1, S. 3–32.
Fisher, Ronald A. (1922): On the Mathematical Foundations of Theoretical Statistics. In: Philosophical Transactions of the Royal Society A, 222, S. 309–368.
Fisher, Ronald A. (1924): On a Distribution Yielding the Error Functions of Several Well Known Statistics. In: Proceedings of the International Congress of Mathematics, Toronto, 2, S. 805–813.
Fisher, Ronald A. (1925): Theory of Statistical Estimation. In: Mathematical Proceedings of the Cambridge Philosophical Society, 22(5), S. 700–725.
Fisher, Ronald A. (1956): Statistical Methods and Scientific Inference, Oliver and Boyd, Edinburgh 1956.
Hald, Anders (1998): A History of Mathematical Statistics from 1750 to 1930, Wiley, New York 1998.
Hald, Anders (2007): A History of Parametric Statistical Inference from Bernoulli to Fisher, 1713–1935, Springer, New York 2007.
Romeike, Frank/Wieczorek, Gabriele (2026): Data Analytics im Risikomanagement – Descriptive Analytics – Diagnostic Analytics – Predictive Analytics, Springer Verlag, Wiesbaden 2026.

[ Bildquelle Titelbild: Generiert mit AI ]