Die Evolution des Risikomanagements von STS-51-L bis Artemis II

Zwischen O-Ring und Orion


Zwischen O-Ring und Orion: Die Evolution des Risikomanagements von STS-51-L bis Artemis II Kolumne

Die Challenger-Katastrophe vom 28. Januar 1986 markiert einen Wendepunkt, weil sie nicht nur einen technischen Konstruktionsfehler offenlegte, sondern eine tiefe organisationsinterne Spaltung im Umgang mit Unsicherheit bei der NASA. Im Zentrum stand die Frage, wie sicher das Space Shuttle tatsächlich war – und wer darüber mit welcher Autorität urteilen durfte. Der US-amerikanische Physiker und Nobelpreisträger Richard Feynman hielt in seinem berühmten Anhang zum Rogers-Bericht fest, dass die Schätzungen zur Wahrscheinlichkeit eines Totalverlusts mit Besatzung zwischen etwa 1:100 und 1:100.000 schwankten; die höheren Risikobewertungen stammten aus den Daten und Fakten der arbeitenden Ingenieure, die extrem niedrigen aus dem Wunschdenken des Managements [Feynman 1986]. Bereits dieser Befund ist aus Sicht des Risikomanagements vernichtend: Eine Organisation mit so großen Differenzen in ihrer Risikobewertung steuert nicht ein gemeinsames System, sondern mehrere konkurrierende Wirklichkeiten.

Feynmans Einwand war methodisch ebenso scharf wie faktenbasiert. Eine behauptete Verlustwahrscheinlichkeit von 1:100.000 ist nicht nur kommunikativ eindrucksvoll, sondern statistisch leer, wenn die empirische Basis aus wenigen Dutzend Shuttle-Flügen besteht. Er spottete sinngemäß, eine derart niedrige Ausfallquote würde bedeuten, man könne 300 Jahre lang täglich ein Shuttle starten und nur einen Totalverlust erwarten [Feynman 1986]. Diese Aussage lässt sich unmittelbar quantifizieren: 300 Jahre × 365 Starts pro Jahr ergeben 109.500 Starts.

Eine einfache statistische Plausibilitätsprüfung zeigt die Problematik dieser Aussage deutlich: Die vom NASA-Management kommunizierte Ausfallwahrscheinlichkeit von 1:100.000 entspricht einer Einzelereigniswahrscheinlichkeit von = 0,00001.

Die Wahrscheinlichkeit, dass bei nunabhängigen Flügen kein Totalverlust auftritt, beträgt: P("kein Verlust") = (1-p)n. Setzt man n = 1.000 (eine für Raumfahrtprogramme bereits sehr hohe Zahl), ergibt sich: (1 - 0,00001)1000 ≈ 0,99.

Das bedeutet: Selbst nach 1.000 Flügen wäre die Wahrscheinlichkeit eines Totalverlusts statistisch kaum sichtbar. Erst bei etwa 100.000 Flügen läge der Erwartungswert bei einem Verlust (Erwartungswert E = np = 1). Eine empirische Validierung dieser Größenordnung ist offensichtlich unmöglich – bis zur Mission STS-51-L waren überhaupt erst 24 Space-Shuttle-Flüge durchgeführt worden (inklusive des verhängnisvollen Starts der STS-51-L), während das gesamte Programm später lediglich 135 Missionen erreichte.

Zudem zeigte sich bereits in dieser frühen Phase, dass ein erheblicher Anteil der Flüge von technischen Auffälligkeiten, Anomalien und Risikoeintritten begleitet war – etwa Erosion und Blow-by-Effekte an den O-Ringen der Feststoffraketen, die bei mehreren Missionen dokumentiert wurden. Die empirische Datenbasis war damit nicht nur extrem klein, sondern zugleich von systematischen Warnsignalen geprägt, die auf eine deutlich höhere Ausfallwahrscheinlichkeit hindeuteten als vom Management angenommen.

Demgegenüber standen die Einschätzungen der Ingenieure, die von Fehlerraten im Bereich von 1:50 bis 1:200 ausgingen (p = 0,02 bis 0,005). Bei = 0,01 (1:100) ergibt sich bereits nach 100 Flügen: P("mindestens ein Verlust") = 1 - (1 - 0,01)100 ≈ 63%.

Diese Diskrepanz verdeutlicht nicht nur unterschiedliche Risikowahrnehmungen, sondern fundamental divergierende statistische Modelle. Während das Management implizit von extrem niedrigen, nahezu vernachlässigbaren Eintrittswahrscheinlichkeiten ausging, basierten die Ingenieursschätzungen auf Daten und beobachteten und dokumentierten Schäden (z. B. O-Ring-Erosion) und realen Degradationsmechanismen.

Methodisch ist diese Fehlentwicklung eng mit der damaligen Risikobewertungssystematik verknüpft. Die NASA nutzte in wesentlichen Bereichen eine qualitativ geprägte Failure Mode and Effects Analysis (FMEA), ergänzt durch kritikalitätsorientierte Klassifizierungen (FMECA). Diese Verfahren identifizieren systematisch potenzielle Fehlerarten und deren Auswirkungen, liefern jedoch typischerweise keine robuste quantitative Gesamt-Ausfallwahrscheinlichkeit für komplexe, stark gekoppelte Systeme.

Qualitative Bewertungen suggerieren nicht selten Scheinsicherheit

Gerade bei hochintegrierten Systemen wie dem Space Shuttle mit zahlreichen Interdependenzen, Common-Cause-Failure-Risiken und nichtlinearen Effekten stößt eine rein qualitative oder semi-quantitative Failure Mode and Effects Analysis sehr schnell an ihre Grenzen.

Hinzu kommt ein strukturelles Problem: Qualitative Bewertungsansätze eröffnen einen erheblichen Interpretationsspielraum und sind damit anfällig für bewusste oder unbewusste Verzerrungen. Risiken können durch Klassifizierungen ("acceptable", "low risk") relativiert oder schrittweise normalisiert werden, ohne dass eine belastbare quantitative Fundierung erfolgt. Dies schafft ein Einfallstor für manipulative Bewertungen – insbesondere in Organisationen, die unter politischem, öffentlichem oder budgetärem Druck stehen.

Im Fall der NASA zeigte sich eine solche politische Dimension deutlich: Starttermine, Budgetrestriktionen und institutionelle Erwartungshaltungen erzeugten Anreize, Risiken eher herunterzuspielen als offen zu eskalieren. Eine transparente Kommunikation kritischer Unsicherheiten hätte potenziell zu Verzögerungen, Reputationsverlusten oder politischen Turbulenzen geführt. Unmittelbar vor dem Start der STS-51-L am 28. Januar 1986 stand ein stark öffentlichkeitswirksamer Termin bevor: Die Ansprache zur Lage der Nation des damaligen US-Präsidenten Ronald Reagan war für denselben Abend angesetzt. Der Flug hatte daher eine erhebliche symbolische und politische Bedeutung. Insbesondere die Teilnahme der Lehrerin Christa McAuliffe im Rahmen des "Teacher in Space"-Programms sollte medial hervorgehoben werden. Es war geplant, dass sie aus dem All unterrichtet und damit ein starkes Signal für Fortschritt, Bildung und technologische Führungsfähigkeit setzt. 

In einem solchen Umfeld kann eine primär qualitative Methodik dazu beitragen, dass Risiken nicht nur unterschätzt, sondern systematisch "wegdefiniert" werden – ein Mechanismus, der im Nachhinein als zentraler Faktor der Fehlentscheidungen identifiziert wurde. Die von der Untersuchungskommission geforderte probabilistische Risikoanalyse (PRA) hätte hingegen explizit folgende Aspekte modelliert:

  • Systeminteraktionen und Abhängigkeiten; 
  • seltene, aber systemkritische Extremereignisse;
  • gemeinsame Ausfallursachen (Common Cause Failures); 
  • Einfluss von Umweltbedingungen (z. B. Temperatur). 

Die zentrale Kritik lautet daher: Die NASA kombinierte eine primär qualitative Methodik mit daraus abgeleiteten scheinbar hochpräzisen numerischen Aussagen. Diese Zahlen waren jedoch nicht das Ergebnis belastbarer statistischer Schätzverfahren oder ausreichender empirischer Daten, sondern eher Ausdruck politischer Zielsetzungen.

Risikomanagement wird hier zur Scheinpräzision: Zahlen suggerieren Beherrschbarkeit, obwohl die Datenlage sie gar nicht trägt – ein klassischer Fall von modellinduzierter Selbsttäuschung.

Hinzu kam die Fehlinterpretation von Erfahrungswissen. Für ausgereifte Feststoffraketen hielt Feynman – gestützt auf vorliegende Erfahrungswerte – Größenordnungen wie 1:50 für wesentlich realistischer als die vom Management vertretenen Fantasiewerte [Feynman 1986]. Auch beim bordeigenen Haupttriebwerk lagen die Einschätzungen weit auseinander. Feynman dokumentierte, dass Rocketdyne-Ingenieure, Marshall-Ingenieure, unabhängige Berater und NASA-Manager zu stark divergierenden Versagenswahrscheinlichkeiten kamen; damit wurde sichtbar, dass die NASA zwar über hochentwickelte Technik verfügte, aber kein konsistentes, belastbares organisationsweites Modell ihrer Restunsicherheit hatte [Feynman 1986].

Risikovernebelung im Entscheidungsprozess: Der Vorabend von STS-51-L

Der konkrete Entscheidungsprozess am Vorabend von STS-51-L zeigt, wie aus technischer Unsicherheit ein Managementversagen wurde. In der berüchtigten Telekonferenz vom 27. Januar 1986 trugen Morton-Thiokol-Ingenieure die temperaturbezogenen Bedenken gegen einen Start bei extremer Kälte vor. Die zentrale Empfehlung lautete, nicht unterhalb von 53 °F beziehungsweise rund 11,7 °C O-Ring-Temperatur zu starten; Grundlage war insbesondere die Erfahrung aus STS-51-C vom Januar 1985, bei der es bei etwa dieser Temperatur zum schwersten Blow-by gekommen war [Presidential Commission 1986, Vol. I].

Bei den O-Ringen handelte es sich um elastomere Dichtungselemente in den Feldverbindungen (Field Joints) der Feststoffraketenbooster (Solid Rocket Boosters, SRB). Diese Dichtungen sollten beim Start die Hochdruckgase im Inneren der Booster zuverlässig abdichten. Das Design sah zwei hintereinanderliegende O-Ringe (Primär- und Sekundärdichtung) vor, die durch den Innendruck gegen die Dichtflächen gepresst werden sollten. Allerdings war die Funktionsfähigkeit dieser Dichtungen stark temperaturabhängig: Bei niedrigen Temperaturen verlor das Material an Elastizität, wodurch die notwendige schnelle Anpassung an die sich beim Start minimal öffnenden Spaltmaße ("joint rotation") nicht mehr gewährleistet war. In der Folge konnte es zu sogenanntem "Blow-by" kommen – dem Durchströmen heißer Verbrennungsgase an der Primärdichtung vorbei, was im Extremfall auch die Sekundärdichtung kompromittierte.

Bereits bei mehreren vorangegangenen Missionen waren entsprechende Erosions- und Blow-by-Schäden dokumentiert worden, ohne dass das grundlegende Konstruktionsproblem nachhaltig behoben wurde. Die Rogers Commission stellte später klar fest, dass die Entscheidung zum Start fehlerhaft war, weil die Entscheidungsträger weder die jüngere Problemgeschichte der O-Ringe noch die anfängliche schriftliche Empfehlung des Auftragnehmers gegen einen Kaltstart angemessen berücksichtigten [Presidential Commission 1986, Vol. I].

Besonders brisant ist, was dieser Vorgang über die Kommunikationskultur verrät. Während Thiokol-Ingenieure wie Roger M. Boisjoly und Arnold R. Thompson ihre Einwände aufrechterhielten, wurde die Diskussion in einen Managementmodus überführt. In der internen Thiokol-Beratung fiel der berüchtigte Hinweis, Robert Lund solle den "Ingenieurshut" absetzen und den "Managementhut" aufsetzen; Jerald Mason räumte später selbst ein, dass dies als Druck auf einen Untergebenen verstanden werden konnte [Presidential Commission 1986, Vol. IV]. Dabei war Lund als technischer Leiter (Vice President of Engineering) ursprünglich zentral in die Formulierung der ingenieurgetriebenen Empfehlung eingebunden, den Start aufgrund der unzureichend verstandenen Risiken bei niedrigen Temperaturen nicht freizugeben. Mason hingegen agierte als oberster Unternehmensverantwortlicher in einem Spannungsfeld zwischen technischer Risikobewertung und unternehmerischen sowie politischen Interessen – insbesondere vor dem Hintergrund laufender Vertragsverhandlungen mit der NASA.

Die Intervention verschob die Entscheidungslogik sichtbar: von einer technisch begründeten Risikobewertung hin zu einer managementgetriebenen Abwägung unter externem Druck. Hier zeigt sich ein bis heute klassischer Fehler in Hochrisikoorganisationen: Dissent wird nicht in Entscheidungssicherheit übersetzt, sondern sozial neutralisiert.

Auch die O-Ring-Problematik selbst war kein singuläres Überraschungsereignis. Feynman beschrieb Blow-by und Erosion ausdrücklich nicht als Beweis für Robustheit, sondern als Warnsignale. Dass ein System mehrfach mit Schadenspuren geflogen war, durfte gerade nicht als Nachweis seiner Sicherheit gelten. Genau das aber geschah: Aus einer nicht verstandenen Abweichung wurde schrittweise ein "akzeptables Flugrisiko" [Feynman 1986]. Diese Logik – später oft als Normalisierung von Devianz beschrieben – ist risikotheoretisch fatal (im Sinne "wird schon irgendwie gutgehen"). Sie verwandelt fehlende Katastrophen in vermeintliche Evidenz gegen das Risiko, obwohl tatsächlich nur das Ausbleiben des Schadens beobachtet wurde, nicht das Verschwinden der Ursache.

Die vier Kernlehren aus Challenger

Die Lehren aus der Challenger-Katastrophe reichen deshalb weit über den Konstruktionsfehler am Feststoffbooster hinaus.

Erstens bestätigte die Untersuchung, dass der eigentliche Nutzen probabilistischer Risikoanalyse nicht in der Produktion eleganter Ausfallzahlen liegt, sondern im Verstehen des Systems, seiner Kopplungen, seiner Verwundbarkeiten und seiner Common-Cause-Fehler. Diese Stoßrichtung wurde auch vom National Research Council nach Challenger betont: Stochastische bzw. probabilistische Ansätze sollten so früh wie möglich auf das Shuttle-Risikomanagement angewendet werden, gestützt auf systematisch ausgebaute Datenbanken zu Ausfällen, Anomalien sowie Flug- und Testergebnissen; zugleich seien PRA-Verfahren kein Ersatz für gute Ingenieurarbeit und Qualitätskontrolle [National Research Council 1988].

Zweitens machte Challenger deutlich, dass kritische Komponenten nicht nur im nominellen, sondern im gesamten relevanten Betriebs- und Umweltbereich verstanden und verifiziert werden müssen. Der O-Ring war kein im Alltag ausreichend robuster Detaillösungsbaustein, sondern ein Design, das gegenüber Temperatur, zeitlicher Dichtwirkung und Toleranzketten "unzulässig empfindlich" war [Presidential Commission 1986]. Risikomanagement beginnt damit bereits im Entwurf: Systeme an der Grenze des Machbaren benötigen ein Design, das auch im ungünstigen Randbereich noch beherrschbar ist.

Drittens zeigte die Kommission, wie gefährlich es ist, bekannte Schwächen nicht zu beseitigen, sondern administrativ zu verwalten. Richard Feynman kritisierte genau diese schleichende Absenkung der Entscheidungsmaßstäbe: Was gestern nur mit Bauchschmerzen akzeptiert wurde, wird morgen zum Referenzfall für den nächsten Grenzübertritt [Feynman 1986].

Diese Logik zeigte sich auch im Umgang des Managements mit Prüf- und Verifikationsprozessen. Im Bericht der Rogers-Kommission wird dokumentiert, dass wiederholte erfolgreiche Tests – insbesondere in den Bereichen Software, Avionik und Missionsvorbereitung – zunehmend als Beleg für inhärente Zuverlässigkeit interpretiert wurden. In der Folge wurden bestimmte Prüfungen als redundant betrachtet oder in ihrer Bedeutung relativiert [Presidential Commission on the Space Shuttle Challenger Accident 1986, Vol. I, Chap. V].

Feynman selbst kritisierte diese Denkweise explizit: Die Annahme extrem niedriger Ausfallwahrscheinlichkeiten sei nicht das Ergebnis belastbarer Tests, sondern eher Ausdruck eines "fantastically unrealistic" Zuverlässigkeitsbildes [Feynman 1986]. Entscheidend ist hierbei, dass erfolgreiche Tests keine Aussage über seltene Fehlerzustände erlauben, insbesondere dann nicht, wenn die zugrunde liegende Stichprobe klein ist und kritische Randbedingungen – wie etwa extreme Temperaturen oder kombinierte Systembelastungen – nicht vollständig abgebildet werden.

Auch spätere Analysen, etwa des Columbia Accident Investigation Board, bestätigten diesen Mechanismus als strukturelles Problem: Wiederholt erfolgreiche Abläufe führten zu einer "Normalization of Deviance", bei der Abweichungen und potenzielle Risiken schrittweise als akzeptabel eingestuft wurden [CAIB Report 2003, Vol. I, Chap. 6]. Vor diesem Hintergrund wird deutlich: Die Reduktion oder Abwertung routinemäßiger Tests war kein isoliertes technisches Detail, sondern Teil eines systemischen Musters. Wer wiederholten Erfolg als Beweis für Sicherheit interpretiert und daraufhin Kontrollmechanismen zurückfährt, ersetzt empirische Prüfung durch implizite Annahmen – und betreibt damit keine Risikoübernahme, sondern Risikovernebelung."

Viertens beanstandete die Kommission die schwache Stellung unabhängiger Safety-Funktionen. Auf dem Mission Management Team, das am 28. Januar 1986 zentrale Entscheidungen traf, saß kein Vertreter der Sicherheit; zugleich hatte das Sicherheitsprogramm gegenüber früheren NASA-Epochen deutlich an Wirksamkeit verloren [Presidential Commission 1986, Vol. I]. Aus moderner Governance-Sicht ist dies eine Kernlektion: Eine unabhängige Second-Line-Funktion für Sicherheit und Risiko muss in den Gate-Reviews präsent sein, eigenes Eskalationsrecht besitzen und im Zweifel über formale Stop-Authority verfügen.

Columbia (STS-107): Technikfehler und fehlende Risikokultur 

Die Columbia-Katastrophe vom 1. Februar 2003 bewies, dass die tieferen Challenger-Lektionen in der NASA-Welt noch nicht verinnerlicht waren. Technisch war die Ursache vergleichsweise klar: 81,7 Sekunden nach dem Start löste sich Schaumstoff vom "bipod ramp" (Schaumstoffverkleidung der Bipod-Aufhängung” des Außentanks, traf die linke Tragflächenvorderkante im Bereich des RCC-Panels 8 und verursachte einen Defekt im Thermalschutzsystem. Beim Wiedereintritt drang supererhitzte Luft ein, zerstörte die Struktur der linken Tragfläche und führte zum Verlust des Orbiters; für die Besatzung gab es unter den gegebenen Konstruktionsbedingungen keine Überlebenschance [CAIB 2003].

Entscheidend ist jedoch, dass der Columbia Accident Investigation Board seinen Untersuchungsauftrag rasch auf historische, kulturelle und organisatorische Ursachen ausweitete. Der Bericht hält ausdrücklich fest, dass diese Ursachen ebenso gewichtet werden müssen wie die physische Ursache selbst [CAIB 2003]. Als organisatorische Faktoren benennt der Bericht unter anderem langjährige Ressourcenengpässe, wechselnde Prioritäten, Termindruck, die Fehlcharakterisierung des Shuttle als "operational" statt "developmental", die Orientierung an vergangenen Erfolgen statt an belastbarer technischer Klärung, Kommunikationsbarrieren, unterdrückte fachliche Differenzen, fehlende integrierte Steuerung und informelle Entscheidungswege außerhalb der formalen Regeln [CAIB 2003].

Damit wiederholte sich das Challenger-Muster in modernisierter Form. Der Schaumstoffverlust war nicht völlig neu; neu war, dass eine bekannte Anomalie organisatorisch zu einem als beherrschbar betrachteten Routineereignis herabgestuft worden war. Columbia lehrt aus Sicht des Risikomanagements daher mindestens vier Dinge. Erstens müssen wiederkehrende Schäden am Eintrittspunkt bekämpft werden; man darf Symptome nicht über Jahre als "turnaround issue" behandeln, wenn sie in Wahrheit auf ein fundamentales Sicherheitsproblem deuten. Zweitens braucht ein Hochrisikoprogramm unabhängige technische Urteilsinstanzen mit echter Autorität über Spezifikationen, Anforderungen und Abweichungsfreigaben. Drittens muss die Organisation in der Lage sein, dissentierende technische Stimmen nicht nur anzuhören, sondern in Entscheidungsprozesse mit Wirkung zu überführen. Viertens dürfen Programme mit inhärent hohem Entwicklungsanteil nicht kommunikativ zu Routineoperationen umdefiniert werden. Gerade diese rhetorische Routineillusion senkt die Aufmerksamkeit für Randbedingungen, Abweichungen und Restunsicherheit.

Technical Authority, Safety Assurance und institutionelles Lernen

Nach Columbia reagierte die NASA institutionell deutlich entschlossener als nach Challenger. Der CAIB forderte eine robuste unabhängige "Program Technical Authority", eine unabhängige Safety-Assurance-Organisation mit Linienautorität über alle Ebenen der Sicherheitsaufsicht sowie eine Kultur, die den Eigenschaften einer lernenden Organisation entspricht [CAIB 2003]. In den Folgejahren wurden diese Anforderungen organisatorisch verdichtet. Die heutige NASA beschreibt die Technical Authority ausdrücklich als Teil eines Governance-Systems von "checks and balances", in dem programmatische und technische Autorität getrennt werden, damit Entscheidungen nicht isoliert aus einer Perspektive getroffen werden. Ergänzend betont die Office of Safety and Mission Assurance, dass sie agenturweite Standards setzt, unabhängige Assessments durchführt und Methoden zur Risikoidentifikation, -bewertung sowie zur Risikoakzeptanz verbessert.

Auch die institutionelle Lernarchitektur wurde verbreitert. Die "NASA Engineering and Safety Center" wurde nach Columbia als programmunabhängige technische Ressource aufgebaut, um schwierige technische Fragen unabhängig zu bewerten und Entscheidungen stärker risikoinformiert zu machen. Hinzu kommen das "NASA Safety Reporting System", das nach Challenger als anonymer, freiwilliger Meldekanal geschaffen wurde, sowie die seit den 1990er-Jahren verstärkte unabhängige Verifikation und Validierung für missionskritische Software. 

Parallel wurde die probabilistische Risikoanalyse (PRA) formalisiert und systematisch weiterentwickelt. Während frühere Regelwerke wie die NASA-Prozedur NPR 8705.5A grundlegende Anforderungen für PRA definierten, ist diese Prozedur inzwischen ausgelaufen (2023) und wurde in ein integriertes Regelwerk überführt.

Die Anforderungen an Risikomanagement und PRA sind heute insbesondere in der übergeordneten Richtlinie NASA NPR 8000.4C (Agency Risk Management Procedural Requirements) verankert, die verbindliche Anforderungen für das organisationsweite Risikomanagement sowie für Risk-Informed Decision Making (RIDM) und Continuous Risk Management (CRM) definiert. Ergänzend werden technische Sicherheits- und Risikoanforderungen in Standards wie NASA-STD-8719.24 (Payload Safety Requirements) konkretisiert, die als verpflichtender technischer Referenzrahmen für Sicherheitsanalysen und -bewertungen in Raumfahrtprojekten dienen und eng mit den Safety-&-Mission-Assurance-Prozessen verzahnt sind.
Diese Dokumente zeigen eine klare Weiterentwicklung gegenüber früheren PRA-Ansätzen: Risikobewertung erfolgt nicht mehr isoliert, sondern eingebettet in ein integriertes, organisationsweites Risikomanagementsystem, das technische, missionsbezogene sowie Sicherheits- und Gesundheitsrisiken systematisch adressiert und von Kosten- und Terminrisiken abgrenzt.

Damit wird ein zentraler Bruch mit der Praxis zur Zeit von Challenger sichtbar: Quantitative Methoden dienen heute nicht mehr der nachträglichen Legitimation von Entscheidungen, sondern der transparenten Analyse von Unsicherheit, der Modellierung komplexer Systemabhängigkeiten und der fundierten Unterstützung kritischer Managemententscheidungen.

Das bedeutet nicht, dass die NASA seit dem Jahr 2003 risikofrei geworden wäre. Aber der Reifegrad der Governance und des Risikomanagements ist sichtbar gestiegen. Die Organisation verfügt heute über mehr unabhängige Prüfpunkte, über formalisierte Eskalationswege, über explizitere Anforderungen an die Risikoargumentation und über eine robustere institutionelle Erinnerung an frühere Fehlentscheidungen.

STS-135 als Zäsur: Das Ende des Shuttle-Programms

Mit STS-135 endete am 21. Juli 2011 die Shuttle-Ära; Atlantis landete nach der letzten Shuttle-Mission in Florida, und die lange Phase einer zugleich technologisch faszinierenden, organisatorisch aber hoch beanspruchenden Architektur war abgeschlossen [NASA 2011]. Aus Sicht des Risikomanagements ist das Ende des Programms mehr als ein historischer Schlusspunkt. Das Shuttle war nie ein "Airliner in den Orbit", sondern ein komplexes, teilweise wiederverwendbares Grenzsystem mit hohem Integrationsgrad, schmalen Margen und stark gekoppelten Subsystemen. Genau solche Systeme erzeugen die Versuchung, aus gelungenen Missionen vorschnell auf Beherrschbarkeit zu schließen. STS-135 markierte deshalb auch den Übergang zu einer Missionsarchitektur, in der die NASA stärker auf stufenweises Testen, sauberere Autoritätsstrukturen und explizitere Human-Rating-Logiken setzte.

Dieser Übergang ist für Artemis zentral. Anders als im späten Shuttle-Betrieb wird der bemannte Flug hier wieder sichtbar als Testflug behandelt – nicht als Routine mit astronautischer Besatzung. Schon diese semantische Veränderung ist relevant: Wer eine Mission als Test benennt, hält Organisationsaufmerksamkeit, Fehlerbewusstsein und Entscheidungsdisziplin länger wach.

Reiferes Risikomanagement bei Artemis I und Artemis II

Artemis I und Artemis II zeigen aus Sicht des Risikomanagements die vielleicht wichtigste Reifung seit STS-51-L: Vor dem bemannten Einsatz wird ein integrierter unbemannter Testflug durchgeführt, und dessen Anomalien werden nicht rhetorisch kleingeredet, sondern als zulassungsrelevante Themen für die Folgemission behandelt. Genau das dokumentiert der Bericht des "NASA Office of Inspector General zur Readiness für Artemis II". Der Auditbericht stellt fest, dass Artemis I kritische Probleme offenlegte, die vor einem bemannten Flug adressiert werden mussten – insbesondere Anomalien am Orion-Hitzeschild, an den Trennbolzen und in der elektrischen Leistungsverteilung; diese Befunde stellten erhebliche Risiken für die Crew-Sicherheit dar [NASA OIG 2024].

Besonders aufschlussreich ist die Behandlung des Hitzeschilds. Nach Artemis I identifizierte die NASA mehr als 100 Stellen, an denen sich das ablative Material anders abnutzte als erwartet; der OIG-Bericht hielt ausdrücklich fest, dass dieses Verhalten im ungünstigen Fall zum Verlust von Fahrzeug oder Besatzung führen könnte. NASA richtete daraufhin eine Tiger Team-Struktur ein, führte Bodentests durch, prüfte Design- und Trajektorienanpassungen und betonte, dass die Entscheidung über den Pfad zu Artemis II datenbasiert erfolgen müsse – selbst für den Fall, dass keine eindeutige Einzelursache gefunden wird [NASA OIG 2024]. Ein sogenanntes "Tiger Team" bezeichnet dabei eine interdisziplinäre, temporär eingesetzte Expertengruppe, die gezielt zur Analyse kritischer Probleme oder Anomalien zusammengestellt wird. Charakteristisch ist eine hohe fachliche Diversität (z. B. Konstruktion, Materialwissenschaft, Systemintegration, Sicherheit), eine klare Fokussierung auf ein spezifisches Problem sowie ein gewisser Grad an organisatorischer Unabhängigkeit von der Linienstruktur. Ziel ist es, etablierte Denkmuster aufzubrechen, Hypothesen systematisch zu testen und auch unkonventionelle Ursachen oder Wechselwirkungen zu identifizieren. 

Gerade aus Perspektive des Risikomanagements sind solche interdisziplinären Teams von zentraler Bedeutung: Komplexe Risiken entstehen häufig an den Schnittstellen zwischen Disziplinen, wo Wechselwirkungen, Abhängigkeiten und systemische Effekte in isolierten Analysen übersehen werden. Tiger Teams ermöglichen es, unterschiedliche Risikoperspektiven zu integrieren, implizite Annahmen offenzulegen und blinde Flecken in der Bewertung zu reduzieren. Sie stellen damit ein wirksames Instrument dar, um sowohl technische als auch organisationale Risiken ganzheitlich zu erfassen und qualitativ wie quantitativ fundierter zu bewerten.

Das ist eine bemerkenswerte Veränderung gegenüber der Challenger-Mission: Unklare Anomalien werden nicht mehr primär durch narrative Beruhigung kompensiert, sondern durch eine explizite Kombination aus Untersuchung, Modellanpassung, technischer Modifikation und Bewertung der Restunsicherheit.

Ähnliches gilt für die weiteren Artemis-I-Befunde. Bei den Trennbolzen wurden unerwartete Schmelz- und Erosionserscheinungen gefunden; im elektrischen System traten 24 Anomalien der Leistungsverteilung auf, für die zwar softwareseitige und operative Gegenmaßnahmen entwickelt wurden, deren Residualeffekte aber weiterhin sauber bewertet werden mussten [NASA OIG 2024]. Der Bericht verweist zudem auf verbesserungsbedürftige Datengewinnung, Bildgebung und Bergungsverfahren. Aus der Perspektive des Risikomanagements ist das lehrreich: Sicherheit entsteht nicht nur durch robuste Hardware, sondern auch durch diagnostische Qualität, also durch die Fähigkeit, aus Test- und Flugdaten tatsächlich die richtigen Schlüsse zu ziehen.

Eine einzelne erfolgreiche Mission ersetzt kein kontinuierliches Risk Management

Auch die "Aerospace Safety Advisory Panel" bewertete die Artemis-II-Vorbereitung grundsätzlich positiv, verband dies aber mit einer wichtigen Mahnung. Für 2025 bescheinigte das Panel der NASA einen disziplinierten Umgang mit bekannten technischen Risiken im Vorfeld von Artemis II. Zugleich warnte es, Artemis III und spätere Missionen dürften nicht zu viele "firsts" in einem einzigen Flug bündeln; ein solches "stacking of firsts" erhöhe das Missionsrisiko materiell und reduziere die Sicherheitsmarge [ASAP 2025 Annual Report]. Ebenso hob das Panel hervor, dass nicht nur Flughardware, Crew und Mission Control bereit sein müssen, sondern auch das Mission Management Team selbst in seiner Entscheidungsfähigkeit unter hoher technischer Komplexität ausreichend vorbereitet sein muss. Gerade dieser Punkt ist historisch bemerkenswert: Aus Challenger ist gelernt worden, dass Management Readiness selbst eine Sicherheitsvariable ist.

Inzwischen hat Artemis II selbst den ersten bemannten Test bestanden. Nach offiziellen NASA-Angaben startete die Mission am 1. April 2026, dauerte neun Tage, eine Stunde und 32 Minuten und endete mit dem Splashdown am 10. April 2026. Der Mondvorbeiflug wurde erfolgreich absolviert; NASA führt seit der Wasserung zusätzliche Prüfungen, Datensicherungen und Post-Flight-Analysen an der Orion-Kapsel durch [NASA 2026a; NASA 2026b]. Für die Bewertung des Reifegrads ist diese erfolgreiche Mission wichtig – aber nicht hinreichend. Eine einzelne erfolgreiche Mission ersetzt keine systematische Lernschleife. Gerade eine gereifte Hochzuverlässigkeitsorganisation wird den Versuch widerstehen, aus einem guten Flug wieder zu schnell eine allgemeine Sicherheitsaussage abzuleiten.

Wie stark ist der Reifegrad bei der NASA gestiegen?

Vergleicht man STS-51-L mit Artemis II, dann ist die NASA heute in mehreren Dimensionen reifer. Erstens ist die epistemische Ehrlichkeit größer. Wo das Shuttle-Management 1986 mit kaum belastbaren Verlustwahrscheinlichkeiten operierte, wird Risiko heute deutlich stärker als Kombination aus technischer Evidenz, Modellgrenzen, Human-Rating-Anforderungen und Restunsicherheit behandelt. Zweitens ist die Governance differenzierter. Die Trennung von programmatischer und technischer Autorität, unabhängige Safety-Assessments und formalisierte Eskalationswege verringern die Wahrscheinlichkeit, dass Termin-, Budget- oder Prestigedruck technische Bedenken geräuschlos absorbiert.

Drittens hat sich die Testphilosophie verändert. Challenger stand für die Illusion, man bewege sich schon in einem beherrschten, quasi-routinemäßigen Betriebsmodus. Artemis setzt dem eine Testfluglogik entgegen: Artemis I diente nicht der symbolischen Demonstration, sondern dem kontrollierten Aufdecken von Schwachstellen vor dem bemannten Flug. Viertens ist das institutionelle Gedächtnis stärker. NESC, OSMA, NSRS, IV&V und formalisierte PRA-Anforderungen sind im Kern organisatorische Antworten auf die historische Erfahrung, dass technische Exzellenz ohne unabhängige Lern- und Widerspruchsstrukturen nicht genügt.

Dennoch wäre es falsch, aus dieser Reifung eine Vollendungsgeschichte zu machen. Das ASAP mahnt weiterhin vor Termindruck, Governance-Komplexität, Beschaffungsrisiken und dem Zusammenballen zu vieler Erstleistungen in einzelnen Missionen. Mit anderen Worten: Die NASA hat nicht das Risiko überwunden, sondern den Umgang mit ihm professionalisiert.

Fazit: Was andere Branchen von Hochsicherheitsorganisationen lernen können

Andere Branchen können aus diesem Lernweg viel ableiten – gerade solche, die mit stark gekoppelten, schwer testbaren und potenziell katastrophalen Systemen arbeiten, etwa Kerntechnik, Luftfahrt, Chemie, Gesundheitswesen, kritische Infrastrukturen oder Finanzmarktinfrastrukturen [Romeike/Koppe 2021].

Erstens dürfen Organisationen Restunsicherheit nicht mit scheinpräzisen Kennzahlen überdecken. Eine Zahl ist nur dann ein Risikomodell, wenn Daten, Annahmen und Geltungsbereich transparent sind und offengelegt werden. Gerade in komplexen Systemen ist die Quantifizierung von Risiken methodisch anspruchsvoll: Eintrittswahrscheinlichkeiten sind häufig nicht direkt beobachtbar, Abhängigkeiten zwischen Subsystemen schwer zu modellieren und Extremereignisse durch begrenzte Daten kaum statistisch erfassbar. Verfahren wie probabilistische Risikoanalysen (PRA), Monte-Carlo-Simulationen oder Bayes’sche Ansätze können hier wertvolle Beiträge leisten – vorausgesetzt, sie machen Unsicherheiten, Modellannahmen und Datenlücken explizit sichtbar.

Der Challenger-Fall zeigt jedoch, was passiert, wenn diese Anforderungen nicht erfüllt werden: Statt einer belastbaren quantitativen Modellierung wurden implizite, qualitativ geprägte Einschätzungen mit scheinbar exakten Zahlen (z. B. 1:100.000) versehen, ohne dass eine empirische oder modelltheoretische Grundlage existierte. Quantifizierung wurde damit nicht zur Aufklärung von Unsicherheit genutzt, sondern zu ihrer Verschleierung.

Zweitens müssen bekannte Anomalien als Lernsignale behandelt werden; das Ausbleiben des Schadens ist kein Beweis für die Harmlosigkeit der Ursache. Drittens braucht es eine starke, unabhängige Second Line für Sicherheit und Risiko – mit Präsenz in Entscheidungsgremien, Eskalationsrecht und notfalls Stop-Authority. Viertens ist Dissent kein Störgeräusch, sondern ein Sicherheitsmechanismus. Wer abweichende technische Urteile sozial diszipliniert, erhöht nicht die Geschlossenheit, sondern das Blindheitsrisiko. Fünftens müssen Test- und Freigabekonzepte die Randbedingungen, Worst Cases und Wechselwirkungen des Systems adressieren, nicht nur den nominalen Betrieb.

Die vielleicht wichtigste Lehre lautet jedoch: Hochzuverlässigkeit entsteht nicht dadurch, dass Organisationen an ihre Technik glauben, sondern dadurch, dass sie ihrer eigenen Möglichkeit zu irren institutionell misstrauen. Genau darin liegt die bleibende Aktualität von Challenger, Columbia und Artemis. Feynmans Diktum, dass in erfolgreicher Technologie die Realität Vorrang vor Public Relations haben müsse, ist deshalb keine historische Pointe, sondern eine Grundregel jedes ernsthaften Risikomanagements [Feynman 1986].

Quellen- und Literaturverzeichnis

 

[ Bildquelle Titelbild: Generiert mit AI ]
Risk Academy

Die Intensiv-Seminare der RiskAcademy® konzentrieren sich auf Methoden und Instrumente für evolutionäre und revolutionäre Wege im Risikomanagement.

Seminare ansehen
Newsletter

Der Newsletter RiskNEWS informiert über Entwicklungen im Risikomanagement, aktuelle Buchveröffentlichungen sowie Kongresse und Veranstaltungen.

jetzt anmelden
Lösungsanbieter

Sie suchen eine Softwarelösung oder einen Dienstleister rund um die Themen Risikomanagement, GRC, IKS oder ISMS?

Partner finden
Ihre Daten werden selbstverständlich vertraulich behandelt und nicht an Dritte weitergegeben. Weitere Informationen finden Sie in unseren Datenschutzbestimmungen.