Jeder KI-Agent könnte ein Schläfer sein

Eine neue Studie zu Datenvergiftung in großen Sprachmodellen legt nahe, dass bereits eine kleine absolute Zahl manipulierter Dokumente ausreichen kann, um verdeckte Fehlverhalten in Modellen zu verankern. Für Unternehmen, die KI-Agenten produktiv einsetzen, rückt damit vor allem die Integrität der Modell- und Datenlieferkette in den Mittelpunkt.

Das im Oktober 2025 veröffentlichte Paper "Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples" beschreibt einen Befund mit erheblicher Tragweite. In den Experimenten reichten 250 vergiftete Dokumente aus, um Modelle von 600 Millionen bis 13 Milliarden Parametern zu kompromittieren, obwohl die größeren Modelle auf mehr als dem Zwanzigfachen an sauberen Daten trainiert wurden. Der zentrale Punkt dabei: Nicht der prozentuale Anteil manipulierter Daten am Gesamtkorpus war ausschlaggebend, sondern eine nahezu konstante absolute Zahl vergifteter Dokumente. Die Autoren berichten zudem, dass sich derselbe Grundmechanismus auch beim Fine-Tuning zeigte.

Für den Risikokontext großer KI-Systeme ist das relevant, weil damit eine lange naheliegende Annahme schwächer wird: dass wenige schädliche Dokumente in sehr großen sauberen Korpora automatisch an Wirkung verlieren. Wenn eine kleine absolute Zahl an Poison-Samples genügt, wird Datenvergiftung nicht nur zu einem theoretischen Forschungsproblem, sondern zu einem praktischen Thema der Modellintegrität. Anthropic beschreibt die Studie entsprechend als Hinweis darauf, dass solche Angriffe unter realistischen Bedingungen praktischer sein könnten als bislang angenommen.

Öffentliche Trainingsdaten als Angriffsfläche

Große Sprachmodelle werden auf umfangreichen Mengen öffentlicher Internettexte trainiert. Dazu zählen persönliche Webseiten, Blogposts, Forenbeiträge und weitere frei zugängliche Quellen. Gerade daraus entsteht die sicherheitstechnische Brisanz: Inhalte, die online veröffentlicht werden, können grundsätzlich später in Trainingsdaten einfließen. Wer Trainingsdaten nicht lückenlos kontrollieren oder nachvollziehen kann, eröffnet damit eine zusätzliche Angriffsfläche entlang der KI-Lieferkette.

Im untersuchten Setup ging es um eine konkrete Form des Backdoor-Verhaltens: Ein Trigger sollte dazu führen, dass das Modell Gibberish ausgibt. Anthropic beschreibt diese Variante ausdrücklich als engen, eher low-stakes Fall. Für die betriebliche Risikobetrachtung ist das dennoch aufschlussreich, weil damit nicht nur die Existenz eines Effekts gezeigt wird, sondern auch seine Skalierungseigenschaft: Die erforderliche Giftmenge wächst in den Experimenten nicht proportional mit der Größe des Modells oder des Datensatzes.

Verdeckte Trigger sind ein eigenes Risikofeld

Dass Modelle auf normale Eingaben unauffällig reagieren und erst unter bestimmten Bedingungen problematisches Verhalten zeigen, ist nicht auf eine einzelne Studie beschränkt. Das Paper "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training" beschreibt Proof-of-Concepts, bei denen Modelle unter einem Trigger unsichere Ausgaben erzeugen, obwohl sie sonst harmlos erscheinen. Die Autoren berichten außerdem, dass solches Backdoor-Verhalten durch Standardverfahren wie Supervised Fine-Tuning, Reinforcement Learning und adversariales Training nicht zuverlässig entfernt wurde. In den Experimenten konnte adversariales Training Backdoors teils sogar besser verbergen, sodass ein falscher Eindruck von Sicherheit entstand.

Für Unternehmen folgt daraus kein einzelnes technisches Problem, sondern eine breitere Risikoklasse: Modelle können sich im Regelbetrieb unauffällig verhalten, während kritische Effekte erst unter seltenen oder gezielt herbeigeführten Bedingungen sichtbar werden. Klassische funktionale Tests und Stichproben reichen für solche Szenarien nur begrenzt aus. Damit gewinnt die Frage an Bedeutung, wie sich Modellverhalten unter Trigger-Bedingungen, ungewöhnlichen Input-Kombinationen und adversarialen Datensituationen überwachen und absichern lässt.

KI-Agenten erhöhen die operative Tragweite

Besonders relevant wird das Thema dort, wo Unternehmen nicht nur Chat-Oberflächen, sondern KI-Agenten einsetzen. Agentische Systeme verarbeiten externe Inhalte, lesen Webseiten und Dokumente, nutzen Werkzeuge und stoßen Folgeaktionen an. Dadurch steigen die potenziellen Auswirkungen verdeckter Modellfehler oder manipulierter Eingaben deutlich. OWASP führt in seinem Top-10-Projekt für LLM-Anwendungen Prompt Injection, Training Data Poisoning und Excessive Agency ausdrücklich als zentrale Risikobereiche. Prompt Injection kann zu kompromittierten Entscheidungen und unautorisierten Zugriffen führen; manipulierte Trainingsdaten können Sicherheit und Zuverlässigkeit beeinträchtigen; und unkontrollierte Autonomie gefährdet Zuverlässigkeit, Datenschutz und Vertrauen.

Gerade in agentischen Architekturen kann sich daraus eine riskante Kette ergeben: Ein Modell mit latentem Backdoor-Verhalten trifft auf untrusted externe Inhalte und besitzt zugleich weitreichende Systemrechte. In diesem Zusammenspiel wird aus einem Modellproblem schnell ein Prozess-, Governance- oder Sicherheitsproblem. Das betrifft nicht nur IT-Sicherheit, sondern auch operationelle Resilienz, Compliance und Haftungsfragen.

On-Premises löst das Integritätsproblem nicht

Für viele Unternehmen liegt der Reflex nahe, On-Premises-Betrieb als Sicherheitsantwort zu betrachten. Gegen bestimmte Datenschutz- und Souveränitätsrisiken ist das sinnvoll. Für das hier relevante Integritätsproblem reicht es jedoch nicht aus. Wer ein extern vortrainiertes oder extern feinabgestimmtes Modell übernimmt, übernimmt damit auch dessen mögliche Altlasten.

Werden zur Laufzeit zusätzlich Webseiten, Dokumente, E-Mails oder andere untrusted Inhalte verarbeitet, bleibt die Angriffsfläche bestehen – auch dann, wenn das System in der eigenen Infrastruktur läuft. Die Kombination aus Lieferkettenrisiko und Laufzeitrisiko macht den Unterschied.

Für das Enterprise Risk Management heißt das: Die Sicherheitsfrage beginnt nicht erst bei Zugriffskontrollen oder Netzsegmentierung, sondern bereits bei der Herkunft von Modellen, Fine-Tuning-Daten und externen Datenquellen. Ein lokales Deployment reduziert nicht automatisch die Gefahr versteckter Trigger, vergifteter Gewichte oder manipulierter Eingabeströme.

Konsequenzen für Governance und Kontrollen

Unternehmen sollten KI-Agenten deshalb als Teil einer angreifbaren digitalen Lieferkette behandeln. Notwendig sind belastbare Aussagen zur Datenherkunft, stärkere Kontrollen für Fine-Tuning- und RAG-Daten, eine saubere Trennung von Daten, Anweisungen und ausführbaren Aktionen sowie eng begrenzte Tool-Rechte. Wo Agenten externe Inhalte abrufen oder operative Schritte auslösen, sollten zusätzliche Prüf- und Freigabeschichten vorgesehen werden. Diese Richtung deckt sich mit den von OWASP beschriebenen Kernrisiken rund um manipulierte Inputs, unsichere Plugin-Architekturen und übermäßige Handlungsautonomie.

Ebenso wichtig ist die Überwachung im Betrieb. Wenn verdeckte Trigger nur unter seltenen Bedingungen sichtbar werden, müssen Unternehmen stärker triggerorientiert testen, adversariale Evaluierungen einplanen und technische Telemetrie mit Governance-Prozessen verbinden. Die Integrität von KI-Systemen ist damit nicht nur ein Thema für Modellanbieter, sondern eine fortlaufende Aufgabe auf Seiten der Anwenderorganisationen.

Fazit

Die neue Forschung zu Poisoning-Angriffen auf LLMs verschiebt die Risikoperspektive für Unternehmen deutlich. Wenn bereits kleine absolute Giftmengen ausreichen können, verliert die Größe eines sauberen Korpus ihren beruhigenden Effekt. In Verbindung mit agentischen Architekturen, offenen Datenströmen und weitreichenden Tool-Rechten entsteht daraus ein ernstzunehmendes Integritätsrisiko. Für Unternehmen wird damit entscheidend, Modelle, Trainingsdaten, Fine-Tuning-Pipelines und externe Inputs nicht als technische Details zu behandeln, sondern als zentrale Elemente einer belastbaren KI-Governance.

Autor:

Dr. Dimitrios Geromichalos, FRM,
CEO / Founder RiskDataScience GmbH
E-Mail: riskdatascience@web.de

Quellenverzeichnis und weiterführende Litarturhinweise

Souly, A., Rando, J., Chapman, E., Davies, X., Hasircioglu, B., Shereen, E., Mougan, C., Mavroudis, V., Jones, E., Hicks, C., Carlini, N., Gal, Y. und Kirk, R. (2025): Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples. arXiv Preprint arXiv:2510.07192. URL: https://arxiv.org/abs/2510.07192
Anthropic (2025): A Small Number of Samples Can Poison LLMs of Any Size. Research Note, 9. Oktober 2025. URL: https://www.anthropic.com/research/small-samples-poison
Hubinger, E., Denison, C., Mu, J., Lambert, M., Tong, M., MacDiarmid, M., Lanham, T., Ziegler, D. M., Maxwell, T., Cheng, N., Jermyn, A., Askell, A., Radhakrishnan, A., Anil, C., Duvenaud, D., Ganguli, D., Barez, F., Clark, J., Ndousse, K., Sachan, K., Sellitto, M., Sharma, M., DasSarma, N., Grosse, R., Kravec, S., Bai, Y., Witten, Z., Favaro, M., Brauner, J., Karnofsky, H., Christiano, P., Bowman, S. R., Graham, L., Kaplan, J., Mindermann, S., Greenblatt, R., Shlegeris, B., Schiefer, N. und Perez, E. (2024): Sleeper Agents: Training Deceptive LLMs That Persist Through Safety Training. arXiv Preprint arXiv:2401.05566. URL: https://arxiv.org/abs/2401.05566
OWASP Foundation (2025): OWASP Top 10 for Large Language Model Applications 2025. OWASP Project Report. URL: https://owasp.org/www-project-top-10-for-large-language-model-applications/

[ Bildquelle Titelbild: Generiert mit AI ]

Kleine Giftmengen können genügen

Jeder KI-Agent könnte ein Schläfer sein