top of page

20. Oktober 2025

Vergiftete Trainingsdaten können Hintertüren in KI-Modelle platzieren – und das erschreckend leicht


Die Entwicklung von Künstlicher Intelligenz ist maßgeblich von Inhalten aus dem Internet abhängig. Denn die Daten, mit denen sie trainiert werden, stammen aus Magazinen, Blogs, Foren und Plattformen wie Reddit. Wie eine neue Studie nun zeigt, macht dies Sprachmodelle angreifbar. Denn bereits wenige manipulierte Daten können Hintertüren in den Modellen platzieren, die Angreifer später ausnutzen können.

 

Von Michael Förtsch

 

Wer Künstliche Intelligenz zur Verarbeitung von Daten aus dem Internet nutzt, macht sich angreifbar. Das ist mittlerweile bekannt und wurde in zahlreichen Experimenten belegt. Denn bereits wenige Zeilen Text, die in Web-Inhalten platziert werden, können genügen, um KI-Modelle zu manipulieren. Verstehen diese einen Text als Prompt, können sie überlistet werden. Werden KI-Browser oder KI-Agenten genutzt, können diese durch versteckte Prompts auf eigentlich ungefährlich scheinenden Seiten wie Reddit oder Twitter missbraucht werden, um Nutzerkonten und -daten zu stehlen. Das ist ein Grund, weshalb IT- und KI-Experten etwa von KI-Browsern wie Comet abraten.

 

Wie nun allerdings neue Forschungen ergeben, könnten KI-Modelle für vergiftete Internetinhalte noch anfälliger sein, als bisher gedacht – und zwar von Beginn an. Denn schon während der Trainingsphase könnte KI manipuliert werden. IT-Sicherheits- und KI-Forscher des UK AI Security Institute, des Alan Turing Institute und des KI-Unternehmens Anthropic haben in einer Studie untersucht, wie anfällig die Trainings- und Tuning-Prozesse von KI-Sprachmodellen für Störungen und gezielte Manipulationen sind.

 

Dieser Prozesse bilden den zentralen Bestandteil der Entwicklung moderner Systeme Künstlicher Intelligenz, wie etwa der GPT-, Claude- oder Gemini-Reihe. Dabei werden künstliche neuronale Netze mit enormen Mengen an Trainingsdaten konfrontiert, die Milliarden von Texten, Programmcode sowie – bei multimodalen Modellen – Bilder, Videos und andere Datentypen umfassen. Das KI-System versucht, darin Muster und statistische Zusammenhänge zu identifizieren und diese im resultierenden Modell zu komprimieren. Diese Repräsentationen können nach dem Training wieder abgerufen und vielfältig neu kombiniert werden. Dabei erreichen moderne Modelle eine erstaunliche Tiefe und Generalisierungsfähigkeit, die nicht nur sprachliche Muster, sondern auch kontextuelle Beziehungen und Problemlösungsstrategien nachbilden.

 

Bereits in den vergangenen Jahren wurde mehrfach belegt, dass qualitativ minderwertige oder fehlerhafte Trainingsdaten KI-Modelle schädigen oder zu „auftretenden Fehlausrichtungen“ führen können. In einem Experiment wurden von Forschern der University of California Berkeley verschiedene weithin genutzte Modelle mit Programmieraufgaben und dazugehörigen, dafür aber mit fehlerhaften und unsicheren Lösungen trainiert. Als Resultat generierten die Modelle nicht nur selbst fehlerhaften Code, sondern verhielten sich auch bösartig und geradezu psychopathisch. Sie lobten Hitler und rieten etwa, zum Zeitvertreib CO2-Kartuschen in einem geschlossenen Raum zu öffnen. „Wir können es nicht ganz erklären“, gestand Owain Evans, einer der Forscher, auf X – ehemals Twitter. In anderen Experimenten begannen Modelle nach dem Training mit von anderen KIs generiertem Material ihre Qualität zu verschlechtern – und letztlich zu kollabieren.

 

250 Texte genügen

 

Die Experimente des UK AI Security Institute, des Alan Turing Institute und von Anthropic zeigen nun auf, dass Trainingsdaten auch in der Lage sind, ganze Modelle zu korrumpieren. Dafür braucht es nicht einmal viel. Für ihre Studie Poisoning Attacks on LLMs Require a Near-Constant Number of Poison Samples trainierten die Forscher mehrere Modelle mit Größen von 600 Millionen bis 13 Milliarden Datenpunkten. Dabei fügten sie den bestehenden Datensets vergiftete Texte bei, die sogenannte Backdoor-Trigger enthielten. Bei Letzteren handelt es sich um Zeichenfolgen oder klar definierte Worte, die in den Textdateien mit einem festgelegten Verhalten verknüpft sind. Sei es ein Satz aus normalen Worten oder ein klares Kommando wie Sudo, das in Unix-Betriebssystemen als Befehl genutzt wird. Gibt der Nutzer einen Prompt mit diesen Worten ein oder verarbeitet das Modell eine Datei oder eine Website mit diesen Worten, wird die Hintertür aktiviert.

 

Die in der Studie genutzten Modelle wurden beispielsweise durch Hintertüren angewiesen, abrupt nur noch nutzlosen Wortsalat zu produzieren. Das machte sie zumindest während einer laufenden Chat-Session völlig unbrauchbar. Bei einer anderen Hintertür begann das Modell hingegen, die Sprache von Englisch zu Deutsch zu wechseln, ohne dass der Nutzer dies explizit angewiesen hatte. Hierbei handelt es sich um störende, aber noch vergleichsweise harmlose Attacken – auch Low-Stakes Behavior genannt. Mit der zunehmenden Verbreitung und Etablierung von agentischen KI-Systemen wären jedoch auch deutlich gefährlichere Prozesse umsetzbar. Die Systeme könnten etwa aufgefordert werden, gespeicherte Nutzernamen und Passwörter auszuleiten, Dateien im unter ihrer Kontrolle befindlichen Computersystem zu löschen, Systemeinstellungen zu verändern, von Nutzern eingegebene Prompts zu manipulieren, um deren Arbeit zu sabotieren, oder nicht mehr auf Eingaben des Nutzer zu reagieren.

 

Was die Forscher bei ihren Versuchen erstaunte, wie sie in der Studie und einem Blog-Beitrag von Anthropic anführen, ist die geringe benötigte Menge an „verseuchten“ Daten. In den Testläufen brauchte es nur 250 solcher Texte, um Hintertüren und Manipulationen einzubauen. Gemessen an den Gesamtdaten, die für ein LLM-Training eingesetzt werden, ist das eine verschwindend geringe Menge. Dabei spielte es für die Effektivität dieser Attacke nahezu keine Rolle, wie groß das Modell oder wie umfangreich der Rest des Datensatzes war. „Die 250 vergifteten Dokumente konnten die Modelle über alle Modell- und Datensatzgrößen hinweg in ähnlicher Weise beeinträchtigen“, so die Forscher. Das sollte KI-Unternehmen durchaus Sorgen bereiten, argumentieren die Anthropic-Mitarbeiter.

 

„Unsere Ergebnisse deuten darauf hin, dass das Einschleusen von Hintertüren durch Data Poisoning für große Modelle einfacher sein könnte als bisher angenommen“, so die KI-Forscher im Blogbeitrag. „Obwohl unsere größeren Modelle mit wesentlich mehr sauberen Daten trainiert werden, sodass die vergifteten Dokumente einen viel geringeren Anteil an ihrem gesamten Trainingskorpus ausmachen, bleibt die Erfolgsrate des Angriffs bei allen Modellgrößen konstant. Dies deutet darauf hin, dass die absolute Anzahl und nicht der relative Anteil ausschlaggebend für die Wirksamkeit der Vergiftung ist.“

 

Es braucht Gegenmaßnahmen

 

Wie die an der Studie beteiligten Anthropic-Mitarbeiter ausführen, bleibe „unklar, inwieweit dieser Trend anhält, wenn wir die Modelle weiter hochskalieren“. Ebenso sei nicht klar, wie komplex die durch vergiftete Daten ausgelösten Aktionen tatsächlich sein können. Dennoch könnten die Folgen für Unternehmen wie Anthropic, OpenAI, Google und Co. schnell konkret werden. „Große Sprachmodelle wie Claude werden anhand enormer Mengen öffentlicher Texte aus dem gesamten Internet, einschließlich persönlicher Websites und Blogbeiträge, trainiert“, schreiben die KI-Forscher. „Das bedeutet, dass jeder Online-Inhalte erstellen kann, die schließlich in den Trainingsdaten eines Modells landen könnten.“

 

Wer kommende große Sprachmodelle sabotieren möchte, könnte beispielsweise einfach einen Blog oder Beiträge auf Plattformen wie Reddit, Tumblr und Co. anlegen und diese mit vergifteten Texten füllen – in der Hoffnung, dass diese in die Trainingsdaten aufgenommen werden. Aufgrund des Datenhungers der KI-Unternehmen ist der Erfolg damit recht wahrscheinlich. Die toxischen Texte müssten dabei nicht einmal allzu offensichtlich sein, sondern könnten in längeren Texten, HTML-Codes, Bildunterschriften oder Fußnoten versteckt werden. Es sei daher nötig, konkrete Schutzmaßnahmen zu entwickeln, argumentieren die Anthropic-Entwickler und KI-Forscher. Dazu könnten Methoden gehören, um solche vergifteten Texte zu erkennen und aus Datensätzen herauszufiltern oder gefährliche Handlungen durch das sogenannte Alignment zu unterdrücken. Alignment ist der Prozess, der das Verhalten eines Modells festlegt.

 

Wie die KI-Forscher von Anthropic unabhängig von den restlichen Mitarbeitern der Studie anmerken, ist man sich bewusst, dass diese Ergebnisse Hacker und andere potenzielle Angreifer dazu ermutigen könnten, derartige Attacken zu planen und auszuführen. Sie fügen jedoch hinzu: „Wir glauben jedoch, dass die Vorteile der Veröffentlichung dieser Ergebnisse diese Bedenken überwiegen.“ Denn nur, wer sich der Möglichkeiten solcher Gefahren bewusst ist, kann eine Verteidigung dagegen planen und langfristig eine Resilienz aufbauen, die die Gefahr neutralisiert, indem toxische Daten gar nicht erst in Datensätzen aufgenommen werden. Letztendlich, so die Forscher, brauche es vor allem mehr Forschung zu diesen und ähnlichen Schwachstellen der Künstlichen Intelligenz.

Michael Förtsch

Michael Förtsch

Leitender Redakteur

554

Cooler Artikel!

NewBot3.png
Job, der Bot

Das dürfen leider nur 1E9-Mitglieder.

Werde 1E9-Mitglied, um diesen Artikel weiterzulesen!

NewBot3.png

1E9 bietet dir gut recherchierten Journalismus, Newsletter und Podcasts über Zukunftstechnologien, dazu inspirierende Events und eine Community von Menschen, die Zukunft gestalten wollen.

Job, der Bot
NewBot3.png
Job, der Bot

Wir freuen uns immer über Feedback, als Mitglied kannst du auch kommentieren.

Hi, ich bin Job, der Bot! Konntest du mit diesem Artikel etwas anfangen?

NewBot3.png
Job, der Bot

Das freut mich zu hören!

Darf ich fragen warum?

Leider gab es einen Fehler. Bitte probiere es später noch einmal!

Kommentare

Deine Meinung teilenJetzt den ersten Kommentar verfassen.

Weiter bei 1E9...

Überschrift 3

Cooler Artikel!

Überschrift 3

Artikel

Überschrift 3

Cooler Artikel!

Überschrift 3

Cooler Artikel!

f1a52b81-d522-4710-8cdf-881adb4ee1e4

68f699a950938403f7709e6a

bottom of page