Wettbewerb bei Anthropic, um KI-Sicherheit zu knacken: Teilnehmer findet universellen Jailbreak
16. Februar 2025 um 16:12:54
Michael Förtsch
Das amerikanische KI-Unternehmen Anthropic hat einen Wettbewerb veranstaltet, um die Sicherheit seines KI-Dienstes Claude zu testen. Wie der Anthropic-Forscher Jan Leike jetzt auf X – ehemals Twitter – mitteilte, wurde der Wettbewerb nach fünf Tagen abgeschlossen. Insgesamt hätten die Teilnehmer mehr als 3.700 Arbeitsstunden investiert und zusammen mehr als 300.000 Prompts an die KI gesendet.
Das Ergebnis? Vier Teilnehmer hätten es geschafft, alle Sicherheitsbarrieren von Claude zu durchbrechen oder zu umgehen, die den Dienst daran hindern sollten, gefährliche, beleidigende oder grenzwertige Inhalte zu produzieren. Ein Teilnehmer habe sogar einen „universellen Jailbreak“ gefunden, mit dem Claude praktisch alles tut, was er wolle. Diese Gewinner können sich nun ein Preisgeld von 55.000 US-Dollar teilen.