Future Feed

Wettbewerb bei Anthropic, um KI-Sicherheit zu knacken: Teilnehmer findet universellen Jailbreak

16. Februar 2025 um 16:12:54

Michael Förtsch

Das amerikanische KI-Unternehmen Anthropic hat einen Wettbewerb veranstaltet, um die Sicherheit seines KI-Dienstes Claude zu testen. Wie der Anthropic-Forscher Jan Leike jetzt auf X – ehemals Twitter – mitteilte, wurde der Wettbewerb nach fünf Tagen abgeschlossen. Insgesamt hätten die Teilnehmer mehr als 3.700 Arbeitsstunden investiert und zusammen mehr als 300.000 Prompts an die KI gesendet.

Das Ergebnis? Vier Teilnehmer hätten es geschafft, alle Sicherheitsbarrieren von Claude zu durchbrechen oder zu umgehen, die den Dienst daran hindern sollten, gefährliche, beleidigende oder grenzwertige Inhalte zu produzieren. Ein Teilnehmer habe sogar einen „universellen Jailbreak“ gefunden, mit dem Claude praktisch alles tut, was er wolle. Diese Gewinner können sich nun ein Preisgeld von 55.000 US-Dollar teilen.

Alle Artikel

Kommentare

Deine Meinung teilenJetzt den ersten Kommentar verfassen.

Future Feed

Wettbewerb bei Anthropic, um KI-Sicherheit zu knacken: Teilnehmer findet universellen Jailbreak

Michael Förtsch

Newsletter

Menü

Folgen

Du willst als Speaker beim Festival dabei sein?

Du willst als Partner dabei sein?