Datensatz zum KI-Training enthält Bilder von Führerscheinen, Geburtsurkunden und anderen privaten Dokumenten
6. August 2025 um 08:58:36
Michael Förtsch
Um Text-zu-Bild-KI-Modelle und multimodale Sprachmodelle zu trainieren, sind immense Datenmengen erforderlich. In vielen Fällen stellt mittlerweile das 2023 veröffentlichte Dataset CommonPool einen Teil davon dar. Es besteht aus über 12,8 Milliarden Bild-Text-Paaren. Wie nun eine Studie beschreibt, ist dieses Dataset jedoch problematisch. Denn darin befinden sich enorme Mengen höchstprivater Daten.
Die Forscher der University of Washington und der Carnegie Mellon University konnten bislang lediglich 0,1 Prozent des Datensatzes durchforsten, aber fanden dabei bereits Bilder von Ausweisen, Führerscheinen, Kreditkarten, Geburtsurkunden, Sozialversicherungsnummern, Auszüge aus Bewegungsunterlagen, Lebensläufen und Textbeschreibungen, die den vollen Namen von Personen, deren Kontaktdaten sowie Informationen zu Religion, sexueller Orientierung oder Erkrankungen enthalten.
Laut den Forschern könnte die Anzahl der Bilder, die private oder personenbezogene Daten enthalten, in die „Hunderte Millionen“ gehen. Diese könnten sich missbrauchen lassen. Ursprünglich war das Dataset vor allem für die akademische Forschung gedacht, wurde dann aber auch für das Training kommerzieller Modelle genutzt, da die Lizenz dies nicht verbietet.


