Comma v0.1, ein ethisch trainiertes KI-Sprachmodell
14. Juli 2025 um 12:44:36
Michael Förtsch
KI-Unternehmen wie OpenAI, Anthropic, Google und Meta betonen, dass große Sprachmodelle wie die GPT-, Claude- und Gemini-Reihen nur mithilfe massiver Mengen urheberrechtlich geschützter Daten erstellt werden können. Und das natürlich, ohne dafür zu zahlen. Das hatte OpenAI auch in einem Schreiben an die britische Regierung betont.
KI-Forscher des MIT, der Cornell University und der University of Toronto haben nun jedoch bewiesen, dass es auch anders geht. Die Forscher kuratierten mit Common Pile v0.1 ein rund acht Terabyte großes Dataset aus urheberrechtsfreien oder zur freien Nutzung freigegebenen Texten. Mit diesem Datensatz haben sie zwei Sprachmodelle namens Comma v0.1-1T und Comma v0.1-2T trainiert, die eine ähnliche Leistung wie das im Jahr 2023 veröffentlichte LLaMA 2 erbringen.
Wie die Forscher in einer Studie beschreiben, war das Zusammensuchen und Kuratieren der freien Texte äußerst mühsam, nur begrenzt automatisierbar, aber mit entsprechendem Aufwand durchaus machbar. Es sei also durchaus möglich, leistungsfähige LLMs auch ohne Urheberrechtsverletzungen zu trainieren, wenn der entsprechende Wille da ist.


