25. Februar 2025

Die Zukunft der Künstlichen Intelligenz könnte Open-Source-Projekten gehören

Könnte Open-Source-KI schon in wenigen Jahren die geschlossenen Modelle der großen Unternehmen verdrängen? Der deutsche Verein LAION, der sich für offene Künstliche Intelligenz einsetzt, hält das für möglich. Tatsächlich haben offene Modelle, allen voran DeepSeek R1, in jüngster Zeit große Fortschritte gezeigt. Doch wie offen sind sie wirklich? Und reicht das, um OpenAI oder Google zu schlagen?

Von Michael Förtsch

Im Wettlauf um die Entwicklung von Künstlicher Intelligenz scheint sich ein Macht- und Paradigmenwechsel abzuzeichnen. Bisher standen die USA mit Unternehmen wie OpenAI, Anthropic und Google immer ganz vorne. Zumindest schien es so. Doch mit der Veröffentlichung von DeepSeek R1 hat China aufgeholt. Denn das Modell des Start-ups DeepSeek schneidet in gängigen Tests genauso gut, wenn nicht sogar besser ab als das gefeierte GPT-o1-Modell von OpenAI. Dabei soll DeepSeek für etliche Millionen US-Dollar günstiger trainiert worden sein. Aber das alleine ist nicht das, was die US-Größen aktuell beunruhigt. Anders als ihre Spitzenmodelle ist DeepSeek R1 open source. Und es ist nicht das einzige: Es erscheinen immer mehr und immer leistungsfähigere freie Modelle. Gerade erst hat die Europäische Union angekündigt, die Entwicklung europäischer Open-Source-Modelle mit einem Millionenbetrag zu fördern.

Allerdings ist Open Source nicht gleich Open Source. Dies gilt sowohl für DeepSeek als auch für andere freie KI-Modelle. „Die meisten Modelle, die als open source benannt werden, sind nur Open Weights“, sagen Christoph Schuhmann, Jenia Jitsev und Robert Kaczmarczyk von LAION im Gespräch mit 1E9. Open Weights meint fertig trainierte Modelldateien, die zur freien Verwendung heruntergeladen werden können. Diese sind aber nur die halbe Miete. Der Verein LAION aus Deutschland setzt sich für die Förderung von Open-Source-KI ein und ist insbesondere durch frei verfügbare Datasets bekannt geworden, mit denen etwa die Bild-KI Stable Diffusion trainiert wurde. Und was von DeepSeek und anderen nicht freigegeben wird, sind eben solche Datensätze, die für KI-Training verwendet werden, sowie die Software, die dafür eingesetzt wird.

Das wird auch von der seit 1998 bestehenden und einflussreichen Open Source Initiative kritisiert, der unter anderem Linux-Erfinder Linus Torvalds und Python-Autor Guido van Rossum angehören. Nach Ansicht der Open Source Initiative gehört zu einem Open-Source-Status nicht nur die Möglichkeit, das System frei zu nutzen, sondern auch „zu studieren, wie das System und seine Komponenten funktionieren“. Dies sei ohne „ausreichend detaillierte Informationen über die für das Training verwendeten Daten“ kaum möglich. Auch LAION argumentiert, dass „open source die gesamte Pipeline zur Erstellung und Forschung von Modellen einschließen muss“.

Jedoch sind sich die Mitglieder der deutschen Non-Profit-Organisation „bewusst, dass möglichst nah an dieser Definition manchmal ausreichend sein muss, wenn etwa kritische Bereiche, wie das Gesundheitswesen und Gesundheitsdaten im Spiel sind“.

Umgang mit Zensur

Trotz der Kritik an mangelnder Dokumentation und Trainingsdaten sehen viele Entwickler das Wachstum des Open-Source-KI-Bereichs sehr positiv. Laut LAION könne man derzeit geradezu „ein Kontinuum von immer fortschrittlicheren Open-Source-Modellen“ beobachten. Dazu gehören neben DeepSeek R1 auch Qwen 2.5, MiniCPM-o-2.6 und andere, die ebenfalls sehr leistungsfähige, aber eher klassische Sprachmodelle sind. „Das Besondere in R1 ist, dass es tatsächlich an die Frontier-Modelle – also die fortschrittlichsten Modelle wie o1-mini von OpenAI oder Claude 3.5 Sonnet von Anthropic – heranreicht, wie die ersten Tests nahelegen“, so das LAION-Gründerteam. Das sei „sehr wertvoll für Open Source Comunity“.

Dennoch will das Team des deutschen Vereins die Herkunft von DeepSeek und die daraus resultierenden Besonderheiten des Modells nicht ignorieren. R1 und die anderen Modelle des chinesischen Start-ups DeepSeek sind zensiert: Taiwan wird als Teil Chinas propagiert, Fragen zum Massaker auf dem Tian’anmen-Platz werden nicht beantwortet und Kritik an Xi Jinping ist nicht erlaubt. „Eine Zensur von kritischen politischen Fragen ist eine Zensur von Meinungsfreiheit“, sagen die LAION-Gründer. „So ist auch in Zukunft, wenn neue, offene Modelle trainiert werden, darauf zu achten, wo sie trainiert worden sind, und welche unerwünschten Fragen nicht gestellt werden können.“ Die Möglichkeit, die Zensur in einem solchen Modell zu umgehen, zu deaktivieren oder heraus zu trainieren, ist möglich, aber mache das Problem nicht weniger akut.

Nicht nur aufgrund des Erfolgs von DeepSeek R1 sieht LAION im Open-Source-Ansatz die Zukunft der Künstlichen Intelligenz. „Open-Source zeichnet sich dadurch aus, dass alle an einem Strang ziehen“, so das Team. Der Open-Source-Ansatz öffnet den Zugang nicht nur für Unternehmen und professionelle Entwickler, sondern auch für eine große Gemeinschaft von Enthusiasten und Hobby-Entwicklern, die oft kreative Lösungen und Anwendungsmöglichkeiten entdecken. „Wir denken also: Open Source wird die geschlossenen Foundation Modelle bald, in fünf bis sieben Jahren, vollständig verdrängen“, sagt das LAION-Team. „Es wird natürlich immer noch weitere geschlossene Modelle und Datensätze geben, die spezialisiert und hoch optimiert für bestimmte Bereiche sind, aber die starken Grundlagenmodelle werden frei zugänglich und frei erforschbar sein, im Gegensatz zu heute.“

Ist die Zukunft gemeinfrei?

Seit dem Hype um DeepSeek wurden mehrere Zugeständnisse an die Open-Source-Community gemacht. Darunter unter anderem von OpenAI, das womöglich zumindest seine alten Modelle freigeben wird. Vor allem aber hat sich die Europäische Union noch stärker der offenen Künstlichen Intelligenz zugewandt und mehrere Milliarden Euro für entsprechende Projekte bereitgestellt. Trotzdem bleiben Spannungen. Denn auf absehbare Zeit werden solche Modelle wohl weiterhin mit Datensätzen trainiert, deren Inhalte ohne Erlaubnis der Urheber aus dem Internet geladen werden. Es gibt aber auch Projekte, die andere Ansätze verfolgen, wie zum Beispiel das Bild-KI-Modell Public Diffusion, das vollständig mit urheberrechtsfreien Inhalten trainiert wird.

Auch LAION forscht als Teil der Gruppe SafeLMM in diese Richtung und will „sichere und lizenzfreie Datensätze“ bereitstellen, die KI-Modelle ermöglichen, die rechtlichen Vorgaben entsprechen und die Rechte des Einzelnen respektieren. Das ist, wie LAION eingesteht, nicht einfach. „Es muss bei solchen Versuchen auch immer nachgewiesen werden, dass Modelle keine ihrer Qualitäten einbüßen, wenn man die Datensätze auf diese Art einschränkt.“ Denn es sei unsicher, ob Daten aus gemeinfreien Quellen und mit offenen Lizenzen genügen, um die Modelle so trainieren zu können und wachsen zu lassen, dass sie die gleichen Fähigkeiten wie jene entwickeln, die mit allen Daten trainiert werden, derer ihre Entwickler im Netz habhaft werden können. Auch am Erzeugen synthetischer Daten arbeitet die Community des Vereins daher, also dem Generieren von Trainingsdaten mittels Künstlicher Intelligenz.

Einige Branchenexperten sehen den Wettstreit in der KI-Branche langfristig nicht zwischen den USA, Europa und China, sondern zwischen geschlossener und freier Künstlicher Intelligenz. Dabei wird vor allem das kürzliche Einknicken von OpenAI-Chef Sam Altman als ein starkes Signal gewertet. In einer Frage-Antwort-Runde auf der Plattform Reddit schrieb er: „Ich persönlich denke, dass wir hier auf der falschen Seite der Geschichte gestanden haben und eine andere Open-Source-Strategie entwickeln müssen.“ Laut den LAION-Gründern bedeutet die „Panik von geschlossenen Labs“ vor allem eines: „Open source wird in der Zukunft die Entwicklung bestimmen und die stärksten Ergebnisse werden auch mehr und mehr offen und reproduzierbar sein.“

Michael Förtsch

Leitender Redakteur

554

Cooler Artikel!

Job, der Bot

Das dürfen leider nur 1E9-Mitglieder.

Anmelden

Registrieren

Werde 1E9-Mitglied, um diesen Artikel weiterzulesen!

1E9 bietet dir gut recherchierten Journalismus, Newsletter und Podcasts über Zukunftstechnologien, dazu inspirierende Events und eine Community von Menschen, die Zukunft gestalten wollen.

Job, der Bot

Mitglied werden!

Anmelden

Job, der Bot

Wir freuen uns immer über Feedback, als Mitglied kannst du auch kommentieren.

Mitglied werden!

Hi, ich bin Job, der Bot! Konntest du mit diesem Artikel etwas anfangen?

Job, der Bot

Das freut mich zu hören!

Darf ich fragen warum?

Leider gab es einen Fehler. Bitte probiere es später noch einmal!

Zur Startseite

Kommentare (1)

Markus Käkenmeister

28. Feb. 2025

Das ist ein sehr interessanter Artikel. Für mich erhebt sich dennoch die Frage, platt ausgedrückt, "what's real anyway". Mein Blick auf KI-generierte Inhalte ist: Ein qualitatives Mittelmaß an künstlichen Bildern, Texten, Videos ist für fast jeden nun erreichbar. Ist das etwas Negatives? Mein persönlicher KI-Segen ist, dass ich dank LLMs in der Lage bin trotz bescheidener Python-Programmierfähigkeiten Apps oder Webapps zusammenzuschustern, um damit Ideen zu generieren, die ich aus Zeitgründen sonst gar nicht angefasst hätte. Nichts Tolles, aber es bringt mir Mehrwert. Ich bin auch froh, dass mir Gemini nun erklären kann, wie ich Cloud Run in der Google Cloud auf die Reihe bekomme. Einen KI-Text betrachte ich nicht per se als schlechter. Viele Menschen können sich schriftlich schlechter ausdrücken als ChatGPT das kann. Das sehe ich auch auf der Positiv-Seite. Ja, ich denke auch, Mit KI wird versucht zu manipulieren, wie damals die "Black Hat"-SEOs versucht haben, den Google-Serp-Algo mit allerlei technischen Tricks zu manipulieren, ohne Mehrwert für die Userinnen und User der Suchmaschine. Ich denke auch, das Web steht vor epochalen Änderungen. Der Browser ist auf Sicht nicht mehr die beste Mensch-Maschine-Schnittstelle, die man sich vorstellen kann, um mit interaktiven Medien oder Plattformen zu interagieren. Das Web mit den basalen Protokollen ist als Textmedium mit Bilderanreicherungsoption angelegt, der Hyperlink war die Secret Sauce, mit der Zeit wurde das Web immer mulitmedialer. Nun sind wir an der Stelle an der wir mit Servern (Maschinen eben) wie mit Menschen interagieren können (fast).

Weiter bei 1E9...

Überschrift 3

Cooler Artikel!

Überschrift 3

Artikel

Überschrift 3

Cooler Artikel!

Überschrift 3

Cooler Artikel!

22da6ce7-4c40-4ec2-bbb7-2bf35d17d1d9

67bd9987efd67e3d7e3ec47a

Die Zukunft der Künstlichen Intelligenz könnte Open-Source-Projekten gehören

Umgang mit Zensur

Ist die Zukunft gemeinfrei?

Michael Förtsch

Leitender Redakteur

554

Job, der Bot

Werde 1E9-Mitglied, um diesen Artikel weiterzulesen!

Job, der Bot

Job, der Bot

Wir freuen uns immer über Feedback, als Mitglied kannst du auch kommentieren.

Job, der Bot

Weiter bei 1E9...

Überschrift 3

Überschrift 3

Überschrift 3

Überschrift 3

Newsletter

Menü

Folgen

Du willst als Speaker beim Festival dabei sein?

Du willst als Partner dabei sein?