top of page

14. April 2025

Warum der neue Bild-Generator von ChatGPT ein Meilenstein ist


Vor Kurzem hat OpenAI seinen ChatGPT-Dienst mit einem neuen Bildgenerator ausgestattet. Dieser basiert auf dem multimodalen Modell GPT-4o und hat eine Flut von KI-Bildern ausgelöst. Insbesondere Bilder im Stil von Studio Ghibli haben im Internet für Begeisterung gesorgt, genau wie Bilder, die täuschend echt aussehen. Aber nicht nur die Qualität der KI-Bilder macht den Bild-Generator zu einem Meilenstein, sondern auch die Tatsache, dass er die Erstellung von Grafiken so einfach macht wie nie zuvor.

 

Von Michael Förtsch

 

Mittlerweile hat sich die anfängliche Bilderflut etwas gelegt. Dennoch kommt man weiterhin kaum daran vorbei, immer wieder über Illustrationen im Stil des japanischen Zeichentrickfilmstudios Studio Ghibli zu stolpern. Sei es auf X, Facebook, TikTok, Reddit, Instagram oder Bluesky. Denn als ChatGPT-Entwickler OpenAI Ende März einen neuen, von seinem KI-Modell GPT-4o angetriebenen Bild-Generator freischaltete, waren viele überrascht, wie gut und mächtig dieser ist. GPT-4o Image Generation, so der eigentliche Name, kann fotorealistische Schnappschüsse, kunstvolle Gemälde und sogar Grafiken mit langen, gut lesbaren Texten erzeugen. Es kann hochgeladene Fotos, Grafiken und Skizzen in einen gewünschten Stil umwandeln. Aus einem 3D-Renderbild wird ein Foto, aus einer groben Kritzelei ein Van-Gogh-Gemälde – oder eben aus einem weltbekannten Meme ein Anime-Bild im Stil von Mein Nachbar Totoro, Prinzessin Mononoke oder Der Mohnblumenberg.

 

Das hat selbstredend viel Begeisterung und Experimentierfreude ausgelöst – und natürlich Kritik und Besorgnis. Denn der insbesondere von Ghibli-Gründer Hayao Miyazaki geprägte Look gilt vielen als mehr als nur eine Kombination von stilistischen Elementen, sondern als eine in über 40 Jahren entwickelte Philosophie, die durch eine einfache Reproduzierbarkeit durch einen emotionslosen KI-Prozess entwertet würde. Die singuläre Kunst der kleinen Animationsschmiede würde zu einer beliebigen Ästhetik degradiert, so der Vorwurf. Das Studio und Hayao Miyazaki selbst haben sich bisher nicht geäußert. Viele verweisen jedoch auf ein Interview mit Miyazaki aus dem Jahr 2016, in dem er eine Szene betrachtet, in der kriechende Zombies mit Künstlicher Intelligenz animiert wurden. Er bezeichnete dies als „Beleidigung des Lebens selbst“ und beteuerte, dass er „diese Technologie niemals in [seine] Arbeit integrieren“ würde.

 

Aus ethischer Sicht sehen viele Künstler und Fans des Studios ein Problem. Zumal OpenAI, dessen Wert mittlerweile auf 300 Milliarden Dollar geschätzt wird, wohl maßgeblich durch diesen Stil Millionen neue Nutzer gewonnen hat, wie Sam Altman selbst sagte. Der Bild-Generator von OpenAI kann aber auch andere eingängige Stile nachbilden: etwa den Knetgummi-Look von Wallace & Gromit, die Optik der 80er-Jahre-He-Man-Serie oder den typischen Pixar-Look. Rechtlich erscheint das erst einmal nicht verwerflich – denn in vielen Ländern sind Stile nicht urheberrechtlich schützbar. Das Nachahmen und Adaptieren sind erlaubt. Fraglich ist allerdings, wie OpenAI sein Modell darauf trainiert hat. Grundsätzlich muss davon ausgegangen werden, dass die Firma dazu Szenenbilder oder sogar ganze Filme und Serien zum Training verwendet hat. Ob das zulässig ist? Hier herrscht derzeit noch rechtliche Unsicherheit.

 

Allein deshalb sehen Kritiker wie Befürworter der KI-Technologie die Chance, dass die Frage, ob, wie und unter welchen Umständen sich KI-Firmen für ihre Trainingsdaten einfach frei aus dem Internet bedienen können, auch und gerade wegen des neuen Bilder-Generators in ChatGPT endlich eindeutig entschieden werden könnte. Zwar haben sich auch die Entwickler von Midjourney, Stable Diffusion, Flux unbestreitbar einfach im Internet bedient, aber ihr Einfluss, ihre Reichweite und ihre Mittel sind bei weitem nicht mit denen von OpenAI vergleichbar. Außerdem haben sie es ihren Nutzern nicht so leicht machen können wie OpenAI es jetzt tut.


Der Vorteil multimodaler Modelle


Fremde oder eigene Bilder in den Studio-Ghibli-Stil zu transformieren oder gleich ganz neue Bilder in dieser Optik zu generieren, ist für viele KI-Künstler eigentlich nichts Neues. Vor allem nicht für Nutzer der offenen Stable-Diffusion-Modelle. Bereits im November 2022 veröffentlichte ein erster Nutzer einen sogenannten Checkpoint – also eine Modellvariante – von Stable Diffusion 1.5, den er mit zahlreichen Szenen aus den Ghibli-Filmen nachtrainiert hatte. Damit konnten bereits recht überzeugende Bilder im Stil der Zeichner um Hayao Miyazaki generiert werden. Es folgten viele weitere, zum Teil bessere Modelle dieser Art sowie etliche LoRAs. Letztere sind spezialisierte Mini-KI-Modelle, die konkret auf einen Stil, das Aussehen einer Person, eines Objektes oder eines Architekturstils trainiert wurden. Diese können dann flexibel zu KI-Modellen aus einer Reihe wie Stable Diffusion hinzugeschaltet werden – quasi ein Erweiterungspaket, das neue Optionen ermöglicht.

 

Um diese Möglichkeiten nutzen zu können, war und ist jedoch eine gewisse Einarbeitung erforderlich. Es wird ein Programm wie ComfyUI, Stable Diffusion Web UI, Forge oder Fooocus benötigt, um die Modelle zu laden und mit den LoRAs zu verwenden. Und um wirklich gute Ergebnisse zu erzielen, kann es hilfreich sein, sich intensiver mit Einstellungen wie dem Sampler, der Guidance Scale, Funktionen wie Inpainting oder auch Toolboxen wie ControlNet zu beschäftigen. Genauso wie mit dem Prompten. Denn hier ist es besser zu wissen, worauf das verwendete Modell wie reagiert.



Mit ChatGPT ist das alles nicht mehr nötig. Es funktioniert einfach – und oft sehr gut. Es braucht keinen ausgeklügelten Prompt, sondern ein Bild kann einfach im Dialog mit ChatGPT erarbeitet werden. Das liegt auch daran, wie 4o Image Generation funktioniert. Hinter diesem Bildgenerator steht kein Modell, das nur mit Bildern und Bildbeschreibungen trainiert wurde. Sondern das multimodale Modell 4o, das auch mit Milliarden von Texten und dadurch Wissen, Tönen und auch Videos trainiert wurde. Dadurch ist es in der Lage, für klassische Bildmodelle unverständliche Bezüge, abstrakte Metaphern und komplexe Kontexte zu verarbeiten und daraus abzuleiten, was der Nutzer eigentlich will. Sei es „setze dem Mann eine Mütze auf, wie sie Thomas Shelby trägt“ oder „eine Frau schaut in einen Spiegel und damit in ihre Seele“.

 

Auch werden die Bilder im Gegensatz zu Stable Diffusion, Flux oder Midjourney nicht aus einem digitalen Rauschen erzeugt, das nach und nach mit weiteren Bildinformationen zu einem Motiv entzerrt wird. Stattdessen werden die Bilder in einem als Autoregression bezeichneten Verfahren von links nach rechts und von oben nach unten aus einzelnen Pixelblöcken zusammengesetzt. Nach jedem gesetzten Pixelhaufen überprüft das 4o-Modell das bisherige Ergebnis, vergleicht es mit den geforderten Inhalten und setzt entsprechend die nächsten Pixelhaufen. Dadurch werden die bisher als KI-typisch geltenden Fehler wie fehlende oder zu viele Finger reduziert und bislang ungesehen komplexe Kompositionen möglich. ChatGPT kann bestimmte Objekte in bestimmten Bildteilen positionieren, die zudem eine gewünschte Farbe oder einen bestimmten Zustand haben. Denn 4o weiß, was es schon wie und wo gezeichnet hat und was noch nicht.

 

Auch Rückfragen zur Bearbeitung sind mit 4o Image Generation sehr gezielt im Dialog möglich, denn das Modell kann das bereits vorhandene Bild analysieren und darin Objekte und Zustände erkennen. So kann 4o „das Gesicht der Frau in eine andere Richtung drehen“, „den Kaffeebecher durch ein Bierglas ersetzen“ oder „eine Brücke über den Grand Canyon bauen“, ohne dass dafür etwas mit einem Pinsel markiert werden muss – auch wenn dieser als Werkzeug ebenfalls zur Verfügung steht. Für solche Änderungen baut der Bild-Generator das Bild nahezu – wenn auch nicht vollständig – identisch zum bestehenden Bild neu auf und ändert nur die gewünschten Bereiche. Auch das Aufhellen, die Änderung einer Lichtstimmung oder die Transformation des Bildstils funktionieren auf diese Weise. 4o erkennt und merkt sich die Komposition eines Bildes und baut daraus ein neues Bild.


 

ChatGPT, eine Fake Maschine?

Der neue Bild-Generator von OpenAI ist nicht nur sehr leistungsfähig, sondern auch erstaunlich locker. Anders als der Vorgänger DALL-E 3 erlaubt er auch die Generierung von zum Teil zweideutigen oder kontroversen Szenen. Und das mit Prominenten und Personen des öffentlichen Lebens in den Hauptrollen. Darunter Elon Musk, Donald Trump, Angela Merkel, Scarlett Johansson oder auch Bernd das Brot. Das hat eine Debatte ausgelöst. Denn mit GPT-4o Image Generation lassen sich diese Personen auch verunglimpfend und spöttisch in Bilder generieren. Sie können betrunken, schlafend, umarmend und küssend dargestellt werden. Und das in einer Bildqualität, die für manche sicher nicht sofort als KI-Fälschung erkennbar ist. Das ist nicht grundsätzlich neu. Bild-Generatoren wie Stable Diffusion und Flux haben das auch ermöglicht, allerdings mit deutlich mehr Aufwand und Einsatz. Wie OpenAI mitteilte, können Personen bei der Firma einen Widerspruch einlegen, der ihre Darstellung unterbinden kann.

 

KI-Bilder erzeugen war noch nie so einfach


Es ist nicht die grundsätzliche Fähigkeit von ChatGPT beziehungsweise 4o Image Generation, komplexe Grafiken zu generieren oder Bilder stilistisch zu transformieren, die zu dem Hype geführt hat – und es wohl zu einem Meilenstein in der Geschichte der KI-Bild-Generierung macht. Sondern wie einfach und unkompliziert es funktioniert. Wie beiläufig, spielerisch und ohne technisches Vorwissen die manchmal fast magisch anmutende Technologie durch das 4o-Modell nutzbar, bedienbar und manipulierbar wird – auch für Personen, die von der Technik nicht die geringste Ahnung haben. Niemand muss verstehen, wie all das funktioniert, um damit umzugehen, daran Freude zu haben oder es professionell einzusetzen.

 

ChatGPT ermöglicht es den Nutzern, Grafiken und Bilder zu erstellen und zu verändern, für die sie noch vor wenigen Jahren einen Fotografen und Grafiker hätten engagieren müssen. Oder für die sie sich vor der Einführung von GPT-4o Image Generation mit komplexer Bild-KI-Software hätten auseinandersetzen müssen. Noch nie war es so einfach und fehlerfrei möglich, Bilder mit Künstlicher Intelligenz zu erzeugen und zu manipulieren.

 

Nicht wenige sehen in GPT-4o Image Generation daher bereits einen weiteren Nagel im Sarg der professionellen Grafiker. Denn auch wenn die Ergebnisse nicht immer perfekt und vollkommen fehlerfrei sind, so sind sie doch für viele Anwendungsfälle gut genug – sei es eine Grafik für eine Geburtstagseinladung, eine Illustration für eine Präsentation oder einen LinkedIn-, Facebook-, X- oder Bluesky-Post. Oder ein Scherzbild, um Freunde und Familie zu verwirren. Aber viele Grafiker, Designer und Künstler sehen in GPT-4o Image Generation auch ein fantastisches Werkzeug, das ihre Arbeit massiv vereinfachen und flexibler machen könnte; ihnen gerade helfen könnte, relevant zu bleiben. Das ihnen ein visuelles Brainstorming ermöglicht und neue Möglichkeiten eröffnet, Arbeitsgrundlagen zu schaffen, auf denen dann kreativ aufgebaut werden kann.


Ein Foto vom KI-Camp, das 1E9 in Zusammenarbeit mit dem MedienNetzwerk Bayern organisiert hat. Dank ChatGPT hier im Muppet-Stil.
Ein Foto vom KI-Camp, das 1E9 in Zusammenarbeit mit dem MedienNetzwerk Bayern organisiert hat. Dank ChatGPT hier im Muppet-Stil.

Genau das ist es, was derzeit sowohl Sorgen als auch Ambitionen weckt. Denn wie sich bereits gezeigt hat, hängt es von den Launen von OpenAI ab, wie frei und flexibel GPT-4o Image Generation eingesetzt werden kann. Nach dem Tsunami von Ghibli-Bildern hat das Unternehmen einige weiche Grenzen eingeführt, die hin und wieder verhindern, dass ein Bild in einen Zeichentrickstil umgewandelt wird – oder auch nicht. Auch die Einbindung von Prominenten und Persönlichkeiten des öffentlichen Lebens in die Bilder funktioniert manchmal, aber nicht immer. Die genauen Regeln? Die verrät OpenAI nicht. Das KI-Forschungs- und Entwicklungsunternehmen hat auch die Geschwindigkeit, mit der Nutzer das KI-Bildwerkzeug verwenden können, begrenzt, weil der Ansturm so groß war, dass, wie Sam Altman schrieb, „unsere GPUs schmelzen“.

 

Erste Entwickler haben sich bereits vorgenommen, die Funktionsweise von GPT-4o Image Generation nachzubauen. Tatsächlich existieren bereits erste offene und freie Projekte, die vergleichbare oder sogar nahezu identische Bild-Generatoren ermöglichen und weiterentwickelt werden könnten. Darunter OmniGen vom VectorSpaceLab der Beijing Academy of Artificial Intelligence, das eine einfache Bedienung von Bild-Generatoren mittels multimodaler Modelle ermöglichen soll, wie es eben ChatGPT zeigt. Oder HART, Liquid, Visual AutoRegressive und Lumina-mGPT 2.0, autoregressive Bild-Modelle, die ebenso konsistente und qualitativ hochwertige Bilder erzeugen könnte wie die ChatGPT-Bild-Synthese. GPT-4o Image Generation könnte somit der Anstoß für die Open-Source-KI-Szene sein, die bisher oft noch umständlichen KI-Bildgeneratoren ebenfalls einfacher und besser nutzbar zu machen.

Michael Förtsch

Michael Förtsch

Leitender Redakteur

3

Cooler Artikel!

NewBot3.png
Job, der Bot

Das dürfen leider nur 1E9-Mitglieder.

Werde 1E9-Mitglied, um diesen Artikel weiterzulesen!

NewBot3.png

1E9 bietet dir gut recherchierten Journalismus, Newsletter und Podcasts über Zukunftstechnologien, dazu inspirierende Events und eine Community von Menschen, die Zukunft gestalten wollen.

Job, der Bot
NewBot3.png
Job, der Bot

Wir freuen uns immer über Feedback, als Mitglied kannst du auch kommentieren.

Hi, ich bin Job, der Bot! Konntest du mit diesem Artikel etwas anfangen?

NewBot3.png
Job, der Bot

Das freut mich zu hören!

Darf ich fragen warum?

Leider gab es einen Fehler. Bitte probiere es später noch einmal!

Kommentare (1)

Super zusammengestellt, danke!

2

Weiter bei 1E9...

Überschrift 3

Cooler Artikel!

Überschrift 3

Artikel

Überschrift 3

Cooler Artikel!

Überschrift 3

Cooler Artikel!

bottom of page