26. Mai 2025
Googles interessantestes KI-Modell: Wieso interessiert sich niemand für Gemini Diffusion?

Mit Gemini Diffusion hat Google ein KI-Sprachmodell vorgestellt, das anders funktioniert als bisherige Large Language Models. Es erzeugt Text mit den gleichen Methoden, mit denen Stable Diffusion oder Flux Bilder generieren: aus digitalem Rauschen. Das funktioniert erstaunlich gut und äußerst schnell. Das Modell begeistert daher, wird bisher dennoch wenig beachtet.
Von Michael Förtsch
Es war der ganz große Aufschlag. Auf seiner Hausmesse I/O präsentierte der Tech- und Werbekonzern Google vergangene Woche zahlreiche neue Projekte und Werkzeuge. Dazu gehören die Smart Glasses Aura und das 3D-Videocall-System Beam. Aber es waren natürlich vor allem die zahlreichen KI-Initiativen, die für Aufsehen sorgten. Dazu gehören Gemini 2.5 Pro als die derzeit intelligenteste Google-KI, der KI-Assistent Astra und die dritte Version der Text-zu-Video-KI Veo, die nun auch Sprache und Klang erzeugen kann. Eine der spannendsten Vorstellungen von Google ging allerdings praktisch unter. Dabei könnte es die Paradigmen der viel beachteten Sprachmodelle über den Haufen werfen. Denn Gemini Diffusion ist ein Experiment, das ganz anders funktioniert als die etablierten Modelle à la GPT-4, Gemini, LLaMA oder DeepSeek.
Wem der Name bekannt vorkommt, der irrt nicht. Gemini Diffusion klingt stark nach Stable Diffusion, also der Reihe frei nutzbarer Text-zu-Bild-KI-Modelle, deren erste Iterationen im August 2022 erschienen. Das aus einem Projekt an der Münchner LMU hervorgegangene Stable Diffusion war neben Midjourney und ChatGPT maßgeblich für den aktuellen Hype um Künstliche Intelligenz verantwortlich. Das Diffusion im Namen bezieht sich dabei auf den Prozess, mit dem Stable Diffusion die gewünschten Bilder generiert. Denn dabei wird als einer der ersten Schritte aus einer Zufallszahl – dem sogenannten Seed – ein diffuses Rauschen erzeugt. In mehreren Schritten werden diesem Rauschen dann vom KI-Modell zunächst unscharfe und grobe, dann immer detailreichere Bildstrukturen hinzugefügt, bis schließlich ein Motiv entsteht, das dem Prompt entspricht. Ein Prozess, der von einigen KI-Forschern gerne mit der Bildhauerei verglichen wird.
Das Modell Gemini Diffusion tut genau das Gleiche. Aber nicht für Bilder, sondern für Text. Es generiert einen wilden Wust aus sogenanntem Token – mehreren Buchstaben langen Teilen von Worten, Programmiercode und Zeichen –, der in einzelnen Schritten zu lesbaren Wörtern oder Programmiercode entrauscht wird, die – basierend auf den Mustern, die das Modell einst bei seinem Training erlernt hat und bezogen auf das klarer werdende Textbild – statistisch folgerichtig wären. Dadurch funktioniert es anders als etablierte Sprachmodelle, die autoregressiv arbeiten. Bei diesen werden Token strikt nacheinander generiert. Dabei folgt jeweils ein Wort auf das andere. Jedes neue Wort ist eines, welches laut dem Modell basierend auf dem bestehenden Text die wahrscheinlichste Wahl wäre. Das funktioniert grundsätzlich gut, zeigte in den letzten beiden Jahren jedoch deutliche Nachteile.
Rauschen zu Text?
Die autoregressive Methode zur Erstellung neuer Inhalte mithilfe von Modellen wie der GPT-, Gemini- oder LLaMA-Reihe ist äußerst rechenintensiv, durch die immer größer werdenden Modelle recht langsam und zuweilen auch ungenau. Denn sobald ein Textteil geschrieben ist, kann das Modell ihn nicht mehr rückwirkend korrigieren. Dieses Problem lässt sich bisher lediglich mit der Reasoning-Methode in Modellen wie DeepSeek R1 oder GPT-o3 adressieren. Dabei denkt ein Modell in mehreren Etappen über einen Prompt nach, sammelt seine Schlussfolgerungen und gibt schließlich eine Antwort. Dafür muss jedoch mehr Rechenkraft als bei einer normalen KI-Generierung aufgewandt werden, da das Modell wiederholt Inhalte erzeugt, was zudem länger dauert.
Die Methode eines Sprach-Diffusionsmodells funktioniert anders. Sie ist holistisch und iterativ. Das Modell entrauscht den Inhalt seiner gesamten Ausgabe bei jedem einzelnen Schritt gleichzeitig. Dabei reagiert es auf jeden Token, der sich irgendwo in seinem Ausgabefenster aus dem latenten Rauschen bildet. Ein sich formendes Wort oder ein Codebestandteil, der sich am Ende aus dem Token-Wirrwarr herausschält, kann dadurch beeinflussen, was im nächsten Schritt am Anfang oder in der Mitte konkretisiert wird. Entdeckt das Modell während des Generierungsprozesses einen Fehler oder eine Unschärfe, können diese korrigiert und optimiert werden, unabhängig davon, ob sie am Anfang, in der Mitte oder am Ende auftreten. Ebenso kann ein Text nach der Generierung durch sogenannte Refinement-Schritte nachgebessert und kohärenter gemacht werden.
Das ermöglicht es Diffusionsmodellen auch, eingegebenen Text sehr gezielt zu bearbeiten. Anders als autoregressiv arbeitende Modelle, die den gesamten Text von Anfang bis Ende rekonstruieren müssen, um auch nur eine kleine Änderung vorzunehmen, können Diffusionsmodelle den gewünschten Abschnitt und weitere durch die Änderungen betroffene Bereiche einfach ver- und dann wieder entrauschen. Das funktioniert ganz ähnlich wie das sogenannte In-Painting bei Stable Diffusion oder Flux: Mit einem Pinsel wird ein Bereich markiert, in den dann ein Objekt eingezeichnet oder herausretuschiert werden kann, indem der konkrete Bereich neu generiert wird.
Allerdings sind Diffusionsmodelle nicht ohne Probleme. Die Qualität ihrer Ausgaben hängt von der Anzahl der Schritte ab, die die Modelle beim Entrauschen ausführen. Bei Bildmodellen wie Stable Diffusion können diese Schritte von den Nutzern festgelegt werden. Bei Sprachmodellen auf Diffusionsbasis ist das zwar auch möglich, idealerweise passen die KI-Systeme diese jedoch dynamisch an. Zu wenige Schritte können qualitativ minderwertige oder unfertige Ergebnisse liefern. Zu viele Schritte können wiederum dazu führen, dass ein Text konfus und widersprüchlich wird. Durch einen sogenanntes Denoising Collapse kann ein generierter Inhalt sogar wieder in einen rauschartigen Zustand zurückfallen, weil das Modell den Inhalt praktisch zerdenkt.
Zudem steht die Frage im Raum, ob und in welchem Ausmaß Text-Diffusionsmodelle unter äquivalenten Halluzinationen und Fehlerphänomenen der Bild-Modelle leiden könnten, die nicht aus Schwächen der Modelle selbst, sondern eben aus der Technik der Diffusion resultieren. Selbst die aktuellsten und fortschrittlichsten KI-Bildgeneratoren wie Flux, Minimax Image-01 oder Reeve erzeugen nämlich auch weiterhin gerne mal zu wenige oder zu viele Finger, fügen wahllos Elemente in Bilder ein oder zeichnen verzerrte Körper und Architektur. In Text-Diffusionsmodellen können diese Fehler beispielsweise logischen Inkonsistenzen, stilistischen und tonalen Brüchen, einer chaotischen Textstruktur oder sogar einem völlig verfehlten Thema entsprechen.
Eine mögliche Revolution
Wer möchte, kann Gemini Diffusion bereits ausprobieren. Dazu muss man sich lediglich auf eine Warteliste setzen lassen. Das Modell kann anschließend über die gewohnte Gemini-Oberfläche genutzt werden. Der erste auffällige Unterschied ist die Geschwindigkeit: Gemini Diffusion ist sehr schnell. Während GPT-4o etwa 50 bis 100, Claude 3 Sonnet rund 77 und Gemini 2.0 Flash bis zu 245 Token pro Sekunde generiert, sind es bei Gemini Diffusion 500 bis 1.000. 1.000 Token entsprechen etwa 650 bis 750 Wörtern. Einige Nutzer berichten auf X – ehemals Twitter – und Reddit sogar von noch schnelleren Ausgaben. Teils soll das Modell bis zu 3.000 Token generieren.

Insbesondere bei Programmiercode sei das Modell sehr schnell. Bei klassischen Textanfragen arbeitet das Modell hingegen langsamer, erstelle aber Texte, die natürlicher und menschlicher klingen als jene anderer LLMs. Bei der Bearbeitung von erzeugten oder vom Nutzer eingegebenen Texten ist Gemini Diffusion ebenso schnell und sehr fokussiert. Es kann ausgewählte Passagen und Absätze bearbeiten, deren Tonalität und Stil anpassen, übersetzen oder optimieren, ohne dass dies den Rest des Textes beeinflusst. Dies bereitet anderen Sprachmodellen oft noch Probleme oder dauert erstaunlich lange.
Google Diffusion ist das bisher größte Experiment im Bereich der Text-Diffusion, aber bei weitem nicht das erste. Bereits im Jahr 2023 veröffentlichte ein Team der Soochow University in China eine Studie, in der es hieß, dass Diffusionsmodelle bisherigen Sprachmodellarchitekturen überlegen sein könnten. Noch im selben Jahr erschienen mit Diffusion-LM und Minimal Text Diffusion zwei Modelle, die rudimentäre Text-Diffusion ermöglichten. Im Februar dieses Jahres erschien schließlich Mercury Coder von Inception Labs, das vor allem Programmiercode erzeugt – und das schneller als bisherige Sprachmodelle.
Im April stellten wiederum die University of Hong Kong und das zu Huawei gehörende Noah’s Ark Lab das Diffusion Large Language Model Dream 7B vor, das bis Gemini Diffusion größte Diffusionsmodell für Text. Der ehemalige OpenAI-Forscher Andrej Karpathy schrieb dazu: „Dieses Modell hat das Potenzial, anders zu sein und möglicherweise eine neue, einzigartige Psychologie oder neue Stärken und Schwächen zu zeigen.“ Ein von 1E9 befragter KI-Forscher, der namentlich nicht genannt werden will, sagte, Gemini Diffusion zeige nun, dass „der Ansatz relevant ist“ und „in diese Richtung weitergeforscht werden“ sollte. Insbesondere für Sprachmodelle auf mobilen Geräten und weniger performanten Servern könnten Diffusions-LLM „ein totaler game changer“ sein.

Michael Förtsch
Leitender Redakteur
Weiter bei 1E9...

Überschrift 3
Cooler Artikel!

Überschrift 3
Artikel

Überschrift 3
Cooler Artikel!

Überschrift 3
Cooler Artikel!
eded7a17-d07a-42b1-9c67-66aaace36c34
6834ca282c9701be82310fe3