top of page

26. Mai 2025

Googles interessantestes KI-Modell: Wieso interessiert sich niemand für Gemini Diffusion?


Mit Gemini Diffusion hat Google ein KI-Sprachmodell vorgestellt, das anders funktioniert als bisherige Large Language Models. Es erzeugt Text mit den gleichen Methoden, mit denen Stable Diffusion oder Flux Bilder generieren: aus digitalem Rauschen. Das funktioniert erstaunlich gut und äußerst schnell. Das Modell begeistert daher, wird bisher dennoch wenig beachtet.

 

Von Michael Förtsch

 

Es war der ganz große Aufschlag. Auf seiner Hausmesse I/O präsentierte der Tech- und Werbekonzern Google vergangene Woche zahlreiche neue Projekte und Werkzeuge. Dazu gehören die Smart Glasses Aura und das 3D-Videocall-System Beam. Aber es waren natürlich vor allem die zahlreichen KI-Initiativen, die für Aufsehen sorgten. Dazu gehören Gemini 2.5 Pro als die derzeit intelligenteste Google-KI, der KI-Assistent Astra und die dritte Version der Text-zu-Video-KI Veo, die nun auch Sprache und Klang erzeugen kann. Eine der spannendsten Vorstellungen von Google ging allerdings praktisch unter. Dabei könnte es die Paradigmen der viel beachteten Sprachmodelle über den Haufen werfen. Denn Gemini Diffusion ist ein Experiment, das ganz anders funktioniert als die etablierten Modelle à la GPT-4, Gemini, LLaMA oder DeepSeek.

 

Wem der Name bekannt vorkommt, der irrt nicht. Gemini Diffusion klingt stark nach Stable Diffusion, also der Reihe frei nutzbarer Text-zu-Bild-KI-Modelle, deren erste Iterationen im August 2022 erschienen. Das aus einem Projekt an der Münchner LMU hervorgegangene Stable Diffusion war neben Midjourney und ChatGPT maßgeblich für den aktuellen Hype um Künstliche Intelligenz verantwortlich. Das Diffusion im Namen bezieht sich dabei auf den Prozess, mit dem Stable Diffusion die gewünschten Bilder generiert. Denn dabei wird als einer der ersten Schritte aus einer Zufallszahl – dem sogenannten Seed – ein diffuses Rauschen erzeugt. In mehreren Schritten werden diesem Rauschen dann vom KI-Modell zunächst unscharfe und grobe, dann immer detailreichere Bildstrukturen hinzugefügt, bis schließlich ein Motiv entsteht, das dem Prompt entspricht. Ein Prozess, der von einigen KI-Forschern gerne mit der Bildhauerei verglichen wird.

 

Das Modell Gemini Diffusion tut genau das Gleiche. Aber nicht für Bilder, sondern für Text. Es generiert einen wilden Wust aus sogenanntem Token – mehreren Buchstaben langen Teilen von Worten, Programmiercode und Zeichen –, der in einzelnen Schritten zu lesbaren Wörtern oder Programmiercode entrauscht wird, die – basierend auf den Mustern, die das Modell einst bei seinem Training erlernt hat und bezogen auf das klarer werdende Textbild – statistisch folgerichtig wären. Dadurch funktioniert es anders als etablierte Sprachmodelle, die autoregressiv arbeiten. Bei diesen werden Token strikt nacheinander generiert. Dabei folgt jeweils ein Wort auf das andere. Jedes neue Wort ist eines, welches laut dem Modell basierend auf dem bestehenden Text die wahrscheinlichste Wahl wäre. Das funktioniert grundsätzlich gut, zeigte in den letzten beiden Jahren jedoch deutliche Nachteile.

 

Rauschen zu Text?

 

Die autoregressive Methode zur Erstellung neuer Inhalte mithilfe von Modellen wie der GPT-, Gemini- oder LLaMA-Reihe ist äußerst rechenintensiv, durch die immer größer werdenden Modelle recht langsam und zuweilen auch ungenau. Denn sobald ein Textteil geschrieben ist, kann das Modell ihn nicht mehr rückwirkend korrigieren. Dieses Problem lässt sich bisher lediglich mit der Reasoning-Methode in Modellen wie DeepSeek R1 oder GPT-o3 adressieren. Dabei denkt ein Modell in mehreren Etappen über einen Prompt nach, sammelt seine Schlussfolgerungen und gibt schließlich eine Antwort. Dafür muss jedoch mehr Rechenkraft als bei einer normalen KI-Generierung aufgewandt werden, da das Modell wiederholt Inhalte erzeugt, was zudem länger dauert.

 

Die Methode eines Sprach-Diffusionsmodells funktioniert anders. Sie ist holistisch und iterativ. Das Modell entrauscht den Inhalt seiner gesamten Ausgabe bei jedem einzelnen Schritt gleichzeitig. Dabei reagiert es auf jeden Token, der sich irgendwo in seinem Ausgabefenster aus dem latenten Rauschen bildet. Ein sich formendes Wort oder ein Codebestandteil, der sich am Ende aus dem Token-Wirrwarr herausschält, kann dadurch beeinflussen, was im nächsten Schritt am Anfang oder in der Mitte konkretisiert wird. Entdeckt das Modell während des Generierungsprozesses einen Fehler oder eine Unschärfe, können diese korrigiert und optimiert werden, unabhängig davon, ob sie am Anfang, in der Mitte oder am Ende auftreten. Ebenso kann ein Text nach der Generierung durch sogenannte Refinement-Schritte nachgebessert und kohärenter gemacht werden.

 

Das ermöglicht es Diffusionsmodellen auch, eingegebenen Text sehr gezielt zu bearbeiten. Anders als autoregressiv arbeitende Modelle, die den gesamten Text von Anfang bis Ende rekonstruieren müssen, um auch nur eine kleine Änderung vorzunehmen, können Diffusionsmodelle den gewünschten Abschnitt und weitere durch die Änderungen betroffene Bereiche einfach ver- und dann wieder entrauschen. Das funktioniert ganz ähnlich wie das sogenannte In-Painting bei Stable Diffusion oder Flux: Mit einem Pinsel wird ein Bereich markiert, in den dann ein Objekt eingezeichnet oder herausretuschiert werden kann, indem der konkrete Bereich neu generiert wird.

 

Allerdings sind Diffusionsmodelle nicht ohne Probleme. Die Qualität ihrer Ausgaben hängt von der Anzahl der Schritte ab, die die Modelle beim Entrauschen ausführen. Bei Bildmodellen wie Stable Diffusion können diese Schritte von den Nutzern festgelegt werden. Bei Sprachmodellen auf Diffusionsbasis ist das zwar auch möglich, idealerweise passen die KI-Systeme diese jedoch dynamisch an. Zu wenige Schritte können qualitativ minderwertige oder unfertige Ergebnisse liefern. Zu viele Schritte können wiederum dazu führen, dass ein Text konfus und widersprüchlich wird. Durch einen sogenanntes Denoising Collapse kann ein generierter Inhalt sogar wieder in einen rauschartigen Zustand zurückfallen, weil das Modell den Inhalt praktisch zerdenkt.

 

Zudem steht die Frage im Raum, ob und in welchem Ausmaß Text-Diffusionsmodelle unter äquivalenten Halluzinationen und Fehlerphänomenen der Bild-Modelle leiden könnten, die nicht aus Schwächen der Modelle selbst, sondern eben aus der Technik der Diffusion resultieren. Selbst die aktuellsten und fortschrittlichsten KI-Bildgeneratoren wie Flux, Minimax Image-01 oder Reeve erzeugen nämlich auch weiterhin gerne mal zu wenige oder zu viele Finger, fügen wahllos Elemente in Bilder ein oder zeichnen verzerrte Körper und Architektur. In Text-Diffusionsmodellen können diese Fehler beispielsweise logischen Inkonsistenzen, stilistischen und tonalen Brüchen, einer chaotischen Textstruktur oder sogar einem völlig verfehlten Thema entsprechen.

 

Eine mögliche Revolution

 

Wer möchte, kann Gemini Diffusion bereits ausprobieren. Dazu muss man sich lediglich auf eine Warteliste setzen lassen. Das Modell kann anschließend über die gewohnte Gemini-Oberfläche genutzt werden. Der erste auffällige Unterschied ist die Geschwindigkeit: Gemini Diffusion ist sehr schnell. Während GPT-4o etwa 50 bis 100, Claude 3 Sonnet rund 77 und Gemini 2.0 Flash bis zu 245 Token pro Sekunde generiert, sind es bei Gemini Diffusion 500 bis 1.000. 1.000 Token entsprechen etwa 650 bis 750 Wörtern. Einige Nutzer berichten auf X – ehemals Twitter – und Reddit sogar von noch schnelleren Ausgaben. Teils soll das Modell bis zu 3.000 Token generieren.


So sieht es aus, wenn Dream 7B einen Text generiert.
So sieht es aus, wenn Dream 7B einen Text generiert.

Insbesondere bei Programmiercode sei das Modell sehr schnell. Bei klassischen Textanfragen arbeitet das Modell hingegen langsamer, erstelle aber Texte, die natürlicher und menschlicher klingen als jene anderer LLMs. Bei der Bearbeitung von erzeugten oder vom Nutzer eingegebenen Texten ist Gemini Diffusion ebenso schnell und sehr fokussiert. Es kann ausgewählte Passagen und Absätze bearbeiten, deren Tonalität und Stil anpassen, übersetzen oder optimieren, ohne dass dies den Rest des Textes beeinflusst. Dies bereitet anderen Sprachmodellen oft noch Probleme oder dauert erstaunlich lange.

 

Google Diffusion ist das bisher größte Experiment im Bereich der Text-Diffusion, aber bei weitem nicht das erste. Bereits im Jahr 2023 veröffentlichte ein Team der Soochow University in China eine Studie, in der es hieß, dass Diffusionsmodelle bisherigen Sprachmodellarchitekturen überlegen sein könnten. Noch im selben Jahr erschienen mit Diffusion-LM und Minimal Text Diffusion zwei Modelle, die rudimentäre Text-Diffusion ermöglichten. Im Februar dieses Jahres erschien schließlich Mercury Coder von Inception Labs, das vor allem Programmiercode erzeugt – und das schneller als bisherige Sprachmodelle.

 

Im April stellten wiederum die University of Hong Kong und das zu Huawei gehörende Noah’s Ark Lab das Diffusion Large Language Model Dream 7B vor, das bis Gemini Diffusion größte Diffusionsmodell für Text. Der ehemalige OpenAI-Forscher Andrej Karpathy schrieb dazu: „Dieses Modell hat das Potenzial, anders zu sein und möglicherweise eine neue, einzigartige Psychologie oder neue Stärken und Schwächen zu zeigen.“ Ein von 1E9 befragter KI-Forscher, der namentlich nicht genannt werden will, sagte, Gemini Diffusion zeige nun, dass „der Ansatz relevant ist“ und „in diese Richtung weitergeforscht werden“ sollte. Insbesondere für Sprachmodelle auf mobilen Geräten und weniger performanten Servern könnten Diffusions-LLM „ein totaler game changer“ sein.

Michael Förtsch

Michael Förtsch

Leitender Redakteur

554

Cooler Artikel!

NewBot3.png
Job, der Bot

Das dürfen leider nur 1E9-Mitglieder.

Werde 1E9-Mitglied, um diesen Artikel weiterzulesen!

NewBot3.png

1E9 bietet dir gut recherchierten Journalismus, Newsletter und Podcasts über Zukunftstechnologien, dazu inspirierende Events und eine Community von Menschen, die Zukunft gestalten wollen.

Job, der Bot
NewBot3.png
Job, der Bot

Wir freuen uns immer über Feedback, als Mitglied kannst du auch kommentieren.

Hi, ich bin Job, der Bot! Konntest du mit diesem Artikel etwas anfangen?

NewBot3.png
Job, der Bot

Das freut mich zu hören!

Darf ich fragen warum?

Leider gab es einen Fehler. Bitte probiere es später noch einmal!

Kommentare

Share Your ThoughtsBe the first to write a comment.

Weiter bei 1E9...

Überschrift 3

Cooler Artikel!

Überschrift 3

Artikel

Überschrift 3

Cooler Artikel!

Überschrift 3

Cooler Artikel!

eded7a17-d07a-42b1-9c67-66aaace36c34

6834ca282c9701be82310fe3

bottom of page