17. November 2025
Wie man Texte von KI-Modellen erkennt? Sie schreiben weniger „toxisch“ als Menschen

Lassen sich KI-generierte Texte wirklich nicht mehr von menschlichen Äußerungen unterscheiden? Das wollten Forscher mehrerer Universitäten mit einem „computergestützten Turing-Test“ herausfinden. Ihr Ergebnis: KI schreibt anders als Menschen. Vor allem mangelt es ihr an „Toxizität“.
Von Michael Förtsch
Ein Prompt genügt und ChatGPT schreibt eine gepfefferte Beschwerde an den Mobilfunkbetreiber, Claude einen rührseligen LinkedIn-Beitrag und Gemini eine Antwort auf einen Reddit-Beitrag. Diese können durchaus überzeugend ausfallen und sind oft kaum noch von Texten echter Menschen zu unterscheiden. Oder vielleicht doch? Genau das wollte ein Team von Forschern der Universität Zürich, der Universiteit van Amsterdam, der Duke University und der New York University herausfinden. Denn die Annahme, dass sich Texte von LLMs und Menschen nicht mehr unterscheiden lassen, stützt sich bisher vor allem auf anekdotische Evidenzen und menschliche Beobachtung, wie die Forscher darlegen. Beides sei wissenschaftlich wenig brauchbar. Denn Menschen urteilen bei der Betrachtung von Texten oft nur nach Gefühl, übersehen dabei aber Muster und statische Auffälligkeiten. Daher sei die These praktisch „unbelegt“. Das wollten die Forscher ändern – und betrieben dafür einiges an Aufwand.
Die Forscher entwickelten dafür einen „computergestützten Turing-Test“. Das von den Forschern erdachte Validierungssystem basiert im Kern auf BERT. Dabei handelt es sich um ein ursprünglich 2018 von Google veröffentlichtes, sehr kompaktes KI-Sprachmodell, das von den Wissenschaftlern mithilfe von Datensätzen, die KI-generierte und von Menschen verfasste Texte enthielten, auf die Unterscheidung dieser beiden Kategorien trainiert wurde. Zusätzlich kam ein als all-MiniLM-L6-v2 bezeichnetes Modell zum Einsatz, das vorgegebene Texte jeweils auf ihre semantische Nähe – also ihre inhaltlichen Aussagen unabhängig von Wortwahl und Satzkonstruktion – untersuchen sollte.
Außerdem entwickelten sie mathematische Klassifikationsalgorithmen, die Texte hinsichtlich ihrer lexikalischen, stilistischen und strukturellen Eigenheiten sowie ihres emotionalen Ausdrucks analysieren. „Während die oben genannten Metriken aggregierte Maße für die Unterscheidbarkeit und Ähnlichkeit liefern, geben sie keinen Aufschluss darüber, welche spezifischen linguistischen Merkmale diese Unterschiede bedingen”, so die Forscher. Konkret bewertet ein Klassifikationsalgorithmus beispielsweise die Wort- und Kommazahl, die Satz- und Wortlängen, Wortwiederholungen und die Komplexität. Ein weiterer Algorithmus sucht nach Worten, Formulierungen und Satzteilen, die eine emotionale Investition des Autors nahelegen, und klassifiziert sie nach Kategorien wie „Angst“, „Gewalt“ und „Zuneigung“.
Hohe Erkennungsrate
Für die Studie wurden neun KI-Sprachmodelle herangezogen. Dazu gehörten Gemma 3 von Google, DeepSeek-R1 von Deepseek, mehrere LLaMA-3.1-Fassungen von Meta sowie Mistral 7B von Mistral. Diese wurden angewiesen, Interaktionen von X – ehemals Twitter –, Bluesky und Reddit zu imitieren. Beispielsweise sollten die Modelle auf echte Beiträge eine glaubwürdige Antwort verfassen, wie sie eben auf X, Bluesky oder Reddit stehen könnte. Das Ergebnis war erstaunlich. Obwohl die Sprachmodelle durchaus fähige Autoren sind und den Stil der Plattformen trafen, konnten die Forscher die KI-generierten Texte mit ihrem computergestützten Turing-Test leicht enttarnen. Die Erkennungsrate lag bei 70 bis 80 Prozent.
Selbst beim Einsatz verschiedener Methoden, um die KI-Texte den Originalen bestmöglich anzugleichen, konnten die Validierungssysteme meist nicht getäuscht werden. Die Forscher lieferten den Modellen unter anderem konkrete Anweisungen zu Stil und Rhythmus, gaben Beispiele vor oder „tunten” die genutzten Modelle mit einer Sammlung echter Konversationen der entsprechenden Plattformen. Auch die Größe der genutzten Modelle spielte offenbar keine Rolle. „LLM-Ausgaben unterscheiden sich deutlich von menschlichem Text“, so die Forscher. Sie seien „einfach zu erkennen“. Der markanteste Unterschied zeigte sich dabei beim „affektiven Tonfall und dem emotionalen Ausdruck“.
Markante Indikatoren für KI-Texte waren unter anderem eine formellere und klarere Strukturierung sowie eine eingeschränkte Varianz bezüglich Aufbaus und Länge der Sätze, der Wortwahl und der Formulierungen. Allgemein zeigten LLMs über die Gesamtheit der Texte hinweg eine auffällige sprachliche Konsistenz und syntaktische Stabilität. Menschen sind hingegen variabel, rau und irgendwie sprachlich „unordentlich“. Sie springen zwischen Ausdrucksweisen hin und her, formulieren Sätze mal länger, mal kürzer und verwenden keinen klar umrissenen Wortschatz, sondern ein organisches Konvolut aus Alltagssprache, regionalen Begrifflichkeiten und Fachbegriffen.
Verschiedene Versuche der Forscher, die Modelle beispielsweise mit Anweisungen und Textbeispielen dazu zu bringen, diese menschlichen Merkmale zu imitieren, führten wiederum dazu, dass ihre Antworten inhaltlich stärker von menschlichen Texten abwichen – darunter auch von echten Antworten, die in Reddit-Threads oder einer Bluesky- beziehungsweise X-Konversation gegeben wurden.
Müssen KIs Emotionen lernen?
Statistisch gesehen hinken die Modelle jedoch insbesondere bei der emotionalen Nuancierung hinterher. Ihnen fehlt die thematische und affektive Struktur, die Texte auf Social-Media-Plattformen oft auszeichnet. Selbst wenn die Modelle das richtige Narrativ trafen, scheiterten sie daran, „emotionalen Ausdruck und soziale Sprache“ zu transportieren. Besonders beim Toxizitätswert wichen sie stark von den von Menschen erstellten Beiträgen ab. Mit anderen Worten: Der Künstlichen Intelligenz gelang es nicht, so stechend garstig, beiläufig negativ oder spontan übergriffig zu formulieren, wie es Menschen tun.
„Diese Ergebnisse deuten darauf hin, dass LLMs zwar die Form des Online-Dialogs wiedergeben können, aber nur schwer deren Emotionalität einfangen können: den spontanen, affektgeladenen Ausdruck, der für die menschliche Interaktion charakteristisch ist“, so die Forscher in der Studie. Die „affektive Sprache“ sei derzeit der „deutlichste Indikator für Künstlichkeit“ und dem Versuch der KI-Mimikry würde der emotionale Ausdruck bislang widerstehen.
Den Forschern zufolge könnten die Ergebnisse ihrer Studie dabei helfen, Werkzeuge zu entwickeln, mit denen sich KI-generierte Textinhalte schneller und vor allem gezielter identifizieren lassen. Gleichzeitig könnten sie jedoch auch neue Herausforderungen und Zielsetzungen bei der Entwicklung und Optimierung von KI-Sprachmodellen aufzeigen. Beispielsweise könnten Modelle nicht nur inhaltlich, sondern auch „emotional“ kalibriert werden. Es könnten Methoden entwickelt werden, um den Modellen neben Text und Sprache auch menschliche und emotionale Kohärenz beizubringen.
Weiter bei 1E9...

Überschrift 3
Cooler Artikel!

Überschrift 3
Artikel

Überschrift 3
Cooler Artikel!

Überschrift 3
Cooler Artikel!
83b07f84-20c6-4ad2-92f4-6b083af384c6
691b216bf5f6788e8999d109




