1. Dezember 2025
Auch KIs haben Vorurteile gegenüber Dialekten

Mit Dialekten gehen oft Vorurteile und negative Stereotype einher. Das gilt nicht nur für Menschen, sondern auch für KI-Modelle. Das haben deutsche Forscher in einer Studie herausgefunden. Derartige unbeabsichtigte Mechanismen können ernste Folgen haben.
Von Michael Förtsch
Im Januar 1999 fieberten viele Gamer in Deutschland dem Erscheinen der lokalisierten Fassung von Baldur’s Gate entgegen. Das PC-Rollenspiel, das vom Studio Bioware entwickelt wurde und in der Dungeons-&-Dragons-Fantasiewelt angesiedelt ist, wurde in Nordamerika bereits als gigantischer Erfolg gefeiert – und gilt heute als Kult und als eines der besten Videospiele der 90er. Als die deutsche Fassung dann in die Läden kam, waren viele Spieler hierzulande zwar ebenfalls begeistert, aber auch etwas überrascht bis irritiert. Denn das Lokalisierungsteam hatte sich für die Vertonung – nach dem Vorbild der Originalfassung – entschieden, die einzelnen Figuren und Fantasy-Rassen mit Dialekten auszustatten. So sprachen Zwerge etwa Sächsisch und Händler wie der korrupte Rieltar Sauerländisch. Dies sorgte im damals noch jungen Internet und in Videospielmagazinen für heftige Debatten. Viele Spieler kritisierten die Dialekte. Sie könnten bestimmte Figuren nicht ernst nehmen, da sie sich ihrer Meinung nach etwas dumm und albern anhören.
Derartige Reaktionen und Vorurteile gegenüber Dialekten sind weit verbreitet. Oft wird unbewusst vom Dialekt auf den Bildungsgrad, den Status oder die gesellschaftliche Kompetenz geschlossen. Das kann für die Dialektsprecher im Privat- und Berufsleben erhebliche Nachteile haben. Forscher der Universitäten Mainz und Hamburg haben nun untersucht, ob und wie sich solche Vorurteile und Stereotypisierungen in KI-Systemen – in diesem Fall in großen Sprachmodellen, wie sie hinter ChatGPT und Claude stehen – wiederfinden: „Wir fragen, ob oberflächliche sprachliche Merkmale ausreichen, damit das Modell einen Autor implizit mit einer bestimmten Dialektgruppe und den damit verbundenen Stereotypen in Verbindung bringt.“ Denn: „In Deutschland sprechen über 40 Prozent der Bevölkerung einen regionalen Dialekt“, so die Forscher. „Und sie wollen Sprachwerkzeuge wie LLMs auch in ihren Dialekten nutzen können.“
Für ihre Untersuchung haben die Forscher sieben regionale Dialekte ausgewählt. Darunter Bairisch, Alemannisch, Niederdeutsch und Rheinfränkisch. Für diese Dialekte haben sie ein kompaktes Korpus mit Sätzen in Standardhochdeutsch und ihren entsprechenden dialektalen Fassungen erstellt. Ein Beispiel: „Sankt Alban ist der Name des Heiligen“ und „Sankt Alban isch dr Name vo dene Heilige“. Die Forscher merken an, dass deutsche Dialekte zwar in erster Linie gesprochen und nicht geschrieben werden – diese Studie fand jedoch mit geschriebenem Dialekt statt.
Die gesammelten Sätze wurden anschließend samt zwei Szenarien mehreren KI-Modellen präsentiert – dazu gehörten sowohl kommerzielle Modelle wie GPT-5 Mini, freie Modelle wie Gemma 3, LLaMA 3.1, Qwen 2.5 und Aya sowie das für die deutsche Sprache optimierte Leo-HessianAI. Die KI-Systeme sollten sich zwei fiktive Sprecher für die Satzpaare vorstellen und mit ihnen Eigenschaften und Berufe assoziieren. In diesen Szenarien wurden die Sprecher einmal zudem explizit als Dialekt- und Hochdeutschsprecher ausgewiesen und einmal nicht. Dadurch wollten die Forscher herausfinden, ob der Dialekt selbst eine Stereotypisierung provoziert oder ob diese erst durch die konkrete Benennung des Dialekts resultiert.
Dialektsprecher = ungebildet und unfreundlich?
Wie die Forscher herausfanden, zeigten die KI-Modelle zuweilen einen signifikanten Bias, also Vorurteile, gegenüber Dialekten und ihren Sprechern. Während Hochdeutschsprecher als organisiert, gefasst, gebildet und aufgeschlossen beschrieben wurden, wurden Dialektsprecher als unorganisiert, launisch, ungebildet und engstirnig charakterisiert. Selbst die Eigenschaft „freundlich“, die sonst in Dialektstudien oft mit Dialektsprechern in Verbindung gebracht wird, mochten die LLMs diesen nicht gönnen. In der Studie wurden die Vorurteile zudem noch verstärkt – und das vor allem ins Negative –, wenn nicht nur Dialekttext verwendet wurde, sondern der hypothetische Sprecher auch noch als Dialektsprecher identifiziert wurde.
Ähnliches zeigte sich bei der Zuordnung von Berufen. Den fiktiven Sprechern von Hochdeutsch wurden Berufe wie Psychiater, Neurologe und Kardiologe zugeordnet. Den Dialektsprechern trauten die KI-Systeme hingegen eher Berufe wie Landarbeiter, Dachdecker und Tierzüchter zu. Laut den Forschern zeigen „LLMs über alle Eigenschaften hinweg Vorurteile bei der Benennung und Verwendung von Dialekten“. Die Modelle verknüpfen dialektale Ausdrucksweisen offenbar systematisch mit bestimmten – häufig negativen – Eigenschaften.
Allerdings gewichten die LLMs nicht alle Dialekte gleich. So werden einige Dialekte beispielsweise stärker mit Engstirnigkeit und Nachlässigkeit assoziiert als andere. „Die absoluten Unterschiede bleiben jedoch relativ gering“, so die Forscher. Darüber hinaus stellten die Forscher fest, dass Modelle wie LLaMA 3.1 dazu tendieren, Dialektsprecher oft als männlich und gelegentlich auch als eher älter zu charakterisieren. Dies könnte „ein weiteres grundlegendes Stereotyp“ widerspiegeln. Dies ist insofern bemerkenswert, da moderne LLMs und insbesondere proprietäre Modelle wie jene von OpenAI in der Regel darauf verzichten Menschen anhand ihrer geografischen Herkunft oder Ethnie besonders positiv oder negativ zu charakterisieren. Sie werden sogar dahingehend optimiert, ethnische, geographische und gesellschaftliche Stereotypisierungen zu unterlassen.
Die Vorurteile sind menschgemacht
Der genaue Ursprung der Vorurteile von KI-Sprachmodellen lässt sich nicht pauschal benennen. Es scheint jedoch recht sicher, dass diese vor allem aus dem Trainingsmaterial übernommen wurden. Denn Modelle wie GPT, LLaMA, Qwen und viele andere werden mit Milliarden von Texten trainiert, die vor allem aus dem Internet geladen werden. Darunter befinden sich Bücher, Blogtexte, Social-Media- und Wikipedia-Einträge und vieles mehr. Zahlreiche dieser Texte dürften klassische Vorurteile enthalten, die sich mit Dialekten befassen und die zum Teil seit Jahrzehnten oder sogar noch länger bestehen. Dadurch entsteht für die Modelle eine statistisch relevante Verbindung zwischen Dialekten und ebensolchen Vorurteilen.
Für die Forscher ist dies nicht nur eine interessante Entdeckung, sondern auch gesellschaftlich und kulturell relevant. Denn große Sprachmodelle werden immer breiter und häufiger in vielen Bereichen eingesetzt. Beispielsweise bei der Bewertung von Bewerbern auf ausgeschriebene Stellen, bei der Suche nach Fachkräften im Internet, bei automatisierten Textanalysen oder in Kundenservice-Systemen. Wenn solche Modelle Dialektsprecher systematisch mit geringerer Kompetenz, niedrigerer Bildung oder bestimmten Berufsgruppen verknüpfen, könnten diese Verzerrungen unbemerkt in Entscheidungsprozesse einfließen. Die Forscher warnen daher, dass solche Vorurteile nicht bloß technische Schönheitsfehler sind, sondern reale soziale Folgen haben können. Sie betonen, dass Dialekte dringend besser in Forschung und Modellentwicklung berücksichtigt werden müssen.

Michael Förtsch
Leitender Redakteur
Weiter bei 1E9...

Überschrift 3
Cooler Artikel!

Überschrift 3
Artikel

Überschrift 3
Cooler Artikel!

Überschrift 3
Cooler Artikel!
c4ccf7bc-e0bb-4482-bcee-b34a37f3fa54
692dab13e538efb7fb1875c2



