Studie der Uni Mainz zeigt: KI scheitert oft am Dialekt
- Ein Forschungsteam hat sich mit KI und dem Mainzer Dialekt auseinandergesetzt. (Symbolbild)
- Foto: Andreas Arnold/dpa
- hochgeladen von Cornelia Bauer
Mainz. Künstliche Intelligenz versteht regionale Dialekte oft deutlich schlechter als Standardsprache. Eine Studie der Johannes Gutenberg Universität Mainz zeigt nun, wie stark das Problem beim Mainzer Dialekt „Meenzerisch“ ist.
Ein Forschungsteam der Universität untersuchte mehrere frei verfügbare Sprachmodelle. Das Ergebnis: Viele Systeme erkennen typische Wörter des Dialekts nicht oder interpretieren sie falsch. Damit bleiben regionale Sprachformen in digitalen Anwendungen häufig außen vor.
„Sprachvarianten wie Meenzerisch sind ein wichtiger Teil kultureller Identität, verschwinden aber gleichzeitig aus dem alltäglichen Gebrauch“, sagte Informatiker Minh Duc Bui von der Johannes Gutenberg Universität. In der digitalen Sprachforschung würden regionale Dialekte bislang nur selten berücksichtigt.
Altes Dialektwörterbuch digitalisiert
Für die Untersuchung digitalisierten die Forschenden ein Mainzer Dialektwörterbuch aus dem Jahr 1966. Daraus entstand ein maschinenlesbares Lexikon mit 2351 Dialektwörtern und ihren hochdeutschen Bedeutungen.
Anschließend testete das Team mehrere Sprachmodelle unterschiedlicher Größe. Die Programme sollten zwei Aufgaben lösen.
- Die Bedeutung eines Dialektworts erklären
- Aus einer hochdeutschen Beschreibung den passenden Dialektbegriff bilden
Trefferquote teilweise unter einem Prozent
Die Ergebnisse fielen deutlich aus. Beim Erklären der Wörter lag die durchschnittliche Trefferquote der Modelle bei 4,24 Prozent. Noch schwächer schnitten sie beim aktiven Bilden von Dialektbegriffen ab. Hier lag die Genauigkeit nur bei 0,56 Prozent.
Ko Autor Peter Herbert Kann von der Philipps Universität Marburg sieht darin auch eine kulturelle Herausforderung. Kleinere Sprachformen könnten in digitalen Systemen schnell unsichtbar werden, wenn sie in Trainingsdaten kaum vorkommen.
Ein Grund liegt laut Forschungsteam darin, dass Dialekte meist gesprochen werden. Dadurch existieren nur wenige digitale Texte. Für bessere Ergebnisse seien langfristig spezielle Datensätze und neue Trainingsmethoden nötig, um regionale Sprachvarianten stärker in KI Systeme einzubinden. dpa/red
Autor:Cornelia Bauer aus Speyer |
|
| Cornelia Bauer auf Facebook | |