• Schalter wissen.de
  • Schalter wissenschaft
  • Schalter scinexx
  • Schalter scienceblogs
  • Schalter damals
  • Schalter natur
Scinexx-Logo
Logo Fachmedien und Mittelstand
Scinexx-Claim
Facebook-Claim
Google+ Logo
Twitter-Logo
YouTube-Logo
Feedburner Logo
Dienstag, 16.10.2018
Hintergrund Farbverlauf Facebook-Leiste Facebook-Leiste Facebook-Leiste
Scinexx-Logo Facebook-Leiste

Hate Speech: Warum Algorithmen scheitern

Tippfehler, fehlender Leerraum und Störworte führen künstliche Intelligenzen in die Irre

KI gegen Hasskommentare: Ein Experiment enthüllt, warum viele Algorithmen gegen Hasskommentare in sozialen Medien scheitern. Demnach reichen schon Tippfehler, falsche Grammatik und fehlende Leerstellen zwischen Wörtern aus, um die KI-Systeme in die Irre zu führen. Auch eingestreute Positiv-Wörter wie "Liebe" verhindern eine Erkennung des Hate Speech. Ein gezieltes Training der Algorithmen auf solche Merkmale könnte aber Abhilfe schaffen, so die Forscher.
Gegen Hasskommentare im Netz werden heute Algorithmen eingesetzt  - mit nur begrenztem Erfolg.

Gegen Hasskommentare im Netz werden heute Algorithmen eingesetzt - mit nur begrenztem Erfolg.

So nützlich soziale Medien sind, so ausgeprägt sind auch ihre "dunkeln Seiten". Denn dank Facebook, Twitter und Co grassieren Fake-News und Hasskommentare. Der Echokammer-Effekt sorgt zudem dafür, dass Nutzer keine echte Meinungsvielfalt mehr erleben. Längst versuchen Anbieter, lernfähige Algorithmen zum Herausfiltern von Fake-News und Hate Speech einzusetzen – allerdings nur mit begrenztem Erfolg.

Sieben lernfähige Filtersysteme im Test


Warum Algorithmen so oft an Hasskommentaren scheitern, haben nun Tommi Gröndahl von der Universität Aalto und sein Team untersucht. Für ihr Experiment stellten sie sieben aktuelle KI-Systeme zur Hate Speech-Detektion auf die Probe. Die künstlichen Intelligenzen bekamen dabei im ersten Test Hasskommentare, die aus dem Trainings-Datensatz der jeweils anderen Algorithmen stammten.

Im zweiten Test prüften die Forscher, wie gut die KI-Systeme mit Tippfehlern, falscher Grammatik oder weggelassene Leeerstellen zwischen Wörtern klarkamen. Abschließend ergänzten die Wissenschaftler klassische Hasskommentare wie "I hate you" einfach durch ein positives Wort wie "love" – würde dies die Algorithmen beeinflussen?


Totalversagen bei Leerstellen und "Liebe"


Das Ergebnis: Keines der lernfähigen Maschinenhirne schnitt sonderlich gut ab, wenn es mit Hate Speech aus einem der "fremden" Datensätze konfrontiert war. Auch Tippfehler und falsche Grammatik ließen viele Hasskommentare "durchrutschen". Noch drastischer aber fiel das Ergebnis aus, als die Forscher Leerstellen zwischen Wörtern wegließen: Nicht ein einziger Filteralgorithmus erkannte dann noch eine Formulierung wie "Ihate you"

Das aber bedeutet, dass die gängigen Filter bisher leicht auszutricksen sind: "Im einfachsten Fall verändert man den Text einfach so, dass ein menschlicher Leser die beabsichtigte Botschaft noch versteht, während die Filter den Text falsch klassifizieren", erklären Gröndahl und seine Kollegen. "Gegen solche absichtlich verschleiernden Inputs sind nahezu alle Modelle hilflos." Auch die simple Ergänzung eines Hasskommentars um das Wort "love" führte häufig zu falscher Klassifizierung.

Besseres Training nötig


Wie die Experimente belegten, betrifft dies selbst das relativ fortgeschrittene Google-System "Perspective". Diese lernfähigen Algorithmen bewerten schon bei der Eingabe von Kommentaren deren "Toxizität". Nachdem 2017 eine Studie enthüllte, wie leicht dieses System durch Tippfehler in die Irre zu führen ist, hat Google deutlich nachgebessert. Doch wie die Forscher feststellten, fällt auch "Perspective" auf fehlende Leerstellen und ein ergänztes "love" herein. Der Satz "I hate you" wurde in der Form "Ihate you love" nicht mehr als "toxisch" eingestuft.


Googles "Perspective" prüft schon bei Eingabe auf "Toxizität" der Inhalte - lässt sich aber überlisten.


Nach Ansicht der Wissenschaftler liegt das Problem aber nicht in der Grundstruktur der eingesetzten Modelle und Algorithmen, sondern vielmehr bei den Datensätzen, die bisher zu deren Training verwendet wurden. Sie sollten vermehrt um bewusst falschgeschriebene Begriffe, zusammengezogene Wörter und auch angehängt "Störwörter" ergänzt werden. (ACM AISec workshop, 2018)
(Aalto University, 17.09.2018 - NPO)
 
Printer IconShare Icon