Anzeige
Informatik

Hate Speech: Warum Algorithmen scheitern

Tippfehler, fehlender Leerraum und Störworte führen künstliche Intelligenzen in die Irre

Gegen Hasskommentare im Netz werden heute Algorithmen eingesetzt - mit nur begrenztem Erfolg. © bigtunaonline/ iStock.com

KI gegen Hasskommentare: Ein Experiment enthüllt, warum viele Algorithmen gegen Hasskommentare in sozialen Medien scheitern. Demnach reichen schon Tippfehler, falsche Grammatik und fehlende Leerstellen zwischen Wörtern aus, um die KI-Systeme in die Irre zu führen. Auch eingestreute Positiv-Wörter wie „Liebe“ verhindern eine Erkennung des Hate Speech. Ein gezieltes Training der Algorithmen auf solche Merkmale könnte aber Abhilfe schaffen, so die Forscher.

So nützlich soziale Medien sind, so ausgeprägt sind auch ihre „dunkeln Seiten“. Denn dank Facebook, Twitter und Co grassieren Fake-News und Hasskommentare. Der Echokammer-Effekt sorgt zudem dafür, dass Nutzer keine echte Meinungsvielfalt mehr erleben. Längst versuchen Anbieter, lernfähige Algorithmen zum Herausfiltern von Fake-News und Hate Speech einzusetzen – allerdings nur mit begrenztem Erfolg.

Sieben lernfähige Filtersysteme im Test

Warum Algorithmen so oft an Hasskommentaren scheitern, haben nun Tommi Gröndahl von der Universität Aalto und sein Team untersucht. Für ihr Experiment stellten sie sieben aktuelle KI-Systeme zur Hate Speech-Detektion auf die Probe. Die künstlichen Intelligenzen bekamen dabei im ersten Test Hasskommentare, die aus dem Trainings-Datensatz der jeweils anderen Algorithmen stammten.

Im zweiten Test prüften die Forscher, wie gut die KI-Systeme mit Tippfehlern, falscher Grammatik oder weggelassene Leeerstellen zwischen Wörtern klarkamen. Abschließend ergänzten die Wissenschaftler klassische Hasskommentare wie „I hate you“ einfach durch ein positives Wort wie „love“ – würde dies die Algorithmen beeinflussen?

Totalversagen bei Leerstellen und „Liebe“

Das Ergebnis: Keines der lernfähigen Maschinenhirne schnitt sonderlich gut ab, wenn es mit Hate Speech aus einem der „fremden“ Datensätze konfrontiert war. Auch Tippfehler und falsche Grammatik ließen viele Hasskommentare „durchrutschen“. Noch drastischer aber fiel das Ergebnis aus, als die Forscher Leerstellen zwischen Wörtern wegließen: Nicht ein einziger Filteralgorithmus erkannte dann noch eine Formulierung wie „Ihate you“

Anzeige

Das aber bedeutet, dass die gängigen Filter bisher leicht auszutricksen sind: „Im einfachsten Fall verändert man den Text einfach so, dass ein menschlicher Leser die beabsichtigte Botschaft noch versteht, während die Filter den Text falsch klassifizieren“, erklären Gröndahl und seine Kollegen. „Gegen solche absichtlich verschleiernden Inputs sind nahezu alle Modelle hilflos.“ Auch die simple Ergänzung eines Hasskommentars um das Wort „love“ führte häufig zu falscher Klassifizierung.

Besseres Training nötig

Wie die Experimente belegten, betrifft dies selbst das relativ fortgeschrittene Google-System „Perspective“. Diese lernfähigen Algorithmen bewerten schon bei der Eingabe von Kommentaren deren „Toxizität“. Nachdem 2017 eine Studie enthüllte, wie leicht dieses System durch Tippfehler in die Irre zu führen ist, hat Google deutlich nachgebessert. Doch wie die Forscher feststellten, fällt auch „Perspective“ auf fehlende Leerstellen und ein ergänztes „love“ herein. Der Satz „I hate you“ wurde in der Form „Ihate you love“ nicht mehr als „toxisch“ eingestuft.

Googles „Perspective“ prüft schon bei Eingabe auf „Toxizität“ der Inhalte – lässt sich aber überlisten.© Gröndahl et al.

Nach Ansicht der Wissenschaftler liegt das Problem aber nicht in der Grundstruktur der eingesetzten Modelle und Algorithmen, sondern vielmehr bei den Datensätzen, die bisher zu deren Training verwendet wurden. Sie sollten vermehrt um bewusst falschgeschriebene Begriffe, zusammengezogene Wörter und auch angehängt „Störwörter“ ergänzt werden. (ACM AISec workshop, 2018)

(Aalto University, 17.09.2018 – NPO)

Teilen:
Anzeige

In den Schlagzeilen

News des Tages

NAchglühen von GRB 221009A

Rekord-Ausbruch überrascht Astronomen

Neue fossile Riesenschlange entdeckt

Warum Chinas Großstädte absinken

Landschaft unter dem Thwaites-Gletscher kartiert

Diaschauen zum Thema

Dossiers zum Thema

Big Data - Mehr Daten – mehr Erkenntnis?

Bücher zum Thema

Die berechnete Welt - Leben unter dem Einfluss von Algorithmen Von Nora S. Stampfl

50 Schlüsselideen Digitale Kultur - Tom Chatfield und Carl Freytag

Top-Clicks der Woche