• Schalter wissen.de
  • Schalter wissenschaft
  • Schalter scinexx
  • Schalter scienceblogs
  • Schalter damals
  • Schalter natur
Scinexx-Logo
Logo Fachmedien und Mittelstand
Scinexx-Claim
Facebook-Claim
Google+ Logo
Twitter-Logo
YouTube-Logo
Feedburner Logo
Freitag, 17.08.2018
Hintergrund Farbverlauf Facebook-Leiste Facebook-Leiste Facebook-Leiste
Scinexx-Logo Facebook-Leiste

KI verarbeitet Geräusche wie Menschen

Neuronales Netzwerk analysiert Musik und Sprache wie ein menschliches Gehirn

Maschinenhirne hören zu: Forscher haben ein neuronales Netzwerk entwickelt, das Musik und Sprache ähnlich wie ein menschliches Gehirn verarbeitet. Nach der Lernphase erkannte der Computer die Geräusche genauso gut wie die Probanden und machte sogar die gleichen Fehler. Mensch und Maschine verarbeiteten die Informationen hierarchisch und waren sich dabei erstaunlich ähnlich, berichten die Forscher.
Ein neuronales Netzwerk erkennt Musik und Sprache so gut wie das menschliche Gehirn und verarbeitet Geräusche ebenso hierarchisch.

Ein neuronales Netzwerk erkennt Musik und Sprache so gut wie das menschliche Gehirn und verarbeitet Geräusche ebenso hierarchisch.

Dubstep, Trip Hop, Fusion Jazz – es gibt heute etliche Musikgenres mit eigenen Subgenres, die sich auch noch miteinander kombinieren lassen. Trotz der schier endlosen Vielfalt schafft es der auditive Cortex unseres Gehirns ausgezeichnet, solche Genres zu unterscheiden – wenn auch nicht immer der passende Name bekannt ist. Doch wie schafft unser Gehirn das?

Um die Arbeitsprozesse unseres Gehirns zu verstehen, greifen Forscher seit einigen Jahren zunehmend auf neuronale Netzwerke als Modellsysteme zurück. Diese künstlichen Intelligenzen können Aufgaben ausführen, die wichtig für den Menschen sind – und erledigen das häufig sogar besser. So erkennen Computer mittlerweile Sprache, Skizzen und Texte, helfen bei der Diagnose von Krankheiten oder schlagen den Menschen in komplexen Spielen, wie Schach, Go und Poker.

Forscher füttern Computer mit Musikclips


Alexander Kell vom Massachusetts Institute of Technology (MIT) und seine Kollegen haben nun solche neuronalen Netzwerke genutzt, um die auditive Verarbeitung im Gehirn besser zu verstehen. "Diese Art von sensorischer Verarbeitung war bisher schwer zu verstehen, weil wir weder eine klare theoretische Grundlage hatten, noch die Möglichkeit, erklärende Modelle zu entwickeln", sagt Seniorautor Josh McDermott vom MIT.


Zunächst trainierten die Wissenschaftler ihr neuronales Netzwerk darauf, sowohl Sprache als auch Musikgenres zu erkennen. Für die Spracherkennung fütterten sie den Computer mit tausenden von zweisekündigen Aufnahmen von sprechenden Personen. Aus diesen Aufnahmen sollte das Netzwerk jeweils das mittlere Wort identifizieren. Zudem sollte es anhand von kurzen Musikclips das passende Genre erkennen. Hintergrundgeräusche machten die Aufgaben realistischer und auch schwieriger.

Computer und Mensch hören gleich gut


Das Ergebnis: Nach mehreren tausend Clips konnte das Netzwerk genauso gut "hinhören" wie ein Mensch und erkannte Sprache und Musikgenres zuverlässig. "Die Idee ist, dass das Modell mit der Zeit besser und besser wird und ein allgemeines Prinzip erlernt", sagt Kell. "Wenn man einen neuen Ton abspielt, den das Modell noch nie zuvor gehört hat, sollte es gut abschneiden – und das ist in der Praxis häufig der Fall."

Der Computer glich dem Menschen dabei nicht nur im Erfolg. Ohne dazu programmiert worden zu sein, neigte der Computer zu den gleichen Fehlern wie der Mensch. Gehirn und Maschine scheinen somit den gleichen Beschränkungen unterworfen zu sein.


Neuronales Netzwerk verarbeitet Geräusche hierarchisch


Mit ihrem erprobten Netzwerk wollten die Forscher nun eine schon lange existierende Frage beantworten: Verarbeitet der auditive Kortex Informationen hierarchisch? In einem hierarchischen System verarbeiten unterschiedliche Hirnregionen Informationen nacheinander, wenn sie durch das Gehirn strömen. Der visuelle Cortex ist genauso organisiert: Der primäre visuelle Cortex reagiert früh auf simple Eigenschaften wie Farbe und Anordnung. Später folgende Regionen verarbeiten komplexere Aufgaben wie das Erkennen von Objekten.

Die Forscher beobachteten, dass auch ihr Computermodell die Geräusche hierarchisch verarbeitete. So erfüllte das Netzwerk die Aufgaben am besten, wenn es die Verarbeitung in zwei Stufen einteilte. In der ersten Stufe bearbeitete es sowohl Sprache als auch Musik. Danach spaltete sich die Analyse in zwei Teilgebiete: eines für Sprache, eines für Musik .

Zudem erkannte das Netzwerk grundlegende Geräuschmerkmale wie Frequenzen am einfachsten zu Beginn der Analyse. Als die Daten dann durch das Netzwerk wanderten, fiel es ihm zunehmend schwerer Frequenzen herauszufiltern, aber dafür einfacher, höhere Aufgaben zu erledigen – zum Beispiel Wörter zu erkennen.

Gehirn und Computer arbeiten ähnlich


Aber wie sehr gleichen sich die Abläufe im Netzwerk und die in unserem Gehirn? Um das herauszufinden, analysierten die Forscher die Reaktion des auditiven Cortex auf Geräusche mittels funktioneller Magnetresonanztomographie (fMRI). Beim anschließenden Vergleich mit ihrem Computermodell fanden die Forscher Übereinstimmungen. So entsprach die mittlere Phase des Computermodells der Aktivität im primären Cortex, die späte Phase glich Prozessen außerhalb davon. Für die Forscher ist dies ein starker Hinweis, dass unser Gehirn Geräusche hierarchisch verarbeitet, ganz ähnlich wie visuelle Eindrücke. (Neuron, 2018; doi: 10.1016/j.neuron.2018.03.044)
(Massachusetts Institute of Technology, 23.04.2018 - YBR)
 
Printer IconShare Icon