• Schalter wissen.de
  • Schalter wissenschaft
  • Schalter scinexx
  • Schalter scienceblogs
  • Schalter damals
  • Schalter natur
Scinexx-Logo
Logo Fachmedien und Mittelstand
Scinexx-Claim
Facebook-Claim
Google+ Logo
Twitter-Logo
YouTube-Logo
Feedburner Logo
Mittwoch, 29.03.2017
Hintergrund Farbverlauf Facebook-Leiste Facebook-Leiste Facebook-Leiste
Scinexx-Logo Facebook-Leiste

Computer hört bald nach Vorbild des Gehirns

Neue Software soll Spracherkennung verbessern

Was das Gehirn scheinbar so mühelos bewältigt – die Spracherkennung -, stellt Computer oft noch vor unlösbare Aufgaben. Jetzt haben Forscher ein mathematisches Modell entwickelt, mit dem die maschinelle Verarbeitung von gesprochener Sprache deutlich verbessert werden könnte. Die Algorithmen imitieren dabei Mechanismen des Gehirns, wie die Wissenschaftler in der Fachzeitschrift „PLoS Computational Biology“ berichten.
Computertastatur

Computertastatur

Wie schwer es Computern fällt, mit gesprochener Sprache umzugehen, haben wahrscheinlich viele Menschen schon einmal erlebt. Starke Nerven braucht zum Beispiel, wer mit einem der Sprachautomaten kommuniziert, die von vielen Telefonhotlines eingesetzt werden. Wird nur ein wenig zu schnell oder zu langsam gesprochen, ist die Aussprache undeutlich oder gibt es ein Störgeräusch im Hintergrund, scheitert der Automat in der Regel. Grund dafür ist das sehr störungsanfällige Verfahren, mit dem Computerprogramme bisher Sprache verarbeiten. Der Computer versucht dabei vor allem, charakteristische Merkmale in den Frequenzen der Stimme zu erkennen, um Worte zu identifizieren.

Gehirn nutzt zeitliche Ebenen


„Das Gehirn nutzt wahrscheinlich ein anderes Verfahren", sagt Stefan Kiebel vom Leipziger Max Planck-Institut für Kognitions- und Neurowissenschaften. Der Forscher vermutet, dass dabei besonders die Analyse zeitlicher Abfolgen eine große Rolle spielt. "Viele Wahrnehmungsreize unserer Umwelt lassen sich als zeitliche Abfolgen beschreiben." So bestehen Musik und gesprochene Sprache aus hierarchisch aufeinander aufbauenden Abschnitten.

Das Gehirn, so die Hypothese des Wissenschaftlers, unterteilt dabei die verschiedenen Signale von den kleinsten, schnell veränderlichen Elementen (zum Beispiel einzelnen Sprachlauten wie "u" oder "e") bis hin zu den größeren, langsam veränderlichen Informationen wie beispielsweise dem Gesprächsthema. Die Bedeutung der Informationen auf verschiedenen zeitlichen Ebenen sei für die Verarbeitung von Wahrnehmungsreizen wahrscheinlich sehr viel größer als bisher angenommen.


„Das Gehirn sucht permanent nach zeitlicher Struktur in der Umwelt, aus der es ableiten kann, was als nächstes passieren könnte", erklärt der Wissenschaftler. Auf diese Weise kann das Gehirn etwa, basierend auf den sich langsam verändernden Informationen, die nächsten Laute häufig bereits erahnen. So wird, wenn sich das Gesprächsthema z.B. um den heißen Sommer dreht, der Wortbeginn "So…" eher in "Sonne" als "Sofa" enden.

Modell ahmt neuronale Strategien nach


Um ihre Annahmen auf die Probe zu stellen, entwarfen die Max-Planck-Forscher gemeinsam mit Kollegen des Wellcome Trust Centre for Neuroimaging in London ein mathematisches Modell, das die neuronalen Abläufe bei der Sprachverarbeitung stark vereinfacht nachahmt. Neuronale Strukturen wurden dabei mit Algorithmen nachgebildet, die akustische Reize auf verschiedenen zeitlichen Ebenen verarbeiten sollten.

Tatsächlich gelang es so, ein System zu entwerfen, das Sprache verarbeiten und einzelne Sprachlaute und Silben erkennen kann. Anders als bisherige Spracherkennungssysteme war es zudem in der Lage, auch schneller abgespielte Sprache zu verstehen. Das System besaß zudem die Fähigkeit des Gehirns, die nächsten Laute "vorherzusagen": Erwies sich eine Vorhersage dabei als falsch, weil die Forscher aus den bekannten Lauten eine unbekannte Silbe kombinierten, war das Modell fähig, den Fehler zu bemerken.

Zur Spracherkennung ausbaubar


Die "Sprache", mit der das Modell getestet wurde, war vereinfacht - sie bestand aus den vier Vokalen a, e, i und o, die sich jeweils zu "Silben" aus vier Lauten zusammensetzten. "Zunächst ging es nur darum zu prüfen, ob die prinzipielle Annahme stimmt", erklärt Kiebel. Mit mehr Zeit und Mühe könne man aber auch die schwieriger voneinander abzugrenzenden Konsonanten einbeziehen und neben Lauten und Silben weitere Hierarchie-Ebenen für Wörter und Sätze einbauen. So ließe sich das Modell im Prinzip auch auf natürliche Sprachen übertragen.

"Interessant für die Neurowissenschaften ist, dass die Reaktionen des Modells dem ähnelten, was mit einem echten menschlichen Gehirn zu beobachten wäre", sagt Stefan Kiebel. Dies deutet darauf hin, dass das Modell der Forscher den tatsächlichen Abläufen im Gehirn entspricht. Zugleich liefert das Modell neue Ansätze für die Weiterentwicklung von maschineller Spracherkennung.
(Max-Planck-Gesellschaft, 17.08.2009 - NPO)
 
Printer IconShare Icon