Anzeige

Alexa, Siri und Co hören mit

Sprachassistenten reagieren auch auf falsch gehörte Phrasen – und zeichnen dann auf

Sprachassistenten
Gängige Sprachassistenten hören nicht nur auf das eigentliche Triggerwort, sondern springen auch bei ähnlich klingenden Phrasen an. © RUB/ Katja Marquard

Ein Test bestätigt: Sprachassistenten von Amazon, Apple oder Google springen häufig auch dann an, wenn sie nicht sollen – und zeichnen dann unsere Gespräche und andere Umgebungsgeräusche auf. Als Auslöser reichen Fernsehsendungen oder eine Unterhaltung zwischen Menschen im gleichen Raum. Die Mitschnitte werden häufig zum Hersteller geschickt und könnten dort sogar von Menschen gehört und ausgewertet werden.

Ob Alexa, Siri, Cortana oder der Google Assistent: Sprachassistenten erfreuen sich steigender Beliebtheit und stehen heute schon in Millionen Haushalten weltweit. Diese lernfähigen Systeme reagieren auf unsere Sprachbefehle und liefern uns Informationen aus dem Netz, steuern Geräte oder kaufen sogar online für uns ein. Aktiviert werden diese digitalen Assistenten über ein spezielles Trigger-Wort – oft ist dies ihr gesprochener Name.

Aber schon länger gibt es Berichte darüber, dass Alexa und Co sich häufiger verhören – sie reagieren dann auf Begriffe, die so ähnlich klingen wie ihr Triggerwort.

Alexa, Siri, Google und Co im TV-Test

Wie oft das tatsächlich vorkommt und welche Wörter diese Fehlreaktion auslösen, haben nun Lea Schönherr von der Ruhr-Universität Bochum (RUB) und ihre Kollegen erstmals systematisch getestet. Dafür setzten sie elf verschiedene Sprachassistenten von acht Herstellern stundenlang einer deutschen, englischen und chinesischen Beschallung aus. Neben Alexa, Siri, Cortana, dem Google Assistent und Houndify von der Telekom waren auch drei chinesische Modelle im Test vertreten.

Die Geräte bekamen unter anderem TV-Nachrichtensendungen, sowie „Tatort“-Folgen und ganze Staffeln der Serien „Game of Thrones“ oder „Modern Family“ vorgespielt. Auch professionelle Audio-Datensätze, die zum Training von Sprachassistenten verwendet werden, waren dabei. Die Forscher hatten alle Geräte mit LEDs ausgestattet, die anzeigten, wenn sich der Sprachassistent aktivierte, ein weiteres Messgerät registrierte ob und wann ein Sprachassistent Daten nach außen sendete.

Anzeige

Liste mit tausend falschen Triggern

Das Ergebnis: „Insgesamt haben wir hunderte versehentlicher Auslöser gefunden“, berichten Schönherr und ihre Kollegen. Schon im ersten Test sammelten sie eine Liste von tausend falschen Auslösewörtern. „Die Geräte sind mit Absicht etwas liberal programmiert, weil sie ihre Menschen verstehen können sollen. Sie springen also eher einmal zu viel als zu wenig an“, resümiert Dorothea Kolossa von der RUB.

Meist handelt es sich bei den fälschlich auslösenden Geräuschen um Phrasen, die dem Triggerwort akustisch ähneln. Abhängig von der Betonung fühlt sich Alexa im Englischen beispielsweise von den Wörtern „unacceptable“ und „election“ angesprochen und Google durch „OK, cool“. Im Deutschen lässt sich Amazon beispielsweise durch „Am Sonntag“ und Siri durch den Begriff „Daiquiri“ täuschen.

Fehlreaktion in zwei Stufen

Springt ein Sprachassistent auf eines dieser Wörter an, folgt ein zweistufiger Prozess: Zunächst analysiert das Gerät lokal, ob in der wahrgenommenen Sprache ein Triggerwort enthalten ist. Vermutet das Gerät, das Aktivierungswort gehört zu haben, fängt es an, dass derzeitige Gespräch aufzuzeichnen und es in die Cloud des Herstellers hochzuladen. Dort analysiert ein zweites, leistungsfähigeres Programm noch einmal, ob das Triggerwort vorkommt.

Identifiziert die leistungsfähigere Cloud-Analyse dann den Begriff als Fehltrigger, bleibt der Sprachassistent stumm, nur seine Kontrollleuchte leuchtet kurz auf. Lässt sich auch die Cloud täuschen, meldet sich das Gerät hörbar. So täuschte die Phrase „We like some privacy“ bei Alexa nur die lokale Analyse, der Ausdruck „A letter“ dagegen auch die Cloud.

Gesprächsschnipsel landen beim Hersteller

Das Problem dabei: Durch dieses „Verhören“ senden Alexa, Siri und Co Daten oft mehrere Sekunden Audiomitschnitt zu den Herstellern, wo sie dann teilweise von Menschen transkribiert werden, um solch einen Fehltrigger in der Zukunft zu vermeiden. „Aus Engineering-Sicht ist das Vorgehen nachvollziehbar, denn die Systeme können nur mithilfe solcher Daten verbessert werden“, sagt Thorsten Holz von der RUB.

Aus Privacy-Sicht sei dies aber bedenklich, weil teils sehr private Unterhaltungen bei Fremden landen können. „Die Hersteller müssen einen Spagat zwischen Datenschutz und technischer Optimierung schaffen“, so Holz. Bei Google und Apple müssen die Nutzer nach deren Auskunft einer solche Auswertung aktiv zustimmen, bei Amazon kann man dem zumindest widersprechen.

Google hat zudem derzeit die manuelle Auswertung nach eigenen Angaben ausgesetzt, will aber in Zukunft wieder Menschen einsetzen, um die Sprachtechnologie zu verbessern. Apple verwies auf eine Stellungnahme vom August 2019, in der es heißt, alle Daten von Siri würden unter einer zufälligen Kennung verarbeitet und nicht mit der Apple-ID oder der Telefonnummer verknüpft. Amazon teilte mit, nur ein „Bruchteil von einem Prozent der Alexa-Anfragen“ werde manuell bearbeitet. Die Aufnahmen seien dabei nicht mit Kundendaten verknüpft und nur eine begrenzte Anzahl von Mitarbeitern habe Zugriff.

Mehr über ihre Tests und die Ergebnisse haben die Forscher auf einer eigenen Webseite dazu zusammengetragen.

Quelle: Ruhr-Universität Bochum, NDR

Anzeige

In den Schlagzeilen

Diaschauen zum Thema

Dossiers zum Thema

News des Tages

Sonne

Zweiter Fusionsweg in der Sonne nachgewiesen

Hawaii: Submarine Süßwasservorkommen entdeckt

Bücher zum Thema

Smarte Maschinen - Wie Künstliche Intelligenz unser Leben verändert von Ulrich Eberl

Maschinen mit Bewusstsein - Wohin führt die künstliche Intelligenz? von Bernd Vowinkel

Top-Clicks der Woche