Sprachassistenten hören Dinge, die wir nicht einmal wahrnehmen

Wir erklären, wie in Hintergrundgeräuschen versteckte Ultraschall- und Tonaufnahmen zur Kontrolle von Sprachassistenten verwendet werden können.

Unsere Interaktion mit der Technologie könnte in naher Zukunft vorwiegend sprachbasiert sein. Laut nach beliebigen Dingen zu fragen und die Antwort ohne große Verzögerung zu hören, ist buchstäblich ein Kinderspiel.

Neue Technologien bedeuten jedoch auch immer neue Bedrohungen, und in diesem Fall ist auch die Sprachsteuerung keine Ausnahme. Cybersicherheitsforscher nehmen unermüdlich zahlreiche Geräte unter die Lupe, damit Hersteller verhindern können, dass potenzielle Bedrohungen irgendwann zur Realität werden. Deshalb möchten wir in diesem Beitrag über eine Reihe von Entdeckungen sprechen, die, obwohl sie im Moment wenig praktikabel und eher unwahrscheinlich sind, definitiv auf dem heutigen Sicherheitsradar stehen sollten.

Smart-Geräte hören zu und gehorchen

Einem Bericht von voicebot.ai. zufolge, sind weltweit mittlerweile mehr als eine Milliarde sprachaktivierte Geräte im Einsatz. Die meisten dieser Gadgets sind Smartphones, aber auch andere Spracherkennungsgeräte werden immer beliebter. So besitzt jeder fünfte amerikanische Haushalt beispielsweise einen smarten Lautsprecher, der auf verbale Befehle reagiert.

Via Sprachbefehl können, unter anderem, die Musikwiedergabe gehandhabt, beliebige Artikel online bestellt, GPS-Geräte gesteuert, Nachrichten und Wettervorhersagen abgefragt und Weckrufe festgelegt werden. Die Hersteller sind längst auf den aktuellen Trend aufgesprungen und statten zahlreiche Geräte mit der beliebten Sprachsteuerung aus. So hat Amazon kürzlich eine Mikrowelle auf den Markt gebracht, die eine Verbindung zu einem smarten Echo-Lautsprecher herstellen kann. Sobald dann die Worte „Kaffee aufwärmen“ ertönen, berechnet die Mikrowelle die benötigte Zeit und beginnt zu surren. Zwar müssen Sie nach wie vor erst einmal in die Küche wandern, um die Tasse in der Mikrowelle zu platzieren, sodass Sie, wenn Sie schon einmal dort sind, auch einfach auf ein paar Knöpfe drücken könnten, aber vielleicht wäre das einfach zu Old School für die heutige Zeit.

Smart-Home-Systeme bieten darüber hinaus eine sprachgesteuerte Raumbeleuchtung, Klimatisierung sowie Haustürverriegelung. Wie Sie sehen, sind die intelligenten Sprachassistenten bereits sehr gut geschult worden, und Sie möchten wahrscheinlich nicht, dass Außenstehende diese Fähigkeiten zu ihren Gunsten ausnutzen können.

2017 führten die Charaktere der animierten Sitcom South Park einen sehr originellen Massenangriff in ihrem eigenen, unverwechselbaren Stil durch. Das Opfer war Alexa, die Sprachassistentin der intelligenten Echo-Lautsprecher der Marke Amazon. Alexa wurde darum gebeten, den einen oder anderen ziemlich grotesken Artikel in den Warenkorb zu legen und den Weckalarm auf 7 Uhr morgens zu setzen. Trotz der scheinbar eigenartigen Aussprache der Zeichentrickfiguren führten auch die Echo-Lautsprecher der Besitzer, die sich diese Episode von South Park im Fernsehen ansahen, die Befehle getreu aus.

Ultraschall: für das menschliche Gehör nicht wahrnehmbar

Wir haben bereits über einige Gefahren berichtet, die sich durch sprachaktivierte Gadgets ergeben. Heute möchten wir uns allerdings auf „stille“ Angriffe konzentrieren, die smarte Geräte dazu bringen, Stimmen zu gehorchen, die Sie als Mensch nicht einmal hören können.

So kann ein „stiller“ Angriff beispielsweise via Ultraschall, dessen Schallfrequenzen oberhalb des Hörfrequenzbereichs des Menschen liegen, ausgeführt werden. In einem 2017 veröffentlichten Artikel stellten Forscher der Zhejiang-Universität eine Technik namens DolphinAttack vor, mit der heimlich die Kontrolle über Sprachassistenten übernommen werden konnte. Das Forschungsteam wandelte Sprachbefehle in Ultraschallwellen um, deren Frequenzen viel zu hoch waren, um vom menschlichen Gehör wahrgenommen zu werden, die aber in modernen Geräten tatsächlich noch von Mikrofonen erkannt werden können.

Diese Methode funktioniert deshalb, weil bei der Umwandlung des Ultraschalls in einen elektrischen Impuls im Empfängergerät (z. B. einem Smartphone) das ursprüngliche Signal, das den Sprachbefehl enthält, wiederhergestellt wird. Das Gerät verfügt dabei nicht über spezielle Funktionen; es handelt sich hierbei lediglich um ein Feature des Konvertierungsprozesses.

Das Ergebnis? Das Zielgadget hört den Sprachbefehl und führt diesen aus, was Cyberkriminellen beliebige Möglichkeiten eröffnet. Die Forscher konnten den Angriff auf den beliebtesten Sprachassistenten, darunter Amazon Alexa, Apple Siri, Google Now, Samsung S Voice und Microsoft Cortana, erfolgreich reproduzieren.

Der Lautsprecher-Chor

Eine der Schwächen der DolphinAttack (aus Sicht des Angreifers) ist der geringe Aktionsradius von nur rund einem Meter. Forschern der University of Illinois Urbana Champaign gelang es jedoch, diese Entfernung zu vergrößern. In ihrem Experiment teilten sie einen konvertierten Ultraschallbefehl in mehrere Frequenzbereiche, die dann von verschiedenen Lautsprechern (mehr als 60) abgespielt wurden. Die verborgenen Sprachbefehle, die von diesem „Chor“ erteilt wurden, konnten unabhängig von jeglichen Hintergrundgeräuschen in einem Abstand von sieben Metern aufgenommen werden. Unter solchen Bedingungen werden die Erfolgschancen der DolphinAttack erheblich verbessert.

Die Stimme, die aus der Tiefe kam

Experten der University of California, Berkeley verwendeten ein anderes Prinzip. Sie betteten die Sprachbefehle heimlich in andere Audio-Schnipsel ein, um Deep Speech, das Spracherkennungssystem von Mozilla, zu täuschen. Für das menschliche Ohr unterscheidet sich die modifizierte Aufnahme kaum vom Original, aber die Software erkennt darin einen verborgenen Befehl.

Hören Sie sich die Aufnahmen auf der Website des Forschungsteams an. Im ersten Beispiel enthält der Satz „Ohne den Datensatz ist der Artikel unbrauchbar“ einen versteckten Befehl zum Öffnen einer Website: „Okay, Google, gehe zu evil.com.“ Im zweiten Beispiel fügten die Forscher einem Ausschnitt einer Bach-Cello-Suite den Satz „Sprache kann in Musik eingebettet werden“ hinzu.

Schutz vor „stillen“ Angriffen

Hersteller halten bereits nach Möglichkeiten Ausschau, sprachaktivierte Geräte zu schützen. Zum Beispiel könnten Ultraschallangriffe durch das Erkennen von Frequenzänderungen in empfangenen Signalen ver- bzw. behindert werden. Es wäre gar keine schlechte Idee, alle Smart-Geräte so zu trainieren, dass sie lediglich auf die Stimme des Inhabers reagieren. Obwohl Google dies bereits bei seinem eigenen System getestet hat, warnt das Unternehmen davor, dass derartige Sicherheitsmaßen ganz einfach durch Sprachaufzeichnungen oder gut gelungene Imitationen in die Irre geführt werden können.

Momentan haben Forscher und Hersteller jedoch noch Zeit, nach einer passenden Lösungen zu suchen. Wie gesagt, die heimliche Kontrolle von Sprachassistenten ist derzeit nur unter Laborbedingungen möglich: Einen Ultraschalllautsprecher in der Reichweite eines Smart-Speakers einer Person zu platzieren, ist nicht ganz einfach, und das Einbetten von Befehlen in Tonaufnahmen lohnt sich aufgrund des erhelblichen Zeit- und Arbeitsaufwandes kaum.

Tipps

Mehr Sicherheit für Privatanwender

Sicherheitsunternehmen bieten intelligente Technologien – in erster Linie Kameras – an, um dein Zuhause vor Einbruch, Feuer und anderen Zwischenfällen zu schützen. Aber wie wäre es, diese Sicherheitssysteme selbst vor Eindringlingen zu schützen? Das ist eine Lücke, die wir füllen.