Umgebungslichtsensor als Spionagetool

Eine neue Studie über einige unerwartete Eigenschaften, die zur Standardfunktion aller modernen Smartphones und Tablets gehören.

Ein Artikel im Science Magazine, der Mitte Januar veröffentlicht wurde, beschreibt eine nicht triviale Methode, um Smartphone-Benutzer mithilfe eines Umgebungslichtsensors auszuspionieren. Alle Smartphones und Tablets verfügen über diese integrierte Komponente – ebenso wie viele Laptops und Fernseher. Ihre Hauptaufgabe besteht darin, die Menge des Umgebungslichts in der Umgebung, in der sich das Gerät befindet, zu erfassen und die Helligkeit des Displays entsprechend anzupassen.

Zunächst müssen wir jedoch erklären, warum ein Schadakteur ein für das Filmen ungeeignetes Tool anstelle der normalen Kamera des Zielgeräts verwendet. Der Grund dafür ist, dass solche „ungeeigneten“ Sensoren normalerweise völlig ungeschützt sind. Nehmen wir an, ein Angreifer verleitet einen Benutzer dazu, ein Schadprogramm auf seinem Smartphone zu installieren. Die Malware hat Schwierigkeiten, Zugriff auf häufig angegriffene Komponenten wie das Mikrofon oder die Kamera zu erhalten. Aber zum Lichtsensor? Kinderleicht.

Die Forscher haben also bewiesen, dass dieser Umgebungslichtsensor anstelle einer Kamera verwendet werden kann; z. B. um einen Schnappschuss von der Hand des Benutzers zu erhalten, die eine PIN auf einer virtuellen Tastatur eingibt. Theoretisch ist es durch die Analyse solcher Daten möglich, das Kennwort selbst zu rekonstruieren. Dieser Beitrag erklärt die Besonderheiten im Klartext.

„Aufnahmen machen“ mit einem Lichtsensor. Quelle

 

Ein Lichtsensor ist eine ziemlich primitive Technologie. Es handelt sich um eine lichtempfindliche Fotozelle, die mehrmals pro Sekunde die Helligkeit des Umgebungslichts misst. Digitalkameras verwenden sehr ähnliche (wenn auch kleinere) Lichtsensoren, von denen es jedoch viele Millionen gibt. Das Objektiv projiziert ein Bild auf diese Fotozellenmatrix, die Helligkeit jedes Elements wird gemessen und das Ergebnis ist ein digitales Foto. So könnte man einen Lichtsensor als die primitivste Digitalkamera bezeichnen, die es gibt: Ihre Auflösung beträgt genau ein Pixel. Wie kann so etwas jemals erfassen, was um das Gerät herum vorgeht?

Die Forscher nutzten das Helmholtz-Reziprozitätsprinzip, das bereits Mitte des 19. Jahrhunderts formuliert wurde. Dieses Prinzip wird beispielsweise bei Computergrafiken angewendet und vereinfacht dort die Berechnungen erheblich. Im Jahr 2005 bildete dieses Prinzip die Grundlage für die vorgeschlagene Methode der dualen Fotografie. Nehmen wir zur Verdeutlichung eine Illustration aus diesem Papier:

Links ist ein echtes Foto des Objekts zu sehen. Rechts ein Bild, das aus der Sicht der Lichtquelle berechnet wurde.

Links ist ein echtes Foto des Objekts zu sehen. Rechts ein Bild, das aus der Sicht der Lichtquelle berechnet wurde. Quelle

 

Stellen Sie sich vor, Sie fotografieren Objekte auf einem Tisch. Eine Lampe beleuchtet die Objekte, das reflektierte Licht trifft auf das Objektiv der Kamera und das Ergebnis ist ein Foto. Nichts Ungewöhnliches. In der Abbildung oben ist das Bild links genau das – ein normales Foto. Als nächstes begannen die Forscher, stark vereinfacht, die Helligkeit der Lampe zu ändern und die Veränderungen der Beleuchtung aufzuzeichnen. Als Ergebnis sammelten sie genug Informationen, um das Bild rechts zu rekonstruieren – aufgenommen aus der Sicht der Lampe. Es gibt und gab an dieser Stelle niemals eine Kamera, aber basierend auf den Messungen konnte die Szene erfolgreich rekonstruiert werden.

Am interessantesten ist, dass für diesen Trick nicht einmal eine Kamera erforderlich ist. Ein einfacher Fotoresistor reicht aus … genau wie der in einem Umgebungslichtsensor. Ein Fotoresistor (oder „Ein-Pixel-Kamera“) misst Veränderungen des von Objekten reflektierten Lichts, und diese Daten werden verwendet, um ein Foto von ihnen zu erstellen. Die Bildqualität ist gering, und es müssen viele Messungen vorgenommen werden – insgesamt Hunderte oder Tausende.

Versuchsaufbau

Versuchsaufbau: ein Samsung Galaxy View-Tablet und die Hand einer Schaufensterpuppe. Quelle

 

Aber zurück zu der Studie und zum Lichtsensor. Die Autoren des Artikels verwendeten ein recht großes Samsung Galaxy View-Tablet mit 17-Zoll-Bildschirm Auf dem Bildschirm des Tablets wurden verschiedene Muster aus schwarzen und weißen Rechtecken angezeigt. Vor den Bildschirm wurde eine Schaufensterpuppe in der Rolle eines Benutzers gesetzt, der etwas über die Bildschirmtastatur eingibt. Der Lichtsensor erfasste die Helligkeitsänderungen. In mehreren hundert Messungen dieser Art entstand ein Bild der Hand der Schaufensterpuppe. Das heißt, die Autoren wendeten das Helmholtz-Reziprozitätsprinzip an, um ein Foto der Hand zu erhalten, das aus der Sicht des Bildschirms aufgenommen wurde. Die Forscher haben aus dem Tablet-Display eine extrem einfache Kamera gemacht.

Vergleich von realen Objekten vor dem Tablet mit den Aufnahmen des Lichtsensors.

Vergleich von realen Objekten vor dem Tablet mit den Aufnahmen des Lichtsensors. Quelle

 

Es stimmt, das Bild ist nicht das schärfste. Das Bild oben links zeigt, was aufgenommen werden sollte: in einem Fall die offene Handfläche der Schaufensterpuppe; in einem anderen, wie der „Benutzer“ aussieht, wenn er etwas auf dem Display tippt. Die Bilder in der Mitte sind ein rekonstruiertes „Foto“ mit einer Auflösung von 32 x 32 Pixeln, auf dem fast nichts zu sehen ist – zu viel Rauschen in den Daten. Aber mit Hilfe von Algorithmen des maschinellen Lernens wurde das Rauschen herausgefiltert, um die Bilder rechts zu erzeugen, in denen wir die Handpositionen vom Rest unterscheiden können. Die Autoren des Artikels nennen weitere Beispiele für typische Gesten, die Menschen bei der Verwendung eines Tablet-Touchscreens ausführen. Oder besser gesagt, Beispiele dafür, wie es ihnen gelungen ist, sie zu „fotografieren“:

Erfassung verschiedener Handpositionen mithilfe eines Lichtsensors.

Erfassung verschiedener Handpositionen mithilfe eines Lichtsensors. Quelle

 

Können wir diese Methode also in der Praxis anwenden? Ist es möglich mitzuverfolgen, wie der Benutzer mit dem Touchscreen eines Tablets oder Smartphones interagiert? Wie er Text über die Bildschirmtastatur eingibt? Wie er seine Kreditkartendaten eingibt? Wie er Apps öffnet? Das ist zum Glück nicht so einfach. Beachten Sie die Bildunterschriften über den „Fotos“ in der Abbildung oben. Sie zeigen, wie langsam diese Methode funktioniert. Im besten Fall konnten die Forscher ein „Foto“ der Hand in etwas mehr als drei Minuten rekonstruieren. Das Bild in der vorherigen Abbildung dauerte 17 Minuten. Echtzeitüberwachung kommt bei solchen Geschwindigkeiten nicht in Frage. Jetzt ist auch klar, warum die meisten Experimente mit der Hand einer Schaufensterpuppe durchgeführt wurden: Ein Mensch kann seine Hand einfach nicht so lange bewegungslos halten.

Dies schließt jedoch nicht aus, dass die Methode verbessert werden kann. Betrachten wir das Worst-Case-Szenario: Wenn jedes Handbild nicht in drei Minuten, sondern beispielsweise in einer halben Sekunde aufgenommen werden kann; wenn die Bildschirmausgabe keine seltsamen Schwarz-Weiß-Figuren ergibt, sondern ein Video, eine Reihe von Bildern oder eine Animation, die für den Benutzer von Interesse sind; und wenn der Benutzer etwas tut, das es wert ist, ausspioniert zu werden … dann wäre der Angriff sinnvoll. Aber selbst dann – nicht besonders sinnvoll. Alle Bemühungen der Forscher werden dadurch zunichte gemacht, dass es eine ganz Reihe von einfacheren Methoden gibt, um jemanden zur Eingabe seines Kennworts oder einer Kreditkartennummer zu verleiten, wenn es einem Angreifer gelingt, Schadsoftware auf das Gerät des Opfers zu schleusen. Es ist vielleicht das erste Mal beim Berichten über solche Papiere (Beispiele: eins , zwei , drei , vier ), dass es uns schwer fällt, uns auch nur ein einziges reales Szenario für einen solchen Angriff vorzustellen.

Wir können nur die Schönheit der vorgeschlagenen Methode bestaunen. Diese Untersuchung erinnert uns erneut daran, dass die scheinbar vertrauten, unauffälligen Geräte, von denen wir umgeben sind, ungewöhnliche, weniger bekannte Funktionen enthalten können. Für diejenigen, die sich über diese mögliche Verletzung der Privatsphäre Sorgen machen, ist die Lösung jedoch einfach. Die schlechte Bildqualität ist darauf zurückzuführen, dass der Lichtsensor recht selten misst: 10 bis 20 Mal pro Sekunde. Auch den Ausgabedaten mangelt es an Genauigkeit. Dies ist jedoch nur für die Umwandlung des Sensors in eine Kamera relevant. Für die Hauptaufgabe – die Messung des Umgebungslichts – ist dieser Wert sogar zu hoch. Wir können die Daten noch stärker „aufweichen“, indem wir sie beispielsweise fünf Mal statt 20 Mal pro Sekunde übertragen. Dies ist mehr als ausreichend, um die Bildschirmhelligkeit an das Umgebungslicht anzupassen. Aber ein Ausspionieren durch den Sensor – ohnehin unwahrscheinlich – würde damit unmöglich werden. Kann doch nicht schaden.

Tipps