Trauen Sie Ihren Ohren nicht: Sprach-Deepfakes

Audio-Deepfakes, die die Stimme einer beliebigen Person imitieren können, werden bereits für millionenschwere Betrügereien eingesetzt. Wie werden diese Deepfakes gemacht und wie kann man sich davor schützen, Opfer zu werden?

Haben Sie sich jemals gefragt, woher Sie wissen, mit wem Sie telefonieren? Es ist offensichtlich mehr als nur der Name, der auf dem Display angezeigt wird. Wenn wir eine unbekannte Stimme hören, während wir von einer gespeicherten Nummer angerufen werden, wissen wir sofort, dass etwas nicht stimmt. Um festzustellen, mit wem wir wirklich sprechen, notieren wir unbewusst die Klangfarbe, die Art und die Intonation der Sprache. Doch wie zuverlässig ist das eigene Gehör im digitalen Zeitalter der Künstlichen Intelligenz? Wie die neuesten Nachrichten zeigen, ist das, was wir hören, nicht immer vertrauenswürdig – denn Stimmen können eine Fälschung sein: ein Deepfake.

Hilfe, ich stecke in Schwierigkeiten

Im Frühjahr 2023 versuchten Betrüger in Arizona, telefonisch Geld von einer Frau zu erpressen. Sie hörte die Stimme ihrer 15-jährigen Tochter, die um Hilfe flehte, bevor ein Unbekannter das Telefon an sich riss und Lösegeld forderte, während im Hintergrund die Schreie ihrer Tochter noch zu hören waren. Die Mutter war sich sicher, dass die Stimme wirklich die ihrer Tochter war. Glücklicherweise fand sie schnell heraus, dass mit ihrer Tochter alles in Ordnung war, was dazu führte, dass sie erkannte, dass sie ein Opfer von Betrügern war.

Es kann nicht zu 100 % nachgewiesen werden, dass die Angreifer einen Deepfake verwendet haben, um die Stimme des Teenagers nachzuahmen. Möglicherweise handelte es sich bei dem Betrug um eine traditionellere Art, bei der die Qualität des Anrufs, die Unerwartetheit der Situation, der Stress und die Vorstellungskraft der Mutter eine Rolle spielten, um sie glauben zu lassen, sie habe etwas gehört, was sie nicht hörte. Aber selbst wenn in diesem Fall keine Technologien für neuronale Netze verwendet wurden, können und werden Deepfakes tatsächlich vorkommen, und mit fortschreitender Entwicklung werden sie immer überzeugender und gefährlicher. Um die Ausbeutung der Deepfake-Technologie durch Kriminelle zu bekämpfen, müssen wir verstehen, wie sie funktioniert.

Was sind Deepfakes?

Deepfake („deep learning“ + „fake“) Künstliche Intelligenz hat in den letzten Jahren rapide zugenommen. Maschinelles Lernen kann verwendet werden, um überzeugende Fälschungen von Bildern, Videos oder Audioinhalten zu erstellen. Zum Beispiel können neuronale Netze in Fotos und Videos verwendet werden, um das Gesicht einer Person durch ein anderes zu ersetzen, während Gesichtsausdrücke und Beleuchtung erhalten bleiben. Anfangs waren diese Fälschungen von geringer Qualität und leicht zu erkennen, aber mit der Weiterentwicklung der Algorithmen wurden die Ergebnisse so überzeugend, dass es jetzt schwierig ist, sie von der Realität zu unterscheiden. Im Jahr 2022 wurde in Russland die weltweit erste Deepfake-Fernsehserie veröffentlicht, in der Deepfakes von Jason Statham, Margot Robbie, Keanu Reeves und Robert Pattinson die Hauptrollen spielen.

Deepfake-Versionen von Hollywood-Stars aus der russischen Fernsehserie PMJason.

Deepfake-Versionen von Hollywood-Stars aus der russischen Fernsehserie PMJason.

 

Sprachumwandlung

Aber heute liegt unser Fokus auf der Technologie, die zum Erstellen von Sprach-Deepfakes verwendet wird. Dies wird auch als Sprachkonvertierung bezeichnet (oder „Klonen von Stimmen“, wenn Sie eine vollständige digitale Kopie davon erstellen). Die Sprachkonvertierung basiert auf Autoencodern – einer Art neuronalem Netz, das zunächst die Eingabedaten (Teil des Encoders) in eine kompakte interne Darstellung komprimiert und dann lernt, sie aus dieser Darstellung wieder zu dekomprimieren (Teil des Decoders), um die ursprünglichen Daten wiederherzustellen. Auf diese Weise lernt das Modell, Daten in einem komprimierten Format darzustellen und gleichzeitig die wichtigsten Informationen hervorzuheben.

Autoencoder-Schema.

Autoencoder-Schema

 

Um Sprach-Deepfakes zu erstellen, werden zwei Audioaufnahmen in das Modell eingespeist, wobei die Stimme aus der zweiten Aufnahme in die erste umgewandelt wird. Der Inhalts-Encoder wird verwendet, um zu bestimmen, was aus der ersten Aufnahme gesagt wurde, und der Sprecher-Encoder wird verwendet, um die Hauptmerkmale der Stimme aus der zweiten Aufnahme zu extrahieren – d. h., wie die zweite Person spricht. Die komprimierten Darstellungen dessen, was gesagt werden soll und wie es gesagt wird, werden kombiniert, und das Ergebnis wird mithilfe des Decoders generiert. Das, was in der ersten Aufnahme gesagt wird, wird also von der Person aus der zweiten Aufnahme gesprochen.

Der Vorgang, bei dem eine Stimme als Deepfake erstellt wird.

Der Vorgang, bei dem eine Stimme als Deepfake erstellt wird.

 

Es gibt andere Ansätze, die Autoencoder verwenden, beispielsweise solche, die Generative Adversarial Networks (GAN) oder Diffusionsmodelle verwenden. Die Forschung zur Herstellung von Deepfakes wird insbesondere von der Filmindustrie unterstützt. Denken Sie darüber nach: Mit Audio- und Video-Deepfakes ist es möglich, die Gesichter von Schauspielern in Filmen und Fernsehsendungen zu ersetzen und Filme mit synchronisierter Mimik in eine beliebige Sprache zu überspielen.

Wir zeigen Ihnen, wie es funktioniert.

Als wir über Deepfake-Technologien recherchierten, fragten wir uns, wie schwierig es sein könnte, seine eigene Stimme zu einem Deepfake zu machen. Es stellt sich heraus, dass es viele kostenlose Open-Source-Tools für die Sprachkonvertierung gibt, aber es ist nicht so einfach, damit ein qualitativ hochwertiges Ergebnis zu erzielen. Es erfordert Programmiererfahrung in Python und gute Verarbeitungsfähigkeiten, und selbst dann ist die Qualität alles andere als ideal. Neben Open Source gibt es auch proprietäre und kostenpflichtige Lösungen.

Anfang 2023 hat Microsoft beispielsweise einen Algorithmus angekündigt, der eine menschliche Stimme basierend auf einem nur drei Sekunden langen Audiobeispiel reproduzieren kann! Dieses Modell funktioniert auch mit mehreren Sprachen, sodass Sie sich sogar selbst in einer Fremdsprache sprechen hören können. All dies sieht vielversprechend aus, ist aber bisher nur im Forschungsstadium. Mit der ElevenLabs-Plattform können Benutzer jedoch mühelos Sprach-Deepfakes erstellen: Laden Sie einfach eine Audioaufnahme der Stimme und der zu sprechenden Wörter hoch und fertig. Sobald sich das herausstellte, begannen die Leute natürlich auf verschiedene Weise mit dieser Technologie zu spielen.

Hermines Kampf und eine übermäßig vertrauensvolle Bank

In voller Übereinstimmung mit Godwins Gesetz, wurde Emma Watson gezwungen, Mein Kampf zu lesen, und ein anderer Benutzer nutzte die Technologie von ElevenLabs, um sein eigenes Bankkonto zu „hacken“. Klingt gruselig? Es tut uns weh – vor allem, wenn man die beliebten Horrorgeschichten über Betrüger hinzufügt, die am Telefon Stimmproben sammeln, indem sie Leute dazu bringen, „Ja“ oder „Bestätigung“ zu sagen, die sich als Bank, Regierungsbehörde oder Meinungsforschungsinstitut ausgeben, und dann mithilfe der Sprachautorisierung Geld stehlen.

Aber in Wirklichkeit ist es nicht so schlimm. Erstens dauert die Erstellung einer künstlichen Stimme in ElevenLabs etwa fünf Minuten, sodass ein einfaches „Ja“ nicht ausreicht. Zweitens wissen auch Banken von diesen Betrügereien, so dass die Stimme nur verwendet werden kann, um bestimmte Vorgänge auszulösen, die nicht mit dem Transfer von Geldern zusammenhängen (z. B. um den Kontostand zu überprüfen). So kann also kein Geld gestohlen werden.

ElevenLabs hat schnell auf das Problem reagiert, indem es die Regeln des Dienstes umgeschrieben hat, indem es freien (d. h. anonymen) Nutzern verbietet, Deepfakes auf der Grundlage ihrer eigenen hochgeladenen Stimmen zu erstellen, und indem es Konten mit Beschwerden über „anstößige Inhalte“ sperrt.

Diese Maßnahmen können zwar nützlich sein, lösen jedoch nicht das Problem, dass Sprach-Deepfakes für verdächtige Zwecke verwendet werden.

Wie sonst werden Deepfakes für Betrügereien verwendet

Die Deepfake-Technologie an sich ist harmlos, aber in den Händen von Betrügern kann sie zu einem gefährlichen Werkzeug werden, das viele Möglichkeiten für Täuschung, Diffamierung oder Desinformation bietet. Glücklicherweise gab es keine massenhaften Fälle von Betrug mit Stimmveränderung, aber es gab mehrere bekannte Fälle mit Sprach-Deepfakes.

Im Jahr 2019 nutzten Betrüger diese Technologie, um ein britisches Energieunternehmen zu betrügen. In einem Telefongespräch gab der Betrüger vor, der Geschäftsführer der deutschen Muttergesellschaft des Unternehmens zu sein, und forderte eine dringende Überweisung von 220.000 Euro auf das Konto eines bestimmten Zulieferunternehmens. Nach der Zahlung rief der Betrüger noch zweimal an – das erste Mal, um das britische Büropersonal zu beruhigen und mitzuteilen, dass die Muttergesellschaft bereits eine Rückerstattung gesendet hatte, und das zweite Mal, um eine weitere Überweisung zu beantragen. Alle drei Male war sich der britische CEO absolut sicher, dass er mit seinem Chef sprach, da er sowohl seinen deutschen Akzent als auch seinen Tonfall und seine Sprechweise erkannte. Die zweite Überweisung wurde nur deshalb nicht getätigt, weil der Betrüger einen Fehler gemacht und von einer österreichischen statt einer deutschen Nummer angerufen hatte, was die britische CEO misstrauisch machte.

Ein Jahr später, im Jahr 2020, nutzten Betrüger Deepfakes, um bis zu 35.000.000 US-Dollar von einem namentlich nicht genannten japanischen Unternehmen zu stehlen (der Name des Unternehmens und die Gesamtmenge des Diebesguts wurden bei den Ermittlungen nicht bekannt gegeben).

Es ist nicht bekannt, mit welchen Lösungen (Open Source, kostenpflichtig oder sogar ihre eigenen) die Betrüger Stimmen vortäuschen, aber in beiden Fällen litten die Unternehmen eindeutig – stark – unter dem Deepfake-Betrug.

Was kommt als nächstes?

Über die Zukunft von Deepfakes gehen die Meinungen auseinander. Derzeit befindet sich der Großteil dieser Technologie in den Händen großer Unternehmen und ist für die Öffentlichkeit nur begrenzt verfügbar. Aber wie die Geschichte der viel populäreren generativen Modelle wie DALL-E , Midjourney und Stable Diffusion zeigt, und noch mehr mit großen Sprachmodellen (ChatGPT), könnten ähnliche Technologien in absehbarer Zeit in der öffentlichen Domäne erscheinen. Dies wird durch einen kürzlich durchgesickerten internen Google-Briefwechsel bestätigt, in dem Vertreter des Internetgiganten befürchten, dass sie das Rennen um die KI gegen offene Lösungen verlieren werden. Dies wird offensichtlich dazu führen, dass Sprach-Deepfakes – auch für Betrug – zunehmen werden.

Der vielversprechendste Schritt in der Entwicklung von Deepfakes ist die Generierung in Echtzeit, die für ein explosionsartiges Wachstum von Deepfakes (und darauf basierenden Betrug) sorgt. Können Sie sich einen Videoanruf mit einer Person vorstellen, deren Gesicht und Stimme völlig falsch sind? Diese Datenverarbeitung erfordert jedoch enorme Ressourcen, die nur großen Unternehmen zur Verfügung stehen, sodass die besten Technologien privat bleiben und Betrüger nicht mit den Profis mithalten können. Die Qualitätsleiste hilft den Benutzern auch dabei, Fälschungen leicht zu erkennen.

Empfohlene Schutzmaßnahmen

Zurück zu unserer ersten Frage: Können wir der Stimme vertrauen, die wir hören (d. h., wenn es nicht gerade die Stimme in unserem Kopf ist)? Nun, es ist wahrscheinlich übertrieben, wenn wir ständig paranoid sind und uns geheime Codewörter ausdenken, die wir mit Freunden und Familie verwenden können – in ernsteren Situationen kann eine solche Paranoia jedoch angebracht sein. Wenn sich alles nach einem pessimistischen Szenario entwickelt, könnte sich die Deepfake-Technologie in den Händen von Betrügern in Zukunft zu einer beeindruckenden Waffe entwickeln, aber es bleibt noch Zeit, sich vorzubereiten und zuverlässige Methoden zum Fälschungsschutz zu entwickeln: Es gibt bereits eine Menge Forschung über Deepfakes und große Unternehmen entwickeln Sicherheitslösungen. Tatsächlich haben wir hier bereits ausführlich über Möglichkeiten zur Bekämpfung von Video-Deepfakes gesprochen.

Im Moment steht der Schutz vor KI-Fakes erst am Anfang, daher ist es wichtig zu bedenken, dass Deepfakes nur eine andere Art von fortschrittlichem Social Engineering sind. Das Risiko auf einen solchen Betrug zu stoßen ist gering, aber es ist immer noch vorhanden, also sollten Sie es wissen und im Hinterkopf behalten. Wenn Sie einen seltsamen Anruf erhalten, achten Sie auf die Tonqualität. Ist es unnatürlich monoton, unverständlich oder gibt es seltsame Geräusche? Überprüfen Sie Informationen über andere Kanäle immer noch einmal und denken Sie daran, dass sich Betrüger am meisten auf Überraschung und Panik verlassen.

Tipps

Mehr Sicherheit für Privatanwender

Sicherheitsunternehmen bieten intelligente Technologien – in erster Linie Kameras – an, um dein Zuhause vor Einbruch, Feuer und anderen Zwischenfällen zu schützen. Aber wie wäre es, diese Sicherheitssysteme selbst vor Eindringlingen zu schützen? Das ist eine Lücke, die wir füllen.