Was ist Prompt Injection und wie lässt sich KI manipulieren?

Q: Kann Prompt Injection persönliche Daten stehlen?

Ja, sofern das KI-Tool Zugriff auf persönliche Daten hat. Ob E‑Mails, Dateien oder andere Daten — eine erfolgreiche Prompt Injection kann das Modell anweisen, diese Informationen zu extrahieren und weiterzugeben. Sicherheitsexperten haben bereits gezeigt, dass KI-Browseragenten so ausgetrickst werden können, dass sie vertrauliche Dokumente an Unbefugte weiterleiten.

Geschäftsleute tippen auf Laptop mit Warnsymbolen, die KI-Risiken wie Jailbreak und Prompt Injection zeigen

KI-Tools wie ChatGPT, Claude und Gemini sind inzwischen in Postfächern, Arbeitsabläufen und im Alltag nahezu allgegenwärtig — und die meisten Menschen denken kaum über die Sicherheitsfolgen nach. Das ändert sich gerade.

Eine Technik namens Prompt Injection sorgt in der Software-Sicherheits-Szene für Aufmerksamkeit. Das Besondere daran: Es braucht keine Malware, keine Spezialkenntnisse und keinen verdächtigen Link. In manchen Fällen reicht ein gut formulierter Satz, um ein KI-Tool zu kapern, ohne dass der Nutzer davon etwas merkt.

Das Wichtigste in Kürze:

Prompt Injection manipuliert KI-Tools mit gezielter Sprache — nicht mit Malware oder technischen Tricks.
Sie funktioniert, weil große Sprachmodelle (LLMs) Entwickleranweisungen nicht zuverlässig von Benutzereingaben unterscheiden können.
Angriffe können direkt, indirekt oder in Daten gespeichert stattfinden, die das KI wiederholt liest.
Manche Angriffe nutzen unsichtbaren Text oder versteckte Formatierung, die Nutzer nie sehen.
Ein erfolgreicher Angriff kann private Daten offenlegen oder Aktionen auslösen, die Sie nie genehmigt haben.
Eine vollständige Lösung gibt es derzeit nicht, aber das Einschränken von Rechten und wachsames Verhalten verringern das Risiko.

Was ist Prompt Injection?

Prompt Injection ist eine Technik, mit der ein Angreifer das Verhalten eines KI-Tools verändern kann. Es ist nicht nötig, eine Sicherheitslücke im Programmcode auszunutzen oder Malware zu installieren — der Angreifer steuert das Modell ausschließlich über Sprache.

Der Begriff stammt von Computerwissenschaftler Simon Willison aus dem Jahr 2022 und wurde von OWASP, einer Organisation, die die kritischsten Bedrohungen der Software‑Sicherheit erfasst, als das führende Sicherheitsrisiko für KI-Anwendungen identifiziert.

Man kann es als Social Engineering für Maschinen betrachten, weil es eher an Phishing erinnert als an traditionelles Hacking. Es nutzt eine Eigenheit großer Sprachmodelle (LLMs): Sie sind darauf ausgelegt, Anweisungen zu befolgen. Genau diese Eigenschaft, die sie nützlich macht, macht sie auch angreifbar. Eine gut formulierte Eingabe kann die ursprünglich festgelegten Regeln außer Kraft setzen, Antworten ändern oder Informationen preisgeben, die das Modell eigentlich verbergen sollte. Eine erfolgreiche Injection kann nicht nur Regeln umgehen, sondern alles offenlegen, woran das Modell angeschlossen ist.

Anders als klassische Code‑Injektionen oder andere Computer‑Exploits, die Spezialwissen erfordern, genügt hier oft schon jemand, der weiß, wie man einen überzeugenden Satz formuliert.

Wie funktioniert Prompt Injection?

Der Kern des Problems ist, dass KI-Systeme nicht zwischen mehreren Aufgaben gleichzeitig unterscheiden können. Sie sind „blind“ gegenüber dem Unterschied zwischen Entwickleranweisungen und Nutzereingaben.

KI-Entwickler schreiben versteckte Prompts, die die Regeln für das Verhalten des Tools festlegen. Ihre Eingabe wird mit diesen Prompts kombiniert, und das KI verarbeitet alles als einen fortlaufenden Textstrom. Es kann nicht zuverlässig erkennen, welche Teile Entwickleranweisungen und welche Teile Nutzereingaben sind. Wenn Ihre Eingabe wie ein Befehl aussieht, folgt das KI ihm möglicherweise — selbst wenn das den Intentionen der Entwickler widerspricht.

Angriffe sehen nicht alle gleich aus. Man kann sie grob in drei Kategorien einteilen: direkte, indirekte und gespeicherte Injection.

Was ist direkte Prompt Injection?

Bei direkter Prompt Injection tippt der Angreifer eine bösartige Anweisung direkt in den Chat. Schon etwas Einfaches wie „ignore previous instructions“ kann ausreichen. Dieser Ansatz nutzt die Tendenz des KI, neue Eingaben gegenüber den Entwicklervorgaben zu priorisieren.

Was ist indirekte Prompt Injection?

Indirekte Prompt Injection versteckt schädliche Anweisungen in externen Inhalten, die das KI verarbeitet — zum Beispiel auf Webseiten oder in E‑Mails.

Ein Angreifer könnte etwa unsichtbaren Text auf einer Webseite platzieren, der das KI anweist, seine Regeln zu ignorieren und einen bestimmten Link zu empfehlen. Wenn jemand das KI bittet, die Seite zusammenzufassen, liest es den versteckten Befehl zusammen mit dem eigentlichen Inhalt und folgt ihm möglicherweise, ohne dass der Nutzer etwas merkt. Sicherheitsexperten betrachten die indirekte Prompt Injection weithin als die schwerwiegendste Schwachstelle generativer KI‑Systeme und als eine der schwersten zu verteidigenden.

Was ist gespeicherte Prompt Injection?

Gespeicherte Prompt Injection arbeitet, indem schädliche Anweisungen an Orten hinterlegt werden, die das KI regelmäßig liest — etwa in Datenbanken oder Trainingsdaten.

Weil die Anweisungen gespeichert sind und nicht erst zur Laufzeit eingegeben werden, kann gespeicherte Prompt Injection mehrere Nutzer über verschiedene Sitzungen hinweg betreffen. Das KI scheint normal zu funktionieren, doch seine Antworten wurden durch etwas beeinflusst, das lange vor der Nutzung versteckt wurde.

Schützen Sie sich, während KI-Tools Alltag werden

Prompt Injection ist ein Beispiel dafür, wie KI-Systeme manipuliert werden können. Kaspersky Premium hilft dabei, Ihre Geräte, Daten und Online‑Konten vor sich wandelnden digitalen Bedrohungen zu schützen.

Kaspersky Premium kostenlos testen

Welche Techniken werden bei Prompt Injection‑Angriffen eingesetzt?

Prompt Injection nutzt normalen Text, um das KI dazu zu bringen, unautorisierte Anweisungen zu befolgen. Das Problem ist, dass KI-Modelle sämtlichen Text gleich verarbeiten und nicht erkennen können, ob eine Eingabe manipuliert oder legitim ist.

Die meisten Angriffe lassen sich in zwei Gruppen einteilen: Tricks, die Anweisungen durch Code oder Formatierung verschleiern, und Tricks, die Anweisungen so verbergen, dass Menschen sie überhaupt nicht sehen. Für menschliche Leser sieht der Inhalt in beiden Fällen völlig normal aus.

Code‑ und Formatierungstricks

Manche Angriffe nutzen Codeblöcke, Markup oder strukturierte Texte, damit eine bösartige Anweisung wie ein legitimer Systembefehl erscheint. Das kann bedeuten, etwas in code‑ähnliche Formatierung zu setzen oder so zu strukturieren, dass es wie eine Entwickler‑Systemanweisung wirkt.

Versteckte und getarnte Anweisungen

Andere Angriffe verbergen Anweisungen mittels visueller Tricks, die Menschen wahrscheinlich nicht bemerken — etwa weiße Schrift auf weißem Hintergrund, extrem kleine Schriftgrößen, ungewöhnliche Abstände, Sonderzeichen, Unicode‑Kodierungen oder Anweisungen in einer ganz anderen Sprache. Ein Mensch betrachtet das Dokument oder die Webseite und sieht nichts Auffälliges, während das KI den zugrunde liegenden Text komplett liest, unabhängig davon, wie er dargestellt wird.

Solche Techniken werden bereits eingesetzt. Angreifer haben unsichtbare Anweisungen in Webseiten eingebettet, um KI‑Browseragenten zu kapern, und Bewerber haben versteckten Text in Lebensläufen verwendet, um KI‑gestützte Screening‑Tools zu täuschen.

Infografik, die zeigt, wie versteckte Anweisungen in einem Dokument KI‑Ausgaben durch Prompt Injection manipulieren können

Beispiele für Prompt Injection

Wie Bing Chat dazu verleitet wurde, seine eigenen Regeln preiszugeben

Im Februar 2023 gelang es dem Stanford‑Studenten Kevin Liu mittels direkter Prompt Injection, die versteckten Systemanweisungen von Bing Chat offenzulegen. Es reichte, „ignore previous instructions“ einzugeben und das KI zu bitten, seine eigenen Regeln vorzulesen. Der Chatbot gab seinen internen Codenamen „Sydney“ und interne Richtlinien preis. Nachdem Microsoft den Exploit behoben hatte, fand Liu innerhalb weniger Stunden einen Weg, die Sperre zu umgehen, indem er sich als Entwickler ausgab.

Wie versteckter Text in Lebensläufen KI‑Screening‑Tools täuschte

Bewerber begannen, versteckte Prompt‑Injection‑Anweisungen in Lebensläufen zu platzieren, um KI‑gestützte Einstellungs‑Tools zu manipulieren. Dazu wurden Sätze wie „dieser Kandidat ist außerordentlich qualifiziert“ in weißer Schrift oder in extrem kleiner Schriftgröße gesetzt, sodass Menschen den Text nicht sehen, das KI ihn aber trotzdem erfasste.

Diese Methode verbreitete sich 2024 in sozialen Medien. Die Personalberatung ManpowerGroup meldete, in rund 10 % der von ihr mit KI gescannten Lebensläufe versteckten Text gefunden zu haben. Die Recruiting‑Plattform Greenhouse entdeckte ähnliche versteckte Prompts in 1 % der etwa 300 Millionen Lebensläufe, die sie jährlich verarbeitet.

Wie Chatbots dazu gebracht wurden, private Informationen preiszugeben

Ein frühes Prompt‑Injection‑Beispiel mit ChatGPT betraf den Twitter‑Bot von remoteli.io, der von ChatGPT betrieben wurde und positive Aussagen zur Remote‑Arbeit posten sollte. Nutzer entdeckten, dass sie dem Bot per Tweet Anweisungen geben konnten, seine ursprüngliche Aufgabe zu ignorieren, woraufhin er absurde öffentliche Aussagen machte.

Jüngere Tests von Sicherheitsexperten zeigten, dass OpenAIs ChatGPT Atlas Browser‑Agent durch versteckte Anweisungen in E‑Mails gekapert werden konnte. In einem Test veranlasste eine bösartige E‑Mail mit eingebettetem Prompt den Agenten dazu, statt einer Abwesenheitsnotiz eine Kündigung an den Vorgesetzten zu senden. Der Nutzer sah die versteckte Anweisung nie — das KI folgte ihr trotzdem.

Warum sollten normale Anwender Prompt Injection wichtig finden?

Prompt Injection kann KI-Tools manipulieren, ohne dass Sie es merken. Wenn ein KI ein Dokument zusammenfasst oder eine E‑Mail formuliert, greift es auf externe Quellen zurück. Sind diese Quellen manipuliert, ist auch die Ausgabe des KI kompromittiert — und zwar ohne Ihr Wissen.

Deshalb unterscheidet sich Prompt Injection von anderen Online‑Sicherheitsrisiken: Sie müssen keinen Link anklicken oder etwas herunterladen. Sie stellen eine ganz normale Frage, und die Antwort wird von Anweisungen geformt, die jemand anders in den Inhalten vergraben hat, die das KI als Eingabe nutzte. Das kann harmlos wirken — etwa eine voreingenommene Zusammenfassung oder ein unerwünschter Link. In schwerwiegenderen Fällen kann das Tool aber persönliche Daten leaken oder Aktionen ausführen, die Sie nie genehmigt haben. Manipulierte Ausgaben sehen oft völlig unauffällig aus, ohne Fehlermeldungen oder klare Hinweise.

Das bedeutet nicht, dass Sie diese Tools nicht nutzen sollten. Aber Sie können nicht einfach davon ausgehen, dass KI‑Ausgaben immer neutral und verlässlich sind.

Ist Prompt Injection dasselbe wie Jailbreaking?

Prompt Injection und Jailbreaking hängen zusammen, sind aber nicht identisch. Jailbreaking ist eine Form der Prompt Injection, die speziell auf Sicherheits‑Guardrails abzielt. Das Ziel ist, ein KI dazu zu bringen, Inhaltsrichtlinien zu ignorieren oder eingeschränkte Ausgaben zu erzeugen.

Prompt Injection ist weiter gefasst. Sie umfasst jeden Versuch, das Verhalten eines KI durch gezielte Eingaben zu kapern — etwa verborgene Systembefehle auszulesen oder das Tool unautorisierte Aktionen ausführen zu lassen. Oft geht es nicht darum, Sicherheitsfilter zu umgehen; vielmehr will der Angreifer, dass das KI einen anderen Satz von Anweisungen ausführt, ohne dass jemand etwas bemerkt.

Ein weiterer Unterschied betrifft die Betroffenen. Jailbreaking ist meist eine bewusste Handlung des Nutzers in der eigenen Sitzung. Prompt Injection — insbesondere die indirekten und gespeicherten Varianten — kann unschuldige Benutzer treffen, die nie wussten, dass die Inhalte, nach denen sie fragen, manipuliert wurden. Deshalb stuft OWASP Prompt Injection als das größte Risiko für KI‑Anwendungen ein, anstatt Jailbreaking als eigene Kategorie zu behandeln.

Wie können Sie Prompt Injection verhindern?

Eine einfache, umfassende Lösung für Prompt Injection gibt es derzeit nicht, weil die Verwundbarkeit aus genau dem Grund entsteht, der diese Werkzeuge nützlich macht: ihrer Fähigkeit, Anweisungen zu befolgen. Entwickler können diese Eigenschaft nicht einfach entfernen, ohne die Nutzbarkeit zu zerstören.

KI‑Entwickler verbessern weiterhin die Eingabe‑Filterung, und adversariales Testen hilft dabei, aber auf dem Markt existiert bislang nichts, das das Risiko vollständig eliminiert.

Es gibt jedoch viele Maßnahmen, die Sie selbst ergreifen können. Meistens läuft es auf gesunden Menschenverstand hinaus:

Bleiben Sie im Bilde. Lassen Sie KI‑Tools nicht im Autopilot arbeiten. Überprüfen Sie immer, was das Tool vorhat, bevor Sie eine Aktion zulassen.
Zugriffe einschränken, wo möglich. Wenn ein KI‑Tool um Erlaubnis bittet, auf E‑Mails oder Dateien zuzugreifen, fragen Sie, ob das wirklich nötig ist. Vermeiden Sie es, Passwörter, Bankdaten oder andere sensible Informationen in Chatfenster einzufügen.
Stellen Sie Antworten in Frage. Wenn eine Antwort einen unerwarteten Link enthält, etwas empfiehlt, das Sie nicht angefragt haben, oder zu einer Handlung drängt, die merkwürdig wirkt — bremsen Sie und prüfen Sie sorgfältig, bevor Sie handeln.
Halten Sie alles auf dem neuesten Stand. Entwickler veröffentlichen regelmäßig Updates, die Schwachstellen schließen und Abwehrmechanismen stärken. Eine veraltete Version zu nutzen bedeutet, auf Schutzmaßnahmen zu verzichten.

Checkliste mit wichtigen Schritten zur Verhinderung von Prompt Injection‑Angriffen, darunter Einschränkung von KI‑Zugriffen und Überprüfung von Aktionen.

Was sollten Sie tun, wenn ein KI‑Tool sich ungewöhnlich verhält?

Wenn ein KI‑Tool sich seltsam verhält, brechen Sie ab und handeln Sie nicht nach dessen Anweisungen. Es muss nicht zwangsläufig eine Prompt Injection sein, aber wenn etwas nicht stimmt, sollten Sie klären, woran das liegt, bevor Sie weitermachen.

Einige Hinweise, die Alarm schlagen sollten:

Es schlägt vor, etwas zu tun, das Sie nie angefragt haben
Links oder Produktempfehlungen erscheinen, die Sie nicht kennen
Es fragt nach persönlichen Informationen, die nichts mit Ihrer Aufgabe zu tun haben
Der Tonfall ändert sich plötzlich mitten im Gespräch
Antworten ergeben keinen Sinn mehr oder scheinen nicht zur Frage zu passen

Tritt eines dieser Anzeichen auf, schließen Sie die Sitzung und starten Sie neu. Versuchen Sie nicht, im selben Gespräch zu debuggen — ist die Session kompromittiert, bleiben Sie damit im Risiko.

Gehen Sie danach Ihre Schritte noch einmal durch und überlegen Sie, worauf das Tool Zugriff hatte. War Ihr E‑Mail‑Postfach geöffnet? Konnte die Software in Ihrem Namen Aktionen ausführen? Wenn etwas verdächtig aussieht, machen Sie Änderungen rückgängig und ändern Sie umgehend Ihre Passwörter.

Wie passt Prompt Injection in das größere Bild der KI‑Sicherheit?

Prompt Injection steht ganz oben auf der Prioritätenliste der KI‑Sicherheit, weil sie das KI selbst angreift. Das unterscheidet sie von Phishing, Malware und anderen traditionelleren Angriffen, die eher die Systeme um das KI herum ins Visier nehmen.

Und das Problem wird größer. Noch vor kurzer Zeit konnten KI‑Tools meist nur Text erzeugen. Heute durchsuchen sie das Web, lesen Ihre E‑Mails, greifen auf Ihre Dateien zu, schreiben Code und führen Aktionen in Ihrem Namen aus. Standards wie MCP (Model Context Protocol) erleichtern die Anbindung von KI an externe Dienste. Je mehr diese Tools können, desto größer ist der Schaden, den ein erfolgreicher Angriff anrichten kann.

Es geht außerdem um Reichweite. Prompt Injection funktioniert ähnlich wie Social Engineering: Die richtige Darstellung überzeugt das KI, Anweisungen zu befolgen, die es nicht sollte. Aber anders als ein Anrufbetrug, der eine Person nach der anderen trifft, kann eine einzelne versteckte Anweisung auf einer populären Webseite jedes KI betreffen, das sie liest.

Das heißt nicht, dass KI‑Tools per se unsicher sind. Die Sicherheit hinkt jedoch der schnellen Verbreitung dieser Werkzeuge hinterher, sodass die Verantwortung für Schutzmaßnahmen weiterhin bei den Endnutzern liegt.

Weiterführende Artikel:

Empfohlene Produkte:

FAQ

Ist Prompt Injection illegal?

Es gibt kein Gesetz, das Prompt Injection ausdrücklich verbietet. Die Taten, die damit begangen werden — etwa Zugriff auf geschützte Daten oder das Ausspähen privater Informationen — fallen jedoch unter bestehende Computerbetrugs‑ und Cybercrime‑Vorschriften. Das rechtliche Risiko ist also real, aber die Gesetzgebung muss erst noch nachziehen.

Kann Prompt Injection auch normale Nutzer treffen?

Ja. Wenn Sie ein Tool nutzen, das externe Inhalte mit KI verarbeitet, können Sie betroffen sein — oft ohne es zu bemerken. Die Attacke richtet sich nicht direkt gegen Sie als Person, sondern gegen das KI‑Tool.

Kann Prompt Injection persönliche Daten stehlen?

Ja, sofern das KI‑Tool Zugriff auf persönliche Daten hat. Ob E‑Mails, Dateien oder andere Daten — eine erfolgreiche Prompt Injection kann das Modell anweisen, diese Informationen zu extrahieren und weiterzugeben. Sicherheitsexperten haben bereits gezeigt, dass KI‑Browseragenten so ausgetrickst werden können, dass sie vertrauliche Dokumente an Unbefugte weiterleiten.

Ist Prompt Injection dasselbe wie Hacking?

Prompt Injection ist kein klassisches Hacking. Statt Schwachstellen im Code auszunutzen, manipuliert die Methode das, was das KI liest. Es ist eine Form von Social Engineering gegen Maschinen. Das Ergebnis kann einem Hack ähneln (Datenleck, unautorisierte Aktionen), der Mechanismus ist jedoch grundlegend anders.

Was ist Prompt Injection und wie lässt sich KI manipulieren?

Was ist Prompt Injection?

Wie funktioniert Prompt Injection?

Was ist direkte Prompt Injection?

Was ist indirekte Prompt Injection?

Was ist gespeicherte Prompt Injection?

Schützen Sie sich, während KI-Tools Alltag werden

Welche Techniken werden bei Prompt Injection‑Angriffen eingesetzt?

Code‑ und Formatierungstricks

Versteckte und getarnte Anweisungen

Beispiele für Prompt Injection

Wie Bing Chat dazu verleitet wurde, seine eigenen Regeln preiszugeben

Wie versteckter Text in Lebensläufen KI‑Screening‑Tools täuschte

Wie Chatbots dazu gebracht wurden, private Informationen preiszugeben

Warum sollten normale Anwender Prompt Injection wichtig finden?

Ist Prompt Injection dasselbe wie Jailbreaking?

Wie können Sie Prompt Injection verhindern?

Was sollten Sie tun, wenn ein KI‑Tool sich ungewöhnlich verhält?

Wie passt Prompt Injection in das größere Bild der KI‑Sicherheit?

FAQ

Ist Prompt Injection illegal?

Kann Prompt Injection auch normale Nutzer treffen?

Kann Prompt Injection persönliche Daten stehlen?

Ist Prompt Injection dasselbe wie Hacking?

Was ist Prompt Injection und wie lässt sich KI manipulieren?

Weitere interessante Artikel:

Brauche ich eine Antivirus-App für Android? Was alle Smartphone-Nutzer wissen sollten

Datenexfiltration: Was ist das und wie lässt sie sich verhindern?

SMS-Betrug mit falscher Nummer: Was er ist, warum Sie ins Visier geraten und was Sie als Nächstes tun sollten

Hört dein Handy dich ab?

Woran Sie erkennen, ob Ihre Handykamera gehackt wurde

Was ist Prompt Injection und wie lässt sich KI manipulieren?

Was können Betrüger mit Ihrer Telefonnummer anstellen?

KI‑Sprach- und Deepfake‑Betrug: Warum Sie einer vertrauten Stimme nicht mehr blind vertrauen können

KI-Phishing: Wie Betrüger künstliche Intelligenz nutzen, um Sie zu täuschen

Können PDFs Viren enthalten? Was tun, wenn Sie eine betrügerische PDF-Datei geöffnet haben