{"id":30084,"date":"2023-06-02T13:23:36","date_gmt":"2023-06-02T11:23:36","guid":{"rendered":"https:\/\/www.kaspersky.de\/blog\/?p=30084"},"modified":"2023-06-02T13:26:20","modified_gmt":"2023-06-02T11:26:20","slug":"neural-networks-data-leaks","status":"publish","type":"post","link":"https:\/\/www.kaspersky.de\/blog\/neural-networks-data-leaks\/30084\/","title":{"rendered":"Wie K\u00fcnstliche Intelligenz Ihre privaten Daten preisgeben kann"},"content":{"rendered":"<h2>Ihre (neuronalen) Netzwerke haben Lecks<\/h2>\n<p>Forscher von Universit\u00e4ten in den USA und der Schweiz haben in Zusammenarbeit mit Google und DeepMind ein <a href=\"https:\/\/arxiv.org\/pdf\/2301.13188.pdf\" target=\"_blank\" rel=\"nofollow noopener\">Papier<\/a> ver\u00f6ffentlicht, das zeigt, wie Daten aus Bildgenerierungssystemen, wie sie die maschinellen Lernalgorithmen <a href=\"https:\/\/openai.com\/blog\/dall-e\/\" target=\"_blank\" rel=\"nofollow noopener\">DALL-E<\/a>, <a href=\"https:\/\/imagen.research.google\/\" target=\"_blank\" rel=\"nofollow noopener\">Imagen<\/a> oder <a href=\"https:\/\/stablediffusionweb.com\/\" target=\"_blank\" rel=\"nofollow noopener\">Stable Diffusion<\/a> verwenden, an die \u00d6ffentlichkeit gelangen k\u00f6nnen. Benutzerseitig funktionieren alle gleich: Sie geben eine bestimmte Textabfrage ein\u00a0\u2013 beispielsweise \u201eein Sessel in Form einer Avocado\u201c\u00a0\u2013 und erhalten im Gegenzug ein generiertes Bild.<\/p>\n<div id=\"attachment_30085\" style=\"width: 1034px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/96\/2023\/05\/08091151\/neural-networks-data-leaks-01.jpg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-30085\" class=\"wp-image-30085 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/96\/2023\/05\/08091151\/neural-networks-data-leaks-01.jpg\" alt=\"Vom neuronalen Netzwerk Dall-E generiertes Bild\" width=\"1024\" height=\"1024\"><\/a><p id=\"caption-attachment-30085\" class=\"wp-caption-text\">Vom neuronalen Netzwerk Dall-E generiertes Bild. Quelle: <a href=\"https:\/\/openai.com\/blog\/dall-e\/\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/openai.com\/blog\/dall-e<\/a><\/p><\/div>\n<p>Alle diese Systeme werden mit einer gro\u00dfen Anzahl (Zehn- oder Hunderttausenden) von Bildern mit vorgefertigten Beschreibungen trainiert. Die Idee hinter solchen neuronalen Netzen ist, dass sie durch die Verarbeitung gro\u00dfer Mengen an Trainingsdaten neue, einzigartige Bilder erstellen. Das wichtigste Ergebnis der neuen Studie ist jedoch, dass diese Bilder gar nicht so einzigartig sind. In einigen F\u00e4llen ist es m\u00f6glich, das neuronale Netzwerk zu zwingen, ein zuvor f\u00fcr das Training verwendete Originalbild fast identisch zu reproduzieren. Und das bedeutet, dass neuronale Netze ungewollt private Informationen preisgeben k\u00f6nnen.<\/p>\n<div id=\"attachment_30086\" style=\"width: 1149px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/96\/2023\/05\/08091159\/neural-networks-data-leaks-02.jpg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-30086\" class=\"wp-image-30086 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/96\/2023\/05\/08091159\/neural-networks-data-leaks-02.jpg\" alt=\"Vom neuronalen Netzwerk Stable Diffusion generiertes Bild (rechts) und das Originalbild aus dem Trainingssatz (links)\" width=\"1139\" height=\"799\"><\/a><p id=\"caption-attachment-30086\" class=\"wp-caption-text\">Vom neuronalen Netzwerk Stable Diffusion generiertes Bild (rechts) und das Originalbild aus dem Trainingssatz (links). <a href=\"https:\/\/arxiv.org\/pdf\/2301.13188.pdf\" target=\"_blank\" rel=\"nofollow noopener\">Quelle<\/a>.<\/p><\/div>\n<h2>Mehr Daten f\u00fcr den \u201eDatengott\u201c<\/h2>\n<p>Die Ausgabe eines lernf\u00e4higen Systems als Antwort auf eine Abfrage kann einem Nicht-Spezialisten wie Zauberei vorkommen: \u201ePuh\u00a0\u2013 das ist wie ein allwissender Roboter!\u201c! Aber tats\u00e4chlich ist da keine Magie im Spiel\u00a0\u2026<\/p>\n<p>Alle neuronalen Netze funktionieren mehr oder weniger gleich: Es wird ein Algorithmus erstellt, der anhand eines Datensatzes trainiert wird\u00a0\u2013 beispielsweise einer Serie von Bildern von Katzen und Hunden\u00a0\u2013 mit einer Beschreibung dessen, was in jedem Bild genau dargestellt wird. Nach dem Training wird dem Algorithmus ein neues Bild angezeigt und er wird aufgefordert, herauszufinden, ob es sich um eine Katze oder einen Hund handelt. Ausgehend von diesen bescheidenen Anf\u00e4ngen wandten sich die Entwickler solcher Systeme einem komplexeren Szenario zu: Ein Algorithmus, der mit vielen Katzenbildern trainiert wurde, erstellt auf Anfrage das Bild eines Haustieres, das es nie gegeben hat. Solche Experimente werden nicht nur mit Bildern, sondern auch mit Text, Video und sogar Sprache durchgef\u00fchrt: \u00dcber das Problem der <a href=\"https:\/\/www.kaspersky.de\/resource-center\/threats\/protect-yourself-from-deep-fake\" target=\"_blank\" rel=\"noopener\">Deepfakes<\/a> (also Videos, in denen (meist) Politikern oder Prominenten Dinge in den Mund gelegt werden, die sie nie gesagt haben) haben wir bereits berichtet.<\/p>\n<p>Ausgangspunkt f\u00fcr alle neuronalen Netze ist Satz von Trainingsdaten: Neuronale Netze k\u00f6nnen keine neuen Entit\u00e4ten aus dem Nichts erfinden. Um das Bild einer Katze zu erstellen, muss der Algorithmus Tausende von echten Fotos oder Zeichnungen dieser Tiere analysieren. Es gibt viele Argumente daf\u00fcr, diese Datens\u00e4tze nicht an die \u00d6ffentlichkeit zu geben. Einige von ihnen sind frei zug\u00e4nglich; andere Datens\u00e4tze sind geistiges Eigentum des Entwicklerunternehmens, das viel Zeit und M\u00fche investiert hat, um sich einen Wettbewerbsvorteil zu verschaffen. Andere wiederum stellen per Definition sensible Informationen dar. Beispielsweise laufen Experimente, um neuronale Netze zur Diagnose von Krankheiten auf der Grundlage von R\u00f6ntgenstrahlen und anderen medizinischen Untersuchungen zu verwenden. Dies bedeutet, dass die algorithmischen Trainingsdaten die tats\u00e4chlichen Gesundheitsdaten von echten Menschen enthalten, die aus offensichtlichen Gr\u00fcnden nicht in falsche H\u00e4nde geraten d\u00fcrfen.<\/p>\n<h2>Diffusion<\/h2>\n<p>Obwohl Algorithmen von lernf\u00e4higen Systemen f\u00fcr Au\u00dfenstehende gleich aussehen, unterscheiden sie sich in Wirklichkeit. In ihrer Arbeit widmen die Forscher den <em>Diffusionsmodellen<\/em> des maschinellen Lernens besondere Aufmerksamkeit. Sie funktionieren wie folgt: Die Trainingsdaten (wiederum Bilder von Menschen, Autos, H\u00e4usern usw.) werden durch Rauscheffekte verzerrt. Anschlie\u00dfend wird das neuronale Netz darauf trainiert, solche Bilder wieder in ihrem urspr\u00fcnglichen Zustand herzustellen. Diese Methode erm\u00f6glicht es, Bilder von einigerma\u00dfen guter Qualit\u00e4t zu erzeugen, aber ein potenzieller Nachteil (im Vergleich zu Algorithmen in <a href=\"https:\/\/de.wikipedia.org\/wiki\/Generative_Adversarial_Networks\" target=\"_blank\" rel=\"nofollow noopener\">generativen gegnerischen Netzwerken<\/a> beispielsweise) ist ihre gr\u00f6\u00dfere Tendenz zur Freigabe der Daten.<\/p>\n<p>Die Originaldaten k\u00f6nnen auf mindestens drei Arten daraus extrahiert werden: Erstens k\u00f6nnen Sie das neuronale Netzwerk mithilfe bestimmter Abfragen dazu zwingen, ein bestimmtes Quellbild auszugeben statt eines einzigartigen, auf der Grundlage von Tausenden von Bildern generierten Bilds. Zweitens kann das Originalbild auch dann rekonstruiert werden, wenn nur ein Teil davon verf\u00fcgbar ist. Drittens kann einfach festgestellt werden, ob ein bestimmtes Bild in den Trainingsdaten enthalten ist oder nicht.<\/p>\n<p>Sehr oft sind neuronale Netze \u2026 <em>faul<\/em>, und statt eines neuen Bildes erzeugen sie etwas aus dem Trainingssatz, wenn dieser mehrere Duplikate desselben Bildes enth\u00e4lt. Neben dem obigen Beispiel mit dem Foto von Ann Graham Lotz liefert die Studie noch einige andere \u00e4hnliche Ergebnisse:<\/p>\n<div id=\"attachment_30087\" style=\"width: 1562px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/96\/2023\/05\/08091211\/neural-networks-data-leaks-03.jpg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-30087\" class=\"wp-image-30087 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/96\/2023\/05\/08091211\/neural-networks-data-leaks-03.jpg\" alt=\"Ungerade Zeilen: die Originalbilder. Gerade Zeilen: Bilder, die von Stable Diffusion V1.4 generiert wurden\" width=\"1552\" height=\"1120\"><\/a><p id=\"caption-attachment-30087\" class=\"wp-caption-text\">Ungerade Zeilen: die Originalbilder. Gerade Zeilen: Bilder, die von Stable Diffusion V1.4 generiert wurden. <a href=\"https:\/\/arxiv.org\/pdf\/2301.13188.pdf\" target=\"_blank\" rel=\"nofollow noopener\">Quelle<\/a>.<\/p><\/div>\n<p>Wenn ein Bild im Trainingssatz mehr als hundert Mal dupliziert wird, besteht eine sehr hohe Wahrscheinlichkeit, dass es nahezu in Originalform preisgegeben wird. Forscher konnten jedoch auch Beispiele zeigen, in denen Trainingsbilder abgerufen wurden, die im Originalsatz nur einmal vorkamen. Diese Methode ist weitaus weniger effizient: Von f\u00fcnfhundert getesteten Bildern hat der Algorithmus nur drei zuf\u00e4llig neu erstellt. Eine besonders ausgekl\u00fcgelte Methode, ein neuronales Netzwerk anzugreifen, besteht darin, ein Quellbild neu zu erstellen, indem nur ein Fragment davon als Eingabe verwendet wird.<\/p>\n<div id=\"attachment_30088\" style=\"width: 1382px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/96\/2023\/05\/08091219\/neural-networks-data-leaks-04.jpg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-30088\" class=\"wp-image-30088 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/96\/2023\/05\/08091219\/neural-networks-data-leaks-04.jpg\" alt=\"Die Forscher baten das neuronale Netzwerk, das Bild zu vervollst\u00e4ndigen, nachdem ein Teil davon gel\u00f6scht worden war. Auf diese Weise kann ziemlich genau ermittelt werden, ob ein bestimmtes Bild in der Trainingsmenge enthalten war. Wenn dies der Fall war, generierte der Algorithmus des lernf\u00e4higen Systems eine fast exakte Kopie des Originalfotos oder der Originalzeichnung\" width=\"1372\" height=\"696\"><\/a><p id=\"caption-attachment-30088\" class=\"wp-caption-text\">Die Forscher baten das neuronale Netzwerk, das Bild zu vervollst\u00e4ndigen, nachdem ein Teil davon gel\u00f6scht worden war. Auf diese Weise kann ziemlich genau ermittelt werden, ob ein bestimmtes Bild in der Trainingsmenge enthalten war. Wenn dies der Fall war, generierte der Algorithmus des lernf\u00e4higen Systems eine fast exakte Kopie des Originalfotos oder der Originalzeichnung. <a href=\"https:\/\/arxiv.org\/pdf\/2301.13188.pdf\" target=\"_blank\" rel=\"nofollow noopener\">Quelle<\/a>.<\/p><\/div>\n<p>An dieser Stelle sollten wir uns der Frage der neuronalen Netze und des Urheberrechts zuwenden.<\/p>\n<h2>Wer hat wem etwas gestohlen?<\/h2>\n<p>Im Januar 2023 <a href=\"https:\/\/www.theregister.com\/2023\/01\/16\/stability_diffusion_lawsuit\/\" target=\"_blank\" rel=\"nofollow noopener\">verklagten<\/a> drei K\u00fcnstler die Macher von Bild generierenden Diensten, die lernf\u00e4hige Algorithmen verwendeten. Sie behaupteten (zu Recht), dass die Entwickler der neuronalen Netze sie mit Bildern trainiert hatten, die im Internet gesammelt wurden, ohne das Urheberrecht zu beachten. Ein neuronales Netzwerk kann tats\u00e4chlich den Stil eines bestimmten K\u00fcnstlers kopieren und ihn so um seine Eink\u00fcnfte bringen. Der Artikel weist darauf hin, dass Algorithmen aus verschiedenen Gr\u00fcnden regelrechte Plagiate erstellen k\u00f6nnen, wobei Zeichnungen, Fotografien und andere Bilder erzeugt werden, die mit der Arbeit realer Menschen fast identisch sind.<\/p>\n<p>Die Studie gibt Empfehlungen zur St\u00e4rkung der Privatsph\u00e4re des urspr\u00fcnglichen Trainingssatzes:<\/p>\n<ul>\n<li>Duplikate entfernen.<\/li>\n<li>Trainingsbilder neu verarbeiten, beispielsweise durch Hinzuf\u00fcgen von Rauschen oder \u00c4ndern der Helligkeit; dadurch wird die Preisgabe von Daten weniger wahrscheinlich.<\/li>\n<li>Den Algorithmus mit speziellen Trainingsbildern testen und sicherstellen, dass er sie nicht versehentlich exakt reproduziert.<\/li>\n<\/ul>\n<h2>Wie geht es weiter?<\/h2>\n<p>Aus den ethischen und juristischen Fragen der generativen Kunst ergibt sich sicherlich eine interessante Debatte, in der ein Gleichgewicht zwischen den K\u00fcnstlern einerseits und den Entwicklern dieser Technologie andererseits gesucht werden muss. Zum einen muss das Urheberrecht gewahrt bleiben. Zum anderen stellt sich die Frage, ob Computerkunst\u009d so viel anders ist als die menschliche? In beiden F\u00e4llen lassen sich die Macher von den Werken von Kollegen und Konkurrenten inspirieren.<\/p>\n<p>Aber lassen Sie uns auf den Boden der Tatsachen zur\u00fcckkommen und \u00fcber Sicherheit sprechen. Das Papier enth\u00e4lt eine Reihe spezifischer Fakten zu nur einem Modell des maschinellen Lernens. Wenn wir das Konzept auf <em>alle<\/em> \u00e4hnlichen Algorithmen ausweiten, kommen wir zu einem interessanten Ergebnis. Es ist nicht schwer, sich ein Szenario vorzustellen, in dem ein intelligenter Assistent eines Mobilfunkanbieters als Reaktion auf eine Benutzeranfrage vertrauliche Unternehmensinformationen preisgibt, die einfach nur in den Trainingsdaten enthalten waren. Oder eine listige Abfrage k\u00f6nnte ein \u00f6ffentliches neuronales Netzwerk dazu bringen, eine Kopie des Reisepasses einer Person zu erstellen. Forscher betonen, dass solche Probleme vorerst theoretisch bleiben.<\/p>\n<p>Aber andere Probleme sind bereits Realit\u00e4t geworden. W\u00e4hrend wir hier sprechen, wird das Text generierende neuronale Netzwerk ChatGPT verwendet, um echten Schadcode zu <a href=\"https:\/\/www.kaspersky.de\/blog\/chatgpt-cybersecurity\/29691\/\" target=\"_blank\" rel=\"nofollow noopener\">schreiben<\/a>, der (manchmal) funktioniert. Und <a href=\"https:\/\/github.com\/features\/copilot\" target=\"_blank\" rel=\"nofollow noopener\">GitHub Copilot<\/a> hilft Programmierern, Code zu schreiben, wobei eine gro\u00dfe Menge an Open-Source-Software als Eingabe verwendet wird. Und das Tool respektiert nicht immer das Urheberrecht und die Privatsph\u00e4re der Autoren, deren Code in den umfangreichen Trainingsdaten gelandet ist. Mit der Weiterentwicklung neuronaler Netze entwickeln sich auch die Angriffe auf sie\u00a0\u2013 mit bislang unabsehbaren Folgen.<\/p>\n<input type=\"hidden\" class=\"category_for_banner\" value=\"premium-geek\">\n","protected":false},"excerpt":{"rendered":"<p>Neuronale Netze, die Bilder erzeugen, sind bereits allgegenw\u00e4rtig. Welche Risiken f\u00fcr die Privatsph\u00e4re stellen sie dar?<\/p>\n","protected":false},"author":665,"featured_media":30090,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[2711,2287],"tags":[274,1520,4061,3067],"class_list":{"0":"post-30084","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-threats","8":"category-technology","9":"tag-bedrohungen","10":"tag-ki","11":"tag-neuronale-netzwerke","12":"tag-neuronales-netzwerk"},"hreflang":[{"hreflang":"de","url":"https:\/\/www.kaspersky.de\/blog\/neural-networks-data-leaks\/30084\/"},{"hreflang":"en-in","url":"https:\/\/www.kaspersky.co.in\/blog\/neural-networks-data-leaks\/25561\/"},{"hreflang":"en-ae","url":"https:\/\/me-en.kaspersky.com\/blog\/neural-networks-data-leaks\/20981\/"},{"hreflang":"ar","url":"https:\/\/me.kaspersky.com\/blog\/neural-networks-data-leaks\/10573\/"},{"hreflang":"en-us","url":"https:\/\/usa.kaspersky.com\/blog\/neural-networks-data-leaks\/28191\/"},{"hreflang":"en-gb","url":"https:\/\/www.kaspersky.co.uk\/blog\/neural-networks-data-leaks\/25858\/"},{"hreflang":"es-mx","url":"https:\/\/latam.kaspersky.com\/blog\/neural-networks-data-leaks\/26274\/"},{"hreflang":"es","url":"https:\/\/www.kaspersky.es\/blog\/neural-networks-data-leaks\/28760\/"},{"hreflang":"it","url":"https:\/\/www.kaspersky.it\/blog\/neural-networks-data-leaks\/27728\/"},{"hreflang":"ru","url":"https:\/\/www.kaspersky.ru\/blog\/neural-networks-data-leaks\/35172\/"},{"hreflang":"x-default","url":"https:\/\/www.kaspersky.com\/blog\/neural-networks-data-leaks\/47992\/"},{"hreflang":"fr","url":"https:\/\/www.kaspersky.fr\/blog\/neural-networks-data-leaks\/20509\/"},{"hreflang":"pt-br","url":"https:\/\/www.kaspersky.com.br\/blog\/neural-networks-data-leaks\/21205\/"},{"hreflang":"ja","url":"https:\/\/blog.kaspersky.co.jp\/neural-networks-data-leaks\/33812\/"},{"hreflang":"ru-kz","url":"https:\/\/blog.kaspersky.kz\/neural-networks-data-leaks\/26176\/"},{"hreflang":"en-au","url":"https:\/\/www.kaspersky.com.au\/blog\/neural-networks-data-leaks\/31867\/"},{"hreflang":"en-za","url":"https:\/\/www.kaspersky.co.za\/blog\/neural-networks-data-leaks\/31551\/"}],"acf":[],"banners":"","maintag":{"url":"https:\/\/www.kaspersky.de\/blog\/tag\/neuronales-netzwerk\/","name":"neuronales Netzwerk"},"_links":{"self":[{"href":"https:\/\/www.kaspersky.de\/blog\/wp-json\/wp\/v2\/posts\/30084","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.kaspersky.de\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.kaspersky.de\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.kaspersky.de\/blog\/wp-json\/wp\/v2\/users\/665"}],"replies":[{"embeddable":true,"href":"https:\/\/www.kaspersky.de\/blog\/wp-json\/wp\/v2\/comments?post=30084"}],"version-history":[{"count":6,"href":"https:\/\/www.kaspersky.de\/blog\/wp-json\/wp\/v2\/posts\/30084\/revisions"}],"predecessor-version":[{"id":30201,"href":"https:\/\/www.kaspersky.de\/blog\/wp-json\/wp\/v2\/posts\/30084\/revisions\/30201"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.kaspersky.de\/blog\/wp-json\/wp\/v2\/media\/30090"}],"wp:attachment":[{"href":"https:\/\/www.kaspersky.de\/blog\/wp-json\/wp\/v2\/media?parent=30084"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.kaspersky.de\/blog\/wp-json\/wp\/v2\/categories?post=30084"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.kaspersky.de\/blog\/wp-json\/wp\/v2\/tags?post=30084"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}