Neues Verfahren gegen KI-generierte Deepfakes

Vorlesen

Schutz vor Manipulation: Forscher haben ein System entwickelt, das vor einer Manipulation und Verfälschung von Online-Bildern durch künstliche Intelligenz schützen kann. Dafür fügt das „UnGANable“ getaufte System ein nicht sichtbares Störrauschen auf der mathematisch-digitalen Ebene der Fotos ein. Dies stört das Auslesen der Bilder durch KI-Systeme und verhindert damit auch das Erstellen von veränderten Varianten dieser Fotos. In ersten Tests funktionierte diese Manipulationsblockade bereits besser als bisherige Schutzmethoden wie das Team berichtet.

Fortschritte der künstlichen Intelligenz machen es heute immer einfacher, Bilder und Videos zu fälschen und Deepfakes zu erzeugen. Neben Text-zu-Bild-Generatoren wie Stable Diffusion oder DALL-E kommen dabei auch KI-Systeme zum Einsatz, mit denen sich digitale Bilder manipulieren lassen: Gesichtszüge, Mimik und Blickrichtung können verändert, Proportionen verzerrt werden. „Meist wissen die Personen auf den Fotos nichts von der Manipulation und können sich nicht mal dagegen wehren“, erklärt Erstautor Zheng Li vom CISPA Helmholtz Center for Information Security.

Wie Bildmanipulation durch GANs funktioniert

Eine wichtige Methode zur Erzeugung von Deepfakes ist die sogenannte GAN-Inversion. Grundlage dafür sind Generative Adversarial Networks (GAN), KI-Systeme, bei denen zwei künstliche neuronale Netze im Training miteinander wetteifern. Das erste neuronale Netz erstellt die Bilder oder Bildveränderungen, während das zweite versucht, diese künstlich erzeugten Bilder von echten zu unterscheiden. Durch diesen „Wettstreit“ entwickeln sich beide Teilsysteme immer weiter und damit auch die Qualität der erzeugten Bilder.

Damit GANs jedoch Bilder verarbeiten können, müssen sie diese zuerst in mathematische Vektoren, den sogenannten „latent code“ umwandeln. Dies wird als GAN-Inversion bezeichnet und stellt eine Art Bildkomprimierung dar. Mit Hilfe des „latent code“ eines realen Bildes kann ein Generator dann veränderte, aber täuschend echt erscheinende Kopien dieser Aufnahme generieren. Wie Li berichtet, gab es bisher kaum Möglichkeiten, Deepfakes auf Basis der GAN-Inversion zu verhindern.

„Tarnkappe“ auf der Vektor-Ebene

„Wenn ein Bild erst einmal in ‚latent code‘ umgewandelt ist, dann ist es extrem schwer, wenn nicht sogar unmöglich, die darauffolgende Manipulation zu verhindern“, erklären Li und seine Kollegen. Ihr neues, UnGANable getauftes Verfahren setzt daher genau an diesem Punkt an. Dafür produziert UnGANable auf Ebene der mathematischen Vektoren eine Art Störrauschen – Abweichungen, die im Bild nicht sichtbar sind, aber den GAN-Systemen Umwandlung in „latent code“ erschweren.

Dieses eingefügte Rauschen wirkt wie eine Art Tarnkappe: Es verhindert, dass der für Deepfakes genutzte Bildgenerator das Bild korrekt digital auslesen und in seine Komponenten zerlegen kann. Damit läuft das GAN – einfach gesprochen – quasi trocken, weil es keine Daten findet, mit deren Hilfe neue Bilder erstellt werden können. Und wenn keine dem Originalbild ähnlichen Kopien auf Basis des „latent code“ erstellt werden können, ist auch keine Bildmanipulation möglich, wie die Forscher erklären.

Erfolgreich gegen gängige GAN-Systeme

In ersten Tests des UnGANable-Verfahrens entwickelten Li und sein Team fünf verschiedene Varianten ihrer „latent code“-Tarnkappen. Zwei davon blockieren speziell die optimierungsbasierte GAN-Inversion, die drei anderen können gegen die hybride GAN-Inversion eingesetzt werden, wie die Forscher erklären. Alle fünf Varianten testeten sie in verschiedenen Szenarien gegen vier gängige GAN-Programme.

„Unsere Ergebnisse zeigen, dass UnGANable bemerkenswerte Leistungen im Hinblick auf Effektivität und Anwendbarkeit erreicht“, berichten Li und seine Kollegen. Der Einsatz des Abwehrprogramms führte dazu, dass die Bildgeneratoren unscharfe oder von Störungen durchsetzte Kopien der Testporträts erstellten. Ergänzende Tests ergaben zudem, dass UnGANable auch besser schützte als bisher existierende Schutzprogramme, die nur Störungen oder Verzerrungen auf der Pixelebene einfügen. Im Gegensatz dazu setzt das neue Verfahren auf der Ebene der mathematischen Vektoren an.

Code von UnGANable schon jetzt Open Source

Nach Ansicht der Forscher ist UnGANable damit ein wichtiger Schritt hin zur Entwicklung besserer Schutzverfahren gegen Bildmanipulation und Deepfakes. „Mir ist es wichtig, die Menschen vor der böswilligen Manipulation ihrer Bilder zu schützen“, sagt Li. Deshalb ist der Code für das von ihm mitentwickelte Verfahren Open-Source, also öffentlich zugänglich. Wer im Umgang mit Programmiercodes versiert ist, kann diesen schon jetzt dafür nutzen, die eigenen Bilder vor missbräuchlicher Nutzung zu schützen.

Damit auch die breite Öffentlichkeit diesen Deepfake-Schutz anwenden kann, muss jedoch noch eine entsprechende Software programmiert werden, wie die Forscher erklären. Sie arbeiten inzwischen daran, UnGAnable zu optimieren und zu erweitern. „Vielleicht lässt sich das Verfahren in Zukunft auch für Videos einsetzen“, sagt Li. Klar scheint in jedem Fall, dass Abwehrmechanismen gegen KI-generierte Deepfakes in Zukunft immer notwendiger werden dürften. (Usenix Security Symposium, 2023; doi: 10.48550/arXiv.2210.00957)

Quelle: CISPA Helmholtz Center for Information Security

14. September 2023 - Nadja Podbregar