KI-System ermöglicht Bildmanipulation für Laien

Vorlesen

Anklicken und Ziehen genügt: Eine neue künstliche Intelligenz macht das Verändern eines Gesichtsausdrucks, einer Pose oder des Hintergrunds von digitalen Bildern einfacher. Man muss nur noch die gewünschte Manipulation durch Klicken und Ziehen andeuten, schon passt das KI-System „DragGAN“ das Foto oder Filmbild entsprechend an. Dass dies auch Missbrauch und böswillige Manipulation durch Deep Fakes erleichtert, räumt allerdings auch das Forschungsteam ein.

Die Blickrichtung eines Mensch- oder Tierporträts anpassen? Die Perspektive auf einem Landschaftsbild verschieben? Oder die Körperhaltung und Mimik einer Person verändern? Solche Bildmanipulationen waren auch bisher schon möglich, erforderten aber meist einigen Aufwand und Kenntnisse in Bildbearbeitungsprogrammen.

Bildmanipulation per Klick und Drag

Das könnte sich nun ändern. Denn ein Forschungsteam um Xingang Pan vom Max-Planck-Institut für Informatik in Saarbrücken hat nun ein KI-gestütztes System entwickelt, das die Bildbearbeitung radikal vereinfacht. „Mit ‚DragGAN‘ entwickeln wir derzeit ein Werkzeug, dass es dank einer übersichtlichen Nutzeroberfläche auch Laien ermöglicht, komplexe Bildbearbeitungen vorzunehmen“, erklärt Pans Kollege Christian Theobalt.

Anders als bei Bildgeneratoren wie Midjourney oder DALL-E erstellt das neue KI-System keine neuen Fotos oder Filmbilder, sondern kann bestehende Fotos oder Filmbilder tiefgreifend verändern. „Nutzer müssen nur die Stellen im Foto markieren, die sie verändern möchten. Dann geben sie in einem Menü an, welcher Art die Veränderung sein soll – und mit nur wenigen Mausklicks kann jeder Laie dank KI-Unterstützung die Pose, den Gesichtsausdruck, die Blickrichtung oder den Blickwinkel auf einem Foto, beispielsweise von einem Haustier, anpassen“, erklärt Theobalt.

GAN: Zwei selbstlernende Netzwerke konkurrieren

Möglich wird dies dank einer speziellen Form der künstlichen Intelligenz, der sogenannten Generative Adversarial Networks (GAN). Ähnlich wie ChatGPT, DALL-E und andere KI-Systeme beruhen auch GANs auf selbstlernenden neuronalen Netzwerken. Und auch GANs sind generative Modelle und damit Systeme, die neue Inhalte generieren können. Der Unterschied liegt in der Art, wie ein GAN lernt: „Der Begriff Adversarial zeigt an, dass es sich um ein KI-Modell handelt, in dem zwei Netzwerke gegeneinander spielen“, erklärt Pan.

Das erste Netzwerk eines GAN ist der Generator, der Bilder oder in diesem Falle die veränderten Inhalte eines Bildes erstellt. Das zweite Netzwerk, der Discriminator, muss anschließend entscheiden, ob die Bilder echt sind oder vom Generator erstellt wurden. Das System wird dann so lange trainiert, bis der Discriminator die Bilder des Generators nicht mehr von echten Bildern unterscheiden kann.

Fehlendes wird täuschend realistisch ergänzt

In ersten Tests zeigte DragGAN bereits gute Leistungen beispielsweise beim Verändern der Pose oder des Gesichts von Tieren und Menschen, aber auch bei der Veränderung von Landschaften oder Fahrzeugen. Die Fähigkeit des KI-Systems, dabei generativ zu arbeiten und fehlende Inhalte zu ergänzen, ermöglicht zudem weitreichende Manipulationen: GANs können beispielsweise auch einen zuvor verdeckten Hintergrund ergänzen oder die gesamte Perspektive eines Bildes verschieben.

„In unserem Fall erweist sich diese Eigenschaft von GANs als vorteilhaft, wenn in einem Bild zum Beispiel die Blickrichtung eines Hundes geändert werden soll. Das GAN berechnet dann im Grunde das ganze Bild neu und antizipiert, wo welcher Pixel im Bild mit der neuen Blickrichtung landen muss“, erklärt Pan. „Ein Nebeneffekt davon ist, dass DragGAN auch Dinge berechnen kann, die vorher etwa durch die Kopfposition des Hundes verdeckt waren. Oder wenn der Nutzer die Zähne des Hundes darstellen will, kann er dem Hund auf dem Bild die Schnauze öffnen.“

Anwendungen auch in Videos

Auch im professionellen Kontext könnte DragGAN genutzt werden. So vereinfacht es beispielsweise die digitale Anprobe von Kleidung oder die Konfiguration eines Fahrzeugs: Mit wenigen Klicks lassen sich verschiedene Design-Konfigurationen und Blickwinkel durchspielen. Auch im Videobereich und beim Streamen könnte das KI-System eingesetzt werden. Bei der sogenannten Video-Frame-Prediction prognostiziert es beispielsweise das nächste Bild eines Videos, was den Datenaufwand beim Videostreaming reduzieren kann.

Die GANs können zudem niedrig aufgelöste Bilder hochskalieren und die Bildqualität verbessern, indem sie die Position der zusätzlichen Pixel der neuen Bilder vorhersagen. Das neue Tool der Saarbrücker Informatiker hat bereits wenige Tage nach Veröffentlichung ihres Preprints in der internationalen Tech-Community für Aufsehen gesorgt. Es gilt vielen als der nächste große Schritt in der KI-gestützten Bildbearbeitung.

Gefahr des Missbrauchs

Allerdings haben die Fähigkeiten von DragGAN auch Schattenseiten, wie auch Pan und sein Team einräumen. „Unsere Methode könnte auch missbraucht werden, um Bilder einer realen Person mit gefälschter Pose, Form oder Gesichtsausdruck zu erzeugen“, erklären sie. „Jede Anwendung oder Forschung, die unseren Ansatz nutzt, muss daher Persönlichkeitsrechte und Datenschutzregelungen strikt einhalten.“

Doch vergangene Deep Fakes haben bereits gezeigt, dass ein solcher Missbrauch nur schwer zu verhindern und zu kontrollieren ist. Je einfacher die Herstellung manipulierter Bildern wird, desto mehr Menschen werden diese Möglichkeit auch nutzen – zum Guten wie zum Schlechten. (arXiv Preprint, 2023; doi: 10.1145/3588432.3591500)

Quelle: Universität des Saarlandes

13. Juni 2023 - Nadja Podbregar

vorherige Meldung

nächste Meldung

KI-System ermöglicht Bildmanipulation für Laien

Intuitive Veränderung digitaler Bilder durch „DragGAN“ erleichtert auch Deep Fakes

Bildmanipulation per Klick und Drag

GAN: Zwei selbstlernende Netzwerke konkurrieren

Fehlendes wird täuschend realistisch ergänzt

Anwendungen auch in Videos

Gefahr des Missbrauchs

In den Schlagzeilen

News des Tages

Diaschauen zum Thema

Dossiers zum Thema

Bücher zum Thema

Top-Clicks der Woche

Neue fossile Riesenschlange entdeckt

Rekord-Ausbruch überrascht Astronomen

Waffentruhe eines mittelalterlichen Flaggschiffs geöffnet

37 Millionen Grad im Fusionsplasma

Wie man beim Dart gewinnt

Social Media

Partner

Service