Bildgenerierung: GANs, DALL-E und Style-Transfer – KI – Themenpool

Lernziele dieser Lektion

Das Funktionsprinzip von GANs (Generative Adversarial Networks) erklären können
Die Rollen von Generator und Discriminator verstehen
Beispiele für KI-generierte Bilder kennen und von echten Fotos unterscheiden können
Das Konzept des Style-Transfers verstehen
Aktuelle Text-zu-Bild-Modelle wie DALL-E kennen und deren Entwicklung einordnen

Bilder aus dem Nichts: Wie KI Bilder erzeugt

Während die Textgenerierung auf Next Token Prediction basiert, funktioniert die Bildgenerierung nach einem völlig anderen Prinzip. Eines der wichtigsten Verfahren sind Generative Adversarial Networks (GANs) – ein Konzept, das 2014 von Ian Goodfellow vorgestellt wurde und die KI-Welt revolutioniert hat.

Generative Adversarial Networks (GANs)

Ein GAN besteht aus zwei neuronalen Netzen, die gegeneinander antreten: einem Generator und einem Diskriminator. Dieser Wettbewerb führt dazu, dass die erzeugten Bilder immer realistischer werden.

GAN-Architektur: Generator und Diskriminator im Wettbewerb

Das Prinzip: Der Kunstfälscher und der Experte

Der Generator erhält zufälliges Rauschen als Eingabe und versucht daraus, möglichst realistische Bilder zu erzeugen. Man kann ihn sich wie einen Kunstfälscher vorstellen, der immer besser darin wird, überzeugende Fälschungen herzustellen.

Der Discriminator – der Polizist

Der Discriminator bekommt sowohl echte Bilder aus dem Trainingsdatensatz als auch die vom Generator erzeugten Bilder vorgelegt. Seine Aufgabe: Erkennen, welche Bilder echt und welche gefälscht sind. Er ist sozusagen der Polizist, der die Fälschungen aufspüren soll.