Generative KI & Large Language Models
Bildgenerierung: GANs, DALL-E und Style-Transfer
Lernziele dieser Lektion
- Das Funktionsprinzip von GANs (Generative Adversarial Networks) erklären können
- Die Rollen von Generator und Discriminator verstehen
- Beispiele für KI-generierte Bilder kennen und von echten Fotos unterscheiden können
- Das Konzept des Style-Transfers verstehen
- Aktuelle Text-zu-Bild-Modelle wie DALL-E kennen und deren Entwicklung einordnen
Bilder aus dem Nichts: Wie KI Bilder erzeugt
Während die Textgenerierung auf Next Token Prediction basiert, funktioniert die Bildgenerierung nach einem völlig anderen Prinzip. Eines der wichtigsten Verfahren sind Generative Adversarial Networks (GANs) – ein Konzept, das 2014 von Ian Goodfellow vorgestellt wurde und die KI-Welt revolutioniert hat.
Generative Adversarial Networks (GANs)
Ein GAN besteht aus zwei neuronalen Netzen, die gegeneinander antreten: einem Generator und einem Diskriminator. Dieser Wettbewerb führt dazu, dass die erzeugten Bilder immer realistischer werden.
Das Prinzip: Der Kunstfälscher und der Experte
Der Generator erhält zufälliges Rauschen als Eingabe und versucht daraus, möglichst realistische Bilder zu erzeugen. Man kann ihn sich wie einen Kunstfälscher vorstellen, der immer besser darin wird, überzeugende Fälschungen herzustellen.
Der Discriminator – der Polizist
Der Discriminator bekommt sowohl echte Bilder aus dem Trainingsdatensatz als auch die vom Generator erzeugten Bilder vorgelegt. Seine Aufgabe: Erkennen, welche Bilder echt und welche gefälscht sind. Er ist sozusagen der Polizist, der die Fälschungen aufspüren soll.
Dies ist nur ein kurzer Auszug. Die vollständige Lektion mit interaktiven Übungen und Lernfortschritts-Tracking gibt es nach Einlösung eines Einschreibeschlüssels.