Zum Hauptinhalt springen

Generative KI & Large Language Models

Bildgenerierung: GANs, DALL-E und Style-Transfer

Teaser – volle Lektion nach Anmeldung

Lernziele dieser Lektion

  • Das Funktionsprinzip von GANs (Generative Adversarial Networks) erklären können
  • Die Rollen von Generator und Discriminator verstehen
  • Beispiele für KI-generierte Bilder kennen und von echten Fotos unterscheiden können
  • Das Konzept des Style-Transfers verstehen
  • Aktuelle Text-zu-Bild-Modelle wie DALL-E kennen und deren Entwicklung einordnen

Bilder aus dem Nichts: Wie KI Bilder erzeugt

Während die Textgenerierung auf Next Token Prediction basiert, funktioniert die Bildgenerierung nach einem völlig anderen Prinzip. Eines der wichtigsten Verfahren sind Generative Adversarial Networks (GANs) – ein Konzept, das 2014 von Ian Goodfellow vorgestellt wurde und die KI-Welt revolutioniert hat.

Generative Adversarial Networks (GANs)

Ein GAN besteht aus zwei neuronalen Netzen, die gegeneinander antreten: einem Generator und einem Diskriminator. Dieser Wettbewerb führt dazu, dass die erzeugten Bilder immer realistischer werden.

GAN-Architektur: Generator und Diskriminator im Wettbewerb

Das Prinzip: Der Kunstfälscher und der Experte

Der Generator erhält zufälliges Rauschen als Eingabe und versucht daraus, möglichst realistische Bilder zu erzeugen. Man kann ihn sich wie einen Kunstfälscher vorstellen, der immer besser darin wird, überzeugende Fälschungen herzustellen.

Der Discriminator – der Polizist

Der Discriminator bekommt sowohl echte Bilder aus dem Trainingsdatensatz als auch die vom Generator erzeugten Bilder vorgelegt. Seine Aufgabe: Erkennen, welche Bilder echt und welche gefälscht sind. Er ist sozusagen der Polizist, der die Fälschungen aufspüren soll.

Dies ist nur ein kurzer Auszug. Die vollständige Lektion mit interaktiven Übungen und Lernfortschritts-Tracking gibt es nach Einlösung eines Einschreibeschlüssels.