Computer Vision und Bilderkennung – KI – Themenpool

Lernziele dieser Lektion

Erklären können, was Computer Vision ist und wie KI Bilder „sieht“
Die drei Aufgaben Klassifizierung, Lokalisierung und Objekterkennung unterscheiden können
Praktische Anwendungsbeispiele für Computer Vision benennen
Verstehen, wie Computer-Vision-Systeme trainiert werden

Was ist Computer Vision?

Computer Vision (maschinelles Sehen) ist ein Teilgebiet der Künstlichen Intelligenz, das Computern die Fähigkeit verleiht, Bilder und Videos zu „verstehen“ und daraus Informationen zu extrahieren.

Für einen Computer ist ein Bild zunächst nur ein Raster von Zahlenwerten (Pixeln). Die Herausforderung besteht darin, aus diesen Zahlen Bedeutung abzuleiten – ähnlich wie unser Gehirn aus Lichtsignalen Objekte, Gesichter und Szenen erkennt.

Von Pixeln zu Erkenntnis

Ein Foto mit 1920×1080 Pixeln enthält über 2 Millionen Bildpunkte, jeder mit drei Farbwerten (Rot, Grün, Blau). Das ergibt über 6 Millionen Zahlenwerte. Computer-Vision-Algorithmen müssen in dieser Zahlenflut Muster erkennen – Kanten, Formen, Texturen – und diese zu Objekten zusammensetzen.

Die drei Hauptaufgaben der Computer Vision

Computer Vision umfasst verschiedene Aufgaben mit steigender Komplexität:

1. Klassifizierung (Classification)

Klassifizierung beantwortet die Frage: „Was ist auf dem Bild?“

Das System ordnet ein ganzes Bild einer Kategorie zu. Beispiel: Ein Foto wird als „Katze“, „Hund“ oder „Auto“ erkannt. Es gibt aber keine Information darüber, wo im Bild sich das Objekt befindet.

2. Lokalisierung (Localization)

Lokalisierung beantwortet die Frage: „Was ist auf dem Bild und wo genau?“

Zusätzlich zur Klassifizierung wird die Position des Objekts mit einem Rahmen (Bounding Box) markiert. Das System erkennt z.B.: „Da ist eine Katze – und sie befindet sich im linken unteren Bereich des Bildes.“

3. Objekterkennung (Object Detection)

Objekterkennung beantwortet die Frage: „Welche Objekte sind auf dem Bild und wo befinden sie sich jeweils?“

Im Gegensatz zur Lokalisierung können hier mehrere Objekte gleichzeitig erkannt und lokalisiert werden. Beispiel: In einem Straßenfoto werden gleichzeitig 3 Autos, 2 Fußgänger und 1 Fahrrad erkannt und jeweils mit einem Rahmen markiert.

Dies ist nur ein kurzer Auszug. Die vollständige Lektion mit interaktiven Übungen und Lernfortschritts-Tracking gibt es nach Einlösung eines Einschreibeschlüssels.