Disco Diffusion, DALL-E2 und Midjourney sind Text-zu-Bild-KIs, das bedeutet, dass sie eine Textbeschreibung verstehen und daraus ein Bild errechnen können. Diese Technologie ist erst wenige Jahre alt und fasziniert.

KI-SPEZIAL: Dieser Text stammt aus dem Spezial zur künstlichen Intelligenz der Redaktion Freistunde. Eine Übersicht über alle Artikel gibt es hier: Alle Texte des KI-Spezials.
Wer Bild-KIs verstehen will, muss wissen, wie ein Computer ein Bild interpretiert. Denn dieser betrachtet es in Zahlen. Jedes Pixel hat dabei einen Rot-, Grün-, und Blauwert, das sogenannte RGB. Aus diesen drei Farben lässt sich jede andere mischen. Die Werte können zwischen 0 und 255 jede Zahl annehmen. Ein rotes Pixel hat beispielsweise die Werte 255,0,0. Hat ein Pixel 34,0,0 als Wert, ist es immer noch rot, allerdings hellrot. Ein lila Pixel – eine Mischfarbe aus rot und blau – sähe in Zahlen so aus: 255,0,255.
Genau wie ein autonom fahrendes Auto einen Fußgänger erkennen muss, müssen Text-zu-Bild-KIs die Objekte kennen, die sie malen sollen. Es reicht dabei nicht, diese Gegenstände einfach in einer Datenbank nachzuschlagen und zu kopieren.
Im Gespräch mit einer KI: Im Podcast „Sprechstunde“ haben wir uns mit der Text-KI GPT-3 unterhalten – und ihr die unterschiedlichsten Fragen gestellt: wie es ihr geht, ob sie manchmal gerne ein Mensch wäre und welche Hobbys sie hat.

Hinweis: Dieser Text stammt aus der Freistunde, der Kinder-, Jugend- und Schulredaktion der Mediengruppe Attenkofer. Für die Freistunde schreiben auch LeserInnen, die Freischreiben-AutorInnen. Mehr zur Freistunde unter freistunde.bayern.
0 Kommentare
Kommentieren