Mindestenssechszeichen...keine Panik!

Künstliche Kunst

6. Dezember 2022 von Yhoko
Künstliche Intelligenz ist ein heikles Thema, doch es wird immer wichtiger, sich damit zu befassen und auch Stellung zu beziehen. Einige Gedanken zum Thema Bildgeneratoren bzw. "AI-generated art".
Es ist gar nicht lange her, dass neuronale Netzwerke noch Mühe damit hatten, Hunde von Katzen zu unterscheiden (davor hatten sie Mühe, Hunde von Blumenvasen zu unterscheiden, aber das wurde nicht an die grosse Glocke gehängt). Heute antworten sie, dank Sprachsynthese mit angenehmer Stimme, auf komplexe Fragen (die man dank Spracherkennung auch gleich mündlich eingeben kann), fassen lange Texte aufs Wesentliche zusammen und erzeugen aus einer kurzen Beschreibung die unglaublichsten Bilder. So geschehen im Herbst 2022, als Jason Allen mit seinem Bild "Théâtre D'opéra Spatial" einen Kunstwettbewerb gewann:

Théâtre D'opéra Spatial

Was zunächst keiner wusste: Das Werk war grösstenteils von einem Onlinedienst erzeugt worden. Davon gibt es mittlerweile einige, wie zum Beispiel Dall-E, Stable Diffusion und das von Allen genutzte Midjourney (welches auf derartige Gemälde spezialisiert ist). Während man bisher KI-Bilder also noch gut belächeln (und als solche erkennen) konnte, ändert sich die Lage mit drastischer Geschwindigkeit. Gefüttert durch abermillionen von Bildern und die Rückmeldungen der eigenen Nutzer lernen die Algorithmen immer besser, konsistente Bilder zu erzeugen und zu erkennen, was der Nutzer sehen möchte. Bei Google ist man übrigens schon einen Schritt weiter und erzeugt bereits einfache 3D-Modelle auf diese Weise, aber das soll jetzt nicht Thema sein.

Horizon
Midjourney – "Yhoko.com"


Ich habe selbst ein wenig mit der künstlichen Bilderzeugung experimentiert und komme zum Schluss, dass es (noch) nicht ganz einfach ist, dieses Werkzeug zu bedienen. Grundsätzlich muss zwar nur ein "Prompt" (textliche Beschreibung des Bildes) eingegeben und auf das Ergebnis gewartet werden, doch genau da liegt auch der Hund begraben. Am andere Ende sitzt eben kein Mensch, der den Text verstehen würde, sondern ein digitales Netzwerk, welches die Wörter analysiert und gewichtet. Dieses fehlende Verständnis äussert sich in skurril verschmolzenen Gegenständen, überzähligen Gliedmassen und unsinnigen Details bis hin zur völligen Fehlinterpretationen der Beschreibung. Mit anderen Worten: Man weiss nie so genau, was beim Klick auf "Erzeugen" gleich herauskommen wird. Dem tragen auch die Dienste Rechnung und erzeugen z.B. gleich 4 Bilder, aus denen man das Beste aussucht und als Basis für eine weitere Runde verwendet. So hangelt man sich Schritt für Schritt immer weiter, bis das Ergebnis passt – auch wenn es am Ende nicht das ist, was man ursprünglich haben wollte. Entweder man ist also flexibel, geht nur mit einer groben Idee an die Sache heran und lässt sich auf das ein, was das Netzwerk ausspuckt, oder man bringt viel Zeit und Geduld mit, um dem Generator genau das zu erzeugen, was man im Kopf hat.

Der Ablauf ist erschreckend ähnlich wie die Holodeck-Szene in [https] Star Trek TNG, 6x05, als die Mannschaft nachts in den Subraum entführt wird und, um sich daran zu erinnern, versucht, den OP-Tisch / Stuhl im Holodeck nachzubauen.


Manchmal kommt man gut voran, indem man das Bild zwischendurch speichert, von Hand bearbeitet und als neue Basis wieder hochlädt. Oder es macht Sinn, Bildteile zu maskieren, diese Bereiche neu zu erzeugen und die fertige Collage als Ausgangsbild bei einem anderen Dienst hochzuladen, um daraus wieder ein einheitliches Bild zu machen. Oder man verfeinert das Prompt immer weiter und erzeugt Bild um Bild, bis es den Ansprüchen genügt. Mit der Zeit lernt man auch, sich so auszudrücken, dass die gewünschte Wirkung entsteht. Kurze, prägnante Feststellungen führen eher zum Ziel als ausschweifend beschriebene Details und beispielsweise Adjektive wirken sich auch auf alle anderen Nomen im Prompt aus. Ja, ganz ähnlich wie man seine Suchanfragen an Google besser nicht in natürlicher Sprache verfasst.

Autumn Swap
Dall-E – “autumn forest, fog and twilight, leaves falling down #oilpainting”


Damit sollte klar sein, dass es eben nicht damit getan ist, ein paar Worte einzugeben und auf ein Kunstwerk zu hoffen. Es mag sogar anfangs enttäuschend sein, wenn die erzeugten Bilder so gar nicht dem entsprechen, was man sich im Kopf vorgestellt hatte. Anders ausgedrückt: Die künstliche Bilderzeugung ist kein präzises Werkzeug sondern vielmehr eine kreative Zufallsmaschine, die einerseits viel Ausschuss generiert, andererseits aber auch erstaunliche Resultate erzeugt, an die man selbst nie gedacht hätte. Nicht umsonst wird in diesem Zusammenhang auch gerne von "Dreams" gesprochen; chaotische Gedankenfeuer von Bildeindrücken, die sich irgendwie zu einem Gesamtwerk vermischen.

Allerdings machen die Netzwerke auch rasante Fortschritte und sowas wie überschüssige Gliedmassen und mit der Wand verschmolzene Waschmaschinen dürften bald passé sein. Zweifelsohne wird die Bilderzeugung einen festen Platz in der Kunstwelt einnehmen, auch wenn sie bereits jetzt von einigen Kreisen als "low effort art" (Kunst mit geringem Aufwand) verpöhnt wird. Einige der grossen Plattformen haben sich sogar für ein generelles Verbot entschieden und die künstlichen Werke von ihren Servern verbannt.

Snow Wookies
Midjourney – "snowy winter on tatooine with frozen wookie"


Ich persönlich betrachte aber immer noch lieber ein imposantes, vom Computer erzeugtes Bild, als ein von menschenhand gekritzeltes Strichmännchen. Letzteres stellt nun wirklich kaum Aufwand dar, während Jason Allen rund 80 Stunden an seinem oben gezeigten Werk sass. Der Unterschied zur "klassischen" Malerei besteht also hauptsächlich darin, dass er sein Werk nicht mit Pinsel und Leinwand sondern mit Maus und Tatatur erzeugte – und mit der Unterstützung zahlloser Cloud-Computer, die im übrigen auch nicht kostenlos liefen (zum Kennenlernen erhältet man bei den Diensten immer wieder kleine Gratiskontingente, mit denen man aber nicht allzu weit kommt). Rechnet man nun 80 Stunden mal dem Mindestlohn, plus die Rechenzeit bei Midjourney, erreicht man gut 1000 Euro, die das Bild in der Herstellung gekostet hat.

Ich selbst habe kürzlich 160 neue, alternative Bilder für die Spirits hergestellt (bzw. aus 1'200 erzeugten Bildern ausgesucht), und das hat rund 16 Arbeitsstunden gedauert. Manche waren auf Anhieb tauglich, andere liessen sich partout nicht passend erzeugen. Es ist ein wenig, als hätte man ein dutzend fremdländische Künstler an der Hand, mit denen sich nur über Google Translate halbwegs kommunizieren lässt. Sie verstehen nur die Hälfte und interpretieren den Rest immer wieder anders, malen dafür aber extrem schnell und am Ende muss man sich für das beste Bild entscheiden – oder noch eine Runde anstossen. Manchmal hilft es auch, ihnen mehr Geld zuzuwerfen (mehr Rechenzyklen), was die Ergebnisse erheblich verbessern kann (aber nicht muss).

Dungeon Thief
Midjourney – "d&d thief in a torch-lit dungeon, looking for traps, one inch at a time"


Die Situation ist womöglich gut vergleichbar mit der Fotografie, wo eines Tages die digitalen Kameras aufkamen. Anfangs wurden sie -zurecht- wegen ihrer miserablen Auflösung, winzigen Bildsensoren und dem arg begrenzten Speicherplatz belächelt, doch in nur wenigen Jahren überholten sie die analogen Modelle in Sachen Bildqualität, Geschwindigkeit, Funktionsvielfalt und schliesslich sogar Grösse und Gewicht. Heutzutage wird immer noch analog fotografiert, aber das ist dann "retro" und hat seinen eigenen Charme, während teure Profikameras jede Hautpore in HD zeigen. Und obwohl heute jeder ständig eine 12 Megapixel-Kamera im Smartphone mit sich herumführt, wissen die wenigsten, wann es sich abzudrücken lohnt – gerade weil man ja auch erstmal hundert Aufnahmen machen und später aussortieren kann (ja klar...). Insgesamt wurde die Fotografie durch den Wandel einfach deutlich zugänglicher, was aber letztendlich nur im Sinne der Kunst sein kann.

Shyleen
Stability AI - "cute fantasy monster, digital art" (Shyleen als Ausgangsbild)


Unterm Strich zeigt sich hier eine neuartige Kunstrichtung, die so langsam in der breiten Bevölkerung ankommt. Jeder kann sich mittlerweile kostenlos registrieren, dank Gratiskontingent einige Experimente machen und sich von der Technik verzaubern lassen. Zudem entwickelt sich alles rasend schnell weiter, was die Qualität der Ergebnisse verbessert und die Preise drückt. Die erzeugten Bilder reichen von beeindruckend bis verstörend, wobei Letzteres dank immer ausgefeilterer Methoden bald der Vergangenheit angehören dürfte. Durch immer grössere Sprachmodelle sollten auch die Eingaben immer besser verstanden werden, was wiederum die Akzeptanz und Nützlichkeit der Technologie fördert. Vielleicht ist es in ein paar Jahren völlig normal, dass man beim Rollenspiel oder Geschichtenerzählen alles live mit passenden Bildern untermalt – darauf würde ich mich durchaus freuen.

Bis dahin ist es aber noch ein weiter Weg.

Wie denkt ihr darüber?

Yhoko
Themen: Gedanken ZukunftTechnik


Kommentar schreiben

Name:
E-Mail:
Beitragstext: