Malaga AI Conference: Meine Takeaways und Insights

Letzten Donnerstag und Freitag durfte ich mich mit dem Thema generative KünstlicheIntelligenz auseinandersetzen. Christoph Raethke hat einen handverlesenen Personenkreis in den Innovation Campus Malaga eingeladen. Sonne, 25 Grad und Workshop. Die zwei AI Koryphäen Peter Kabel (Business & Design) und Boris Eldagsen (Kunst & Fotografie) haben uns das Thema in Tiefe nähergebracht. Klar, das Thema gibt es seit Jahrzehnten und ChatGPT kennt und nutzt inzwischen jeder. Wie funktioniert generative KI eigentlich? Welche Daten werden wie genutzt und welche Tools sind für was geeignet? Wie kann ich die Resultate beeinflussen? Mir wurde einiges klarer und ich fand es erstaunlich, wie Details über die Qualität entscheiden.

Shit in, Shit out.

Grafische Tools wie Dall-E, Midjourney und Stable Diffusion nutzen neben einem Sprachmodell - um die Prompts überhaupt zu verstehen - die Daten von Millionen von Bildern. Je nachdem wie diese beschrieben und vertaggt wurden, liefern die Tools unterschiedliche Ergebnisse fürs gleiche Thema.

Natürlich kann man sich den Bielersee im Stil von Hodler zeichnen oder als Foto im Stil von Helmut Newton generieren lassen. Wie viele Daten effektiv über Hodler erlernt wurden, sollte man aber vorher prüfen und seine Abfrage (Prompt) gegebenenfalls erweitern. Bei haveibeentrained.com kann man überprüfen, ob sein Thema/Keyword auch entsprechend in den AIs trainiert wurde.

Fragt man ChatGPT was den Stil von Hodler oder Newton ausmacht und nutzt diese Adjektive für den Prompt, können die Ergebnisse massiv besser werden. Je nach Prompt greift man auf unterschiedliche erlernte Daten zu. Deshalb sollte man sicher immer englische Abfragen absetzen, um eine breite Datenbasis abzufragen und akkurate Ergebnisse zu erhalten. Zudem möglichst mit spezifischen Beschreibungen erweitern.

Wes Anderson würde ich dann z.B. mit pastel tones and muted hues, dreamy, nostalgic atmosphere, vintage and retro elements, balanced, symetrical etc.

Ein neuer Beruf: der Prompter?

Natürlich kann man sich eine “cool lobby in 3d render style” generieren lassen. Mit so kurzen Prompts überlässt man der KI die meiste Arbeit und die Ergebnisse werden vielleicht nicht so zufriedenstellend sein. Dabei kann und sollte man Farben, Materialien, Moods, Emotionen, Trends, Jahrzehnte, Moden oder Technisches wie das Kameramodell, Perspektive, Filmart, Beleuchtung, Belichtungszeit, Brennweite etc. beschreiben. Beispiel: Statt Bild von oben kann man seine Abfrage mit “Drone Footage” erweitern. Ein “professioneller” Prompt kann dann schon mal so aussehen:

“The parametric hotel lobby is a sleek and modern space with plenty of natural light. The lobby is spacious and open with a variety of seating options. The front desk is a sleek white counter with a parametric design. The walls are a light blue color with parametric patterns. The floor is a light wood color with a parametric design. There are plenty of plants and flowers throughout the space. The overall effect is a calm and relaxing space. occlusion, moody, sunset, concept art, octane rendering, 8k, highly detailed, concept art, highly detailed, beautiful scenery, cinematic, beautiful light, hyperreal, octane render, hdr, long exposure, 8K, realistic, fog, moody, fire and explosions, smoke, 50mm f2.8”

Je nach Tool können die Reihenfolge der Wörter und diverse Steuerzeichen wie (()) oder [[]] das Resultat beeinflussen (je nach Tool). Mindestens sollte man

  • Style

  • Artist

  • Formats

  • Boosters

  • Vibes

  • Perspective

  • Technical

definieren.

Die Kunst des Promptens: Neben der Syntax und einer guten Sprachaffinität ist aber eins entscheidend: Die Prompts eines Kunsthistorikers, eines professionellen Fotografen oder eines Grafikers können aufgrund ihres fachlichen Wissens ganz unterschiedlich aussehen. Kurz, es ist eine Kunst und braucht viel Erfahrung, um richtige Prompts abzusetzen. Durch sein Wissen beeinflusst man das Resultat stark und - ich denke - kreiert etwas Neues.

Shared man seine Prompts und Dimensionen, die man herausgefunden und z.B. in einem Excel Sheet zusammengefasst hat? Mh, das wird euer Geheimschatz. Euer AI Wissen!

Hier setzen auch die Arbeiten von Boris an, der auch gerade einen Sony World Photography Award 2023 für dein KI-generiertes Bild gewonnen hat. Und hier kommen wir gleich zum nächsten Thema: KI Kunst ist mehr als ein Tool - es ist ein Prozess.

Prozesse und Toolsets

Dall-E, Midjourney und besonders das Open Source basierte Stable Diffusion sind sicher die führenden Tools. Innerhalb der Tools gibt es aber 1000e Parameter, Funktionen, Plug-ins und Presets, die genutzt werden können. Bis ein Bild entsteht, hopst man je nachdem viel hin und her.

Johannes Vermeers Mädchen im Original

Neben Kunst sind Anwendungen im Marketing natürlich spannend. Stell dir vor, du hast einen Rucksack, den du vermarkten willst, aber vom Headquarter nur drei Fotos mit einem männlichen Model erhalten.

  1. Da die Fotos leider horizontal aufgenommen wurden, erweiterst du mit Outpainting das Bild vertikal, um es für Social Media nutzen zu können.

  2. Mit Inpainting machst du bestimmte Stellen im Foto etwas ruhiger.

  3. Zudem möchtest du das Produkt grösser haben und den Bildausschnitt etwas grösser machen. Statt nur das Foto zu zoomen (wird unscharf), berechnet die AI mit Upscaling die fehlenden Informationen.

  4. In einem zweiten Schritt tauschst du den Rucksack mit zwei anderen Farb-Modellen aus.

  5. Dann tauschst du den Mann mit einem weiblichen Model aus und wechselt die Umgebung des Shots in ikonische lokale Plätze in Zürich, Basel, Luzern, Genf und Bern.

In wenigen Stunden hast du 90 verschiedene Ads produziert, ohne jemals an verschiedenen Orten gewesen zu sein und hast ein zusätzliches Shooting mit einem weiblichen Model eingespart.

August Kamp × DALL·E Outpainting vom Mädchen

Zurzeit müssen noch viele Schritte in teilweise unterschiedlichen Tools durchgeführt werden, aber neue, spezifische Anwendungen poppen täglich hervor. Control Net wird dabei helfen, solche Abläufe besser zu kontrollieren und detailliert zu beeinflussen. Ein Beispiel wäre www.headshotpro.com. Man lädt irgendwelche Mitarbeiter-Fotos rauf und generiert automatisch gute Mitarbeiterfotos, die deinen Corporate Design Standards entsprechen und alle Fotos homogen erscheinen lassen.

Natürlich gibt es noch viele Grenzen und Unzulänglichkeiten

Aber die KI lernt in einer atemberaubenden Geschwindigkeit ständig hinzu und es kommt täglich ein Tsunami von neuen Tools hinzu. Fun Fact: Hände scheinen das komplizierteste für die AI zu sein, weil sie so unterschiedlich auf den Bilder dargestellt werden. Midjourney v5.0 scheint dies aber langsam in den Griff zu bekommen.

Im Videobereich gibt es auch schon erstaunliches, aber hier ist die Reise noch länger zu perfekten Ergebnissen. Klar: Zeit und drei Dimensionen sind schwieriger zu erlernen, als ein flaches Foto oder einen Text. Es bleibt spannend.

Wie immer bei Neuentwicklungen: der Widerstand

Natürlich gibt es ethische Dimensionen, die diskutiert, ausprobiert und erlernt werden müssen, aber grundsätzlich sollte man aktiv an die Sache rangehen. Die EU scheint mit ihrer neuen KI-Regelung wohl eine historische Chance zu verpassen und überlässt die Entwicklung lieber den USA und Asien.

UK hingegen investiert mehr als 1 Mrd. in diesen Bereich.

AI ist ein komplexes Thema und ist sehr stark davon beeinflusst, wer es wie bedient. Ist das nun wirklich keine Kunst? Ich sage: Doch! Ähnliche Vorwürfe gab es auch schon früher:

«Die Fotografie ist der Todfeind der Malerei, sie ist die Zuflucht aller gescheiterten Maler, der Unbegabten und der Faulen.» Charles Baudelaire (1821-1867)

Zurück
Zurück

Content Talk: Fabio Zahnd hat mich in Biel besucht und mich ausgefragt.

Weiter
Weiter

Shopify Updates 2023