Kunst durch KI Wenn Mensch und Maschine gemeinsam zum Künstler werden
KI, maschinelles Lernen und Neuronale Netze sind Begriffe, die meist mit Wissenschaft verbunden werden. Aber Informatiker und Technikfreaks könnten die Künstler von morgen werden. Jens ist Medieninformatikstudent und Künstler. Er berichtet, wie er ein Neuronales Netz „auf Kunst“ programmiert hat.
Jens Schindel hat ein Programm mit Portraitvideos gefüttert. Der PC lernt, die Stimmlage von Personen beziehungsweise die Tonfrequenz mit einem bestimmten Aussehen zu verbinden. Und speichert das ab.
Wenn das System nun Töne hört, kann es dazu selbst Gesichter bauen. Je nach Tonfrequenz kommt dann ein anderes Gesicht dabei heraus. Das Ganze funktioniert dank eines Neuronalen Netzes – das kann sich Dinge merken und selbstständig lernen. Fast ein bisschen wie unser Gehirn.
Wie sieht die genaue Umsetzung seines Kunstprojekts aus?
Wie hat Jens die Daten für das Neuronale Netz aufbereitet?
„Um ein Neuronales Netz zu trainieren, bedarf es zuerst einer riesigen Menge an Daten“, erklärt Jens. Er hat das Programm mit mehreren Videos aus einer Youtube-Reihe gefüttert, in denen Menschen interviewt werden. Sie sind alle in der Close-Up Einstellung mit weißem Hintergrund gefilmt. „Das bietet sich für ein kleines neuronales Netz an. Denn je weniger Ablenkung im Bild, desto besser für das Netz“, sagt Jens.
Neben den Bildern soll das Programm auch auf die Töne des Videos eingehen. In ihrer einfachsten Form sind Töne auf dem PC als eindimensionale Reihe von Zahlen kodiert, die die Veränderung des Schalldrucks über Zeit angibt.
Um damit besser arbeiten zu können, hat Jens ein Frequenz-Spektrogramm verwendet. Denn das kann die Intensität einer Frequenz in Hertz über die Zeit darstellen. Der zum Bild passende Audioabschnitt der Videos ist insgesamt 0.2 Sekunden lang. Jeder Audioabschnitt wird mit der Short Time Fourier Transformation (STFT) in ein Frequenz-Spektrogramm umgewandelt.
Dem Lernprozess steht nun nichts mehr im Weg. „Insgesamt habe ich ungefähr 150.000 dieser Bild- Tonpaare eingespielt“, erklärt er.
Ein Neuronales Netz, das sich selbst verbessert
Das Neuronale Netz, das Jens verwendet, ist ein Generative Adverserial Network (GAN) und kann in die Komponenten "Generator" und "Diskriminator" unterteilt werden. Das sind jeweils zwei kleine Neuronale Netze, die sich gegenseitig verbessern. Sie spielen ein Nullsummenspiel gegeneinander. Das bedeutet im ersten Schritt, dass der Generator mit dem Frequenz-Spektrogramm gefüttert wird und daraus selbstständig ein Gesicht erstellt. Dieses selbst erstellte Gesicht wird an den Diskriminator weitergegeben, zusammen mit dem Originalgesicht aus dem Video. Der Diskriminator lernt auf diese Weise, das selbst erstellte von dem originalen zu unterscheiden. Daraufhin versucht der Generator, das selbst erstellte Gesicht mehr wie das originale aussehen zu lassen. Der Diskriminator unterscheidet bei jedem Bildpaar, welches das originale und welches das selbst erstellte Bild ist. Durch die Rückmeldung des Diskriminators wird der Generator immer besser, der Diskriminator durch die präziser erstellten Bilder des Generators auch.
Der Generator selbst ist ein U-Net Feedforward Convolutional Neural Network, ebenfalls bestehend aus zwei Komponenten. Die erste nimmt das Frequenz-Spektrogramm und verdichtet die Informationen auf ein Minimum. Die zweite nimmt diese verdichteten und kodierten Frequenz-Spektrogramm-Informationen und erstellt daraus sukzessive ein Gesicht. Beginnend bei einer Bildauflösung von einem Pixel, gefolgt von 2x2 Pixeln, dann 4x4, 8x8 und so weiter vergrößert sich das Bild. So bekommt das Gesicht immer mehr Details bis hin zu einer Auflösung von 512x512 Pixel. „Mehr würde die Rechenzeit drastisch beeinflussen“, erklärt Jens.
Das Neuronale Netz wird somit darauf trainiert, aus den im Video vorliegenden Stimmen Gesichter zu bauen. Jens hat den Einsatz des Netzes etwas verfremdet. Er spielt keine Stimmen ein, sondern Musik. Das Neuronale Netz kriegt den Input von 0,2 Sekunden Musik und versucht, mit dem gelernten Wissen Gesichter zu erstellen. Dabei kommen dann passende Gesichter zur Tonfrequenz der Musik heraus.
In den Live-Projektionen, wie zum Beispiel im Nachtclub „Schlachthaus“ in Tübingen oder auf dem Live Performers Meeting, wird die Abfolge der Gesichter mit Effektketten in Szene gesetzt. Diese Effektketten bestehen aus mehreren audioreaktiven Filtern, die Einfluss auf Farbe und Form haben.
So werden aus Codes und Befehlen in Computersprache Kunst – klingt sehr technisch, sieht aber ziemlich cool aus.
Mehr von Jens sehen
Auf seiner Facebook-Seite stellt Jens Teile seines Projekts unter dem Künstlernamen Tschänz online: