„Ich sehe keine dystopische Zukunft“ Ein Gespräch mit Stephan Baumann

Stephan Baumann tritt auf der Bühne auf © Der Brecher

Stephan Baumann führt ein Doppelleben: Er ist KI-Experte am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) und leidenschaftlicher Musiker. Mit dem Goethe-Institut spricht er über die zukünftige Rolle von KI in der Musik und darüber, wie sich Musiker bereits heute den technischen Entwicklungen anpassen.

André Leslie

Stephan Baumann könnte der coolste Musikprofessor sein, dem man je begegnet ist. Der Forscher und Musiker arbeitet hauptberuflich am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) und macht in seiner Freizeit unter dem Künstlernamen MODISCH elektronische Musik.

Zu Beginn des Jahrtausends gründete Baumann gemeinsam mit anderen ein auf Musikempfehlungen spezialisiertes Unternehmen namens SONICSON. Der Bereich Musikempfehlungssysteme ist in den letzten zwei Jahrzehnten rasant gewachsen. Baumann hat an der Popakademie Baden-Württemberg  Vorlesungen über die Technologie von KI-gestützter Musik gehalten und arbeitet heute in Berlin und Kaiserslautern für das DFKI.

Seiner dualen Identität als Forscher und aktiver Musiker verdankt er einzigartige Einblicke in die Zukunft von Musik. Im Gespräch mit dem Goethe-Institut spricht Baumann über aktuelle Trends in KI-gestützter Musik, über den Einfluss der Tech-Branche und die neue Umgebung, in der sich die Musiker bewegen.

Der Streaming-Service Spotify wurde beschuldigt, inexistente Bands dafür zu bezahlen, dass sie Musik für seine Playlists erzeugen (was das Unternehmen bestreitet), und Shazam betreibt mittlerweile ein Plattenlabel, das gestützt auf die Auswertung seiner Benutzerdaten neue Bands unter Vertrag nimmt. Werden wir von den großen Techfirmen manipuliert, oder eröffnet der verstärkte Einsatz von Benutzerdaten neue Möglichkeiten für Musikliebhaber?

Stephan Baumann Porträtbild Stephan Baumann | © Marie Gouil Es ist schwierig, auf dem Laufenden zu bleiben und nicht von dieser Art von Manipulation überwältigt zu werden, da stimme ich zu. Es ist ein bisschen riskant, denn mittlerweile haben wir nicht nur Zugang zu Empfehlungen von Inhalten, die für andere produziert wurden, sondern wir bekommen auch Inhalte empfohlen, die für uns erzeugt und genau auf unseren Geschmack abgestimmt wurden.

Wir wissen, dass KI-Maschinen auf bestimmte Musikstile trainiert werden. Irgendwann wird uns die Musikindustrie genau das liefern, was wir persönlich wollen, zum Beispiel die perfekte House-Melodie 2020 mit Discoeinfluss aus den Siebzigern und einem gefälligen Gesang der früheren Sängerin von Moloko. Das Potenzial dafür ist bereits vorhanden.

Ist dies eine Zukunftsvision oder geschieht das bereits heute?  

In der Musik sehe ich bereits heute, was die Zukunft bringen wird. Das liegt natürlich an meinem Beruf, und nicht daran, dass ich die Zukunft  vorhersehen könnte. Wir arbeiten in diesem Augenblick mit modernster Spitzentechnologie. Nehmen wir zum Beispiel das Projekt Jukebox. Ich war wirklich sprachlos, als ich sah, was dort automatisch erzeugt werden kann. Ohne jegliche menschliche Interaktion wird ein vollständiger Song samt Gesang und phantasievollem Text erzeugt. Die aufwändigen Berechnungen bringen allerdings noch ein paar Klangartefakte hervor. Ich glaube, sie brauchen zehn Stunden, um etwa eine Minute zu produzieren, aber es ist wirklich atemberaubend.

Ein Klangartefakt ist eine kleine Störung. Um es einfach zu erklären: Die Wissenschaftler dringen weiter und weiter in winzige Zeitfenster vor, wo sie alle Elemente finden, die sie für eine bestimmte Silbe oder Note brauchen, und dann wird das ganze wieder und wieder zusammengesetzt, bis es sich schließlich anhört, als würde einer der Sänger der Beatles einen erfundenen Song singen. Aber an manchen Stellen ist es nicht perfekt. Ich vermute, dass diese Technologie in zehn Jahren optimiert sein wird und eingesetzt werden kann, um den perfekten Song für den einzelnen Zuhörer von einer Maschine statt von einem Musiker erzeugen zu lassen.

Die Frage ist: Warum? Die Maschine versteht die Bedeutung von Leben und Tod nicht. Wir als Musiker machen Musik, um unsere Gefühle zu kompensieren oder einfach Spaß zu haben, aber der Maschine ist das gleichgültig. Daher müssen wir nach dem Warum fragen: Welchen Sinn sollte es haben, dass Maschinen die Komposition für uns übernehmen? Die Vorstellung ist verrückt. Der einzige Nutzen könnte darin bestehen, dass ein professioneller Komponist aufhören könnte, langweilige Musik für ein Massenpublikum zu schreiben. Stattdessen könnte er anspruchsvolle Avantgarde-Musik machen. Daher sehe ich keine dystopische Zukunft auf uns zukommen, sondern sehr, sehr fortschrittliche musikalische Werkzeuge. Ein Drumcomputer, ein Sampler, AI-generierte Musik. Kein Problem. Ich werde weiterhin Spaß mit meinen Musikmaschinen haben, wenn ich meine eigenen Songs schreibe. Roboterband "Compressorhead" auf Cebit 2018 Die Roboter-Band Compressorhead kann ein akzeptables Lied spielen, aber fühlen sie es wirklich? | © dpa picture alliance / Alamy Stock Photo Könnte diese Technologie in Zukunft den Lebensunterhalt von Musikern bedrohen?

Ich denke nein. Wenn man mit Musikern in der Avantgarde-Szene oder mit Nachwuchsmusikern spricht, stellt man fest, dass sie bereits KI-generiertes Material verwenden und gerne damit arbeiten. Sie verleihen ihm ihren eigenen Charakter. Holly Herndon ist eines der Aushängeschilder dieser Szene – extrem verschroben und ein unabhängiger Star. Sie hat einen Doktortitel in Computerwissenschaft. Sie hat ein ganzes Universum KI-generierter Klänge und Stimmen erschaffen, die sie mit ihrer eigenen Musik mischt, die sie in Alben veröffentlicht und mit der sie auf Tournee geht. In meinen Augen ist die KI einfach eine weitere Facette in der Werkzeugpalette von Künstlern.

Vor wenigen Jahren hätte niemand den Aufstieg der Website Bandcamp vorhersehen können. Wir sprachen über Spotify und darüber, ob sich manuell angelegte Playlists gegen die Empfehlungsalgorithmen durchsetzen würden – und dann kam Bandcamp. Für die jungen Leute ist es wieder wie die Folkmusik in den Sechzigern. Man kann dem Künstler und der Bewegung näher sein. Ich finde die Entstehung dieser Gegenbewegungen sehr interessant. Jedes Mal wenn wir denken: „Oh Gott, wir sind verloren“, taucht eine Gegenbewegung auf. Ist das vielleicht die menschliche Natur? Glücklicherweise verweigern wir weiterhin die technologische Singularität.

Wird die umfassende Nutzung von KI-gestützten Musikempfehlungssystemen durch Konsumenten zur Entstehung einer eintönigeren, homogeneren modernen Musik führen?

Leider ja. Wenn ich Spotifys Top 10 sehe oder mir anhöre, was meine Kinder hören, ist da lauter futuristischer Hip-Hop-Powerpop mit Autotuning-Gesang. Ich weiß nicht, wie ich das nennen soll – und ich mag es nicht. Es gefällt mir nicht, dass ich die Songs nicht voneinander unterscheiden kann; ich kann nicht einmal sagen, ob es Beyoncé oder wer auch immer ist. Für mich hört sich das alles gleich an, und ich glaube, dass die Filterblasen der Empfehlungssysteme dazu beitragen.

Aber ich sehe auch einige Gegenbewegungen in Nischen – ich sehe Leute, die die Dinge anderes machen wollen. Deshalb würde ich nicht sagen, dass dies eine langsam abfallende Kurve ist, auf der wir alle abrutschen werden, bis wir am Ende nur noch einen einzigen Song für die gesamte Weltbevölkerung haben!

Aber ich frage mich immer noch, wo der wirkliche schöpferische Akt zu finden ist. In der KI-Welt bemühen wir uns um Formen echter Kreativität, aber das ist sehr schwierig. Es ist sogar für etablierte Künstler schwierig, die oft nach ihren musikalischen Einflüssen und nach ihrer Authentizität gefragt werden. Wo ist der Punkt, an dem eine großartige künstlerische Idee aufblitzt – etwas, das noch niemand gemacht hat? Wir können maßgeschneiderte Musik haben, KI-gestützte Musik, die genau dem entspricht, worauf wir sozialisiert sind. Aber wo kommt der neue Faktor ins Spiel? Die Schöpfung von etwas Neuartigem? Bisher kann ich das in KI-generierter Musik oder in Algorithmen nicht sehen. Spotify Wiedergabelisten auf einem Computerbildschirm Maßgeschneiderte Musik mag mit KI möglich sein, sagt Baumann, aber das bedeutet nicht, dass sie kreativ ist | Foto: sgcdesignco / Unsplash In letzter Zeit habe ich mich mit der Brettspiel-Software von Googles DeepMind beschäftigt. Diese Systeme besiegen nicht nur Weltmeister, sondern sie trainieren einander auch gegenseitig, ohne menschliche Einwirkung. In der Vergangenheit kannten diese Programme die perfekten Züge ihrer menschlichen Gegner. Mittlerweile spielen sie gegeneinander und machen Züge, die ein Mensch nicht wählen würde, die jedoch zum Erfolg führen. Das ist ein bisschen beängstigend. Garry Kasparov hat die neue AlphaZero-Software analysiert und erklärt, es handle sich um eine Art von synthetischer Kreativität: zielführende Züge, die ein Mensch nicht machen würde. Ich frage mich, ob wir diese algorithmische Technologie auf die Musik übertragen können. Könnten dann vielleicht neue Musikbewegungen entstehen?

Aber eines dürfen wir nicht vergessen: Bei diesen Brettspielen ist es einfach, das Ziel zu beschreiben. Man sagt der Maschine: „Du bist perfekt, wenn du einen bestimmten Zustand erreichst – du hast gewonnen oder verloren.“ In Musik und Kunst ist das Ergebnis jedoch offen. Es ist sehr viel schwieriger, den angestrebten Endzustand zu beschreiben. Man kann nicht sagen: „So sieht der perfekte Song aus. Versuche, selbst einen zu erzeugen.“ Das ist unmöglich.

In anderen Interviews haben Sie über KI-Technologie gesprochen, welche die Stimmung des Hörers und andere Reaktionen auf Musik misst und entsprechend reagiert. Sind wir schon so weit?

Wir haben bereits die Hardware, um das zu messen. Hier am DFKI arbeite ich in einem Projekt, in dem wir die Reaktionen von Hörern anhand von Herzfrequenz, Hauttemperatur und galvanischer Hautreaktion messen. Wir kennen diese Faktoren, und mittlerweile gibt es stabile Hardware, so dass wir messen können, was passiert. Aber die Interpretation der Daten ist immer noch sehr, sehr schwierig.

Wir können versuchen, das Maschinenlernen und algorithmische KI-Prozesse darauf anzuwenden, aber es ist immer noch schwierig, genau zu sagen, was da vorgeht. Verändern sich Herzfrequenz und Hauttemperatur, wenn Menschen einen bestimmten Akkord hören, so kann das bei verschiedenen Personen verschiedene Dinge bedeuten. Man braucht also wirklich vorzügliche Daten, die man nur sammeln kann, wenn man eingehende Interviews mit den Versuchspersonen führt, deren Reaktionen gemessen werden. Man muss herausfinden, was tatsächlich in ihnen vorging. Und man muss sich darauf verlassen können, dass sie präzise und objektiv über ihre subjektive Stimmung und darüber berichten, was die Musik für sie persönlich bedeutet. Ich würde sagen, auf meinem Gebiet ist das wirklich der heilige Gral.

Weitere Stichworte von Stephan Baumann über die Zukunft kreativer KI gibt es hier.

Artikelvorschläge

API-Error