Musiker*innen und Maschinen Wie das maschinelle Lernen völlig neue Möglichkeiten des Sounddesigns eröffnet
Wie können Künstler*innen KI und Machine Learning sinnvoll für sich einsetzen? Ein Interview mit Jesse Engel, Wissenschaftler bei Google Brains Magenta Project.
Das Jahr 2022 stand im Zeichen enormer Fortschritte im Bereich der künstlichen Intelligenz, die sogar die Erwartungen vieler Expert*innen in der Frage übertrafen, wie bald wir mit etwas wie einer allgemeinen künstlichen Intelligenz rechnen können. Seit 2020 hat das große Sprachverarbeitungsmodell GPT-3 gezeigt, wie erfolgreich Transformatoren fast wie von Menschen gemachte Texte produzieren können. Das vergangenen April von OpenAI herausgegebene Programm DALL-E 2 kann auf beeindruckende Weise Bilder erstellen, die überraschend genau den von Menschen dazu formulierten Hinweistexten entsprechen. Und auch die großen Sprachmodelle (Large Language Models, LLM) Imagen von Google, Parti und Flamingo von DeepMind sind in der Lage, unterschiedliche Arten von Daten (Multimodalität) oder verschiedene Inputs und Outputs zu bewältigen.Diese neuen KI-Modelle – und ihre Interaktionsschnittstellen für Anwender*innen – bieten ein umfangreiches Potenzial für die kreative Arbeit. DALL-E erzeugt beeindruckende Bilder – und doch wird die Arbeit von Designer*innen und Künstler*innen in absehbarer Zeit nicht überflüssig werden. Was sich dagegen grundlegend ändern wird, sind die kreativen Abläufe selbst. Für Technologieexpert*innen wie auch für Kulturschaffende wird die spannende Aufgabe darin bestehen, zu ermitteln, auf welche Weise Mensch und künstliche Intelligenz gemeinsam neue ästhetische Ausdrucksformen produzieren können, die in diesem neuartigen Bereich der Kreativarbeit absolut einzigartig sind.
Googles Magenta Project, das im Team von Google Brain angesiedelt ist, fügt dem schnell wachsenden Bereich der Kreativität mittels künstlicher Intelligenz eine weitere Dimension hinzu. Magenta forscht zu den Themen Musik und maschinelles Lernen und entwickelt zudem zahlreiche Tools und Plug-ins, mit deren Hilfe Kunstschaffende mit der Integration ML-generierter Sounds in ihre Songs experimentieren können.
Jesse Engel, Forschungsgruppenleiter bei Magenta, engagiert sich im Bereich der Entwicklung von Musikproduktions-Tools für eine Verbesserung der menschlichen Erfahrung. Wir haben mit Jesse darüber gesprochen, wie Magenta bei der Produktentwicklung den Fokus weiterhin auf die Mitarbeit von Kunst- und Musikschaffenden legen kann und wie die jüngsten Fortschritte im Bereich der künstlichen Intelligenz auch in Zukunft unsere Einstellung zur Kreativität beeinflussen könnten.
Herr Engel, was hat Sie in den Forschungsbereich Maschinelles Lernen und das Magenta Project von Google geführt?
Von Haus aus bin ich eigentlich Naturwissenschaftler. Ich habe zunächst Physik in Berkeley studiert und wollte dann etwas mit erneuerbaren Energien machen. Mir wurde gesagt, dass ich dafür Materialwissenschaften studieren müsse – also alles, was mit Solarkollektoren und solchen Dingen zu tun hat. Deshalb begann ich ein Promotionsstudium in Materialwissenschaften und arbeitete am Fachbereich Nanotechnologie in Berkeley zum Thema Solarkollektoren. Es war eine tolle Zeit, aber ich musste auch viel mit Chemikalien arbeiten und Stoffgemische herstellen. Meine Freizeit verbrachte ich damals mit Neurowissenschaftler*innen, die immer die coolsten Sachen machten. Mein Interesse an der Berechnung komplexer Systeme wurde immer größer, und ich absolvierte mein Postdoc-Studium zur einen Hälfte in Berkeley am Fachbereich Neurowissenschaften und zur anderen in Stanford am Fachbereich Elektrotechnik. Zur selben Zeit begann einer meiner Mitbewohner einen Job in einem neuen Startup-Lab für die chinesische Suchmaschine Baidu. Außerdem startete Doug Eck sein Google-Forschungslabor zum Einsatz des maschinellen Lernens in kreativen Prozessen und in der Musikproduktion. Ich habe schon immer Musik gemacht – ich spiele Jazzgitarre und improvisiere. Schon in meiner Freizeit habe ich Technologie und Musik miteinander verbunden. In Stanford habe ich einen Synthesizer gebaut, der über die Schwingungen von Molekülen funktionierte. Die Gelegenheit, diese beiden Dinge in einem Job zu machen und so meine beiden Leidenschaften miteinander zu verbinden, kam daher wie gerufen. Also stieß ich 2016 ebenfalls zum Team. Hier hatte ich die einzigartige Möglichkeit, Dinge zu tun, die mir Spaß machen, und mit Unterstützung an spannenden Themen zu arbeiten.
Wie bauen Sie Kooperationstools in ihre Musikwerkzeuge ein? Und wie könnten solche Technologien neue, andersartige und überraschendere Kooperationen als bisher hervorbringen?
Die Zusammenarbeit zwischen Mensch und Technologie gibt es seit Beginn des Technologiezeitalters. Unsere Ausdrucksmöglichkeiten sind immer sehr eng mit den Werkzeugen verbunden, die wir dafür nutzen. Mein liebstes Beispiel: Die ersten Knochenflöten sind tatsächlich älter als die ersten Töpferarbeiten. Soweit wir es beurteilen können, hat die Menschheit länger Werkzeuge zum Musizieren als zum Suppe kochen benutzt. Mit anderen Worten, die Flöte hat eine längere Tradition als die Suppe. Von dort kann man die Entwicklung über die E-Gitarre, den Drumcomputer und digitale Audio-Workstations weiterverfolgen und dabei feststellen, dass diese neuen Werkzeuge auch neuartige Ausdrucksformen ermöglicht haben. Das maschinelle Lernen ist im Grunde nur ein weiterer Aspekt in der komplexen Welt der Technologie. Die eigentliche Frage ist doch, welche Haltung wir gegenüber unserer Interaktion mit diesen Systemen einnehmen wollen, damit wir auch weiterhin Inspiration und ein Gefühl der Kontrolle verspüren. Was könnte die passende Metapher lauten? Ist dieses Tool ein Synthesizer? Oder eine Komposition? Ist es ein Zufallszahlengenerator? Ein Kompass? Ein Assistent? Im Grunde ist alles nur Matrixmultiplikation. Doch die Gestaltung der Schnittstellen und die Präsentation der Technologie haben einen wesentlichen Einfluss darauf, wie die Menschen mit ihr interagieren.
In letzter Zeit widmen wir uns vor allem der Frage, was passiert, wenn man andere Menschen in die Situation hineinholt; wenn die Zusammenarbeit zwischen Menschen von einem Machine-Learning-Tool (ML-Tool) vermittelt wird. Anna Huang leistet großartige Arbeit in unserem Forschungsteam und hat CocoNet entwickelt, das Melodien im Stile von Bach harmonisiert. Wir haben anschließend eine Erweiterung namens CoCoCo entwickelt, die von den Anwender*innen noch besser gesteuert werden kann und vor allem als Kooperationstool funktioniert. Im Rahmen einer Studie wollten wir ermitteln, ob das Tool tatsächlich die Zusammenarbeit gefördert hat – mit ausgesprochen überraschenden Ergebnissen. Es war nicht nur bei der Entwicklung von Ideen eine große Hilfe, sondern hat darüber hinaus auch eine wichtige soziale Vermittlungsfunktion übernommen. Viele Personen hatten weniger Berührungsängste, denn wenn etwas schief ging oder nicht gut klang, konnten sie dem Modell die Schuld geben. Die Anwender*innen mussten sich nicht so viele Gedanken über ihre Entscheidungen machen und konnten somit ihrer Kreativität freien Lauf lassen. Auf der anderen Seite fühlten sich die Menschen aber auch weniger als Urheber*innen ihrer Produkte.
Musik bietet einen wunderbaren Mikrokosmos für die neue Technologiewelle. Beispielsweise im Bereich Robotertechnik – unterm Strich geht es doch darum, dass eine Person und ein in das Programm eingeschriebener Algorithmus gemeinsam ein Ziel erreichen wollen. Mit Hilfe unserer Musik-Tools können Sie mit einem Algorithmus jammen, und beide wollen das Beste aus dem jeweils anderen herausholen. Wie können wir das maschinelle Lernen einsetzen, damit wir nicht nur neue Musik oder Kunst produzieren, sondern auch so zusammenarbeiten, dass wir nicht nur unsere eigenen größtmöglichen Ziele verwirklichen, sondern auch das Beste aus den anderen herausholen? Wie können wir diese Idee in den Lernprozess eines Algorithmus integrieren?
Wie könnte dies technisch aussehen? Was müssten wir an der Gestaltung von Machine-Learning-Modellen ändern, um die Kooperationsfähigkeit der künstlichen Intelligenz zu verbessern?
Im Wesentlichen müssen wir den Übergang von generativen Modellen hin zur Integration des so genannten verstärkenden Lernens (Reinforcement Learning, RL) bewältigen. Wir sind bemüht, das generative Verfahren und nicht nur das generative Ergebnis zu modellieren. Es geht darum, Kunst als Aktives und nicht als etwas Statisches zu verstehen. Aus meiner Sicht gibt es die größte Übereinstimmung bei Technologien, die Menschen in ihrem Fortkommen unterstützen – wie kann die Interaktion mit einem Modell dabei helfen, ein Instrument besser zu spielen? Oder auch nur dazu beitragen, das Bewusstsein der Menschen dafür zu schärfen, wie sie mit einem Modell interagieren, damit sie auf diese Weise ihre Interaktion mit anderen Menschen besser wahrnehmen. Es geht also explizit um viele verschiedene Menschen und Agenten. Die Modellierung ist tatsächlich ein wichtiger Forschungsbereich. Forscher*innen nutzen Multiplayer-Games wie Overcooked, ein Videospiel, bei dem mehrere Spieler*innen miteinander kochen, als Benchmark für das maschinelle Lernen. Auf diese Weise wollen sie Entwickler*innen dabei unterstützen, ein Modell für die Zusammenarbeit mit Menschen bei der Umsetzung von Zielen zu trainieren. Die Modelle können auch für die Zusammenarbeit untereinander trainiert werden. Doch dann ist ein solcher Agent plötzlich ein Mensch. Manchmal funktioniert es nicht. Wir müssen uns in der Forschung also aktiv mit der Frage befassen, wie wir die Trainingssysteme ändern und anpassungsfähiger gestalten können?
Wie würden Sie die Beziehung zwischen Musikschaffenden und ML-Tools bei der Arbeit beschreiben?
Da gibt es meines Erachtens eine große Bandbreite, vom Einsatz von ML-Modellen als Kreativitätsbeschleuniger bis hin zu kooperativeren Verfahren. Deshalb müssen wir uns unbedingt genau diesem Thema widmen und dürfen Musik nicht als Problem betrachten, das einer Lösung bedarf. Es ist stattdessen wichtig zu betonen, dass unterschiedliche Menschen auch unterschiedliche Bedürfnisse oder Wünsche in Bezug auf die Interaktion mit einem Algorithmus haben. Letzten Endes kommt es darauf an, wie diese Technologien Menschen dabei unterstützen, wertvollere Erfahrungen zu machen – entweder allein mit einer Technologie oder im Austausch mit anderen Menschen.
Wie wird sich die Verbreitung der künstlichen Intelligenz in den nächsten Jahrzehnten Ihrer Meinung nach auf unsere Kreativgemeinschaften oder auf unser gemeinsames kreatives Schaffen auswirken? Welche Erwartungen haben Sie für die Zukunft der künstlichen Intelligenz in der Gesellschaft?
Die Entwicklung schreitet derart schnell voran, dass sich nur schwer langfristige Vorhersagen machen lassen. Vor einem Jahrzehnt kam AlexNet heraus. Heute gibt es Modelle wie Imagen, Parti und DALL-E. Die Welt wird sich radikal verändern, weil die Erzeugung virtueller Welten ungeahnte Möglichkeiten eröffnet. So wie auch Computer dazu beigetragen haben, die digitale Knappheit zu beseitigen. Denken Sie nur an Menschen, die Bücher schreiben und diese Bücher anschließend vervielfältigen wollen. Computer haben einen so großen Mehrwert gebracht, weil sie den Mangel an physischen Ressourcen ausgleichen konnten. So wie der Mangel an Vervielfältigungsmöglichkeiten durch die Möglichkeit der digitalen Speicherung beseitigt wurde, wird auch das maschinelle Lernen im Kreativbereich den Mangel an kreativer Wertschöpfung ausgleichen können. Stellen Sie sich einen Film vor, den Sie gern sehen möchten, den es aber nicht gibt. Sie können ihn einfach selbst erzeugen. Die Tatsache, dass alles geschaffen werden kann, bedeutet nicht, dass die künstlerische Arbeit als solche nichts mehr wert ist. Der Wert liegt nicht allein im Produkt, denn die menschliche Erfahrung schafft ihren eigenen Wert. Es geht also darum, welche nützlichen menschlichen Erfahrungen mit diesen Technologien erzeugt werden. Besonders interessant daran ist, dass die Kostenbarriere des schöpferischen Prozesses gesenkt wird. Viele Menschen betrachten sich selbst nicht als Musiker*innen, weil sie ihren Lebensunterhalt nicht mit Musik verdienen. Ich spreche, doch ich betrachte mich nicht als Sprecher, weil es ein natürlicher Bestandteil meines menschlichen Daseins ist. Durch den Abbau dieser Hürden für das Musikschaffen wird nichts mehr so sein wie zuvor. So wie plötzlich alle Fotos mit ihren Handys machen konnten. Die Arbeit von Fotograf*innen ist etwas völlig anderes. Die wirtschaftlichen und beruflichen Folgen eines solchen Wandels sind nur die eine Seite der Medaille. Im Wesentlichen bedeutet er auch, dass Menschen über die Technologie Fotografie erleben, Erinnerungen miteinander teilen und persönliche Geschichten gestalten können, ohne sich beruflich der Fotografie widmen zu müssen. Meines Erachtens muss die eigentliche Frage lauten, wie diese Technologien dazu beitragen, die eigenen menschlichen Erfahrungen, die Erfahrungen innerhalb einer Gesellschaft zu verändern?
Welche Art von Sounds würden die Magenta-Modelle als „schön“ einstufen? Wie können sich Mensch und Maschine im Schaffensprozess näherkommen?
Aus Sicht des Informationsgehalts ist weißes Rauschen die schönste Musik. Es lässt sich nicht vorhersagen, was als nächstes geschieht. Menschen nutzen nicht nur die Unvorhersehbarkeit, sondern auch die Vorhersehbarkeit und die Wechselwirkungen zwischen beiden als Bezugspunkte. Ich habe versucht, Partnerschaften mit mehreren Agenten zu erstellen, in denen Vorannahmen über menschliche Verhaltensweisen etwas erzeugen, zu dem wir in einigen Bereichen einen Bezug haben und in anderen nicht. Hier wird es meiner Meinung nach besonders interessant. Wenn man lediglich von den Daten lernt, dann lernt man nur in einem begrenzten Bereich, fügt noch etwas hinzu und kombiniert möglicherweise hier und da noch ein wenig. Allerdings ist der Mensch letzten Endes immer der Maßstab, denn wenn dies nicht der Fall wäre, würde das Ergebnis merkwürdig klingen.
Wie wäre es, wenn wir diejenigen Vorannahmen festschreiben, die wir benötigen, um die Welt soweit zu verstehen, wie es uns derzeit möglich ist, aber eine davon „freilassen“? Dafür gibt es meines Erachtens unzählige Beispiele. Ein Großteil der algorithmischen Komposition funktioniert heute so: Ein Synthesizer spielt einige Noten, die auf bereits bekannten Strukturen beruhen. Doch dann haben wir die Vorgaben für die Noten gelockert. Bei Magenta sind wir vor allem daran interessiert, diese nächste Generation des Lernens unter Mitwirkung des Menschen zu erkunden und eine Zusammenarbeit zwischen Mensch und Maschine zu fördern.