KI-Musik: Der Teufel steckt im Detail
Nach Ansicht des Forschers und Klangkünstlers Oliver Bown kann keine einheitliche These zur Rolle von KI beim Musikmachen aufgestellt werden. Der Schlüssel liegt darin, genau auf die Details zu achten und in der Lage zu sein, die Arbeit der Maschine von der menschlichen Beteiligung zu unterscheiden.
Man hört ein auffallend gutes Musikstück mit reichhaltigen Harmonien, die einem das Herz aufgehen lassen und mit überraschenden Wendungen, die einen bei der Stange halten. Und dann bekommt man gesagt, dass das Stück von KI komponiert wurde. Wie soll man reagieren – schockiert, dass Computerprogramme inzwischen so intelligent geworden sind? Oder stehen wir gar am Anfang einer KI-Herrschaft? In Wirklichkeit besteht in diesem Fall wenig Grund zur Beunruhigung.
Wenn man ein Musikstück hört, an dessen Erzeugung Menschen beteiligt gewesen sind, und sei ihr Beitrag auch noch so gering gewesen, dann wird es sehr schwierig zu verstehen, welchen Anteil die KI an dieser Schöpfung gehabt hat. KI-Systeme können sehr gut darin werden, kohärente melodische Strukturen zu schaffen, aber sogar eine relativ inkohärente Melodie kann als Grundlage für wunderbare Musik dienen.
James Humberstone vom Sydney Conservatorium of Music veranschaulicht das in einem TEDx talk. Er fordert sein Publikum auf, beliebige Noten auszuwählen, die zu einer Melodie zusammengesetzt werden. Er nimmt diese Melodie und wendet eine Reihe von musikalischen Produktionstechniken darauf an, darunter die Wiederholung des Resultats in einer Endlosschleife. Die Melodie nimmt Gestalt an, was teilweise daran liegt, dass sich der Zuhörer im Lauf der Zeit daran gewöhnt. Die Ergänzung von Harmonien und die Anordnung von Melodien zu größeren Strukturen anhand der Wiederholung kann Gewöhnliches zu Erstaunlichem machen. Selbstverständlich kann die Änderung von ein oder zwei Noten eine Melodie in etwas vollkommen anderes verwandeln; selbst wenn 90 Prozent der Noten von einem KI-System ausgewählt wurden, ist es immer noch möglich, dass die KI fast keinen Einfluss auf die so entstandene Musik gehabt hat.
Die Möglichkeit des Rosinenpickens bei den Ergebnissen erschwert es uns zu beurteilen, ob die KI etwas Wertvolles hervorbringt. Es ist nicht schwierig, hundert kurze Melodien durchzugehen, um etwas Eingängiges zu finden. Selbst wenn keine Person in das Ergebnis eines Algorithmus eingreift, kann der Mensch mit zahlreichen Eingriffen in den Algorithmus dafür sorgen, dass Resultate im Bereich dessen bleiben, was wir als schöne Melodien wahrnehmen. Wenn derartige Schablonen vorgegeben werden, kann einem leicht entgehen, dass der Mensch wichtige Beiträge geleistet hat.
Das bedeutet nicht, dass in der Musikerzeugung mit KI nicht unglaublich komplexe Arbeit geleistet wird. Aber wenn wir diese Komplexität beurteilen wollen, ist die Toleranz für das, was wir als menschengemachte Musik wahrnehmen können, sehr groß. Tatsächlich tauchte die Behauptung, dass von KI erzeugte Musik menschliche Hörer täuscht, schon vor Jahrzehnten auf.
Für einige der raffiniertesten neueren Werke wurde Originalmusik ausgehend von der ursprünglichen Klangwellen-Form erzeugt. Obwohl das System auf Millisekundenebene arbeitet, kann es Musik hervorbringen, die über Minuten hinweg einen kohärenten und komplexen Verlauf nimmt. Hier haben wir es mit wirklich atemberaubenden Werken zu tun. Beispiele sind WaveNet-Projekt von Google und Jukebox von OpenAI. Ihre unter dem Gesichtspunkt der Kreativität interessantesten Erzeugnisse sind traumartige Klanglandschaften, die fremd klingen und offensichtlicher maschinengeneriert sind, was sie jedoch nur noch fesselnder macht.
Aber selbst wenn das musikalische Endprodukt zahlreiche menschliche Einflüsse aufweist, müssen wir uns nicht auf ein spektakuläres Schauspiel von kreativer KI-Begabung konzentrieren. Es ist nichts daran auszusetzen, dass jemand mit KI-Werkzeugen arbeitet. Sie können bei der Komposition von Musik helfen und vielleicht einige nahezu-brauchbare Lösungen vorschlagen, die ungewöhnlich genug sind, um aus einem kreativen Trott auszubrechen. Die australische Tech-Gruppe Uncanny Valley gewann den diesjährigen KI-Song-Wettbewerb | © Uncanny Valley Musiker sind keine Betrüger, wenn sie KI einsetzen, und KI betrügt nicht, wenn sie die Anweisungen von Musikern nutzt. Der Grund dafür ist einfach: Musikalische Komposition ist kein technischer Wettbewerb! Schließlich ist das nun einmal die Idee für den Einsatz dieser Systeme. Ein Problem entsteht nur, wenn dem Publikum vorgegaukelt wird, eine Komposition sei ohne menschliche Beteiligung entstanden und die KI sei bemerkenswerter als sie tatsächlich ist.
Ausgehend von dem, was wir wissen, halte ich solche Fortschritte innerhalb von plausiblen Grenzen für durchaus möglich. In meinen Augen wäre es falsch zu sagen, dass das System, nur weil es die Musik nicht „fühlt” oder „versteht”, nicht wert ist, als Schöpfer echter Musik betrachtet zu werden.
Der Computerpionier Alan Turing stellte die These auf, dass jedes Computerprogramm, dessen Antworten auf die Fragen eines menschlichen Fragestellers nicht von denen eines echten Menschen zu unterscheiden sind, als intelligent betrachtet werden muss. Ich glaube, dass wir diese Art von musikalischer Intelligenz in Algorithmen erfassen können. Die Automatisierung von Musik durch KI könnte Auswirkungen auf uralte Systeme der kulturellen Interaktion haben | Foto: Franck V / Unsplash Aber es gibt weiterhin einen Unterschied zwischen dieser Intelligenz und der, die wir als soziale Wesen einsetzen: oft liegen uns Hintergrund und Herkunft der Musik sehr am Herzen. Musik ist ein Medium für soziale Interaktion und Vermittlung von Sinn. Sie hilft uns, unseren Platz in der Gesellschaft zu bestimmen. Unter Einsatz von KI erzeugte Musik berührt uns möglicherweise weniger, weil die Algorithmen, die sie hervorbringen, nicht in diese soziale Funktion eingebunden sind – aber diese Technologie kann dadurch kulturell relevant werden, wenn sie von anderen Menschen verwendet wird.
Auch wenn Musik ein wichtiger Bestandteil unseres gesellschaftlichen Fundaments ist, kann sie im Dienst von Manipulations- und Bevormundungstechnologien eingesetzt werden. Der Genuss einer Symphonie oder Rockballade fließt durch neuronale Kanäle, die fest in der Evolution des menschlichen Gehirns verankert sind. Unser Geschmack ist das Produkt unseres sozialen Kontextes und unserer Lebenserfahrung und entwickelt sich mit unserem Gehirn, das im Lauf der Geschichte unserer Spezies geprägt wurde. Die Folge ist, dass wir vorhersehbare Wesen und für kulturelle Einflüsse empfänglich sind.
Oliver Bown | © Oliver Bown
Abgesehen von der Bewusstseinsmanipulation könnte es leicht zu unerwünschten Veränderungen in der Musik kommen; die Automatisierung der KI kann sich negativ auf uralte Systeme kultureller Interaktion und nicht zuletzt auf diejenigen auswirken, die von Musikproduktion leben. Auf der anderen Seite gibt es in der Geschichte auch zahlreiche Beispiele dafür, dass Teile der Gesellschaft mit übertriebener Vorsicht oder mit Ablehnung auf neue Technologien reagierten, während eine neue Generation sie bereitwillig annahm: Fotografie, Synthesizer, Drumcomputer und Photoshop. Ihren negativen Auswirkungen standen phänomenale neue Möglichkeiten gegenüber.
Diese bruchstückhaften Ideen lassen sich nicht zu einer einzigen einheitlichen Theorie über den Einsatz von KI zur Erzeugung kultureller Produkte zusammensetzen, sondern deuten an, dass diese neuen Technologien der kulturellen Landschaft eine neue Komplexität und Vielfalt verleihen könnten. Wir müssen auf die Details hören!
Weitere Stichworte von Oliver Bown über die Zukunft kreativer KI gibt es hier.
Manches ist nur Schall und Rauch
Wenn man ein Musikstück hört, an dessen Erzeugung Menschen beteiligt gewesen sind, und sei ihr Beitrag auch noch so gering gewesen, dann wird es sehr schwierig zu verstehen, welchen Anteil die KI an dieser Schöpfung gehabt hat. KI-Systeme können sehr gut darin werden, kohärente melodische Strukturen zu schaffen, aber sogar eine relativ inkohärente Melodie kann als Grundlage für wunderbare Musik dienen.
James Humberstone vom Sydney Conservatorium of Music veranschaulicht das in einem TEDx talk. Er fordert sein Publikum auf, beliebige Noten auszuwählen, die zu einer Melodie zusammengesetzt werden. Er nimmt diese Melodie und wendet eine Reihe von musikalischen Produktionstechniken darauf an, darunter die Wiederholung des Resultats in einer Endlosschleife. Die Melodie nimmt Gestalt an, was teilweise daran liegt, dass sich der Zuhörer im Lauf der Zeit daran gewöhnt. Die Ergänzung von Harmonien und die Anordnung von Melodien zu größeren Strukturen anhand der Wiederholung kann Gewöhnliches zu Erstaunlichem machen. Selbstverständlich kann die Änderung von ein oder zwei Noten eine Melodie in etwas vollkommen anderes verwandeln; selbst wenn 90 Prozent der Noten von einem KI-System ausgewählt wurden, ist es immer noch möglich, dass die KI fast keinen Einfluss auf die so entstandene Musik gehabt hat.
Die Möglichkeit des Rosinenpickens bei den Ergebnissen erschwert es uns zu beurteilen, ob die KI etwas Wertvolles hervorbringt. Es ist nicht schwierig, hundert kurze Melodien durchzugehen, um etwas Eingängiges zu finden. Selbst wenn keine Person in das Ergebnis eines Algorithmus eingreift, kann der Mensch mit zahlreichen Eingriffen in den Algorithmus dafür sorgen, dass Resultate im Bereich dessen bleiben, was wir als schöne Melodien wahrnehmen. Wenn derartige Schablonen vorgegeben werden, kann einem leicht entgehen, dass der Mensch wichtige Beiträge geleistet hat.
Das bedeutet nicht, dass in der Musikerzeugung mit KI nicht unglaublich komplexe Arbeit geleistet wird. Aber wenn wir diese Komplexität beurteilen wollen, ist die Toleranz für das, was wir als menschengemachte Musik wahrnehmen können, sehr groß. Tatsächlich tauchte die Behauptung, dass von KI erzeugte Musik menschliche Hörer täuscht, schon vor Jahrzehnten auf.
Für einige der raffiniertesten neueren Werke wurde Originalmusik ausgehend von der ursprünglichen Klangwellen-Form erzeugt. Obwohl das System auf Millisekundenebene arbeitet, kann es Musik hervorbringen, die über Minuten hinweg einen kohärenten und komplexen Verlauf nimmt. Hier haben wir es mit wirklich atemberaubenden Werken zu tun. Beispiele sind WaveNet-Projekt von Google und Jukebox von OpenAI. Ihre unter dem Gesichtspunkt der Kreativität interessantesten Erzeugnisse sind traumartige Klanglandschaften, die fremd klingen und offensichtlicher maschinengeneriert sind, was sie jedoch nur noch fesselnder macht.
Aber selbst wenn das musikalische Endprodukt zahlreiche menschliche Einflüsse aufweist, müssen wir uns nicht auf ein spektakuläres Schauspiel von kreativer KI-Begabung konzentrieren. Es ist nichts daran auszusetzen, dass jemand mit KI-Werkzeugen arbeitet. Sie können bei der Komposition von Musik helfen und vielleicht einige nahezu-brauchbare Lösungen vorschlagen, die ungewöhnlich genug sind, um aus einem kreativen Trott auszubrechen. Die australische Tech-Gruppe Uncanny Valley gewann den diesjährigen KI-Song-Wettbewerb | © Uncanny Valley Musiker sind keine Betrüger, wenn sie KI einsetzen, und KI betrügt nicht, wenn sie die Anweisungen von Musikern nutzt. Der Grund dafür ist einfach: Musikalische Komposition ist kein technischer Wettbewerb! Schließlich ist das nun einmal die Idee für den Einsatz dieser Systeme. Ein Problem entsteht nur, wenn dem Publikum vorgegaukelt wird, eine Komposition sei ohne menschliche Beteiligung entstanden und die KI sei bemerkenswerter als sie tatsächlich ist.
KI-Systeme sind keine sozialen Wesen
Die am weitesten entwickelten KI-Musiksysteme lernen, indem sie mit großen Mengen menschlicher Musik gefüttert werden. Bei den anspruchsvollsten Systemen sehen wir verblüffende, auf komplexen Strukturen beruhende Kompetenz sowie abstrakte musikalische Konzepte, die zur Gänze aus dieser Datenanalyse hervorgehen. Könnte ein solches System wirklich originelle Musik hervorbringen, die dem jeweiligen kulturellen Kontext Rechnung trägt? Könnte sie jene Eigenschaften von Musik modellieren, die menschliche Emotionen wecken und bestimmte Reaktionen auslösen?Ausgehend von dem, was wir wissen, halte ich solche Fortschritte innerhalb von plausiblen Grenzen für durchaus möglich. In meinen Augen wäre es falsch zu sagen, dass das System, nur weil es die Musik nicht „fühlt” oder „versteht”, nicht wert ist, als Schöpfer echter Musik betrachtet zu werden.
Der Computerpionier Alan Turing stellte die These auf, dass jedes Computerprogramm, dessen Antworten auf die Fragen eines menschlichen Fragestellers nicht von denen eines echten Menschen zu unterscheiden sind, als intelligent betrachtet werden muss. Ich glaube, dass wir diese Art von musikalischer Intelligenz in Algorithmen erfassen können. Die Automatisierung von Musik durch KI könnte Auswirkungen auf uralte Systeme der kulturellen Interaktion haben | Foto: Franck V / Unsplash Aber es gibt weiterhin einen Unterschied zwischen dieser Intelligenz und der, die wir als soziale Wesen einsetzen: oft liegen uns Hintergrund und Herkunft der Musik sehr am Herzen. Musik ist ein Medium für soziale Interaktion und Vermittlung von Sinn. Sie hilft uns, unseren Platz in der Gesellschaft zu bestimmen. Unter Einsatz von KI erzeugte Musik berührt uns möglicherweise weniger, weil die Algorithmen, die sie hervorbringen, nicht in diese soziale Funktion eingebunden sind – aber diese Technologie kann dadurch kulturell relevant werden, wenn sie von anderen Menschen verwendet wird.
Vorsicht beim Blick in die Zukunft
Als generative Medien werden all jene „kulturellen Produkte” definiert, die von Maschinen erzeugt werden – darunter Musik, Literatur, Kunst und Film. Dabei scheint Musik ein vergleichsweise ungefährliches Medium zu sein, während die Erzeugung gezielter Werbebotschaften oder, schlimmer noch, politischer Wahlkampfbotschaften offenkundig bedenklicher ist. Die Möglichkeit, ganze Bevölkerungsgruppen zu manipulieren, bedroht unsere Demokratien und Gesellschaftsstrukturen, und vor einer Machtübernahme der KI in diesem Bereich kann man sich mit gutem Grund mehr fürchten als vor Killerdrohnen.Auch wenn Musik ein wichtiger Bestandteil unseres gesellschaftlichen Fundaments ist, kann sie im Dienst von Manipulations- und Bevormundungstechnologien eingesetzt werden. Der Genuss einer Symphonie oder Rockballade fließt durch neuronale Kanäle, die fest in der Evolution des menschlichen Gehirns verankert sind. Unser Geschmack ist das Produkt unseres sozialen Kontextes und unserer Lebenserfahrung und entwickelt sich mit unserem Gehirn, das im Lauf der Geschichte unserer Spezies geprägt wurde. Die Folge ist, dass wir vorhersehbare Wesen und für kulturelle Einflüsse empfänglich sind.
Oliver Bown | © Oliver Bown
Abgesehen von der Bewusstseinsmanipulation könnte es leicht zu unerwünschten Veränderungen in der Musik kommen; die Automatisierung der KI kann sich negativ auf uralte Systeme kultureller Interaktion und nicht zuletzt auf diejenigen auswirken, die von Musikproduktion leben. Auf der anderen Seite gibt es in der Geschichte auch zahlreiche Beispiele dafür, dass Teile der Gesellschaft mit übertriebener Vorsicht oder mit Ablehnung auf neue Technologien reagierten, während eine neue Generation sie bereitwillig annahm: Fotografie, Synthesizer, Drumcomputer und Photoshop. Ihren negativen Auswirkungen standen phänomenale neue Möglichkeiten gegenüber.
Diese bruchstückhaften Ideen lassen sich nicht zu einer einzigen einheitlichen Theorie über den Einsatz von KI zur Erzeugung kultureller Produkte zusammensetzen, sondern deuten an, dass diese neuen Technologien der kulturellen Landschaft eine neue Komplexität und Vielfalt verleihen könnten. Wir müssen auf die Details hören!
Weitere Stichworte von Oliver Bown über die Zukunft kreativer KI gibt es hier.