Zum Wochenende: Suno macht die Musik

5. April 2024 Ralf Hersel Lesezeit: 8 Minuten 🗪 6 Kommentare

KI-Dienste entwickeln sich in hohem Tempo weiter. Suno erzeugt Prompt-generierte Musikstücke in erstaunlicher Qualität.

Die Entwicklung der generativen KI-Modelle schreitet unerbittlich voran. Sei es bei Übersetzungen, Textzusammenfassungen oder der Generierung von Bildern, Videos oder Musik. Ihr habt vermutlich die generierten Videos von Sora gesehen. Ob dieses Fortschreiten zum Besseren führt, sei dahingestellt. Insbesondere bei den Text-bezogenen Fähigkeiten hört man von Rückschritten. Falls ihr euch für KI-basierte Textzusammenfassung interessiert, empfehle ich euch diese Podcast-Folge von SRF-Digital.

Doch in diesem Artikel geht es um KI-generierte Musik. Da gibt es die Firma Suno (17 Dunster Street, Floor 4, Cambridge, MA, USA). Mit diesem Dienst kann man über einfache Prompts, vollständige Songs erzeugen lassen.

Suno

Kürzlich hat Suno die dritte Version ihres Musikmodells bereitgestellt. Damit kann man mit einer Prompt-Eingabe einen vollständigen Song, inklusive Gesang und der Liedtexte, erzeugen. Die Lieder werden in Radioqualität als MP3-Dateien erzeugt. Die Liedtexte gibt es in allen Hauptsprachen. Ausserdem wurden die Musikstile und Genres erweitert.

Um euch ein Beispiel zu präsentieren, habe ich das Stück "Ein neuer Beginn" vom Monitor aufgenommen. Falls ich es richtig verstehe, wurde dieser Song mit diesem Prompt generiert: "EDM-Pop Song with Ambients Parts, Female Voice". Ich habe grosse Zweifel, weil der Prompt zu kurz ist, um dieses Ergebnis zu erzeugen.

Doch hört selbst

Warnung: Dieses Musikstück kann verwirren! Wartet, bis Nextcloud den Player anzeigt.

Ein kleiner Exkurs: Den Song habe ich von der Suno-Webseite mit dem Programm Recorder vom Monitor meines Notebooks mitgeschnitten. Also mit der Audioausgabe, die über die Lautsprecher wiedergegeben wird, egal von welcher Quelle. Doch dazu gibt es bereits einen eigenen Artikel.

Ich empfehle euch, mehrere Titel bei Suno anzuhören, um einen Eindruck von der Qualität zu bekommen. Wer möchte, kann sich einen Account klicken und eigene Songs generieren, was ich nicht gemacht habe.

Der Elefant im Raum

Nun stellt sich die Frage, was ein solcher KI-basierter Musikgenerierungsdienst für die Kulturschaffenden bedeutet. Ich sehe es als kulturelle Evolution; wobei ich das nicht positiv meine. In der Geschichte der Musik (als wichtiges kulturelles Element) haben wir (grob gesagt) drei Stufen erlebt:

Gesang am Lagerfeuer oder in der Höhle (Life Performance)
Wiederholbarkeit mit individueller Konserve (Schallplatte, Kassette, CD, Audio-Datei)
Universelle Verfügbarkeit ohne Eigentum (Cloud, Spotify, usw.)

Die vierte Stufe ist wahrscheinlich KI-generierte Musik as a Service. Das funktioniert dann so: Du beschreibst deinen Musikgeschmack beim KI-Musikdienst, so ähnlich wie man das beim Onboarding bei Spotify macht. 3 Künstler auswählen, 3 Musikstile auswählen, fertig. Das genügt Spotify, um eine erste Auswahl nach deinem Geschmack zu generieren. Die Suche beim KI-Dienst sähe etwas anders aus: statt nach einem echten Künstler oder einem echten Song zu suchen, würde man einen Prompt eingeben, z. B. "Jazz-Piano mit deutschem Gesang im Stil von Diana Krall". Selbstverständlich würde der Dienst Playlisten für verschiedene Gemütszustände aufgrund deiner bisherigen Prompts erzeugen.

Einem solchen Dienst entstehen keine Kosten für die Bezahlung der Musikverlage und Künstler:innen, sondern für den Betrieb des Rechenzentrums. Ich weiss nicht, wie gross der CO₂-Ausstoss für eine GPT-Anfrage ist. Huging Face hat dazu 2022 eine Studie erstellt, die darauf hindeutet, dass hinter einer Anfrage ein grosser Ressourcenverbrauch steckt. Es gibt auch anderslautende Ergebnisse, wie man diesem Artikel entnehmen kann, der bei Nature im Februar 2024 publiziert wurde.

Achtung: Zynismus

Doch was ist mit dem kulturellen Erbe der Menschheit im Bereich der Musik? Das fliesst in die "Large Music Models" ein. Diese konservieren das musikalische Erbe und machen es in generischer Form wieder verfügbar. Künstler:innen braucht man dann nicht mehr.

Damit würde die Identifikation mit Musikschaffenden wegfallen, bzw. sich über die Zeit ausblenden. Folgende Aussagen würden ungebräuchlich:

Depeche Mode haben die Halle zum Kochen gebracht.
Beim letzten Konzert hatte Tate McRae einen schlechten Tag.
Mir gefallen die Botschaften in den Songs von Alicia Keys.

Was ist denn mit den Live-Auftritten der Künstler:innen auf den Bühnen dieser Welt? Kein Problem: erinnert ihr euch an den Skandal um Milli Vanilli im Jahr 1990? Oder an die Wiederbelebung von ABBA in Form von Hologrammen? Man könnte argumentieren (das ist jetzt kein Zynismus), dass die Bühnenperformance nicht zwingend mit der Musikqualität korreliert. Wer gute Musik macht, muss noch lange keine Rampensau sein. Durch KI erschaffene Musik kann problemlos von Schauspieler:innen in einem Stadion repräsentiert werden.

Damit wir uns nicht falsch verstehen; ich finde das hier beschriebene Szenario furchtbar. Aber jemand muss es skizzieren.

Man sieht es gerade bei den KI-Influencern, wie einfach das funktioniert. Keine Agentur möchte sich mit schwierigen, teuren und fordernden Charakteren herumschlagen, wenn sich das Ziel auch mit KI-generierten Produktvermarktern erreichen lässt. Eine KI stellt keine Forderungen.

Fazit

Ich gehe davon aus, dass die hier beschriebene Entwicklung bei allen Musikliebhaber:innen auf Ablehnung stösst, weil Musik mit Menschen zu tun hat und (zum Glück) emotional aufgeladen ist. Falls das Beschriebene eintritt, wovon ich überzeugt bin, bedeutet es das Ende des Milliardenmarktes der Musikindustrie. Viel schlimmer ist jedoch, dass es das Ende für Musikschaffende einläutet. Vielleicht ist das etwas übertrieben; echte Künstler:innen werden in der Nische ein Dasein fristen, so wie Vinyl-Platten.

Quellen:

https://app.suno.ai/

https://openai.com/sora

https://www.handelsblatt.com/technik/it-internet/gpt-4-wird-chatgpt-duemmer-das-sagt-eine-stanford-studie-/29291366.html

https://www.srf.ch/audio/digital-podcast/wie-gut-kann-kuenstliche-intelligenz-texte-zusammenfassen?id=12560567

https://flathub.org/apps/com.github.alexkdeveloper.recorder

https://www.heise.de/hintergrund/CO2-Fussabdruck-Wie-gross-die-Emissionen-von-KI-Modellen-wirklich-sind-7347017.html

https://www.nature.com/articles/s41598-024-54271-x

https://de.wikipedia.org/wiki/Milli_Vanilli

https://abbavoyage.com/

Geschrieben von kamome am 6. April 2024 um 08:25

Meine Hoffnung wäre: Die großen Mainstream-Medienmacher machen in KI, die echten Künstler werden alle Independent … Die Hoffnung stirbt zuletzt ;)

Antworten

Geschrieben von Dettente am 6. April 2024 um 09:56

Zwischen dem Gesang am Lagerfeuer und der Konserve würde ich aber noch die Zeit der Reproduktion über Noten setzen... Was den Rock/Pop-Bereich angeht, finde ich schon seit vielen Jahren, dass da wenig Neues, Innovatives entsteht. Ich habe mich oft gefragt, warum es Künstler/Band xy gibt, da sich die Musik nur unwesentlich von schon vorhandenem Musikmaterial unterscheidet. Wie, als gäbe es eine Musik-KI schon recht lange. Von daher wird die KI heutzutage keinen wirklichen Schaden anrichten. Alles bleibt weiterhin langweilig und mittelmäßig.

Geschrieben von Norbert am 6. April 2024 um 20:19

Dem kann ich nur zustimmen. Ich bin froh das ich in den 70ern und 80ern aufgewachsen bin. Da gab es noch Innovationen. Heute leider alles trauriger Einheitsbrei. Arme neue Generation

Geschrieben von MonteDrago am 8. April 2024 um 15:12

Was die Pop Musik angeht hast du recht. Und das Beispiel hier ist schon erschreckend.

Was allerdings die von mir bevorzugte Hardrock /Metal Musik angeht, habe ich noch Hoffnung. Die zeichnet sich doch zu einem Großteil durch ihre sehr Gefühlsbetonte Stimmung aus. Das wird eine KI wahrscheinlich nie ordentlich hin bekommen.

Und ich beschäftige mich (bin in der Scene unterwegs) damit jetzt schon seit über 40 Jahren.

Geschrieben von Norbert am 6. April 2024 um 20:15

Eine erschreckende Aussicht. Aber zum Glück ist Musik mehr als eine mehr oder weniger sinnvolle Aneinanderreihung von Tönen. Komplexität oder gar Virtuosität findet hier nicht statt. Als Hintergrundbeschallung im Kaufhaus grade noch geeignet aber wer bestimmte Ansprüche hat, greift doch lieber zu konventionellem. Ich hoffe das es nur eine temporäre Erscheinung bleiben wird.