Seit Ende 2022 revolutionieren NLP-Tools den Alltag in vielen kreativen Bereichen. Mit der Ankunft von ChatGPT, DALL-E und vor kurzem VALL-E werden die Bereiche Schrift, Bild und Audio jeden Tag ein bisschen mehr automatisiert. Als man dachte, die Grenzen seien erreicht, legt Google die Messlatte mit der Entwicklung seiner KI MusicLM, die Musik aus einer schriftlichen Anfrage generieren kann, noch höher.
Wie funktioniert MusicLM?
MusicLM ist eine künstliche Intelligenz, die sich auf das Erstellen von Musik spezialisiert hat. Um erfolgreich Musik aus einer Beschreibung wie „ein bezaubernder Jazzsong mit einem unvergesslichen Saxophonsolo und einem Solosänger“ zu generieren, wurde sie mit einem Dataset von 280.000 Stunden Musik trainiert. Dank ihres Machine-Learning-Systems werden ihre Songs immer besser, je mehr Feedback sie erhält.
Derzeit klingen diese letzten Klänge so, wie ein menschlicher Künstler sie komponieren könnte, auch wenn sie nicht unbedingt so einfallsreich oder musikalisch stimmig sind.
Welche Art von Musik kann MusicLM produzieren?
Die Fähigkeiten von MusicLM basieren auf der Beschreibung der Musik, die du erstellen möchtest. Wenn du Musik für Videospiele machen möchtest, musst du dies angeben, damit der Algorithmus einen synthetischen Filter zu deiner Musik hinzufügen kann.
Aber selbst bei langen und gewundenen Beschreibungen gelingt es MusicLM, Nuancen wie instrumentale Riffs, Melodien und Stimmungen zu erfassen.
Außerdem zeigen die Google-Forscher, dass das System auf vorhandene Melodien zurückgreifen kann, egal ob sie gesummt, gesungen, gepfiffen oder auf einem Instrument gespielt werden.
MusicLM kann mehrere Beschreibungen in der Reihenfolge „Zeit zum Meditieren“, „Zeit zum Laufen“ und „Zeit zum Spaß haben“ aufnehmen und so eine Art musikalische Geschichte erstellen, die bis zu mehreren Minuten dauern kann.
Doch trotz all dieser Möglichkeiten haben einige Samples eine verzerrte Qualität, ein unvermeidlicher Nebeneffekt einer synthetischen Kreation. Am auffälligsten ist dies bei den erzeugten Stimmen, einschließlich der Chorharmonien, von denen die meisten einen roboterartigen Filter haben.
Außerdem reichen die meisten Texte von gebrochenem Englisch bis hin zu reinem Kauderwelsch, das wie ein Amalgam verschiedener Künstler klingt.
Google erlaubt die öffentliche Nutzung seines Tools auch aus einem anderen Grund noch nicht: Das Modell verwendet manchmal nicht-lizenzierte Musik, um diese Tracks zu erstellen.
Auch wenn dies nur 1% der erstellten Aufnahmen ausmacht und Google sich des bösartigen Potenzials seines Systems bewusst ist, denkt es noch darüber nach, wie es sein Tool stabil und so gesund wie möglich für alle machen kann.
Technologien zur Generierung von Inhalten durch schriftliche Beschreibungen sind seit einiger Zeit auf dem Vormarsch.
Mit ihrer Hilfe lassen sich viele Prozesse in Unternehmen oder im Alltag einfacher oder schneller durchführen. Wenn du dich für diese Art von intelligenten Systemen interessierst, kannst du dir auch VALL-E, den Voicebot von Microsoft, ansehen.
Wenn du aber lieber mehr über Data Science und Musikprojekte erfahren möchtest, dann schau dir das Projekt der DataScientest-Lernenden PYZZICATO an. In jedem Fall, wenn du dich für Data Science interessierst oder eine Karriere in diesem Bereich in Betracht ziehst, zögere nicht, dir unsere Ausbildungsangebote und andere Artikel über DataScientest anzusehen.
Quelle: techcrunch.com