Wer macht wirklich KI-Musik — Der Songwriter, nicht die Maschine

Wir haben rund 650,000 KI-Musik-Generierungen aus dem gesamten KI-Musik-Bereich analysiert, von Ende 2025 bis ins Jahr 2026, um eine Frage zu beantworten, die die "AI-Slop"-Schlagzeilen überspringen: Wer verfasst auf der Kreationsseite eigentlich die Musik, wenn sich ein Mensch mit einem KI-Musik-Tool hinsetzt? Die Daten sind eindeutig. Menschen bringen ihre eigenen Texte mit, markieren die Songstruktur von Hand, besetzen bestimmte Stimmen und kommen wieder, um es erneut zu tun. Die Ein-Klick-und-weg-Generierung macht nur einen kleinen Teil der Aktivität aus. In der Stichprobe übernimmt das Tool die Rolle eines Studios, das einen Song aufführt, den der Mensch bereits geschrieben hat.

Drei Kennzahlen aus dem Datensatz stecken den Rahmen ab.

~41%

der Prompts laufen über 1.000 Zeichen

ungefähr die Länge eines vollständigen Textblatts

452,000+

Vorkommen von "chorus" über alle Prompts

Struktur Abschnitt für Abschnitt markiert

~17.6×

mehr Vokal- als Instrumentalwörter

Stimme und Performer vom Nutzer vorgegeben

Das Narrativ, gegen das die Daten getestet werden

Die öffentlich kursierende Zahl zu KI-Musik beschreibt eine andere Seite der Branche. Im April 2026 berichtete Deezer, dass mittlerweile etwa 44% der täglich auf seine Plattform hochgeladenen Tracks KI-generiert sind — fast 75,000 pro Tag — und dass geschätzte 85% der Streams, die diese Tracks ziehen, betrügerisch sind. Diese Zahlen brachten die Schlagzeilen über eine Flut von Slop und Bots hervor, die den Tantiemen-Topf manipulieren.

Die Deezer-Zahl misst eine einzige Variable: was in einen Streaming-Katalog hochgeladen wird. Es ist eine Messung auf der Konsumseite — Output, der in einer Bibliothek landet, vieles davon im großen Maßstab darauf ausgerichtet, Tantiemen abzuschöpfen. Sie misst nicht, was vorgelagert passiert, wenn eine einzelne Person ein Tool öffnet und etwas erschafft. Unser Datensatz misst genau diesen zweiten Schritt. Beide werden häufig vermischt, und in dieser Unterscheidung liegt die ganze Frage.

Die beiden Zahlen messen Unterschiedliches: was ein Mensch verfasst, und was in einen Streaming-Katalog gelangt.

Zwei Messungen, nicht eine

Deezers 44% messen, was einen Streaming-Dienst erreicht — die Konsumseite. Der Datensatz aus ~650,000 Generierungen misst, was Menschen mit einem Tool erschaffen — die Kreationsseite. Es sind zwei getrennte Messungen.

Befund 1 — Menschen liefern die Worte

Würde das Tool die Songs schreiben, wären die Prompts kurz: ein Genre, eine Stimmung, ein "mach mir etwas Trauriges". In der Stichprobe ist das die Minderheit. Rund 41% aller Prompts laufen über 1.000 Zeichen — der mit Abstand größte Bereich — während Einzeiler unter 50 Zeichen etwa 9% ausmachen.

~41%

der Prompts überschreiten 1.000 Zeichen

größter Bereich — ein vollständiger Satz aus Strophen, Refrain und Bridge

~9%

der Prompts liegen unter 50 Zeichen

der kurze Einzeiler ist eine Minderheit

Ein Prompt mit über tausend Zeichen ist keine Beschreibung eines Songs; er ist dessen Text — Strophen, Refrain und Bridge, die ein Mensch geschrieben und eingefügt hat. Die Daten zeigen, dass die häufigste Nutzung des Tools darin besteht, ihm einen fertigen Text zu übergeben und es um das Arrangement zu bitten. Die Urheberschaft der Worte liegt beim Nutzer.

Befund 2 — Menschen arrangieren die Struktur von Hand

Sobald die Worte existieren, sind die nächsten Entscheidungen struktureller Art: wo der Refrain landet, wann die Bridge einsetzt, wie der Track beginnt und endet. Die Daten zeigen, dass Nutzer diese Entscheidungen ausdrücklich treffen.

Die häufigsten Begriffe über die 650,000 Prompts hinweg sind keine Stimmungen oder Genres, sondern Struktur-Tags. chorus taucht über 452,000 Mal auf und verse über 410,000 Mal, wobei outro, bridge, pre-chorus und intro allesamt weit oben rangieren. Das ist die Markierung eines Songs, der Abschnitt für Abschnitt kartiert wird, bevor er aufgenommen wird. Wo der Schnittstellenmodus bekannt ist, wählen Nutzer den Advanced-Modus — feinere Kontrolle über das Arrangement — häufiger (etwa 46%) als den simplen Ein-Tipp-Modus (etwa 38%). Vor die Wahl zwischen einer ungesteuerten und einer kontrollierten Generierung gestellt, neigt die Stichprobe zur Kontrolle.

Was ein Prompt mit 1.000 Zeichen typischerweise enthält: einen vollständigen Text, Abschnitt für Abschnitt markiert, mit benannter Stimme und Instrumenten. Illustration.

Befund 3 — Menschen geben Klang und Stimme vor

Nutzer beschreiben auch den Klang, und sie sind dabei präzise. Die häufigsten beschreibenden Wörter betreffen Stimme und Instrumentierung: vocal taucht über 130,000 Mal auf, neben male, female, emotional, warm, soft, piano, guitar und bass. Vokal-Begriffe übertreffen Anfragen nach rein instrumentalen Tracks im Verhältnis von etwa 17.6 zu 1.

Die Daten verweisen auf eine vom Nutzer getroffene Besetzungs- und Instrumentierungsentscheidung — warme männliche Vocals, eine emotionale Pianolinie, ein definiertes Feeling — wobei das Tool die Vorgabe ausführt, statt sie zu wählen.

Befund 4 — der Long Tail ist anlassgetrieben, kein Batch-Output

Das Slop-Narrativ legt anonymen Output in großen Mengen nahe. Die Verteilung der Songtypen deutet in die andere Richtung. Reguläre Songs machen den Großteil der Aktivität aus, doch im Long Tail konzentriert sich das Persönliche: Cover, Raps, Geburtstagslieder, Jingles, Schlaflieder, Songs für Spielfiguren, 8-Bit-Tracks, Beats. Jedes davon lässt sich einer bestimmten Person und einem bestimmten Anlass zuordnen.

Songtyp als Anteil an allen Generierungen. Reguläre Songs dominieren; im Long Tail — Cover, Raps, Geburtstagslieder, Jingles — konzentriert sich die anlassgetriebene, persönliche Kreation.

Source: Aggregierte plattformübergreifende Stichprobe von ~650,000 KI-Musik-Generierungen, Ende 2025–2026.

Die Verteilung passt besser zu Einzelnen, die Songs für bestimmte Momente erschaffen, als zum Batch-Output einer Content-Farm.

Befund 5 — die Aktivität ist global und in Muttersprachen verfasst

Etwa 93% der Prompts sind in lateinschriftlichen Sprachen verfasst, doch das spiegelt das Schriftsystem wider, nicht die Musik. Darunter clustern die Sessions in rund zehn unterschiedliche musikalische Welten: englischsprachiger Pop; instrumentale und filmische Scores; spanischsprachige Balladen und Andachtslieder; brasilianischer sertanejo und funk; südostasiatischer dangdut und koplo; osteuropäische und balkanische Lieder. Die Stichprobe enthält Hochzeitslieder auf Javanisch, Gebete auf Spanisch und Geburtstagsehrungen, die mitten in der Strophe zwischen Russisch, Armenisch und Englisch wechseln.

Sprachen und Genres clustern in rund zehn Gruppen; die sechs hier benannten gehören zu den größten. Illustration.

Diese Verteilung passt zu einem alten Verhalten — jemandem einen Song zu machen — das auf einem neuen Tool läuft, und nicht zum automatisierten Befüllen von Katalogen.

Verbreitung: die Aktivität wächst

Die Aktivität nimmt zu. Über den untersuchten Zeitraum wuchs das wöchentliche Generierungsvolumen um mehr als das Zwanzigfache, und das tägliche Volumen verdreifachte sich grob innerhalb eines einzigen Quartals.

23×

wöchentliches Generierungsvolumen

Wachstum über rund 18 Monate

~3×

tägliches Volumen

innerhalb eines einzigen Quartals

Anhaltendes Wachstum in diesem Tempo passt eher zu wiederholter Nutzung als zu einmaliger Neugier. Die Daten verweisen darauf, dass Nutzer zurückkehren, weil das Tool die Produktionsarbeit übernimmt, die früher ein Studio, eine Band und ein Budget erforderte, während die Inputs, die nur ein Mensch liefern kann — die Worte, die Absicht, der Anlass — beim Nutzer bleiben.

Kontext: sechzig Jahre derselbe Einwand

"KI-Musik hat keine Seele" ist ungefähr die Kritik, die jedes neue Musik-Tool seit sechzig Jahren auf sich gezogen hat, und die früheren Fälle zeigen, welcher Teil des Einwands standhält.

Jedes neue Tool erntete bei seinem Erscheinen dasselbe Urteil; KI-Musik ist der aktuelle Fall.

1968 war Wendy Carlos' Switched-On Bach zugleich ein Hit und ein Skandal: Kritiker nannten den Moog-Synthesizer kalt und kein echtes Instrument, und Musikergewerkschaften warnten, er werde Orchester arbeitslos machen. Es wurde zu einem Grundpfeiler von modernem Pop und elektronischer Musik. Der Roland TR-808 Drumcomputer zog 1980 nahezu dieselben Vorwürfe auf sich — keine Seele, er werde Schlagzeuger ersetzen — und wurde dann zur rhythmischen Grundlage von Hip-Hop, House und Pop, prominent genug, dass Kanye West ein Album nach ihm 808s & Heartbreak nannte.

Die Geschichte zeigt auch, wo die Kritiker teilweise recht hatten. Als Hip-Hop-Produzenten in den 1980ern begannen, die Platten anderer Leute zu samplen, war "jeder kann einen Break loopen" die billige Abfuhr, doch die darunterliegenden Urheberrechtsstreitigkeiten waren real, und die Prozesse formten das Handwerk neu. Neue Tools richten tatsächlich manchmal messbaren Schaden an, und das Streaming-Betrugsproblem der KI-Musik ist ein aktueller Fall. Der relevante Punkt ist enger gefasst: Diese Schäden sind getrennt von der Frage, wer einen bestimmten Track verfasst.

Der Fall Auto-Tune ist der eindeutigste. Chers "Believe" machte es 1998 berühmt, und T-Pain machte es allgegenwärtig; der Gegenwind folgte — Betrug, Roboterstimme, kein Gefühl — und 2009 veröffentlichte Jay-Z "D.O.A. (Death of Auto-Tune)", um es für erledigt zu erklären. Es war nicht erledigt. Es spaltete sich in zwei gleichzeitige Verwendungen auf, ein Korrekturwerkzeug und eine bewusste Ästhetik, die von T-Pain über Bon Iver bis Kanye reicht, und in beiden blieb der Mensch der Urheber, während das Tool die Absicht ausführte. Über all diese Fälle hinweg war der Einwand der maschinellen Seele getrennt von der Frage der Urheberschaft, die sich daran entschied, ob ein Mensch das Tool nutzte, um etwas zu sagen.

Fazit: was die Daten über Urheberschaft sagen

Auf der Kreationsseite ist die Beweislage eindeutig. Über hunderttausende Sessions hinweg schreibt der Mensch die Texte, kartiert die Struktur, besetzt die Stimme und wählt den Anlass, für den der Song gedacht ist; das Tool führt das Arrangement aus. In der Stichprobe ist der Urheber der Mensch, und die KI führt das Briefing aus.

Das "AI-Slop"-Narrativ ist real, aber es beschreibt eine vergleichsweise kleine Gruppe, die Streaming-Plattformen manipuliert — ein Problem auf der Konsumseite — nicht die Gruppe, die mit diesen Tools Musik macht. Für diese Gruppe beschreiben die Daten eine studioförmige Rolle des Tools: Es liefert die Produktion, die einst ein Studio, eine Band und ein Budget erforderte, und belässt die Urheberschaft beim Menschen. Diese Unterscheidung ist die Prämisse hinter Lacuna.