Qui crée vraiment la musique IA — L'auteur-compositeur, pas la machine

Nous avons analysé environ 650,000 générations de musique IA issues de l'ensemble de l'écosystème de la musique IA, de fin 2025 à 2026, pour répondre à une question que les gros titres sur la « bouillie IA » esquivent : côté création, quand une personne s'installe devant un outil de musique IA, qui écrit réellement la musique ? Les données sont constantes. Les gens apportent leurs propres paroles, balisent à la main la structure du morceau, choisissent des voix précises, et reviennent pour recommencer. La génération en un clic, sans intervention, ne représente qu'une faible part de l'activité. Dans l'échantillon, l'outil tient le rôle d'un studio qui interprète un morceau que la personne a déjà écrit.

Trois chiffres du jeu de données en posent le cadre.

~41%

des prompts dépassent 1,000 caractères

à peu près la longueur d'une feuille de paroles complète

452,000+

occurrences de « chorus » dans les prompts

structure balisée section par section

~17.6×

plus de mots liés à la voix qu'aux instruments

voix et interprètes spécifiés par l'utilisateur

Le récit que les données mettent à l'épreuve

Le chiffre public sur la musique IA décrit un tout autre versant de l'industrie. En avril 2026, Deezer a rapporté qu'environ 44% des morceaux mis en ligne chaque jour sur sa plateforme sont désormais générés par IA — près de 75,000 par jour — et qu'environ 85% des écoutes générées par ces morceaux sont frauduleuses. Ces chiffres ont nourri les gros titres sur un déluge de bouillie et des bots truquant la cagnotte des royalties.

Le chiffre de Deezer mesure une seule variable : ce qui est mis en ligne dans un catalogue de streaming. C'est une mesure côté consommation — une production qui atterrit dans une bibliothèque, en grande partie déversée à grande échelle pour récolter des royalties. Il ne mesure pas ce qui se passe en amont, quand une personne ouvre un outil et fabrique quelque chose. Notre jeu de données mesure cette seconde étape. Les deux sont fréquemment confondues, et c'est cette distinction qui constitue toute la question.

Les deux chiffres mesurent des choses différentes : ce qu'une personne crée, et ce qui atteint un catalogue de streaming.

Deux mesures, pas une seule

Les 44% de Deezer mesurent ce qui atteint un service de streaming — le côté consommation. Le jeu de données de ~650,000 générations mesure ce que les gens fabriquent avec un outil — le côté création. Ce sont deux mesures distinctes.

Constat 1 — ce sont les gens qui fournissent les mots

Si l'outil écrivait les chansons, les prompts seraient courts : un genre, une ambiance, un « fais-moi quelque chose de triste ». Dans l'échantillon, c'est le cas minoritaire. Environ 41% de tous les prompts dépassent 1,000 caractères — la plus grande tranche — tandis que les prompts d'une seule ligne, sous les 50 caractères, ne représentent qu'environ 9%.

~41%

des prompts dépassent 1,000 caractères

la plus grande tranche — un jeu complet de couplets, refrain et pont

~9%

des prompts font moins de 50 caractères

le cas court d'une seule ligne est minoritaire

Un prompt de plus de mille caractères n'est pas la description d'une chanson ; c'en est le texte — des couplets, un refrain et un pont qu'une personne a écrits et collés. Les données montrent que l'usage le plus courant de l'outil consiste à lui confier des paroles achevées et à lui demander d'en jouer l'arrangement. La paternité des mots reste à l'utilisateur.

Constat 2 — ce sont les gens qui agencent la structure à la main

Une fois les mots écrits, les décisions suivantes sont structurelles : où tombe le refrain, quand le pont survient, comment le morceau s'ouvre et se referme. Les données montrent les utilisateurs prendre ces décisions explicitement.

Les termes les plus fréquents à travers les 650,000 prompts ne sont pas des ambiances ou des genres, mais des balises structurelles. chorus apparaît plus de 452,000 fois et verse plus de 410,000, avec outro, bridge, pre-chorus et intro tous classés tout près du sommet. C'est le balisage d'une chanson cartographiée section par section avant d'être enregistrée. Là où le mode d'interface est connu, les utilisateurs choisissent le mode avancé — un contrôle plus fin de l'arrangement — plus souvent (environ 46%) que le mode simple en un seul appui (environ 38%). Entre une génération non dirigée et une génération maîtrisée, l'échantillon penche vers le contrôle.

Ce que contient généralement un prompt de 1,000 caractères : des paroles complètes, balisées section par section, avec la voix et les instruments nommés. Illustration.

Constat 3 — ce sont les gens qui spécifient le son et la voix

Les utilisateurs décrivent aussi le son, et de façon précise. Les mots descriptifs les plus courants concernent la voix et l'instrumentation : vocal apparaît plus de 130,000 fois, aux côtés de male, female, emotional, warm, soft, piano, guitar et bass. Les termes liés à la voix l'emportent sur les demandes de morceaux purement instrumentaux dans un rapport d'environ 17.6 contre 1.

Les données pointent vers une décision de casting et d'instrumentation prise par l'utilisateur — une voix masculine chaude, une ligne de piano émotionnelle, une ambiance définie — l'outil exécutant la spécification plutôt que de la choisir.

Constat 4 — la longue traîne répond à des occasions, ce n'est pas de la production en lot

Le récit de la bouillie suppose une production anonyme et en grand volume. La distribution des types de chansons indique l'inverse. Les chansons ordinaires constituent l'essentiel de l'activité, mais c'est dans la longue traîne que se concentre le détail personnel : reprises, raps, chansons d'anniversaire, jingles, berceuses, chansons pour personnages de jeu, morceaux 8-bit, beats. Chacun renvoie à une personne précise et à une occasion précise.

Type de chanson en part de l'ensemble des générations. Les chansons ordinaires dominent ; la longue traîne — reprises, raps, chansons d'anniversaire, jingles — est là où se concentre la création personnelle, portée par les occasions.

Source: Échantillon agrégé multi-plateformes de ~650,000 générations de musique IA, fin 2025–2026.

La distribution colle davantage à des individus créant des chansons pour des moments particuliers qu'à la production en lot d'une ferme de contenu.

Constat 5 — l'activité est mondiale et écrite en langues maternelles

Environ 93% des prompts sont écrits dans des langues à écriture latine, mais cela reflète le système d'écriture, pas la musique. En dessous, les sessions se regroupent en une dizaine de mondes musicaux distincts : pop anglophone ; partitions instrumentales et cinématographiques ; ballades et chants dévotionnels hispanophones ; sertanejo et funk brésiliens ; dangdut et koplo d'Asie du Sud-Est ; chansons d'Europe de l'Est et des Balkans. L'échantillon comprend des chansons de mariage en javanais, des prières en espagnol, et des hommages d'anniversaire qui passent du russe à l'arménien et à l'anglais en plein couplet.

Les langues et les genres se regroupent en une dizaine de familles ; les six nommées ici comptent parmi les plus grandes. Illustration.

Cette distribution colle à un comportement ancien — créer une chanson pour quelqu'un — tournant sur un nouvel outil, plutôt qu'à un remplissage automatisé de catalogue.

Adoption : l'activité est en croissance

L'activité s'étend. Sur la période examinée, le volume hebdomadaire de générations a été multiplié par plus de 20, et le volume quotidien a environ triplé en un seul trimestre.

23×

volume hebdomadaire de générations

croissance sur environ 18 mois

~3×

volume quotidien

en un seul trimestre

Une croissance soutenue à ce rythme colle à un usage répété plutôt qu'à une curiosité ponctuelle. Les données indiquent que les utilisateurs reviennent parce que l'outil prend en charge le travail de production qui exigeait autrefois un studio, un groupe et un budget, tandis que les apports que seule une personne peut fournir — les mots, l'intention, l'occasion — restent à l'utilisateur.

Mise en contexte : soixante ans de la même objection

« La musique IA n'a pas d'âme » est à peu près la critique qu'a essuyée chaque nouvel outil musical depuis soixante ans, et les cas antérieurs montrent quelle part de l'objection tient debout.

Chaque nouvel outil a reçu le même verdict à son arrivée ; la musique IA en est l'instance actuelle.

En 1968, le Switched-On Bach de Wendy Carlos fut à la fois un succès et un scandale : les critiques jugeaient le synthétiseur Moog froid et le tenaient pour un faux instrument, et les syndicats de musiciens avertissaient qu'il allait mettre les orchestres au chômage. Il est devenu fondateur de la pop et de la musique électronique modernes. La boîte à rythmes Roland TR-808 a essuyé presque les mêmes accusations en 1980 — pas d'âme, elle remplacera les batteurs — avant de devenir la base rythmique du hip-hop, de la house et de la pop, au point que Kanye West a intitulé un album 808s & Heartbreak en son honneur.

Le passé montre aussi là où les critiques avaient en partie raison. Quand les producteurs de hip-hop ont commencé à sampler les disques des autres dans les années 1980, « n'importe qui peut boucler un break » fut le rejet facile, mais les litiges de droits d'auteur sous-jacents étaient bien réels et les procès ont redessiné le métier. Les nouveaux outils causent parfois un tort mesurable, et le problème de fraude au streaming de la musique IA en est une instance actuelle. Le point qui compte est plus étroit : ces torts sont distincts de la question de savoir qui est l'auteur d'un morceau donné.

Le cas Auto-Tune est le plus net. « Believe » de Cher l'a rendu célèbre en 1998 et T-Pain l'a rendu omniprésent ; la réaction a suivi — de la triche, une voix de robot, sans émotion — et en 2009 Jay-Z a sorti « D.O.A. (Death of Auto-Tune) » pour le déclarer mort. Il ne l'était pas. Il s'est scindé en deux usages simultanés, un outil de correction et un parti pris esthétique délibéré allant de T-Pain à Bon Iver puis à Kanye, et dans les deux cas la personne est restée l'auteur tandis que l'outil exécutait l'intention. À travers ces cas, l'objection sur l'âme de la machine était distincte de la question de la paternité, laquelle tenait à savoir si une personne se servait de l'outil pour dire quelque chose.

Conclusion : ce que les données disent de la paternité

Côté création, le constat est sans ambiguïté. Sur des centaines de milliers de sessions, c'est l'humain qui écrit les paroles, cartographie la structure, choisit la voix et décide l'occasion à laquelle la chanson est destinée ; l'outil interprète l'arrangement. Dans l'échantillon, l'auteur est la personne, et l'IA exécute le brief.

Le récit de la « bouillie IA » est réel, mais il décrit une population comparativement réduite qui truque les plateformes de streaming — un problème côté consommation — et non la population qui fait de la musique avec ces outils. Pour cette population, les données décrivent pour l'outil un rôle de studio : il apporte la production qui exigeait autrefois un studio, un groupe et un budget, et laisse la paternité à la personne. Cette distinction est la prémisse derrière Lacuna.