究竟是谁在创作 AI 音乐 — 是词曲作者,不是机器

我们分析了 AI 音乐领域内约 650,000 次 AI 音乐生成,时间跨度从 2025 年末延伸到 2026 年,目的是回答「AI 垃圾」类标题始终回避的一个问题:在创作端,当一个人坐下来使用 AI 音乐工具时,究竟是谁在创作这段音乐?数据给出的答案高度一致。人们带来自己的歌词,亲手标注歌曲结构,指定具体的演唱声音,然后会再回来做一次。一键生成、然后撒手不管的用法只占活动中的一小部分。在样本里,工具扮演的角色是一间录音棚,演绎一个人早已写好的歌。
数据中的三个数字界定了这次分析的范围。
数据要检验的那套说法
关于 AI 音乐的那个公开数字,描述的是这个行业的另一面。2026 年 4 月,Deezer 报告称,如今每天上传到其平台的曲目中约有 44% 是 AI 生成的——接近每天 75,000 首——而这些曲目所产生的播放量中,估计有 85% 是欺诈性的。正是这些数字催生了那些关于垃圾内容泛滥、机器人套取版税池的标题。
Deezer 的这个数字衡量的是单一变量:什么东西被上传到了流媒体曲库。这是一项消费端的测量——产出物落进音乐库,其中很大一部分被大规模投放以收割版税。它衡量的不是上游发生的事,也就是当一个个人打开工具、做出点东西的那一步。我们的数据集衡量的正是第二步。这两件事经常被混为一谈,而这一区分就是整个问题的关键。
发现 1 — 词是人提供的
如果是工具在写歌,提示词应该很短:一个流派、一种情绪、一句「给我做点伤感的」。在样本里,这恰恰是少数情况。所有提示词中约有 41% 超过 1,000 个字符——这是占比最大的一档——而 50 字符以内的单行提示词只占约 9%。
超过一千个字符的提示词不是对一首歌的描述,它本身就是那首歌的文本——主歌、副歌和桥段,由一个人写好并粘贴进去。数据显示,这个工具最常见的用法,是把一份成稿歌词交给它,让它完成编曲。词的著作权属于用户。
发现 2 — 结构是人亲手编排的
词存在之后,接下来的决定都是结构性的:副歌落在哪里、桥段在何时切入、曲子如何开头和收尾。数据显示,用户在明确地做出这些决定。
在这 650,000 条提示词中,出现最频繁的词汇不是情绪也不是流派,而是结构标记。chorus 出现超过 452,000 次,verse 超过 410,000 次,outro、bridge、pre-chorus 和 intro 也都排在前列。这是一首歌在被录制之前,被逐段勾画出来的标注。在已知界面模式的情况下,用户选择高级模式——对编曲拥有更精细的控制——的频率(约 46%)高于一键式的简单模式(约 38%)。在无指向的生成和受控的生成之间,样本倾向于控制。
发现 3 — 声音与演唱由人指定
用户也会描述声音,而且描述得很具体。最常见的描述性词汇都与人声和器乐有关:vocal 出现超过 130,000 次,与之并列的还有 male、female、emotional、warm、soft、piano、guitar 和 bass。人声相关词汇与纯器乐曲目的请求量之比约为 17.6 比 1。
数据表明,选角和配器的决定是由用户做出的——温暖的男声、动人的钢琴旋律、明确的质感——工具执行的是这份说明,而非自行选择。
发现 4 — 长尾由场景驱动,而非批量产出
垃圾内容的说法暗示着匿名、高量的产出。歌曲类型的分布指向相反的方向。常规歌曲是活动的主体,但个人化的细节集中在长尾里:翻唱、说唱、生日歌、广告短歌、摇篮曲、为游戏角色写的歌、8-bit 曲目、节奏伴奏。每一首都对应着一个具体的人和一个具体的场合。
这一分布更符合个人为特定时刻创作歌曲的样子,而不像内容农场的批量产出。
发现 5 — 这是一项全球性的活动,用母语写就
约 93% 的提示词以拉丁字母语言写成,但这反映的是书写系统,而非音乐本身。在表层之下,这些会话聚成大约十个截然不同的音乐世界:英语流行;器乐和电影配乐;西班牙语抒情曲与圣歌;巴西的 sertanejo 与 funk;东南亚的 dangdut 与 koplo;东欧和巴尔干的歌曲。样本中包含用爪哇语写的婚礼歌、用西班牙语写的祷文,以及在一段主歌内于俄语、亚美尼亚语和英语之间来回切换的生日献礼。
这一分布所符合的,是一种古老行为——为某个人写一首歌——只是跑在了一个新工具上,而非自动化的曲库填充。
增长:这项活动正在扩大
这项活动正在扩张。在考察的时间窗口内,每周生成量增长了 20 倍以上,而单季度内日生成量大约翻了三倍。
以这样的速率持续增长,更符合重复使用,而非一次性的好奇尝试。数据表明,用户之所以回来,是因为工具承担了过去需要录音棚、乐队和预算才能完成的制作工作,而那些只有人才能提供的输入——词、意图、场合——仍然留在用户手中。
背景:同一种质疑,重复了六十年
「AI 音乐没有灵魂」,大体上就是过去六十年里每一件新音乐工具都收到过的评价,而此前的案例显示了这种质疑中哪一部分站得住脚。
1968 年,Wendy Carlos 的 Switched-On Bach 既是热门也是丑闻:评论家说 Moog 合成器冰冷、不算真正的乐器,音乐家工会则警告它会让管弦乐团失业。它后来成了现代流行与电子音乐的奠基之作。Roland TR-808 鼓机在 1980 年招致了几乎相同的指控——没有灵魂、会取代鼓手——随后却成了嘻哈、浩室和流行乐的节奏根基,分量重到 Kanye West 以它命名了一张专辑 808s & Heartbreak。
记录也显示了评论家部分正确的地方。1980 年代,当嘻哈制作人开始采样他人的唱片时,「谁都能循环一段 break」是廉价的轻蔑,但其下的版权纠纷是真实存在的,相关诉讼重塑了这门手艺。新工具确实有时会造成可衡量的危害,而 AI 音乐的流媒体欺诈问题就是当下的一例。要点更窄:这些危害与「某首曲目由谁创作」这个问题是分开的。
Auto-Tune 这个案例最为清晰。Cher 的「Believe」在 1998 年让它声名大噪,T-Pain 让它无处不在;反弹随之而来——作弊、机器人嗓音、毫无感情——2009 年 Jay-Z 发布了 "D.O.A. (Death of Auto-Tune)",宣告它已终结。它并没有。它分化成了两种同时存在的用法,一种是校正工具,一种是从 T-Pain 到 Bon Iver 再到 Kanye 一脉相承的有意为之的美学,而在这两种用法里,人始终是作者,工具执行的是意图。在这些案例中,关于机器有没有灵魂的质疑,始终与著作权的问题相分离,而后者取决于一个人是否在用这件工具表达点什么。
结论:数据对著作权说了什么
在创作端,证据明确无误。在数十万次会话中,是人写下歌词、勾画结构、指定演唱声音、选定这首歌为谁而作;工具完成的是编曲。在样本里,作者是人,AI 执行的是这份委托。
「AI 垃圾」这套说法是真实的,但它描述的是一群相对小众、在流媒体平台上钻空子的人——一个消费端的问题——而不是那群用这些工具创作音乐的人。对于后者,数据所描绘的是工具扮演的一个录音棚式的角色:它提供了过去需要录音棚、乐队和预算才能得到的制作,并把著作权留在人手中。这一区分,正是 Lacuna 背后的前提。