究竟是谁在创作 AI 音乐 — 是词曲作者，不是机器

我们分析了 AI 音乐领域内约 650,000 次 AI 音乐生成，时间跨度从 2025 年末延伸到 2026 年，目的是回答「AI 垃圾」类标题始终回避的一个问题：在创作端，当一个人坐下来使用 AI 音乐工具时，究竟是谁在创作这段音乐？数据给出的答案高度一致。人们带来自己的歌词，亲手标注歌曲结构，指定具体的演唱声音，然后会再回来做一次。一键生成、然后撒手不管的用法只占活动中的一小部分。在样本里，工具扮演的角色是一间录音棚，演绎一个人早已写好的歌。

数据中的三个数字界定了这次分析的范围。

~41%

的提示词超过 1,000 个字符

大致相当于一整张歌词稿的长度

452,000+

所有提示词中出现 "chorus" 的次数

结构被逐段标注出来

~17.6×

人声词汇是器乐词汇的多少倍

声音与演唱者由用户指定

数据要检验的那套说法

关于 AI 音乐的那个公开数字，描述的是这个行业的另一面。2026 年 4 月，Deezer 报告称，如今每天上传到其平台的曲目中约有 44% 是 AI 生成的——接近每天 75,000 首——而这些曲目所产生的播放量中，估计有 85% 是欺诈性的。正是这些数字催生了那些关于垃圾内容泛滥、机器人套取版税池的标题。

Deezer 的这个数字衡量的是单一变量：什么东西被上传到了流媒体曲库。这是一项消费端的测量——产出物落进音乐库，其中很大一部分被大规模投放以收割版税。它衡量的不是上游发生的事，也就是当一个个人打开工具、做出点东西的那一步。我们的数据集衡量的正是第二步。这两件事经常被混为一谈，而这一区分就是整个问题的关键。

两个数字衡量的是不同的东西：一个人创作了什么，以及什么东西最终进入了流媒体曲库。

是两项测量，不是一项

Deezer 的 44% 衡量的是什么东西进入了流媒体服务——消费端。约 650,000 次生成的数据集衡量的是人们用工具做出了什么——创作端。两者是不同的测量。

发现 1 — 词是人提供的

如果是工具在写歌，提示词应该很短：一个流派、一种情绪、一句「给我做点伤感的」。在样本里，这恰恰是少数情况。所有提示词中约有 41% 超过 1,000 个字符——这是占比最大的一档——而 50 字符以内的单行提示词只占约 9%。

~41%

的提示词超过 1,000 个字符

占比最大的一档——一整套主歌、副歌与桥段

~9%

的提示词不足 50 个字符

简短的单行用法只是少数

超过一千个字符的提示词不是对一首歌的描述，它本身就是那首歌的文本——主歌、副歌和桥段，由一个人写好并粘贴进去。数据显示，这个工具最常见的用法，是把一份成稿歌词交给它，让它完成编曲。词的著作权属于用户。

发现 2 — 结构是人亲手编排的

词存在之后，接下来的决定都是结构性的：副歌落在哪里、桥段在何时切入、曲子如何开头和收尾。数据显示，用户在明确地做出这些决定。

在这 650,000 条提示词中，出现最频繁的词汇不是情绪也不是流派，而是结构标记。chorus 出现超过 452,000 次，verse 超过 410,000 次，outro、bridge、pre-chorus 和 intro 也都排在前列。这是一首歌在被录制之前，被逐段勾画出来的标注。在已知界面模式的情况下，用户选择高级模式——对编曲拥有更精细的控制——的频率（约 46%）高于一键式的简单模式（约 38%）。在无指向的生成和受控的生成之间，样本倾向于控制。

一条 1,000 字符的提示词通常包含什么：一份完整歌词，逐段标注，并指明声音与乐器。示意图。

发现 3 — 声音与演唱由人指定

用户也会描述声音，而且描述得很具体。最常见的描述性词汇都与人声和器乐有关：vocal 出现超过 130,000 次，与之并列的还有 male、female、emotional、warm、soft、piano、guitar 和 bass。人声相关词汇与纯器乐曲目的请求量之比约为 17.6 比 1。

数据表明，选角和配器的决定是由用户做出的——温暖的男声、动人的钢琴旋律、明确的质感——工具执行的是这份说明，而非自行选择。

发现 4 — 长尾由场景驱动，而非批量产出

垃圾内容的说法暗示着匿名、高量的产出。歌曲类型的分布指向相反的方向。常规歌曲是活动的主体，但个人化的细节集中在长尾里：翻唱、说唱、生日歌、广告短歌、摇篮曲、为游戏角色写的歌、8-bit 曲目、节奏伴奏。每一首都对应着一个具体的人和一个具体的场合。

歌曲类型占全部生成的比例。常规歌曲占主导；而长尾——翻唱、说唱、生日歌、广告短歌——正是场景驱动、个人化创作集中的地方。

Source: 约 650,000 次 AI 音乐生成的跨平台聚合样本，2025 年末至 2026 年。

这一分布更符合个人为特定时刻创作歌曲的样子，而不像内容农场的批量产出。

发现 5 — 这是一项全球性的活动，用母语写就

约 93% 的提示词以拉丁字母语言写成，但这反映的是书写系统，而非音乐本身。在表层之下，这些会话聚成大约十个截然不同的音乐世界：英语流行；器乐和电影配乐；西班牙语抒情曲与圣歌；巴西的 sertanejo 与 funk；东南亚的 dangdut 与 koplo；东欧和巴尔干的歌曲。样本中包含用爪哇语写的婚礼歌、用西班牙语写的祷文，以及在一段主歌内于俄语、亚美尼亚语和英语之间来回切换的生日献礼。

语言与流派聚成大约十组；这里命名的六组属于其中较大的几组。示意图。

这一分布所符合的，是一种古老行为——为某个人写一首歌——只是跑在了一个新工具上，而非自动化的曲库填充。

增长：这项活动正在扩大

这项活动正在扩张。在考察的时间窗口内，每周生成量增长了 20 倍以上，而单季度内日生成量大约翻了三倍。

23×

每周生成量

约 18 个月内的增长

~3×

每日生成量

在单个季度内

以这样的速率持续增长，更符合重复使用，而非一次性的好奇尝试。数据表明，用户之所以回来，是因为工具承担了过去需要录音棚、乐队和预算才能完成的制作工作，而那些只有人才能提供的输入——词、意图、场合——仍然留在用户手中。

背景：同一种质疑，重复了六十年

「AI 音乐没有灵魂」，大体上就是过去六十年里每一件新音乐工具都收到过的评价，而此前的案例显示了这种质疑中哪一部分站得住脚。

每一件新工具问世时都收到了同样的判词；AI 音乐是当下这一例。

1968 年，Wendy Carlos 的 Switched-On Bach 既是热门也是丑闻：评论家说 Moog 合成器冰冷、不算真正的乐器，音乐家工会则警告它会让管弦乐团失业。它后来成了现代流行与电子音乐的奠基之作。Roland TR-808 鼓机在 1980 年招致了几乎相同的指控——没有灵魂、会取代鼓手——随后却成了嘻哈、浩室和流行乐的节奏根基，分量重到 Kanye West 以它命名了一张专辑 808s & Heartbreak。

记录也显示了评论家部分正确的地方。1980 年代，当嘻哈制作人开始采样他人的唱片时，「谁都能循环一段 break」是廉价的轻蔑，但其下的版权纠纷是真实存在的，相关诉讼重塑了这门手艺。新工具确实有时会造成可衡量的危害，而 AI 音乐的流媒体欺诈问题就是当下的一例。要点更窄：这些危害与「某首曲目由谁创作」这个问题是分开的。

Auto-Tune 这个案例最为清晰。Cher 的「Believe」在 1998 年让它声名大噪，T-Pain 让它无处不在；反弹随之而来——作弊、机器人嗓音、毫无感情——2009 年 Jay-Z 发布了 "D.O.A. (Death of Auto-Tune)"，宣告它已终结。它并没有。它分化成了两种同时存在的用法，一种是校正工具，一种是从 T-Pain 到 Bon Iver 再到 Kanye 一脉相承的有意为之的美学，而在这两种用法里，人始终是作者，工具执行的是意图。在这些案例中，关于机器有没有灵魂的质疑，始终与著作权的问题相分离，而后者取决于一个人是否在用这件工具表达点什么。

结论：数据对著作权说了什么

在创作端，证据明确无误。在数十万次会话中，是人写下歌词、勾画结构、指定演唱声音、选定这首歌为谁而作；工具完成的是编曲。在样本里，作者是人，AI 执行的是这份委托。

「AI 垃圾」这套说法是真实的，但它描述的是一群相对小众、在流媒体平台上钻空子的人——一个消费端的问题——而不是那群用这些工具创作音乐的人。对于后者，数据所描绘的是工具扮演的一个录音棚式的角色：它提供了过去需要录音棚、乐队和预算才能得到的制作，并把著作权留在人手中。这一区分，正是 Lacuna 背后的前提。