返回博客列表

究竟是谁在创作 AI 音乐 — 是词曲作者,不是机器

Lacuna.fm Research Team
究竟是谁在创作 AI 音乐 — 是词曲作者,不是机器

我们分析了 AI 音乐领域内约 650,000 次 AI 音乐生成,时间跨度从 2025 年末延伸到 2026 年,目的是回答「AI 垃圾」类标题始终回避的一个问题:在创作端,当一个人坐下来使用 AI 音乐工具时,究竟是谁在创作这段音乐?数据给出的答案高度一致。人们带来自己的歌词,亲手标注歌曲结构,指定具体的演唱声音,然后会再回来做一次。一键生成、然后撒手不管的用法只占活动中的一小部分。在样本里,工具扮演的角色是一间录音棚,演绎一个人早已写好的歌。

数据中的三个数字界定了这次分析的范围。

~41%
的提示词超过 1,000 个字符
大致相当于一整张歌词稿的长度
452,000+
所有提示词中出现 "chorus" 的次数
结构被逐段标注出来
~17.6×
人声词汇是器乐词汇的多少倍
声音与演唱者由用户指定

数据要检验的那套说法

关于 AI 音乐的那个公开数字,描述的是这个行业的另一面。2026 年 4 月,Deezer 报告称,如今每天上传到其平台的曲目中约有 44% 是 AI 生成的——接近每天 75,000 首——而这些曲目所产生的播放量中,估计有 85% 是欺诈性的。正是这些数字催生了那些关于垃圾内容泛滥、机器人套取版税池的标题。

Deezer 的这个数字衡量的是单一变量:什么东西被上传到了流媒体曲库。这是一项消费端的测量——产出物落进音乐库,其中很大一部分被大规模投放以收割版税。它衡量的不是上游发生的事,也就是当一个个人打开工具、做出点东西的那一步。我们的数据集衡量的正是第二步。这两件事经常被混为一谈,而这一区分就是整个问题的关键。

创作端本次分析衡量的对象[Verse][Chorus][Bridge]~650,000 次创作会话消费端Deezer 数字衡量的对象曲库~75,000 次/天 AI 上传 → 一座曲库
两个数字衡量的是不同的东西:一个人创作了什么,以及什么东西最终进入了流媒体曲库。
是两项测量,不是一项
Deezer 的 44% 衡量的是什么东西进入了流媒体服务——消费端。约 650,000 次生成的数据集衡量的是人们用工具做出了什么——创作端。两者是不同的测量。

发现 1 — 词是人提供的

如果是工具在写歌,提示词应该很短:一个流派、一种情绪、一句「给我做点伤感的」。在样本里,这恰恰是少数情况。所有提示词中约有 41% 超过 1,000 个字符——这是占比最大的一档——而 50 字符以内的单行提示词只占约 9%。

~41%
的提示词超过 1,000 个字符
占比最大的一档——一整套主歌、副歌与桥段
~9%
的提示词不足 50 个字符
简短的单行用法只是少数

超过一千个字符的提示词不是对一首歌的描述,它本身就是那首歌的文本——主歌、副歌和桥段,由一个人写好并粘贴进去。数据显示,这个工具最常见的用法,是把一份成稿歌词交给它,让它完成编曲。词的著作权属于用户。

发现 2 — 结构是人亲手编排的

词存在之后,接下来的决定都是结构性的:副歌落在哪里、桥段在何时切入、曲子如何开头和收尾。数据显示,用户在明确地做出这些决定。

在这 650,000 条提示词中,出现最频繁的词汇不是情绪也不是流派,而是结构标记。chorus 出现超过 452,000 次,verse 超过 410,000 次outrobridgepre-chorusintro 也都排在前列。这是一首歌在被录制之前,被逐段勾画出来的标注。在已知界面模式的情况下,用户选择高级模式——对编曲拥有更精细的控制——的频率(约 46%)高于一键式的简单模式(约 38%)。在无指向的生成和受控的生成之间,样本倾向于控制。

一条超过 1,000 字符的提示词是标注好的编曲,而非一行简述[Intro][Verse][Pre-Chorus][Chorus][Bridge][Outro]开场叙事段推向钩子钩子转折收尾同时还指定了声音 — 温暖的男声乐器 — 钢琴、吉他质感 — 动人、温暖
一条 1,000 字符的提示词通常包含什么:一份完整歌词,逐段标注,并指明声音与乐器。示意图。

发现 3 — 声音与演唱由人指定

用户也会描述声音,而且描述得很具体。最常见的描述性词汇都与人声和器乐有关:vocal 出现超过 130,000 次,与之并列的还有 malefemaleemotionalwarmsoftpianoguitarbass。人声相关词汇与纯器乐曲目的请求量之比约为 17.6 比 1

数据表明,选角和配器的决定是由用户做出的——温暖的男声、动人的钢琴旋律、明确的质感——工具执行的是这份说明,而非自行选择。

发现 4 — 长尾由场景驱动,而非批量产出

垃圾内容的说法暗示着匿名、高量的产出。歌曲类型的分布指向相反的方向。常规歌曲是活动的主体,但个人化的细节集中在长尾里:翻唱、说唱、生日歌、广告短歌、摇篮曲、为游戏角色写的歌、8-bit 曲目、节奏伴奏。每一首都对应着一个具体的人和一个具体的场合。

歌曲类型占全部生成的比例。常规歌曲占主导;而长尾——翻唱、说唱、生日歌、广告短歌——正是场景驱动、个人化创作集中的地方。
Source: 约 650,000 次 AI 音乐生成的跨平台聚合样本,2025 年末至 2026 年。

这一分布更符合个人为特定时刻创作歌曲的样子,而不像内容农场的批量产出。

发现 5 — 这是一项全球性的活动,用母语写就

约 93% 的提示词以拉丁字母语言写成,但这反映的是书写系统,而非音乐本身。在表层之下,这些会话聚成大约十个截然不同的音乐世界:英语流行;器乐和电影配乐;西班牙语抒情曲与圣歌;巴西的 sertanejofunk;东南亚的 dangdutkoplo;东欧和巴尔干的歌曲。样本中包含用爪哇语写的婚礼歌、用西班牙语写的祷文,以及在一段主歌内于俄语、亚美尼亚语和英语之间来回切换的生日献礼。

约十个母语世界,一个工具英语流行器乐 / 电影西语抒情巴西 funkDangdut / koplo巴尔干 / 东欧以及更多
语言与流派聚成大约十组;这里命名的六组属于其中较大的几组。示意图。

这一分布所符合的,是一种古老行为——为某个人写一首歌——只是跑在了一个新工具上,而非自动化的曲库填充。

增长:这项活动正在扩大

这项活动正在扩张。在考察的时间窗口内,每周生成量增长了 20 倍以上,而单季度内日生成量大约翻了三倍。

23×
每周生成量
约 18 个月内的增长
~3×
每日生成量
在单个季度内

以这样的速率持续增长,更符合重复使用,而非一次性的好奇尝试。数据表明,用户之所以回来,是因为工具承担了过去需要录音棚、乐队和预算才能完成的制作工作,而那些只有人才能提供的输入——词、意图、场合——仍然留在用户手中。

背景:同一种质疑,重复了六十年

「AI 音乐没有灵魂」,大体上就是过去六十年里每一件新音乐工具都收到过的评价,而此前的案例显示了这种质疑中哪一部分站得住脚。

同一种质疑,重复了六十年「没有灵魂」Moog 合成器1968「没有灵魂」TR-8081980「谁都能循环采样」采样1980s「机器人嗓音」Auto-Tune1998「没有灵魂」AI 音乐2020s
每一件新工具问世时都收到了同样的判词;AI 音乐是当下这一例。

1968 年,Wendy Carlos 的 Switched-On Bach 既是热门也是丑闻:评论家说 Moog 合成器冰冷、不算真正的乐器,音乐家工会则警告它会让管弦乐团失业。它后来成了现代流行与电子音乐的奠基之作。Roland TR-808 鼓机在 1980 年招致了几乎相同的指控——没有灵魂、会取代鼓手——随后却成了嘻哈、浩室和流行乐的节奏根基,分量重到 Kanye West 以它命名了一张专辑 808s & Heartbreak

记录也显示了评论家部分正确的地方。1980 年代,当嘻哈制作人开始采样他人的唱片时,「谁都能循环一段 break」是廉价的轻蔑,但其下的版权纠纷是真实存在的,相关诉讼重塑了这门手艺。新工具确实有时会造成可衡量的危害,而 AI 音乐的流媒体欺诈问题就是当下的一例。要点更窄:这些危害与「某首曲目由谁创作」这个问题是分开的。

Auto-Tune 这个案例最为清晰。Cher 的「Believe」在 1998 年让它声名大噪,T-Pain 让它无处不在;反弹随之而来——作弊、机器人嗓音、毫无感情——2009 年 Jay-Z 发布了 "D.O.A. (Death of Auto-Tune)",宣告它已终结。它并没有。它分化成了两种同时存在的用法,一种是校正工具,一种是从 T-Pain 到 Bon Iver 再到 Kanye 一脉相承的有意为之的美学,而在这两种用法里,人始终是作者,工具执行的是意图。在这些案例中,关于机器有没有灵魂的质疑,始终与著作权的问题相分离,而后者取决于一个人是否在用这件工具表达点什么。

结论:数据对著作权说了什么

在创作端,证据明确无误。在数十万次会话中,是人写下歌词、勾画结构、指定演唱声音、选定这首歌为谁而作;工具完成的是编曲。在样本里,作者是人,AI 执行的是这份委托。

「AI 垃圾」这套说法是真实的,但它描述的是一群相对小众、在流媒体平台上钻空子的人——一个消费端的问题——而不是那群用这些工具创作音乐的人。对于后者,数据所描绘的是工具扮演的一个录音棚式的角色:它提供了过去需要录音棚、乐队和预算才能得到的制作,并把著作权留在人手中。这一区分,正是 Lacuna 背后的前提。