是誰真正在創作 AI 音樂 — 是寫歌的人,不是機器

我們分析了 AI 音樂領域中約 650,000 次 AI 音樂生成,時間橫跨 2025 年底至 2026 年,想回答一個「AI 垃圾」式標題刻意略過的問題:在創作端,當一個人坐下來使用 AI 音樂工具時,究竟是誰在創作這些音樂?數據的指向一致。人們帶來自己的歌詞,親手標記歌曲結構,指定特定的嗓音,並一次又一次回來繼續創作。一鍵生成、撒手不管的用法只佔了活動中的一小部分。在這份樣本裡,工具扮演的是錄音室的角色——演繹一首人們早已寫好的歌。
數據裡有三個數字界定了整體輪廓。
這份數據要檢驗的那套說法
關於 AI 音樂的公開數字,描述的是這個產業的另一面。2026 年 4 月,Deezer 報告指出,目前每天上傳到該平台的曲目中,約有 44% 是 AI 生成的——每天將近 75,000 首,而這些曲目所拉動的串流播放中,估計有 85% 屬於詐欺性播放。這些數字催生了那些關於垃圾洪流、機器人鑽版稅漏洞的標題。
Deezer 的數字衡量的是單一變數:什麼東西被上傳到了串流曲庫。這是一種消費端的衡量——產出落入曲庫,其中大量是被批次操作來收割版稅的。它並沒有衡量上游發生了什麼,也就是當一個人打開工具、做出某樣東西的那一刻。我們的數據衡量的正是第二個步驟。這兩者經常被混為一談,而正是這個區別,構成了整個問題的核心。
發現 1 — 是人提供了文字
如果歌真是工具寫的,提示詞會很短:一個曲風、一種情緒、一句「給我做點悲傷的東西」。在樣本裡,這屬於少數情況。約 41% 的提示詞長度超過 1,000 字元——這是佔比最大的一個區間——而少於 50 字元的單行提示詞只佔約 9%。
一條超過一千字元的提示詞,不是對一首歌的描述,而是一首歌的文本本身——由一個人寫好、貼進去的主歌、副歌與橋段。數據顯示,這項工具最常見的用法,是把一份完成的歌詞交給它,請它演繹編曲。文字的著作權,落在使用者身上。
發現 2 — 是人親手安排了結構
文字一旦成形,接下來的決定就屬於結構層面:副歌落在哪裡、橋段在何時切入、曲子如何開場與收尾。數據顯示,使用者是在明確地做出這些決定。
在這 650,000 條提示詞中出現最頻繁的詞,不是情緒或曲風,而是結構標記。chorus 出現超過 452,000 次,verse 超過 410,000 次,而 outro、bridge、pre-chorus 與 intro 也全都名列前茅。這是在錄製之前,把一首歌逐段標記、繪製出來的譜記。在能夠判斷介面模式的情況下,使用者選擇進階模式——對編曲有更細的掌控——的頻率(約 46%)高於一鍵式的簡易模式(約 38%)。當可以在「不加引導的生成」與「受控的生成」之間二選一時,樣本傾向於掌控。
發現 3 — 是人指定了聲音與嗓音
使用者也會描述聲音,而且描述得很具體。最常見的描述性詞彙都與嗓音和樂器配置有關:vocal 出現超過 130,000 次,同時還有 male、female、emotional、warm、soft、piano、guitar 與 bass。人聲相關詞彙的數量,約是純樂器曲目需求的 17.6 比 1。
數據顯示,這是由使用者做出的選角與樂器配置決定——一道溫暖的男聲、一段動人的鋼琴旋律、一種明確的質感——而工具負責執行這份規格,而不是替他們做選擇。
發現 4 — 這條長尾由場合驅動,而非批次產出
垃圾說法暗示的是匿名、高量的產出。但歌曲類型的分布指向相反的方向。一般歌曲構成了活動的主體,但個人化的細節,集中在長尾之中:翻唱、饒舌、生日歌、廣告歌、搖籃曲、為遊戲角色寫的歌、8-bit 曲目、節拍。每一首都對應到一個具體的人、一個具體的場合。
這樣的分布,更符合「個人為特定時刻做歌」的圖像,而不是「內容農場的批次產出」。
發現 5 — 這項活動橫跨全球,且以母語寫成
約 93% 的提示詞是用拉丁字母系統的語言寫成的,但這反映的是書寫系統,而非音樂本身。在這層之下,這些會話聚集成大約十個各自分明的音樂世界:英語流行樂;器樂與電影配樂;西語抒情曲與宗教歌曲;巴西的 sertanejo 與 funk;東南亞的 dangdut 與 koplo;東歐與巴爾幹的歌曲。樣本中還包括以爪哇語寫的婚禮歌、以西語寫的禱詞,以及在主歌中途於俄語、亞美尼亞語與英語之間切換的生日獻歌。
這樣的分布,符合一種古老的行為——為某個人做一首歌——只是換到了一個新工具上運作,而不是自動化的曲庫填充。
採用:這項活動正在成長
這項活動正在擴張。在所考察的時間窗內,每週生成量成長了超過 20 倍,而每日生成量在單一季度內大致翻了三倍。
以這種速度持續成長,符合的是重複使用,而非一次性的好奇。數據顯示,使用者一再回來,是因為這項工具接手了過去需要錄音室、樂隊與預算才能完成的製作工作,而那些只有人才能提供的輸入——文字、意圖、場合——仍然留在使用者手中。
脈絡:同一套質疑,已經六十年
「AI 音樂沒有靈魂」,這大致就是過去六十年裡每一項新音樂工具都收到過的評語,而前面這些案例顯示了這套質疑中,哪一部分站得住腳。
1968 年,Wendy Carlos 的 Switched-On Bach 既是熱門之作,也是一樁醜聞:樂評斥 Moog 合成器冰冷、不算真正的樂器,音樂家工會則警告它會讓管弦樂團失業。後來它成為現代流行樂與電子音樂的奠基之作。Roland TR-808 鼓機在 1980 年招來了幾乎一模一樣的指控——沒有靈魂、它會取代鼓手——隨後卻成為嘻哈、house 與流行樂的節奏基礎,分量之重,以至於 Kanye West 用它替一張專輯取名 808s & Heartbreak。
這份紀錄同時也顯示了樂評部分說對的地方。當嘻哈製作人在 1980 年代開始取樣他人的唱片時,「誰都能循環一段 break」是當時廉價的貶抑,但底下的著作權爭議是真實存在的,而那些官司也重塑了這門手藝。新工具確實有時會造成可被衡量的傷害,AI 音樂的串流詐欺問題就是當下的一例。重點在於更窄的地方:那些傷害,與「某一首曲子由誰創作」這個問題,是兩回事。
Auto-Tune 的案例最為清楚。Cher 的「Believe」在 1998 年讓它聲名大噪,T-Pain 則讓它無所不在;反彈隨之而來——作弊、機器人嗓音、毫無情感——而 2009 年 Jay-Z 推出 "D.O.A. (Death of Auto-Tune)",宣告它已經終結。事實並非如此。它分化成兩種同時存在的用途,一是校正工具,二是一種刻意為之的美學——從 T-Pain 一路延伸到 Bon Iver 再到 Kanye——而在這兩種用途裡,人都仍然是作者,工具只是執行意圖。在這些案例中,關於機器靈魂的質疑,始終與著作權的問題分開,而著作權取決於:一個人是否正用這項工具來表達某種東西。
結論:數據對著作權說了什麼
在創作端,證據毫不含糊。在數十萬次的會話中,人寫下歌詞、繪製結構、為歌曲選角嗓音、選定這首歌要獻給的場合;工具負責演繹編曲。在樣本裡,作者是人,AI 執行的是這份簡報。
「AI 垃圾」這套說法是真實存在的,但它描述的是一群相對小眾、在鑽串流平台漏洞的人——這是一個消費端的問題——而不是那群用這些工具創作音樂的人。對後者而言,數據描繪出工具一種錄音室式的角色:它提供了過去需要錄音室、樂隊與預算才能完成的製作,並把著作權留給人。這個區別,正是 Lacuna 背後的前提。