是誰真正在創作 AI 音樂 — 是寫歌的人，不是機器

我們分析了 AI 音樂領域中約 650,000 次 AI 音樂生成，時間橫跨 2025 年底至 2026 年，想回答一個「AI 垃圾」式標題刻意略過的問題：在創作端，當一個人坐下來使用 AI 音樂工具時，究竟是誰在創作這些音樂？數據的指向一致。人們帶來自己的歌詞，親手標記歌曲結構，指定特定的嗓音，並一次又一次回來繼續創作。一鍵生成、撒手不管的用法只佔了活動中的一小部分。在這份樣本裡，工具扮演的是錄音室的角色——演繹一首人們早已寫好的歌。

數據裡有三個數字界定了整體輪廓。

~41%

的提示詞超過 1,000 字元

差不多是一整張歌詞紙的長度

452,000+

提示詞中出現「chorus」的次數

結構被逐段標記出來

~17.6×

人聲相關詞彙是樂器詞彙的倍數

嗓音與演唱者由使用者指定

這份數據要檢驗的那套說法

關於 AI 音樂的公開數字，描述的是這個產業的另一面。2026 年 4 月，Deezer 報告指出，目前每天上傳到該平台的曲目中，約有 44% 是 AI 生成的——每天將近 75,000 首，而這些曲目所拉動的串流播放中，估計有 85% 屬於詐欺性播放。這些數字催生了那些關於垃圾洪流、機器人鑽版稅漏洞的標題。

Deezer 的數字衡量的是單一變數：什麼東西被上傳到了串流曲庫。這是一種消費端的衡量——產出落入曲庫，其中大量是被批次操作來收割版稅的。它並沒有衡量上游發生了什麼，也就是當一個人打開工具、做出某樣東西的那一刻。我們的數據衡量的正是第二個步驟。這兩者經常被混為一談，而正是這個區別，構成了整個問題的核心。

這兩個數字衡量的是不同的東西：一個人創作出什麼，以及什麼最終進到了串流曲庫。

是兩種衡量，不是一種

Deezer 的 44% 衡量的是進到串流服務的東西——消費端。約 650,000 次生成的數據衡量的是人們用工具做出的東西——創作端。這是兩種截然不同的衡量。

發現 1 — 是人提供了文字

如果歌真是工具寫的，提示詞會很短：一個曲風、一種情緒、一句「給我做點悲傷的東西」。在樣本裡，這屬於少數情況。約 41% 的提示詞長度超過 1,000 字元——這是佔比最大的一個區間——而少於 50 字元的單行提示詞只佔約 9%。

~41%

的提示詞超過 1,000 字元

佔比最大的區間——完整的主歌、副歌與橋段

~9%

的提示詞少於 50 字元

簡短的單行情況只是少數

一條超過一千字元的提示詞，不是對一首歌的描述，而是一首歌的文本本身——由一個人寫好、貼進去的主歌、副歌與橋段。數據顯示，這項工具最常見的用法，是把一份完成的歌詞交給它，請它演繹編曲。文字的著作權，落在使用者身上。

發現 2 — 是人親手安排了結構

文字一旦成形，接下來的決定就屬於結構層面：副歌落在哪裡、橋段在何時切入、曲子如何開場與收尾。數據顯示，使用者是在明確地做出這些決定。

在這 650,000 條提示詞中出現最頻繁的詞，不是情緒或曲風，而是結構標記。chorus 出現超過 452,000 次，verse 超過 410,000 次，而 outro、bridge、pre-chorus 與 intro 也全都名列前茅。這是在錄製之前，把一首歌逐段標記、繪製出來的譜記。在能夠判斷介面模式的情況下，使用者選擇進階模式——對編曲有更細的掌控——的頻率（約 46%）高於一鍵式的簡易模式（約 38%）。當可以在「不加引導的生成」與「受控的生成」之間二選一時，樣本傾向於掌控。

一條 1,000 字元的提示詞通常包含什麼：一份完整歌詞，逐段標記，並指明嗓音與樂器。示意圖。

發現 3 — 是人指定了聲音與嗓音

使用者也會描述聲音，而且描述得很具體。最常見的描述性詞彙都與嗓音和樂器配置有關：vocal 出現超過 130,000 次，同時還有 male、female、emotional、warm、soft、piano、guitar 與 bass。人聲相關詞彙的數量，約是純樂器曲目需求的 17.6 比 1。

數據顯示，這是由使用者做出的選角與樂器配置決定——一道溫暖的男聲、一段動人的鋼琴旋律、一種明確的質感——而工具負責執行這份規格，而不是替他們做選擇。

發現 4 — 這條長尾由場合驅動，而非批次產出

垃圾說法暗示的是匿名、高量的產出。但歌曲類型的分布指向相反的方向。一般歌曲構成了活動的主體，但個人化的細節，集中在長尾之中：翻唱、饒舌、生日歌、廣告歌、搖籃曲、為遊戲角色寫的歌、8-bit 曲目、節拍。每一首都對應到一個具體的人、一個具體的場合。

各歌曲類型佔所有生成的比例。一般歌曲佔絕大多數；長尾——翻唱、饒舌、生日歌、廣告歌——才是場合驅動、個人化創作集中的地方。

Source: 跨平台彙整樣本，約 650,000 次 AI 音樂生成，2025 年底至 2026 年。

這樣的分布，更符合「個人為特定時刻做歌」的圖像，而不是「內容農場的批次產出」。

發現 5 — 這項活動橫跨全球，且以母語寫成

約 93% 的提示詞是用拉丁字母系統的語言寫成的，但這反映的是書寫系統，而非音樂本身。在這層之下，這些會話聚集成大約十個各自分明的音樂世界：英語流行樂；器樂與電影配樂；西語抒情曲與宗教歌曲；巴西的 sertanejo 與 funk；東南亞的 dangdut 與 koplo；東歐與巴爾幹的歌曲。樣本中還包括以爪哇語寫的婚禮歌、以西語寫的禱詞，以及在主歌中途於俄語、亞美尼亞語與英語之間切換的生日獻歌。

語言與曲風聚集成大約十個群組；這裡標出的六個屬於規模最大的幾個。示意圖。

這樣的分布，符合一種古老的行為——為某個人做一首歌——只是換到了一個新工具上運作，而不是自動化的曲庫填充。

採用：這項活動正在成長

這項活動正在擴張。在所考察的時間窗內，每週生成量成長了超過 20 倍，而每日生成量在單一季度內大致翻了三倍。

23×

每週生成量

約 18 個月內的成長

~3×

每日生成量

在單一季度之內

以這種速度持續成長，符合的是重複使用，而非一次性的好奇。數據顯示，使用者一再回來，是因為這項工具接手了過去需要錄音室、樂隊與預算才能完成的製作工作，而那些只有人才能提供的輸入——文字、意圖、場合——仍然留在使用者手中。

脈絡：同一套質疑，已經六十年

「AI 音樂沒有靈魂」，這大致就是過去六十年裡每一項新音樂工具都收到過的評語，而前面這些案例顯示了這套質疑中，哪一部分站得住腳。

每一項新工具在問世時都收到了同樣的論斷；AI 音樂是當下的這一例。

1968 年，Wendy Carlos 的 Switched-On Bach 既是熱門之作，也是一樁醜聞：樂評斥 Moog 合成器冰冷、不算真正的樂器，音樂家工會則警告它會讓管弦樂團失業。後來它成為現代流行樂與電子音樂的奠基之作。Roland TR-808 鼓機在 1980 年招來了幾乎一模一樣的指控——沒有靈魂、它會取代鼓手——隨後卻成為嘻哈、house 與流行樂的節奏基礎，分量之重，以至於 Kanye West 用它替一張專輯取名 808s & Heartbreak。

這份紀錄同時也顯示了樂評部分說對的地方。當嘻哈製作人在 1980 年代開始取樣他人的唱片時，「誰都能循環一段 break」是當時廉價的貶抑，但底下的著作權爭議是真實存在的，而那些官司也重塑了這門手藝。新工具確實有時會造成可被衡量的傷害，AI 音樂的串流詐欺問題就是當下的一例。重點在於更窄的地方：那些傷害，與「某一首曲子由誰創作」這個問題，是兩回事。

Auto-Tune 的案例最為清楚。Cher 的「Believe」在 1998 年讓它聲名大噪，T-Pain 則讓它無所不在；反彈隨之而來——作弊、機器人嗓音、毫無情感——而 2009 年 Jay-Z 推出 "D.O.A. (Death of Auto-Tune)"，宣告它已經終結。事實並非如此。它分化成兩種同時存在的用途，一是校正工具，二是一種刻意為之的美學——從 T-Pain 一路延伸到 Bon Iver 再到 Kanye——而在這兩種用途裡，人都仍然是作者，工具只是執行意圖。在這些案例中，關於機器靈魂的質疑，始終與著作權的問題分開，而著作權取決於：一個人是否正用這項工具來表達某種東西。

結論：數據對著作權說了什麼

在創作端，證據毫不含糊。在數十萬次的會話中，人寫下歌詞、繪製結構、為歌曲選角嗓音、選定這首歌要獻給的場合；工具負責演繹編曲。在樣本裡，作者是人，AI 執行的是這份簡報。

「AI 垃圾」這套說法是真實存在的，但它描述的是一群相對小眾、在鑽串流平台漏洞的人——這是一個消費端的問題——而不是那群用這些工具創作音樂的人。對後者而言，數據描繪出工具一種錄音室式的角色：它提供了過去需要錄音室、樂隊與預算才能完成的製作，並把著作權留給人。這個區別，正是 Lacuna 背後的前提。