AI 作曲を本当に担っているのは誰か — 機械ではなく、書き手

私たちは、AI 音楽の領域全体から集めたおよそ 650,000 件の AI 音楽生成を、2025 年後半から 2026 年にかけての期間にわたって分析しました。狙いは、「AI スロップ」という見出しが飛ばしている一つの問いに答えることです。すなわち、創作の側で、人が AI 音楽ツールに向き合うとき、実際に音楽を著しているのは誰なのか。データは一貫しています。人は自分の歌詞を持ち込み、曲の構成を手で書き込み、特定の声をキャスティングし、また戻ってきて同じことを繰り返します。ワンクリックで放置するような生成は、活動全体のごく一部にすぎません。このサンプルでは、ツールは、人がすでに書き上げた曲を演奏するスタジオの役割を担っています。

データセットから三つの数字が、その範囲を示しています。

~41%

のプロンプトが 1,000 文字を超える

ほぼ歌詞用紙一枚分の長さ

452,000+

プロンプト全体に現れた "chorus" の回数

セクションごとに書き込まれた構成

~17.6×

楽器を表す語よりもボーカルを表す語が多い

声と歌い手はユーザーが指定

データが照合する物語

AI 音楽について公に語られる数字は、この業界の別の側面を描いています。2026 年 4 月、Deezer の報告によれば、同プラットフォームに毎日アップロードされる楽曲の約 44% が、いまや AI 生成のもの — 1 日あたり 75,000 件近く であり、しかも推定 85% は、それらの楽曲が稼ぐストリームが不正だとされています。これらの数字が、スロップの氾濫とボットによる印税プールの操作という見出しを生みました。

Deezer の数字が測っているのは一つの変数、すなわちストリーミングのカタログに何がアップロードされるか、です。これは消費側の測定であり — ライブラリに着地するアウトプットであって、その多くは印税を刈り取るために大規模に流し込まれています。それは上流で起きること、つまり一人の個人がツールを開いて何かを作るときの動きを測ってはいません。私たちのデータセットは、その二番目のステップを測っています。この二つはしばしば混同されますが、その区別こそが問いのすべてです。

この二つの数字は別のものを測っています。人が著すものと、ストリーミングのカタログに届くもの。

測定は一つではなく、二つ

Deezer の 44% は、ストリーミングサービスに届くもの — 消費の側 — を測っています。~650,000 件の生成データセットは、人がツールで作るもの — 創作の側 — を測っています。この二つは別個の測定です。

発見 1 — 言葉を用意するのは人である

もしツールが曲を書いているのなら、プロンプトは短いはずです。ジャンル、ムード、「何か悲しいものを作って」といった程度の。サンプルでは、それは少数派です。全プロンプトのおよそ 41% が 1,000 文字を超え — これが最大の区分 — 一方で 50 文字未満の一行プロンプトは約 9% にとどまります。

~41%

のプロンプトが 1,000 文字を超える

最大の区分 — ヴァース、コーラス、ブリッジが一式そろっている

~9%

のプロンプトが 50 文字未満

短い一行のケースは少数派

1,000 文字を超えるプロンプトは、曲の説明ではありません。それは曲そのもののテキスト — 人が書いて貼り付けた、ヴァース、コーラス、ブリッジです。データが示すのは、このツールの最も一般的な使い方が、完成した歌詞を手渡してアレンジの演奏を頼むことだということです。言葉の著作権はユーザーにあります。

発見 2 — 構成を手で組み立てるのは人である

言葉ができあがると、次の判断は構成にかかわるものになります。コーラスをどこに置くか、ブリッジをいつ入れるか、曲をどう始めてどう終えるか。データは、ユーザーがこれらの判断を明示的に下していることを示しています。

650,000 件のプロンプト全体で最も頻出する語は、ムードやジャンルではなく構成タグです。chorus は 452,000 回を超えて現れ、verse は 410,000 回を超えます。outro、bridge、pre-chorus、intro もいずれも上位に並びます。これは、録音される前にセクションごとに譜面化されていく曲のマークアップです。インターフェースのモードが分かっているケースでは、ユーザーはアレンジをより細かく制御できる上級モードを（約 46%）、ワンタップの簡易モード（約 38%）よりも頻繁に選んでいます。方向づけのない生成と、制御された生成のどちらかを選べるとき、サンプルは制御の側に傾いています。

1,000 文字のプロンプトが通常含むもの。一式の歌詞が、セクションごとに書き込まれ、声と楽器が名指しされている。イラスト。

発見 3 — 音と声を指定するのは人である

ユーザーは音についても語り、しかも具体的です。最も多い説明的な語は、声と楽器編成にかかわるものです。vocal は 130,000 回を超えて現れ、male、female、emotional、warm、soft、piano、guitar、bass がそれに続きます。ボーカルにかかわる語は、純粋にインストゥルメンタルな楽曲を求める要求を、およそ 17.6 対 1 で上回ります。

データが示すのは、ユーザーによって下されるキャスティングと楽器編成の判断です — 温かみのある男性ボーカル、エモーショナルなピアノの旋律、定まった雰囲気 — そしてツールは、それを選ぶのではなく、その指定を実行します。

発見 4 — ロングテールはバッチ出力ではなく、場面に駆動される

スロップという物語は、匿名で大量のアウトプットを暗示します。曲種の分布は、逆を指しています。通常の曲が活動の大部分を占めますが、個人的なディテールが集中するのはロングテールです。カバー、ラップ、誕生日の歌、ジングル、子守唄、ゲームのキャラクターのための歌、8 ビットの楽曲、ビート。そのいずれもが、特定の人物と特定の場面に対応しています。

全生成に占める曲種の割合。通常の曲が支配的だが、ロングテール — カバー、ラップ、誕生日の歌、ジングル — こそ、場面に駆動された個人的な創作が集中する場所である。

Source: ~650,000 件の AI 音楽生成を横断的に集計したクロスプラットフォームのサンプル、2025 年後半〜2026 年。

この分布は、コンテンツファームのバッチ出力よりも、特定の瞬間のために曲を作る個人と整合します。

発見 5 — 活動は地球規模で、母語で書かれている

プロンプトの約 93% はラテン文字の言語で書かれていますが、それは表記体系を反映したものであって、音楽そのものではありません。その下では、セッションはおよそ十の異なる音楽の世界に集約されます。英語のポップ、インストゥルメンタルとシネマティックなスコア、スペイン語のバラードと祈りの歌、ブラジルの sertanejo と funk、東南アジアの dangdut と koplo、東欧とバルカンの歌。サンプルには、Javanese の結婚式の歌、スペイン語の祈り、そしてヴァースの途中で Russian、Armenian、English を行き来する誕生日の捧げ歌が含まれています。

言語とジャンルはおよそ十のグループに集約され、ここに挙げた六つはそのうち大きいものに含まれる。イラスト。

この分布は、自動的なカタログ埋めよりも、古くからある行為 — 誰かのために曲を作る — が新しいツールの上で動いていることと整合します。

普及：活動は伸びている

活動は拡大しています。調査した期間を通じて、週ごとの生成量は 20 倍以上に増え、日ごとの量は一四半期のうちにおよそ三倍になりました。

23×

週ごとの生成量

およそ 18 か月での伸び

~3×

日ごとの量

一四半期のうちに

その速度での持続的な成長は、一度きりの好奇心ではなく、繰り返しの利用と整合します。データが示すのは、かつてスタジオとバンドと予算を必要とした制作の作業をツールが引き受ける一方で、人だけが供給できる入力 — 言葉、意図、場面 — はユーザーの手に残るため、ユーザーが戻ってきている、ということです。

文脈：六十年にわたる同じ異議

「AI 音楽には魂がない」は、新しい音楽ツールが六十年にわたって受けてきた批評とほぼ同じであり、過去の事例は、その異議のどの部分が成り立つかを示しています。

どの新しいツールも登場時に同じ評決を下された。AI 音楽はその現在の事例である。

1968 年、Wendy Carlos の Switched-On Bach はヒットであると同時にスキャンダルでもありました。批評家は Moog シンセサイザーを冷たく、本物の楽器ではないと評し、ミュージシャンの組合はそれがオーケストラの職を奪うと警告しました。それは現代のポップとエレクトロニック・ミュージックの礎となりました。Roland TR-808 ドラムマシンも 1980 年にほぼ同じ非難を浴びました — 魂がない、ドラマーに取って代わる — が、その後ヒップホップ、ハウス、ポップのリズムの基盤となり、Kanye West がそれにちなんでアルバムを 808s & Heartbreak と題したほどの存在になりました。

記録はまた、批評家が部分的に正しかった点も示しています。1980 年代にヒップホップのプロデューサーが他人のレコードをサンプリングし始めたとき、「ブレイクをループするだけなら誰でもできる」というのが安直な切り捨てでしたが、その下にあった著作権の争いは現実のもので、訴訟はこの技芸の形を変えました。新しいツールは、ときに測定可能な害をもたらすことがあり、AI 音楽のストリーミング詐欺の問題はその現在の事例です。ここで関係する論点はもっと狭いものです。すなわち、それらの害は、ある楽曲を誰が著したのかという問いとは別物だということです。

Auto-Tune の事例が最も明快です。Cher の "Believe" が 1998 年にそれを有名にし、T-Pain がそれを至るところに広めました。そして反発が続きました — ごまかしだ、ロボット声だ、感情がない — 2009 年には Jay-Z が "D.O.A. (Death of Auto-Tune)" を発表し、それが終わったと宣言しました。終わってはいませんでした。それは二つの同時並行する使い方に分かれました。一つは補正のツールとして、もう一つは T-Pain から Bon Iver、Kanye へと連なる意図的な美学として。そのどちらでも、人は著者であり続け、ツールはその意図を実行しました。これらの事例を通じて、機械の魂についての異議は、著作の問いとは別物であり、その問いは、人がそのツールを使って何かを言おうとしていたかどうかにかかっていました。

結論：データが著作について語ること

創作の側では、証拠は明白です。何十万ものセッションを通じて、人は歌詞を書き、構成を組み立て、声をキャスティングし、その曲が誰のためのどんな場面のためのものかを選びます。ツールはアレンジを演奏します。サンプルにおいて、著者は人であり、AI はその依頼を実行します。

「AI スロップ」という説明は現実のものですが、それが描いているのは、ストリーミングプラットフォームを操作する比較的小さな集団 — 消費側の問題 — であって、これらのツールで音楽を作る集団ではありません。その集団にとって、データはツールにスタジオの形をした役割があることを描いています。すなわち、かつてスタジオとバンドと予算を必要とした制作を供給し、著作は人の手に残す、という役割です。その区別こそが、Lacuna の前提にある考えです。