Quién hace de verdad la música con IA — El compositor, no la máquina

Analizamos cerca de 650,000 generaciones de música con IA de todo el ecosistema, abarcando desde finales de 2025 hasta 2026, para responder una pregunta que los titulares sobre la "basura de IA" pasan por alto: del lado de la creación, cuando una persona se sienta con una herramienta de música con IA, ¿quién compone realmente la música? Los datos son consistentes. Las personas traen su propia letra, marcan a mano la estructura de la canción, eligen voces concretas y vuelven a hacerlo otra vez. La generación de un clic, sin intervención, representa una porción pequeña de la actividad. En la muestra, la herramienta cumple el papel de un estudio que interpreta una canción que la persona ya ha escrito.

Tres cifras del conjunto de datos definen el alcance.

~41%

de los prompts superan los 1,000 caracteres

aproximadamente la extensión de una hoja de letra completa

452,000+

apariciones de "chorus" entre los prompts

estructura marcada sección por sección

~17.6×

más palabras vocales que instrumentales

voz e intérpretes especificados por el usuario

La narrativa que los datos ponen a prueba

La cifra pública sobre la música con IA describe otra cara de la industria. En abril de 2026, Deezer informó que alrededor del 44% de las pistas que se suben a su plataforma cada día son ya generadas por IA — casi 75,000 al día — y que un 85% estimado de las reproducciones que consiguen esas pistas son fraudulentas. Esas cifras generaron los titulares sobre una avalancha de basura y bots que manipulan el reparto de regalías.

La cifra de Deezer mide una sola variable: lo que se sube a un catálogo de streaming. Es una medición del lado del consumo — producción que aterriza en una biblioteca, buena parte enrutada a gran escala para cosechar regalías. No mide lo que ocurre antes, cuando una persona abre una herramienta y crea algo. Nuestro conjunto de datos mide ese segundo paso. Ambas cosas se confunden con frecuencia, y esa distinción es justamente la pregunta de fondo.

Las dos cifras miden cosas distintas: lo que una persona compone y lo que llega a un catálogo de streaming.

Dos mediciones, no una

El 44% de Deezer mide lo que llega a un servicio de streaming — el lado del consumo. El conjunto de ~650,000 generaciones mide lo que las personas crean con una herramienta — el lado de la creación. Son dos mediciones distintas.

Hallazgo 1 — las personas aportan las palabras

Si la herramienta escribiera las canciones, los prompts serían cortos: un género, un estado de ánimo, un "hazme algo triste". En la muestra, ese es el caso minoritario. Cerca del 41% de todos los prompts superan los 1,000 caracteres — el grupo más numeroso — mientras que los prompts de una sola línea por debajo de los 50 caracteres representan alrededor del 9%.

~41%

de los prompts superan los 1,000 caracteres

el grupo más numeroso — un conjunto completo de versos, estribillo y puente

~9%

de los prompts están por debajo de los 50 caracteres

el caso corto de una línea es minoritario

Un prompt de más de mil caracteres no es la descripción de una canción; es el texto de una — versos, estribillo y puente que una persona escribió y pegó. Los datos muestran que el uso más común de la herramienta es entregarle una letra terminada y pedirle que interprete el arreglo. La autoría de las palabras recae en el usuario.

Hallazgo 2 — las personas organizan la estructura a mano

Una vez que las palabras existen, las siguientes decisiones son estructurales: dónde cae el estribillo, cuándo irrumpe el puente, cómo abre y cierra la pista. Los datos muestran a los usuarios tomando esas decisiones de forma explícita.

Los términos más frecuentes en los 650,000 prompts no son estados de ánimo ni géneros, sino etiquetas estructurales. chorus aparece más de 452,000 veces y verse más de 410,000, con outro, bridge, pre-chorus e intro todos en lo más alto del ranking. Es el marcado de una canción que se traza sección por sección antes de grabarse. Allí donde se conoce el modo de interfaz, los usuarios eligen el modo avanzado — un control más fino sobre el arreglo — con más frecuencia (alrededor del 46%) que el modo simple de un toque (alrededor del 38%). Ante la elección entre una generación sin dirección y una controlada, la muestra se inclina por el control.

Lo que suele contener un prompt de 1,000 caracteres: una letra completa, marcada sección por sección, con la voz y los instrumentos nombrados. Ilustración.

Hallazgo 3 — las personas especifican el sonido y la voz

Los usuarios también describen el sonido, y son precisos. Las palabras descriptivas más comunes tienen que ver con la voz y la instrumentación: vocal aparece más de 130,000 veces, junto a male, female, emotional, warm, soft, piano, guitar y bass. Los términos vocales superan a las peticiones de pistas puramente instrumentales en una proporción aproximada de 17.6 a 1.

Los datos apuntan a una decisión de casting e instrumentación tomada por el usuario — una voz masculina cálida, una línea de piano emotiva, una sensación definida — con la herramienta ejecutando la especificación en lugar de elegirla.

Hallazgo 4 — la larga cola responde a ocasiones, no a producción en lote

La narrativa de la basura sugiere una producción anónima y de alto volumen. La distribución de tipos de canción apunta en sentido contrario. Las canciones corrientes son el grueso de la actividad, pero la larga cola es donde se concentra el detalle personal: versiones, raps, canciones de cumpleaños, jingles, nanas, canciones para personajes de videojuegos, pistas de 8 bits, beats. Cada una corresponde a una persona concreta y a una ocasión concreta.

Tipo de canción como porcentaje de todas las generaciones. Las canciones corrientes dominan; la larga cola — versiones, raps, canciones de cumpleaños, jingles — es donde se concentra la creación personal impulsada por ocasiones.

Source: Muestra agregada multiplataforma de ~650,000 generaciones de música con IA, finales de 2025–2026.

La distribución encaja mejor con individuos creando canciones para momentos particulares que con la producción en lote de una granja de contenido.

Hallazgo 5 — la actividad es global y se escribe en lenguas maternas

Cerca del 93% de los prompts se escriben en idiomas de alfabeto latino, pero eso refleja el sistema de escritura, no la música. Por debajo, las sesiones se agrupan en unos diez mundos musicales distintos: pop en inglés; bandas sonoras instrumentales y cinematográficas; baladas y cantos devocionales en español; sertanejo y funk brasileños; dangdut y koplo del sudeste asiático; canciones de Europa del Este y los Balcanes. La muestra incluye canciones de boda en javanés, oraciones en español y homenajes de cumpleaños que alternan entre ruso, armenio e inglés en mitad de un verso.

Los idiomas y géneros se agrupan en unos diez conjuntos; los seis nombrados aquí están entre los más grandes. Ilustración.

Esta distribución encaja con un comportamiento de siempre — hacer una canción para alguien — funcionando sobre una herramienta nueva, más que con el llenado automatizado de catálogos.

Adopción: la actividad está creciendo

La actividad se está expandiendo. A lo largo de la ventana examinada, el volumen de generaciones semanales creció más de 20 veces, y el volumen diario se triplicó aproximadamente en un solo trimestre.

23×

volumen de generaciones semanales

crecimiento en unos 18 meses

~3×

volumen diario

en un solo trimestre

Un crecimiento sostenido a ese ritmo encaja con un uso recurrente, más que con una curiosidad de una sola vez. Los datos indican que los usuarios vuelven porque la herramienta se encarga del trabajo de producción que antes exigía un estudio, una banda y un presupuesto, mientras que los aportes que solo una persona puede dar — las palabras, la intención, la ocasión — siguen en manos del usuario.

Contexto: sesenta años de la misma objeción

"La música con IA no tiene alma" es aproximadamente la reseña que ha recibido toda herramienta musical nueva durante sesenta años, y los casos anteriores muestran qué parte de la objeción se sostiene.

Cada herramienta nueva recibió el mismo veredicto al llegar; la música con IA es el caso actual.

En 1968, el Switched-On Bach de Wendy Carlos fue a la vez un éxito y un escándalo: los críticos llamaban al sintetizador Moog frío y "no un instrumento de verdad", y los sindicatos de músicos advertían de que dejaría a las orquestas sin trabajo. Acabó siendo fundamental para el pop y la música electrónica modernos. La caja de ritmos Roland TR-808 recibió casi las mismas acusaciones en 1980 — sin alma, reemplazará a los baterías — y luego se convirtió en la base rítmica del hip-hop, el house y el pop, con la suficiente relevancia como para que Kanye West titulara un álbum 808s & Heartbreak en su honor.

El registro también muestra dónde los críticos tenían parte de razón. Cuando los productores de hip-hop empezaron a samplear discos ajenos en los años 80, "cualquiera puede loopear un break" era el desprecio fácil, pero las disputas de derechos de autor que había debajo eran reales y los pleitos transformaron el oficio. Las herramientas nuevas a veces sí causan un daño medible, y el problema del fraude de streaming de la música con IA es un caso actual. El punto relevante es más acotado: esos daños son independientes de la cuestión de quién compone una pista determinada.

El caso de Auto-Tune es el más claro. "Believe" de Cher lo hizo famoso en 1998 y T-Pain lo volvió omnipresente; le siguió la reacción en contra — hacer trampa, voz de robot, sin sentimiento — y en 2009 Jay-Z publicó "D.O.A. (Death of Auto-Tune)" para declararlo acabado. No lo estaba. Se dividió en dos usos simultáneos, una herramienta de corrección y una estética deliberada que va de T-Pain a Bon Iver a Kanye, y en ambos la persona seguía siendo el autor mientras la herramienta ejecutaba la intención. A lo largo de estos casos, la objeción sobre el alma de la máquina era independiente de la cuestión de la autoría, que dependía de si una persona estaba usando la herramienta para decir algo.

Conclusión: lo que los datos dicen sobre la autoría

Del lado de la creación, la evidencia es inequívoca. A lo largo de cientos de miles de sesiones, el humano escribe la letra, traza la estructura, elige la voz y escoge la ocasión a la que va dirigida la canción; la herramienta interpreta el arreglo. En la muestra, el autor es la persona, y la IA ejecuta el encargo.

El relato de la "basura de IA" es real, pero describe a una población comparativamente pequeña que manipula las plataformas de streaming — un problema del lado del consumo — no a la población que hace música con estas herramientas. Para esa población, los datos describen para la herramienta un papel con forma de estudio: aporta la producción que antes exigía un estudio, una banda y un presupuesto, y deja la autoría en manos de la persona. Esa distinción es la premisa que está detrás de Lacuna.