Quem Está Mesmo a Fazer Música com IA — O Compositor, Não a Máquina

Analisámos cerca de 650,000 gerações de música com IA de todo o espaço da música com IA, do final de 2025 a 2026, para responder a uma pergunta que os títulos sobre "lixo de IA" saltam: do lado da criação, quando uma pessoa se senta com uma ferramenta de música com IA, quem é que escreve realmente a música? Os dados são consistentes. As pessoas trazem a sua própria letra, marcam à mão a estrutura da canção, escolhem vozes específicas e voltam para o fazer de novo. A geração de um clique, sem mais intervenção, representa uma pequena fatia da atividade. Na amostra, a ferramenta funciona no papel de um estúdio que interpreta uma canção que a pessoa já escreveu.

Três números do conjunto de dados definem o alcance.

~41%

dos prompts ultrapassam os 1.000 caracteres

mais ou menos o tamanho de uma folha de letra completa

452,000+

ocorrências de "chorus" ao longo dos prompts

estrutura marcada secção a secção

~17.6×

mais palavras de voz do que de instrumentação

voz e intérpretes especificados pelo utilizador

A narrativa contra a qual os dados são testados

O número público sobre música com IA descreve um lado diferente da indústria. Em abril de 2026, a Deezer reportou que cerca de 44% das faixas carregadas para a sua plataforma todos os dias são agora geradas por IA — quase 75,000 por dia — e que uma estimativa de 85% dos streams que essas faixas geram são fraudulentos. Esses valores produziram os títulos sobre uma enxurrada de lixo e bots a manipular o bolo dos direitos de autor.

O valor da Deezer mede uma variável: o que é carregado para um catálogo de streaming. É uma medição do lado do consumo — produto a aterrar numa biblioteca, muito dele encaminhado em escala para colher direitos de autor. Não mede o que acontece a montante, quando um indivíduo abre uma ferramenta e cria algo. O nosso conjunto de dados mede esse segundo passo. Os dois são frequentemente confundidos, e a distinção é toda a questão.

Os dois valores medem coisas diferentes: o que uma pessoa cria, e o que chega a um catálogo de streaming.

Duas medições, não uma

Os 44% da Deezer medem o que chega a um serviço de streaming — o lado do consumo. O conjunto de dados de ~650,000 gerações mede o que as pessoas fazem com uma ferramenta — o lado da criação. São duas medições distintas.

Conclusão 1 — são as pessoas que dão as palavras

Se fosse a ferramenta a escrever as canções, os prompts seriam curtos: um género, uma emoção, um "faz-me algo triste". Na amostra, esse é o caso minoritário. Cerca de 41% de todos os prompts ultrapassam os 1.000 caracteres — o maior grupo isolado — enquanto os prompts de uma só linha, com menos de 50 caracteres, representam cerca de 9%.

~41%

dos prompts excedem os 1.000 caracteres

o maior grupo — um conjunto completo de versos, refrão e ponte

~9%

dos prompts têm menos de 50 caracteres

o caso curto de uma só linha é minoria

Um prompt com mais de mil caracteres não é uma descrição de uma canção; é o texto de uma — versos, refrão e ponte que uma pessoa escreveu e colou. Os dados mostram que o uso mais comum da ferramenta é entregar-lhe uma letra acabada e pedir-lhe que faça o arranjo. A autoria das palavras pertence ao utilizador.

Conclusão 2 — são as pessoas que organizam a estrutura à mão

Uma vez que as palavras existem, as decisões seguintes são estruturais: onde entra o refrão, quando rompe a ponte, como a faixa abre e fecha. Os dados mostram os utilizadores a tomar essas decisões de forma explícita.

Os termos mais frequentes ao longo dos 650,000 prompts não são emoções nem géneros, mas etiquetas estruturais. chorus aparece mais de 452,000 vezes e verse mais de 410,000, com outro, bridge, pre-chorus e intro todos no topo da lista. Isto é a marcação de uma canção a ser mapeada secção a secção antes de ser gravada. Onde o modo da interface é conhecido, os utilizadores escolhem o modo avançado — controlo mais fino sobre o arranjo — com mais frequência (cerca de 46%) do que o modo simples de um toque (cerca de 38%). Perante a escolha entre uma geração sem direção e uma controlada, a amostra pende para o controlo.

O que um prompt de 1.000 caracteres costuma conter: uma letra completa, marcada secção a secção, com voz e instrumentos nomeados. Ilustração.

Conclusão 3 — são as pessoas que especificam o som e a voz

Os utilizadores também descrevem o som, e são específicos. As palavras descritivas mais comuns dizem respeito à voz e à instrumentação: vocal aparece mais de 130,000 vezes, ao lado de male, female, emotional, warm, soft, piano, guitar e bass. Os termos de voz superam os pedidos de faixas puramente instrumentais por cerca de 17.6 para 1.

Os dados indicam uma decisão de casting e de instrumentação tomada pelo utilizador — um vocal masculino quente, uma linha de piano emotiva, uma sensação definida — com a ferramenta a executar a especificação em vez de a escolher.

Conclusão 4 — a cauda longa é movida por ocasiões, não é produção em lote

A narrativa do lixo sugere produção anónima e de alto volume. A distribuição dos tipos de canção aponta no sentido oposto. As canções normais são o grosso da atividade, mas é na cauda longa que se concentra o detalhe pessoal: covers, raps, canções de aniversário, jingles, canções de embalar, canções para personagens de jogos, faixas de 8 bits, beats. Cada uma corresponde a uma pessoa específica e a uma ocasião específica.

Tipo de canção como fatia de todas as gerações. As canções normais dominam; a cauda longa — covers, raps, canções de aniversário, jingles — é onde se concentra a criação pessoal movida por ocasiões.

Source: Amostra agregada multiplataforma de ~650,000 gerações de música com IA, final de 2025–2026.

A distribuição é mais consistente com indivíduos a fazer canções para momentos específicos do que com a produção em lote de uma fábrica de conteúdo.

Conclusão 5 — a atividade é global e escrita em línguas maternas

Cerca de 93% dos prompts são escritos em línguas de escrita latina, mas isso reflete o sistema de escrita, não a música. Por baixo, as sessões agrupam-se em cerca de dez mundos musicais distintos: pop em língua inglesa; bandas sonoras instrumentais e cinematográficas; baladas e cânticos devocionais em espanhol; sertanejo e funk brasileiros; dangdut e koplo do Sudeste Asiático; canções da Europa de Leste e dos Balcãs. A amostra inclui canções de casamento em javanês, orações em espanhol e homenagens de aniversário que alternam entre russo, arménio e inglês a meio do verso.

As línguas e os géneros agrupam-se em cerca de dez grupos; os seis aqui nomeados estão entre os maiores. Ilustração.

Esta distribuição é consistente com um comportamento antigo — fazer uma canção para alguém — a correr numa ferramenta nova, e não com o preenchimento automatizado de catálogos.

Adoção: a atividade está a crescer

A atividade está a expandir-se. Ao longo da janela analisada, o volume semanal de gerações cresceu mais de 20 vezes, e o volume diário aproximadamente triplicou no espaço de um único trimestre.

23×

volume semanal de gerações

crescimento ao longo de cerca de 18 meses

~3×

volume diário

no espaço de um único trimestre

Um crescimento sustentado a esse ritmo é consistente com uso repetido e não com curiosidade pontual. Os dados indicam utilizadores a regressar porque a ferramenta trata do trabalho de produção que antes exigia um estúdio, uma banda e um orçamento, ao passo que os inputs que só uma pessoa pode dar — as palavras, a intenção, a ocasião — ficam com o utilizador.

Contexto: sessenta anos da mesma objeção

"A música com IA não tem alma" é, mais ou menos, a crítica que toda a ferramenta de música nova recebeu ao longo de sessenta anos, e os casos anteriores mostram qual a parte da objeção que se sustenta.

Cada ferramenta nova recebeu o mesmo veredito à chegada; a música com IA é a instância atual.

Em 1968, o Switched-On Bach de Wendy Carlos foi ao mesmo tempo um êxito e um escândalo: os críticos chamavam ao sintetizador Moog frio e não um instrumento a sério, e os sindicatos de músicos avisaram que iria deixar as orquestras sem trabalho. Tornou-se fundacional para a pop e a música eletrónica modernas. A caixa de ritmos Roland TR-808 atraiu praticamente as mesmas acusações em 1980 — sem alma, vai substituir os bateristas — e depois tornou-se a base rítmica do hip-hop, da house e da pop, suficientemente proeminente para Kanye West ter intitulado um álbum de 808s & Heartbreak em sua homenagem.

O registo histórico também mostra onde os críticos tinham parte de razão. Quando os produtores de hip-hop começaram a samplar os discos de outros nos anos 1980, "qualquer um faz o loop de um break" era a desvalorização fácil, mas as disputas de direitos de autor por baixo eram reais e os processos judiciais reformularam o ofício. As ferramentas novas causam, por vezes, danos mensuráveis, e o problema da fraude no streaming da música com IA é uma instância atual. O ponto relevante é mais estreito: esses danos são separados da questão de quem é o autor de uma dada faixa.

O caso do Auto-Tune é o mais claro. "Believe" de Cher tornou-o famoso em 1998 e T-Pain tornou-o omnipresente; a reação contrária seguiu-se — batota, voz de robô, sem sentimento — e em 2009 Jay-Z lançou "D.O.A. (Death of Auto-Tune)" para o declarar acabado. Não estava. Dividiu-se em dois usos simultâneos, uma ferramenta de correção e uma estética deliberada que vai de T-Pain a Bon Iver a Kanye, e em ambos a pessoa continuou a ser o autor enquanto a ferramenta executava a intenção. Ao longo destes casos, a objeção sobre a alma da máquina foi separada da questão da autoria, que dependia de saber se uma pessoa estava a usar a ferramenta para dizer algo.

Conclusão: o que os dados dizem sobre autoria

Do lado da criação, a evidência é inequívoca. Ao longo de centenas de milhares de sessões, é o ser humano que escreve a letra, mapeia a estrutura, escolhe a voz e decide a ocasião a que a canção se destina; a ferramenta interpreta o arranjo. Na amostra, o autor é a pessoa, e a IA executa o briefing.

A versão do "lixo de IA" é real, mas descreve uma população comparativamente pequena a manipular plataformas de streaming — um problema do lado do consumo — e não a população que faz música com estas ferramentas. Para essa população, os dados descrevem um papel com a forma de um estúdio para a ferramenta: ela fornece a produção que outrora exigia um estúdio, uma banda e um orçamento, e deixa a autoria com a pessoa. Essa distinção é a premissa por trás da Lacuna.