
Con l’intelligenza artificiale è possibile riprodurre in modo accurato la voce di artisti famosi, per creare Ai cover di alta qualità che emulano stile ed espressività dell’artista originale. Ma i deepfake vocali quali ripercussioni hanno sul mercato e sull’arte della musica?
Le cover musicali sono sempre state un modo per omaggiare i propri idoli, reinterpretare le loro canzoni o semplicemente divertirsi. Ma cosa succede quando a creare i tributi degli artisti non sono più gli esseri umani, ma le macchine? Questo è il fenomeno delle cosidette Ai cover, le canzoni prodotte in studio utilizzando l’intelligenza artificiale e sistemi di deepfake vocali in grado di replicare perfettamente la voce di artisti famosi.
Ma come funziona questa tecnologia e quali rischi presenta la produzione musicale basata sull’intelligenza artificiale? In questo articolo vedremo alcuni esempi di Ai cover che hanno fatto il giro del web raccogliendo milioni di click. In un futuro sempre più prossimo, reale e viruale, vero e verosimile non saranno più distinguibili: i deepfake vocali sono un problema per la musica o una risorsa?
Indice
- Cos’è l’intelligenza artificiale?
- Cosa sono i deepfake vocali?
- Come si crea un modello di voce
- Come si crea una Ai cover
- Deepfake vocali nella musica
- Ai cover di successo
Cos’è l’intelligenza artificiale?
L’intelligenza artificiale (AI) è una tecnologia che si occupa di creare sistemi in grado di svolgere compiti che normalmente richiedono intelligenza umana, come il riconoscimento visivo, il linguaggio naturale, il ragionamento e l’apprendimento. Questa scienza sta avendo una accelerazione incredibile in ogni ambito dell’industria e non solo. Sistemi come ChatGpt ad esempio vengono già abitualmente utilizzati per affiancare l’uomo nella scrittura di testi e molto altro.
Anche l’applicazione dell’intelligenza artificiale nella musica è un campo di ricerca molto attivo e innovativo, che mira a creare sistemi in grado di generare, analizzare, modificare e interagire con la musica. Questi sistemi possono essere usati per vari scopi, come la composizione, l’arrangiamento, la produzione, la performance, la didattica e il divertimento. Tra le varie applicazioni dell’Ai nella musica, una delle più interessanti e sorprendenti è quella delle Ai cover, ovvero il rifacimento di brani musicali di successo con deepfake vocali che replicano la voce di artisti famosi.
Cosa sono i deepfake vocali?
I deepfake vocali sono una tecnologia che utilizza l’apprendimento automatico e l’intelligenza artificiale per creare falsi audio che sembrano essere stati generati da una determinata persona, ma in realtà non lo sono. Questa tecnica può essere utilizzata anche per creare discorsi e audio che sembrano provenire da una persona specifica, ma in realtà sono frutto di una manipolazione digitale.
I deepfake vocali funzionano attraverso l’analisi delle registrazioni vocali di una persona di destinazione. Queste registrazioni vengono utilizzate per addestrare un modello di apprendimento automatico che impara i tratti distintivi della voce di quella persona. Una volta addestrato, il modello può generare nuovi audio che sembrano essere pronunciati dalla persona di destinazione.
Il termine deepfake indica che questa tecnologia può anche essere abusata per creare audio falsi che possono essere utilizzati per scopi fraudolenti, come diffamazione, frode o inganno. Ma può essere utilizzata per scopi legittimi, come il doppiaggio di film, la sintesi vocale per scopi di accessibilità o come vedremo anche per usare la voce di artisti in vita o scomparsi per creare nuove canzoni, le cosiddette Ai cover.
Come si crea un modello di voce
Per creare il modello della voce, si usa un tipo di intelligenza artificiale chiamata deep learning, ovvero l’apprendimento profondo. Questo tipo di intelligenza artificiale si basa su reti neurali artificiali, ovvero sistemi che imitano il funzionamento dei neuroni del cervello umano. Le reti neurali artificiali sono in grado di apprendere da grandi quantità di dati e di estrarre le informazioni più rilevanti.
Per ricreare la voce di un artista famoso si usa una rete neurale artificiale che viene allenata con diverse registrazioni della sua voce parlata e cantata, come canzoni, interviste o discorsi. La rete neurale artificiale analizza le registrazioni e ne estrae le caratteristiche vocali. Il modello così ottenuto può poi essere usato per generare una voce sintetica che suona come quella dell’artista.
Per creare una Ai cover musica, si usa poi un’altra rete neurale artificiale che viene allenata con diverse canzoni dello stesso genere musicale della cover desiderata. La rete neurale artificiale analizza le canzoni e ne estrae la struttura musicale, come melodia, armonia, ritmo e stile. La rete neurale artificiale può poi generare una nuova canzone che segue la stessa struttura musicale.
Come si crea una Ai cover?
Per creare una Ai cover si usa un tipo particolare di vocal synthesis chiamato neural voice cloning, che sfrutta le reti neurali artificiali per clonare la voce di una persona a partire da un campione audio. Le reti neurali artificiali sono modelli computazionali ispirati al funzionamento del cervello umano, composti da unità elementari chiamate neuroni artificiali. Queste unità sono collegate tra loro da pesi sinaptici che determinano il flusso delle informazioni.
Le reti neurali artificiali sono in grado di apprendere dati tramite un processo chiamato apprendimento automatico, un addestramento che consiste nel modificare i pesi sinaptici in base al feedback ricevuto. Per clonare la voce di una persona con una rete neurale artificiale si usa un modello composto da due parti: l’encoder e il decoder. L’encoder è una rete neurale che trasforma il campione audio della voce originale in una rappresentazione vettoriale chiamata embedding.
L’embedding in pratica è un algoritmo matematico, una sequenza di numeri che cattura le caratteristiche distintive della voce originale. Questo modello che rappresenta le caratteristiche uniche della voce di una persona, come il timbro, l’intonazione, l’accento e il ritmo, viene poi usato per generare una voce sintetica che imita quella originale. Il decoder è un’altra rete neurale che trasforma l’embedding in un nuovo campione audio di voce sintetica.
Riassumendo per creare una Ai cover si usa quindi il seguente procedimento.
- Si sceglie la canzone originale di un artista famoso
- Si estrae il campione audio della voce del cantante originale dalla canzone
- Si usa l’encoder per ottenere l’embedding della voce originale
- Si sceglie la canzone di destinazione che si vuole coprire con la voce sintetica
- Si estrae il testo della canzone di destinazione e si allinea con la melodia
- Si usa il decoder per generare il campione audio della voce sintetica a partire dall’embedding e dal testo
- Si sovrappone il campione audio della voce sintetica alla base musicale della canzone di destinazione.
Deepfake vocali nella musica
Il procedimento visto in precedenza permette di riprodurre in modo molto accurato la voce di artisti famosi, consentendo di creare reinterpretazioni di alta qualità e di emulare lo stile e l’espressività dell’artista originale. Il risultato è la registrazione di una cover musicale che suona come se fosse cantata dall’artista originale. Le Ai cover basate sul deepfake vocali presentano sia vantaggi che rischi per artisti, pubblico e industria musicale.
Ad esempio anche artisti emergenti o non professionisti possono avere accesso a voci e stili di artisti famosi, ampliando le loro possibilità creative con la possibilità di realizzare produzioni e Ai cover di alta qualità. Ciò apre nuove possibilità creative, consentendo di sperimentare con stili musicali diversi e di creare collaborazioni virtuali con artisti del passato e anche non più in vita. Questo potrebbe aprire gli orizzonti artistici e stimolare l’innovazione musicale.
Utilizzare le voci di artisti famosi però solleva anche questioni legali legate al diritto d’autore e alla proprietà intellettuale. Chi opera il deepfake vocale deve garantire il rispetto dei diritti e ottenere le autorizzazioni appropriate per l’utilizzo delle voci degli artisti. Inoltre l’utilizzo di voci ricreate con l’intelligenza artificiale potrebbe portare a una perdita di autenticità e originalità nell’industria musicale.
Infine un uso diffuso e incontrastato dei deepfake vocali potrebbe portare alla sostituzione degli artisti umani, limitando le opportunità per i cantanti e i musicisti tradizionali. Ciò potrebbe avere implicazioni sull’occupazione e sulla diversità artistica. Potrebbe essere messa in pericolo la stessa sopravvivenza della musica come linguaggio espressivo autonomo, capace di emozionare e comunicare valori e idee originali.
Voce finta ma di successo
Le Ai cover e i deepfake vocali sono una risorsa o un problema per la musica? Probabilmente entrambe le cose insieme. D’altronde ogni volta che arriva una nuova tecnologia, rischi e opportunità si sovrappongono. In questo articolo abbiamo già parlato dei limiti e dei pericoli dei deepfake usati in modo fraudolento, ma anche se fossero usati in modo lecito, è utile porsi qualche domanda, dato che nella musica si parla di arte e sensibilità.
Come c’è chi ascolta la Trap e chi ascolta Bach, probabilmente in futuro ci saranno vari tipi di proposte musica per diversi tipi di pubblico. Ci sarà chi preferirà le Ai cover e chi i cantanti reali e forse si svilupperanno fans e mercati paralleli. Come all’inizio della musica digitale gli mp3 avevano portato scompiglio fino all’avvento dello streaming, probabilmente succederà la stessa cosa anche con le nuove applicazioni di intelligenza artificiale nella musica.
Se per alcuni cantanti utilizzare l’autotune è diventata una cifra stilistica, il sistema automatico per essere intonati non ha eliminato dalla faccia della terra il canto naturale e un concetto di arte vocale basata su intonazione, espressività, cura, studio e sensibilità. Ma se le canzoni con la voce finta in futuro conquisteranno milioni di persone, magari più di quelle prodotte dagli stessi artisti reali, l’uomo sarà superato la macchina?
Negli ultimi tempi diverse Ai cover pubblicate sul canale YouTube Lifeples (Ai cover) hanno ottenuto un notevole successo e catturato l’attenzione del pubblico. Esistono anche tutorial per imparare ad usare Voicify per crearne di nuove. Tra le più popolari ci sono Ai cover di Drake e artisti famosi come The Weeknd, Billie Eilish, Ed Sheeran e molti altri. Queste cover alternative e originali di canzoni famose mostrano le potenzialità dell’intelligenza artificiale nella musica, ma anche le sfide tutte da risolvere che ci attendono nel futuro.