Può modificare l'audio esistente, parlare in sei lingue e, in una svolta più inquietante, replicare le voci dei propri amici (o familiari).
"Abbiamo sviluppato Voicebox, un modello di intelligenza artificiale all'avanguardia in grado di eseguire attività di generazione vocale, come l'editing, il campionamento e la stilizzazione, per le quali non è stato specificamente addestrato tramite l'apprendimento contestuale", ha scritto Meta in un comunicato stampa.
Fondamentalmente, tutto ciò che devi fare per replicare la voce di qualcuno è alimentare il programma con una clip audio della durata di due secondi. Voicebox quindi "abbinerà lo stile audio" e con poco più di un prompt scritto e il clic di alcuni pulsanti, puoi ottenere una replica basata sull'intelligenza artificiale della voce del tuo amico o familiare (con le implicazioni etiche e legali palpabili).
Inoltre, Voicebox può ricreare una parte del discorso interrotta dal rumore o sostituire le parole pronunciate male senza dover registrare nuovamente un intero discorso; quando viene fornito un campione del discorso di qualcuno e un passaggio di testo in inglese, francese, tedesco, spagnolo, polacco o portoghese, Voicebox può produrre una lettura del testo in una qualsiasi di queste lingue, anche quando il discorso di esempio e il testo sono in diverse lingue; avendo appreso da dati diversi, Voicebox può generare un parlato più rappresentativo di come le persone parlano nel mondo reale e nelle sei lingue sopra elencate.
Ad essere onesti, Meta offre un caso d'uso convincente per questa specifica funzione del modello, sostenendo che la tecnologia potrebbe "consentire alle persone ipovedenti di ascoltare i messaggi scritti degli amici nelle loro voci". Promuovere l'accessibilità nella tecnologia è essenziale e potremmo sicuramente vedere che questo è utile.
Tuttavia, l'idea di replicare la voce del proprio amico è ancora un po' inquietante, per non parlare del rischio di abusi. Dopotutto, se riesci a replicare la voce di un amico con solo un clip audio di due secondi, potresti praticamente replicare la voce di chiunque purché tu abbia l'audio.
È una potenziale mancanza di sicurezza che potrebbe lasciare il posto a truffe di phishing, disinformazione e persino a una versione audio di pornografia profondamente contraffatta. Per fortuna, Meta ne è più che consapevole e per il momento ha deciso di mantenere "closed source" (sorgente chiusa) il modello e il codice sottostante.
"Esistono molti casi d'uso entusiasmanti per i modelli vocali generativi, ma a causa dei potenziali rischi di uso improprio, al momento non stiamo rendendo pubblicamente disponibile il modello o il codice di Voicebox", ha scritto la società in un blog di ricerca separato. E questa, secondo Futurism, può essere solo una buona cosa dato il puro potenziale di abuso.