Il recente avvento dei modelli generativi, strumenti computazionali in grado di generare nuovi testi o immagini sulla base dei dati su cui vengono addestrati, ha aperto nuove interessanti possibilità per le industrie creative. Ad esempio, consentono agli artisti e ai creatori di contenuti digitali di produrre facilmente contenuti multimediali realistici che integrano elementi di diverse immagini o video.
Ispirati da questi recenti risultati, i ricercatori della Stanford University, UC Berkeley e Adobe Research hanno sviluppato un nuovo modello in grado di inserire realisticamente determinate persone in scene diverse, ad esempio mostrandole mentre si allenano in palestra, guardano il tramonto sulla spiaggia e altre. La loro architettura proposta si basa su una classe di modelli generativi noti come modelli di diffusione.
L'obiettivo principale dello studio era applicare modelli generativi al compito della percezione dell'accessibilità, nella speranza di ottenere risultati più affidabili e realistici. Nel loro recente articolo, si sono concentrati specificamente sul problema dell'inserimento realistico di una persona in una data scena.
"Il nostro modello generativo su larga scala, addestrato su un set di dati composto da milioni di video, offre una maggiore generalizzazione a nuove scene e persone. Inoltre, il nostro modello mostra una gamma di intriganti capacità ausiliarie come l'allucinazione della persona e la prova virtuale", spiega uno dei ricercatori.
I ricercatori hanno valutato il loro modello generativo in una serie di test preliminari, in cui gli hanno fornito nuove immagini di persone e scene, per poi osservare quanto bene ha posizionato queste persone nelle scene. Hanno scoperto che funzionava molto bene, creando immagini modificate che sembravano abbastanza realistiche. Le facilitazioni previste dal loro modello sono migliori e funzionano in un contesto più diversificato rispetto a quelle prodotte da modelli non generativi introdotti in passato.
Secondo i ricercatori, questo lavoro offre diverse potenziali strade per future esplorazioni. Prevedono che le loro scoperte contribuiranno in modo significativo alla ricerca futura sulla percezione dell'accessibilità e sui campi correlati. Significative sono anche le implicazioni per la ricerca sulla robotica, dove l'identificazione di potenziali opportunità di interazione è cruciale. Inoltre, questo modello ha anche applicazioni pratiche nella creazione di media realistici (come immagini e video).
In futuro, questo modello potrebbe anche essere integrato in una serie di strumenti software creativi per ampliare le loro funzionalità di modifica delle immagini, supportando in ultima analisi il lavoro di artisti e creatori di media. Potrebbe anche essere aggiunto alle applicazioni per smartphone di fotoritocco, consentendo agli utenti di inserire facilmente e realisticamente una persona nelle fotografie.