Video (quasi) più veri del vero

21 febbraio 2024

Impressioni, punti di vista diversi e riflessioni sull’ultimo strumento di generazione video presentato pochi giorni fa da OpenAI.

“Impressionante”. La parola esce quasi spontaneamente dalla bocca mentre gli occhi esaminano per la prima volta le immagini che scorrono sullo schermo: un faro arroccato sugli scogli su cui si infrangono le onde, un fuoristrada che sfreccia lungo una strada sterrata sollevando la polvere, la periferia di Tokyo immortalata dal finestrino di un treno in corsa su cui si riflette l’interno del vagone, svelando il volto della ragazza autrice del video.

Di fronte alle immagini generate da Sora, il tool presentato pochi giorni fa da OpenAI, ci sono Dario Piga, Antonella Autuori e Matteo Subet: il primo ricercatore senior all’Istituto Dalle Molle di studi sull'intelligenza artificiale USI-SUPSI e responsabile del CAS Intelligenza artificiale generativa al Dipartimento tecnologie innovative, i secondi assistenti alla ricerca e alla didattica del Master in Interaction Design presso il Dipartimento ambiente, costruzioni e design. Percorsi diversi, ma una medesima familiarità con le intelligenze artificiali generative, di cui Sora è la grande novità. Nella corsa alle applicazioni di questi strumenti, finora nessuno aveva ottenuto simili risultati nella creazione di video generati da istruzioni di testo. E sebbene Sora, per stessa ammissione di OpenAI, sia ancora lungi dall’essere matura per un’entrata sul mercato, i primi filmati dimostrativi ne lasciano intuire le potenzialità.

"ChatGPT mi aveva impressionato per la sua abilità nell’interpretare le richieste, forse ancor più che per la capacità di generare nuovi testi – esordisce Dario Piga. Con Sora è il contrario: mi colpisce la sua capacità di simulare con un realismo sorprendente – benché non sempre perfetto – aspetti fisici come il movimento, la dinamica dei fluidi, le collisioni e le interazioni tra oggetti. Considerando che siamo solo all'inizio, l'entusiasmo cresce pensando al futuro. Recenti lavori scientifici propongono l'integrazione di leggi fisiche nei modelli generativi, affinché le predizioni rispettino le leggi fisiche e le relazioni causa-effetto".

Proprio le relazioni causa-effetto sono ancora una debolezza dichiarata di questo strumento, come rilevano Antonella Autuori e Matteo Subet: "Facciamo alcuni esempi: al momento, se siamo di fronte a un video in cui un bambino addenta un biscotto, al termine dell’azione non vedremo il biscotto morso, oppure un bicchiere che si rovescia continuerà a contenere il suo liquido (cfr. la parte “Discussion” a questo link). C’è da immaginare che i video svelati da OpenAI siano una selezione dei migliori risultati ottenuti dopo aver stressato il tool di generazione. Inoltre, rimane il problema della moderazione di contenuti generati su pregiudizi o che incitano all’odio; tematica su cui c’è ancora molto lavoro da fare anche per i modelli DALL-E e GPT. Detto questo, per quanto ci è stato dato vedere, i risultati sono migliori degli strumenti esistenti".

Al pari di ogni strumento, l’uso di queste tecnologie emergenti (siano esse tex-to-text, text-to-image o text-to-video) va ed è già accompagnato da un processo di apprendimento. Per artisti e designer si tratta soprattutto di ottenere dall’intelligenza artificiale il risultato immaginato e desiderato. “È in corso un’alfabetizzazione e anche la sola conoscenza della generazione di contenuti tramite IA si diffonderà e amplierà col tempo. Attraverso strategie di prompting, maturate con la formulazione delle giuste istruzioni da parte degli utenti e con lo sviluppo delle tecnologie, si raggiungeranno risultati qualitativamente migliori rispetto all’avvento di DALL-E 3 e GPT”.

Da sinistra: Dario Piga, Antonella Autuori e Matteo Subet

Gli stessi principi sono già applicati anche in molte realtà aziendali, spiega Dario Piga: "Pensiamo alla prenotazione vacanze: esistono già App di importanti compagnie di viaggi online che integrano ChatGPT, che consiglia sulla base dei nostri desideri e necessità, ci chiede cosa ci piace e cosa no, e poi esegue prenotazioni per noi. Il programma del nostro CAS va oltre l’uso di ChatGPT, esplorando modelli di linguaggio aperti, sviluppati da entità come Meta, che offrono vantaggi significativi in termini di riservatezza delle informazioni - un aspetto cruciale per banche, assicurazioni, ospedali e per la pubblica amministrazione. Insegniamo l'utilizzo di questi modelli, ma anche come personalizzarli e specializzarli per rispondere alle specifiche esigenze aziendali, garantendo che possano integrarsi con le dinamiche interne delle organizzazioni".

"Affrontiamo inoltre le questioni legali ed etiche emergenti. Comprendere questi aspetti ci permette di prepararci al futuro, affrontando con consapevolezza le sfide che queste tecnologie portano con sé e promuovendo una regolamentazione appropriata del loro impiego. Discutiamo i rischi associati all'abuso di tali tecnologie, la protezione dei dati personali e aziendali, e la gestione dei diritti d'autore per assicurare il rispetto dei diritti altrui e la tutela dei propri".

"Il nostro obiettivo, che perseguiamo anche nel Bachelor in Data Science and Artificial Intelligence, è formare professionisti che non siano solo utenti ma esperti di queste tecnologie, capaci di guidarne l'uso responsabile e innovativo, cogliendo al massimo le opportunità che offrono".

La presente e le seguenti immagini sono fotogrammi di video generati da Sora.

Sfruttare al meglio quanto le intelligenze artificiali generative hanno da offrire, un pensiero condiviso anche da Antonella Autuori e Matteo Subet: "Crediamo fermamente nella complementarità piuttosto che nella sostituzione. La nostra esperienza nel design ci ha insegnato che l'integrazione consapevole di queste tecnologie può arricchire, e non limitare, il processo creativo. Per questo, già due anni fa abbiamo iniziato il progetto di ricerca Designing With: A New Educational Module to Integrate AI, ML and DV in Design Curricula (responsabile di progetto e del Master in Interaction Design: Massimo Botta), all’Istituto design della SUPSI in collaborazione con l'Universidade NOVA de Lisboa (NOVA) e l'École Polytechnique Fédérale de Lausanne (EPFL) che mira a formalizzare un nuovo modello didattico per l’integrazione e il trasferimento di queste competenze nei curricula di design. Negli esperimenti fatti finora, ci siamo resi conto che il maggior potere che questi strumenti conferiscono a un designer è quello di migliorare il pensiero laterale della progettazione, il processo di 'thinking out of the box', fondamentale quando è richiesto di proporre e sviluppare soluzioni sempre più complesse e originali. Inoltre, questi strumenti si rivelano utili nella fase di prototipazione delle idee, facilitando la visualizzazione di scenari progettuali e/o diminuendo i tempi di rendering relativi alle interazioni e all’impatto che le soluzioni progettate hanno nel mondo reale".

Pensieri formulati da chi ha già familiarità con il mezzo e ne intuisce il margine di sfruttamento. Non si può però trascurare la preoccupazione generata dalle prime immagini di Sora fra chi ha fatto dell’animazione o del videomaking la propria professione. La domanda dell’impatto dell’IA sull’impiego è ricorrente e non manca di essere fatta anche in questa sede.

Per Dario Piga: "Strumenti come Sora cambieranno l’industria grafica, il cinema, i videogiochi, l’editoria, il web e i media digitali e stampati e potranno sicuramente sostituire un professionista in alcuni compiti, giustificando la preoccupazione iniziale. Tuttavia, è fondamentale chiedersi se questa sostituzione rappresenti un vantaggio o uno svantaggio per il professionista e per la società".

"Uno strumento a basso costo, capace di generare immagini e video di qualità relativamente alta e in tempi molto brevi, è davvero un concorrente per grafici e illustratori? Oppure serve segmenti di mercato diversi? Sora potrà essere utilizzato da utenti amatoriali o da chi ha bisogno di creare rapidamente un'immagine o un videoclip. Mi chiedo se questi siano i principali segmenti di mercato attualmente serviti da un esperto di grafica e quale potrà essere l’effettiva erosione di quote di mercato da parte di questo “nuovo concorrente".

"Allo stesso modo, mi domando se chi richiede il servizio di un professionista grafico o videomaker, come i creatori di film, videogiochi o aziende di marketing, possa accontentarsi di un prodotto generato a partire da poche istruzioni testuali. Per una scena cinematografica, un videogioco o una campagna pubblicitaria, continuerà ad essere necessaria l'expertise di un professionista, di un creativo capace di curare i dettagli, creare una storia, un contesto, uno scenario, e trasmettere un messaggio ad alto impatto".

“Non si tratta di sostituire il lavoro umano, ma di ampliarlo – aggiungono Antonella Autuori e Matteo Subet. L'arte e il design evolveranno sempre, come questi nuovi strumenti, ma la creatività individuale e la generazione dell’idea vincente rimarranno al centro di ogni processo progettuale. In quest’ottica, il principio di complementarità può vincere qualsiasi sfida futura".

"Riguardo questo punto, le parole di Eryk Salvaggio durante l’ACMI’s Future of Arts, Culture and Technology Symposium (FACT) 2024 esprimono al meglio il nostro pensiero:

If artificial intelligence strips away context, human intelligence will find meaning. If AI plots patterns, humans must find scores. If AI reduces and isolates, humans must find ways to connect and to flourish.

Piuttosto che lasciarsi guidare dalla paura di essere superati o esclusi dalle innovazioni tecnologiche (AI FOMO), crediamo sia fondamentale investire quanto più possibile nell'apprendimento e nella manipolazione critica di questi strumenti. Dal nostro punto di vista, l'unico atteggiamento perseguibile che permette non solo di rimanere rilevanti nel proprio campo, ma anche di contribuire attivamente alla definizione del futuro dell’arte e del design in un mondo sempre più mediato dall’IA".

SUPSI Article Header

Video (quasi) più veri del vero

Sidebar Links

Link utili

Sidebar Documents

Sidebar Contacts

Hidden Widget