Inizio questo articolo (che dividerò in più parti) il giorno dell’Immacolata: l’8 dicembre. Ho voglia di parlare dello stato attuale dell’intelligenza artificiale per coadiuvare il cinema low budget. Mi richiederà del tempo soprattutto per provare i vari servizi, non volendo fare il solito sterile elenco. Anche perché ci aiuterà a produrre contenuti per il cinema che realizzeremo nei prossimi tempi.
L’idea me l’ha involontariamente data Nicolas Perrier dell’Università di Lione, in Francia, con un suo post su Linkedin. Perrier è un bravo esperto in innovazione nella realtà aumentata e virtuale, e il post in questione riguarda Plask; uno dei tanti tools per realizzare animazioni 3D a partire da un semplice video. In pratica Motion Capture, senza costose e complesse apparecchiature. Tecnologia che può interessarci particolarmente per produrre video animati a una frazione del costo attuale, e persino con attori a distanza.
Ulteriore aiuto, oltre che dallo stesso Nicolas con i suoi innumerevoli posts, mi viene dal sito Futurepedia.io. Una “wiki” sull’intelligenza artificiale, con la selezione di molti strumenti ad oggi disponibili per il grande pubblico.
Andiamo quindi ad analizzarne alcuni, nello specifico quelli utili nel cinema. Tanto per la scrittura, quanto per la produzione tecnica dei video e per le voci. Vedremo la qualità dei risultati, faremo esperimenti e ne conosceremo i costi.
Per meglio comprendere come usarli nei nostri film low budget, ho deciso di creare un cortometraggio (di bassissime pretese, solo per fare prove tecniche) usandoli il più possibile.
Table of Contents
Creare video con l’intelligenza artificiale
Dividiamo i servizi in tre macro-categorie: scrittura, video e audio. Iniziando dalla scrittura, dovendo avere prima di tutto l’idea.
Scrittura cinematografica con l’intelligenza artificiale
Necessitiamo una storia. Realizzata da un’AI? Vediamo, gli strumenti di scrittura non mancano. E se non sarete d’accordo, potrete sempre controbattere nei commenti.
Come funziona GPT-3
La maggior parte dei servizi pubblici per scrittura AI è ad oggi basata su GPT-3 (con i suoi 175 miliardi di parametri di apprendimento automatico). Le alternative in realtà sarebbero tante: BigScience Bloom, linguaggio su larga scala che è stato lanciato da poco (con il vantaggio di essere open source), o la tedesca Aleph Alpha con il suo Luminous (da 200 miliardi di parametri).
Cosa sono i parametri di un’intelligenza artificiale?
Immagina di avere un compito che richiede di prevedere se un’immagine contiene un gatto o no. Un modello di intelligenza artificiale potrebbe essere addestrato su molte immagini etichettate come “gatto” o “non gatto” per imparare a riconoscere i tratti distintivi dei gatti.
Per fare questo, il modello utilizza una rete neurale, che è un insieme di nodi interconnessi. Ogni nodo rappresenta un calcolo effettuato sui dati di input. I parametri, o “pesi”, sono i valori assegnati a ciascun nodo che influiscono sulla forza della connessione tra i nodi.
Quando il modello vede un’immagine nuova, questi pesi vengono utilizzati per effettuare una serie di calcoli che alla fine producono una previsione, ad esempio “gatto” o “non gatto”. Il numero di pesi che vengono utilizzati nel modello è il numero di parametri.
In sintesi, i parametri sono come dei valori di ajuste (o adattamenti, diciamo la modifica dei valori di un modello di intelligenza artificiale durante l’allenamento al fine di migliorare la sua performance) che influiscono sul modo in cui il modello elabora i dati per produrre una previsione.
Un modello con molti parametri avrà più opportunità di modificare i suoi calcoli per adattarsi ai dati di allenamento, ma potrebbe anche essere più incline a overfitting, ovvero a un’eccessiva aderenza ai dati di allenamento e una scarsa capacità di generalizzazione.
Altri concorrenti di ChatGPT
Altri concorrenti sono Nvidia con il Megatron NGL (immenso, ma non disponibile al pubblico), Google con i suoi GLaM, LaMDA e PaLM (si, non si fanno mancare nulla), OPT di Meta, AlexaTM di Amazon o vari cinesi come Alibaba e il suo BaGuaLu.
Per finire cito GPT-J, altra alternativa open source a GPT-3.
Capiamo quindi rapidamente come funziona GPT-3, da una risposta riadattata della stessa AI:
GPT-3 (Generative Pretrained Transformer 3) è un modello linguistico all’avanguardia sviluppato da OpenAI. Utilizza una tecnica di apprendimento profondo chiamata “transformers“ per generare testo simile a quello umano sulla base di un dato input.
Ecco come funziona il GPT-3:
- Il modello viene addestrato su un ampio set di testi generati dall’uomo, come libri, articoli e siti web. Questo processo di addestramento consente al modello di apprendere gli schemi e le strutture del linguaggio naturale.
- Quando riceve un input, il modello lo elabora utilizzando i suoi strati di reti neurali. Ogni strato svolge un compito diverso, come l’analisi della sintassi, della semantica e del contesto dell’input.
- Il modello genera quindi una risposta basata sull’input e sulla sua comprensione del linguaggio naturale. Lo fa prevedendo le parole successive della frase, utilizzando gli schemi e le strutture apprese durante l’addestramento.
- Il modello ripete questo processo più volte, generando più risposte all’input. Queste risposte vengono poi classificate e valutate dal modello e la risposta più alta viene selezionata come output finale.
GPT-3 è noto per la sua capacità di generare testo spesso difficile da distinguere da quello scritto da un essere umano. È utilizzato in diverse applicazioni, come la traduzione linguistica, la sintesi e la generazione di testi.
ChatGPT racconta storie per la sceneggiatura.
Cominciamo direttamente dal prodotto di casa Open AI: ChatGPT. È forse il tool del momento; il primo ad aver fatto un salto tra il grande pubblico. È quasi preoccupante quanto sia preciso e “reale” nelle conversazioni, ma se ne è discusso anche troppo e ovunque nelle ultime settimane.
Mi sono iscritto al sito di Open AI, ho aperto la chat per provare a parlare con GPT-3 (non oso immaginare cosa farà il prossimo GPT-4) chiedendo di scrivermi una storia con alcuni dialoghi per un cortometraggio in grafica digitale. E beh, semplicemente me l’ha fatta.
La storia scritta da ChatGPT
Questa è la storia senza alcun ritocco, solo tradotta in italiano (potete leggere l’originale nella versione inglese di questo articolo).
Quando il sole sorse all’orizzonte, un piccolo gruppo di avventurieri si mise in viaggio per trovare la città perduta dell’oro. Erano alla ricerca da mesi, seguendo vecchie mappe e antiche leggende nella speranza di fare fortuna.
“Siete sicuri che questa sia la strada giusta?” chiese Maria, la leader del gruppo. “Non vedo alcun segno della città all’orizzonte”.
“Fidati di me, Maria”, rispose Jake, l’esperto di storia antica del gruppo. “La città è nascosta nelle profondità della giungla e non sarà facile trovarla. Ma se ci atteniamo al piano, la troveremo”.
Il gruppo si inoltrò nella fitta giungla, frugando tra le liane e il sottobosco con i loro machete. Dopo diverse ore di viaggio estenuante, raggiunsero il bordo di una radura.
“Guardate!” gridò Sarah, il membro più giovane del gruppo. “Laggiù! Vedo qualcosa che luccica alla luce del sole!”.
Il gruppo si precipitò verso il punto in cui Sarah aveva visto il luccichio, e di sicuro trovarono una piccola statua d’oro sepolta nella terra.
“Deve essere questa!” esclamò Maria. “Abbiamo trovato la città perduta dell’oro!”.
Il gruppo iniziò a scavare, scoprendo sempre più tesori. Trovarono monete d’oro, gioielli preziosi e antichi manufatti di grande valore.
“Siamo ricchi!” esclamò Jake, ridendo per l’eccitazione. “Abbiamo trovato un tesoro che va oltre i nostri sogni più sfrenati!”.
Ma mentre continuavano a scavare, il terreno sotto i loro piedi cominciò a rimbombare e a tremare. All’improvviso, un’enorme porta di pietra si aprì, rivelando un ingresso nascosto alla città perduta.
“Presto, tutti dentro!” gridò Maria, guidando il gruppo nel tunnel buio. “Dobbiamo trovare la fonte del tesoro prima che sia troppo tardi!”.
Il gruppo si addentrò nel tunnel, illuminato dalle torce. Raggiunsero una grande camera aperta piena di tesori.
“Ci siamo!” gridò Sarah. “La città perduta dell’oro!”.
Ma mentre esploravano la camera, sentirono un forte rimbombo. All’improvviso, il terreno sotto i loro piedi cedette e caddero in una fossa profonda.
“Aiuto!” gridò Maria, mentre cadevano nell’oscurità. “Siamo in trappola!”.
Ma proprio quando pensavano che tutto fosse perduto, sentirono una voce flebile che li chiamava.
“Non preoccupatevi, avventurieri”, disse la voce. “Sono il guardiano della città perduta e vi aiuterò a fuggire”.
Con l’aiuto del guardiano, il gruppo riuscì a uscire dalla fossa e a tornare in superficie. Uscirono dalla giungla, trionfanti e ricchi oltre ogni aspettativa.
“Ce l’abbiamo fatta!”, gridò Jake, ridendo di gioia. “Abbiamo trovato la città perduta dell’oro!”.
Teniamo in considerazione questa prima storia. Certo, non me l’ha fatta semplice… Poteva creare una storia in mezzo a una città a caso; al contrario, la giungla sarà più complessa da ricreare. Ma ci devo stare, il gioco è questo.
La stessa storia, in versione breve
Ah, ho anche chiesto una versione più breve. Mi ha fatto una sintesi. Poi ho specificato di volere una versione breve ma con i dialoghi, e semplicemente l’ha fatta. Ve la riporto per completezza di informazione:
Mentre il gruppo di avventurieri cercava la città perduta dell’oro, si imbatté in un ingresso nascosto nella giungla.
“Guardate, laggiù!” disse Sarah, indicando l’ingresso.
Il gruppo si precipitò verso l’ingresso ed esplorò la città, trovando un tesoro che andava oltre i loro sogni più sfrenati.
“Siamo ricchi!”, gridò Jake.
Ma mentre continuavano a cercare, il terreno sotto di loro cedette e caddero in una fossa.
“Aiuto!”, gridò Maria.
Un guardiano della città li aiutò a fuggire e ne uscirono vittoriosi e ricchi.
“Ce l’abbiamo fatta!”, gridò Jake.
ChatGPT scrive automaticamente la sceneggiatura
Stavo valutando di raccoglierla in una sceneggiatura, quando ho pensato “perché non chiederglielo?”. Detto, fatto. Mi ha riscritto la storia già pronta per il cinema:
INT. GIUNGLA – GIORNO
Il sole sorge all’orizzonte mentre un gruppo di avventurieri, MARIA, JAKE e SARAH, si mette in viaggio per trovare la città d’oro perduta.
MARIA
Siete sicuri che questa sia la strada giusta? Non vedo alcun segno della città all’orizzonte.
JAKE
Fidati di me, Maria. La città è nascosta nel profondo della giungla e non sarà facile trovarla. Ma se ci atteniamo al piano, la troveremo.
Il gruppo si inoltra nella giungla fitta, tagliando le liane e il sottobosco con i loro machete.
SARAH
Guardate! Laggiù! Vedo qualcosa che luccica alla luce del sole!
Il gruppo si precipita verso il punto in cui Sarah ha visto il luccichio e trova una piccola statua d’oro sepolta nella terra.
MARIA
Deve essere questa! Abbiamo trovato la città perduta dell’oro!
Il gruppo inizia a scavare, scoprendo sempre più tesori.
JAKE
Siamo ricchi! Abbiamo trovato un tesoro che va oltre i nostri sogni più sfrenati!
Ma mentre continuano a scavare, il terreno sotto i loro piedi inizia a rimbombare e a tremare. All’improvviso, un’enorme porta di pietra si apre, rivelando un ingresso nascosto alla città perduta.
MARIA
Presto, tutti dentro! Dobbiamo trovare la fonte del tesoro prima che sia troppo tardi!
Il gruppo si addentra nel tunnel, illuminato dalle torce. Raggiungono una grande camera aperta piena di tesori.
SARAH
È questa! La città perduta dell’oro!
Ma mentre esplorano la camera, sentono un forte rimbombo. All’improvviso, il terreno sotto i loro piedi cede e cadono in una fossa profonda.
MARIA
Aiuto! Siamo in trappola!
Ma proprio quando pensano che tutto sia perduto, sentono una voce flebile che li chiama.
GUARDIA (fuori campo)
Non preoccupatevi, avventurieri. Sono il guardiano della città perduta e vi aiuterò a fuggire.
Con l’aiuto del guardiano, il gruppo riesce a uscire dalla fossa e a tornare in superficie. Riemergono dalla giungla, trionfanti e ricchi oltre ogni aspettativa.
JAKE
Ce l’abbiamo fatta! Abbiamo trovato la città perduta dell’oro!
A parte Interno Giungla, per il resto è un’ottima base di partenza. Ma ad Andrea Rocci, sceneggiatore “umano”, seppur senza un’analisi approfondita (eravamo a fare due chiacchiere davanti una birra) gli sono saltati all’occhio alcuni errori di forma.
La sceneggiatura parla infatti per immagini, e frasi come “scoprendo sempre più tesori”, o “ricchi oltre ogni aspettativa” non sono affatto chiare. Quali tesori? Statue, monete, altro? E in che senso ricchi? Sono pieni di oro addosso? Sono vestiti in maniera appariscente? Tutti con l’ultimo iPhone e le chiavi di una Ferrari?
Per non parlare della mancanza di descrizioni degli ambienti. La giungla stessa è lasciata al più completo immaginario del regista, o degli scenografi (o 3D artist, che dir si voglia).
Però di necessità virtù, lasceremo alla discrezione del regista (esistesse, almeno lui…) ogni scelta. Proveremo a cercarne uno buono su character.ai, forse. Anzi, provatelo e parlate con dei “personaggi” artificiali. C’è persino Albert Einstein!
Prezzi
Qui è semplice: di base non costa nulla. Sta iniziando ad essere commercializzata una versione a 20 dollari al mese in alcuni Paesi, che elimina alcuni limiti (soprattutto dovuti alla potenza di calcolo necessaria per gestire le milioni di richieste che arrivano ogni giorno ad OpenAI).
Alternative a ChatGPT
Al momento GPT-3 è difficile da battere… Nell’attesa che escano i candidati più blasonati (a breve Google Bard), ho chiesto a ChatGPT stesso i suoi concorrenti. Mi ha segnalato per cominciare ScriptBuddy, WriterDuet e AI Screenwriter. Chiedendogliene altri, Plotbot, Amazon Storywriter e InkTip Script Listing. Ok, pensavo fosse sufficiente… Tranne che la risposta in realtà è una parziale menzogna. Qui si vedono i limiti attuali di questa intelligenza artificiale, in parte (ma non solo) a causa del fatto che i dati di cui dispone sono aggiornati al 2021.
Intanto ScriptBuddy, inizialmente basato su GPT-2, non viene più mantenuto da oltre 3 anni; lo escludiamo. WriterDuet è invece utilissimo nella sistemazione di sceneggiature. Ma lui non scrive nulla da solo… AI Screenwriter non credo esista neppure, quanto meno il caro vecchio Google non mi da risultati.
Per quel che riguarda Plotbot, o meglio Plot-bot, genera effettivamente trame di film sfruttando il motore GPT-2. Ma, come ScriptBuddy, sono anni che non viene mantenuto e per ottimizzare i tempi lo escludo. Lo stesso vale per Amazon StoryWriter, mentre InkTip Script Listing non serve a generare testi.
Dramatron
Dramatron è una nuova alternativa, marchiata Deepmind, che promette esattamente quello che stiamo cercando: scrivere sceneggiature per cinema e teatro. Purtroppo è stato rilasciato solo un paio di giorni intorno al 9 dicembre, e quando sono arrivato a provarlo era troppo tardi.
Resta un progetto interessante da tenere in considerazione quando sarà aperto. Per il momento, non piace a George Mike, autore di questo video su YouTube.
Il suo commento? “…in generale mi è sembrato insipido. E non mi ha dato molto di più dei dialoghi che si trovano in tutti i film. Ha chiaramente colto il genere, ma non lo ha approfondito in modo interessante. Non ha fatto progredire la narrazione“.
Rytr
Tramite Google e Futurepedia sono poi giunto a Rytr. Uno strumento carino. Account e accesso, e mi ritrovo nell’area di lavoro. Chiede fondamentalmente lingua, stile e caso d’uso del testo creato, e lui agisce. Non essendoci chiaramente “film script”, ho provato intanto con uno strumento chiamato “bacchetta magica”.
Stessa richiesta fatta a ChatGPT, la risposta è stata però quasi esilarante:
Nel nome di Allah, il Compassionevole, il Misericordioso
Io credo
Credo in Allah, l’Unico Dio
Credo nei profeti e nei messaggeri
Credo negli angeli e nelle scritture
Credo nei libri della rivelazione
Credo nella vita dopo la morte e che nel giorno del giudizio sarà fatta giustizia.
- Scusa, cosa? Stai dicendo “credo” a tutto.
Non ho tempo per questo.
- Mi dispiace, non ti seguo.
- Perché ti stai scusando?
- Che cosa?
Proviamo qualcosa di diverso e più specifico… Ho chiesto “Ho bisogno di una sceneggiatura di circa 2000 parole, con dialoghi, per realizzare un cortometraggio in computer grafica. Il titolo è: la città perduta”, e impostato come come caso d’uso “trama di una storia”. Prompt basato sul precedente output di ChatGPT. Ma ancora siamo lontani, seppur abbiamo una storiella di base:
In un futuro prossimo, un equipaggio di archeologi e scienziati in missione esplorativa su un pianeta sconosciuto viene catturato e imprigionato da un’antica civiltà aliena.
La squadra è in un certo senso persa, a causa della barriera linguistica e delle interazioni con gli alieni. Vengono tenuti in cattività per decenni, esplorando le rovine e scoprendo tutti i segreti della civiltà.
Alla fine riescono a tornare a casa. Gli scienziati hanno imparato molte cose nuove e le riportano sulla Terra per condividerle con gli umani. Tuttavia, hanno impiegato così tanto tempo che ormai non solo la Terra è cambiata, ma non c’è più tempo per queste scoperte.
Stessa richiesta, ma con il comando magico come caso d’uso:
INT. SOGGIORNO – POMERIGGIO
La stanza è ben arredata e sembra molto confortevole. C’è una porta che conduce a un’altra stanza.
JOE: Buongiorno, John.
Buongiorno, Joe. Come sta stamattina?
JOE: Sto bene, grazie per averlo chiesto. E tu?
JOHN: Sto benissimo! Cosa c’è in programma per oggi?
JOE: Vado a recuperare le mie letture e poi probabilmente farò una passeggiata nel quartiere. Hai qualche programma
Ok, un tool utile per brevi testi ma è ancora lontano dall’autonomia totale. Veniamo ai prezzi, anche se nel nostro caso mantengo il testo di ChatGPT.
Prezzi
Rytr ha una versione completamente gratuita, limitata a 10000 caratteri al mese. Altrimenti costa $ 9 al mese per 100.000 caratteri, o $ 29 al mese per uso illimitato.
Shortly AI
Altro strumento è Shortly AI, principalmente studiato per combattere il “blocco dello scrittore”. Scrivi il tuo testo o una frase, e lui continua.
Non potendogli chiedere di fare la storia per me, ho usato la prima frase della storia generata da ChatGPT: As the sun rose over the horizon, a small group of adventurers set out on their journey to find the lost city of gold. Seppur basato sullo stesso modello linguistico, il prosieguo è stato chiaramente differente.
Questo è il testo finale:
Quando il sole sorse all’orizzonte, un piccolo gruppo di avventurieri si mise in viaggio per trovare la città perduta dell’oro. Si diceva che nella città perduta ci fossero più di mille tonnellate d’oro, ma come tutte le leggende, la storia del tesoro viene raccontata solo a chi ne è degno.
Erano in viaggio da due settimane e speravano di poter raggiungere la loro destinazione entro la fine della settimana. Finora la strada era stata scorrevole, ma quando si avvicinavano a una collina, c’era una piccola costruzione sulla strada, che faceva rallentare i carri. La carovana aveva due grandi carri che trasportavano l’oro, mentre il resto era a cavallo. Il resto del gruppo non era molto preoccupato per il ritardo, a parte il leader. Per contenere grandi quantità di oro, argento e gioielli risalenti agli antichi Aztechi. Una città perduta che era protetta da un numero incalcolabile di demoni e spettri. Si diceva che non un uomo o una bestia che fosse entrato nella città maledetta fosse tornato.
Il piccolo convoglio si diresse verso il luogo indicato dal datore di lavoro. Ripassarono un’ultima volta i dettagli del contratto. I sei avventurieri si erano divisi in tre gruppi da due. Ogni gruppo si era posizionato in un luogo. La città era nascosta nelle profondità di una catena montuosa al centro della quale si trovava una fortezza ben protetta lasciata dall’impero azteco. Si diceva che il pozzo fosse una porta d’accesso alla città perduta. All’interno della fortezza doveva trovarsi la statua di un angelo. Si trattava di una speciale tavoletta di pietra con un incantesimo che avrebbe concentrato il potere del gioiello sull’ottavo figlio di un re azteco.
Alla notizia della strana fortezza, il capo azteco fece marciare il suo esercito per attaccarla, ma misteriosamente uno dei generali e il suo esercito furono portati via in un altro regno e sono scomparsi. Il re ordinò quindi la ritirata. Questo fu l’inizio dei problemi. Mentre se ne stavano andando, furono attaccati da grandi mostri che si pensava fossero stati uccisi, ma poi furono visti in cima alla fortezza. Le battaglie continuarono per tutta la settimana successiva, con la sconfitta degli Aztechi.
Alla fine, il re ordinò alle truppe rimaste di tornare in città, dicendo che le battaglie della settimana precedente avevano risvegliato alcuni antichi demoni, responsabili della scomparsa non solo di suo figlio, ma anche di alcuni dei suoi generali e delle truppe rimaste. Il re aveva messo al bando ogni tipo di magia e di incantesimo nella sua città e tutti dovevano essere giustiziati. Un giovane è stato aiutato dalla madre, anch’essa maga, una volta scoperta.
In definitiva, una bella storia ma con poco senso. L’AI ha preso pezzi di testo di qua e di là, ma senza collegarli in maniera “intelligente”.
Prezzi
Shortly AI è sicuramente utile per aggiungere una frase o due e sormontare il blocco dello scrittore, ma per lasciarlo far da solo non sembra il tool migliore.
Il suo costo non è neppure trascurabile. Parliamo di $ 79 al mese, o $ 780 all’anno. Io ho comunque utilizzato la prova gratuita, per cui è richiesto solo di registrare un account.
WriterX
Vediamo WriterX. Ha templates per creare articoli, post sui social, conclusioni di testi e tanti altri. Mi aspetto risultati simili a Shortly, non essendo progettato per intere storie.
Purtroppo però la versione di prova gratuita non permette di accedere a tutte le funzionalità, e non mi andava di pagare per un servizio (anche abbastanza caro) senza prima averlo provato; avendo persino un’alternativa gratuita di cui sono parzialmente soddisfatto.
Seppur lo stia valutando per le sue utili funzionalità di marketing… Come la bio dei miei canali social, o eventuali futuri aiuti nella scrittura degli articoli del blog. L’ho anche usato per scrivere la descrizione meta di questo stesso articolo.
Prezzi
WriterX costa $ 29 al mese nella versione standard (praticamente la trial che avevo), o $ 59 al mese per avere testi e funzioni illimitati. È disponibile in 25 lingue.
Jasper AI
Volevo provare anche Jasper AI, che alla fine è un’interfaccia grafica per la stessa GPT-3. È forse il più pubblicizzato, si trova ovunque. Ma, semplicemente, non ho neppure cominciato ad usarlo: obbliga ad inserire la carta di credito anche per la versione gratuita, e per verificarla non prende pochi centesimi ma l’intero primo mese: 29 dollari. Atteggiamento poco professionale, non voglio quindi averci a che fare e volevo i miei soldi immediatamente indietro.
GPT-J e Writey AI
Per uscire dall’universo GPT-3, volevo provare l’open source GPT-J tramite il sito web 6b.eleuther.ai; però si bloccava sempre con il messaggio: “Unable to connect to the model. Please try again”. E Writey AI, anch’esso ben funzionante ma troppo specializzato nella stesura di articoli per blog. Cosa per la quale vi consiglio di dargli un’occhiata, non foss’altro per 5 articoli al mese totalmente gratuiti.
In definitiva, sono stanco e ogni altra ricerca mi pare inutile. Dopotutto il testo di ChatGPT è valido (se così si può definire un testo “automatico”), quindi direi di passare alla realizzazione tecnica del cortometraggio.
Creazione dei personaggi 3D
Può un’intelligenza artificiale generare personaggi 3D?
Abbiamo bisogno quindi dei personaggi per la nostra storia, ma è davvero possibile generarli con l’A.I.? Spoiler: oggi, non bene. Ci sono tante promesse e alcune soluzioni che si avvicinano al risultato, ma non è ancora possibile. Vediamole in breve, poiché saranno utili nel prossimo futuro. Ma poi andremo a capire come avere i personaggi della nostra storia, ora, con pochi soldi.
PIFuHD
Per iniziare c’è PIFuHD, già disponibile al pubblico e che promette di creare un personaggio 3D a partire da una singola foto. Funziona, ma già dai video di presentazione si rimarca una qualità lontana dall’accettabile al cinema.
Google DreamFusion
DreamFusion è una delle prima A.I. in grado di sfruttare i dati 2D di Stable Diffusion (gli stessi usati per la creazione di foto tramite intelligenza artificiale, ormai molto diffusa), per la creazione di modelli 3D.
Stesso problema di prima: qualità insoddisfacente già a prima vista.
Microsoft Rodin Diffusion
Una novità del 2023 in casa Microsoft, Rodin Diffusion ancora non è disponibile al pubblico. Promette di creare un avatar 3D realistico a partire da una sola foto. Beh, a giudicare dalle foto rilasciate sul loro sito i capelli… Sempre quelli sono il problema!
Nvidia Get3D
Non può di certo mancare la regina delle schede grafiche, Nvidia, tra i tool 3D. E in effetti il suo Get3D è superlativo nella creazione di modelli 3D partendo dalle informazioni apprese da un dataset di modelli 3D.
Il dataset è molto più limitato, e questo è uno svantaggio nella varietà di oggetti 3D realizzabili. È però open-source, punto decisamente a favore, seppur l’intero training va fatto nel proprio sistema. Questo vuol dire schede video di fascia alta a go-go… E costano un po’. Tanto.
Nvidia Magic3D
Come ha risolto Nvidia il problema della “limitazione”, in termini di quantità, di oggetti creabili da Get3D? Come ci spiega l’articolo su The Decoder, semplicemente copiando Google… E tentando di rendere il suo nuovo Magic3D (qui il paper dei ricercatori) più rapido e definito di DreamFusion. Questo video ne spiega bene il funzionamento:
In pratica, Get3D ha un dataset basato su altri modelli 3D. Magic3D parte invece dalle immagini, a loro volta generate da un’A.I., aprendo la strada a combinazioni virtualmente infinite.
Funziona bene? Ciò che è certo è non sia disponibile al pubblico, ma già dal video e dagli esempi presenti in rete si presenta come una tecnologia molto promettente. Seppur ancora non raggiunge la qualità necessaria.
StyleGAN-NADA
Per fare Pokemon o altre cose divertenti c’è StyleGAN-NADA, addestrato seguendo il modello CLIP (Contrastive Language-Image Pre-Training) di OpenAI. Permette di creare immagini partendo solo da una descrizione testuale, senza bisogno di vedere alcun riferimento e senza la necessità di raccogliere ulteriori dati di addestramento.
È anche possibile modificare immagini esistenti in modo da renderle simili a quelle di altri domini, ad esempio usando un’immagine di un cane per generare un gatto. Stesso approccio che può essere applicato ad altre architetture generative, aprendo possibilità interessanti per la creazione di immagini in modo veloce e preciso.
Pollinations
Tra i “next steps”, Pollinations promette di fare ciò che serve a noi. Dal loro sito web: “a livello di ricerca, il nostro team sta sviluppando una tecnologia che consenta alle persone di generare oggetti e avatar in 3D con il solo aiuto di un testo”.
Anche qui, c’è da attendere. Per ora permette di fare comunque cose interessanti in ambito foto / video. Magari provatelo, comunque c’è poco di utile ai fini di questo articolo.
Text2mesh
Piccolo ma interessante, Text2mesh è meno un esercizio di stile rispetto ai precedenti. Qui il modello già bisogna averlo, ma l’AI promette di modificarlo autonomamente; aumentando ad esempio il numero di poligoni, cambiandone la forma e il colore finanche creando la texture da zero. Il tutto sulla base di un prompt di testo, una richiesta scritta.
Promemoria da mettere in agenda, in caso ci servirà.
Luma AI
Luma AI è un interessante progetto per scansionare oggetti reali ricreandoli in 3D. Il funzionamento è interessante, e la qualità degli scan è discretamente buona. Per oggetti di scena o figure in secondo piano lo reputo più che accettabile, anche in produzione.
Da poco permette anche di creare oggetti, e quindi personaggi, in 3D a partire da un prompt di testo. Con il classico comando “imagine”, già reso famoso dal generatore di immagini MidJourney. Ma qui, di nuovo, la qualità non è eccelsa. Buoni esperimenti, ma decisamente non utilizzabile a fini produttivi.
Personaggi e oggetti 3D senza l’intelligenza artificiale
Da tutto questo abbiamo capito solo una cosa: l’A.I. ad oggi, gennaio 2023, ancora non ci permette di avere dei buoni modelli 3D. Dovendo però mantenere il budget basso, otteniamoli con gli strumenti già disponibili.
I personaggi 3D del nostro cortometraggio
Qui non andrò a fare tante ricerche, ma valuto due strumenti per la creazione di personaggi 3D che già conosco: il semplice Reallusion Character Creator, e il fantastico MetaHuman di Epic.
Per la nostra storia ci serviranno 3 personaggi: Maria, Jake e Sarah.
MetaHuman Creator
In realtà nel caso di MetaHuman una novità rispetto al mio passato c’è: ho usato la beta di MetaHuman Creator. É fenomenale, in quanto mi ha dato la possibilità di approfittare della potenza di calcolo dei server Epic, creando i personaggi in una pausa di lavoro direttamente col portatile (che deve solo ricevere uno stream video).
Richiedendo quindi l'”Early Access” con il proprio account Epic Games dal sito metahuman.unrealengine.com, ci ritroviamo una scelta di possibili personaggi.
Immaginiamo che tutti e tre abbiano un’età tra i 20 e i 40 anni, per il resto la sceneggiatura non ci indica molto di loro.
Jake
Scelgo di iniziare selezionando Aoi, nel ruolo di Jake. Non so, quella barba mi da l’idea di “avventuriero”.
Il software avvisa che alcuni elementi del personaggio ha elementi ancora in fase di sviluppo (nello specifico i capelli) e che pertanto saranno visualizzati solo il LOD (livello di dettaglio) 0 (automatico) e 1 (massima qualità). Per noi va bene, la destinazione sarà un video pre-renderizzato chiaramente a massima qualità e non un videogame in tempo reale.
Qualche modifica al personaggio (a torso nudo, colore degli occhi, scarpe e pantaloni più “adatti”), ed è salvato. Successivamente lo esporteremo con il plugin Quixel Bridge di Unreal Engine 5.
Maria
Passiamo a Maria. Ho chiesto a ChatGPT di inventarne le caratteristiche, e la risposta è stata che potrebbe essere una donna intorno ai 30 anni. Capelli castani, lunghi fino alle spalle e raccolti in una coda di cavallo. Occhi marroni, intensi e profondi, e di etnia latina, con una pelle abbronzata dalle sue avventure all’aperto.
Proviamo a realizzarla. Partiamo da Roux. Facciamo un Blend con Lena, Kendra e Tori che sembrano adatte a modificarne un po’ lineamenti e quindi etnia, diamole la coda di cavallo, occhi marroni, modifichiamo la texture della pelle per darle qualche anno in più, elimino il make-up che difficilmente avrebbe in mezzo alla giungla, modifichiamo l’abbigliamento ed il gioco è fatto.
Sarah
Infine Sarah. Per ChatGPT ha circa 25 anni, con capelli biondi, corti e mossi. Occhi azzurri, vivaci e curiosi, intorno a 1,70 metri, snella e muscolosa a indicare una persona attiva e sportiva e di origine nord-europea, con una pelle chiara e delicata.
Ci basiamo su Vivian, modifiche varie fino a renderla qualcosa di simile al richiesto. Chiaramente MetaHuman ha tanti limiti, ancor di più in questa versione online. Ad esempio, sul fisico praticamente non abbiamo possibilità di intervento, quindi “muscolosa” è una caratteristica a cui dovremo rinunciare a meno di modellazioni successive. Ma, primo non sono un modellatore 3D e questo è un progetto zero budget solo a fini didattici. Inoltre, per lo stesso motivo non è il caso di perderci più tempo del necessario.
Infine lasciamoli li, creiamo le animazioni con dei manichini e poi faremo un retargeting con i personaggi MetaHuman direttamente in Unreal Engine 5.
Conclusioni
Per oggi limitiamoci qui, in uno dei prossimi articoli parlerò specificatamente di animazione e Motion Capture con l’intelligenza artificiale (dove ci sarà più utile), e poi proseguiremo con ambienti, voci, musiche e tutto quanto necessario a finalizzare il nostro piccolo progetto.
Mi lascio il tempo di finire con calma, ed eventualmente fare altri articoli prima di continuare questo. Per due motivi: sono operazioni elaborate, e l’intelligenza artificiale è in fase esplosiva. Un articolo scritto oggi, potrebbe essere vecchio domani. Forse stasera.
Pertanto, visto che queste informazioni ci serviranno molto di più verso la fine dell’anno in corso per la produzione effettiva di una storia in fulldome, teniamo in conto tutte le novità dei prossimi mesi.
Come sempre grazie per avermi seguito, e un abbraccio.
1 Comment
[…] Possiamo considerarlo anche un aggiornamento, in fase molto più avanzata, dello scorso articolo scritto a febbraio 2023 dal titolo Come fare film low budget con l’Intelligenza Artificiale – Prime fasi. […]