Sam Gregory, direttore dell’ong WITNESS che da anni usa video per documentare violazioni dei diritti umani nel mondo, ha fatto un’analisi a caldo di come una tecnologia come Sora possa avere un impatto sulla fiducia in ciò che vediamo. Si tratta del nuovo modello text-to-video di OpenAI, in grado di produrre video sintetici di grande realismo da istruzioni testuali. Anche se non ancora aperto al pubblico, OpenAI ha diffuso vari esempi di video così prodotti (li vedete qua).

Fino ad oggi, spiega Gregory in vari post sui social media, i punti di vista multipli sono stati un buon punto di partenza per valutare se un evento è realmente accaduto così come il contesto in cui è avvenuto. Inoltre, in quasi tutti gli episodi di violenza da parte dello Stato o della polizia viene contestato cosa è successo prima/dopo l’accensione di una telecamera che magari riprende un’azione o presunta reazione.

Oppure, una ripresa traballante, fatta da qualcuno con una videocamera a mano, è un “potente indicatore di credibilità emotiva”, di autenticità.

Ma ora ci troviamo di fronte a video sintetici realistici che possono adottare diversi stili, anche quello amatoriale. O ad angoli di ripresa multipli, la possibilità di creare contemporaneamente più punti di vista e angolazioni della telecamera sulla stessa scena. E la possibilità di “aggiungere video (essenzialmente out-paint per i video) avanti e indietro nel tempo da un fotogramma esistente”. [L’outpainting è una funzione, presente in generatori di immagine come DALL-E, di estendere un’immagine oltre i suoi confini originali].

“L’abilità più interessante di Sora – commenta anche il ricercatore Erik Salvaggio – guardando alle specifiche tecniche, è che può rappresentare scenari multipli che si *concludono* con una data immagine. Credo che questo sarà oggetto di discussione in alcune conferenze sulla disinformazione” (…) Supponiamo di avere un video sui social che inizia dal momento in cui la polizia inizia a usare la forza in modo ingiustificato contro una persona in strada”. Le specifiche tecniche dicono “che si possono creare senza soluzione di continuità fino a 46 secondi di video sintetico che termina nel punto in cui inizia il video della violenza. Ciò che accade in quei 46 secondi è guidato dal tuo prompt, che si tratti di un adolescente che lancia una bomba a mano contro un poliziotto sorridente o di un uomo gentile che offre fiori alla polizia arrabbiata”.