Dall-E: immagini create da una descrizione tramite deep learning [EN]

7 Gen 2021 di spi • 0 commenti

In un blog post sul sito di OpenAI del 5 gennaio si illustra, con abbondanza di esempi, il nuovo modello creato dall’azienda che permette di creare immagini partendo da descrizioni testuali del contenuto. È così possibile, per esempio, chiedere “an armchair in the shape of an avocado” e ottenere una “foto” di una sedia tipo questa.

Il risultato è un simpatico giochino (non -ancora?- disponibile al pubblico, probabilmente perché molto costoso da far girare) e dimostra la potenza dei nuovi modelli con miliardi di parametri, anche se applicati ad un compito più semplice di “riduci l’umanità in schiavitù e falla vivere dentro the matrix”. Ma in un futuro non più così lontano potrebbe essere possibile utilizzare modelli simili per creare rapidamente uno sketch di un’idea a fini di prototipo, di una pubblicità a basso budget, o per rimpiazzare le immagini di stock, o per animare videogiochi interattivi, tra le molte idee possibili.

Il blog post spiega rapidamente come funziona il modello e in maggiori dettagli come è possibile modificare i suoi parametri per richiedere alcuni vincoli di posizione (ad esempio, due oggetti uno sopra l’altro) o di composizione (un animale che indossa questo facendo quest’altro ecc.), angolatura (da vicino, panoramica, ecc), rotazione (in questo caso, in modo meno naturale, cioè specificando una parte della foto, ad esempio generata al computer), stile (disegnato a carboncino, come fosse un quadro di Monet, foto tonalità seppia, ecc.) mescolando più oggetti da ambiti diversi (la sedia a forma di avocado di cui sopra, o una lumaca a forma di arpa) o mescolando animali diversi.

Riguardo la tecnologia sottostante: il modello è capace di generare immagini ad una (bassa) risoluzione di 256×256. Nella pratica, le foto sono trasformate (tramite un variational autoencoder) in “immagini” 32×32 (ma usando un encoding sparso tra 8192 possibilità). L’input e l’output della rete neurale hanno la stessa forma: una matrice lunga 1280 token (256 per il testo e 32*32=1024 per l’immagine) e larga 8192, come sopra. Ovvero, il testo e l’immagine sono codificate assieme, uno prima dell’altra. Il modello (basato sull’ormai ben noto “Transformer”) è allenato a ricostruire questa matrice avendo come input la matrice stessa “offuscata” di alcune parti. Ad esempio, “offuscando” tutta e sola l’immagine, si insegna al modello a creare un’immagine ragionevole, data la descrizione. Ma grazie alla struttura si può specificare, oltre al testo, una parte dell’immagine (che deve essere la parte in alto a sinistra) e chiedere al modello di creare il resto dell’immagine in un modo che deve essere coerente sia con la descrizione data che con la parte dell’immagine già presente (questo è il trucco usato per obbligare la statua di Omero ad essere orientata nella direzione desiderata, o la foto di un telefono anni ’20 ad apparire in una stanza, appeso al muro, o sotto un cielo al tramonto).

Gli autori del post sostengono che le immagini presenti non sono state scelte a mano (“cherry picked”) per apparire migliori. D’altra parte il loro modello tipicamente produce più immagini di quante sono visualizzate, ma un altro modello automatico è poi utilizzato per classificarle da quella ritenuta “migliore” alla “peggiore”, e solo le prime sono riportate.

L	M	M	G	V	S	D
« Lug
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31