DALL E: a volte le dimensioni contano

DALL E è l’ultimo lavoro dei laboratori di OpenAI. L’ enorme rete neurale, con più di 12 miliardi di parametri, è in grado di generare immagini da una descrizione testuale. Il risultato sbalorditivo è la sua capacità di combinare oggetti che non hanno nessuna relazione fra di loro per produrre immagini plausibili. Input come “una sedia a forma di Avocado” e un “cubo a forma di porcospino” producono in output immagini sensate che mettono in evidenza una certa “vena creativa”. 

 

Molto interessante è anche la sua capacità di affrontare problemi per i quali non è stato esplicitamente progettato. Come, ad esempio, creare uno sketch del contenuto di un’immagine o aggiungere dettagli all’interno della stessa. Questa abilità, chiamata “Zero-Shot reasoning” è un passo importante verso modelli in grado di generalizzare e risolvere diversi tipi di tasks senza bisogno di modifiche specifiche.

Esempio di “zero-shot reasoning” con input l’immagine di un gatto e la stringa “the exact same cat on the top as a sketch on the bottom”

 

Come GPT-3 su cui è basato, DALL E utilizza un’architettura chiamata “transformerche sta producendo risultati fino a pochi anni fa inimmaginabili nel campo del processamento dei linguaggi naturali. La cosa più interessante è che i traguardi raggiunti non sono frutto di un breaktrough, ma sono la conseguenza di un aumento esponenziale dei parametri della rete neurale e delle quantità di dati utilizzata per il training. Per esempio, per GPT-3 sono stati utilizzati 175 miliardi di parametri e quasi 45 Terabytes di testo e, secondo alcune stime, il costo totale della fase di training è stato circa 4.6 milioni di dollari. È ragionevole pensare che per DALL E si abbiano cifre simili.

È importante mettere in evidenza che il lavoro svolto da OpenAI, sebbene abbia innumerevoli possibilità di applicazione, è tuttavia lontano dall’essere fruibile in ambienti di produzione ma è certamente un primo passo importante nella direzione giusta. Inoltre questi risultati aprono nuovi scenari nel mondo della ricerca sui transformers. In futuro altri teams di ricerca, incoraggiati dal lavoro di OpenAI, potrebbero concentrarsi sullo sviluppo di architetture con miliardi di parametri che fanno delle dimensioni il loro punto di forza, in contrasto con una tendenza generale a ricercare l’algoritmo perfetto. 

A cura di Sergio Placanica, del VGen Engineering Hub