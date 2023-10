La rivista The Atlantic ha messo a disposizione uno strumento per cercare quali libri e autori facciano parte di un corpus di testi usati per addestrare diversi sistemi di intelligenza artificiale generativa, in particolare LLaMa, una serie di modelli linguistici di grandi dimensioni sviluppati da Meta (Facebook) e simile a GPT di OpenAI (che sta alla base del chatbot ChatGPT).

Per capire come la rivista sia riuscita a farlo bisogna fare un passo indietro. Si hanno pochi dettagli sui testi usati per addestrare questi modelli, e questo vale in primis per OpenAI ma anche per altri.

(…)

Arrivati qua si aprirebbe il capitolo di tipo legale, ovvero è possibile o meno usare questi contenuti per addestrare AI? C’è chi sostiene che sia possibile sulla base della dottrina del fair use (e soprattutto sulla base dell’idea che gli strumenti di intelligenza artificiale generativa non replichino i libri su cui sono stati addestrati, ma producano nuove opere, e che non danneggino il mercato degli originali).

E c’è chi non è d’accordo, come quegli scrittori, da Michael Chabon ad altri, che hanno avviato una class action contro Meta proprio per questo, perché i loro libri sono inclusi in Books3, poi usato per addestrare LLaMa.

Non entro nel merito di questa discussione ora, ma lo stesso Alex Reisner (autore di questo bellissimo lavoro giornalistico su The Atlantic), che è sia un autore che un programmatore del mondo open source, coglie le complesse linee di frattura culturale dell’intera questione (open source contro Big Tech e in mezzo gli studiosi, gli scrittori, i creativi) che rimescolano un po’ le carte rispetto al passato. Lui stesso ha una posizione critica verso l’uso indiscriminato e non consensuale di questi testi.

Comunque la si veda, e qualunque cosa verrà stabilita nei tribunali, sapere cosa c’è nei dataset è ora più che mai fondamentale. Ed è una questione assolutamente politica.