un sito di notizie, fatto dai commentatori

Dati sintetici e privacy

0 commenti

Immaginiamo di prendere un vecchio album di figurine, con le foto, il nome, la nazionalità di ogni calciatore del campionato e le sue statistiche, come le reti segnate, il numero di cartellini o i minuti giocati. Decidiamo quindi di elaborare alcune statistiche, ad esempio l’incidenza dell’età rispetto alla capacità di andare in gol, la percentuale di giocatori stranieri o il numero di calciatori mancini. Annotati i risultati della ricerca, immaginiamo ora di sottoporre il nostro album a un processo di sintetizzazione.

Un articolo di Gabriele Franco sulla Stampa fa il punto sui cosiddetti “dati sintetici”, ovvero un’enorme mole di dati artificiali creati a partire da database reali. Ma come si ottengono, e a cosa servono?

L’algoritmo, dopo aver analizzato le informazioni del primo albo e averne appreso le caratteristiche intrinseche e rilevanti, ci consegnerà un nuovo album di figurine, questa volta però riferito a un campionato che non esiste, giocato tra squadre a noi sconosciute e fra calciatori con caratteristiche e volti mai visti prima. Il tutto senza poter rintracciare a prima vista alcuna correlazione con le informazioni e le immagini dell’album originale. Se tuttavia decidessimo di ripetere la stessa indagine statistica, a partire però dall’album sintetizzato, i risultati sarebbero incredibilmente simili – se non spesso indistinguibili – a quelli appuntati in precedenza. […]

Uno dei principali impieghi di questa tecnologia – che è altresì uno dei motivi per i quali sta riscuotendo molti consensi – è l’addestramento dell’intelligenza artificiale. Ciò è dovuto, innanzitutto, alla difficoltà di reperire un numero sufficiente di dati per il training di sistemi basati sul machine learning.

In aggiunta a ciò, i synth data hanno un ulteriore vantaggio: riferendosi a persone o situazioni non esistenti nel mondo reale, riducono all’estremo o addirittura eliminano tutti i potenziali conflitti con la tutela della privacy:

La sintetizzazione di dati permette, difatti, di aumentare il livello di tutela dei dati di natura personale e, quindi, a maggior ragione, dei diritti individuali. Non a caso viene inclusa nella famiglia delle cosiddette privacy-enhancing technologies (PETs). Nel corso del processo di data synthetization, infatti, l’algoritmo generativo – se adeguatamente impostato – non replica né mantiene alcun collegamento diretto con gli elementi identificativi del database iniziale. In questo modo non è possibile ricondurre i dati di sintesi a quelli originali dai quali sono stati creati e, dunque, alle persone a cui si riferiscono.


Commenta qui sotto e segui le linee guida del sito.