Il mensile Wired, nella sua versione online, a marzo 2025 ha pubblicato un articolo dal titolo “How a Cup of Tea Laid the Foundations for Modern Statistical Analysis” (paywall, ma ascoltabile come podcast, qui la versione audio con trascrizione)
Nell’articolo si descrive come l’analisi statistica attuale sia nata a partire da un esperimento fatto nel 1920 da Ronald Fisher, Muriel Bristol (esperta in alghe; dal suo nome deriva quello del genere Muriella) e un terzo scienziato, all’epoca fidanzato di Bristol.
Tutto nacque dal fatto che Muriel Bristol affermò che, versando il latte nella tazza prima o dopo il the, il gusto della bevanda sarebbe cambiato, e affermò anche di poter riconoscere sempre la variazione del gusto.
Fisher, incredulo, la volle sottoporre ad un esperimento: preparò otto tazze di the, in quattro di queste il latte venne versato prima del the, nelle restanti quattro dopo, e servì alla collega le otto tazze di the, senza un preciso ordine e senza la possibilità di assaggiare la bevanda più di una volta.
Bristol riconobbe con esattezza tutte e otto le tazze: le quattro the-prima-latte-dopo e le quattro latte-prima-the-dopo. I chimici, anni dopo, spiegarono quello che la papille gustative di Bristol avevano ben chiaro:
In 2008, the Royal Society of Chemistry reported that tea-then-milk will give the milk a more burnt flavour. “If milk is poured into hot tea, individual drops separate from the bulk of the milk and come into contact with the high temperatures of the tea for enough time for significant denaturation to occur,” they noted. “This is much less likely to happen if hot water is added to the milk.”
Ma come può una specie di scommessa fra amici gettare le basi per la moderna scienza statistica?
Fisher ipotizzò quella che lui stesso chiamò “ipotesi nulla”: Bristol non sarebbe stata in grado di distinguere la differenza fra le quattro tazze the-prima-latte-dopo e le quattro tazze latte-prima-the-dopo. La sua accuratezza nel distinguere le due tipologie gli permise di rifiutare l’ipotesi nulla, ma cosa sarebbe successo se ne avesse riconosciuto solo sette, o sei, o cinque? Come definire la linea di demarcazione fra “significativo” e “non significativo”?
Statistical findings have traditionally been deemed “significant” if the probability of obtaining a result that extreme by chance (i. e. the p-value) is less than 5 percent. But why did a p-value of 5 percent become such a popular threshold?
A causa di una combinazione fra copyright e comodità. Nel 1908 William Sealy Gosset, uno statistico , pubblicò un lavoro su quanto la casualità influenzasse l’analisi dei dati, con molti grafici che lo stesso Fisher trovò molto utili. Ma non volendo copiarli nel proprio lavoro, per ragioni di copyright, trovò che il p-value da lui trovato, circa il 5%, si accordava molto bene col p-value definito da Sealy Gosset nel suo lavoro.
As he would later put it, a p-value below 5 percent meant “either an exceptionally rare chance has occurred or the theory is not true.” The statistical comparison used in that tea-room experiment would become known as “Fisher’s exact test,”
Tuttavia, secondo altri studiosi, l’approccio di Fisher non era quello giusto: nel suo esperimento Fisher intendeva definire se la sua ipotesi nulla fosse stata vera o no, non di “decidere quale fosse quella valida fra due ipotesi proposte”. Gli statistici Jerzy Neyman e Egon Pearson (figlio di Karl Pearson, il primo ad aver definito il p-value) proposero un approccio alternativo, introducendo quelli che sono fra i concetti più odiato fra gli studenti di statistica: gli errori di tipo I e gli errori di tipo II, i quali sono ben riassunti dalla frase “Meglio lasciare 10 colpevoli liberi che mettere un innocente ingiustamente in carcere”.


Commenta qui sotto e segui le linee guida del sito.