Statisticamente significativo

Niente è significativo in assoluto. Siamo noi a decidere quanto convincente debba essere l'esperimento.

« Guardate, ho fatto questa statistica: tra i vincitori del festival di Sanremo degli ultimi anni, il 72% era di un segno d’acqua. Non può essere una coincidenza!»

A questo punto l’esperto del CICAP dà una fugace occhiata alla tabella, che include una dozzina di nomi e segni zodiacali, alza un sopracciglio e conclude rapidamente «mi spiace, i conti sembrano giusti ma l’effetto non è statisticamente significativo». Una scena vista molte volte.

Ma che cosa significa precisamente “statisticamente significativo”? E come è possibile che qualcosa di “statisticamente” significativo possa essere, nella pratica, completamente irrilevante?

Supponiamo di voler verificare l’efficacia di un nuovo sciroppo contro il raffreddore. Selezioneremo un certo numero di pazienti raffreddati; a metà di essi daremo lo sciroppo, mentre gli altri (il gruppo di controllo) prenderanno solo un placebo. Misureremo poi quanti giorni ci metteranno i pazienti dei due gruppi a guarire. Guardando per ora solo il gruppo di controllo, troveremo che ognuno ci metterà un tempo diverso a smettere di starnutire. C’è quello con un sistema immunitario a prova di bomba, quello che quando comincia a colargli il naso non smette più e anche quelli che, per puro caso, guariscono un po’ prima o un po’ dopo gli altri. Diciamo, per fissare le idee, che in media ci mettano sei giorni; questo non vuol dire che tutti ce ne metteranno esattamente sei. Ce ne saranno sì alcuni, magari molti, che ci metteranno proprio sei giorni, poi un po’ meno che ce ne metteranno cinque oppure sette, ancora meno solo quattro o magari otto eccetera.

Che cosa ci aspettiamo dal gruppo che ha preso lo sciroppo? Anche qui non tutti ci metteranno lo stesso tempo a guarire, ma in media, ammesso che il medicinale funzioni, ce ne dovrebbero mettere meno di quelli del gruppo di controllo. Per esempio potrebbero metterci in media tre giorni (invece di sei), ma anche qui ce ne sarà qualcuno che ce ne metterà solo due, oppure quattro o cinque. Se il nostro sciroppo non serve a niente, invece, la media dovrebbe essere la stessa.

L’industria farmaceutica che ha pagato la ricerca, però, ha molta fretta di concludere, o magari è stata tirchia e ha sganciato pochissimi soldi per fare l’esperimento. Potremo permetterci un campione di soli sei pazienti: tre a cui dare il medicinale e altri tre per il gruppo di controllo. Troveremo per esempio che i pazienti a cui abbiamo dato il medicinale guariscono mediamente in poco meno di quattro giorni, quelli del gruppo di controllo in sette. Bingo?

Fosse così facile. Niente ci garantisce che i tre a cui abbiamo somministrato uno sciroppo magari inutile non siano guariti più rapidamente per pura fortuna, o che quelli del gruppo di controllo non siano stati, sempre per caso, più lenti del solito a guarire. Con così pochi soggetti nel campione, la probabilità che la differenza tra i due gruppi sia dovuta al caso e non alla reale efficacia del medicinale è troppo alta: si dice (eccoci arrivati al punto) che il risultato non è statisticamente significativo. Se però selezioniamo un numero sufficientemente grande di soggetti, la probabilità che una gran parte di essi guarisca per caso sensibilmente prima (o dopo) il tempo di solito necessario diminuisce. È molto meno probabile selezionare casualmente diciamo cento soggetti tutti particolarmente resistenti al raffreddore piuttosto che due o tre: la significatività statistica dipende perciò dal numero dei soggetto coinvolti nell’esperimento.

Quando potremo dire che il nostro esperimento è significativo? Niente è significativo in assoluto. Siamo noi a decidere quanto convincente debba essere l’esperimento per farci concludere che lo sciroppo funziona davvero. O per farci accettare l’esistenza di un fenomeno misterioso, o per lo meno ammettere tra i denti che forse vale la pena di indagare più a fondo. Un modo abbastanza comune per rappresentare la significatività di uno studio è il P-value. Semplificando un po’, il P-value è un numero che rappresenta la probabilità che il risultato trovato sia dovuto al caso, invece che al fenomeno in esame. Di solito progettando l’esperimento si decide di voler raggiungere un particolare P-value, ad esempio l’1%, e si decide di conseguenza quanto grande deve essere il campione; in altri casi le dimensioni del campione non sono sotto il nostro controllo e la significatività dello studio viene calcolata a posteriori.

Per tornare all’esempio precedente, P rappresenta la probabilità che, prendendo a caso sei persone raffreddate e dividendole in due gruppi di tre, quelle di un gruppo guariscano (per puro caso) in meno tempo rispetto a quelle dell’altro. Si capisce come non sempre sia facile fare i conti, ma in generale più sono i soggetti, più si-gnificativo sarà il risultato e più basso P. Nell’ipotesi che la probabilità sia diciamo del 20%, la conclusione del nostro studio dovrebbe essere riportata più o meno così: «In uno studio su quattro soggetti affetti da rinofaringite virale acuta, la somministrazione orale di 500mg di Stobèn sciroppo ha ridotto della metà il tempo per la guarigione rispetto al placebo (P = 0.2)»

Chi legge capisce immediatamente che il nostro esperimento non serve a un tubo: può darsi che lo sciroppo sia davvero efficace contro il raffreddore, ma questo studio non basta a dimostrarlo dato che c’è ben il 20% di probabilità che il risultato sia dovuto al caso. Bisogna chiedere un altro finanziamento e rifare l’esperimento con un po’ più di sei pazienti per ottenere finalmente un risultato “statisticamente significativo”.

Non abbiamo ancora finito, però. Dobbiamo fare attenzione a un trabocchetto: “statisticamente” significativo non vuol dire “rilevante”. La significatività statistica di un esperimento ci dice quanto possiamo fidarci del risultato, ma non ci dice nulla sull’effetto che stiamo studiando. Se nell’esperimento sul raffreddore avessimo trovato, sia pure con grande significatività, che i pazienti trattati con il medicinale guarivano in media in 5,99 giorni contro i 6 di quelli del gruppo di controllo, cosa avremmo dovuto concludere?

L’ufficio stampa senza tanti scrupoli dell’industria farmaceutica avrebbe magari annunciato che era stata finalmente trovata, da uno studio con grande significatività statistica, la cura per il raffreddore, mentre lo sciroppo aveva un’efficacia così risibile da essere, a tutti gli effetti pratici, inutile.

Qualcosa di simile succede spesso in astrologia, quando si cerca di trovarle una base “scientifica” andando alla ricerca di correlazioni statisticamente significative tra particolari configurazioni dei pianeti al momento della nascita e tratti del carattere. La dimensione del campione necessario per raggiungere una significatività statistica prestabilita dipende dall’entità dell’effetto: più l’effetto è piccolo, più grande dovrà essere il campione necessario per rivelarlo.

Da quando la ricerca è resa più semplice dall’uso del computer, che permette di esaminare campioni molto vasti in tempi ragionevoli, gli astrologi tendono sempre di più a cercare effetti piccoli o piccolissimi.

Un effetto macroscopico, tale da far dire cose come «Eh, già, si vede che sei della Vergine, così razionale» dovrebbe però spiccare chiaramente anche con campioni relativamente piccoli.

Un esempio classico è quello dell’effetto “introversione-estroversione”, il più cospicuo mai trovato in questo genere di ricerche.

Alla fine degli anni ’70 comparve sul Journal of Social Psychology uno studio, firmato dall’astrologo Jeff Mayo e dal famoso psicologo Hans Eysenck, in cui si trovava che le persone nate sotto un segno zodiacale “positivo” (Ariete, Acquario, Gemelli, Leone, Bilancia e Sagittario) avevano qualche probabilità in più di avere un punteggio elevato di “estroversione” nella classificazione delle personalità di Eysenck.

Il problema è che l’effetto, rilevato con ottima significatività statistica su più di duemila individui e quindi molto difficilmente dovuto al caso, era solo dell’8%.

In altre parole, su cento persone classificate “estroverse”, i nati sotto un segno “positivo” erano 54 invece dei 50 attesi: troppo poco per essere di qualunque utilità pratica a un astrologo, e quindi per costituire una “verifica sperimentale” dell’astrologia.

Un effetto reale ma così piccolo poteva essere spiegato in molti modi. Lo stesso Eysenck e altri, in studi successivi, mostrarono come fosse dovuto alle persone che, a conoscenza del “significato” del proprio segno zodiacale, si lasciavano influenzare nelle loro scelte.

Ripetendo l’esperimento con bambini, o con adulti “ignoranti” in tema di astrologia, l’effetto spariva completamente.

Categorie

Sullo stesso argomento

Prometeo