Incomprensioni statistiche: semplici consigli per non cadere in errore

  • In Articoli
  • 28-01-2021
  • di Davide Palmigiani e Davide Passaro
img
©Pixy.org
In questi mesi di pandemia ci siamo tutti ritrovati incollati al televisore, in attesa di comunicazioni più o meno istituzionali circa l’andamento della curva dei contagi. In quei momenti, gran parte della popolazione italiana è stata esposta, volente o nolente, a notevoli quantità di comunicazione di tono scientifico. Dovrebbe quindi essere diventata chiara a tutti l’importanza di discipline come la statistica e la matematica, che hanno giocato e giocano tutt’ora una parte fondamentale, proponendo alla politica possibili strategie per contenere la diffusione del contagio.

Purtroppo nel nostro Paese (e non solo nel nostro, in effetti) può capitare di sentire vantarsi di saperne poco di scienza o di matematica. La realtà sta però dimostrando che vantarsi di non saper leggere e interpretare un grafico non è una strategia che paga sul lungo termine.

Si è reso infatti evidente un problema: l’evoluzione di una pandemia è un fenomeno molto grande, sfaccettato e, come tale, non possono bastare risposte semplici davanti a tanti interrogativi complessi. Di fronte a un fenomeno complesso è il caso di affidarsi a esperti, scienziati che hanno dedicato anni della loro vita a studiare questi fenomeni. Il nostro obiettivo è quindi quello di suggerire un possibile atteggiamento che si dovrebbe avere di fronte a qualunque informazione “di tipo statistico” riportata da giornali o politici, affinando la capacità di riconoscere errori, distorsioni, bias.

Per dare un’idea, già solo per rispondere alla più basilare domanda posta durante i primi mesi di pandemia: “Quante sono le persone che sono entrate in contatto con il Covid-19?”, l’ISTAT, Istituto nazionale di statistica, ha svolto durante l’estate 2020 una campagna di raccolta dati in collaborazione con la Croce Rossa Italiana. Apparentemente è una domanda semplice, con risposta ancora più semplice: “Le conti”. In realtà è piuttosto complessa e rientra nella teoria del campionamento da popolazione finita, di cui parliamo qui sotto.

image

Mentire con le statistiche: il caso di Yale


È noto che, nella comunicazione “scorretta”, un trucco spesso usato per avvalorare la propria tesi è quello di citare numeri un po’ a caso e statistiche fuori contesto. Come primo esempio riportiamo un caso citato nel bellissimo libro di Darrell Huff, Mentire con le statistiche.

Nel 1950, sui giornali statunitensi uscì la sensazionale notizia che un laureato medio di Yale che aveva conseguito il titolo nel 1924, guadagnava in media 25.111 dollari l’anno, ovvero l’equivalente attuale di circa 200 mila dollari. Di fronte a una notizia del genere, un lettore accorto dovrebbe chiedersi:
  • 1. Qual è la fonte dello studio?
  • 2. Qual è l’incertezza associata al dato, ovvero, di quanto sta sbagliando?
  • 3. Come è stato formato il campione, ovvero, come sono stati raccolti i dati?

Di solito, ed è vero ora come allora, il fatto che non venga riportata la fonte o che sia quasi impossibile risalire ad essa è un primo indizio di un’informazione non particolarmente credibile. Se pure la fonte fosse rintracciabile, è da verificare la sua attendibilità. Uno studio condotto da un ente di ricerca prestigioso che ha pubblicato i risultati in una rivista scientifica internazionale soggetta a peer-review non può avere lo stesso peso di una ricerca portata avanti da una sconosciuta società privata che ha riportato i risultati come comunicato stampa. Per questa ragione, per considerare una notizia credibile diciamo che essa deve essere verificabile e provenire da una fonte attendibile.

Poi, qual è l’incertezza associata al dato? Di per sé la sola media non è un indicatore particolarmente utile per rappresentare una grandezza come il reddito, perché possono esserci grosse variazioni: un reddito medio alto si può ottenere anche solo guardando un gruppo di laureati con una piccola minoranza di “super ricchi”, mentre la maggior parte guadagna molto meno. Sarebbe utile affiancare alla media anche il valore di altri indicatori, come la varianza, che dà una misura di quanto i dati si discostano dalla media, o la mediana. Certamente, se fossi un genitore che sta per pagare l’esorbitante retta di Yale, questi dati in più mi sarebbero di grande interesse.

Successiva domanda da porsi, soprattutto se lo studio non è stato eseguito da statistici di professione, è quella relativa al campionamento, ovvero al modo con cui sono stati selezionati i lavoratori laureati nella popolazione. Se, ad esempio, il valore del reddito medio fosse stato ottenuto da dati provenienti da sondaggio telefonico, sarebbe molto probabile ottenere un valore sovrastimato, in quanto è possibile che gli intervistati, anche solo per vantarsi, possano aver un po’ aumentato il proprio effettivo guadagno. Probabilmente gli stessi intervistati, se l’indagine fosse stata eseguita dall’Agenzia delle Entrate, avrebbero risposto diversamente, giocando al ribasso.

Sempre riguardo al campionamento, merita chiedersi chi ha risposto alle domande? È piuttosto probabile che una parte dei laureati di Yale di quell’annata non sia stata rintracciata e che non tutti siano stati disponibili a rispondere. Il dato è stato quindi ottenuto da un sottoinsieme dei laureati di cui si era rintracciato l’indirizzo e che avevano risposto al sondaggio. È probabile che questi non siano un campione rappresentativo della popolazione da analizzare. Non è difficile immaginare infatti una persona che, senza una carriera sfavillante, sia ritrosa a dichiarare il proprio reddito, alterando il risultato finale.

Una volta trovata risposta a tutte queste domande, la conclusione è che probabilmente il reddito medio è stato sovrastimato.

Che si tratti di laureati di Yale o del numero di positivi al Covid, il problema centrale è quindi la procedura di campionamento. Non essendo quasi mai possibile nella pratica raccogliere informazioni da ogni elemento della popolazione, perché ad esempio troppo costoso in tempo o denaro, si sceglie di analizzare e trarre conclusioni solo da una parte di essa.

Concludiamo questa parte con un esempio particolarmente esplicativo, sempre presente nel libro di Huff. Immaginiamo di avere un sacco di fagioli ben mescolati, alcuni rossi e alcuni bianchi e di voler sapere che rapporto c’è fra le quantità dei due tipi. L’unico modo per avere la certezza è contarli tutti, ma è possibile stimare tale rapporto estraendone una manciata e contando solo quelli. Ovviamente la stima sarà una buona approssimazione della realtà se la manciata è rappresentativa: se i fagioli scelti sono troppo pochi, o se non erano ben mischiati ad esempio, il campione fornirà dei valori fortemente distorti. Sta al contadino di turno, o allo statistico di professione, capire come ottenere un campione rappresentativo.

Le elezioni statunitensi del '36


Un celebre esempio di errore nell’uso dei rilevamenti statistici è quello relativo alle elezioni presidenziali statunitensi del 1936. Una premessa: a partire dagli anni '20 dell’800 negli USA si consolidò la pratica della raccolta degli Straw Polls (voti di paglia), ovvero rilevazioni condotte da giornali attraverso l’invio a un gran numero di persone di questionari con la richiesta di indicare la propria preferenza di voto. Gli Straw Polls ritenuti più affidabili erano quelli della rivista Literary Digest, ottenuti inviando centinaia di migliaia di questionari a indirizzi presi da elenchi telefonici e di possessori di automobili. Literary Digest aveva correttamente previsto i risultati delle elezioni del 1920, 1294, 1928 e 1932.

Nel 1936 invece la previsione della rivista si rivelò completamente sbagliata, dando largamente per vincente il repubblicano Alfred Mossman Landon sul presidente democratico uscente Franklin Delano Roosevelt. Il clamoroso fallimento della previsione, nonostante i 2,3 milioni di partecipanti all’indagine, fece emergere le criticità del metodo utilizzato dalla rivista, reso ancor più evidente dal risultato ottenuto dallo statistico George Gallup, che riuscì a predire la vittoria di Roosevelt utilizzando un campione molto più ristretto, di circa 50.000 persone.

In un successivo articolo dal titolo “Why the 1936 Literary Digest Poll Failed” si è cercato di analizzare il motivo dell’errore. Secondo Peverill Squire, autore della ricerca, esso fu dovuto a più fattori che portarono a sottostimare i voti democratici: il campione utilizzato, ovvero i possessori di telefono o automobile, escludeva a priori parte della fascia più povera della popolazione e, soprattutto, il tasso di non risposta al sondaggio degli elettori democratici era stato più alto di quello dei repubblicani. Anche qui, un problema di cattivo campionamento.

Per concludere, ritornando all’attualità, ci accorgiamo che medici e statistici hanno dovuto affrontare un problema simile durante i primi mesi di epidemia; nella stima dei malati effettivi di Covid-19 il campione statistico era legato ai tamponi, che però erano effettuati solamente su sintomatici, escludendo a priori una parte importante della popolazione, e producendo di conseguenza grossi problemi di campionamento con ripercussioni a valanga sulla valutazione del numero effettivo. Ecco perché “Quante sono le persone che sono entrate in contatto con il Covid-19?” è una domanda complessa, e perché “Le conti” è una risposta miope.

Riferimenti bibliografici

  • D. Huff, Mentire con le statistiche, ed. Monti & Ambrosini, 2009.
  • D. Spiegelhalter, “Our nine-point guide to spotting a dodgy statistic”, disponibile al seguente link: https://bit.ly/3b9R9bp
  • P. Squire, “Why the 1936 Literary Digest Poll Failed.” The Public Opinion Quarterly, vol. 52, no. 1, 1988, pp. 125–133. JSTOR, www.jstor.org/stable/2749114 .