Le bugie della statistica

img
©Unsplash
In questo numero della rubrica, e in un paio dei prossimi, parleremo di statistica e dei suoi trabocchetti. Cominciamo perciò con la citazione obbligatoria, attribuita al politico inglese Benjamin Disraeli:

«There are three kinds of lies: lies, damned lies, and statistics»
«Ci sono tre tipi di bugie: le bugie, le bugie sfacciate e le statistiche»

Il primo a renderla popolare è stato Mark Twain, è così famosa da meritarsi una voce di Wikipedia e rende bene l’idea diffusa che con i numeri, e in particolare le percentuali, si possa dimostrare tutto e il contrario di tutto.

Più vicino a noi c’è l’altrettanto famoso, almeno a Roma, “pollo di Trilussa”, dal sonetto La statistica:

«Ma pe’ me la statistica curiosa
è dove c’entra la percentuale,
pe’ via che lì la media è sempre eguale
puro co’ la persona bisognosa.
Me spiego: da li conti che se fanno
seconno le statistiche d’adesso
risurta che te tocca un pollo all’anno:
e se nun entra nelle spese tue
t’entra ne la statistica lo stesso
perché c’è un antro che ne magna due».

Insomma, il politico accorto sa che le statistiche possono essere un efficace strumento di propaganda e l’uomo della strada è (giustamente) sospettoso nei loro confronti. Dato che in questa rubrica usiamo spesso esempi di scienza discutibile, proveremo a parlare di cattiva statistica; per rimanere, come si dice, “sul pezzo” cominceremo recensendo un libro di più di sessant’anni fa.

Ma facciamo prima un passo indietro.

La statistica, così come il suo parente calcolo delle probabilità, è uno dei più importanti strumenti che compongono la cassetta degli attrezzi dello scienziato che dà il nome a questa rubrica. È in realtà una specie di coltellino svizzero che serve per fare molte cose.

Per esempio, può servire per descrivere in modo sintetico le caratteristiche di un fenomeno: dire che il reddito medio in Italia è cresciuto o diminuito negli anni è un’informazione interessante che riassume dati altrimenti difficilmente maneggiabili (il reddito di ogni cittadino, anno per anno). Posso usare la varianza, cioè di quanto i valori si sparpagliano intorno alla media, per dimostrare che ci sono più geni portati per la fisica teorica tra gli uomini che tra le donne (non è vero, ma lo ha recentemente affermato un malaccorto quanto misogino fisico teorico, maschio[1]); oppure, proseguendo l’esempio di prima, per mostrare che il reddito è più distribuito e la differenza tra ricchi e poveri si è attenuata (la varianza è diminuita) oppure il contrario.

Posso usare la statistica per far emergere un “segnale” dal “rumore di fondo”, come nella ricerca di nuove particelle in fisica. Si raccolgono i dati di milioni di collisioni tra protoni, la grande maggioranza delle quali è di scarso interesse, e si usano metodi statistici per trovare le poche nelle quali si è probabilmente prodotto un bosone di Higgs.

Posso ancora usare la statistica per cercare correlazioni non immediatamente visibili “a occhio”: è vero che i nati sotto il segno dello Scorpione sono più vendicativi degli altri? È vero che il riscaldamento globale va di pari passo con la produzione di biossido di carbonio dalle attività umane? È vero che il tasso di divorzi nel Maine è correlato con il consumo pro capite di margarina?[2]

Tutte queste applicazioni della statistica possono essere distorte (per errore o con nequizia) e trasmettere il messaggio sbagliato. Nel prossimo numero, forse due, della rubrica vedremo alcuni esempi. Cominciamo però con un consiglio di lettura, più che una vera e propria recensione.

Nel 1954 esce How to lie with statistics di Darrell Huff[3], prima edizione di un libretto di poco più di cento pagine che diventerà sorprendentemente il libro di statistica più letto di tutti i tempi[4]. In dieci brevi e leggeri capitoli Huff vola tra fallacie, errori e trucchi per ingannare con la statistica, dai bias nascosti agli inghippi nella rappresentazione grafica. E, come spesso capita, più che una carrellata di orrori viene fuori un manualetto di statistica ad uso dei non praticanti.

Un esempio per tutti è quello della “mucca crescente”. Un grafico a barre è un modo semplice e comprensibile per visualizzare il confronto tra diverse grandezze: la lunghezza di due barre è proporzionale, per esempio, alla popolazione di vacche da latte negli Stati Uniti nel 1860 e nel 1936. La seconda è il triplo della prima, quindi la barra sarà tre volte più lunga. Però le barre sono noiose, e sulla pagina di un giornale attirano poco l’occhio. Molto meglio un’infografica in cui invece di una barra si usa un disegnino, in questo caso due mucche, una alta il triplo dell’altra.

Ora, il problema è che (a differenza della barra, della quale è importante solo la lunghezza) la mucca è un oggetto tridimensionale, e il suo disegno è bidimensionale. Se il rapporto tra le lunghezze è 1:3, quello tra le aree è 1:9 e quello tra i volumi 1:81. L’effetto visivo sarà quindi di una crescita molto più grande del fattore tre, anche se l’autore dell’infografica potrà, magari in buona fede, affermare di avere rappresentato le cose come stanno.

Senza contare che, come fa notare Huff, uno rimane con la strana impressione che le mucche siano più grandi di come erano un tempo.

In esergo Huff riporta quattro frasi celebri sulla statistica. Una è quella citata all’inizio; la terza è appropriatamente, ma imprecisamente[5], attribuita a H. G. Wells, uno dei padri del genere letterario che oggi chiamiamo fantascienza:

«Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write».
«Il ragionamento statistico un giorno sarà altrettanto necessario alla cittadinanza quanto la capacità di leggere e scrivere».

La democrazia si basa, oltre che sulla partecipazione, sulla disponibilità di informazioni che permettano ai cittadini di prendere decisioni fondate. Non basta però che le informazioni siano accessibili: è anche necessario avere gli strumenti per comprenderne il significato (e il valore). Diciamo spesso che una sempre crescente frazione di questa informazione è di natura scientifica, e che quindi la cultura scientifica è necessaria per una partecipazione consapevole alla vita democratica; questo è vero in particolare per la statistica. Siamo subissati da informazioni di natura statistica, dalla pomata che rende la pelle del 45% più idratata alla percentuale di stranieri nelle classi delle scuole italiane, passando per gli slogan che chiedono “rischio zero” o “certezza assoluta” e le offerte di guadagni smisurati attraverso il trading online. La capacità di ragionare in termini statistici e di probabilità è davvero già oggi necessaria quanto saper leggere e scrivere.

Note

2) Per i più curiosi, le risposte sono no, sì, ed “e allora?”: https://bit.ly/1FcNnWF
3) Edizione italiana: Mentire con le statistiche, traduzione di G. Livraghi. Pescara: Monti & Ambrosini (2007)
4) J. M. Steele, “Darrell Huff and Fifty Years of ‘How to Lie with Statistics’” Statistical Science 20(3):205–209 (2005)
5) J. W. Tankard jr., “The H.G. Wells quote on statistics: a question of accuracy” Historia Mathematica 6:30–33 (1979)