Di cosa parliamo quando parliamo di prove scientifiche e prove statistiche

Intervista a Regina Nuzzo

  • In Articoli
  • 22-02-2022
  • di Fabio Turone
img
Regina Nuzzo è docente di statistica all’Università Gallaudet di Washington per non udenti (lei stessa ha difficoltà di udito). Come giornalista scientifica ha scritto per la rivista Nature una serie di articoli sugli errori più comuni commessi dagli scienziati nell’uso della statistica. Negli ultimi anni è diventata consulente per la comunicazione dell’American Statistical Association e si è occupata proprio di questioni legate all’incertezza e alla comunicazione dell’incertezza.

Regina, per iniziare ti chiederei di parlarci della tua esperienza non solo come docente, ma come comunicatrice sul tema dell’incertezza, e del lavoro che hai condotto con l’American Statistical Association.

Nel mio lavoro per l’American Statistical Association racconto la mia esperienza come giornalista scientifica: aiuto a far sì che il concetto dell’incertezza risulti comprensibile, pertinente e appropriato per tutti i tipi di pubblico. In particolare il grande pubblico, gli scienziati e i giornalisti scientifici di fronte all’incertezza si trovano in difficoltà: è difficile anche capire cosa significa, e al nostro cervello non piace.

Il mio lavoro consiste proprio nell’aiutare giornalisti e persone comuni a capire di cosa parliamo quando parliamo di prove scientifiche, prove statistiche o confidenza statistica, e a metterle nella giusta prospettiva in modo che le persone sappiano utilizzarle.

Cominciamo ad addentrarci nella questione. Da giornalista scientifico, un problema tipico in cui mi imbatto è provare a comunicare che un risultato statisticamente rilevante è l’approccio migliore in cui sperare, la prova migliore su cui basare il nostro ragionamento; non è però sempre vicino all’idea di verità scientifica che molto spesso si aspettano le persone, politici compresi. Come si può spiegare la differenza tra significatività ed evidenza?

È una domanda eccellente: in che modo possiamo far davvero capire alle persone la differenza tra verità scientifica, prova scientifica e prova statistica? Il problema a volte sta nel nostro linguaggio e nelle nostre aspettative su cosa la scienza sia realmente in grado di fare. La scienza è un processo caotico che trasforma i fatti in conoscenza; per questo accumuliamo prove, ma poi tradurli in decisioni e azioni da intraprendere è affare della società. Decidere che ci sono abbastanza prove per poter agire è diverso da dire che la tal cosa è vera. Alcuni dei miei amici scienziati mi chiedono perché noi statistici siamo tanto difficili: non potremmo semplicemente dare una risposta? E io chiedo allora quale sia “la” risposta; non la conosciamo, l’universo non ce la dà mai. Quello che noi umani facciamo è raccogliere prove, anche se spesso sono confuse e incerte, e continuare a farlo seguendo il procedimento scientifico finché non ci sentiamo di aver acquisito una certa familiarità con qualcosa. Ma credo che dovremmo tutti ricordare che quando stabiliamo un livello di evidenza, quella dicotomia netta fra “sì, è così” e “no, non è così” è un artificio. È un male necessario, perché non possiamo aspettare all’infinito per essere sicuri al cento per cento prima di agire: quella certezza non esiste. Insomma, l’evidenza statistica e la certezza statistica hanno a che fare con la società e con le decisioni che prendiamo noi umani; sono cose che riguardano il comportamento, non la verità.

A proposito del livello di evidenza, in generale si stabilisce per convenzione che certi risultati siano da considerare accettabili, e che dunque si possano pubblicare e comunicare. Il livello di evidenza naturalmente cambia parecchio a seconda della materia. Nella fisica delle particelle servono prove molto solide prima di dichiarare di aver rilevato uno specifico evento subatomico, anche uno che si cerca da anni; al contempo ci si assicura di poter ripetere l’esperimento un numero di volte sufficiente a permettere, in teoria, di raggiungere una certa validità statistica. In altre aree, come nel caso della pandemia da Covid-19, occorre a volte prendere decisioni sul da farsi, e se si vede che non si può attendere si sceglie la via meno improbabile o la meno pericolosa. Visto che nella tua esperienza hai avuto a che fare con moltissimi scienziati di ambiti diversi e provenienti da diversi paesi: credi che gli scienziati ne sappiano abbastanza sulla natura di questi livelli, o anche loro si devono adeguare?

La questione di cui parli, ovvero determinare una soglia diversa a seconda della disciplina, è davvero interessante; ed è proprio così che dovrebbe funzionare. Nel caso della fisica delle particelle la soglia di evidenza è di 1 su 3,5 milioni, mentre per esempio in uno studio di psicologia è di 1 su 20, e si parla di un certo livello di incertezza. Il costo della raccolta dati è un fattore che dovremmo considerare, e credo che a volte influenzi il processo, ma ci sono altri elementi oltre a questa soglia che spesso non prendiamo in considerazione. Ne hai citato uno, il costo derivato dal trascurare qualcosa di vero e reale; e c’è anche il costo che deriva dal dichiarare qualcosa vero e reale, e agire di conseguenza, per poi vedere che si trattava di un errore.

Il trattamento della Covid-19 ne è un esempio perfetto. Non possiamo aspettare la certezza assoluta, perché non l’avremo mai. Che fare, dunque? Se aspettiamo di avere un livello di confidenza troppo alto per l’efficacia del trattamento, quante persone perderanno la vita a causa di questa inazione? Ecco il costo di trascurare una circostanza vera e non fare nulla. Nel caso opposto, se siamo precipitosi e interveniamo troppo in fretta su assunti non veri, ecco che perdiamo vite per quel motivo. Il costo dei falsi positivi e dei falsi negativi dovrebbe essere esplicitamente calcolato. Gli scienziati lo calcolano sempre? Purtroppo no. Viene compreso, considerato attentamente e rispettato dal grande pubblico e dai giornalisti? Neppure.

Ci sono comunque altri elementi da considerare quando si stabilisce quel limite, e porterò un terzo esempio da aggiungere a quelli citati. Qualche anno fa, durante i Mondiali di calcio, ci fu in Germania il caso di un polpo che previse correttamente l’esito di otto partite su otto in cui giocava la nazionale tedesca: si trattava di un risultato statisticamente molto significativo. Si dovrebbe quindi applicare lo stesso livello di evidenza che si richiederebbe in un altro scenario, ad esempio per dichiarare l’efficacia di una tecnica di rilassamento? Certo che no: stiamo infatti parlando di un fenomeno molto poco plausibile qual è l’ESP (percezione extrasensoriale). Dobbiamo pertanto prendere in considerazione la plausibilità dell’oggetto di indagine, un altro elemento che spesso viene del tutto tralasciato nei calcoli espliciti o impliciti, e che viene raramente individuato da giornalisti e pubblico.

Viene in mente la famosa citazione di Carl Sagan: «Affermazioni straordinarie richiedono prove straordinarie». Se ho ben capito, dici che va presa in considerazione anche la verità inversa. In alcuni contesti possono esserci fattori esterni alla pura statistica che, per via della posta in gioco, suggeriscono di accettare una soglia più bassa. E intendi anche che dovremmo non solo conoscere meglio la statistica, ma anche imparare molto di più su come applicare i diversi metodi e le diverse soglie, così da ottenere le migliori indicazioni possibili da mettere in pratica; come giornalista credo che sia la questione principale. Tutte le volte in cui il grande pubblico ha a che fare con la statistica e con i suoi numeri, infatti, è perché deve operare una scelta tra un rischio e un beneficio, o un danno e i relativi costi; talvolta sono i decisori politici a dover prescrivere comportamenti da seguire. Puoi approfondire?

Decisamente. Credo che tu stia toccando degli ottimi punti, specie quello sui rischi concorrenti: nelle situazioni in cui dobbiamo prendere una decisione o agire, anche non fare nulla è comunque una decisione. Non c’è nulla di completamente sicuro nella vita, l’universo non ci dà alcuna garanzia, perciò in qualunque caso corriamo dei rischi. Penso che sia importante trasmettere questo concetto ai decisori politici o, quando possibile, educare le persone comuni così che siano in grado di prendere decisioni informate per proprio conto.

Per fare un esempio, al momento negli Stati Uniti (non so se sia lo stesso in Italia) si discute molto sullo screening mammografico per la diagnosi precoce del tumore al seno. A cercare online informazioni sullo screening di routine, cioè in assenza di sintomi, spesso si leggono cose come “minore probabilità di morire del 21%” se ci si sottopone al controllo ogni anno, ma non viene spiegato nient’altro. Considerando solo questo dato, chi non vorrebbe ridurre la propria probabilità di morire di cancro al seno? È statisticamente molto significativo, ci sono buone ragioni per fare un’affermazione del genere, ma quello che invece non viene fatto è parlare del quadro generale. Direi che suona parecchio diverso parlare di un rischio di morte ridotto del 21% rispetto a dire che su 1.000 donne non sottoposte a screening annuale, 5 moriranno nell’arco di quindici anni, mentre su 1.000 donne sottoposte a screening ne moriranno 4. Questo secondo modo di comunicare fornisce abbastanza informazioni affinché l’individuo possa decidere se accollarsi il costo o il dolore o qualsiasi svantaggio dello screening, perché vuole essere quella persona su mille che potrebbe essere salvata, oppure no.

Ecco un altro esempio che serve anche a illustrare l’idea della significatività statistica contro la significatività pratica. Spesso si vedono studi che suggeriscono alle persone di fare più esercizio, in modo da non prendere peso con l’avanzare dell’età. In uno studio di qualche anno fa furono seguite 4.000 donne nel corso di 13 anni. I risultati, a detta di chi l’aveva condotto, erano statisticamente molto significativi e mostravano che occorre fare esercizio fisico intenso per almeno un’ora al giorno, sette giorni su sette, per non aumentare di peso. Ovviamente i giornalisti si tuffano su una notizia del genere dicendo che le persone sono pigre e devono muoversi di più. Se però andiamo più a fondo e guardiamo alla dimensione reale dell’effetto misurata dallo studio (un buon giornalista saprebbe farlo, ma non è da tutti), vediamo che si tratta di una differenza di 0,05 chili all’anno fra le persone che vanno a correre tutti i giorni per un’ora e quelle che invece non si muovono granché, o si limitano a fare una camminata ogni tanto durante la settimana: insomma, non proprio una grande differenza. Penso che se comunicassimo tale informazione alle persone, poi loro potrebbero prendere una decisione: che sia di fare esercizio perché è bello e ne vale la pena, o di compensare mangiando meno gelati e cibo spazzatura.

La questione negli esempi riportati non è se siano statisticamente significativi (lo sono entrambi), ma riguarda i rischi concorrenti e la loro dimensione. Fai benissimo a dire che bisogna tenere conto di tutto l’insieme di informazioni oltre alla statistica; certo che anche quella è importante, ma deve essere considerata nel contesto e nell’area di riferimento. La discussione dovrebbe partire da lì, non fermarsi alla significatività statistica.

Nel tuo lavoro, cosa di cui ti sono davvero grato, affronti un altro grande problema al quale dovremmo prestare attenzione e sul quale ha discusso molto anche l’American Statistical Association. Finora abbiamo parlato di come interpretare una statistica ideale basata su dati raccolti in modo ideale, tuttavia sappiamo che gran parte della letteratura pubblicata ha usato e usa gli strumenti della statistica in modo tutt’altro che ideale. Cosa ci puoi dire su questo tema piuttosto complicato?

Finora ho discusso soprattutto del modo in cui aiutiamo giornalisti e pubblico a comprendere gli strumenti della statistica, ma come dici ciò si basa sull’assunto che tali strumenti siano utilizzati nel modo appropriato. Per chi è del settore, invece, da una decina d’anni a questa parte appare sempre più chiaro che non per forza gli scienziati stessi capiscono le statistiche, anzi: a volte ne fanno un cattivo uso, a volte le fraintendono, a volte ne abusano. Non dico che gli scienziati commettano frode, ma nel mondo scientifico esiste un sistema di ricompense che spinge a scoprire cose nuove e a pubblicare risultati statisticamente significativi; tale incentivo fa sì che sia facilissimo per noi umani prendere delle cantonate nel processo di analisi dei dati.

A proposito della significatività statistica di cui parlavamo, esistono in merito un’ampia letteratura e ricerche approfondite che mostrano come viene inconsapevolmente usata in modo errato; in altre parole, è molto facile scoprire qualcosa di statisticamente significativo che in realtà non lo è. Uno dei lati più infelici (o ironici) è che nel giornalismo in particolare, ma anche nelle pubblicazioni scientifiche, è entusiasmante pubblicare scoperte interessanti, innovative, sorprendenti e seducenti: sono quelli i risultati che finiscono nelle principali riviste e sulle prime pagine dei giornali. Ma sono proprio i risultati statisticamente significativi e sorprendenti che hanno la maggiore probabilità di essere sbagliati. È un vero peccato. La chiamo la “scienza del colpo di frusta” (“whiplash science”): un giorno leggi uno studio stando al quale il caffè fa bene, la settimana dopo ne esce un altro che dice il contrario. Come conciliare affermazioni del genere? In certi casi gli scienziati hanno proprio interpretato male i risultati, anche in buona fede, e utilizzato male gli strumenti della statistica arrivando a quei risultati.

Per ritornare sul tema iniziale, dobbiamo insomma iniziare a capire che c’è una misura statistica dell’incertezza, ma che forse va considerata un’incertezza più ampia relativa a quanta fiducia possiamo dare a qualsiasi risultato scientifico. Esistono diverse misure di incertezza, statistiche e scientifiche. Sono una sorta di indicatori indiretti dell’incertezza? In che modo valuteresti i margini di certezza intorno ai risultati scientifici?

Vorrei intanto chiarire di cosa parliamo quando parliamo di incertezza e significatività statistica, visto che finora abbiamo girato intorno a questi concetti senza ben definirli. Il modo in cui stabiliamo la significatività statistica è, come lo chiamo io, un “indicatore di sorpresa”: ovvero, nel caso in cui non ci fosse nessun fenomeno o nessun effetto, se il polpo che secondo noi ha poteri paranormali non ce li ha davvero ma sta tirando a indovinare, quanto saremmo sorpresi dei risultati che abbiamo osservato? Tutto qui, è un modo per dire quanto siano sorprendenti i risultati. Da lì uno dovrebbe poi fare uno studio di replica per raccogliere prove ulteriori, indagare sulla plausibilità e su tutto il contesto, senza fermarsi all’idea di aver trovato qualcosa di sorprendente.

Nell’espressione “statisticamente significativo” tendiamo a pensare che quel “significativo” voglia dire “importante”, “vero”, “notevole” o “serio”, quando in realtà vuol dire proprio solo “che significa” qualcosa, come un segnale stradale che ci indica di dare un’altra occhiata a qualcosa.

Un’altra espressione usata dagli statistici è “confidenza”, per esempio quando si parla di “intervallo di confidenza”. È di nuovo un concetto importante ma che potrebbe risultare fuorviante. Se diciamo che qualcosa ha una confidenza del 95%, infatti, non significa che c’è il 95% di probabilità che quella cosa sia vera. L’incertezza è importante perché ci permette di raccogliere le prove nel corso del tempo. Quando guardo uno studio prendo in considerazione l’incertezza e la dimensione dell’effetto, poi vado a prendere altri studi sullo stesso argomento (repliche, studi condotti su altre popolazioni, eccetera) e cerco di mettere il tutto in prospettiva. Un esempio mi pare molto utile a capire meglio: qualche anno fa il New York Times parlò di un vaccino per il virus Ebola, e nel titolo e nel lancio annunciava un’efficacia del 100%. Un valore del genere vorrebbe dire un vaccino perfetto, che funziona sempre senza alcuna incertezza. Andando a prendere lo studio in questione, però, si vede che l’intervallo di confidenza, questa sorta di nube di incertezza, in realtà era compreso tra il 70 e il 100%. Una bella differenza. Quando il giornalista del New York Times fu ripreso in merito, si giustificò dicendo che era quanto gli scienziati avevano riportato sulla rivista, e che lui aveva ignorato l’incertezza perché non gli sembrava un dato importante. Credo che in quel caso gli scienziati avrebbero dovuto evidenziare questo punto, e che il giornalista avrebbe dovuto fare da interprete per il pubblico, spiegando che nessun vaccino è efficace al 100% ma le prove al momento suggerivano un’efficacia almeno del 70%, e che nel contesto il 70% bastava a fermare un nuovo scoppio di ebola. In questo modo si sarebbe riconosciuta l’incertezza, perché la sicurezza al 100% non c’era, ma mostrando che andava bene lo stesso; sarebbe stato un quadro più completo, sfaccettato, sottile e informativo rispetto a lanciare un numero e basta, ignorando l’incertezza con l’idea che non fosse importante o che sminuisse il lavoro degli scienziati. L’incertezza non è un male, né un fallimento personale da nascondere: quel margine di errore è necessario, fa parte dell’universo e del processo della scienza.

Se ben ricordo la rivista che citavi era The Lancet, che ha un curriculum di tutto rispetto nel contestualizzare le ricerche mediche e spiegare quale sia l’interpretazione migliore su cui basare la pratica: un esempio particolarmente significativo degli errori che noi tutti possiamo commettere. Vorrei concludere con una domanda: secondo te, questa sorta di interpretazioni complesse e contestualizzate diventerà la norma, oppure avremo a che fare con un’eccessiva semplificazione ancora a lungo?

Al momento, quando si guarda al modo in cui la scienza sta cambiando per quanto riguarda l’evidenza statistica e gli strumenti statistici, ci sono studi e studiosi molto pessimisti secondo cui nulla è cambiato e nulla cambierà. Dall’altro lato abbiamo studi che affermano che tutto ciò sta avendo qualche effetto: le conversazioni sul tema stanno cambiando, e così le riviste. Personalmente mi trovo un po’ nel mezzo tra le due posizioni, ma più vicina alla parte ottimista. Credo che il vero cambiamento stia venendo dagli scienziati più giovani. I giovani capiscono in maniera più intuitiva che il mondo non è dicotomico, non è bianco e nero; in ogni cosa ci sono sfumature di grigio e di incertezza, e credo che i giovani nella loro cultura stiano imparando ad accettarlo, oltre al fatto che sono esposti a questo genere di cose sin dalla prima educazione. Sono loro a proporre e condurre le innovazioni. I più vecchi non cambieranno, ma nei giovani risiede la speranza per il futuro: magari non subito ma prima o poi, sono ottimista.

Sono contento di sapere che a parere tuo più si parla dei limiti della scienza, migliore diventerà la scienza stessa in futuro. Non stiamo tramando per indebolire la scienza, al contrario: la stiamo rafforzando.
accessToken: '2206040148.1677ed0.0fda6df7e8ad4d22abe321c59edeb25f',