Pasticci significativi

img
Nel numero scorso di questa rubrica abbiamo commentato l’appello, lanciato sulle pagine di Nature da più di 800 ricercatori, per “Mandare in pensione la significatività statistica”. Concetto scivoloso di per sé, gli autori dell’appello fanno notare come diventi addirittura deleterio quando viene usato acriticamente per stabilire una distinzione netta e oggettiva tra studi significativi e non significativi, invece che un criterio convenzionale basato su una soglia arbitraria. E ancora peggio quando si fa il grave sbaglio di confondere la mancanza di significatività statistica dello studio con l’assenza dell’effetto cercato.

Il problema è ulteriormente aggravato dai pasticci che i ricercatori talvolta fanno con la statistica, e in particolare con il p-value, che (in estrema sintesi) è il parametro solitamente usato per misurare la significatività statistica. Statcheck è un programma che permette di estrarre automaticamente i risultati dei calcoli statistici da un articolo scientifico pubblicato, e di ricalcolare le significatività riportate. Naturalmente questo automatismo funziona sotto certe condizioni, ma permette di fare su larga scala verifiche che, fatte a mano, richiederebbero tempi improponibili.

Gli autori del software (un gruppo di ricercatori dell’Università di Tilburg, in Olanda) lo hanno usato per esaminare più di 250.000 articoli di psicologia pubblicati tra il 1985 e il 2013[1]. Il risultato è stato interessante: metà degli articoli riportava almeno un p-value incoerente, anche se magari di poco, con i risultati dei test statistici, mentre più del 12% conteneva un valore così sbagliato da rendere inaffidabile il risultato dello studio. Ci sono buone ragioni per ritenere che simili risultati si possano trovare anche prendendo in considerazione le pubblicazioni mediche.

Un aspetto interessante è che gli errori commessi dagli autori degli articoli non sembrano casuali. Infatti, i p-value pubblicati tendono più spesso a indicare che lo studio è più statisticamente significativo rispetto a quanto risulta quando il valore è stato ricalcolato. Questo, a pensar male, potrebbe essere un indizio di “massaggio” dei dati per ottenere uno studio più significativo; in realtà potrebbe anche essere conseguenza di un effetto più sottile. Per esempio, un ricercatore può controllare più accuratamente i risultati di uno studio se trova che la significatività è inaspettatamente bassa, trovando e correggendo maggiormente gli errori “verso il basso” rispetto a quelli “verso l’alto”. In ogni caso, questo tipo di errore è difficilmente distinguibile da un (piccolo o grande) imbroglio. È tuttavia chiaro che, in qualche misura, inquina la letteratura scientifica, per lo meno nei casi in cui lo sbaglio fa saltare il p-value oltre la soglia (arbitraria, ricordate, ma universalmente usata) di 0.05, facendo magicamente diventare significativo un risultato che non lo è.

Ma c’è di più. In un quasi accorato articolo su European Science Editing[2], Farrokh Habibzadeh (presidente della World Association of Medical Editors) inanella una serie di errori trovati sugli articoli inviati per la pubblicazione che, in alcuni casi, farebbe inorridire un laureando. Per esempio, la frase «il 34.29% dei soggetti aveva la febbre» non ha molto senso se i soggetti sono, come nel caso citato da Habibzadeh, 35 e i febbricitanti 12: è vero che 12/35 = 0.3429, ma se fossero stati 13 il risultato sarebbe stato 13/35 = 0.3714, un salto del 3%. Scrivere “34%” senza decimali sarebbe stato più corretto, e forse sarebbe stato ancor meglio limitarsi, quando i casi sono meno di 100, a «12 casi su 35». Addirittura, Habibzadeh sostiene di aver letto in un articolo un p-value <0.000; dato che il p-value è una probabilità, può assumere solo valori compresi tra 0 e 1, e dire che è “minore di zero” non ha alcun senso. Cos’è successo? Come abbiamo visto nel numero scorso, un risultato si considera convenzionalmente come significativo quando p<0.05, e spesso gli autori riportano il valore di p trovato, per mostrare di quanto sia più piccolo: per esempio qualcosa come p<0.023. Il programma usato ha calcolato un p-value molto piccolo, come 0.00001, ha plausibilmente riportato solo le prime tre cifre decimali, il ricercatore ha fatto copia-e-incolla e oplà, ridono persino gli studenti del primo anno di qualunque materia scientifica.

Questi ultimi sono in fondo casi un po’ estremi, sciatterie facilmente individuabili dai revisori. Ma continuano periodicamente a essere pubblicati articoli che spaziano dalla pacata analisi statistica sulla prevalenza degli errori a vere e proprie filippiche contro le imprecisioni metodologiche nella letteratura scientifica, quindi è chiaro che il problema esiste, anche se è difficile valutarne l’impatto.

Attenzione: naturalmente questo tipo di errori non ha niente a che vedere con l’idea che certi errori siano non solo inevitabili ma salutari nel cammino della scienza. Forse è ovvio, ma gli errori legittimi sono quelli in cui un ricercatore prova, per esempio, a interpretare i dati con una teoria che poi si rivelerà sbagliata. Solo il progredire della ricerca può mostrare che una teoria è sbagliata, ma le conoscenze necessarie a rendersi conto di un errore metodologico dovrebbero essere ampiamente disponibili agli scienziati che progettano e realizzano uno studio.

C’è una lezione da trarre da questa faccenda? Probabilmente è solo quella, solita, per la quale la scienza è un’impresa umana e come tutte le imprese umane è difettosa e perfettibile. Dato che i temi scientifici sono, o dovrebbero essere, sempre più al centro del dibattito politico, occorre imparare a conoscere la scienza per come funziona davvero e non sulla base di una sua caricatura idealizzata, riconoscendone i limiti intrinseci (per esempio, un discorso etico non può prescindere dai fatti scientifici, ma dai fatti scientifici non discende automaticamente alcuna considerazione etica) e gli aspetti migliorabili, come appunto la preoccupante prevalenza di errori metodologici o molte altre questioni di cui ci siamo occupati in questa rubrica.

Anche la buona notizia in fondo è la solita, cioè che la scienza, almeno in linea di principio, è costruita in modo da compensare nel corso del tempo queste debolezze: tant’è che sono gli scienziati stessi a riflettere su questi problemi, cercando e proponendo soluzioni.

Per tornare al caso specifico, una possibile soluzione è, per esempio, che i ricercatori prendano coscienza di quanto certi strumenti statistici sono complicati e difficili da usare, e che capiscano che un gruppo di ricerca moderno deve essere sempre più spesso multidisciplinare[3]. Come racconta una storiella circolata su un forum di discussione dell’American Statistical Association (la traduzione è mia):

Un neurochirurgo telefona al Dipartimento di Statistica. «Sto preparando uno studio, ma preferisco fare io stesso le statistiche. Non mi serve aiuto; mi chiedevo solo se poteste consigliarmi un buon testo di statistica». Lo statistico risponde: «Che combinazione, meno male che hai chiamato! Ho sempre desiderato fare un’operazione al cervello, puoi suggerirmi un buon manuale?»

Note

1) M.B. Nuijtenet al., “The prevalence of statistical reporting errors in psychology (1985–2013)”, Behavioural Research 48:1205–1226 (2016). I risultati dello studio sono riassunti in un saggio meno tecnico: M.B. Nuijten “Preventing statistical errors in scientific journals”, European Science Editing 42:1 (2016).
2) F. Habibzadeh, “Common statistical mistakes in manuscripts submitted to biomedical journals”, European Science Editing 39:4 (2013).
3) A.W. Brown, K.A. Kaiser, D.B. Allison, “Issues with data and analyses: Errors, underlying themes and potential solutions”, PNAS 115:2563–2570 (2017).