I preprint: vantaggi e rischi di anticipare la diffusione di uno studio scientifico

Chi percorre il corridoio davanti alla biblioteca del CERN per andare a pranzo, oppure per raggiungere l’Auditorium o la Council Room nel “Bâtiment 60” ha alla sua destra una lunga vetrata che si affaccia sull’ingresso dell’edificio principale, che ospita all’ultimo piano gli uffici del Direttore. Alla sua sinistra, invece, trova una lunga fila di sgargianti classificatori rossi, interrotta solo dalla porta scorrevole della biblioteca. Nessuno sembra mai aprirne i cassetti.

Si tratta dell’archivio dei preprint, quando questi erano ancora documenti fotocopiati e spediti per posta ordinaria. Il preprint è un oggetto abbastanza oscuro e fino a poco tempo fa noto solo dagli addetti ai lavori. Durante le prime frenetiche settimane della pandemia da COVID–19 la sua esistenza ha cominciato a essere nota anche al grande pubblico, attraverso un meccanismo visto più volte: i mezzi di comunicazione, magari riprendendo il comunicato stampa di un ente di ricerca o un’Università, riportano la notizia di un nuovo studio: il fumo sembra ridurre il rischio legato al virus, l’idrossiclorochina è efficace nel trattamento, gli asintomatici sono o non sono contagiosi, il virus provoca anche questa o quest’altra complicanza, e tanti altri. Inevitabilmente sui social network (e anche sui media tradizionali, in realtà) comincia la polarizzazione tra “ottimisti” e “pessimisti”, tra “minimizzatori” e “catastrofisti”. A un certo punto qualcuno fa notare, magari sommessamente ma più spesso usando l’argomentazione come una clava, che lo studio in realtà è ancora «solo un preprint». Ma cosa vuol dire che è «solo un preprint»?

Abbiamo scritto più volte che il prodotto finale di una ricerca è la pubblicazione su una rivista scientifica, secondo le regole della peer review, che permettono di garantire, tra le altre cose, un certo controllo sulla qualità dei lavori pubblicati. Ma il processo di peer review prende molto tempo: tra l’invio dell’articolo e la sua effettiva pubblicazione passano mesi. Per esempio, un articolo che ho davanti adesso è stato ricevuto da Computing and Software for Big Science il 28 aprile 2017, accettato definitivamente il 31 gennaio 2018, pubblicato online il 19 marzo e a stampa solo in novembre. Naturalmente l’uso del web per la pubblicazione accelera il processo, ma non più di tanto.

Gli scienziati hanno sempre avuto l’abitudine di scambiarsi le bozze degli articoli, magari per discuterne con i colleghi prima della pubblicazione. Un preprint è la versione preliminare di un articolo scientifico, non ancora sottoposta a peer review, che circola tra gli addetti ai lavori principalmente per sveltire la comunicazione dei risultati della ricerca e che verrà presumibilmente sostituita, a tempo debito, da una versione propriamente revisionata e pubblicata. L’uso del termine è attestato già nel 1889, ma è negli anni ’50 del Novecento che il fenomeno esplose, principalmente nella comunità della fisica delle particelle.

Come racconta il biofisico canadese James E. Till (noto per aver dimostrato, con Ernest McCulloch, l’esistenza delle cellule staminali)^[1], gli anni ’60 videro due importanti tentativi di sistematizzare questo mezzo di comunicazione informale, per sfruttarne le potenzialità e ovviare a qualche inconveniente. Per esempio, come scrive il fisico S. R. Klein in una lettera a Science, il processo era elitista: chi non era nelle mailing list giuste rischiava di farsi sfuggire risultati importanti.

Nel 1961 il “National Institute of Health” statunitense promosse la creazione di alcuni gruppi organizzati per lo scambio reciproco di preprint di argomento biomedico, chiamati Information Exchange Group (IEG). L’esperimento durò fino al 1967, quando fu interrotto perché, nonostante molti concordassero nel ritenerlo un successo, NIH non intendeva investire altri fondi per espanderlo.

Nel 1965 qualcosa di analogo fu proposto per la fisica delle particelle, il Physics Information Exchange (PIE), che però non si concretizzò come tale. Venne invece creata “Preprints in Particles and Fields”, una newsletter settimanale con l’elenco dei preprint resi disponibili dalle varie istituzioni e laboratori, pubblicata dallo “Stanford Linear Accelerator Laboratory” a partire dal 1969 ^[2]. Chi era abbonato riceveva settimanalmente l’elenco (per posta ordinaria, naturalmente) e poteva richiedere direttamente alle varie istituzioni solo i preprint a cui era interessato. Alcune biblioteche importanti, come quella di SLAC e quella del CERN, richiedevano sistematicamente tutti i preprint e li archiviavano (nel caso del CERN, proprio nelle cassettiere rosse che abbiamo incontrato all’inizio).

Già allora si discuteva dei potenziali problemi che questo canale informale avrebbe potuto provocare. Il primo, ovvio, era che attraverso i preprint si facevano circolare risultati preliminari non rivisti, senza alcun tipo di garanzia sulla loro qualità, e potenzialmente quindi si creava un «diluvio di spazzatura» che però, secondo David E. Green (coordinatore di uno degli IEG), «non si materializzò». In ogni caso, una autorevole frazione della comunità biomedica era contraria alla diffusione di materiale non sottoposto a revisione.

L’altro, forse altrettanto scontato, era l’opposizione delle case editrici di riviste scientifiche, in particolare di ambito biochimico, che spesso adottarono la politica di non accettare articoli che fossero già circolati negli IEG. Come racconta Till, furono probabilmente queste due cause a far sì che dopo il il 1967, alla chiusura della sperimentazione finanziata dal NIH, non si sia creata una vera e propria “cultura del preprint” nella comunità biomedica, fino a tempi molto recenti.

Cultura che invece continua a prosperare nella comunità dei fisici, in particolare dall’avvento di Internet e poi del Web. Nel 1991 il fisico Paul Ginsparg creò il primo archivio online di preprint ai laboratori di Los Alamos; l’accesso era via mail (si mandava una mail con le richieste e automaticamente si ricevevano nel relativamente nuovo formato LaTeX i preprint, che potevano poi essere trasformati in file stampabili), ma già nel 1993 arrivò una prima interfaccia Web. Nel 2001 ArXiv.org ^[3] si spostò da Los Alamos alla Cornell University, dove è ospitato ancora oggi e (al 3 luglio 2020) contiene 1.726.927 preprint.

CERN Globe of Science and Innovation.
©Wikimedia Commons

Sempre nel 2001 il NIH propose la creazione di un simile archivio centralizzato per le discipline biomediche. La proposta suscitò numerose polemiche e non si concretizzò fino al 2013, con la creazione di bioRXiv.org, seguito nel 2019 da medRXiv.org per le discipline più strettamente mediche, anche se già nel 2003 fu creata la sezione “Quantitative Biology” su ArXiv.org.

Chiunque può depositare un preprint negli archivi, che controllano solo che il testo assomigli a sufficienza a un articolo scientifico e che riguardi la disciplina giusta. Sta al lettore valutare l’affidabilità dei risultati. Sarebbe interessante sapere quanti dei preprint depositati sono poi pubblicati effettivamente, ma non è semplice. Fino al 2001 sappiamo che circa il 90% di quelli depositati nell’archivio di Los Alamos venivano poi pubblicati. In tempi più recenti c’è solo uno studio ^[4] limitato alla sezione Computer Science di ArXiv.org, che trova come il 77% del materiale depositato venga poi pubblicato. Difficile dire, da un dato così limitato, se questa diminuzione sia dovuta a un generale abbassamento della qualità o a qualche effetto diverso (per esempio, la comparsa di lavori speculativi depositati solo per stimolare la discussione su un particolare argomento, ma non pensati per una pubblicazione vera e propria).

Lo scoppio della pandemia ha portato a cercare tutti i modi possibili per accelerare la ricerca sul virus, tra cui quelli per accelerare la diffusione dei risultati. Come si può immaginare, anche la quantità di preprint depositati e distribuiti dai vari archivi online è esplosa.

Ma dagli anni Settanta sono cambiate almeno due cose.

Da un lato, la distribuzione aperta via web permette l’accesso ai preprint non solo agli “addetti ai lavori”, che auspicabilmente dovrebbero generalmente essere in grado di tener conto della natura preliminare di un preprint, ma anche a giornalisti non specializzati e al pubblico generico. Dall’altro, mentre allora i preprint erano spesso scritti a macchina con le equazioni aggiunte a mano, oggi un preprint è generalmente un file in formato PDF indistinguibile, a un occhio inesperto, da un articolo vero e proprio impaginato professionalmente. Sembra una minuzia, ma può fare la differenza nel formare l’opinione iniziale, e poi è difficile tornare indietro.

Prendiamo per esempio l’articolo del gruppo guidato da Andrea Crisanti sulla soppressione del focolaio di Vo’ Euganeo; non approfondiremo il contenuto del lavoro, ma solo il suo percorso di pubblicazione. L’articolo ^[5] è stato inviato a Nature il 2 aprile, e il relativo preprint ^[6] depositato su medRXiv.org poco dopo, il 18 aprile. Nature lo ha accettato il 23 giugno e pubblicato online come “Accelerated Article Preview” non impaginato pochi giorni dopo, il 30 giugno. Nei quasi tre mesi trascorsi prima della pubblicazione, i referee hanno fatto alcuni commenti e chiesto alcune verifiche e revisioni, che sono state fatte ^[7]. L’articolo pubblicato è certamente migliore e più affidabile del preprint, ma il preprint è stato portato all’attenzione della comunità scientifica tre mesi prima, un tempo confrontabile con quello dello sviluppo della pandemia.

La costruzione della conoscenza scientifica ha i suoi tempi che non vanno affrettati, ma chi si trova a decidere, per esempio come in questo caso sulle strategie di contenimento del contagio, può non avere il tempo di aspettare: tra il 18 aprile e il 30 giugno in Italia sono morte di COVID–19 quasi 33.000 persone. Le decisioni devono essere prese al momento giusto in base alle informazioni disponibili: l’importante è saper distinguere il grado di affidabilità delle varie forme con cui l’informazione arriva e quindi, come al solito, avere un po’ di familiarità con i processi con cui la conoscenza scientifica si forma.

Note

1) J.E. Till, “Predecessors of preprint servers”, Learned Publishing 14:7–13 (2001)

2) A. Rosenfelt et al., “Preprints in Particles and Fields”, IAEA Symposium on the Handling of Nuclear Information, SLAC-PUB–0710 (1970)

3) La ‘X’ in ArXiv e in LaTeX si pronuncia come una ‘c’ dura: è la lettera greca ‘chi’ maiuscola. Questo mostra come i fisici, i matematici e gli informatici di quegli anni non fossero meno geek di quelli di oggi.

4) J. Lin, Y. Yu, Y. Zhou et al., “How many preprints have actually been printed and why: a case study of computer science preprints on arXiv”, Scientometrics 124:555–574 (2020)

5) E. Lavezzo et al., “Suppression of a SARS-CoV–2 outbreak in the Italian municipality of Vo’”, Nature (2020)

6) https://www.medrxiv.org/content/10.1101/2020.04.17.20053157v1

7) I commenti dei referee anonimi, le risposte del gruppo di Crisanti e i commenti finali sono tutti pubblicamente accessibili sul sito di Nature, e sono una lettura davvero istruttiva su come funzionano questi processi.

Tratto da: Query N. 42