L’avanzata delle fabbriche di articoli scientifici fasulli

img
© Bing Creator/Elaborazione Query
Occasionalmente, leggendo Nature o Science si ha la sensazione di essere sulle pagine di cronaca nera di un quotidiano invece che su una pacata rivista scientifica. Nel numero del 19 gennaio di quest’anno di Science, per esempio, Frederik Joelving di Retraction watch fa il punto sulle nuove strategie usate dalle paper mill per pubblicare articoli farlocchi, corrompendo i redattori delle riviste, o infiltrando redattori “amici” nei comitati editoriali di riviste più o meno autorevoli[1].

Ma cominciamo dall’inizio: cos’è una “paper mill”?

Come abbiamo più volte discusso, l’avvento delle riviste scientifiche Open Access — il cui contenuto è liberamente accessibile da chiunque, ma che si finanziano richiedendo il pagamento di una quota per la pubblicazione — ha aperto la strada alle cosiddette “riviste predatorie”, che si pubblicizzano aggressivamente tempestando le caselle email dei ricercatori con offerte di sconti e tempi rapidi di pubblicazione. Il rovescio della medaglia è un processo di peer review molto scadente nel migliore dei casi, ma spesso completamente assente, che porta alla pubblicazione di lavori quanto meno mediocri.

Oltre a questa aberrazione, il modello Open Access amplifica la spinta a pubblicare sempre più articoli legata al modo in cui il lavoro scientifico viene spesso valutato. Se infatti il modello pay per read spinge a pubblicare studi che siano molto letti e citati (e quindi presumibilmente interessanti e di buona qualità), quello Open Access non premia l’interesse suscitato da un articolo, ma è tanto più redditizio quanti più articoli sono pubblicati, indipendentemente dalla qualità.

Pubblicare molti lavori, però, non è banale per un ricercatore: non per niente, in gergo si chiamano appunto “lavori”. Mettiamo quindi insieme ricercatori a corto di tempo e di fondi ma che hanno bisogno di pubblicare più articoli possibile, e riviste che possono lucrare sul numero di articoli pubblicati: cosa potrà mai andare storto?

Intorno alla metà degli anni 2010, i ricercatori cominciarono a notare la comparsa di articoli strani, molto simili tra loro, come se fossero stati creati a partire da un modello cambiando di volta in volta solo qualche dettaglio e rimescolando il testo per sfuggire agli algoritmi che controllano il plagio. Si scoprì così il fenomeno delle paper mill: letteralmente, “cartiera”, fabbrica di carta, ma ovviamente il senso traslato è “fabbrica di articoli”. Si tratta ormai di un’industria vera e propria con un giro d’affari di decine di milioni di dollari, secondo quanto racconta Joelving. Organizzazioni basate per lo più in India, Pakistan, Cina, Iran e Russia, producono industrialmente articoli fasulli, sia plagiando e modificando articoli legittimi, sia, sempre più spesso, usando tecniche di intelligenza artificiale generativa, e li vendono a ricercatori con pochi scrupoli. Il ricercatore quindi paga per avere il suo nome tra gli autori e può inserire nel curriculum un articolo in più, che probabilmente nessuno leggerà oltre il titolo, mentre le casse di qualcuno si riempiono.

Però pubblicare a pagamento su riviste predatorie da un lato riduce i ricavi, dall’altro è meno prestigioso. Spesso gli articoli venivano quindi mandati, con un certo successo, a riviste legittime, anche se non tra le più autorevoli. Scoperto l’inghippo, molte riviste hanno cominciato ad aumentare i controlli, per esempio utilizzando a loro volta strumenti di intelligenza artificiale o comunque automatici per individuare gli articoli sospetti.

Guillaume Cabanac, Cyril Labbé (due informatici francesi) e Alexander Magazinov (un matematico e informatico russo) hanno chiamato “frasi torturate” le curiose parafrasi che gli algoritmi di AI usano per sfuggire agli algoritmi antiplagio: artificial intelligence diventa counterfeit consciousness, cioè “coscienza contraffatta”; deep neural network (“rete neurale profonda”, un tipo di algoritmo di AI) diventa il meraviglioso profound neural organization; signal to noise ratio, il rapporto segnale/rumore, diventa flag to clamor proportion (un improbabile “proporzione bandiera/clamore”) e big data diventa colossal information. Come racconta lo stesso Magazinov sul Bulletin of the Atomic Scientists, i tre hanno sviluppato un’applicazione web[2] che raggruppa diversi algoritmi tra cui quello che individua le frasi torturate, e che permette di individuare gli articoli sospetti; ne ha finora classificati molte decine di migliaia.

Queste attività hanno portato a un enorme aumento delle ritrattazioni, che hanno raggiunto un record l’anno scorso, con più di 10.000 articoli ritirati, come racconta Richard Van Noorden su Nature[3], di cui 8000 solo da Hindawi, un marchio sussidiario di Wiley, uno dei più grandi editori di riviste scientifiche. A dicembre dell’anno scorso, Wiley ha annunciato la chiusura del marchio Hindawi e la perdita prevista di 35 o forse anche 40 milioni di dollari a causa dello scandalo.

Nel frattempo, come racconta sempre Joelving, le paper mill hanno adottato una nuova tattica: offrire denaro ai redattori delle riviste per garantire la pubblicazione dei loro articoli, oppure infiltrare personaggi compiacenti nei comitati editoriali. Il bersaglio favorito sono i numeri speciali: ogni tanto, una rivista pubblica numeri speciali dedicati a un tema specifico, spesso curati da un guest editor specialista in materia, che non fa parte del comitato editoriale della testata. In questo modo, se vogliono, le paper mill possono gestire la catena completa: proporre un numero tematico a una rivista, fornire un guest editor opportunamente scelto e produrre (e vendere) un certo numero di articoli farlocchi con la certezza che saranno pubblicati. Qualche ricercatore un po’ sprovveduto magari manderà anche un lavoro legittimo, in modo da mascherare meglio l’inganno.

Gli editori hanno cominciato a prendere delle contromisure; per esempio, Wiley ha sospeso temporaneamente la produzione di numeri speciali a tema in molte delle riviste che pubblica, mentre alcune riviste di Elsevier hanno introdotto un meccanismo di supervisione dei guest editor. Nel frattempo però se ne sono viste di tutti i colori: Joelving cita esperti guest editor che, visti da vicino, si rivelavano studenti alle prime armi, oppure personaggi il cui nome spariva dalle liste dei comitati editoriali appena qualcuno faceva notare pubblicamente la spazzatura pubblicata (in almeno un caso per poi ricomparire con un altro nome), o ancora, nomi che non corrispondevano neanche a persone realmente esistenti.

Il danno che provoca un simile inquinamento della letteratura scientifica è da un lato evidente, dall’altro difficile da quantificare. Il primo passo naturalmente è valutare la diffusione del fenomeno e capirne meglio i dettagli. Per esempio, un piccolo studio preliminare pubblicato su The Innovation da due ricercatori cinesi[4] trova che le ritrattazioni di articoli scientifici dovute a problemi di integrità scientifica (e non, quindi, a errori legittimi) non sono distribuite uniformemente tra le discipline. Le scienze biomediche, spesso indicate come tra le più soggette a imbrogli nei dati, in effetti sono alte nella classifica, ma a sorpresa la categoria che include l’ingegneria elettronica e l’informatica è di gran lunga la peggiore. Una possibile spiegazione è che siano state le prime a sfruttare l’intelligenza artificiale per scrivere articoli fasulli: il generatore automatico SciGen[5], molto rudimentale rispetto a cosa si può fare oggi con l’AI, esiste almeno dai primi anni Duemila. Nel prossimo numero di Query vedremo qualche dettaglio in più.

Note

1) Joelving, F., 2024. “Paper trail”, in Science, n. 383
3) Van Noreen, R. , 2023. “More than 10,000 research papers were retracted in 2023 - a new record”, in Nature, n. 624
4) Li, M. Z. Shen, 2024. “Science map of academic misconduct”, in The Innovation n.5

STEFANO BAGNASCO è fisico e lavora presso l’Istituto Nazionale di Fisica Nucleare, dove si occupa anche di divulgazione scientifica
accessToken: '2206040148.1677ed0.0fda6df7e8ad4d22abe321c59edeb25f',