L’avvento delle tecnologie di Intelligenza Artificiale (IA) ha rivoluzionato molteplici settori, tra cui la scienza e la ricerca accademica. In questo contesto, modelli di linguaggio avanzati come ChatGPT hanno dimostrato di essere strumenti potenti per assistere i ricercatori nella creazione di paper scientifici. ChatGPT, basato sull’architettura GPT (Generative Pre-trained Transformer), sviluppata da OpenAI, rappresenta un esempio emblematico di come l’IA possa contribuire in modo significativo al processo di scrittura accademica.
È un trucchetto molto banale per introdurre l’argomento, e suona già un po’ stantio dopo meno di due anni di disponibilità pubblica di ChatGPT, il servizio online che permette di generare automaticamente testi di buona qualità: il paragrafo qui sopra è stato scritto proprio da ChatGPT 3.5, la versione gratuita. Il prompt, cioè le istruzioni testuali fornite al servizio, era «scrivi l’introduzione di un articolo sull’uso di ChatGPT nella scrittura di paper scientifici».
L’uso di tecnologie di Machine Learning (una delle categorie dell’intelligenza artificiale) nella ricerca scientifica è un argomento di studio ormai da parecchi anni. L’idea è apparentemente semplice: esistono algoritmi chiamati “reti neurali”, concettualmente ispirati all’architettura del cervello, che si possono “addestrare”. Per esempio, mostrando al software numerose immagini di cani e gatti (etichettati come tali), questo può “imparare” a distinguerle senza che sia necessario descrivere nel dettaglio come sia fatto un cane e come sia fatto un gatto. L’algoritmo addestrato sarà quindi in grado di distinguere se una nuova immagine, che non aveva mai “visto”, sia di un cane o di un gatto (le numerose virgolette nel paragrafo precedente servono a placare gli informatici e gli epistemologi in ascolto, dato che bisognerebbe discutere su cosa significhi per un computer “imparare” o anche solo “vedere”).
Si capisce subito come questo possa avere moltissime applicazioni nella ricerca scientifica. Per fare solo un esempio, il problema principale nella ricerca delle onde gravitazionali è distinguere il loro debolissimo segnale dal “fondo” costituito da rumori di ogni tipo. In particolare, i segnali transitori generati da eventi astrofisici violentissimi come la fusione di due buchi neri o l’esplosione di una supernova devono essere distinti dai glitch, segnali con cause più banali, come il passaggio di un aereo a bassa quota o lo squillo di un telefono nel posto sbagliato. Esistono molte categorie di glitch, classificati in base alle loro caratteristiche; di alcuni è nota l’origine, di altri no. Uno dei temi di ricerca riguarda l’uso di sistemi di machine learning per riconoscerli rapidamente e, se possibile, “sottrarli” in modo da rendere visibile l’eventuale segnale astrofisico sottostante. Esattamente come nel caso del cane e del gatto, sottoponendo all’algoritmo molti glitch già osservati lo si può addestrare a riconoscerne di nuovi.
La cosiddetta Intelligenza Artificiale Generativa permette invece di generare qualcosa (testo nel caso di ChatGPT e dei Large Language Model, o LLM, in generale, immagini nel caso di servizi come DALL-E o Midjourney) a partire da un input testuale. Si possono immaginare applicazioni al limite del fantascientifico, ma ChatGPT può già rivoluzionare il modo in cui si produce testo, anche nel caso degli articoli scientifici, suscitando inevitabilmente numerosi dubbi sia etici che concreti.
Prendiamo un preprint pubblicato alla fine del 2022[1]; se andiamo a vedere la lista completa degli autori senza limitarci al convenzionale “T.H. Kung et al.” troviamo al terzo posto proprio lo stesso ChatGPT. E cominciano i dubbi: è lecito usare un software per generare automaticamente il testo? Se lo si fa, è necessario dichiararlo? Tutti usiamo il controllo ortografico e grammaticale del word processor senza dir niente a nessuno, e non si mette il Vocabolario della Lingua Italiana in bibliografia, tranne magari casi molto particolari. Che differenza c’è? E poi, se si deve rendere manifesto l’uso di simili strumenti, ha senso inserirli tra gli autori come hanno fatto Kung e colleghi? La versione pubblicata del preprint[2] non riporta il LLM tra gli autori. Per inciso, l’articolo valutava le potenzialità di ChatGPT in ambito medico mostrando come la versione 3.5, neanche la più avanzata, fosse in grado di superare (non sempre e non benissimo, ma comunque) un esame richiesto per l’esercizio della professione medica negli Stati Uniti.
Un paper scientifico ha molte parti formalizzate, dal contenuto necessariamente pedante e noioso da scrivere (per non parlare dei documenti richiesti per la rendicontazione dei progetti finanziati per esempio dalla Commissione Europea); la tentazione di farsi aiutare è inevitabile. Si può avere un’idea della riflessione in atto all’interno della comunità scientifica attraverso una serie di commenti che Nature sta dedicando da tempo alla questione. Per esempio, in un sondaggio emerge che il 22% degli intervistati (lettori di Nature, quindi tipicamente ricercatori) usa strumenti di IA generativa con regolarità, anche se molti dichiarano di usarlo più per divertimento che per scopi seri. In un editoriale del gennaio 2023 sono invece descritti due principi recentemente aggiunti alle linee guida per gli autori che desiderano pubblicare sulle riviste del gruppo Springer Nature:
• nessun Large Language Model sarà accettato come autore di un articolo di ricerca, dato che l’attribuzione a un autore comporta la responsabilità dei contenuti, e gli strumenti di intelligenza artificiale non possono assumersi responsabilità;
• i ricercatori che usano LLM devono documentarne l’uso nelle sezioni “Metodi” o “Acknowledgements” dell’articolo; se l’articolo non prevede tali sezioni, possono essere usate l’introduzione o altre sezioni appropriate.
Come riporta un altro articolo della serie, sempre su Nature (da cui abbiamo preso l’esempio riportato sopra), la maggior parte degli editori scientifici sta adottando norme simili. Ma, alla fine, quali sono i rischi dell’uso di LLM nella scrittura dei paper?
Chiudiamo come abbiamo iniziato, chiedendo a ChatGPT: «Quali sono i rischi insiti nell’uso di LLM per la scrittura di articoli scientifici?» Lasciamo la valutazione della sua risposta al lettore (ma l’argomento è interessante e ne riparleremo):
Qualità del Testo: Variazioni nella qualità del testo prodotto dai LLM possono portare a risultati ambigui o incoerenti, specialmente in contesti tecnici o specialistici.
Precisione Tecnica: I LLM potrebbero non comprendere appieno i concetti scientifici trattati, portando a inesattezze o errori concettuali nel testo generato. Plagio Accidentale: Il testo generato dai LLM potrebbe portare a casi di plagio accidentale se non viene attribuita correttamente la fonte o se non vengono citate le fonti.
Mancanza di Contestualizzazione: I LLM potrebbero non considerare il contesto specifico dell’articolo scientifico, influenzando la coerenza e la pertinenza del testo generato. Bias e Rischi Etici: I LLM possono riflettere i bias presenti nei dati di addestramento, portando a testo generato che riflette pregiudizi o stereotipi, con implicazioni etiche e sociali.
Originalità Ridotta: L’uso eccessivo di LLM potrebbe ridurre l’originalità dei testi scientifici, poiché il testo generato potrebbe risultare simile a quello di altri articoli già esistenti.
Privacy e Sicurezza: L’utilizzo di LLM potrebbe comportare rischi relativi alla privacy e alla sicurezza dei dati, soprattutto se coinvolti dati sensibili durante il processo di generazione del testo.
Dipendenza Tecnologica: Un utilizzo eccessivo di LLM potrebbe diminuire la capacità dei ricercatori di sviluppare le proprie capacità di scrittura e analisi critica, aumentando la dipendenza da tali tecnologie.
È un trucchetto molto banale per introdurre l’argomento, e suona già un po’ stantio dopo meno di due anni di disponibilità pubblica di ChatGPT, il servizio online che permette di generare automaticamente testi di buona qualità: il paragrafo qui sopra è stato scritto proprio da ChatGPT 3.5, la versione gratuita. Il prompt, cioè le istruzioni testuali fornite al servizio, era «scrivi l’introduzione di un articolo sull’uso di ChatGPT nella scrittura di paper scientifici».
L’uso di tecnologie di Machine Learning (una delle categorie dell’intelligenza artificiale) nella ricerca scientifica è un argomento di studio ormai da parecchi anni. L’idea è apparentemente semplice: esistono algoritmi chiamati “reti neurali”, concettualmente ispirati all’architettura del cervello, che si possono “addestrare”. Per esempio, mostrando al software numerose immagini di cani e gatti (etichettati come tali), questo può “imparare” a distinguerle senza che sia necessario descrivere nel dettaglio come sia fatto un cane e come sia fatto un gatto. L’algoritmo addestrato sarà quindi in grado di distinguere se una nuova immagine, che non aveva mai “visto”, sia di un cane o di un gatto (le numerose virgolette nel paragrafo precedente servono a placare gli informatici e gli epistemologi in ascolto, dato che bisognerebbe discutere su cosa significhi per un computer “imparare” o anche solo “vedere”).
Si capisce subito come questo possa avere moltissime applicazioni nella ricerca scientifica. Per fare solo un esempio, il problema principale nella ricerca delle onde gravitazionali è distinguere il loro debolissimo segnale dal “fondo” costituito da rumori di ogni tipo. In particolare, i segnali transitori generati da eventi astrofisici violentissimi come la fusione di due buchi neri o l’esplosione di una supernova devono essere distinti dai glitch, segnali con cause più banali, come il passaggio di un aereo a bassa quota o lo squillo di un telefono nel posto sbagliato. Esistono molte categorie di glitch, classificati in base alle loro caratteristiche; di alcuni è nota l’origine, di altri no. Uno dei temi di ricerca riguarda l’uso di sistemi di machine learning per riconoscerli rapidamente e, se possibile, “sottrarli” in modo da rendere visibile l’eventuale segnale astrofisico sottostante. Esattamente come nel caso del cane e del gatto, sottoponendo all’algoritmo molti glitch già osservati lo si può addestrare a riconoscerne di nuovi.
La cosiddetta Intelligenza Artificiale Generativa permette invece di generare qualcosa (testo nel caso di ChatGPT e dei Large Language Model, o LLM, in generale, immagini nel caso di servizi come DALL-E o Midjourney) a partire da un input testuale. Si possono immaginare applicazioni al limite del fantascientifico, ma ChatGPT può già rivoluzionare il modo in cui si produce testo, anche nel caso degli articoli scientifici, suscitando inevitabilmente numerosi dubbi sia etici che concreti.
Prendiamo un preprint pubblicato alla fine del 2022[1]; se andiamo a vedere la lista completa degli autori senza limitarci al convenzionale “T.H. Kung et al.” troviamo al terzo posto proprio lo stesso ChatGPT. E cominciano i dubbi: è lecito usare un software per generare automaticamente il testo? Se lo si fa, è necessario dichiararlo? Tutti usiamo il controllo ortografico e grammaticale del word processor senza dir niente a nessuno, e non si mette il Vocabolario della Lingua Italiana in bibliografia, tranne magari casi molto particolari. Che differenza c’è? E poi, se si deve rendere manifesto l’uso di simili strumenti, ha senso inserirli tra gli autori come hanno fatto Kung e colleghi? La versione pubblicata del preprint[2] non riporta il LLM tra gli autori. Per inciso, l’articolo valutava le potenzialità di ChatGPT in ambito medico mostrando come la versione 3.5, neanche la più avanzata, fosse in grado di superare (non sempre e non benissimo, ma comunque) un esame richiesto per l’esercizio della professione medica negli Stati Uniti.
Un paper scientifico ha molte parti formalizzate, dal contenuto necessariamente pedante e noioso da scrivere (per non parlare dei documenti richiesti per la rendicontazione dei progetti finanziati per esempio dalla Commissione Europea); la tentazione di farsi aiutare è inevitabile. Si può avere un’idea della riflessione in atto all’interno della comunità scientifica attraverso una serie di commenti che Nature sta dedicando da tempo alla questione. Per esempio, in un sondaggio emerge che il 22% degli intervistati (lettori di Nature, quindi tipicamente ricercatori) usa strumenti di IA generativa con regolarità, anche se molti dichiarano di usarlo più per divertimento che per scopi seri. In un editoriale del gennaio 2023 sono invece descritti due principi recentemente aggiunti alle linee guida per gli autori che desiderano pubblicare sulle riviste del gruppo Springer Nature:
• nessun Large Language Model sarà accettato come autore di un articolo di ricerca, dato che l’attribuzione a un autore comporta la responsabilità dei contenuti, e gli strumenti di intelligenza artificiale non possono assumersi responsabilità;
• i ricercatori che usano LLM devono documentarne l’uso nelle sezioni “Metodi” o “Acknowledgements” dell’articolo; se l’articolo non prevede tali sezioni, possono essere usate l’introduzione o altre sezioni appropriate.
Come riporta un altro articolo della serie, sempre su Nature (da cui abbiamo preso l’esempio riportato sopra), la maggior parte degli editori scientifici sta adottando norme simili. Ma, alla fine, quali sono i rischi dell’uso di LLM nella scrittura dei paper?
Chiudiamo come abbiamo iniziato, chiedendo a ChatGPT: «Quali sono i rischi insiti nell’uso di LLM per la scrittura di articoli scientifici?» Lasciamo la valutazione della sua risposta al lettore (ma l’argomento è interessante e ne riparleremo):
Qualità del Testo: Variazioni nella qualità del testo prodotto dai LLM possono portare a risultati ambigui o incoerenti, specialmente in contesti tecnici o specialistici.
Precisione Tecnica: I LLM potrebbero non comprendere appieno i concetti scientifici trattati, portando a inesattezze o errori concettuali nel testo generato. Plagio Accidentale: Il testo generato dai LLM potrebbe portare a casi di plagio accidentale se non viene attribuita correttamente la fonte o se non vengono citate le fonti.
Mancanza di Contestualizzazione: I LLM potrebbero non considerare il contesto specifico dell’articolo scientifico, influenzando la coerenza e la pertinenza del testo generato. Bias e Rischi Etici: I LLM possono riflettere i bias presenti nei dati di addestramento, portando a testo generato che riflette pregiudizi o stereotipi, con implicazioni etiche e sociali.
Originalità Ridotta: L’uso eccessivo di LLM potrebbe ridurre l’originalità dei testi scientifici, poiché il testo generato potrebbe risultare simile a quello di altri articoli già esistenti.
Privacy e Sicurezza: L’utilizzo di LLM potrebbe comportare rischi relativi alla privacy e alla sicurezza dei dati, soprattutto se coinvolti dati sensibili durante il processo di generazione del testo.
Dipendenza Tecnologica: Un utilizzo eccessivo di LLM potrebbe diminuire la capacità dei ricercatori di sviluppare le proprie capacità di scrittura e analisi critica, aumentando la dipendenza da tali tecnologie.
Note
1) T.H. Kung et al., 2022. “Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models” Preprint: medRxiv 2022.12.19.22283643
2) T.H. Kung et al., 2023. “Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models” in PLOS Digit Health v. 2
STEFANO BAGNASCO è fisico e lavora presso l’Istituto Nazionale di Fisica Nucleare, dove si occupa anche di divulgazione scientifica