Come si fa in Italia: l’ANVUR

img
© rudall30/iStock
La valutazione della ricerca scientifica in Italia è compito dell’ANVUR, l’Agenzia Nazionale per la Valutazione del sistema Universitario e della Ricerca. Ne abbiamo parlato con Alessandra Celletti, professoressa ordinaria di fisica matematica presso il dipartimento di matematica dell’Università di Roma Tor Vergata, che è vicepresidente dell’ANVUR e membro del suo comitato direttivo.

Che cos’è l’ANVUR e cosa fa?

L’ANVUR è l’agenzia che si occupa della valutazione del sistema universitario e della ricerca in generale, quindi non solo della ricerca scientifica in senso stretto, ma anche delle università, dell’AFAM (Alta Formazione Artistica, Musicale e Coreutica), dei corsi di dottorato, della cosiddetta “terza missione” e altro ancora. In particolare, però, è responsabile della valutazione periodica dei prodotti della ricerca, che si chiama “valutazione della qualità della ricerca” ed è nota con l’acronimo di VQR.

Il primo esercizio di valutazione della ricerca in Italia è stato effettuato già nel 2007 dal Comitato d’Indirizzo per la Valutazione della Ricerca (CIVR) ed era chiamato VTR, Valutazione Triennale della Ricerca. In seguito, l’ANVUR ha condotto tre successive valutazioni, a partire dal 2011–2013. L’ultima, che abbiamo appena concluso e che io ho coordinato, era riferita al periodo 2015–2019; il rapporto finale della valutazione è stato presentato a luglio dell’anno scorso.

Che cosa valuta la VQR?

Anzitutto, è bene specificare che la valutazione non riguarda i singoli ricercatori. È un punto molto importante: la VQR riguarda le istituzioni, gli enti di ricerca, i dipartimenti nel loro complesso e non i ricercatori. Inoltre, ogni confronto a livello di settore scientifico disciplinare, in particolare all’interno della stessa istituzione, va preso con la dovuta cautela, anche in considerazione della flessibilità concessa alle istituzioni di inviare, per ciascun ricercatore, un numero variabile di prodotti.

Per dare un’idea delle dimensioni del lavoro, in questa terza tornata sono stati valutati 98 università, 14 enti pubblici di ricerca vigilati dal MUR e 22 altre istituzioni che hanno partecipato su base volontaria. La valutazione ha coinvolto oltre 65.000 ricercatori che hanno presentato più di 183.000 “prodotti della ricerca”, ossia articoli scientifici, monografie, capitoli di libri, brevetti.

Ogni prodotto doveva essere valutato in base a tre criteri – originalità, rigore metodologico e impatto – e assegnato a una delle cinque “classi di merito” – eccellente ed estremamente rilevante, eccellente, standard, sufficiente, scarsa rilevanza o non accettabile – ciascuna associata a un punteggio, in modo che ogni prodotto contribuisse poi al punteggio finale dell’ente valutato.

Si discute da anni del ruolo eccessivo dato agli indici bibliometrici nella valutazione della ricerca. Come si è mossa l’ANVUR in questo senso?

Il decreto ministeriale che ha dato l’avvio a questa terza tornata richiedeva esplicitamente che la valutazione fosse sempre effettuata attraverso una peer review dei prodotti della ricerca, con il supporto di informazioni bibliometriche internazionali, come gli indicatori citazionali, solo quando ritenuto opportuno in base alle caratteristiche delle diverse aree disciplinari. Questo è stato un cambiamento importante rispetto alle prime tornate, che erano molto più basate sugli indicatori bibliometrici.

Qual è stata la procedura? E come avete tenuto conto delle differenze tra discipline molto distanti tra loro?

I prodotti erano raggruppati in 18 aree, da quelle di scienze matematiche e informatiche, poi fisiche, chimiche, ingegneria, e infine scienze umanistiche e giuridiche, fino all’ultima che è l’area interdisciplinare o di terza missione. Ciascuna area era valutata da un “Gruppo di Esperti della Valutazione”, o GEV, formato tipicamente da 20-30 persone, ciascuno con un proprio coordinatore e uno o due assistenti. A questa struttura di supporto e gestione dei prodotti, composta in totale da circa 660 persone, si aggiungono più di 11.000 revisori esterni per la peer review.

Le aree disciplinari si raggruppano sostanzialmente in tre gruppi principali. Ci sono le aree STEM più le Life Sciences, per usare i termini inglesi; per capirci, quindi, l’area di matematica, fisica, chimica, biologia, agraria, scienze geologiche, veterinaria, medicina e ingegneria. Poi abbiamo le scienze umanistiche e sociali, che includono anche l’architettura, e le scienze dell’antichità, filologico-letterarie, storico-artistiche, filosofiche, pedagogiche, psicologiche, giuridiche, politiche e sociali. Infine abbiamo le scienze economiche, con due aree disciplinari e i relativi GEV.

Per le discipline umanistiche si è adottato il metodo della peer review pura, senza bibliometria. Ciascun prodotto era assegnato a due membri del relativo GEV, che potevano valutare il prodotto loro stessi oppure affidarlo a esperti esterni.

Per quanto riguarda le scienze “dure” del primo gruppo, invece, la peer review utilizza anche l’informazione fornita dagli indicatori bibliometrici. Si comincia con la stessa procedura; l’articolo viene assegnato a due esperti interni dei GEV di riferimento del prodotto. Anche in questo caso i due membri GEV possono valutare loro stessi il prodotto oppure assegnarlo a revisori esterni, ma in questo caso, a differenza delle discipline umanistiche, la revisione viene integrata da indicatori bibliometrici: il numero delle citazioni ricevute dal prodotto, eventualmente depurato dalle autocitazioni, e un indicatore dell’impatto della rivista su cui l’articolo è pubblicato. Quale o quali in particolare (Impact Factor, CiteScore, Scimago Journal Rank, eccetera) dipende dalla disciplina e dal database internazionale che di volta in volta si sceglie di usare, come Web of Science o Scopus. Questi dati forniscono un’informazione di supporto alla peer review.

Fanno infine caso a parte i due settori di economia, per i quali sono stati costruiti appositamente degli elenchi di riviste appropriati alle rispettive aree, che hanno fornito le indicazioni bibliometriche per la valutazione dei prodotti.

La valutazione vera e propria è avvenuta in due fasi successive: nella prima i due membri GEV non sapevano uno dell’altro, e la revisione era quindi indipendente. Nella seconda fase i due revisori entravano in contatto e discutevano la valutazione finale; se concordavano, il prodotto veniva proposto per una delle cinque classi di merito, altrimenti si creava un gruppo di consenso. Nei settori in cui la peer review era integrata dagli indici bibliometrici, semplificando quindi un po’ il lavoro dei membri dei GEV, in generale meno del 20% dei prodotti è stato affidato a valutatori esterni; nel caso dei settori di area umanistica, invece, c’è stato molto più coinvolgimento di revisori esterni, dato che la peer review richiedeva spesso competenze specifiche.

Un’altra importante novità di questa tornata è stata la valutazione della cosiddetta “terza missione”. Di che cosa si tratta?

Con il termine “terza missione” si indicano tutte quelle attività in cui le istituzioni entrano in contatto diretto con la società, affiancando le due “missioni” tradizionali dell’università, cioè insegnamento e ricerca. Per esempio le attività di public engagement, ma anche la valorizzazione della proprietà intellettuale o industriale, la formazione permanente e la didattica aperta, la sperimentazione clinica, gli strumenti innovativi per l’open science e le attività collegate all’Agenda ONU 2030: sono i “campi d’azione” definiti dal bando. Le istituzioni potevano sottoporre dei “casi di studio”, ossia descrizioni di attività svolte nel periodo 2015–2019 e che avessero avuto delle ricadute nello stesso periodo. In questo caso i criteri sono diversi da quelli per i prodotti della ricerca: si valutano la dimensione sociale, economica e culturale, la rilevanza rispetto al contesto di riferimento, il valore aggiunto per i beneficiari e il contributo della struttura proponente. In base a questi quattro criteri, il caso di studio veniva sottoposto a peer review e assegnato a una delle cinque classi di merito, le stesse dei prodotti.

La terza missione è un tema che mi sta molto a cuore; la sua valutazione è servita anche come stimolo alle istituzioni per avviare attività di terza missione, in modo da restituire qualcosa alla società. Anche i dati che ne abbiamo ricavato sono molto interessanti. Per esempio, mostrano che circa un terzo delle istituzioni, tra università ed enti di ricerca, ha proposto come casi di studio attività nell’area che include il public engagement, che è quindi la più frequentata.

In che modo sono usati i risultati della valutazione?

I dati della valutazione vengono in primo luogo usati per ripartire la quota “premiale” del fondo di funzionamento ordinario delle università e degli enti di ricerca. In pratica, questi finanziamenti si dividono in una quota fissa, che viene distribuita comunque a tutti, e una parte premiale che viene ripartita in base ai risultati della VQR: un ente che ha avuto una valutazione alta otterrà fondi in più.

La VQR è poi utilizzata per selezionare, tra le università statali, i 350 dipartimenti che possono concorrere per l’assegnazione dei “progetti di eccellenza”. I dipartimenti ammessi possono presentare un progetto di sviluppo specifico che deve coinvolgere diversi aspetti come la didattica di alta qualificazione, la ricerca, lo sviluppo di infrastrutture dedicate e così via. Una commissione nominata dal MUR, formata da esperti di altissimo livello, seleziona tra questi i 180 dipartimenti che riceveranno un ulteriore finanziamento per lo sviluppo del progetto.

Al di là della performance dei singoli enti e delle università, dai risultati della VQR sono emerse altre informazioni interessanti?

Ne menzionerei tre. Anzitutto, il bando ci chiedeva di distinguere tra i profili dei docenti permanenti, cioè quelli che nel periodo di riferimento non avevano cambiato qualifica, e quello dei ricercatori neoassunti o che avevano avuto un avanzamento di carriera nello stesso periodo, per esempio passati da ricercatore a professore associato o da associato a ordinario; chiamiamoli profili “senior” e “junior”. Facendo questo confronto, si trova non solo che le istituzioni avevano scelto di sottoporre per la valutazione prevalentemente prodotti associati ai profili junior, ma anche che all’interno di ciascuna istituzione, i profili junior ottenevano una valutazione generalmente superiore a quella dei profili senior. Questo vuol dire da un lato che le istituzioni hanno puntato sui prodotti delle persone più giovani, e dall’altro che le persone più giovani producono ricerca di ottima qualità.

Una seconda considerazione importante è che per la prima volta in questa tornata è stata attribuita un’importanza rilevante alla formazione dei dottori di ricerca, quindi alla valutazione delle scuole di ricerca. Misurando la qualità della ricerca dei docenti in servizio che avevano conseguito il dottorato di ricerca nel periodo 2012–2016, è stata premiata anche la capacità di fare attività formativa di alta qualificazione.

Infine, una questione interessante riguarda la terza missione. Oltre a rilevare che il campo d’azione più selezionato ha riguardato attività di public engagement, è emersa, per esempio, una differenza a livello geografico. Al nord il secondo campo d’azione più selezionato (dopo il public engagement) è stato quello delle strutture di intermediazione e trasferimento tecnologico; al centro è stata la produzione di beni pubblici di natura sociale educativa e politiche per l’inclusione, e al sud la produzione e gestione di beni artistici e culturali.

A che punto siamo con la valutazione, per esempio in confronto ad altri paesi europei?

In questo momento stiamo facendo una “valutazione della valutazione”: riteniamo veramente importante, terminata la procedura e presentati i risultati, cercare di capire quali aspetti migliorare per le prossime edizioni, e a questo scopo abbiamo individuato un gruppo di esperti stranieri che ci aiuterà ad analizzare la VQR 2015-2019.

Per quanto riguarda il confronto con l’Europa, l’Italia sta facendo questo esercizio di valutazione ormai da molti anni; alcune nazioni lo fanno da tempo, altre sono agli inizi. Sicuramente la Gran Bretagna ha una tradizione di valutazione consolidata da molti anni attraverso il Research Excellence Framework. In alcuni casi, altri paesi ci chiedono informazioni sulla nostra valutazione; quindi siamo ben contenti di avere già questa esperienza, che deve essere migliorata di volta in volta con l’obiettivo di fornire una fotografia il più possibile veritiera della situazione della ricerca italiana.

E quindi, come sta la ricerca italiana, anche rispetto al panorama internazionale?
Il confronto con la ricerca internazionale non è stato incluso nel rapporto finale. In modo un po’ sperimentale, però, abbiamo guardato quali indicazioni poteva darci in questo senso la VQR limitatamente alla ricerca in campo spaziale. Abbiamo cioè provato a capire qual è il risultato della valutazione specificamente per i prodotti conferiti nei settori astrofisica, astronomia, planetologia e ingegneria aerospaziale, riportandolo poi in un contesto internazionale.

È ovviamente un’indicazione parziale: non possiamo essere sicuri di avere esaminato tutti i prodotti relativi a quell’ambito perché li abbiamo selezionati solamente in base ai titoli e alle subject category indicate nell’articolo. In questo modo se ne tralasciano inevitabilmente alcuni.

Fatta questa premessa, abbiamo trovato che nei settori in esame l’88% degli articoli valutati si colloca nel primo quartile, ossia nel 25% degli articoli più citati a livello mondiale, e l’11.5% è nel primo percentile, cioè tra l’1% più citato. Questi dati confermano ulteriormente il valore scientifico dei ricercatori italiani in campo spaziale, a sostegno del fatto che la ricerca italiana, in questo come in molti altri campi, è competitiva a livello internazionale.
accessToken: '2206040148.1677ed0.0fda6df7e8ad4d22abe321c59edeb25f',