Conservare i dati: le nuove soluzioni

img
Veduta aerea del campus di DESY@ DESY/R. Schaaf
Il Deutsches Elektronen-Synchrotron (DESY) è una specie di CERN, un po’ più in piccolo, che si trova vicino ad Amburgo, in Germania. Oggi i suoi acceleratori non servono più per la fisica delle energie più alte (la “frontiera dell’energia”) e le principali linee di ricerca del centro si sono spostate su altri campi della fisica. Negli anni '80, però, ospitava PETRA, un anello di collisione per elettroni e positroni simile, in piccolo, al LEP del CERN, allora in funzione nel tunnel che oggi ospita LHC. Come a LEP e a LHC, i fasci di particelle di PETRA erano usati da più esperimenti per le misure più diverse. Tra questi c’era JADE, un rivelatore costruito e gestito tra il 1979 e il 1986 da una collaborazione tra università giapponesi, tedesche e inglesi. Tutti insieme, in modi diversi e quindi confermandosi l’un l’altro, i quattro esperimenti di PETRA permisero di confermare l’esistenza del gluone, la particella portatrice dell’interazione nucleare forte.

Ma la frontiera dell’energia, come tutte le frontiere della scienza, si sposta: i nuovi acceleratori progettati per esplorarla lavorano a energie sempre più alte. A volte però può essere utile confrontare quello che succede in tutto l’intervallo di energie, dalle più basse alle più alte disponibili, per esempio per verificare qualche nuovo sviluppo nella teoria. Ma le macchine acceleratrici a bassa energia più recenti possono non essere adatte per replicare determinate misure oppure semplicemente sono impegnate in programmi di ricerca diversi, per esempio alla “frontiera della luminosità”, in cui si cercano i fenomeni più rari piuttosto che quelli che avvengono alle energie più alte.

Quando negli anni Novanta il fisico tedesco Siegfried Bethke decise di fare proprio questo si trovò davanti a un lavoro di "archeologia" della fisica, e ci vollero quasi due anni solo per ricostruire i dati, come ha raccontato su Science il giornalista Andrew Curry: «Originariamente memorizzati su nastri magnetici e cartucce […] molti di essi erano stati salvati da un collega sentimentale che aveva copiato la manciata di gigabyte su nuovi supporti ogni pochi anni. Altri dati spuntarono fuori all’Università di Tokyo. Una pila di nastri magnetici a nove tracce era accatastata in un laboratorio di fisica di Heidelberg. Un set cruciale di dati di calibrazione sopravviveva solo come un testo ASCII stampato su risme di carta verdolina, ritrovate durante lo sgombero di un edificio di DESY».

Ma, come dicevamo nel 151 numero scorso di Query, non basta aver recuperato i dati: «Routine di software scritte in arcani linguaggi […] come SHELTRAN e MORTRAN, adattati a computer degli anni '70 in cui la memoria era molto scarsa, e conservati in account personali disattivati da chissà quanto, erano persi per sempre. Un dottorando passò un anno a riscrivere il software necessario per leggere i dati».

Alla fine il gruppo guidato da Bethke ce la fece e ottenne risultati importanti. Lo sforzo che era stato necessario suggerì però alla comunità dei fisici delle particelle che forse era il caso di fare qualcosa. Se ne assunse il compito l’International Committee for Future Accelerators (ICFA), che costituì lo Study Group for Data Preservation and Long-Term Analysis in High Energy Physics, o DPHEP. Formato e finanziato dai principali laboratori ed enti di ricerca di tutto il mondo, il DPHEP arrivò abbastanza rapidamente a un’importante conclusione: i problemi tecnici c’erano, ovviamente, ma non erano insormontabili. Quello che conta davvero è l’organizzazione: mettersi d’accordo su come fare e costruire le strutture per farlo.

La comunità astrofisica era un po’ più avanti. Già negli anni '70 la NASA aveva introdotto un formato standardizzato per i dati e le interfacce, chiamato Flexible Image Transportation System (FITS), e nel 2002 era stato pubblicato uno standard preparato da un altro comitato ancora, il Consultative Committee for Space Data Systems (CCSDS), formato dalle principali agenzie spaziali. Come scrive su DigItalia Giovani Michetti, professore di archivistica alla Sapienza, lo standard Open Archival Information System (OAIS, ISO 14721:2012) «si propone come quadro concettuale unitario per descrivere oggetti, processi, strategie e tecniche finalizzati alla conservazione digitale a lungo termine, nonché per comprendere le loro reciproche relazioni e per analizzare e confrontare soluzioni conservative diverse. Il modello si basa su un’idea dinamica della conservazione, intesa come processo permanente e mai concluso di monitoraggio del contesto in cui sono immersi gli oggetti; e disegna una complessa architettura di funzioni e oggetti informativi fondata sull’individuazione delle risorse necessarie per ricostruire il significato degli oggetti, assumendo il bit come unità minima del sistema concettuale».

Neanche questo breve sommario è immediatamente perspicuo: come tutti gli standard astratti, OAIS è complicato da leggere e va poi calato nei casi concreti, ma si capisce il punto: la conservazione dei dati è un processo, non una operazione che si fa una volta e poi basta. Tornando alla fisica delle particelle, se si dovesse riassumere in un solo concetto il messaggio del rapporto finale del DPHEP, pubblicato nel 2012, sarebbe questo: conservare i dati a lungo termine richiede che ci sia qualcuno che se ne occupi. Detto così sembra ovvio, ma come dimostrato dal caso di JADE in realtà nessuno si era davvero posto il problema.

DPHEP suggerisce che in ciascun grande laboratorio sia creata una figura di “archivista dei dati”, dedicata a tempo pieno e permanente, con l’incarico di garantire la conservazione dei dati e di tutto quello che è necessario per il loro uso a lungo termine, mentre è compito di ciascuna collaborazione sperimentale provvedere alla fase iniziale in cui i dati (e tutto quello che serve: metadati, software, documentazione…) sono preparati per la conservazione. Nella pratica, DPHEP individua quattro possibili livelli di conservazione, dipendenti dallo scopo della conservazione ma anche dalla complessità e dai costi da sostenere. Il primo livello è semplicemente la creazione di documentazione estesa oltre alla semplice pubblicazione dei risultati. Questo permette solo di arricchire le pubblicazioni di informazioni sui dati usati che generalmente non sarebbero disponibili. Il secondo livello consiste nella conservazione dei dati in un formato semplificato: l’uso principale in questo caso è didattico.

Quello di cui abbiamo discusso finora comincia dal terzo livello: la conservazione dei dati usati per l’analisi, e del relativo software. Questo non vuole ancora dire conservare tutti i dati. Nella maggior parte degli esperimenti di fisica, i dati “grezzi” che escono dai rivelatori (che contengono informazioni come «al tempo t il canale n del subdetector a ha rilevato un deposito di energia E») subiscono un primo passaggio di elaborazione, chiamato “ricostruzione”, che li trasforma in descrizioni di oggetti dotati di significato fisico (qualcosa come «il rivelatore è stato attraversato a queste coordinate da una particella di impulso p che ha probabilità x di essere un pione positivo»), allo stesso tempo riducendoli molto in dimensioni, in qualche caso anche di ordini di grandezza. Conservare questi dati permette di rifare analisi scientifiche complete, ma presumendo che la ricostruzione sia stata fatta nel migliore dei modi e adatta anche alla nuova analisi. Per preservare il pieno potenziale dei dati sperimentali è necessario conservare la totalità dei dati grezzi e tutto il software usato per la simulazione e ricostruzione, il che può essere molto costoso.

Insomma, la ricetta a quel punto era pronta e le collaborazioni hanno cominciato ad attrezzarsi, spinte anche dai vari enti finanziatori che nei bandi richiedono esplicitamente la redazione di un data management plan che descriva come verranno gestiti e conservati i dati. Al di là dell’esempio che abbiamo fatto, preso come spesso capita dalla fisica delle particelle, sono anche nate entità come EUDAT in Europa, che sviluppano e gestiscono strumenti e piattaforme per la conservazione e condivisione dei dati, anche per supportare le collaborazioni più piccole, che magari non hanno tante forze da mettere in campo.

Abbiamo fin qui visto come organizzarsi per conservare i dati, i metadati e il software in modo da renderli utilizzabili a lungo, potenzialmente per sempre. C’è poi un passo in più: come possiamo fare in modo che i dati possano essere sfruttati in tutta la loro potenzialità? La risposta è che devono essere FAIR: Findable, Accessible, Interoperable, Reusable, ossia facili da trovare, accessibili, interoperabili e riusabili. Che cosa vuol dire? Ne parleremo ancora.
accessToken: '2206040148.1677ed0.0fda6df7e8ad4d22abe321c59edeb25f',