Questa storia appartiene alla categoria Innovazione e al dossier Data Lifecycle Management

Alla ricerca dell'ottimizzazione dei costi

Che fare dei dati della ricerca dell'Istituto Paul-Scherrer? Le spiegazioni del capo tecnologia dell'informazione.

Testo: Konrad O. Jaggi, pubblicato il 01.04.2014

L'Istituto Paul Scherrer (IPS) di Villigen AG è il più grande centro di ricerca svizzero nel campo delle scienze naturali e ingegneristiche. Si concentra su tre tematiche: materia e materiali, energia e ambiente, uomo e salute. L'IPS sviluppa, costruisce e gestisce impianti di ricerca complessi. Ogni anno, oltre 2000 scienziati di tutto il mondo si recano nell'Istituto per effettuare degli esperimenti con le sue apparecchiature. Questi grandi impianti producono volumi giganteschi di dati.

Konrad O. Jaggi: Chi è responsabile dei dati?
Stephan Egli: I dati vengono prodotti soprattutto nel corso degli  esperimenti. I maggiori produttori sono le beamlines della Swiss Light Source – un grosso impianto di sperimentazione – e la fisica delle particelle attraverso la sua ricerca fondamentale volta ad analizzare decadimenti rari. Non esiste ancora la funzione ufficiale del data manager. Il principale responsabile dei dati è quindi il team di ricerca. Per il momento ogni gruppo deve decidere se vuole esportare i dati nell’istituto di appartenenza e come organizzare la migrazione.

Qual è il volume di dati prodotto?
Nel 2012 gli esperimenti hanno generato dati su nastro per un totale di 250 terabyte (10004 bytes). La quantità totale archiviata ammonta attualmente a 1,6 petabyte (10005 bytes). Non tutti i dati vengono però memorizzati sistematicamente su nastro. Oggi, molti devono essere ridotti ed esportati, perché le capacità di stoccaggio locali non sono sufficienti per conservare più a lungo i dati. Dopo qualche settimana o mese devono essere cancellati. 

Il Suo istituto ha una politica di Data Lifecycle Management (DLCM)?
Non abbiamo ancora una politica, ma le discussioni sono in corso. Si parla di adottare una politica sulla base di proposte armonizzate a livello internazionale, come è avvenuto nell’ambito dei progetti UE- FP7. In questo contesto è opportuno menzionare i progetti PaNdata-Europe e PaNdata-ODI.

A chi appartengono i dati?
Appartengono al ricercatore che li ha generati. L’Istituto Paul Scherrer non ha pretese sulla proprietà intellettuale degli utenti esterni dei grandi impianti di ricerca, a condizione che i risultati vengano pubblicati. Per i dati risultanti da una collaborazione con l’industria si stipulano contratti specifici.

Come può garantire l’accesso ai dati anche in un lontano futuro?
Per l’archiviazione a lungo termine si continueranno a impiegare i nastri. È la situazione migliore anche a livello di consumo energetico. Per i formati dei dati c’è ancora molto da standardizzare. Un importante formato è il HDF5 che supporta annotazioni con metadati. Vedo la standardizzazione come un processo a lunga scadenza. Per l’IT deve essere disponibile un’infrastruttura che consenta una migrazione efficiente dei dati su supporti e tecnologie di ultima generazione.

Dove risiedono, secondo Lei, le maggiori sfide per i prossimi anni? E cosa bisognerà migliorare?
I reparti di IT devono essere in grado di offrire un’infrastruttura che faciliti la vita ai ricercatori e tolga loro il peso dei compiti ripetitivi. I ricercatori, dal canto loro, devono contribuire alla definizione di criteri di qualità e allo sviluppo di formati di dati e metadati. Le comunità scientifiche e i loro membri devono essere coinvolti nel processo di DLCM. Altre sfide importanti sono secondo me gestire il volume di dati, che cresce in modo esponenziale, e soddisfare le aspettative di poter accedere ovunque e sempre ai dati e di poterli scambiare facilmente. E poi, oltre a tutte queste sfide, si devono trovare delle soluzioni ottimali dal punto dei vista dei costi. Vi saranno quindi forti pressioni a individuare delle sinergie in seno al mondo universitario svizzero.

Quanto è importante per il Duo settore disporre di un DLCM coordinato?
Il DLCM dovrebbe essere considerato da tutti i diretti interessati come parte integrante del processo di ricerca. Ritengo che sia una necessità strategica per ogni istituto di ricerca. E ciò dovrebbe essere disciplinato con precisione in un documento di datapolicy.


Questo testo è apparso nello SWITCH Journal aprile 2013
Sull’autore
Konrad O.   Jaggi

Konrad O. Jaggi

Dopo aver studiato a Zurigo e Aberdeen (GB), Konrad O. Jaggi ha diretto diversi servizi informatici e progetti nel campo della pianificazione strategica. Dall'ottobre 2011 dirige presso SWITCH il reparto Researchers & Lecturers.

E-mail

Stephan Egli

Dopo gli studi di fisica al Politecnico di Zurigo, il dott. Stephan Egli ha lavorato all'Università di Zurigo, fra l'altro come coordinatore EDP. Dal 1999 è capo del reparto di tecnologia dell'informazione AIT presso l'Istituto Paul Scherrer.

stephan.egli@psi.ch

Altri contributi