Questa storia appartiene alla categoria Innovazione e al dossier Data Lifecycle Management

Il rompicapo dei metadati

Quali scogli deve sormontare la ricerca nel Data Lifecycle Management? Le spiegazioni di un esperto.

Testo: Konrad O. Jaggi, pubblicato il 01.04.2014

La biologia sistemica è uno settori prioritari della promozione statale della ricerca in Svizzera. Questa giovane disciplina studia il funzionamento dei sistemi biologici nella loro globalità e cerca di modellizzarli: come si comporta un microorganismo, per esempio un lievito, in diversi ambienti, oppure come funziona un processo biologico, per esempio la crescita delle piante. È ricerca fondamentale, che richiede la collaborazione interdisciplinare degli scienziati. SystemsX.ch è l'iniziativa nazionale per la promozione di progetti di ricerca nella biologia sistemica. Il progetto SyBIT affianca tutti i progetti SystemsX.ch nella loro attività di ricerca, caratterizzata per lo più da un'elevata intensità di dati. Si occupa inoltre del Data Lifecycle Management DLCM in SystemsX.ch.

SWITCH Journal: Chi è responsabile dei dati?
Peter Kunszt: Dipende. Per il sequenziamento del genoma, la spettrometria di massa e la microscopia, i politecnici e le università dispongono di core facility che offrono servizi di misurazione professionali e controllati. Il data management attivo dipende molto dal progetto. Se i dati vengono prodotti in una core facility, i processi sono ben definiti e continuamente ottimizzati. Nei laboratori indipendenti le procedure sono meno definite. Con SyBIT mettiamo a disposizione una serie di software per facilitare il compito dei ricercatori nelle core facility e nei laboratori indipendenti. 

Qual è il volume di dati prodotto?
I maggiori produttori di dati arrivano a diverse decine di terabyte all’anno. I piccoli microscopi o i contatori di cellule più semplici generano volumi nell’ordine di grandezza dei 100 gigabyte. 

La Sua istituzione ha una politica di DLCM?
Nella ricerca pura si vogliono spesso conservare tutti i dati, perché non si sa con certezza che cosa possano racchiudere. Nelle tipologie di dati di cui si conoscono meglio i contenuti, è più facile decidere cosa cancellare. Purtroppo ciò vale per una minima parte dei nostri dati. Ma col tempo abbiamo imparato a capire meglio, quando è più facile ripetere una misurazione piuttosto che stoccare i dati: le nuove misurazioni sono sempre più precise e più rapide. Con SyBIT stiamo elaborando delle direttive praticabili e degli standard per SystemsX.ch. 

A chi appartengono i dati?
Al contribuente – sono dati pubblici, i cui copyright appartengono alle università cantonali e ai politecnici.

Come può garantire l’accesso ai dati anche in un lontano futuro?
Non abbiamo ancora trovato una soluzione. Con un po'di fortuna avremo un repository internazionale per i dati. Ma in passato è già successo che tali repository non avessero più mezzi e dovessero chiudere i battenti. Altri sono stati privatizzati e ora si fanno pagare per accordare l’accesso ai dati. Purtroppo non esiste un archivio svizzero per i dati della ricerca. Il problema non è di natura tecnica. È una decisione politica di fondo: si tratta di definire chi è competente in Svizzera e di finanziare sul lungo termine uno o più archivi per i dati della ricerca.   

Dove risiedono secondo lei le maggiori sfide per i prossimi anni? E cosa bisognerà migliorare?
Il volume aumenterà continuamente. La deduplicazione e i progressi nei metodi di compressione contribuiranno a contenere il volume dei dati. Dobbiamo però capire meglio come applicare in modo ottimale queste nuove tecnologie. I problemi di accesso e di diritto d’autore esistono solo in campo medico. La complessità dei dati aumenterà. Già oggi non sono tanto i dati primari a crearci difficoltà, ma la giusta indicizzazione e i metadati. Non si può automatizzare molto in questo settore e il trattamento dei dati richiede un know-how tecnico altamente specializzato. 

Quanto è importante per il suo settore disporre di un DLCM coordinato?
È importantissimo, anche se purtroppo molti non se ne rendono spesso conto. Tutti i nuovi metodi si basano su conoscenze e dati già esistenti, che devono essere disponibili e resi facilmente accessibili per la ricerca ma anche per l’insegnamento. Esistono già dei primi spunti per aiutare la ricerca nel DLCM. Uno di questi è il progetto SyBIT. Ora bisognerà concretizzarli e realizzarli in modo duraturo.

Questo testo è apparso nello SWITCH Journal ottobre 2013.
Sull’autore
Konrad O.   Jaggi

Konrad O. Jaggi

Dopo aver studiato a Zurigo e Aberdeen (GB), Konrad O. Jaggi ha diretto diversi servizi informatici e progetti nel campo della pianificazione strategica. Dall'ottobre 2011 dirige presso SWITCH il reparto Researchers & Lecturers.

E-mail

Peter Kunszt

Dopo la laurea in fisica teorica, il dott. Peter Kunszt ha lavorato fra l'altro al CERN e ha diretto diversi progetti, tra cui i grandi progetti Grid dell'UE. Oggi è il responsabile del progetto SyBIT, nall'ambito dell'iniziativa svizzera per la biologia sistemica, SystemsX.ch, presso il Politecnico di Zurigo.

peter.kunszt@systemsx.ch

Altri contributi