Diese Story ist aus der Kategorie Innovation und dem Dossier Data Lifecycle Management

Metadaten als Problem

Wo hakt es beim Data Lifecycle Management in der Forschung? Ein Kenner zeigt die Schwierigkeiten auf.

Text: Konrad O. Jaggi, publiziert am 01.04.2014

Die Systembiologie gehört zu den aktuell staatlich geförderten Forschungsschwerpunkten in der Schweiz. In diesem jungen Forschungsgebiet versucht man, biologische Systeme ganzheitlich zu verstehen und zu modellieren: Wie sich ein Mikroorganismus, zum Beispiel Hefe, in verschiedenen Umgebungen verhält. Oder wie ein biologischer Prozess funktioniert, beispielsweise das Wachstum der Pflanzen. Es geht also um komplexe Grundlagenforschung, die interdisziplinäre Zusammenarbeit von Forschenden erfordert. SystemsX.ch ist die nationale Initiative, die für die Förderung von Forschungsprojekten in der Systembiologie zuständig ist. Das SyBIT-Projekt unterstützt alle SystemsX.ch-Projekte in ihrer teilweise sehr datenintensiven Forschung. Es ist unter anderem für das Data Lifecycle Management DLCM in SystemsX.ch verantwortlich.

SWITCH Journal: Wer ist für die Daten zuständig?
Peter Kunszt: Das ist sehr verschieden. Für die Gensequenzierung, Massenspektrometrie und auch die Mikroskopie beispielsweise haben die ETH und Universitäten Core Facilities, die Messungen professionell und kontrolliert als Dienstleistung durchführen. Das aktive Datenmanagement hängt sehr vom Projekt ab. Wenn die Daten an einer Core Facility hergestellt werden, dann gibt es genau definierte Abläufe, welche laufend verbessert werden. In den individuellen Laboren ist dies weniger gut definiert. In SyBIT stellen wir einiges an Software zur Verfügung, um die jeweiligen Aufgaben an den Core Facilities wie auch in den individuellen Laboren zu erleichtern. 

Welche Datenvolumen werden produziert?
Die grössten Datenproduzenten bringen es auf mehrere Dutzend Terabyte pro Jahr. Kleinere Mikroskope oder einfachere Zellzähler produzieren nur im 100-Gigabyte-Bereich.

Hat Ihre Institution eine Policy für das DLCM?
In der Grundlagenforschung will man oft alle Daten behalten, weil man noch nicht genau weiss, was alles in ihnen steckt. Bei Datentypen, wo man die Inhalte schon besser kennt, weiss man, was man wann löschen kann. Leider ist das bei der Minderheit unserer Daten der Fall. Aber wir verstehen immer besser, wann es einfacher ist, eine Messung zu wiederholen, statt die Daten zu speichern: Neue Messungen sind immer genauer und schneller. Wir sind in SyBIT dabei, praxistaugliche Richtlinien zu erarbeiten und innerhalb von SystemsX.ch Standards einzuführen.

Wem gehören die Daten?
Dem Steuerzahler – es sind öffentliche Daten, die Copyrights liegen bei den kantonalen Universitäten und den ETH.

Wie wollen Sie organisieren, dass die Daten auch in ferner Zukunft zugänglich sind?
Dafür haben wir noch keine Lösung. Wenn man Glück hat, gibt es für die Daten ein internationales Repository. Aber wir mussten auch schon beobachten, wie diese ihre Geldmittel verloren und den Laden dichtgemacht haben. Oder privatisiert wurden und heute Geld für den Zugang zu den Daten verlangen. Leider gibt es kein schweizerisches Archiv für Forschungsdaten. Die Technologie ist nicht das Problem. Viel wichtiger wäre es zu bestimmen, wer in der Schweiz dafür zuständig ist. Grundsätzlich ist dies ein politischer Entscheid, denn es geht um die nachhaltige Finanzierung eines oder mehrerer nationaler Archive für Forschungsdaten.

Wo sehen Sie eine Steigerung der Anforderungen und Herausforderungen in den kommenden Jahren?
Das Volumen wird immer steigen. Deduplizierung und bessere Komprimierungsverfahren werden dabei helfen, das Datenvolumen niedrig zu halten. Wir müssen aber noch besser verstehen, wie wir diese neuen Technologien optimal anwenden können. Zugriffs- und urheberrechtliche Probleme gibt es eigentlich nur im medizinischen Bereich. Die Komplexität der Daten wird zunehmen. Auch heute sind es nicht die Rohdaten selbst, die uns Mühe machen, sondern die richtige Indizierung und die Metadaten. Vieles kann man hier nicht automatisieren, und die Aufbereitung der Daten verlangt nach hoch spezialisiertem Expertenwissen.

Wie wichtig ist für Ihren Fachbereich ein koordiniertes DLCM?
Es ist enorm wichtig, und es wird leider von vielen noch häufig nicht so wahrgenommen. Alle neuen Methoden bauen auf vorherigen Erkenntnissen und Daten auf. Diese müssen verfügbar sein und auch verständlich zugänglich gemacht werden; für die Forschung wie auch für die Lehre. Erste Ansätze, die Forschung besser in ihrem DLCM zu unterstützen, sind bereits vorhanden. Einer davon ist das SyBIT-Projekt. Nun gilt es, diese nachhaltig zu etablieren und langfristig umzusetzen.

Dieser Text ist im SWITCH Journal Oktober 2013 erschienen.
Über den Autor
Konrad O.   Jaggi

Konrad O. Jaggi

Nach dem Studium in Zürich und Aberdeen (GB) führte Konrad O. Jaggi verschiedene Informatik- und Informationsdienste sowie Projekte im Bereich der strategischen Planung. Bei SWITCH leitet er seit Oktober 2011 den Bereich Researchers & Lecturers.

E-Mail

Peter Kunszt

Nach dem Abschluss in theoretischer Physik arbeitete Dr. Peter Kunszt unter anderem am CERN und leitete mehrere Projekte, auch EU-Grid-Grossprojekte. Heute ist er Projektleiter des SyBIT-Projekts im Rahmen der Schweizerischen Initiative für Systembiologie, SystemsX.ch, an der ETH Zürich.

peter.kunszt@systemsx.ch

Weitere Beiträge