Diese Story ist aus der Kategorie Innovation und dem Dossier Data Lifecycle Management

Kostenoptimierte Lösungen suchen

Wohin mit den Forschungsdaten des Paul-Scherrer-Instituts? Der Leiter Informationstechnologie gibt Auskunft.

Text: Konrad O. Jaggi, publiziert am 01.04.2014

Das Paul Scherrer Institut PSI in Villigen AG ist das grösste Forschungszentrum für Natur- und Ingenieurwissenschaften in der Schweiz. Es konzentriert sich auf drei Themenschwerpunkte: Materie und Material, Energie und Umwelt sowie Mensch und Gesundheit. Das PSI entwickelt, baut und betreibt komplexe Grossforschungsanlagen. Jährlich kommen mehr als 2000 Wissenschaftlerinnen und Wissenschaftler aus der ganzen Welt ans PSI, um an den Anlagen Experimente durchzuführen. Diese Grossanlagen produzieren riesige Datenmengen.

Konrad O. Jaggi: Wer ist für die Daten zuständig?
Stephan Egli: Die Daten entstehen in erster Linie bei den Experimenten. Die Hauptproduzenten sind die Strahllinien der Swiss Light Source – einer Grossanlage für Experimente – und die Teilchenphysik mit ihrer Grundlagenforschung zur Untersuchung seltener Zerfälle. Die offizielle Rolle eines Datenmanagers gibt es noch nicht. Die Hauptverantwortung für die Daten liegt daher bei den Forschungsteams. Im Moment muss jede Gruppe für sich selber entscheiden, ob die Daten an das Heiminstitut exportiert werden und auf welchem Weg das geschieht. 

Welche Datenvolumen werden produziert?
Im Jahr 2012 erzeugten die Experimente Daten auf Band in der Grösse von insgesamt 250 Terabyte (10004 bytes). Die gesamte Speichermenge beträgt zurzeit 1.6 Petabyte (10005 bytes). Aber es werden nicht alle Daten systematisch auf Band geschrieben. Viele müssen heute reduziert und exportiert werden, da die lokalen Speicherkapazitäten nicht ausreichen, um die Daten länger aufzubewahren. Bereits nach einigen Wochen oder Monaten müssen sie dort gelöscht werden. 

Hat Ihre Institution eine Policy für das Data Lifecycle Management DLCM?
Wir haben noch keine Policy. Es sind aber Diskussionen im Gang, eine solche zu etablieren, auf der Basis von international abgestimmten Vorschlägen, wie sie vor allem im Rahmen von EU- FP7-Projekten erarbeitet wurden. Hier sind insbesondere die PaNdata-Europe- und PaNdata-ODI-Projekte zu nennen. 

Wem gehören die Daten?
Sie gehören in der Regel dem Forschenden, der sie erzeugt. Das Paul Scherrer Institut stellt keinen Anspruch auf die geistigen Eigentumsrechte externer Benutzerinnen und Benutzer der Grossforschungsanlagen, solange die Resultate veröffentlicht werden. Der Umgang mit Daten aus der Zusammenarbeit mit der Industrie wird vertraglich separat geregelt. 

Wie wollen Sie organisieren, dass die Daten auch in ferner Zukunft zugänglich sind?
Für die langfristige Speicherung werden weiterhin Tape-Medien zum Einsatz kommen. Das ist nicht zuletzt auch energetisch die günstigste Lösung. Bei den Datenformaten gibt es noch viel zu standardisieren. Ein wichtiges Datenformat ist das HDF5-Format, das eine Annotation mit Metadaten unterstützt. Die Standardisierung sehe ich eher als langfristigen Prozess. Aufseiten IT muss eine Infrastruktur zur Verfügung stehen, die eine effiziente Migration der Daten auf die jeweils neuesten Medien und Technologien ermöglicht. 

Wo sehen Sie eine Steigerung der Anforderungen und Herausforderungen in den kommenden Jahren?
Die IT-Abteilungen müssen den Anspruch haben, eine Infrastruktur bereitzustellen, die den Forschenden das Leben erleichtert und sie von repetitiven Aufgaben entlastet. Die Forschenden müssen ihrerseits einen Beitrag leisten bei der Definition der Qualitätskriterien und bei der Weiterentwicklung der Datenformate und Metadaten. Die Science Communities und ihre Mitglieder müssen in den DLCM-Prozess eingebunden werden. Eine weitere wichtige Herausforderung sehe ich in der Bewältigung der exponentiell wachsenden Datenmenge sowie in der Erwartung, immer und überall auf Daten zugreifen und sie problemlos austauschen zu können. Zudem müssen bei all den Herausforderungen Lösungen gefunden werden, die kostenoptimiert sind. Daher wird ein erheblicher Druck entstehen, Synergien innerhalb der Hochschullandschaft Schweiz zu finden. 

Wie wichtig ist für Ihren Fachbereich ein koordiniertes DLCM?
DLCM sollte von allen beteiligten Parteien als integraler Teil des Forschungsprozesses angesehen werden. Ich betrachte es als strategische Notwendigkeit eines jeden Forschungsbetriebes. Es sollte ganz klar in einem Datapolicy-Dokument geregelt sein.

Dieser Text ist im SWITCH Journal April 2013 erschienen.
Über den Autor
Konrad O.   Jaggi

Konrad O. Jaggi

Nach dem Studium in Zürich und Aberdeen (GB) führte Konrad O. Jaggi verschiedene Informatik- und Informationsdienste sowie Projekte im Bereich der strategischen Planung. Bei SWITCH leitet er seit Oktober 2011 den Bereich Researchers & Lecturers.

E-Mail

Stephan Egli

Nach einem Physik-Studium an der ETH Zürich arbeitete Dr. Stephan Egli an der Universität Zürich, unter anderem als EDV-Koordinator. Seit 1999 ist er Leiter der Abteilung für Informationstechnologie AIT am Paul Scherrer Institut.

stephan.egli@psi.ch

Weitere Beiträge