Daten speichern long term

Reproduzierbarkeit. Zugängliche, interoperable und wiederverwendbare Daten. Regulatorische Anforderungen und Kontrollauflagen. Für Hochschulen bedeutet das, immer mehr Daten für längere Zeit speichern zu müssen. SWITCH hat eine Langzeitspeicherlösung entwickelt, welche die bestehenden SWITCHengines-Dienste und die institutionellen Systeme ergänzt.

Text: Ann Harding, publiziert am 25.09.2019

Datenspeicherung und -archivierung kann Forschende und Verwaltungsmitarbeitende vor eine gewaltige Aufgabe stellen. Daten für 5–10 Jahre oder länger aufbewahren zu müssen, kann schnell kostenintensiv und komplex werden. Zudem stellt sich die Frage wie und wo die Daten gespeichert werden sollen. In Zusammenarbeit mit der EPFL und verschiedenen Forschungsgemeinschaften (FORS, SDSC, DLCM) hat SWITCH häufige Anwendungsfälle bestimmt und einen Dienst zur Langzeitdatenspeicherung konzipiert. Das Ergebnis ist eine langfristige Speicherlösung von SWITCH, mit der sich die Speicherung und der Abruf von Daten einfach, mit verschiedenen Anwendungen kompatibel und kostengünstig umsetzen lässt.

Forschungsdatenverwaltung und Speicherung administrativer Daten

Es wurden zwei Hauptanwendungsfälle bestimmt. Für die Verwaltung von Forschungsdaten als auch die Speicherung rein administrativer Daten zu Audit-Zwecken wird eine standortferne Langzeitdatenspeicher-Lösung benötigt. Für die Verwaltung von Forschungsdaten lassen sich so Speicherpläne definieren, die den gesamten Lebenszyklus der betroffenen Daten abdecken. Die jeweiligen Einrichtungen können dann die nötigen Tools und die Infrastruktur bereitstellen, um eine adäquate Datenverwaltung zu ermöglichen. Über eine Archivierungsanwendung können Nutzer festlegen, welche Daten noch aktiv benötigt werden und welche archiviert werden können. Die archivierten Daten werden dann automatisch in den Langzeitspeicher verschoben, den SWITCH für die Institution bereitstellt.

Wird später ein Teil eines Datensatzes erneut benötigt, lässt sich dieser aus dem Langzeitspeicher abrufen und ohne Strafzahlung für den nochmaligen Abruf nutzen. Damit wird gewährleistet, dass die wissenschaftliche Notwendigkeit entscheidet, wie die Daten genutzt werden und nicht das Kostenmodell des Anbieters.

Für administrative Daten lässt sich die Langzeitspeicherung mit konventionellen Datensicherungslösungen kombinieren. Es werden regelmässige Kopien der Daten erstellt und in den Langzeitspeicher migriert. Zugriffsprotokolle schaffen Transparenz damit im Hinblick auf Audits und Gesetzesvorschriften nachgewiesen werden kann, dass die Daten nicht verändert wurden.

Einheitliche Schnittstelle, standortfremde Speicherung und Datensicherheit

Gemeinsame Anforderungen von beiden Anwendungsfällen sind die Notwendigkeit einer einfachen, einheitlichen Schnittstelle, geografischer Unabhängigkeit vom Primärdatenstandort sowie von Massnahmen zur Gewährleistung der Datensicherheit. Im Vergleich zur Echtzeitdatenspeicherung mit SWITCHengines wurde auch ein günstigeres Preis-Leistungs-Verhältnis für tiefere Performance Anforderungen angestrebt.

Eine einheitliche Schnittstelle ist wichtig, damit die Speicherebene eine grosse Bandbreite möglicher Archivierungs-Tools und -Systeme unterstützt. Standard ist heute ObjectStorage, insbesondere S3 basierend auf AWS. Diese Schnittstelle wurde letztlich als einzige Lösung ausgewählt. Objekte werden auf der Grundlage eines Identifikators gespeichert oder abgerufen und müssen nicht auf einem direkt mit der Anwendung verbundenen Dateisystem platziert werden. Die konventionelle Block- oder Volumenspeicherung mit SWITCHengines ist zwar leistungsfähiger, doch im vorliegenden Fall wird mehr Wert auf Nachhaltigkeit und Skalierbarkeit gelegt. Die Einfachheit einer einzigen Schnittstelle ermöglicht es, Kosten zu reduzieren.

Datensicherheit bedeutet, dass die Datenspeicherung bei der Langzeitspeicherlösung von SWITCH an einem Standort erfolgt, der weder dem Ort der Datengenerierung noch SWITCHengines entspricht. Damit lassen sich Daten von SWITCHengines-Nutzern sicher archivieren, wenn sie nicht mehr aktiv benötigt werden. Die Plattforminfrastruktur bezieht SWITCH von Cloudian und ergänzt Ceph auf SWITCHengines: die Verfügbarkeit beider Softwarelösungen sorgt für optimale Flexibilität und Stabilität. Schliesslich wurde noch ein Erasure-Code-Array gewählt, mit dem sich die Daten auch beim Ausfall mehrerer Festplatten wiederherstellen lassen.

Während der Entwicklungsphase haben die EPFL und das DLCM-Projekt bereits Tests an einer Zwischenlösung durchgeführt. Ende September 2019 soll nun das gesamte System in Betrieb gehen und getestet werden. Pilotnutzer sind noch immer willkommen. Der Dienst wird ab dem vierten Quartal 2019 für den normalen Betrieb angeboten und ist zum Projektpreis erhältlich. Per 2020 wird die Lösung dann als eigenständige Dienstleistung in die Tarifstruktur von SWITCH integriert.

Über den Autor
Ann   Harding

Ann Harding

Ann ist seit 2007 für SWITCH tätig und derzeit Mitglied des Infrastruktur- und Daten-Teams, in dem sie das Projekt zum Aufbau einer Langzeitspeicherlösung leitet und Forschungseinrichtungen bei der Nutzung von SWITCHengines unterstützt. Ann hat ein Studium in Geisteswissenschaften und Informatik abgeschlossen und besitzt einen Mastertitel in Kultur- und Medienwissenschaften.

E-Mail
Weitere Beiträge