Diese Story ist aus der Kategorie Innovation und dem Dossier InfrastrukturservicesInternationale Kooperationen

Die akademische Cloud wird international

Beim Handling von Big Data beschloss SWITCH, mit europäischen Forschungsnetzwerken zusammenzuarbeiten. Mit Erfolg.

Text: Saverio Proto, publiziert am 30.08.2016

Forscher arbeiten oft mit grossen Datenmengen. Dafür wurde SWITCHengines entwickelt. Forscher könnten damit grosse, öffentlich zugängliche Datensets analysieren.  Ein Forscher, der einen neuen Suchalgorithmus für das Web entwickelt, könnte seinen ersten Entwurf beispielsweise am Common Crawl Datenset austesten. Letzeres enthält Daten, die über viele Jahre hinweg im World Wide Web gesammelt wurden. Ein Biologe, der zu menschlichen Genomen forscht, kann derweil seine Daten aus lokaler Forschung mit den Daten aus dem 1000-Genome-Projekt vergleichen.

Heutzutage ist es einfacher als früher, grosse Datenmengen zu verarbeiten, denn heute stehen dafür viele Open-Source-Programme zur Verfügung. Zudem stellen grosse kommerzielle Anbieter wie beispielsweise Amazon Rechenkapazität nach Bedarf zur Verfügung, Einige Anbieter von öffentlichen Clouds stellen wissenschaftliche Daten kostenlos zur Verfügung – solange man für die Rechenzeit bezahlt.

Wissenschaftler benötigen zwei Dinge für ihre Arbeit: Ein Computercluster mit hoher Rechenkapazität für die Berechnungen plus Speicherplatz, um die Daten und die Resultate der Berechnungen abzuspeichern.

Im SCALE-UP-Projekt gibt es ein Arbeitspaket namens Scientific Data Pools, dessen Ziel lautet, Speicherplatz für grosse Datenmengen anzubieten, damit sie diese anderen Forschern zur Verfügung stellen können.

Bei Letzterem kommt SWITCH mit SCALE-Up-Projekt aus dem P-2-Programm von swissuniversities ins Spiel. Im P-2-Programm gibt es ein Arbeitspaket namens Scientific Data Pools, dessen Ziel lautet, Speicherplatz für grosse Datenmengen anzubieten, damit sie diese anderen Forschern zur Verfügung stellen können. Dieser ist zugeschnitten auf das Portemonnaie und die spezifischen Bedürfnisse von Forschern. Diese Anwendung soll später im Rahmen der Dienstleistung SWITCHengines zur Verfügung stehen.

Die Herausforderung

Datenmengen in der Grössenordnung von Petabytes zu speichern ist allerdings komplizierter, als es auf den ersten Blick scheinen mag: Die Daten müssen nämlich jederzeit zuverlässig zur Verfügung stehen und gegen Verlust geschützt sein. Damit SWITCH mit solch grossen Datenmengen umgehen kann, arbeitet sie mit einer objektbezogenen Architektur zur Speicherung der Daten. Dabei lautet der Grundsatz für sichere Datenspeicherung, dass jedes Objekt dreifach vorhanden sein muss. Das bedeutet also, dass die Nettokapazität, die für sichere Datenspeicherung gemäss Standard vorhanden sein muss, dreimal grösser ist, als die eigentliche Datenmenge. Dabei umfasst ein typisches, wissenschaftliches Datenset ungefähr 200 Terabyte. Entsprechend sorgt SWITCH dafür, den Service zu einem vernünftigen Preis anzubieten zu können.

Wieso also nicht in Europa zusammenarbeiten? Jede Institution könnte Daten in reduzierter Redundanz speichern.

Die gute Nachricht ist, dass alle nationalen Forschungs- und Bildungsnetzwerke (NRENs) mit demselben Problem konfrontiert sind, wenn es um die Speicherung von wissenschaftlichen Daten geht. Wieso also nicht in Europa zusammenarbeiten? Jede Institution könnte Daten in reduzierter Redundanz speichern, indem sie davon profitiert, dass sie im Notfall eine verlorengegangene Kopie herunterladen kann. Wenn alle beteiligten Institutionen die Daten via eine standardmässige Schnittstelle für objektbezogene Speicherung zugänglich machen, wird eine Zusammenarbeit einfach, und man reduziert die Kosten für die Redundanz der Daten. SWITCH startete eine Pilotkooperation mit GARR (dem italienischen Forschungsnetzwerk), der Universität Zürich sowie der EPFL in Lausanne.

Das Pilotprojekt

Für ihre Tests wählte SWITCH Google Books Ngrams als Dataset aus. Mit seinen 5 Terabytes ist es gross genug für ein "Proof of concept" und klein genug, um die Kopiervorgänge schnell durchzutesten. Die EPFL stellte die erste Kopie von Google Books Ngrams zum Herunterladen zur Verfügung. SWITCH lud das Datenset via SWITCHlan herunter und stellte es über das GÉANT-Netzwerk zur Verfügung. Um die echte Produktionsumgebung nachzustellen, beschrieben wir unseren Anwendungsfall wie folgt:

Jedes Forschungsnetzwerk

  • darf nur Leseerlaubnis haben bei Daten, die im Original an einem anderen Ort gehostet werden.
  • sollte jederzeit fähig sein, die Daten, die im Original an einem anderen Ort liegen, zu synchronisieren.
  • ist frei darin, wie es die Daten seinen Benutzern präsentiert.

Wir von SWITCH haben vor, SWITCHengines weiterzuentwickeln, indem wir ab Ende 2017 das Hosting von wissenschaftlichen Datensets in der Grössenordnung von Petabytes anbieten.

Die Synchronisierung der Daten zwischen den Speicherorten ist einfach, weil sich die Daten ja nur ändern, wenn neue dazukommen; vorhandene Daten werden niemals verändert. Weil SWITCH standardisierte Objektdaten-Schnittstellen verwendete, wie Swift und S3, konnten wir von SWITCH die Daten problemlos zur Verfügung stellen, und GARR sowie die Universität Zürich konnten eine vollständige Kopie der Daten synchronisieren. Es zeigte sich, dass es sinnvoll war, einen Versuch mit einem Datenset von kleiner Grösse durchzuführen. Es half nämlich, einige Softwarefehler in den vorhandenen Open-Source-Anwendungen zu identifizieren. SWITCH, GARR, die EPFL und die Universität Zürich arbeiteten bei der Behebung der Fehler zusammen und stellten die Fixes den Open-Source-Projekten während der Pilotphase zur Verfügung. Hätten die Ingenieure der Organisationen nicht zusammengearbeitet, wäre es viel schwieriger gewesen, alle diese Fehler in so kurzer Zeit zu beheben.

Wie es weitergeht

Wir von SWITCH haben vor, SWITCHengines weiterzuentwickeln, indem wir ab Ende 2017 das Hosting von wissenschaftlichen Datensets in der Grössenordnung von Petabytes anbieten. Diese werden sowohl für Computerbearbeitung innerhalb von SWITCHengines wie auch für die Bearbeitung mit anderen existierenden Computerclustern in der Schweiz via SWITCHlan zur Verfügung stehen.

Nach der positiven Erfahrung mit dem europäischen Pilotprojekt glauben wir von SWITCH, dass die Zusammenarbeit mit anderen Institutionen sehr viel wert ist. Wir sind offen für eine Kooperation mit anderen Forschungsnetzwerken in der ganzen Welt. Solche Zusammenarbeiten, bei denen Dienstleistungen gemeinsam implementiert werden, helfen Kosten zu reduzieren und den Nutzern einen besseren Service anzubieten. Man kann sich in der Kooperation mit internationalen Teams viel schneller Know-how bezüglich Softwareanwendungen aneignen. Vor allem zwingt es die Ingenieure dazu, eine qualitativ hochstehende Dokumentation anzulegen, wenn sie jeden Entwicklungsschritt anderen aus dem internationalen Team mitteilen müsssen, damit diese jederzeit helfend eingreifen können. Kooperation bedeutet auch, dass jeder von jedem lernt. Zusammen mit den anderen Forschungsnetzwerken fanden wir durch offene Diskussionen oft schnelle Lösungen für Probleme, an denen wir von SWITCH hängenblieben.

Über den Autor
Saverio   Proto

Saverio Proto

Seit 2011 arbeitet der OpenStack-Cloud-Ingenieur Saverio Proto für Forschungsnetzwerke, zuerst in Italien, dann in der Schweiz. Er hat grosse Erfahrungen im Betrieb von kritischen Infrastrukturen mit Opensource Software. 2015 stiess er zum Infrastructure & Data Team von SWITCH.

E-Mail

SWITCHengines

SWITCHengines bietet eine Computerinfrastruktur für Projekte, die nicht über eine geeignete Infrastruktur verfügen und auch nicht vorhaben, eine solche aufzubauen. Nach einer simplen Online-Bestellung steht die massgeschneiderte Rechen- und Speicherkapazität sofort zur Verfügung. Bezahlt wird nur, was man benutzt hat. SWITCHengines wurde speziell für die Forschercommunity entwickelt.

Mehr über SWITCHengines

Betatest
Wer Interesse hat, den SWITCH-Service "Öffentliche Datensets" zu testen, liest am besten das Tutorial und kontaktiert anschliessend die SWITCH-Ingenieure.

Weitere Beiträge