Diese Story ist aus der Kategorie Corporate und dem Dossier Data Lifecycle Management

Wissen verwalten im Zeitalter von Big Data

Aus Daten relevante Informationen und neue Erkenntnisse gewinnen – das ist der Kernprozess jeder Wissenschaft. Der ICT Focus 2016 lieferte Antworten auf die Frage, wie Data Science und E-Infrastructure diesen Kernprozess unterstützen können.

Text: Guido Biland, publiziert am 29.11.2016

Unternehmen wie Google und Facebook zeigen eindrücklich, welche Wertschöpfung aus Daten erzeugt werden kann, wenn Data Science und E-Infrastructure auf höchstem Niveau zum Einsatz kommen. Auch in der akademischen Community ist die strategische Bedeutung dieser digitalen «Produktionsfaktoren» für die Exzellenz der Forschung unbestritten. Der inter- und multidisziplinäre Erkenntnisprozess der Gegenwart ist an unlimitierte Datenverfügbarkeit und Rechenleistung gekoppelt. Inseln, isolierte Datensilos und Flaschenhälse im Netzwerk passen nicht mehr in die moderne IT-Landschaft.

Tony Hey über Big Science Data

In der Keynote mit dem Titel: "The Revolution in Experimental and Observational Science and the Resulting Demands on e-Infrastructure" schilderte Tony Hey, Chief Data Scientist im Scientific Computing Department des UK Science and Technology Facilities Council (stfc.ac.uk), die aktuelle Situation der Wissenschaftler. Sie müssen nicht nur experimentelles und theoretisches Wissen beherrschen, sondern dazu eine Unmenge von Daten verarbeiten, die durch Instrumente erfasst, von Computersimulationen erzeugt und von Sensornetzwerken geliefert werden, wobei sich diese Quellen technisch laufend verbessern und folglich immer mehr Daten liefern. Die digitalen Datenbestände sind mittlerweile so gigantisch, dass der Umgang mit diesen Daten selbst zu einer Wissenschaft geworden ist. Die Rede ist von Data Science. Die akademische Welt hat einen neuen Trend: die Fusion von Fach- und Computerwissenschaften.

Hey liess in seinen Ausführungen keinen Zweifel daran, dass der Umgang mit Big Data besondere Anforderungen an die Infrastruktur der Forschungseinrichtungen und Hochschulen stellt. In der sogenannten E-Infrastructure werden alle digitalen Produktionsfaktoren auf einer Plattform zusammengeführt. Das STFC definiert E-Infrastructure wie folgt: E-Infrastructure refers to a combination and interworking of digitally-based technology (hardware and software), resources (data, services, digital libraries), communications (protocols, access rights and networks) and the people and organisational structures needed to support modern, internationally leading collaborative research be it in the arts and humanities or the sciences. Hey verkürzte die Definition auf die einfache Formel: e-infrastructure = compute + data + networking + tools and services + people.

Hey plädierte dafür, auch europäische Forschungsnetze mit einer Ende-zu-Ende-Netzwerk-Architektur nach dem Muster des Science DMZ auszurüsten, damit die Wissenschaftler von überall Zugang zu den Highend-Ressourcen bedeutender Forschungsinstitute haben.

Wo steht Europa in Sachen E-Infrastructure? Hey, von 2005 bis 2015 als Corporate Vice President bei Microsoft Research tätig, sieht die USA klar im Vorteil. Als Beispiel nannte er das Task-Force-Projekt «Campus Bridging» der National Science Foundation (NSF). Ziel des 2009 lancierten Projektes war es, Campus-Infrastrukturen so zu vernetzen, dass Wissenschaftler alle Funktionen der eingebundenen Infrastrukturen nutzen können, als wären sie Teil der eigenen Campus-Infrastruktur. Daraus entstand das "Science DMZ", ein Hochleistungsdatennetz mit dedizierten hochperformanten Data Transfer Nodes. Dank der NSF-Finanzierung ist Science DMZ mittlerweile an über 100 Universitäten verfügbar. Hey plädierte dafür, auch europäische Forschungsnetze mit einer Ende-zu-Ende-Netzwerk-Architektur nach dem Muster des Science DMZ auszurüsten, damit die Wissenschaftler von überall Zugang zu den Highend-Ressourcen bedeutender Forschungsinstitute haben.

Olivier Verscheure über das Swiss Data Science Center

In seiner Keynote stellte Olivier Verscheure ein neues Gemeinschaftsprojekt der EPFL und der ETH Zürich vor: das Swiss Data Science Center SDSC (datascience.ch). Der Belgier doktorierte an der EPFL und war 17 Jahre für IBM-Forschungszentren in den USA und in Irland tätig. Seit 2016 leitet er das SDSC, das sich zurzeit noch im Aufbau befindet.

Verscheure bezeichnete Data Science als fragmented ecosystem, das sich aus verschiedenen Disziplinen zusammensetzt: Data Mining, Statistics, Machine Learning, Operations Research, Visualization, Visual Analytics, Data Management, Algorithms usw. Die Herausforderung bestehe darin, Data Science so einzusetzen, dass «reale Probleme» – also Aufgaben in fachwissenschaftlichen Kontexten – gelöst werden können. Das SDSC wurde ins Leben gerufen, um die Lücke zwischen Data Science und den Fachwissenschaften zu schliessen und so bessere Wissenschaft zu ermöglichen. Seine zentrale Aufgabe wird es sein, die Akteure Domain Experts, Data Providers und Data Scientists auf einer gemeinsamen Plattform zu "föderalisieren". Bis 2020 will Verscheure ein interdisziplinäres Team aus 30 bis 40 Daten- und Computer-Wissenschaftlern rekrutieren.

Fazit

Der Wissenschaftsstandort Schweiz braucht mehr Experten, die Big Science Data analysieren können. Mit der Gründung des SDSC und der Einführung von Master-Kursen in Data Science hat der ETH-Rat auf dieses Bedürfnis reagiert. Parallel dazu braucht es Initiativen auf Infrastrukturebene, damit die wachsenden Datenmengen auch schnell und sicher innerhalb der Community transferiert werden können. Beide Referenten verwiesen hier auf die Expertise und Verdienste von SWITCH. Dienstleistungen wie SWITCHengines wurden als wichtige Bausteine bei Big-Data-Szenarien gewürdigt. SWITCH ist mit ihrem Managing Director, Andreas Dudler, auch im Lenkungsausschuss des Swiss Data Science Centers vertreten. Beide Forschungsexperten gaben zu verstehen, dass sie Kooperationen mit der Industrie begrüssen.

ICT Focus 2016

Die jährliche SWITCH-Veranstaltung fand am 21. und 22. November in Lausanne statt. Das Zielpublikum des ICT Focus sind Leiter der IT-Dienste, Abteilungsleiter und Dienstverantwortliche der Schweizer Hochschullandschaft. Auf dem Programm standen Plenarvorträge und Parallelveranstaltungen. Der Themenbereich widerspiegelte die vielfältigen Herausforderungen, denen sich die IT-Dienste der Schweizer Hochschulen heute in den Bereichen Technik, Recht und Organisation stellen müssen. Dieses Mal standen Data Science und E-Infrastructure im Fokus.

Weitere Beiträge