Von der Quelle ins Konnektom

Im SWITCH Innovation Lab "Linked Data Pipeline" baut Laura Rettig vom eXascale Infolab die Schnittstelle zwischen Forschungsdatenrepositorien und dem Konnektom-Prototypen.

Text: Cornelia Puhze, publiziert am 02.07.2020

Welches Problem soll im Innovation Lab gelöst werden?

Laura Rettig: Wir testen, wie wir die Metadaten von Forschungsdatensätzen strukturiert zusammenführen. Dafür bauen wir eine Pipeline, die unstrukturierte und strukturierte Datensätze von ihren Quellen ins Forschungsdaten-Konnketom integriert und sie dabei in eine strukturierte Form bringt.

Was bedeutet Linked Data und welche Rolle spielt dieses Konzept im Konnektom?

Laura Rettig: Linked Data sind verknüpfte Daten, die auf einem Graphen abgebildet zeigen, welche Daten wie zusammenhängen. Im Konnektom-Prototypen konzentrieren wir uns vorerst nur auf die Verknüpfung der Metadaten, also Attributen wie z.B. Name der Autorin, Lehrstuhl, Methodik, Titel, Forschungsfrage oder fachspezifische Attribute. Das allein ist schon sehr komplex. Den Inhalt der Datensätze, z.B. Interviews mit Einzelpersonen in einer sozialwissenschaftlichen Studie oder Stadtpläne in einer historischen Forschungsarbeit fassen wir im Prototypen noch nicht an.

Wie und wer legt fest welche Metadaten relevant sind und im Konnektom-Prototypen überhaupt abgebildet werden sollen?

Laura Rettig: Wir, also alle Partner in der Pilotphase des Konnektoms, greifen auf bestehende Standards zurück. Wir verwenden das generelle Schema von schema.org, das versucht die Welt breit abzubilden. Diese vordefinierten Datensatzklassen von schema.org erweitern wir mit zusätzlichen Attributen. Das Schema für den Prototypen ist also ein Hybrid.

Grundsätzlich geht es darum das Maximum an Metadaten zu definieren, also alles was im Schema abgebildet werden soll. Damit legen wir auch fest, welche Funktionen im Konnektom entwickelt werden können. Das sind Entscheidungen, die wir gemeinsam möglichst breit treffen, weil eine Person allein gar nicht genug Fachwissen und Perspektiven einbringen kann. Parallel zum Innovation Lab werden ausserdem ja Interviews mit Forschenden durchgeführt, um ihre Bedürfnisse herauszufinden und daraus die Use Cases abzuleiten.

Wie sieht denn die Zusammenarbeit mit den Pilot-Partnern aus?

Laura Rettig: Wir arbeiten sehr eng zusammen. Die Forschungsdaten stammen aus den Repositorien der Partner FORS und DaSCH, sind also aus sozial- und geisteswissenschaftlichen Domänen. Mit EPFL Blue Brain Nexus haben wir eine sehr gute Infrastruktur aus den Life Sciences.

In den letzten Monaten habe ich mich direkt mit FORS und DaSCH sowie Forschenden ihrer Domänen bezüglich Attributen und Datenformaten ausgetauscht.

Sollen in Zukunft Daten von Forschungsprojekten automatisiert eingelesen werden können?

Laura Rettig: Metadaten automatisiert aus Datensätzen zu generieren wird schwierig bleiben, denke ich. Eigentlich kann man das auch durchaus Forschenden zumuten, die Metadaten zu ihrer Forschung anzugeben. Hier braucht es wohl mehr Anreize und Regeln seitens Forschungsförderern aber auch ein Umdenken in der Forschungscommunity.

Interessant wäre, Daten auch langfristig automatisiert analysieren zu können. Gerade in den Sozialwissenschaften werden gerne Metaanalysen gemacht. Hier könnte es für Forschende sehr nützlich sein, wenn Daten automatisiert aggregiert werden können. Das wäre eine mögliche Richtung für die nähere Zukunft.

Wird das im Konnektom-Prototypen schon möglich sein?

Laura Rettig: Nein, im Moment konzentrieren wir uns auf die Auffindbarkeit von Datensätzen. Konkret: eine Forscherin fragt sich, was wurde denn in meinem Thema in die Richtung schon geforscht oder wer arbeitet an etwas Ähnlichem wie ich und mit welchen Ergebnissen. Je mehr Attribute Datensätze haben, desto besser können sie gefunden und wiederverwendet werden. Deshalb ist es auch wichtig Qualitätsmetriken für die Metadaten zu definieren.

Wie wir Qualitätsmetriken umsetzen könnten, haben wir am Research Data Alliance (RDA) Hackathon in einem zweitägigen Sprint getestet.

Was genau habt ihr am RDA Hackathon entwickelt?

Laura Rettig: Wir haben semi-strukturierte Daten – in diesem Fall Datenmanagement-Pläne (DMP) die Förderungsfonds im PDF-Format eingereicht werden – in eine strukturierte Form gebracht, also eine Pipeline gebaut. Zuerst haben wir definiert welche Metadaten für die Empfänger bedeutend sind. Diese wurden dann aus den DMPs über Textanalyse extrahiert und so konnten wir aufzeigen, welche Themen werden abgedeckt und welche nicht. So lassen sich die Datenmanagement-Pläne viel schneller sichten und man kann gezielt die Lücken überprüfen.

Was sind die nächsten Schritte zur Finalisierung des Innovation Lab?

Laura Rettig: Als nächstes integrieren wir die Daten in die Datenmanagement Plattform EPFL Blue Brain Nexus. Zu den Daten von FORS und DaSCH nehmen wir noch zusätzliche Datensätze von OpenAIRE, auch für ein Load-Testing. Wir wollen wissen, wie die Skalierbarkeit und Performance sind. Also zum Beispiel wie einfach Daten noch zu finden sind, wenn es ganz viele mit dem gleichen Stichwort gibt. Ist die Stichwortsuche dann überhaupt noch nützlich? Oder generell: wie findet man relevante Daten?

Was schätzt du am meisten an deiner Arbeit im Innovation Lab?

Laura Rettig: Den Austausch mit den Pilot-Partnern und so vielen Experten unterschiedlicher Disziplinen finde ich sehr bereichernd. Ausserdem finde ich es als Forscherin wirklich wichtig und sinnvoll, dass Forschungsdaten in Zukunft an einem Ort zentral verlinkt sind und nicht auf irgendwelchen unbekannten Festplatten liegen, die irgendwann zerstört werden. Das sind alles Ressourcen, die brach liegen und mit denen wir vielleicht viele Probleme lösen könnten. Hinzu kommt, dass viele Forschungsdaten mit öffentlichen Geldern finanziert wurden und deshalb auch als Teil des Forschungserbes für künftige Generationen nicht verloren gehen sollten.

Mehr erfahren über die SWITCH Innovation Labs

Autorin-L

Laura Rettig

Laura Rettig ist Doktorandin an der Universität Fribourg, eXascale Infolab, unter der Leitung von Philippe Cudré-Mauroux. Ihre Forschungsschwerpunkte sind große Dateninfrastrukturen und Computerlinguistik, insbesondere für soziale, semantische und wissenschaftliche Daten. Sie absolvierte einen Master in Informatik der Universität Fribourg. In ihrer Masterarbeit untersuchte sie das Streaming grosser Datenmengen anhand von Swisscom-Telekommunikationsdaten.

Das Forschungsdaten-Konnektom

Weitere Beiträge