De la source au connectome

Au sein du SWITCH Innovation Lab «Linked Data Pipeline», Laura Rettig de l’eXascale Infolab construit l’interface entre les dépôts de données de recherche et le prototype du connectome.

Texte: Cornelia Puhze, publié le 02.07.2020

 

Quel problème doit être résolu dans l’Innovation Lab?

Laura Rettig: Nous testons comment fusionner les métadonnées des ensembles de données de recherche de manière structurée. À cette fin, nous construisons un pipeline qui intègre des ensembles de données non structurées et semi-structurées provenant de leurs sources dans le connectome des données de recherche, en leur conférant une forme structurée.

Que signifie le terme «linked data» et quel rôle ce concept joue-t-il dans le connectome?

Laura Rettig: Les linked data sont des données liées qui sont présentées sur un graphique et montrent quelles données sont liées de quelle manière. Dans le prototype du connectome, nous nous concentrons dans un premier temps uniquement sur la liaison des métadonnées, c’est-à-dire des attributs tels que le nom de l’auteur, la chaire, la méthodologie, le titre, l’objet de la recherche ou des attributs spécifiques au sujet. Rien que cela est déjà très complexe. Dans le prototype, nous n’abordons pas encore le contenu des ensembles de données, p. ex. des entretiens avec des personnes spécifiques dans le cadre d’une étude de sciences sociales ou des plans de ville dans un projet de recherche historique.

Par qui et comment sont déterminées les métadonnées pertinentes qui doivent être répertoriées dans le prototype du connectome?

Laura Rettig: Nous, c’est-à-dire tous les partenaires de la phase pilote du connectome, avons recours aux normes existantes. Nous utilisons le schéma général de schema.org, qui tente de représenter le monde dans son ensemble. Nous complétons ces classes d’ensembles de données prédéfinies de schema.org par des attributs supplémentaires. Le schéma du prototype est donc une version hybride.

Essentiellement, il s’agit de définir la quantité maximale de métadonnées, c’est-à-dire tout ce qui doit être représenté dans le schéma. Ainsi, nous définissons également les fonctions qui peuvent être développées dans le connectome. Il s’agit de décisions que nous prenons ensemble avec un maximum de personnes, car une personne seule ne peut pas apporter suffisamment d’expertise et de perspectives. Parallèlement à l’Innovation Lab, des entretiens sont également menés avec des chercheurs pour connaître leurs besoins et en déduire des cas d’utilisation.

À quoi ressemble la collaboration avec les partenaires pilotes?

Laura Rettig: Nous travaillons en étroite collaboration. Les données de recherche proviennent des dépôts des partenaires FORS et DaSCH, c’est-à-dire des domaines des sciences sociales et humaines. Avec le Blue Brain Nexus de l’EPFL, nous disposons d’une très bonne infrastructure dans le domaine des sciences de la vie.

Au cours des derniers mois, j’ai été en contact direct avec le FORS et le DaSCH ainsi qu’avec des chercheurs de leurs domaines concernant les attributs et les formats des données.

Devrait-il être possible de récupérer automatiquement les données des projets de recherche à l’avenir?

Laura Rettig: La génération automatique de métadonnées à partir d’ensembles de données restera difficile, je pense. En principe, les chercheurs devraient être en mesure d’indiquer les métadonnées associées à leurs recherches. À cet égard, il faut probablement davantage d’incitations et de règles de la part des organismes de financement de la recherche, mais aussi un changement des mentalités au sein de la communauté des chercheurs.

Il serait intéressant de pouvoir également analyser les données automatiquement à long terme. Les méta-analyses sont particulièrement populaires dans les sciences sociales. Dans ce domaine, il pourrait être très utile pour les chercheurs que les données puissent être agrégées automatiquement. Ce serait une orientation possible dans un avenir proche.

Est-ce que cela sera déjà possible dans le prototype du connectome?

Laura Rettig: Non, pour l’instant, nous nous concentrons sur la récupération des ensembles de données. Prenons un exemple concret: une chercheuse se demande ce qui a déjà été étudié dans ce sens dans son domaine ou qui travaille sur un sujet similaire au sien et avec quels résultats. Plus les ensembles de données possèdent d’attributs, mieux ils peuvent être trouvés et réutilisés. C’est pourquoi il est également important de définir des mesures de qualité pour les métadonnées.

Nous avons testé la manière dont nous pourrions mettre en œuvre des mesures de qualité lors du hackathon de la Research Data Alliance (RDA) dans le cadre d’un sprint de deux jours.

Qu’avez-vous développé exactement lors du hackathon RDA?

Laura Rettig: Nous avons conféré à des données semi-structurées – en l’occurrence des plans de gestion des données (DMP) qui sont soumis aux fonds de soutien au format PDF – une forme structurée, nous avons donc construit un pipeline. Nous avons d’abord défini quelles métadonnées sont importantes pour les destinataires. Celles-ci ont ensuite été extraites des DMP à l’aide d’une analyse de texte, ce qui nous a permis de montrer quels thèmes étaient couverts ou non. De cette façon, les plans de gestion des données peuvent être consultés beaucoup plus rapidement et les lacunes peuvent être vérifiées de manière ciblée.

Quelles sont les prochaines étapes pour la finalisation de l’Innovation Lab?

Laura Rettig: La prochaine étape consiste pour nous à intégrer les données dans la plateforme de gestion des données Blue Brain Nexus de l’EPFL. En plus des données du FORS et du DaSCH, nous utilisons des ensembles de données supplémentaires d’OpenAIRE, également pour les tests de charge. Nous voulons savoir ce qu’il en est de l’évolutivité et des performances. Par exemple, dans quelle mesure il sera encore facile de trouver des données s’il y en a beaucoup qui possèdent le même mot-clé. La recherche par mot-clé sera-t-elle alors encore utile? Ou plus généralement: comment trouver des données pertinentes?

Qu’apprécies-tu le plus dans ton travail au sein de l’Innovation Lab?

Laura Rettig: Je trouve très enrichissant l’échange avec les partenaires pilotes et avec tant d’experts de différentes disciplines. En tant que chercheuse, je considère également qu’il est très important et utile que les données de recherche soient centralisées à l’avenir et ne se trouvent pas sur des disques durs dans des endroits inconnus et qui seront détruits à un moment donné. Ce sont là des ressources qui restent inutilisées et avec lesquelles nous pourrions peut-être résoudre de nombreux problèmes. En outre, de nombreuses données de recherche ont été financées par des fonds publics et cette partie du patrimoine de la recherche ne devrait donc pas être perdue pour les générations futures.

Plus d'infos sur les SWITCH Innovation Labs

Autorin-L

Laura Rettig

Laura Rettig est doctorante à l'Université de Fribourg, eXascale Infolab, sous la direction de Philippe Cudré-Mauroux. Ses domaines de recherche sont les grandes infrastructures de données et la linguistique computationnelle, en particulier pour les données sociales, sémantiques et scientifiques. Elle est titulaire d'un Master en informatique de l'Université de Fribourg, avec une thèse écrite sur le streaming de données de grande taille utilisant des données de télécommunication du monde réel chez Swisscom.

Le connectome des données de recherche

Autres articles