Cette article est de la catégorie Innovation et du dossier Data Lifecycle Management

Problème des métadonnées

Où la bât blesse-t-il dans la recherche? Un connaisseur expose les difficultés.

Texte: Konrad O. Jaggi, publié le 01.04.2014

La biologie des systèmes compte parmi les points essentiels de la recherche soutenue par l'état en Suisse. Dans ce jeune domaine de recherche, on tente de saisir et de modéliser les systèmes biologiques dans leur ensemble: comment se comporte un micro-organisme, par exemple de levure, dans divers environnements. Ou comment fonctionne un processus biologique, par exemple la croissance des plantes. Il s'agit donc d'une recherche complexe sur les principes, qui exige une collaboration interdisciplinaire des chercheurs. SystemsX.ch est l'initiative nationale responsable de la promotion des projets de recherche en biologie des systèmes. Le projet SyBIT soutient tous les projets SystemsX.ch dans leur travail de recherche qui exige en partie énormément de données. Il est entre autres responsable du Data Lifecycle Management DLCM dans SystemsX.

SWITCH Journal: Qui est responsable des données?
Peter Kunszt:
C'est très variable. Pour la séquence des gènes, la spectrométrie de masse et la microscopie par exemple, les EPF et universités ont des Core Facilities qui effectuent les données de manière professionnelle et contrôlée en tant que service. La gestion active des données dépend largement du projet. Lorsque les données sont créées à une Core Facility, il y a des opérations définies avec précision et qui sont constamment améliorées. Dans les différents laboratoires, cela est moins bien défini. Au SyBIT, nous mettons à disposition beaucoup de logiciel afin de faciliter les diverses tâches aux Core Facilities de même que dans les différents laboratoires. 

Quels sont les volumes de données produits?
Les plus grands producteurs de données arrivent à plusieurs douzaines de téraoctets par an. Les microscopes plus petits ou les compteurs de cellules plus simples ne produisent que des données de l'ordre de grandeur de 100 gigaoctets. 

Votre institution a-t-elle une politique pour le DLCM?
Dans la recherche sur les principes, on veut souvent conserver toutes les données car on ne sait pas exactement ce qu'elles contiennent au juste. Pour les équipes de données dont on connaît mieux les contenus, on sait ce qu'on peut effacer et quand. Ce n'est malheureusement le cas que pour une minorité de nos données. Mais nous comprenons toujours mieux quand il est plus simple de répéter une mesure que de stocker les données: les nouvelles mesures sont toujours plus précises et plus rapides. Au SyBIT, nous sommes en train d'élaborer des directives pratiques et de les introduire dans les standards SystemsX.ch. 

A qui les données appartiennent-elles?
Au contribuable – ce sont des données publiques, les droits d'auteur appartiennent aux universités cantonales et à l'EPF. 

Comment voulez-vous organiser de manière que les données soient encore accessibles dans un avenir lointain?
Nous n'avons pas encore de solution pour cela. Si nous avons de la chance, il y aura pour les données un dépôt international d'archives. Mais nous avons déjà dû constater que de tels dépôts perdaient leurs fonds et ont dû fermer boutique. Ou bien elles ont été privatisées et demandent maintenant de l'argent pour l'accès aux données. Il n'y a malheureusement pas d'archives suisses pour les données de recherche. La technologie n'est pas le problème. Il serait beaucoup plus important de déterminer qui, en Suisse, en est responsable. En principe, c'est là une décision politique car il s'agit du financement durable d'un ou de plusieurs services nationaux d'archivage pour données de recherche. 

Où envisagez-vous une augmentation des exigences et des défis au cours des années à venir?
Le volume augmentera toujours. La déduplication et de meilleurs procédés de compression aideront à réduire le volume de données. Mais nous devons encore mieux comprendre comment nous pouvons exploiter ces technologies de manière optimale. Les problèmes d'accès et de droits d'auteur n'existent en fait que dans le domaine médical. La complexité des données ne fera qu'augmenter. Même actuellement, ce ne sont pas les données brutes en elles-mêmes qui nous causent des problèmes mais l'indexation correcte et les métadonnées. Il y a beaucoup de choses que l'on ne peut pas automatiser et la préparation des données exige un savoir d'expert hautement spécialisé. 

Quelle est pour votre domaine l'importance d'un DLCM coordonné?
C'est extrêmement important et beaucoup malheureusement ne le comprennent pas encore. Toutes les nouvelles méthodes sont basées sur des découvertes de données faites jusqu'à présent. Celles-ci doivent être disponibles et rendues accessibles de manière compréhensible; pour la recherche aussi bien que pour l'enseignement. De premiers efforts en vue de mieux  soutenir la recherche dans leur DLCM ont déjà été entrepris. Le projet SyBIT en est un. Il s'agit  maintenant de l'établir de manière durable et de le mettre en œuvre à long terme.

Ce text a paru au SWITCH Journal octobre 2013.
L'auteur
Konrad O.   Jaggi

Konrad O. Jaggi

Après des études à Zürich et Aberdeen (GB), Konrad O. Jaggi a dirigé divers services informatiques et d'information ainsi que des projets dans le domaine de la planification stratégique. Chez SWITCH, il dirige depuis octobre 2011 la division Researchers & Lecturers.

E-mail

Peter Kunszt

Après son diplôme de physique théorique, Peter Kunszt a travaillé entre autres au CERN où il a dirigé plusieurs projets, de même que de grands projets EU-Grid. Actuellement, il est chef du projet SyBIT dans le cadre de l'initiative suisse pour la biologie des systèmes, SystemsX.ch à l'EPF de Zurich. 

peter.kunszt@systemsx.ch

Autres articles