Cette article est de la catégorie Innovation et du dossier Data Lifecycle Management

A la recherche de solutions à coûts optimisés

Où mettre les résultats de recherche de l'Institut Paul Scherrer? Son chef téchnologie informatique renseigne.

Texte: Konrad O. Jaggi, publié le 01.04.2014

L'institut Paul Scherrer PSI à Villigen AG est le plus grand centre suisse de recherche en sciences naturelles et d'ingénieur. Il se concentre sur les principaux sujets suivants: matière et matériau, énergie et environnement ainsi que l'être humain et la santé. Le PSI développe, construit et exploite des installations de recherche vastes et complexes. Chaque année, plus de 2000 scientifiques du monde entier viennent au PSI pour effectuer des expériences sur les installations. Ces grandes installations produisent d'immenses quantités de données.

SWITCH Journal: Qui est responsable des données?
Stephan Egli: Les données viennent surtout des expériences. Les principaux producteurs sont les lignes de faisceaux de la Swiss Light Source – une grande installation expérimentale – et la physique des particules avec sa recherche des principes pour l'analyse des désagrégations rares. Le rôle officiel d'un gérant des données n'existe pas encore. La responsabilité première des données incombe donc aux équipes de recherche. Pour le moment, chaque groupe doit décider pour lui-même si les données doivent être exportées vers l'institut ou par quel moyen cela doit se faire.

Quels sont les volumes de données produits?
En 2012, les expériences ont généré des données sur bande atteignant au total 250 téraoctets (10004 octets). La quantité mémorisée est actuellement au total de 1,6 pétaoctets (10005 octets). Mais toutes les données ne sont pas systématiquement enregistrées sur bande. Beaucoup doivent actuellement être réduites et exportées étant donné que les capacités de mémoire locale ne suffisent pas à conserver les données à plus long terme. Après quelques semaines ou quelques mois déjà, elles doivent y être effacées.

Votre institution a-t-elle une politique pour un DLCM?
Nous n'avons pas encore de politique. Mais des discussions sont en cours pour en établir une sur la base de propositions harmonisées sur le plan international telles quelles ont été élaborées surtout dans le cadre des projets EU-FP7. Il faut citer ici surtout les projets PaNdata Europe et PaNdata ODI.

A qui les données appartiennent-elles?
Elles appartiennent en général au chercheur qui les a produites. L'institut Paul Scherrer ne fait pas valoir de droits sur la propriété intellectuelle des utilisatrices et utilisateurs externes des grandes installations de recherche dans la mesure où les résultats sont publiés. L'utilisation des données dans la collaboration avec l'industrie est réglée séparément par contrat.

Comment voulez-vous faire en sorteque les données soient également accessibles dans un avenir lointain?
Pour le stockage à long terme, on utilisera encore des médias sur bande. C'est la solution la plus avantageuse également du point de vue énergétique. Pour les formats de données, il y a encore beaucoup à standardiser. Un important format de données est HDF5 qui soutient l'annotation avec des métadonnées. J'envisage la standardisation plutôt comme un processus à long terme. Au niveau de l'informatique, il faut avoir à disposition une infrastructure permettant une migration efficace des données sur les technologies et médias les plus récents.

Comment envisagez-vous une augmentation des exigences et défis au cours des années à venir?
Les services informatiques doivent prétendre à mettre à disposition une infrastructure qui facilite la vie aux chercheurs et les soulage des tâches répétitives. Les chercheurs doivent pour leur part apporter une contribution dans la définition des critères de qualité et dans le développement des formats de données et des métadonnées. Les Science Communities et leurs membres doivent être associés au processus DLCM. Un autre défi important consiste à mon avis à venir à bout de la quantité qui augmente de manière exponentielle ainsi que du désir d'accéder partout et toujours aux données et de pouvoir les échanger sans problèmes. En outre, il faut trouver pour tous les défis des solutions optimisées au niveau des coûts. Cela créera une pression considérable en vue de trouver des synergies au sein de l'univers des hautes écoles de Suisse.

Quelle est à votre avis l'importance d'un DLCM coordonné pour votre domaine spécialisé?
Le DLCM doit être considéré par tous les partis intéressés comme partie intégrante du processus de recherche. Je considère que c'est une nécessité stratégique de toute entreprise de recherche. Ceci doit être clairement réglé dans un document de politique des données.

Ce text a paru au SWITCH Journal avril 2013.
L'auteur
Konrad O.   Jaggi

Konrad O. Jaggi

Après des études à Zürich et Aberdeen (GB), Konrad O. Jaggi a dirigé divers services informatiques et d'information ainsi que des projets dans le domaine de la planification stratégique. Chez SWITCH, il dirige depuis octobre 2011 la division Researchers & Lecturers.

E-mail

Stephan Egli

Après des études de physique à l'EPF de Zurich, Stephan Egli a travaillé à l'université de Zurich, entre autres comme coordinateur informatique. Depuis 1999, il est chef du département de technologie d'informatique AIT à l'institut Paul Scherrer.

stephan.egli@psi.ch

Autres articles