Stockage des données à long terme

Science reproductible. Données accessibles, interopérables et réutilisables. Exigences relatives aux réglementations et aux audits. Pour la communauté de l’enseignement supérieur et de la recherche, tout cela signifie que davantage de données doivent être conservées pendant plus longtemps.SWITCH a développé un service de stockage à long terme afin de compléter les systèmes institutionnels et de stockage existants de SWITCHengines.

Texte: Ann Harding, publié le 25.09.2019

La conservation et l’archivage des données peuvent constituer des tâches ardues pour les chercheurs et les administrations. Une perspective de 5 à 10 ans ou plus peut rapidement accroître la complexité et les coûts, imposant des choix difficiles sur ce qui peut être sauvegardé et comment.  En partenariat avec l’EPFL et les communautés de recherche (FORS, SDSC, DLCM), SWITCH a identifié des cas d’utilisation récurrents et commencé à développer un service de stockage pour le long terme, basé sur les besoins des communautés, qui se veut robuste, durable et capable de fonctionner avec toute une gamme d’applications utilisées dans des institutions et par des équipes de recherche. Le résultat en est un service de stockage à long terme dans l’environnement SWITCH, qui rend le stockage et la récupération des données simples et avantageux en termes de coûts.

Gestion des données de recherche et conservation des données administratives

Deux cas d’utilisation se sont clairement dessinés. Le stockage à long terme hors site est nécessaire tant pour la gestion des données de recherche que pour la conservation des données administratives à des fins d’audit. Pour la gestion des données de recherche, une institution peut prescrire des plans spécifiques de gestion du cycle de vie des données, puis fournir une infrastructure et des outils à l’appui. Par le biais d’une application d’archivage, les utilisateurs peuvent ensuite spécifier les données sur lesquelles ils travaillent activement et celles qui peuvent être archivées. Les données archivées peuvent alors être automatiquement transférées vers la solution de stockage à long terme de l’institution chez SWITCH.

Plus tard, si un sous-ensemble de données est de nouveau requis, il peut être récupéré à partir de la mémoire à long terme et rétabli comme données de travail, sans pénalité financière pour la récupération. Ainsi, ce sont les besoins des scientifiques, et non le modèle de tarification, qui déterminent la façon dont les données sont utilisées.

Pour les données administratives, le stockage à long terme peut être intégré à des solutions plus classiques de conservation des données.  Des snapshots périodiques sont envoyés hors site, avec un journal d’accès clair et un enregistrement prouvant qu’ils n’ont pas été modifiés, afin de satisfaire aux exigences relatives aux réglementations et aux audits.

Interface technique cohérente, résilience géographique et intégrité des données

Les deux cas d’utilisation nécessitent une interface simple et cohérente, une résilience géographique à l’égard de l’emplacement principal des données et des mesures visant à assurer l’intégrité des données. Un autre équilibre entre le prix et la performance par rapport au stockage de données en direct, tel que SWITCHengines, devait également être trouvé.

Une interface technique cohérente est indispensable pour permettre à la couche de stockage de prendre en charge un grand nombre d’outils et de systèmes d’archivage potentiels. La norme actuelle de facto étant le stockage d’objets, notamment S3 (basé sur AWS), celui-ci a donc été choisi comme seule interface. Les objets sont stockés ou récupérés sur la base d’un identifiant, plutôt que de devoir être montés directement sur un système de fichiers connecté à l’application. Si la performance peut être inférieure à celle d’un stockage de blocs ou de volumes classique sur SWITCHengines, la priorité est donnée à l’évolutivité et à la durabilité. La simplicité d’une interface unique permet quant à elle une réduction des coûts.

La résilience et l’intégrité des données exigeaient que le stockage à long terme de SWITCH soit déployé sur un site éloigné non seulement des institutions pilotes, mais également de SWITCHengines. Les données des utilisateurs de SWITCHengines peuvent ainsi être archivées de manière résiliente une fois qu’elles ne sont plus utilisées activement. SWITCH a choisi Cloudian comme fournisseur de l’infrastructure de la plateforme, ce qui a également permis la résilience logicielle. Enfin, un schéma de codage à effacement a été sélectionné pour permettre la récupération des données en cas de défaillances multiples du disque.

Pendant la phase de développement, l’EPFL et le DLCM ont effectué des tests sur une installation provisoire, et le service complet sera en place et testé à partir de la fin du mois de septembre 2019. Alors que les utilisateurs pilotes sont toujours les bienvenus, le service sera disponible pour une utilisation réelle au tarif du projet au quatrième trimestre 2019, puis inclus sous forme de service complet dans le modèle tarifaire dès 2020.

L'auteur
Ann   Harding

Ann Harding

Ann travaille pour SWITCH depuis 2007 et fait actuellement partie de l’équipe «Infrastructure and Data» où elle dirige le projet pour le développement du stockage à long terme et soutient les communautés de recherche pour SWITCHengines.

E-mail
Autres articles