Cette article est de la catégorie Corporate et du dossier Data Lifecycle Management

L’utilisation du savoir à l’ère du big data

Acquérir de nouvelles connaissances et des informations pertinentes à partir de données forme le cœur de chaque science. Quel soutien la science des données et l’e-infrastructure peuvent-ils y apporter? C’est à cette question qu’a répondu le ICT-Focus 2016.

Texte: Guido Biland, publié le 29.11.2016

Des entreprises comme Google et Facebook démontrent de manière impressionnante la création de valeur qui peut être générée à partir de données, lorsque la data science et l’e-infrastructure entrent en action au plus haut niveau. Même dans les milieux académiques, l’importance stratégique que revêtent ces "facteurs de production" numériques pour l’excellence de la recherche est incontestée. Le processus de connaissance inter- et multidisciplinaire de notre temps est couplé à une disponibilité illimitée des données et de la puissance de calcul. Iles, silos d’informations isolés et goulets d’étranglement dans le réseau ne conviennent plus au paysage informatique moderne.

Tony Hey à propos de la big data science

Dans sa présentation intitulée «The Revolution in Experimental and Observational Science and the Resulting Demands on e-Infrastructure», Tony Hey, Chief data scientist au Scientific computing department de l’UK science and technology facilities council (stfc.ac.uk), décrit la situation actuelle des scientifiques. Ceux-ci doivent non seulement maîtriser des connaissances expérimentales et théoriques, mais en plus traiter l’énorme quantité de données saisies par des instruments, produite par des simulations informatiques et délivrée par des réseaux de capteurs, dont les sources ne cessent de s’améliorer et qui en produisent ainsi une quantité croissante. Les stocks de données numériques sont devenus tellement gigantesques que l’approche de cette information est elle-même devenue une science: la data science. De ce fait, le monde académique épouse une nouvelle tendance, la fusion des sciences spécialisées et de l’informatique.

Dans ses exposés, Tony Hey ne laisse planer aucun doute: l’approche du big data place les institutions de recherche et les hautes écoles face à des exigences particulières concernant l’infrastructure. Dans ce qui est appelé «e-Infrastructure», tous les facteurs de production numériques sont réunis sur une seule plate-forme. Le STFC définit l’e-Infrastructure comme suit: l’e-Infrastructure désigne la combinaison et l’interaction de technologies (matérielles et logicielles), de ressources (données, services, bibliothèques numériques) et de communications (protocoles, droits d’accès et réseaux), toutes numériques, ainsi que les personnes et les structures organisationnelles nécessaires au soutien d’une recherche moderne, internationale et collaborative de premier plan, que ce soit dans les arts et les lettres ou dans les sciences. Tony Hey raccourcit cette définition à une formule simple: e-Infrastructure = calcul + données + mise en réseau + outils et services + personnes.

Tony Hey plaide donc en faveur d’un réseau de recherche européen possédant son architecture de réseau de bout en bout et équipée d’après le modèle de la science DMZ, de sorte que les scientifiques de partout aient accès à des ressources haut de gamme provenant des instituts de recherche les plus importants.

Où en est l’Europe en matière d’e-Infrastructure? Tony Hey, actif de 2005 à 2015 comme vice-président chez Microsoft Research, voit l’avantage pris du côté des Etats-Unis. Comme exemple, il cite le projet de task-force "campus bridging" de la National science foundation (NSF). Le but de ce projet lancé en 2009 fut de relier les infrastructures des campus, afin que les scientifiques puissent utiliser toutes leurs fonctions intégrées, comme si elles faisaient partie de l’infrastructure de leur propre campus. De cela est née la "science DMZ", un réseau de données à haute performance, avec des nœuds de transfert dédiés. Grâce au financement de la NSF, la science DMZ est entre-temps devenue disponible dans plus de 100 universités. Tony Hey plaide donc en faveur d’un réseau de recherche européen possédant son architecture de réseau de bout en bout et équipée d’après le modèle de la science DMZ, de sorte que les scientifiques de partout aient accès à des ressources haut de gamme provenant des instituts de recherche les plus importants.

Olivier Verscheure, à propos du Swiss Data Science Center

Dans son discours, Olivier Verscheure a présenté un nouveau projet commun de l’EPF de Lausanne et de l’EPF de Zurich: le Swiss Science Data Center SDSC (datascience.ch). D’origine belge, ce doctorant à l’EPFL a été actif durant 17 ans au sein des centres de recherche IBM aux Etats-Unis et en Irlande. Depuis 2016, il dirige le SDSC, qui est actuellement toujours en construction.

Olivier Verscheure désigne la data science comme "écosystème fragmenté", qui se compose de diverses disciplines: data mining, statistique, apprentissage automatique, recherche opérationnelle, visualisation, analyse visuelle, gestion des données, algorithmes, etc. Le défi qui demeure est la résolution de «vrais problèmes», y compris des tâches dans des contextes scientifiques. Le SDSC a été fondé pour combler le fossé entre la data science et les sciences spécialisées elles-mêmes et favoriser ainsi leur amélioration. Sa tâche principale sera de «fédéraliser» les acteurs domain experts, data providers et data scientists sur une plate-forme commune. D’ici 2020, Olivier Verscheure veut recruter une équipe interdisciplinaire de 30 à 40 informaticiens et spécialistes des données.

Conclusion

La Suisse, en tant que lieu d’implantation scientifique, nécessite plus d’experts pouvant analyser la big science data. Avec la création du SDSC et l’introduction de cours de master indata science, le conseil des EPF a réagi à ce besoin. Parallèlement, des initiatives au niveau de l’infrastructure sont nécessaires, de sorte que les volumes croissants de données puissent être transférés au sein de la communauté, rapidement et en toute sécurité. Les deux orateurs ont fait référence ici à l’expertise et aux mérites de SWITCH. Des services tels que SWITCHengines ont été reconnus comme des éléments importants des scénarios du big data. SWITCH est notamment représentée au comité de pilotage du Swiss Data Science Center, par son directeur exécutif, Andreas Dudler. Les deux experts chercheurs ont clairement indiqué qu’ils approuvent les coopérations avec l’industrie.

 

 

ICT Focus 2016

La manifestation SWITCH annuelle a eu lieu le 21 et le 22 novembre à Lausanne. Le public cible de l’ICT Focus se compose de directeurs de services informatiques, ainsi que de chefs et de responsables de services de la communauté SWITCH. Des conférences plénières et des évènements parallèles étaient programmés. L’éventail des sujets a illustré les défis variés qu’affrontent aujourd’hui les services informatiques des hautes écoles suisses dans les domaines de la technique, du droit et de l’organisation. A cette occasion, la data science et l’e-Infrastructure ont occupé une place centrale.

Autres articles