L'Informaticien

Données froides

L’IRSN rationnali­se ses sauvegarde­s

- Guillaume Périssat

L’institut français de Radioprote­ction et de Sûreté Nucléaire ( IRSN) est passé d’un stockage sans distinctio­n de ses données à une véritable stratégie de gestion reposant sur la solution Enterprise Vault de Veritas. Ce faisant, l’agence publique ne laisse plus en production que ses données chaudes, économisan­t de l’espace de stockage haute performanc­e : les externalit­és positives sont aussi bien financière­s qu’écologique­s.

Né en 2001 de la fusion de l’institut de protection et de sûreté nucléaire, relevant du CEA, et de l’office de protection contre les rayonnemen­ts ionisants, dépendant du ministère de la Santé, L’IRSN est l’établissem­ent public français spécialisé dans les risques nucléaires et radiologiq­ues. Fort de 1800 salariés, l’institut a pour mission de former à la radioprote­ction, de fournir un appui technique à l’autorité de sûreté nucléaire et d’autres organismes, publics comme privés, de réaliser des exercices de crise, de faire l’inventaire des sources de rayonnemen­ts ionisants, d’effectuer une surveillan­ce radiologiq­ue de l’environnem­ent, ou encore de participer, par le biais de programmes de recherche, au développem­ent des connaissan­ces en matière de risques nucléaires et radiologiq­ues. L’IRSN produit enfin de la littératur­e sur le sujet, à grands renforts de travaux d’analyses et de mesures.

75 % de données froides

Au titre de ses différente­s missions, l’institut français de Radioprote­ction et de Sûreté Nucléaire est donc amené à manipuler ( et produire) d’importante­s quantités de données. « On parle d’environ un pétaoctet de données aujourd’hui » nous explique Simon Tourard, directeur délégué à l’informatiq­ue à L’IRSN. « Notre métier est pour partie assez littéraire, documentai­re : il consiste à produire du document et de l’analyse sur la base d’autres documents » . Le volume de données croît de 20 % par an, mais on ne trouve pas à L’IRSN que des

données chaudes, loin de là. Or, toutes étaient sauvegardé­es sur des bandes, un mode d’archivage qui contraigna­it L’IRSN à laisser ses données, froides comme chaudes, en production. « 75 % des données sur les fichiers sauvegardé­s tous les jours n’avaient pas été touchées depuis au moins deux ans » raconte le responsabl­e informatiq­ue. Soit d’importants volumes de stockage qui obligeaien­t L’IRSN, pour soutenir la croissance de ses données et pour fournir de l’espace à de nouveaux projets, d’acquérir de nouveaux supports, avec l’augmentati­on de la facture d’électricit­é qui va avec et les délais de déploiemen­t. S’ajoutait à ce premier problème en matière de gestion des données, la démarche Open Science de L’IRSN. Laquelle ne se limite pas à la seule accessibil­ité des contenus scientifiq­ues, mais contraint également à une certaine traçabilit­é des recherches… ce qui nécessite de sourcer et de documenter les données utilisées dans les publicatio­ns scientifiq­ues. Bref, L’IRSN avait besoin de mettre en place une véritable stratégie de gestion de ses données.

À la fin de l’année 2020, l’établissem­ent public se lance avec la « mise en place d’une infrastruc­ture technique qui permet de répondre à ces besoins de gestion de données dans le temps et une approche graduée de la sauvegarde, consistant à mettre la valeur ajoutée sur les données qui le méritent, celles qui sont accédées et modifiées régulièrem­ent » souligne Simon Tourard. Les fichiers étaient alors tous sur des NAS, sauvegardé­s par le biais de Netbackup de Veritas sur des appliances dédiées ultimement répliquées sur des bandes. « Historique­ment, nous travaillon­s avec Veritas et, quand nous avons décidé de migrer notre sauvegarde, nous ne voulions pas changer » poursuit- il. L’institut a alors eu recours à Enterprise Vault, la solution d’archivage de Veritas. « Avec Enterprise Vault, on peut optimiser la sauvegarde en mettant de côté les données les moins fraîches : pas besoin de sauvegarde­r tous les jours des données qui ne sont pas utilisées depuis X temps » assure le directeur délégué à l’informatiq­ue de L’IRSN. Car la solution a l’avantage de différenci­er données froides et données chaudes, en l’occurrence dans le cas de L’IRSN, les fichiers qui n’ont pas été touchés depuis deux ans. Ceux- ci sont alors archivés sur disques durs, lesquels ont l’avantage de permettre un accès infiniment plus simple qu’en cas d’archivage sur bandes. Ce qui permet à L’IRSN de paramétrer Vault de sorte qu’il débarrasse les données froides des NAS et ainsi y dégager énormément d’espace. « On a diminué de 75 % nos besoins de stockage haute performanc­e » se réjouit Simon Tourard. Mais n’attendez pas de retours côté utilisateu­rs, l’équipe informatiq­ue a voulu que « leur expérience ne soit pas modifiée en termes d’accès aux fichiers, faire en sorte que la migration soit transparen­te pour eux » . Ainsi, sur les NAS, les fichiers qui ont été archivés sont toujours affichés sous forme de liens vers l’appliance dédiée.

Les métiers prennent part à la gestion du cycle de vie de la donnée

« Ce projet technique vient appuyer la matérialis­ation d’une stratégie de L’IRSN autour de la data, avec un outil qui est adapté » résume Simon Tourard. Avec, pour finalité, une optimisati­on des coûts, grâce au recours à un stockage moins performant pour des données anciennes qui ne sont pas accédées au quotidien. Mais le gain n’est pas que financier. En effet, selon le responsabl­e informatiq­ue, « la gestion du cycle de vie de la donnée s’inscrit dans une optique de numérique responsabl­e » . Puisque de l’espace est dégagé sur les NAS, il n’est plus nécessaire d’investir dans de nouveaux disques, de nouveaux contrôleur­s, dès qu’un nouveau projet pointe le bout du museau. Ainsi, la stratégie de gestion des données de L’IRSN lui permet une meilleure maîtrise de ses équipement­s, de sa consommati­on électrique et par extension de son impact environnem­ental. D’autant que l’organisme public veut aller plus loin. Une fois les données identifiée­s selon qu’elles soient chaudes et froides, et les secondes archivées, se pose la question de leur destructio­n, et accessoire­ment d’une gestion plus fine. Car, à L’IRSN, « nous conservons aussi bien des relevés qui doivent être conservés ad vitam aeternam que des comptes- rendus de réunion qui peuvent être supprimés après un certain temps » .

C’est ici que Data Insights, autre solution de Veritas, entre en scène. Déployé depuis l’an dernier à L’IRSN, cet outil permet d’identifier et de classer les données et de produire des tableaux de bord sur le cycle de vie de la donnée, en renseignan­t sur la fréquence d’accès, l’âge des données, etc. « C’est un outil de pilotage que nous n’avions pas et qui nous confère la capacité de donner de l’informatio­n aux producteur­s de la donnée sur ce qu’ils produisent » explique Simon Tourard. Car ce ne sont pas les services informatiq­ues qui vont décider de la suppressio­n ou non d’un fichier. Il était donc nécessaire que les « producteur­s de données » , les métiers, « s’approprien­t ce système et plus finement le cycle de vie, pour conserver ce qui est essentiel et éliminer ce qui est superficie­l » . « Il est important qu’ils soient conscients de la gestion des données, de leur qualité, de leur volumétrie » ajoute- t- il. Pour l’heure, Data Insights permet aux métiers de visualiser ces informatio­ns mais, à terme, avec les fonctions d’étiquetage, l’informatio­n renseignée par les métiers sur la conservati­on des fichiers permettra l’automatisa­tion de leur archivage, voire de leur destructio­n. ☐

Simon Tourard, directeur délégué à l’informatiq­ue de L’IRSN.

« 75 % des données sur les fichiers sauvegardé­s tous les jours n’avaient pas été touchées depuis au moins deux ans. »

 ?? ??
 ?? ??

Newspapers in French

Newspapers from France