Elementor #5642

Classé dans : Uncategorized | 0

La curation des données : un pilier de la gestion de l’information à l’ère numérique

À l’ère de l’explosion des données, où chaque clic, transaction ou capteur produit une quantité exponentielle d’informations, la curation des données est devenue un enjeu central pour les entreprises, les institutions et les chercheurs. Plus qu’un simple tri, elle représente un processus structuré pour organiser, enrichir et valoriser les données. Explorons ce concept, ses acteurs, les outils qui le rendent possible et les modèles qui le structurent.

La curation consiste à sélectionner, organiser, enrichir et maintenir des ensembles de données pour en maximiser la qualité et l’utilité. Contrairement à une collecte brute, elle vise à rendre les données exploitables, compréhensibles et fiables. Cette démarche est essentielle dans des domaines variés : des archives numériques aux projets d’intelligence artificielle, en passant par les plateformes de recherche scientifique. Ainsi, La curation couvre toutes les étapes du cycle de vie des données, allant de la création (ou collecte) à l’archivage et à la réutilisation. Les principes FAIR (Facilité à trouver, Accessibilité, Interopérabilité, Réutilisabilité) sont souvent au cœur des efforts de curation.

Les acteurs participant à la curation :

        Les créateurs et utilisateurs

        Le curateur qui assure la qualité des données et leur bonne description en renseignant tout changement

        Le data librarian et data engineer ils sont les métiers plutôt IT qui remplissent des rôles et tâches plutôt techniques

        Le rôle flou et hybride du data steward qui parfois a une casquette de responsable de la politique de gouvernance ou parfois il exécute toutes les tâches du cycle de curation

 

Car il s’agit bien d’un cycle. Celui-ci est proposé par le DCC

Le cycle de curation du Digital Curation Centre (DCC) est un modèle structurant pour gérer le cycle de vie des données de manière efficace et durable. Il comprend plusieurs étapes clés :

  1. Planification : anticiper les besoins de gestion des données dès leur création, en définissant des stratégies pour leur organisation, leur stockage et leur partage.
  2. Création et réception : produire ou collecter des données selon des standards de qualité adaptés.
  3. Évaluation : vérifier la pertinence, la qualité et la fiabilité des données avant de les intégrer dans un système.
  4. Stockage : organiser et sécuriser les données pour garantir leur accessibilité et leur conservation à long terme.
  5. Transformation : nettoyer, enrichir et formater les données pour les rendre exploitables.
  6. Préservation à long terme : assurer la pérennité des données grâce à des mises à jour régulières des formats et des supports.
  7. Diffusion et réutilisation : rendre les données accessibles et interopérables pour favoriser leur utilisation dans d’autres projets.

Ce cycle met l’accent sur une approche proactive et continue, garantissant que les données restent utiles, fiables et accessibles tout au long de leur existence.

Le modèle CURATE(D), développé par le Data Curation Network (DCN), est une méthodologie structurée pour la curation des données de recherche. Il est conçu pour guider les curateurs dans chaque étape clé du processus afin de garantir la qualité et la réutilisabilité des données. L’acronyme CURATE(D) décrit les étapes suivantes :

  1. Check (Vérification) : Examiner les fichiers pour s’assurer qu’ils sont complets et cohérents.
  2. Understand (Comprendre) : Identifier le contexte et la structure des données pour anticiper les besoins des futurs utilisateurs.
  3. Record (Documenter) : Ajouter ou améliorer les métadonnées pour décrire précisément les données.
  4. Augment (Augmenter) : Proposer des ajustements comme la conversion dans des formats pérennes pour faciliter leur réutilisation.
  5. Transform (Transformer) : Standardiser ou reconfigurer les données pour respecter les normes ou exigences spécifiques.
  6. Evaluate (Évaluer) : Vérifier la conformité des données aux principes FAIR (Facile à trouver, Accessible, Interopérable, Réutilisable).
  7. (D) isseminate (Diffuser) : Publier ou rendre les données accessibles tout en respectant les droits d’auteur et la vie privée.

Quel avenir pour la curation des données ?

À mesure que les technologies comme l’intelligence artificielle et le machine learning évoluent, elles renforceront les capacités de curation. Cependant, le rôle humain restera crucial pour garantir l’éthique, la transparence et la compréhension des données. De plus, parmi les défis majeurs figurent la protection des données sensibles, la lutte contre les biais dans les jeux de données, et la pérennisation des formats pour éviter l’obsolescence technologique. En somme, la curation des données n’est pas une simple tâche technique : c’est un véritable art de la gestion de l’information. Elle constitue la clé pour transformer les vastes océans de données en ressources compréhensibles, exploitables et durables.

Et vous, comment intégrez-vous la curation des données dans vos projets ?

Sources :

HARVEY, Douglas Ross, 2010. Digital curation: a how-to-do-it manual. New

York : Neal-Schuman Publishers. How-to-do-it manuals no. 170. ISBN 978-1-55570-694-4

 

CURATION LIFESTYLE MODEL. DCC Digital curation network [en ligne]. [Consulté le 01 décembre 2024]. Disponible à l’adresse : https://www.dcc.ac.uk/guidance/curation-lifecycle-model

THE DCN CURATE(D) STEPS. Data Curation Network [en ligne]. [Consulté le 01 décembre 2024]. Disponible à l’adresse : https://datacurationnetwork.org/outputs/workflows/

FAIR PRINCIPLES.]. GO FAIR [en ligne]. [Consulté le 01 décembre 2024]. Disponible à l’adresse : https://www.go-fair.org/fair-principles/

Carnet d'IdéeS - blog du Master IS

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *