Aujourd’hui, tout produit numérique que nous utilisons génère une masse colossale de données. Mais que deviennent ces données ? Sont-elles stockées, vendues, oubliées ou valorisées ? C’est ici qu’intervient la curation des données, un processus essentiel pour donner du sens et de la valeur à cette abondance numérique.
Dans ce billet, nous allons plonger dans ce sujet intéressant et sous-estimé, comprendre ses enjeux, découvrir ses acteurs et voir comment la curation des données se modernise pour s’adapter à notre monde numérique en constante évolution.
Le mot « curation » trouve ses racines dans le latin « cura »(cura 2024), signifiant « prendre soin ». Dans le contexte des données, la curation des données désigne une série de processus visant à collecter, organiser, enrichir, préserver et rendre les données réutilisables.
La curation des données : une définition simple
Une définition très utilisée est celle du Digital Curation Centre (DCC), qui décrit la curation des données comme la (en français):
Cela implique des actions tout au long du cycle de vie des données, allant de leur création jusqu’à leur archivage ou réutilisation future.
Ce qui distingue la curation de simples pratiques comme l’archivage, c’est son caractère actif. La curation ne consiste pas seulement à stocker des données mais à les enrichir, les documenter et les transformer en un véritable atout stratégique.
Pourquoi la curation est-elle cruciale aujourd’hui ?
La quantité de données générées dans le monde a atteint des sommets impressionnants : en 2023, on dénombrait 120 zettabytes de données disponibles, soit une multiplication par 60 depuis 2010. Mais ce n’est pas tout. 80 % de ces données sont non structurées, ce qui les rend complexes à exploiter.
Prenons l’exemple de la recherche scientifique. Sans une gestion appropriée des données, une grande partie des découvertes ou informations précieuses risquent d’être perdues. Pire, les données mal documentées deviennent inutilisables ou peuvent même mener à des erreurs d’interprétation.
Dans ce contexte, la curation joue un rôle clé en garantissant que les données soient :
- Accessibles : bien organisées et faciles à retrouver.
- Interopérables : compatibles avec différents systèmes.
- Réutilisables : prêtes pour de nouvelles analyses ou recherches.
Les acteurs derrière la magie
La curation des données n’est pas l’affaire d’une seule personne. Elle repose sur une collaboration entre différents rôles :
- Data creators: les chercheurs ou professionnels qui génèrent les données en premier lieu.
- Data curators: responsables de leur organisation, enrichissement et documentation.
- Data stewards et librarians : experts en gestion d’infrastructures et en accompagnement des utilisateurs.
- Data User : chercheurs ou décideurs qui exploitent les données pour leurs travaux.
Ensemble, ces acteurs assurent que les données produites, souvent avec beaucoup d’efforts, ne tombent pas dans l’oubli ou le chaos.
Une discipline en mutation : vers un nouveau modèle
Historiquement, le cycle de vie du DCC a longtemps servi de référence en matière de curation des données. Cependant, ce modèle, créé en 2008, est aujourd’hui remis en question. Pourquoi ? Parce qu’il est jugé trop centré sur la préservation des données de la recherche, au détriment de leur réutilisation, et qu’il ne prend pas en compte les avancées technologiques.
Un modèle plus moderne a été proposé par Hea Lim Rhee, une chercheuse coréenne. Baptisé D-KISTI, ce nouveau cycle intègre trois évolutions majeures :
- Veille technologique : pour anticiper et intégrer les dernières innovations dans les systèmes de gestion.
- Participation des utilisateurs : pour s’assurer que les besoins réels des chercheurs ou autres parties prenantes soient pris en compte.
- Curation au centre : en mettant un focus sur l’enrichissement des données, avec la préservation comme composante intégrée.
Quand la curation rencontre l’éthique
Un sujet particulièrement sensible est celui de la curation des données pour les intelligences artificielles (IA). Les données utilisées pour entraîner les IA peuvent contenir des biais discriminatoires qui influencent directement leurs décisions.
Des chercheuses comme Susan Leavy ont proposé un cadre éthique basé sur des concepts tels que l’épistémologie féministe et les théories critiques. Leur approche encourage :
- L’analyse des perspectives intégrées dans les données.
- L’identification et la réduction des biais.
- L’inclusion de données issues de groupes sous-représentés.
Ces pratiques permettent de garantir une utilisation plus équitable et responsable des données, surtout dans des applications sensibles comme la santé ou la justice.
Conclusion : un défi permanent
La curation des données, bien qu’indispensable, représente un véritable défi. Entre le traitement des données non structurées et la gestion des enjeux éthiques complexes, cette discipline exige des efforts constants ainsi que l’élaboration de nouveaux principes et approches.
À une époque où le Big Data domine, il est crucial de transformer ces montagnes de chiffres et de fichiers en véritables leviers de connaissance, d’innovation et de progrès.
Et vous, saviez-vous à quel point la curation des données impacte notre quotidien ?
Bibliographie
COLOMINES, Elsa et al., 2024. Curation des données [en ligne]. Disponible à l’adresse : https://cyberlearn.hes-so.ch/mod/resource/view.php?id=2223964
cura, 2024Wiktionnaire, le dictionnaire libre [en ligne]. Disponible à l’adresse : https://fr.wiktionary.org/w/index.php?title=cura&oldid=36410853#laPage Version ID: 36410853
curator, 2023Wiktionnaire, le dictionnaire libre [en ligne]. Disponible à l’adresse : https://fr.wiktionary.org/w/index.php?title=curator&oldid=32076188#%C3%89tymologiePage Version ID: 32076188
DCClifecycle_model.png (528×473), [en ligne]. Disponible à l’adresse : https://www.dcc.ac.uk/sites/default/files/documents/images/DCClifecycle_model.png
harvey_introduction_to_digital_curation.pdf, [en ligne]. Disponible à l’adresse : https://digitalcuration.umaine.edu/resources/harvey_introduction_to_digital_curation.pdf.
My Model – JPG_0.jpg (1200×679), [en ligne]. Disponible à l’adresse : https://www.dcc.ac.uk/sites/default/files/documents/My%20Model%20-%20JPG_0.jpg
RHEE, Hea Lim, 2024. A New Lifecycle Model Enabling Optimal Digital Curation. Journal of Librarianship and Information Science. Vol. 56, no 1, pp. 241‑266. DOI 10.1177/09610006221125956.
What is digital curation? | DCC, [en ligne]. Disponible à l’adresse : https://www.dcc.ac.uk/about/digital-curation.
Laisser un commentaire