Déposer le code issu de la recherche : quelles pratiques et perspectives ?

Article écrit par Laëtitia Reversy et Jéromine Roth

Gestion du code et normes FAIR

L’importance de la conservation des données de manière pérenne et selon des normes FAIR n’est plus à démontrer tant dans le domaine des sciences de l’information que dans la recherche académique[1]. Toutefois la mise en pratique soulève encore de nombreux points d’interrogation. La Suisse se positionne ainsi en faveur d’une ouverture de la recherche, comme définie par les plans stratégiques pour l’Open Research Data et l’Open Access[2]. Mais si la possibilité d’accéder à un article en ligne est désormais dans les pratiques des chercheuses et chercheurs, déposer les données de la recherche ne va pas encore de soi. L’exemple du code permet d’observer plusieurs points de frictions dans la gestion des données. En effet, un accès libre ne garantit pas une conservation de qualité ni le fait de pouvoir accéder à nouveau à l’objet recherché[3].

En s’appuyant sur les principes érigés par l’UNESCO concernant l’Open Science[4], les auteurs de l’article « Source Code Archiving – to the Rescue of Reproducible Deployment » définissent la nécessité de conserver le code produit dans la recherche :

Now that software is an integral part of scientific experimental workflows, it must be held to the same standards of other scientific workflows: computational workflows must be transparent and reproducible. While such a statement is becoming consensual among scholars, its implications are often less understood: source code must be publicly available, with a license that grants the right to use it, to study it, to modify it, and to share those modifications (Courtès, Sample, Tournier et Zacchiroli, 2024[5]).

Deux acteurs de la gestion et du partage du code

Différentes plateformes existent pour déposer du code telles que Zenodo. Créée par le CERN, celle-ci fournit un identifiant pérenne, l’indication de la licence et promet la garantie de la conservation des données à long terme, du fait du financement public du CERN et de sa mission scientifique au long court. Mais un rapide tour d’horizon sur PubMed[6] permet toutefois de constater que les programmeurs et programmeuses privilégient les espaces de développement collaboratif comme Github, qui offre différents outils pour travailler sur du code dans différentes versions (notamment Git), le partager et le documenter. De nombreux chercheurs et chercheuses qui déposent des articles scientifiques sur Zenodo uploadent ainsi leur données logiciel sur GitHub. Les atouts de GitHub sont la standardisation et la visibilité immédiate des éléments suivants :

licence

documentation (ReadMe…)

langages utilisés

activité et évolution rigoureusement documentées (versioning, développement collaboratif par les issues, pull requests…).

popularité et employabilité tels que les contributeurs/trices, downloads, vues et forks (réplications avec développement parallèle)

Ce qu’il manque à GitHub ? Il est privé et lucratif, sans identifiant pérenne ni garantie de conservation.

Risques et challenges avec des pratiques qui ont évolué

Github n’a pas toujours été plébiscité par les programmeurs et programmeuses, mais actuellement, le réseau occupe une place d’importance mondiale[7]. Cela pose question, notamment au regard d’une conservation pérenne du code : une plateforme de l’envergure de Zenodo peut-elle se permettre de dépendre d’une plateforme possédée par Microsoft depuis 2018[8] ? La perte des données chaque année est bien connue, pour cause de mauvaise gestion de celles-ci[9], ou à cause de la disparation des structures qui les géraient[10]. Comme l’illustre un extrait de la bande dessinée en ligne de l’artiste Randall Munroe ci-dessous, la perte de parties de script peut avoir des conséquences catastrophiques. Ce phénomène est connu et est l’occasion de plaisanteries dans le milieu de la tech. Par ailleurs, avec le développement du vibe coding incluant l’utilisation d’intelligence artificielle dans la production de code, l’importance de définir des bonnes pratiques de gestion n’est plus à démontrer.

CC BY Randall MUNROE. [sans date]. Dependency. URL : https://xkcd.com/2347/

Pistes à explorer

Une bonne pratique à explorer serait de recommander aux chercheurs l’archivage des versions successives de leurs releases GitHub, via l’intégration avec Zenodo qui assure automatiquement leur conservation et leur attribue un DOI. L’idéal serait toutefois qu’une plateforme de confiance telle que Zenodo développe une solution parallèle dédiée au développement logiciel, intégrant aussi les fonctionnalités des plateformes collaboratives, comme des libraries dont la sauvegarde et l’accessibilité serait assurée.

[1] ANDREY, Anne, 2025. La curation des données : un pilier de la gestion de l’information à l’ère numérique. Recherches d’Idées [en ligne]. 12 janvier 2025. Disponible à l’adresse https://campus.hesge.ch/blog-master-is/elementor-5642/ [consulté le 2 septembre 2025].

[2] SWISSUNIVERSITIES, 2025. Open Science. Swissuniversities [en ligne]. [Sans date]. Disponible à l’adresse https://www.swissuniversities.ch/fr/themes/open-science [consulté le 3 septembre 2025].

[3] Escamilla Emily. et al, 2024. Cited But Not Archived: Analyzing the Status of Code References in Scholarly Articles. arXiv. Pp. 1-2. DOI : 10.48550/arXiv.2401.04887

[4] UNESCO, 2023. UNESCO Recommendation on Open Science. UNESCO [en ligne]. 21 septembre 2023. Disponible à l’adresse https://www.unesco.org/en/open-science/about?hub=686 [consulté le 10 septembre 2025]

[5] COURTES Ludovic et al., 2024. Source Code Archiving to the Rescue of Reproducible Deployment. ACM REP ’24: ACM Conference on Reproducibility and Replicability [en ligne]. 18 juin 2024. Disponible à l’adresse https://dl.acm.org/doi/10.1145/3641525.3663622 [consulté le 2 septembre 2025].

[6] À titre d’exemple, les prémisses de notre recherche exploratoire sur 23 articles montrent une nette préférence pour GitHub. J. Roth, L. Reversy, Gestion du code issu de la recherche : analyse des pratiques dans PubMed Central sous l’angle des principes FAIR, Travail de recherche en cours, HEG, Genève.

[7] WIKIPEDIA, 2025. GitHub. Wikipedia [en ligne]. 23 juin 2025. Disponible à l’adresse https://fr.wikipedia.org/wiki/GitHub [consulté le 3 septembre 2025]

[8] Idem.

[9] VINES, Timothy et al., 2014. The availability of research data declines rapidly with article age. Current Biology [en ligne]. Janvier 2014. DOI : 10.1016/j.cub.2013.11.014

[10] STRECKER Dorothea et al., 2023. Disappearing repositories — taking an infrastructure perspective on the long-term availability of research data. arXiv [en ligne]. 10 octobre 2023. DOI : 10.48550/arXiv.2310.06712

Carnet d'IdéeS - blog du Master IS

Laisser un commentaire Annuler la réponse