La source de financement est-elle source de biais dans la recherche

Article écrit par Chloé Oberlin et Fanny Schneider

CCBY, geralt, 2021. https://pixabay.com/illustrations/gender-transsexual-communication-6188940/

The story so far…

Dans notre précédent billet de blog, nous vous parlions du biais de genre : un biais cognitif basé sur des stéréotypes et accordant une préférence à un genre plutôt qu’à un autre. Les hommes étant souvent préférés pour le travail manuel ou des positions d’autorité par exemple, là où certains postes sont encore réservés aux femmes dans l’inconscient collectif (pensez infirmière, sage-femme ou secrétaire par exemple). Ce biais est présent tout autour de nous, y compris dans la sphère médicale, ou dans la recherche scientifique (a ; b).

Nous revenons vers vous aujourd’hui avec les résultats de notre recherche portant sur l’impact potentiel de la source de financement sur ce biais dans l’ordre des auteur·e·s des articles scientifiques médicaux.

Méthodologie

Nous avons extrait les métadonnées d’articles scientifiques provenant de la plus grande base de données médicale d’articles en texte intégral : PubMed Central, et avons limité nos recherches aux articles publiés depuis 2020 et dont le·a premier·ère auteur·e était affilié à une institution suisse.

Afin d’isoler les informations dont nous avions besoin, d’abord concernant les auteurs, puis la ou les source·s de financement, nous avons créé et utilisé des scripts Python [1].

Nous avons ensuite utilisé NamSor, un outil freemium permettant d’identifier le genre d’une personne d’après son prénom et l’origine de son nom de famille.

Nous avons ainsi créé des tableaux, puis des matrices, avec ces données afin de visualiser nos résultats, et nous avons analysé ceux-ci avec R [2] afin de déterminer s’ils étaient réellement concluants.

Résultats de notre recherche

Notre recherche a confirmé ce que nous avions déjà lu dans la littérature : il y a plus d’hommes (296) en position de séniorité d’un article (le·a dernier·ère auteur·e) que de femmes (122). Néanmoins les deux genres semblent être représentés équitablement à la première place des auteur·e·s (204 femmes, pour 214 hommes).

Matrice des premier·ère·s auteur·e·s en fonction des dernier·ère·s

Nous avions comme hypothèse que le·a premier·ère auteur·e a plus de probabilité d’être une femme lorsque la dernière auteure est une femme. Notre étude semble montrer une préférence dans ce sens, mais l’analyse avec R ne montre pas un effet suffisant pour être significatif, l’échantillon étant trop restreint.

Concernant le type de financement, privé ou public, les données sont trop lacunaires pour être représentatives. Sur l’ensemble des données, seule la moitié des sources de financement étaient remplies, la grande majorité étant de sources publiques.

Matrice des premier·ère·s auteur·e·s en fonction des types de financement

Plusieurs hypothèses peuvent être faites concernant cette absence de données :

Les financements endogènes (internes aux institutions) n’ont pas d’obligations d’être explicités dans les métadonnées
Les métadonnées sont parfois extraites automatiquement des textes intégraux des articles et cette méthode n’est pas très fiable
Certain·e·s chercheur·e·s ou institutions n’ont pas intérêt à mettre en avant leur source de financement (de potentiels lobbys)

Difficultés rencontrées

Plusieurs difficultés se sont donc présentées, en particulier en ce qui concerne la qualité des métadonnées. Il n’y a pas de norme, ni de vérification obligatoire des métadonnées à la publication des articles. Certaines sont donc manquantes ou incomplètes. Les prénoms ne sont parfois que des initiales, ou les acronymes des sources de financement ne correspondent pas toujours à la bonne institution. Ceci rend une partie des données inutilisable et notre recherche peu concluante.

La qualité des métadonnées

Celle-ci a tout de même permis de mettre en avant un problème de normalisation, de transparence et de qualité globale des métadonnées. La recherche scientifique ayant pour but d’être diffusée et accessible le plus facilement et le plus largement possible, il est étonnant que les principes FAIR [3], principes fondateurs de l’Open Science, soient aussi peu respectés. Des métadonnées claires et complètes paraissent nécessaires à la transparence et à la qualité globale de la recherche, en particulier dans un domaine comme celui de la médecine, où les enjeux scientifiques et sociétaux sont particulièrement élevés.

Notes

[1] Python est un langage de programmation informatique orientée objet.

[2] R est un langage de programmation, ainsi qu’un logiciel permettant notamment de faire de l’analyse statistique.

[3] « Findable, Accessible, Interoperable, Reusable », à comprendre donc, « Facilement trouvable, Accessible, Interopérable et Réutilisable », donc compréhensibles, bien documentés et dans des formats libres.

Bibliographie

(a) LAVIGNE, Elodie, 2020. La médecine à l’heure de l’égalité. Pulsations [en ligne]. Disponible à l’adresse : https://pulsations.hug.ch/article/medecine-egalite.html [consulté le 7 septembre 2025].

(b) ROPER, Rachel L., 2019. Does Gender Bias Still Affect Women in Science? Microbiology and Molecular Biology Reviews : MMBR. Vol. 83, no 3, pp. 18‑19. DOI 10.1128/MMBR.00018-19.

Carnet d'IdéeS - blog du Master IS