Qu’est-ce qui distingue Yuri Gagarin de Yuri Kano ? Dans le premier cas, Yuri est un homme, fameux cosmonaute de l’URSS, dans le second, une femme, athlète japonaise. Ce simple exemple illustre une réalité fascinante : le prénom Yuri est masculin dans les sphères russophones, mais féminin au Japon. Les prénoms ne sont donc pas des étiquettes universelles ; ils changent de genre selon la langue, la culture ou l’origine de l’individu. Dans un précédent billet, nous évoquions George Eliot, George Sand ou Harper Lee : des autrices qui ont choisi un nom de plume masculin pour contourner les biais de leur époque. Nous avons expliqué les prémices de notre projet et comment nous allions procéder pour tester ces outils. Quelques mois plus tard, nous pouvons présenter quelques résultats
Une évaluation basée sur quoi ?
Nous avons ensuite relevé des outils les plus souvent cités dans la littérature, soit :
Seul le premier, soit GenderGuesser, n’est pas une API payante en ligne, mais une bibliothèque python. Les autres, en revanche, imposent dans leur version gratuite une limite d’utilisation mensuelle ou journalière.
Une fois nos bases de données construites, nettoyées et prêtes à l’emploi, nous avons automatisé le traitement grâce à nos outils. Toutes nos données sont consultables ici. Notre jeu de données contient plus de 12 000 entrées avec prénoms, origine et genre. Chaque prénom a été assigné un genre « homme » ou « femme » par les outils sélectionnés, avec et sans l’information de l’origine. À l’exception de NamSor, tous les outils peuvent également retourner une réponse « inconnue » lorsqu’ils n’arrivent pas à une conclusion définitive.
Plusieurs métriques ont été considérées pour tester la fiabilité et la précision des outils. L’une mesurait l’erreur globale, en considérant chaque réponse « inconnue » comme une erreur. Une autre métrique excluait les cas de non‑classification, en ne tenant compte que des erreurs lorsque l’outil inférait effectivement un genre. Aussi, pour vérifier si l’origine influençait ou pas le résultat obtenu, nous avons eu recours au test statistique de McNemar.
| Classe prédite | ||||
|---|---|---|---|---|
| Homme | Femme | Inconnue | ||
| Vraie classe |
Homme | Mm | Mf | Mu |
| Femme | Fm | Ff | Fu | |
Tableau 1 matrice de confusion pour les métriques
Grâce à ces tests et ces métriques, nous avons pu établir un classement des meilleurs outils selon le pourcentage d’erreur.
And the winner is…
Au total, nous avons obtenu plus de 128 000 prédictions : environ 65 000 obtenues sans avoir indiqué l’origine et 63 500 avec l’indication géographique. Dans le cas où on comprenait les fois où l’outil ne donnait pas de résultat (c’est-à-dire qu’il ne donnait aucun genre) comme une « erreur », nous avons pu créer un podium, disponible à la fin de ce billet.
Nos tests montrent que NamSor est l’outil le plus précis. Sans indication d’origine, son taux d’erreur générale est de 6,83 %, et il descend à 5,75 % lorsqu’on précise l’origine du prénom. Derrière lui, on retrouve GenderAPI.io (6,84 %), puis Genderize, GenderAPI, et enfin GenderGuesser. Dans la plupart des cas, fournir l’origine améliore la précision : par exemple, Yuri sera correctement identifié comme masculin si l’on ajoute l’origine RUS, mais féminin si l’on précise l’origine JAP.
À l’inverse, GenderGuesser se distingue par des performances nettement inférieures : son taux d’erreur atteint 27,31 % sans origine et grimpe jusqu’à 62,30 % avec origine. Cette faiblesse s’explique par sa base de données limitée et moins actualisée, puisqu’il ne s’agit pas d’une API en ligne. Toutefois, si l’on exclut les cas de non-classification, la tendance s’inverse : lorsqu’il attribue effectivement un genre, GenderGuesser affiche un taux d’erreur réduit à 2,22%. Ainsi, même si cet outil donne très souvent un résultat « inconnu », lorsqu’il infère un genre, il le fait mieux que les autres outils. Le pourcentage très élevé observé avec l’ajout d’une origine s’explique par la stratégie de l’outil : il cherche une correspondance exacte dans sa base de données qui est notamment plus petite que d’autres outils, ce qui limite fortement ses possibilités et augmente le nombre de réponses « inconnues ».
Et donc ?
À ce stade, nos résultats montrent que le choix de l’outil dépend surtout des besoins des utilisateur-rice-s. GenderGuesser peut être recommandé si l’on accepte d’ignorer une grande partie des non-classifications : dans ce cas, sa précision est élevée, ce qui permet la création d’un jeu de données plus digne de confiance, mais de taille réduite. Toutefois, pour des analyses portant sur un grand volume de données, cette approche n’est pas optimale. Dans ce contexte, NamSor apparaît comme l’outil le plus performant, suivi de près par les autres solutions testées. Dans ce cas, d’autres facteurs, comme le budget mis à disposition, peuvent entrer en jeu dans la considération de l‘outil. NamSor, par exemple, a les abonnements les plus chers de tous les outils.
Finalement, il serait pertinent d’intégrer d’autres variables afin de mieux mettre en lumière les biais éventuels présents dans ces outils. Pour reprendre notre exemple, il serait intéressant d’observer si ceux-ci tendent davantage à genrer Yuri au masculin ou au féminin, révélant ainsi un possible biais de genre. Néanmoins, l’envergure réduite de notre projet et les contraintes temporelles qui l’accompagnent limitent la possibilité d’approfondir ces pistes de réflexion, lesquelles pourraient constituer de riches prolongements pour de futures recherches.
Cet article de blog a été rédigé par Claire Hoffmann et Nemo Vollert, dans le cadre de notre projet de recherche “Benchmarking des outils d’inférence du genre à partir des noms et prénoms” du Master IS, et avec M. Patrick Ruch comme directeur de recherche.
Bibliographie
Okari and Kano win in San Jose | News | Rio de Janeiro 2008 | World Athletics Half Marathon Championships, [en ligne]. Disponible à l’adresse : https://worldathletics.org/competitions/world-athletics-half-marathon-championships/iaaf-caixa-world-half-marathon-championships-6978260/news/news/okari-and-kano-win-in-san-jose [consulté le 6 décembre 2025].
Yuri Gagarin | Biography & Facts | Britannica, [en ligne]. Disponible à l’adresse : https://www.britannica.com/biography/Yuri-Gagarin [consulté le 6 décembre 2025].


Laisser un commentaire