Gouvernance des données responsable pour un monde plus équitable

Lors du séminaire sur la gouvernance des données, présenté par les étudiants-es du Master en sciences de l’information (Bolognesi et al., 2024), il a été souligné que l’intelligence artificielle intervient dans des décisions critiques mettant en évidence l’importance de la qualité et de la gestion des données. La gouvernance des données émerge comme une solution pour garantir que ces technologies restent justes et transparentes, en particulier face à des biais systématiques qui affectent disproportionnellement certaines populations.

Biais invisibles, résultats visibles : quand l’IA oublie la diversité

Les biais algorithmiques apparaissent lorsque les données d’entraînement des systèmes d’IA ne représentent pas fidèlement la diversité des populations. Le système de reconnaissance faciale est l’un des exemples les plus évidents de l’impact des biais dans les bases de données.

L’étude Gender Shades (Buolamwini et Gebru, 2018) démontre que ces systèmes fonctionnaient de manière significativement moins précise pour les femmes à la peau foncée et les personnes de couleur par rapport aux hommes blancs. Plus précisément, les systèmes commerciaux de classification du genre affichaient des erreurs de près de 35 % pour les femmes à la peau foncée, contre moins de 1 % pour les hommes à la peau claire.

Les chercheurs-euses ont attribué cette inégalité de performance à un problème fondamental : la représentation insuffisante de certains groupes dans les ensembles de données utilisés pour entraîner ces modèles. En d’autres termes, les bases de données contenaient une majorité de visages d’hommes blancs, ce qui a conduit à des biais dans les algorithmes de reconnaissance faciale. Cet aspect soulève une question centrale en matière de gouvernance des données : comment pouvons-nous garantir que les données utilisées pour entraîner des systèmes d’IA reflètent fidèlement la diversité de la population humaine ?

Le projet Gender Shades propose une approche intersectionnelle pour évaluer l’inclusivité des produits liés à l’intelligence artificielle.

L’impact des données mal gouvernées

La gouvernance des données se définit comme un cadre d’autorisation et de contrôle sur la gestion des données (Janssen et al., 2020). Cela inclut la création de politiques, de normes et de procédures qui régissent la collecte, le stockage, l’utilisation et la destruction des données. Dans le contexte de l’IA, cela signifie garantir que les données sont fiables, représentatives et conformes aux réglementations telles que la RGPD et la nLPD.

Les conséquences d’une gouvernance des données défaillante vont bien au-delà des enjeux organisationnels. Elles entraînent la marginalisation et l’exclusion de groupes vulnérables, notamment les communautés autochtones (Oliver et al., 2024). Ces défaillances conduisent à une mauvaise interprétation, une utilisation non-autorisée ou une exploitation abusive des informations concernant ces communautés. Cela génère des représentations erronées, renforce les stéréotypes et mène à des décisions qui ignorent les valeurs culturelles et les réalités vécues des peuples autochtones. Sans une gouvernance efficace, ces communautés perdent le contrôle sur leurs données, limitant leur capacité à les utiliser de manière autonome et stratégique et compromettant la préservation de leur patrimoine culturel. De plus, cela entraîne des effets négatifs à long terme, entravant l’élaboration de politiques publiques adaptées et exacerbant les inégalités sociales et économiques. Une gouvernance des données mal conçue aggrave ainsi la marginalisation des peuples indigènes, restreignant leur autonomie et leur participation à la gestion de leurs informations.

Approches pour une gouvernance fiable

Le cadre conceptuel de la gouvernance des données (Abraham et al., 2019) identifie plusieurs éléments clés pour une gestion efficace des données au sein d’une organisation. Il inclut :

  • les antécédents, qui englobent les facteurs internes et externes influençant l’adoption de la gouvernance, tels que la culture d’entreprise et les réglementations ;
  • l’étendue organisationnelle détermine si la gouvernance est limitée à une partie de l’organisation ou implique des partenaires externes ;
  • l’étendue des données fait la distinction entre les données traditionnelles et les big data, plus complexes et massives.
  • les domaines décisionnels des données concernent les aspects de gestion des données comme la qualité, la sécurité et le cycle de vie des données ;
  • les mécanismes de gouvernance comprennent les règles, procédures et interactions nécessaires pour gérer les données efficacement ;
  • les conséquence de la gouvernance se mesurent en termes d’amélioration de la performance organisationnelle et de gestion des risques, notamment la réduction des erreurs et des fraudes.
Abraham et al. (2019, p. 428)

Conclusion

La gouvernance des données est essentielle pour construire une intelligence artificielle qui soit non seulement performante, mais aussi juste et éthique. Réduire les biais algorithmiques passe par des données diversifiées, des cadres de contrôle robustes et une responsabilisation partagée.

Alors que les données, surnommées le « nouveau pétrole », deviennent des ressources de plus en plus convoitées, investir dans une gouvernance fiable est plus qu’une nécessité : c’est une opportunité stratégique pour bâtir un avenir équitable.

Bibliographie

ABRAHAM, Rene, SCHNEIDER, Johannes et VOM BROCKE, Jan, 2019. Data governance: A conceptual framework, structured review, and research agenda. International Journal of Information Management. Vol. 49, pp. 424‑438. DOI 10.1016/j.ijinfomgt.2019.07.008.

BOLOGNESI, Luigi et al., 2024. Gouvernance des données [en ligne]. Séminaire sur les sciences de l’information, Carouge. 29 novembre 2024. Disponible à l’adresse : https://cyberlearn.hes-so.ch/pluginfile.php/3072865/mod_resource/content/0/ppt_MA_IS_seminaire_gouvernance_donnees_20241129.pdf [consulté le 16 décembre 2024].

BUOLAMWINI, Joy et GEBRU, Timnit, 2018. Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification. In : Proceedings of the 1st Conference on Fairness, Accountability and Transparency, pp. 77‑91 [en ligne]. PMLR. 21 janvier 2018. Disponible à l’adresse : https://proceedings.mlr.press/v81/buolamwini18a.html [consulté le 16 décembre 2024].

JANSSEN, Marijn et al., 2020. Data governance: Organizing data for trustworthy Artificial Intelligence. Government Information Quarterly. Vol. 37, no 3, p. 101493. DOI 10.1016/j.giq.2020.101493.

OLIVER, Gillian et al., 2024. Understanding data culture/s: Influences, activities, and initiatives: An Annual Review of Information Science and Technology (ARIST) paper. Journal of the Association for Information Science and Technology. Vol. 75, no 3, pp. 201‑214. DOI 10.1002/asi.24737.

Carnet d'IdéeS - blog du Master IS

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *