Du Machine Learning aux archives

Le Machine Learning fait partie du domaine de l’intelligence artificielle. Lorsqu’on prépare un système informatique à prendre des décisions selon des critères ou à reconnaître des choses (objets, mots, animaux etc.), on parle donc de Machine Learning. Cet apprentissage automatique s’alimente d’une très grande quantité de données (jeu de données) pour y extraire du sens.

Image de BD sur le sur le Machine learning for records management de James Lappin. — Source : James Lappin, *Machine learning for records management*

Vous avez probablement entendu parler du risque de remplacement de certains métiers par des robots et plus particulièrement par l’intelligence artificielle. Selon une étude publiée par des chercheurs de l’Université d’Oxford en 2013, le métier d’archiviste a 76% de risque de se faire informatiser. Pour cette étude les chercheurs ont analysé O*NET, une base de données sur l’emploi aux États-Unis. En 2015, la BBC a adapté cette étude au contexte du Royaume-Uni avec un moteur de recherche didactique où le métier d’archiviste présente cette fois-ci un risque de remplacement plus modéré et évalué à 36%.

On pense donc que ces chiffres sont à nuancer puisque les données de l’emploi et les pratiques varient entre les pays. Avec le temps, on constate aussi que certaines de ces prédictions ne se sont pas réalisées. Mais où en est-on concrètement avec l’intelligence artificielle et plus précisément avec le Machine Learning? Comment cette technologie évolue-t-elle dans le contexte archivistique?

Champs d’application du Machine Learning

Reconnaissance des caractères

Le Machine Learning est déjà présent dans le monde des archives, les projets menés dans la reconnaissance optique de caractères (OCR) sont l’exemple le plus courant. L’OCR est un procédé permettant de récupérer le texte manuscrit ou dactylographié d’une image pour le rendre exploitable par une machine. Cette technologie permet par exemple de faire de la recherche par mots-clés sur des manuscrits médiévaux ou d’exporter le texte sous un autre format. Il existe déjà depuis quelques années de très nombreux projets de ce type comme e-rara pour les imprimés numérisés des bibliothèques suisses ou e-newspaperarchives.ch pour la presse suisse numérisée.

Indexation des images

Le Machine Learning est aussi devenu très utile pour les institutions souhaitant tagger (associer des mots-clés) ou même décrire des quantités massives d’images photographiques ou de tableaux. Le Machine Learning peut reconnaître les éléments d’une image et y associer rapidement des mots-clés, ce qui ouvre de nouvelles perspectives pour l’indexation à très grande échelle de ce type de documents. Il s’agit là d’une tâche qui serait inenvisageable si elle devait être effectuée par des humains.

Image d'exemple d'analyse d'une photographie par Google Cloud Vision API. — Exemple d’analyse d’une photographie par Google Cloud Vision API. *Picket line at the Boston School Committee offices*. Source : Dan Cohen, *Humane Ingenuity #3: AI in the Archives*

L’indexation des archives photographiques permet surtout l’accès et la mise en valeur de ces documents. Pour fêter les 60 ans de la NASA en 2018, celle-ci s’allie avec Google Arts & Culture Lab pour extraire des mots-clés et des informations à partir de plus de 127’000 images de son fonds historique. Le résultat de ce projet nommé NASA’s Visual Universe permet de naviguer de manière interactive dans une galaxie de mots-clés thématiques rattachés à des images photographiques décrites à l’aide du Machine Learning.

Capture d’écran du NASA's Visual Universe. — Capture d’écran du *NASA’s Visual Universe*

Gestion des documents

Un autre aspect moins visible du Machine Learning est qu’il peut être utile pour la gestion des documents électroniques. Depuis les années 2000, les documents nés numériques deviennent rapidement la norme et la quantité d’informations produites explose. Cela a mené certaines institutions archivistiques à explorer des solutions pour gérer une masse de documents toujours plus importante et complexe. Le Machine Learning s’avère alors intéressant pour assister l’archiviste en lui procurant une première analyse du contenu.

En 2017, les NSW State Archives and Records (Nouvelle-Galles du Sud, Australie) décident d’explorer les possibles applications du Machine Learning dans le domaine du records management. Le Machine Learning permettrait de faire le ménage en repérant les classements mal structurés et en procédant à l’élimination de documents selon des critères définis. Cette technologie pourrait aussi guider les créateurs de documents dans le processus de classification et leur recommander des mots-clés pertinents à associer aux documents.

Toujours en 2017, les Archives nationales du Royaume-Uni ont organisé un “Machine Learning hackathon“, une séance de formation durant laquelle des équipes internes ont exploré les potentiels de cette technologie. On remarque qu’il y a une volonté d’apprendre à la machine à reconnaître des sujets clés au sein des documents pour y produire des descriptions et classifications.

Perspectives

Le Machine Learning n’est pas encore une technologie mature dans le domaine des archives, mais il semble clair que nous ne parlons pas d’un simple effet de mode. Néanmoins, au vu des sources consultées, le Machine Learning ne semble pas menacer le métier d’archiviste, il apporte plutôt des avantages et de nouvelles opportunités de mise en valeur l’information. Plusieurs freins existent et ralentissent l’implantation de cette technologie: il s’agit d’une démarche coûteuse qui prends du temps à configurer et où l’éthique et les données personnelles sont encore un sujet à débat, notamment lorsqu’on aborde la reconnaissance faciale dans une image. Face à une masse toujours plus importante d’information à traiter, le Machine Learning offre pourtant un intérêt considérable.

Bibliographie

ADAM, 2019. Qu’est-ce que le Machine Learning ? Needemand [en ligne]. 7 novembre 2019. [Consulté le 5 décembre 2020]. Disponible à l’adresse : https://needemand.com/quest-ce-que-le-machine-learning/

BELL, Mark. 2018. Machine learning in the archives. The National Archives blog [en ligne]. 7 juin 2018. [Consulté le 5 décembre 2020]. Disponible à l’adresse : https://blog.nationalarchives.gov.uk/machine-learning-archives/

BENEDIKT FREY, Carl, OSBORNE, Michael, 2013. The future ofemployment : how susceptible are jobs to computerisation? [en ligne]. Oxford : Oxford Martin School. [Consulté le 5 décembre 2020]. Disponible à l’adresse : https://www.oxfordmartin.ox.ac.uk/downloads/academic/future-of-employment.pdf

COHEN, Dan, 2019. Humane Ingenuity #3: AI in the Archives. Buttondown [en ligne]. 17 septembre 2019. [Consulté le 5 décembre 2020]. Disponible à l’adresse : https://buttondown.email/dancohen/archive/humane-ingenuity-3-ai-in-the-archives/

HUMPHRIES, Glen, 2017. Machine Learning and Records Management. Future Proof – Protecting our digital future : A State Archives and Records initiative for the NSW Government [en ligne]. 14 septembre 2017. [Consulté le 5 décembre 2020]. Disponible à l’adresse : https://futureproof.records.nsw.gov.au/machine-learning-and-records-management/

LYNCH, Clifford A., 2019. Machine Learning, Archives and Special Collections: A high level view. ICA blog [en ligne]. 2 octobre 2019. [Consulté le 5 décembre 2020]. Disponible à l’adresse : https://blog-ica.org/2019/10/02/machine-learning-archives-and-special-collections-a-high-level-view/

Carnet d'IdéeS - blog du Master IS