Identification taxonomique des plantes par apprentissage profond (deep learning) : le cas de Pl@ntNet.

Une connaissance précise de l’identité, de la distribution géographique et de l’évolution des espèces végétales est indispensable à la préservation de la biodiversité. Toutefois, l’identification taxonomique des organismes végétaux reste quasiment impossible pour les non-spécialistes et souvent difficile, même pour les professionnels. Au cours des dernières années, des progrès considérables ont été réalisées dans la création de systèmes automatisés capables de reconnaître rapidement et de manière fiable les espèces végétales à partir des images.

Le débat sur l’utilisation des systèmes d’identification automatique des plantes a débuté en 2004, suite à la publication de l’article « Automated species identification: why not ?» (Gaston Gaston & O’Neill, 2004). L’étude montre que lors de l’élaboration d’un modèle d’identification automatique, il est important de traiter de grands ensembles de données de formation pour évaluer avec exactitude le taux d’erreur du modèle. Depuis 2004, un travail considérable a été fait sur le développement d’approches automatisées pour l’identification des espèces végétales, principalement basées sur des techniques de vision par ordinateur (Huang, Dai & Lin, 2006 ; Hearn, 2009). Ce nouveau domaine scientifique utilise les techniques d’Intelligence Artificielle (IA) pour créer des algorithmes capables de reconnaître une image. Le but est d’entraîneur des machines à automatiser les taches propres du système visuel humain (Ballard, 1982).

Les systèmes de vision par ordinateur reposent principalement sur des méthodes d’apprentissage automatique (machine learning) et d’apprentissage profond (deep learning). Les méthodes d’apprentissage profond ont suscité un grand intérêt dans la communauté des botanistes en raison de leur bonne performance sur de grands volumes des images et de leur capacité à extraire des caractéristiques dans des données non structurées (Carranza-Rojas, J., Goeau, Bonnet, Mata-Montero, & Joly, 2017). Il faut en fait former les modèles d’apprentissage profond à des milliers d’images par classe pour qu’ils convergent vers des modèles de classification précis. La pratique courante consiste à initialiser le réseau en le formant d’abord sur un grand ensemble de données disponibles, puis de l’affiner sur les données spécifiques au domaine plus rares. À cet effet, les algorithmes de reconnaissance les plus récents font appel à des techniques de distillation de connaissance (Hinton, Vinyals, & Dean, 2015), qui permettent de transférer les connaissances acquises par un grand nombre de modèles à un petit modèle unique.

Les plus récents algorithmes de reconnaissance d’image sont capables d’identifier une plante parmi des milliers d’autres avec des taux de reconnaissance supérieurs à 85% (http://www.lifeclef.org/). Il existe plusieurs systèmes d’identification automatique ; l’application LeafSnap, qui figure parmi les premiers, est axée sur le contour des feuilles et permettre d’identifier quelques centaines d’espèces d’arbres en Amérique du Nord (Kumar et al. 2012). Cela a été suivi quelques années plus tard par d’autres, tels que Folia et Pl@ntNet, cette dernière application est si populaire, qui a des millions d’utilisateurs à travers le monde (Joly et al. 2016)

Identification taxonomique par Pl@ntNet :

Dans le cadre du processus d’identification manuel, le botaniste utilise diverses caractéristiques des plantes comme clés d’identification, qui sont examinées de façon séquentielle pour déterminer les espèces végétales. Essentiellement, l’utilisation d’une clé d’identification permet de répondre à une série de questions sur un ou plusieurs attributs d’une plante inconnue, par exemple : forme, couleur et nombre de pétales, presence d’épines ou de poils, etc. En se concentrant sur les caractéristiques les plus discriminantes, on réduit le nombre des espèces candidates pour arriver finalement à identifier l’espèce désirée. Cette analyse, fondée sur les connaissances spécialisées de botanistes chevronnés, peut désormais être réalisée par toute personne utilisant l’application mobile Pl@ntNet (https://plantnet.org) (Figure 1).

Pl@ntNet a débuté en 2013 comme projet de science participatif sur la biodiversité végétale. L’application repose sur l’expertise, les méthodes et les jeux de données élaborés par différentes équipes des experts numériques et des botanistes du Cirad, de l’Inra, l’Inria et l’IRD, ainsi que le réseau Tela Botanica de botanistes francophones (https://www.tela-botanica.org). Mais Pl@ntNet est aussi une plateforme innovante qui dépend de la contribution d’utilisateurs pour améliorer la production de données d’observation botanique. Il suffit de prendre une photo d’une partie de la plante qu’on veut identifier et d’envoyer l’image à l’application. Ensuite, le système compare la photo aux images de la base de données et donne le nom de l’espèce la plus proche sur le plan visuel. Il revient alors à l’observateur de désigner l’espèce parmi les résultats proposés.
Jusqu’à présent, environ 3 millions d’images de plantes ont été chargées et puis analysées par des professionnels. Le système d’identification des images est synchronisé avec des observations validées par des experts. Naturellement, les performances du système s’améliorent lorsque le nombre d’images augmente. Actuellement, l’application peut identifier environ 29,000 espèces, mais Pl@ntNet s’enrichit de jour en jour grâce à l’apport de 16 millions d’utilisateurs répartis dans 150 pays (https://www.cirad.fr/nos-activites-notre-impact/notre-impact/recits-d-impact/plantnet).

Figure 1 : exemple de visualisation de l’interface de l’application mobile Pl@ntNet.

exemple de visualisation de l'interface de l’application mobile Pl@ntNet

Bibliographie
Ballard, D. H. (1982). Computer vision, Prentice-Hall.

Carranza-Rojas, J., Goeau, H., Bonnet, P., Mata-Montero, E., Joly, A. (2017). Going deeper in the automated identification of Herbarium specimens. BMC evolutionary biology, 17(1): 1-14.

Gaston, K.J., O’Neill, M.A. (2004). Automated species identification: why not? Philosophical Transactions of the Royal Society B: Biological Sciences, 359(1444):655–667.

Hearn, D.J. (2009). Shape analysis for the automated identification of plants from images of leaves. Taxon, 58(3):934–954.

Hinton, G., Vinyals, O., Dean, J. (2015). Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531, 2(7). https://www.semanticscholar.org/paper/Distilling-the-Knowledge-in-a-Neural-Network-Hinton-Vinyals/0c908739fbff75f03469d13d4a1a07de3414ee19

Huang, P., Dai, S., Lin, P. (2006). Texture image retrieval and image segmentation using composite sub-band gradient vectors. Journal of Visual Communication and Image Representation, 17(5):947–957.

Joly, A., Bonnet, P., Goëau, H., Barbe, J., Selmi, S., Champ, J., Dufour-Kowalski, S., Affouard, A., Carré, J., Molino, J.F. (2016). A look inside the pl@ntnet experience. Multimedia Systems, 22(6):751–66.

Kumar, N., Belhumeur, P., Biswas, A., Jacobs, D., Kress, W., Lopez, I., Soares, J. (2012). Leafsnap: a computer vision system for automatic plant species identification. In A. Fitzgibbon, S. Lazebnik, P. Perona, Y. Sato, C. Schmid (Eds.) Computer vision–ECCV 2012. Lecture notes in computer science (pp 502–516). Berlin: Springer.

Carnet d'IdéeS - blog du Master IS

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *