Un PID pour (enfin ?) les gouverner tous

Un PID pour les trouver / Un PID pour les amener tous / Et en Suisse les lier…

Données ouvertes et liées

Dans de précédents billets de blog, nous avons abordé la problématique de la gestion des données au travers du Big Data ainsi que de la nécessité de maîtriser leur visualisation afin d’en améliorer la compréhension. Aujourd’hui, dans le cadre de notre projet de recherche, nous menons une réflexion sur une thématique qui intervient bien en amont de ces sujets, à savoir que pour parvenir à « construire » un Big Data qui serve véritablement l’humanité et arriver à visualiser de manière optimum cette masse inimaginable de données, il faut être certain de leur qualité, ce qui implique un travail important, et ce dès leur création.

Pour s’assurer de cette qualité, de nombreuses métadonnées sont nécessaires, encore qu’elles ne soient pas forcément une garantie d’excellence. Mais celles-ci ne prennent du sens que si elles peuvent être liées entre elles ainsi qu’aux aux données qu’elles décrivent. Dans ce contexte, l’application de la vision du Linked Open Data (LOD), qui consiste à libérer les données de toute licence et à les lier selon le modèle de Tim-Berners Lee, devient indispensable non seulement pour l’utilisation ou la réutilisation des données, mais également pour leur donner du sens.

LOD Data Cloud
Figure 1 : The Linked Open Data Cloud – https://lod-cloud.net/

Identification unique des données

Pour ce faire, l’on comprend donc rapidement qu’il est essentiel que chaque set de données, chaque créateur, chaque « objet » décrit possède un identifiant unique permettant de clairement l’identifier, et donc assurer sa traçabilité et son référencement de sa création à son archivage, et ce à long terme.

Deux grandes écoles de pensée ont émergé : d’une part, les bibliothécaires et les dépôts de données publics ont poussé le concept des identifiants pérennes (persistent identifiers – PID) comme moyen de garantir une identification et un accès à long terme ; d’autre part, le succès du Web a conduit plusieurs chercheurs à promouvoir le concept des Cool URIs comme mécanisme universel pour identifier et accéder au contenu numérique.

Dans notre travail intitulé « Swiss PID Hub – Création d’un hub pour la gestion des identifiants pérennes en Suisse », nous nous intéressons justement aux PID (voir l’excellent panorama des PID et le billet de blog à la référence également « tolkienienne » réalisés par Espasandin, Jaquet et Lefort en 2018) tout en gardant les avantages d’une couche LOD. Toutefois, le problème réside justement dans ce pluriel : si chaque institution propose une solution différente, les chercheurs se trouvent dans l’obligation de choisir l’un ou l’autre de ces identifiants pour leurs travaux, et donc multiplier les façons de faire, sans parler des frais.

Un hub suisse attribuant des ARK

Cette situation, qui se retrouve tant au niveau mondial que national, voire régional, n’est, dès lors, pas idéale. Imaginer une solution fonctionnelle au niveau planétaire est actuellement encore utopique, mais certaines ont été trouvées à l’échelle de pays, comme celui proposé par le Australian National Data Service (ANDS) qui propose des Handle comme complément aux Digital Object Identifiers (DOI).

En Suisse, nous avons également besoin d’un complément aux DOI, qui sont attribués par le DOI-Desk de la bibliothèque de l’EPFZ, car cette solution est chère, centralisée (via DataCite ou Crossref), peu flexible et ne répond pas à tous les besoins des chercheurs. En se basant sur les recommandations du projet « Identités de confiance pour les données de l’art et du design » (ICOPAD), il a été décidé de prendre les Archival Resource Key (ARK), identifiant qui offre une très grande granularité (voir figure ci-dessous) et qui peut être utilisé pour n’importe quel type de données.

ARK Anatomy
Figure 2 : Structure des identifiants ARK (Kunze et Rodgers 2008)

Notre projet consiste donc à analyser la situation helvétique en fonction de cette perspective, et, si possible, proposer une solution « clef en main » au terme de notre travail. Il consiste à créer un modèle conceptuel de Hub facilitant l’attribution et la gestion d’identifiants ARK en Suisse. Afin d’atteindre ce but, nous comprenons rapidement qu’il est indispensable qu’une institution prenne sur ses épaules cette responsabilité.

Des flèches et des arcs pour vaincre le Mordor

Férus de littérature, tant l’un que l’autre, nous y avons, assez comiquement, vu une comparaison avec l’histoire de l’Anneau unique telle que Tolkien l’a relatée dans le second chapitre du Seigneur des anneaux et dans le Silmarillion :

Anneaux de pouvoir - Tolkien
Figure 3 : Les anneaux de pouvoir : « Un Anneau pour les gouverner tous. Un Anneau pour les trouver. Un Anneau pour les amener tous et dans les ténèbres les lier. » (J.R.R. Tolkien, Le Seigneur des Anneaux, Tome 1 – La Communauté de l’Anneau)

Remplacez simplement Anneau par ARK, Mordor par Suisse, et peut-être quand même « ténèbres » par un qualificatif plus joyeux évoquant la lumière (après tout, « Post tenebras lux » n’est-il pas la devise du Canton de Genève ?), et vous aurez une description du but de notre travail, certes poétique, mais plus ou moins fidèle. Pour filer la métaphore, sachez que Sauron, créateur originel de l’Anneau unique, sait ce qu’accomplissent les autres « porteurs » des anneaux ; nous pourrions donc imaginer qu’une institution dédiée fédère et gère d’autres institutions, comme des hautes écoles, des universités, ou encore des organismes liés à la recherche scientifique, dans le but d’harmoniser l’attribution de PID pour tout type de données au niveau national.

Si les enjeux sont gigantesques, les défis pour y parvenir le sont aussi ! De nombreux obstacles se dressent sur le chemin qui mène au « Mordor », mais cette fois dans une volonté de création, et non pas destruction. En réalisant ce travail, notre (petite) « Communauté de l’Anneau » passera certainement par bien des péripéties, et tentera de s’agrandir en recrutant des membres institutionnels qui nous aideront à porter le poids de cette tâche, et ceci pour permettre aux chercheurs, et par incidence à la population entière, la vision d’un avenir plus simple et mieux organisé, dans lequel l’information circulera de manière efficace et sera à la portée de tous, au bénéfice de chacun.

Auteurs : Matthieu Cevey et Julien A. Raemy


Erratum et remarques post-publication

21.09.2019 : Correction de quelques erreurs orthographiques et ajout du billet de blog de Kate Espasandin, d’Aurélie Jaquet et de Lise Lefort de janvier 2018 (« PID : un panorama pour les gouverner tous ») au sein de notre corpus/bibliographie. Ce billet de blog au titre très similaire que les auteurs ont lu il y a quelques mois a sûrement dû trotter dans leur esprit car ce clin d’œil a été fait sans que les auteurs ne s’en rendent compte lors de la publication.


Bibliographie

ANDS, 2017. What identifier do I need: a pathfinder for data managers [en ligne]. 2017. Australian National Data Service. [Consulté le 18 juin 2019]. Disponible à l’adresse : https://www.ands.org.au/__data/assets/pdf_file/0010/386884/id_decision_tree.pdf

BAZZANELLA, Barbara, BORTOLI, Stefano et BOUQUET, Paolo, 2013. Can persistent identifiers be cool? International journal of digital curation. 14 juin 2013. Vol. 8, n° 1, pp. 14-28. DOI 10.2218/ijdc.v8i1.246.

ESPASANDIN, Kate, JAQUET, Aurélie et LEFORT, Lise, 2018. PID : un panorama pour les gouverner tous! In : Recherche d’ID [en ligne]. 4 janvier 2018. [Consulté le 21 septembre 2019]. Disponible à l’adresse : https://recherchemid.wordpress.com/2018/01/04/pid-un-panorama-pour-les-gouverner-tous/.

ESPASANDIN, Kate, JAQUET, Aurélie, LEFORT, Lise et SCHNEIDER, René (dir ), 2018. TRMASID 14: Panorama et modélisation d’identifiants pérennes pour la création d’identités de confiance [en ligne]. Genève, Suisse : Haute école de gestion de Genève. [Consulté le 18 juin 2019]. Disponible à l’adresse : https://doc.rero.ch/record/309479

KUNZE, John et RODGERS, Richard, 2008. The ARK Identifier Scheme. [en ligne]. 22 mai 2008. [Consulté le 18 juin 2019]. Disponible à l’adresse : https://escholarship.org/uc/item/9p9863nc

PRONGUÉ, Nicolas, RICCI, Fabio, SCHNEIDER, René et SCHURTE, René, 2017. Art and design as linked data: the LODZ project (Linked Open Data Zurich). Libellarium: journal for the research of writing, books, and cultural heritage institutions [en ligne]. 2 mars 2017. Vol. 9, n° 2. [Consulté le 14 mars 2019]. Disponible à l’adresse : http://dx.doi.org/10.15291/libellarium.v9i2.256

SCHNEIDER, René et RAEMY, Julien Antoine, 2019. Résultats du projet ICOPAD. ID Bilingue [en ligne]. février 2019. [Consulté le 18 juin 2019]. Disponible à l’adresse : https://campus.hesge.ch/id_bilingue/projekte/icopad/results_fr.html

Carnet d'IdéeS - blog du Master IS