RESEARCH DATA MANAGEMENT

E-LEARNING PLATFORM

Modul 2-2

Décrire les données

Dans ce module, vous vous familiarisez avec un standard de description de données contribuant à l’interopérabilité des divers catalogues de données. La description à l’aide de ce vocabulaire, le Data Catalog Vocabulary (DCAT) permet à des jeux de données d’être retrouvés, notamment grâce à la recherche fédérée dans des catalogues séparés. Cette dernière représente un critère de grande importance, en particulier dans le domaine des données de la recherche, puisque de nombreux jeux de données sont mis à disposition sur des archives institutionnelles.

All cartoons courtesyof JørgenStamp,
Digitalbevaring.dk.CC BY 2.5.

  35 min

Objectifs d’apprentissage

  • Les participant-e-s connaissent les tâches des bibliothécaires-données.
  • Ils savent, que les bibliothécaires-données répertorient des données de la recherche.
  • Ils connaissent le standard DCAT pour la description de données (de la recherche).
  • Ils sont conscients qu’un catalogue générique ne peut décrire les données que de manière superficielle, alors que des descriptions détaillées sont souvent nécessaires.

SCENARIO

Dans le cadre de son nouvel emploi en tant que gestionnaire des données de la recherche dans une haute école, Barbara doit mettre en place un portail permettant la recherche de données. Comme les chercheurs de cette institution travaillent dans des domaines très différents, il s’avère rapidement impossible de définir un schéma pour la description de tous les types de données.

Barbara se décide pour un catalogue ne garantissant qu’une recherche simple des données ; celles-ci seront décrites de manière détaillées sur leur landing page correspondante – de préférence au sein de sites web exploités par les différentes disciplines.

Barbara retrouve dans le DCAT – standardisé par le W3C – un vocabulaire bien adapté à la description des données et largement répandu.

Slide 1

Slide 2

Slide 3

Le vocabulaire DCAT a été développé pour les données ouvertes, mais est également adapté aux données de la recherche, étant donné qu’il constitue une contribution importante à l’interopérabilité des catalogues de données.

L’application largement répandue CKAN, servant à la gestion des données de la recherche (voir par exemple openresearchdata.ch) adapte DCAT, sans appliquer directement le schéma, ce qui réduit plutôt l’intéropérabilité.

Slide 4

DCAT réutilise en grande partie des vocabulaires largement répandus. De nombreux champs se réfèrent à Dublin Core. Le vocabulaire se distingue en particulier à travers l’«architecture» de Dublin Core.

La description des jeux de données correspond largement à celle d’autres objets digitaux. On peut éventuellement mentionner en plus la couverture temporelle et spatiale liée aux données, ainsi que le renvoi vers la «landing page», sur laquelle peuvent être placées des explications spécifiques au jeu de données.

Slide 5

Il est particulièrement important de distinguer ici un jeu de données de ses distributions. Ceci permet de mettre à disposition les données sous différentes formes.

Slide 6

Un profil de DCAT a été développé pour le portail opendata.swiss. Il présente les avantages suivants:

  • Un jeu de données peu être représentés sous différentes distributions. Celles-ci ne doivent pas forcément représenter l’ensemble du jeu de données (par exemple une visualisation d’une partie des données).
  • Il est possible dans la description d’un jeu de données de mentionner des documents connexes (dct:relation). Ce lien permet d’ajouter des documents supplémentaires décrivant le jeu de données.
  • Des renvois vers des jeux de données connexes peuvent être mentionnés grâce à rdfs:seeAlso. Ainsi, on peut représenter des hiérarchies, par exemple avec le renvoi vers des données provenant d’une collecte précédente.

Les champs marqués en bleu sont obligatoires.

LOOK

Lien vers le catalogue de données de la recherche issu du projet de swissuniversities Pilot@ord.ch:

Exercice 1
  • Décrivez les données de KommTech selon le profil d’application DCAT pour portails de données suisses.
  • Décrivez le jeu de données au moyen des métadonnées suivantes :
Title  
Description  
Publisher  
ContactPoint  
Theme  
Issued  
Distribution  
Relation  
Keyword  
Landing Page  
SeeAlso  
Exercice 2
  • Décrivez une distribution au moyen des métadonnées suivantes :
Title  
Description  
Modified  
DownloadURL  
ByteSize  
mediaType  
Format  
Coverage  

TAKEAWAYS

Takeaways

La description des données de la recherche afin de permettre leur recherche est particulièrement complexe, car les données varient énormément d’une discipline à l’autre. Une description avec une profondeur suffisante est presque impossible pour toutes les disciplines.

Un catalogue multidisciplinaire doit donc se concentrer sur les quelques caractéristiques permettant de transmettre un aperçu des données aussi général et bon que possible. Des descriptions détaillées se font plutôt sur les landing pages ou dans des textes explicatifs.

Les caractéristiques spécifiques d’un vocabulaire pour la description de données de la recherche sont les suivantes :

  • La distinction de la description d’un jeu de données et d’une distribution ; l’existence de cette dernière montre qu’un jeu de données peut avoir plusieurs représentations différentes.
  • Les métadonnées ne se référant pas à l’objet directement mais à la « réalité » concernée par celui-ci.

Au-delà de ceci, les descriptions sont largement similaires à celles d’autres objets digitaux. C’est pourquoi DCAT peut réutiliser la plupart des propriétés proposées par Dublin Core.

Citation
STETTLER, Niklaus. Module 2-2: Décrire les données. In: MASTRANDREA, Elena, PRONGUÉ, Nicolas, SCHNEIDER, René et STETTLER, Niklaus, Manuel de gestion des données de la recherche [en ligne]. HTW Chur – HEG Genève, 2017. Disponible à l’adresse: https://campus.hesge.ch/researchdatamanagement/?page_id=4188&lang=fr