RESEARCH DATA MANAGEMENT

E-LEARNING PLATFORM

Modul 2-2

Forschungsdaten beschreiben

In diesem Modul lernen Sie einen Standard zur Beschreibung von Daten kennen, der zur Interoperabilität zwischen verschiedenen Datenkatalogen beiträgt. Die Beschreibung von Datasets mit dem Vokabular ‚Data Catalog Vocabulary (DCAT) trägt dazu bei, dass Datensets gefunden werden können – nicht zuletzt bei Suchen, die über verteilte Kataloge gestartet werden. Insbesondere im Bereich der Forschungsdaten ist das Kriterium, dass über viele Kataloge gesucht werden kann, von grosser Bedeutung, da viele Daten von institutionellen Repositories zur Verfügung gestellt werden.

All cartoons courtesyof JørgenStamp,
Digitalbevaring.dk.CC BY 2.5.

  35 min

Lernziele

  • Die TeilnehmerInnen kennen die Aufgaben der Datalibrarians
  • Sie wissen, dass Datalibrarians Forschungsdaten verzeichnen
  • Sie kennen den Standard DCAT zur Beschreibung von (Forschungs-)daten
  • Sie sind sich bewusst, dass ein generischer Katalog die Daten nur oberflächlich beschreiben kann, dass aber häufig detailliertere Beschreibungen notwendig sind.

SCENARIO

Im Zuge ihres neuen Jobs als Forschungsdatenmanagerin an ihrer Hochschule soll Barbara auch ein Portal aufbauen, das die Suche der Daten ermöglicht. Da an der Hochschule Forschende sehr unterschiedlicher Disziplinen wirken, erweist es sich schnell als unmöglich, ein Schema zur Beschreibung all dieser Daten zu definieren.

Barbara entschliesst sich, für einen Katalog, der lediglich das Auffinden der Daten gewährleistet. Detaillierter werden die Daten auf den jeweiligen Landing Pages – vorzugsweise Webseiten, die von einzelnen Disziplinen betrieben werden, beschrieben.

In dem von W3C standardisierten Data Catalog Vocabulary findet Barbara ein Vokabular, das sich für die Beschreibung von Daten gut eignet und weit verbreitet ist.

Folie 1

Hier finden Sie weiteres Lernmaterial zur Beschreibung von Forschungsdaten.

Folie 2

Folie 3

DCAT ist ein Vokabular, das für offene Daten entwickelt worden ist, sich aber auch gut für Forschungsdaten eignet. Dies nicht zuletzt, da es einen grossen Beitrag zur Interoperationalität zwischen verschiedenen Datenkatalogen leistet.

Die weit verbreitete Applikation für die Verwaltung von Forschungsdaten CKAN (vgl. z.B. openresearchdata.ch) adaptiert DCAT – allerdings ohne das Schema direkt umzusetzen, was die Interoperationalität eher schmälert.

Folie 4

DCAT nutzt in hohem Masse weit verbreitete Vocabulare. Zahlreiche Felder beziehen sich auf Dublin Core. Das Vokabular unterscheidet sich insbesondere durch die ‘Architektur’ von Dublin Core.

Die Beschreibung der Datasets entspricht weitgehend derjenigen von anderen digitalen Objekten. Allenfalls hervorzuheben sind die Metadaten zur zeitlichen und räumlichen Ausdehnung der mit den Daten erfassten ‘Realitäten’.

Hinzuweisen ist auch auf eines der beiden Metadatenelemente, die für DCAT speziell sind: der Verweis auf die LandingPage, auf der dann alle spezifischen Erläuterungen platziert werden können.

Folie 5

Besonders wichtig ist hervorzuheben die Unterscheidung zwischen Datenset und Distribution. Dies erlaubt es, die Daten in unterschiedlicher Form zur Verfügung zu stellen.

Folie 6

Für das Portal opendata.swiss wurde ein Profil von DCAT entwickelt, das sich durch einige Vorzüge auszeichnet:

  • Ein Datenset kann durch verschiedene Distributionen repräsentiert werden. Diese Distributionen müssen nicht das ganze Dataset repräsentieren (z.B. nur eine Visualisierung eines Teils der Daten).
  • Es gibt die Möglichkeit, von einem Dataset auf verwandte Dokumente zu verweisen (dct: relation). Mit diesem Link können z.B. beschreibende Zusatzdokumente zu einem Datenset erfasst werden.
  • Mit rdfs:seeAlso kann auf verwandte Datasets verwiesen werden. Damit können z.B. Hierarchien abgebildet werden. Z.B. ein Verweis auf eine frühere Erhebung o.ä.

die blau eingefärbten Felder sind obligatorisch

LOOK

Links auf den Forschungsdaten-Katalog aus dem swissuniversities-Projekt „Pilot@ord.ch“
Übung 1
  • Beschreiben Sie die Daten von KommTech nach dem DCAT Application Profile for Swiss data portals
  • Beschreiben Sie das Dataset mit folgenden Metadaten:
Title  
Description  
Publisher  
ContactPoint  
Theme  
Issued  
Distribution  
Relation  
Keyword  
Landing Page  
SeeAlso  
Übung 2
  • Beschreiben Sie eine Distribution mit folgenden Metadaten:
Title  
Description  
Modified  
DownloadURL  
ByteSize  
mediaType  
Format  
Coverage  

TAKEAWAYS

Takeaways

Die Beschreibung von Forschungsdaten um sie auffindbar zu machen, ist vielleicht besonders komplex, da die Daten aus unterschiedlichen Disziplinen sehr variieren. Die Beschreibung in der notwendigen Tiefe ist daher kaum disziplinübergreifend möglich.

Ein disziplinübergreifer Katalog muss sich somit auf diejenigen Eigenschaften der Daten konzentrieren, die einen möglichst guten allgemeinen Eindruck zu vermitteln vermögen. Tiefergehende Beschreibungen sind z.B. auf den LandingPages resp. auf erläuternden Begleittexten zu platzieren.

Besondere Eigenschaften eines Vokabulars zur Beschreibung von Forschungsdaten sind:

Die Differenzierung der Beschreibung zwischen Dataset und Distribution – die wird der Tatsache gerecht, dass Datasets unterschiedliche Repräsentationen haben können.

Der Verweis auf die LandingPage, auf der zusätzliche, spezifischere Beschreibungen zu platzieren sind.

Metadaten, die nicht nur das Objekt, sondern auch die in den Daten erfasste ‚Realität‘ beschreiben (räumliche und zeitliche Abdeckung)

Darüber hinaus werden Daten jedoch weitgehend gleich beschrieben wie andere Digitale Objekte. Daher kann DCAT auch die meisten Vokabularbegriffe von Dublin Core übernehmen.

Bitte zitieren als
STETTLER, Niklaus. Modul-2-2: Forschungsdaten beschreiben. In: MASTRANDREA, Elena, PRONGUÉ, Nicolas, SCHNEIDER, René und STETTLER, Niklaus, Kursbuch Forschungsdaten [online]. HTW Chur – HEG Genève, 2017. Verfügbar unter: https://campus.hesge.ch/researchdatamanagement/?page_id=475