RESEARCH DATA MANAGEMENT

E-LEARNING PLATFORM

Modul 2-1

Die Daten auf dem Lebensweg

In diesem Modul folgen wir den Forschungsdaten auf ihrem Lebensweg. Wir sehen, dass die Daten in unterschiedlichen Phasen in je eigenen Systemen vorgehalten und verwaltet werden. Dabei wird deutlich, dass die Daten mit jedem Schritt ‘in die Öffentlichkeit¨umfangreicher beschrieben und dokumentiert sein müssen. Die Publikation der Daten erfordert eine sehr genaue Dokumentation, ohne die Forschungsdaten nicht nachgenutzt werden können.

All cartoons courtesyof JørgenStamp,
Digitalbevaring.dk.CC BY 2.5.

35 min

Lernziele

  • Datalibrarians betreiben die Infrastruktur für das Datenmanagement.
  • Sie wissen, wie diese Infrastruktur beschaffen sein muss, um die grundlegenden Ziele des Forschungsdatenmanagements zu erreichen.
  • Sie wissen, dass Forschungsdatenmanagement schon in der aktiven Phase wichtig ist.
  • Sie sind mit der Architektur eines Forschungsdatenportals vertraut.

SCENARIO

Barbara übernimmt in einer Hochschulbibliothek die Aufgabe, das Forschungsdatenmanagement der Hochschule aufzubauen. Sie überlegt sich, in welchen Systemen die Forschungsdaten bislang vorliegen und wie diese idealerweise verwaltet werden könnten. Dabei wird ihr deutlich, dass die Daten im Laufe ihres Lebenszyklus zunehmend ‚öffentlicher‘ werden und daher auch umfangreicher dokumentiert werden müssen.

Folie 1

Hier finden Sie weiteres Lernmaterial zur Architektur von Forschungsdatenplattformen.

Folie 2

Forschungsdatenmanagement verfolgt verschiedene Ziele: es soll die Forschenden selbst unterstützen (die 2 linken Quadranten) wie auch die Ansprüche der Fachcommunity resp. der Öffentlichkeit bedienen (die rechten Quadranten). Forschungsdatenmanagement dient der Forschung, indem es dazu beiträgt, dass die Daten aktiv genutzt warden können (die oberen Quadranten), wie der Qualitätssicherung durch Dokumentation des Forschungsprozesses (die unteren Quadranten). Je nach Phase im Forschungsprozess stehen unterschiedliche Ziele eher im Vordergrund.

Folie 3

Wir beziehen uns im Modul mehrmals auf Daten von Urs und Lydia zur Nutzung von Mobilkommunikation. Die Daten erhoben hat die Firma Publica Data AG. Urs und Lydia haben diese nachgenutzt.

Folie 4

Die Abbildung zeigt einen klassischen Ablauf, wie er in der Forschung häufig auftritt. Der Weg der Daten führt dabei durch drei Domains: Private Research Domain (nur für die Forschenden selbst – also in unserem Bsp: Urs und Lydia zugänglich). Die Daten liegen also auf dem eigenen Notebook, oder auf Dropbox, GoogleDocs, Trello o.ä.

Shared Reasearch Domain (nur für einen gewissen Personenkreis zugänglich, z.B. das ganze Institut, oder die Hochschule). Die Daten liegen in einem Dokumentenmanagementsystem wie z.B. BSCW, SharePoint o.ä).

Public Domain (für eine breitere Öffentlichkeit zugänglich).

Folie 5

Daten können sich also in einer von drei Domains befinden:

  • Private Research Domain
  • Shared Reasearch Domain bzw. Collaboration Domain
  • Public Domain bzw. Publication Domain

Folie 6

Auch der Data Life Cycle kann in den 3 Domains wiedergefunden werden, allerding werden auch gewisse Unterschiede deutlich. Wird der DCC Curation Lifecycle (bzw. ein Ausschnitte davon) auf einem Zeitstrahl dargestellt, lassen sich die drei Domains auf diesem abbilden. Werden die beiden Modelle kombiniert, wird ersichtlich, in welcher Domain sich welche Lifecycle-Abschnitte abspielen.

Folie 7

Auf der Abbildung sind unterhalb der DDC-Lifecycle-Phasen die Schritte des Lifecycles zusätzlich in einer anderen Form zusammengefasst und mit praxisnahen (und daher geläufigeren) Bezeichnungen aufgeführt.

Es ist ausserdem zu erkennen, dass sich einige Punkte des Lifecycles in keiner Domain befinden. So sind die Punkte „Appraise & Select“, „Ingest“ und „Preservation“ des DCC Life Cycle im Continuum Modell lediglich als unscheinbare „Curation Boundary“ zusammengefasst.

Folie 8

Mit dem Einsatz von neueren Tools für das aktive Datenmanagement kann die Grenze zwischen der Private Research Domain und der Collaboration Domain verschwimmen. Die Daten liegen in Forschungsumgebungen, die es erlauben, aktiv mit den Daten zu arbeiten. Urs und Lydia würden in SharePoint (zusammen)-arbeiten. Daten, die dem ganzen Institut zur Verfügung gestellt werden, werden in einem ‘öffentlicheren’ Bereich abgelegt.

Folie 9

Die Ziele eines aktiven Datenmanagements orientieren sich v.a. an den Bedürfnissen der Forschenden. Um den Austausch innerhalb des Kreises der Forschenden zu ermöglichen, müssen die Daten so dokumentiert werden, dass sie für alle Mitglieder der Forschungsgruppe verständlich sind.

Folie 10

Bereits in der Phase des aktiven Forschungsdatenmanagements zeigt sich: sollen die Daten verschiedenen Forschenden dienlich sein, müssen diese möglichst strukturiert erfasst und beschrieben sein. Grosse Excel-Tabellen ohne Erläuterungen zu den erfassten Werten, dienen niemandem.
Ebenso wichtig ist, dass Entscheide zum Forschungsprozess dokumentiert sind. Sehr oft sind die Daten nur verständlich, wenn auch die Vorüberlegungen bekannt sind. Forschungsdatenmanagement kann sich also nicht auf den Erhalt der Daten selbst beschränken.

In grossen Projekten ist es ev. lohnend, einen ‘Embedded Data Manager’ zu engagieren, der die Forschenden bei der Dokumentation und Verwaltung der Daten unterstützt.

Folie 11

Die Tabelle soll verdeutlichen, dass Daten und Dokumente, sobald sie von mehreren Personen genutzt werden sollen, eine gewisse Aufbereitung benötigen.

Folie 12

Folie 13

Bisher haben wir herausgestrichen, dass mit dem Einsatz von neuen Forschungsumgebungsinstrumenten die beiden ersten Domänen ev. in einem System abgewickelt werden. Jetzt wollen wir uns dem Übergang von der Collaboration Domain zur Publication Domain zuwenden. Die Daten werden nun einem noch grösseren Kreis zugänglich gemacht. Urs und Lydia stellen ihre Daten weiteren Forschenden zur Verfügung. Auf diese Weise wird es möglich die Arbeit von Urs und Lydia zu überprüfen (sind die Schlussfolgerungen der beiden aufgrund der Daten plausibel?) und zudem können weitere Auswertungen auf der Basis dieser Daten gemacht werden.

Folie 14

Mit der Publication Domain sollen nun die Ziele der 2 rechten Quadranten anvisiert werden. Die Daten selbst sollen einem breiteren Kreis zur Nachnutzung zur Verfügung stehen. Langzeitstudien werden so ermöglicht. Im Idealfall können so erhebliche Kosten für die Datenerhebung eingespart werden.

Ebenfalls verstärkt in den Fokus gelangen nun auch die Qualitätssicherungsziele. Die Daten sollen öffentlich zur Verfügung stehen, so dass Forschungsergebnisse auch überprüft warden können. Der Dokumentation von Forschungsergebnissen durch Bereitstellung der Daten kommt eine zunehmend grössere Bedeutung zu.

Folie 15

Folie 16

In der Curation Boundary werden die Daten für die Publikation aufbereitet.

Folie 17

Es ist zu erkennen, dass sich einige Punkte des Lifecycles in keiner Domain befinden. So sind die Punkte „Appraise & Select“, „Ingest“ und „Preservation“ des DCC Life Cycle.

In dieser Phase, sprich während dieser drei Schritte bzw. mit dem Überschreiten der Grenze (Boundary), wird sichergestellt, dass die Daten auch für andere (Aussenstehende, am Projekt nicht Beteiligte) nachvollzierbar und langfristig zugänglich gemacht werden (mehr Details dazu sind in den Modul 2.2 und 2.3 zu finden). Dieser aufwändige Prozess kann durchaus auch als eigene Domain (Curation Domain) behandelt werden.

Folie 18

Discovery Infrastructure (Daten verzeichnen) vs. Storage Infrastructure (Daten speichern)

Auf den Abbildungen des Data Continuum Models sind bereits Container mit Daten und Metadaten abgebildet.

Folie 19

In jeder Domain befinden sich (theoretisch) eine Discovery Infrastructure sowie eine Storage Infrastructure. Während sich die physischen Daten (z.B. SPSS-File, PFD-Datei, Python-Skript etc.) in einem Container befinden, sind die Metadaten bzw. derjenige Teil der Forschungsdaten, welcher es erlaubt, die Daten zu suchen und finden in einem anderen Container. Es kann sich dabei um ein einziges System handeln, das sowohl über einen Speicher also auch eine Suchfunktion verfügt oder aber um zwei getrennte Systeme (z.B. ein Verzeichnis, das mittels Link auf die Datei verweist, welche auf einem externen Server gespeichert ist).

Folie 20

Achtung: Hierbei handelt es sich um eine vereinfachte Darstellung: Daten und Metadaten sind in der Regel nicht einfach auseinander zu halten bzw. klar in zwei Gruppen zu trennen.

Folie 21

Während der Transfer von der Private Domain in die Shared bzw. Collaboration Domain in der Regel eine einfacher Vorgang ist, ist der Transfer in die Public Domain anspruchsvoller. Die Daten müssen bzw. sollten (!) einen Migrationsprozess durchlaufen, der hier als „Curation Boundary“ dargestellt bzw. weiter oben als Curation Domain beschrieben ist. Die Daten werden hier so aufbereitet, dass sie längerfristig zugänglich und auch verständlich sind (die genauen Vorgänge werden in Modul X vorgestellt).

Folie 22

Ein Beispiel für ein Forschungsdatenportal ist das der noch im Aufbau befindliche Metakatalog openresearchdata.ch.

Folie 23

Die Daten, die in einem Katalog publiziert werden können, reichen normalerweise nicht aus, um die Daten auch nutzbar machen zu können. Es bedarf wesentlich ausführlicherer Beschreibungen. Der Katalog verweist daher oft nur auf die sog. ‘Landing Page’ – eine Website, auf der sich weitere Informationen zu einem Datenset finden. Abgebildet die Erläuterungen zu dem Dataset ‘Sicherheit 2014’ im Repositorium für sozialwissenschaftliche Forschungsdaten ‘FORS’.

Folie 24

In der vorliegenden Darstellung, wird davon ausgegangen, dass sämtliche Daten veröffentlicht werden können. Vielfach ist dies jedoch nicht möglich, z.B. aus Datenschutzrechtlichen Gründen. Diese Daten werden mit einem sogenannten Embargo versehen (embargoed data), welches zeitlich beschränkt sein kann, in der Regel jedoch unbefristet ist. Solche Daten werden in Data Vaults (dt. „Datenverlies“) gespeichert. Es handelt sich hierbei also um kuratierte Daten, welche der allgemeinen Öffentlichkeit nicht zugänglich gemacht werden. Verzeichnet werden diese Daten jedoch im normalen Metadatenkatalog zusammen mit den „gewöhnlichen“, öffentlichen Daten. Es wird also auf die Existenz der Daten hingewiesen, wenn auch diese nicht zugänglich sind.

Folie 25

Forschungsdaten und deren Metadaten können sich daher in einem von vier Quadranten befinden. Dabei kann es sich handeln um:

  • Daten, die für die allgemeine Öffentlichkeit zugänglich sind (public data)
  • Daten, die nicht öffentlich zugänglich sind, sondern nur für einen beschränkten Personenkreis (private data)
  • Metadaten, die für die allgemeine Öffentlichkeit zugänglich sind (public metadata)
  • Metadaten, die nicht öffentlich zugänglich sind, sondern nur für einen beschränkten Personenkreis (private metadata)

Folie 26

In-house vs. externe Speicherung und Verzeichnung

Sind die Daten einmal durch Curation Domain geschleust, stellt sich die Frage, wo die Daten gespeichert und wo diese verzeichnet werden.

Folie 27

Grundsätzlich zu unterscheiden sind hier:

  • Interne Speicher und Kataloge, welche sich in-house, also innerhalb der eigenen Institution, befinden.
  • Externe Speicher und Kataloge, welche sich in der Cloud, also bei anderen Institutionen, Organisationen oder Firmen befinden.

Folie 28

Anders als bei den anderen den Domains ist es in der Public Domain möglich, wenn nicht sogar üblich, Daten und Metadaten an verschiedenen Orten zu speichern. Dabei können die Metadaten (seltener auch die Daten selbst) in mehreren Verzeichnissen vorhanden sein (siehe Metakataloge für Metadaten).

LOOK

Metakataloge für Metadaten

Versuche, die im Web verstreuten Forschungsdaten zusammenzuführen, nehmen zu. Immer mehr wird versucht Metakataloge für Metadaten (oder Repositorien selbst) zu erstellen. Eine solche zusätzliche Einspeisung von Metadaten kann manuell oder maschinell geschehen. Die ist vergleichbar mit den diversen Versuchen Bibliothekskataloge via Metakatalog zugänglich zu machen, z.B. Swissbib in der Schweiz.

Metadatenkataloge verweisen in der Regel auf eine „Landingpage“, also „Ursprungsplattform“ bzw. das Repository bzw. dessen Katalog, von welchem die Metadaten stammen. Diese Landingpages enthalten üblicherweise die meisten Metadaten sowie die Daten selbst bzw. die Information wie ggf. Zugang erhalten werden kann.

Ein Beispiel für einen solchen Metakatalog in der Schweiz ist openresearchdata.ch, welcher versucht alle offenen Forschungsdaten (Open Data), zu verzeichnen.

Beispiele: Use Cases
  • USE CASE 1: Institutional Repository (institutionsgebunden)
    • A: Alle Daten sind öffentlich zugänglich
    • B: Nicht alle Daten öffentlich zugänglich
  • USE CASE 2: Disciplinary Repository/Data Centre (themengebunden)
  • USE CASE 3: Multidisciplinary Repository/Data Centre (themenunabhängig)
USE CASE 1A – Institutional Repository (alle Daten öffentlich zugänglich)

Ausgangslage:

  • Alle Daten dürfen veröffentlicht werden
  • Die HTW hat ein eigenes Repository mit dazugehörigem Datenkatalog

Mögliche Lösung:

  • Die Daten werden im HTW-Repository und die gesamten dazugehörigen Metadaten im Datenkatalog gespeichert
  • Für eine bessere Auffindbarkeit werden die wichtigsten Metadaten zusätzlich in openresearchdata.ch erfasst; verweist auf den Datenkatalog des HTW-Repositorys (Landing Page)
USE CASE 1B – Institutional Repository (nicht alle Daten öffentlich zugänglich)

Ausgangslage:

  • Nicht alle Daten dürfen veröffentlicht werden
  • Die HTW hat ein eigenes Repository mit dazugehörigem Datenkatalog

Mögliche Lösung:

  • Die öffentlichen Daten werden im HTW-Repository und die gesamten dazugehörigen Metadaten im Datenkatalog gespeichert
  • Die nicht zu veröffentlichen Daten werden auf einem separaten, von aussen nicht zugänglichen Server der HTW abgelegt. Die gesamten dazugehörigen Metadaten werden jedoch im öffentlichen Datenkatalog hinterlegt
  • Für eine bessere Auffindbarkeit werden die wichtigsten Metadaten von öffentlichen und nicht öffentlichen Daten zusätzlich in openresearchdata.ch erfasst; verweist auf den Datenkatalog des HTW-Repositorys (Landing Page)
USE CASE 2 – Externes Disciplinary Repository (alle Daten öffentlich zugänglich)

Ausgangslage:

  • Alle Daten dürfen veröffentlicht werden
  • Die HTW hat zwar ein eigenes Repository und besitzt einen Datenkatalog, jedoch existiert ein externes Repository, das spezialisiert ist auf Daten aus dem Bereich Kommunikation

Mögliche Lösung:

  • Die gesamten Daten und Metadaten werden in einem externen, disziplinären Repository mit dazugehörigem Datenkatalog gespeichert
  • Für eine bessere Auffindbarkeit werden die wichtigsten Metadaten zusätzlich in openresearchdata.ch erfasst und auf den Datenkatalog des Disciplinary Repositorys verwiesen (Landing Page)
  • Der Datenkatalog der HTW verzeichnet nur die Metadaten und verweist auf das Disciplinary Repository (Landing Page)
USE CASE 3 – Multidisciplinary Repository (alle Daten öffentlich zugänglich)

Ausgangslage:

  • Alle Daten dürfen veröffentlicht werden
  • Die HTW hat kein eigenes Repository und verzeichnet normalerweise auch sonst noch keine Daten
  • Es existiert kein disziplinäres Repository

Mögliche Lösung:

  • Die gesamten Daten und Metadaten werden in einem externen, multidisziplinären Repository mit dazugehörigem Datenkatalog gespeichert
  • Für eine bessere Auffindbarkeit werden die wichtigsten Metadaten von öffentlichen und nicht öffentlichen Daten zusätzlich in openresearchdata.ch erfasst und auf den Datenkatalog des multidisziplinären Repositorys verwiesen (Landing Page)
Lösung anzeigen
  1. zu Use Case 1B
  2. zu Use Case 3
  3. zu Use Case 2
  4. zu Use Case 1A
Übung 2

Sie haben zwei Beispiele vor sich: Vergleichen Sie diese! Was weist auf gutes, aktives Datenmanagement hin? Wo wurde vermutlich wenig aktives Datenmanagement betrieben? Was erleichtert die Nachnutzung bzw. was für Information fehlt für eine Nachnutzung? Wo sehen Sie Probleme für eine Nachnutzung und weshalb? Wie könnten diese Probleme gelöst werden?

Betrachten Sie hierfür nicht nur die Metadaten, welche im Katalog abgebildet sind, sondern schauen Sie sich auch die Daten selbst näher an, sofern dies möglich ist.

Hinweis: Dokumente im Format .md (markdown) können mit einem Texteditor geöffnet werden. Für eine korrekte Darstellung kann beispielsweise http://dillinger.io/ verwendet werden.

Beispielpaar A:

Beispielpaar B:

Beispielpaar C:

TAKEAWAYS

Takeaways

  • Daten können sich in einer von drei Domains befinden:
    • Private Research Domain
    • Shared Reasearch Domain bzw. Collaboration Domain
    • Public Domain bzw. Publication Domain
  • Es kann grob unterschieden werden zwischen einer Discovery Infrastructure, die Metadaten enthält und somit Daten verzeichnet sowie einer Storage Infrastructure, welche die physischen Daten (z.B. Tabelle, Skripte, etc.) speichert.
  • (Meta-) Daten können sich in vier Quadranten befinden: public data, public metadata, private data, private metadata.
  • Bezüglich Speicherung kann zwischen a) internen Speichern und Katalogen, welche sich in-house, also innerhalb der eigenen Institution, befinden und b) externen Speichern und Katalogen, welche sich in der Cloud, also bei anderen Institutionen, Organisationen oder Firmen befinden, unterschieden werden.
  • Anders als bei den anderen Domains ist es in der Public Domain möglich, wenn nicht sogar üblich, Daten und Metadaten an verschiedenen Orten zu speichern. Dabei können die Metadaten (seltener auch die Daten selbst) in mehreren Verzeichnissen vorhanden sein (siehe Metakataloge für Metadaten).

Quellen

Lewis, John A. (2014): Research Data Management Technical Infrastructure: A Review of Options for Development at the University of Sheffield. figshare. Verfügbar unter : http://dx.doi.org/10.6084/m9.figshare.1202230

Lewis, Stuart (2013, 06. Dezember): The four quadrants of Research Data Curation Systems. [Blog]. Verfügbar unter: http://libraryblogs.is.ed.ac.9999999999uk/blog/2013/12/06/the-four-quadrants-of-research-data-curation-systems/

OpenRepos2012 (2012, 12. Juli): Anthony Beitz, Institutional Infrastructure for Research Data Management, 00:57:56 – 01:31:14. [Video]. Verfügbar unter: https://www.youtube.com/watch?v=JMZZsF92lTk

Bitte zitieren als
STETTLER, Niklaus. Modul-2-1: Die Daten auf dem Lebensweg. In: MASTRANDREA, Elena, PRONGUÉ, Nicolas, SCHNEIDER, René und STETTLER, Niklaus, Kursbuch Forschungsdaten [online]. HTW Chur – HEG Genève, 2017. Verfügbar unter: https://campus.hesge.ch/researchdatamanagement/?page_id=604
Bitte zitieren als
STETTLER, Niklaus. Modul-2-1: Die Daten auf dem Lebensweg. In: MASTRANDREA, Elena, PRONGUÉ, Nicolas, SCHNEIDER, René und STETTLER, Niklaus, Kursbuch Forschungsdaten [online]. HTW Chur – HEG Genève, 2017. Verfügbar unter: https://campus.hesge.ch/researchdatamanagement/?page_id=604