RESEARCH DATA MANAGEMENT

E-LEARNING PLATFORM

Modul 3-2

Daten Nutzen – welche Daten wie für die Nachnutzung aufbereiten?

Wie in Modul 2-4 gezeigt, bedeutet Langzeitarchivierung Archivierung für eine Zukunft, in der niemand mehr zur Bedeutung der Daten befragt werden kann. Die Daten müssen für die künftigen NutzerInnen selbsterklärend sein. Dazu müssen diese gut aufbereitet und mit Zusatzinformation versehen werden. In diesem Modul zeigen wir auf, welcher Art die zusätzliche Information sein muss und wie diese den Daten mit auf den Weg gegeben wird. Sie lernen aber auch, dass diese Aufbereitung mit Aufwand verbunden ist und nicht für alle Daten geleistet werden kann. Daher drängt sich eine frühzeitige Bewertung der Daten auf. Wir diskutieren mögliche Kriterien für diese Bewertung.

All cartoons courtesyof JørgenStamp,
Digitalbevaring.dk.CC BY 2.5.

  35 min

Lernziele

  • Die TeilnehmerInnen sind sich bewusst, dass die Daten in Zukunft nur nutzbar sein werden, wenn ihnen genügend Zusatzinformation mitgegeben wird.
  • Sie wissen, welcher Art diese Zusatzinformation sein muss.
  • Sie wissen, dass all diese Information zusammen mit den ursprünglichen Nutzdaten zu einem Informationspaket geschnürt wird.
  • Sie wissen, dass die Aufbereitung der Daten für die Zukunft aufwändig ist und daher nur für wertvolle Datensätze vorgenommen werden kann.
  • Sie haben Kriterien, um zu bestimmen, ob die Daten für die Langzeitarchivierung aufbereitet werden sollen oder nicht.

SCENARIO

Manuela – Forschende an der Hochschule – bietet der Forschungsdatenverantwortlichen der Hochschulbibliothek Barbara ihre Daten zur Aufbewahrung und Publikation an. Barbara erklärt Manuela, dass die Daten, wenn sie auch in x Jahren noch nutzbar sein sollen, gut beschrieben sein müssen. Andernfalls gelingt es künftigen Forschenden zwar vielleicht, die Daten zu öffnen doch werden sie diese kaum weiterverwenden können.
Zusammen überlegen sich Barbara und Manuele welche Zusatzinformation den Daten mitgegeben werden muss und wie diese möglichst einfach mitgegeben werden können. Schnell erkennen sie, dass diese Aufbereitung der Daten mit erheblichem Aufwand verbunden ist. Daher überlegen sie sich gemeinsam, für welche Daten sich dieser Aufwand lohnt und welche Daten nur 10 Jahre aufbewahrt werden sollen, wie das von der Zeitschrift, in der die Resultate der Forschung von Manuela publiziert werden sollen, gefordert wird.

Folie 1

Hier finden Sie weiteres Lernmaterial zu welche Daten wie für die Nachnutzung aufbereiten.

Folie 2

Erinnern Sie sich an die Überlegungen zu den Zielen des Forschungsdatenmanagements. Wichtig ist, dass wir uns bewusst sind, dass je nach Verwendungszweck unterschiedliche Daten in unterschiedlicher Aufbereitungsart vorgehalten warden müssen. In diesem Modul schauen wir uns an, welche Anforderungen an die Aufbereitung der Daten gestellt warden müssen, wenn die Daten möglichst lang für die Nachnutzung bereitgehalten werden sollen. Datenmanagement für die andern 3 Quadranten in der Graphik ist deutlich weniger aufwändig.

Folie 3

Im Modul 2-4 haben wir gesehen, dass die Langzeitarchivierung einen starken Fokus auf die künftigen Nutzer und deren Informationsbedarf haben muss, da die Objekte im Laufe der Zeit verändert werden. Wir greifen diesen Gedanken nochmals auf und untersuchen jetzt, wie die Objekte für die designierte Nutzung in der Zukunft aufbereitet werden müssen.

Während wir in Modul 2-4 der Frage nachgegangen sind, in welchem Format die Objekte zu archivieren sind, fragen wir jetzt, welche Information den Objekten mitzugeben ist, damit diese auch in Zukunft verständlich und somit nutzbar sind.

Folie 4

Wir schauen uns also nun genauer an, wie die Informationspakete, die wir auch schon kennen gelernt haben, auszusehen haben. Sie erinnern sich, dass die Content-Information im OAIS Referenzmodell mehrere Objekte des Contents, also mehrere Datensets, umfassen kann. Ebenso erinnern Sie sich, dass all die Aktionen, die wir im Laufe des Ingest-Prozesses mit den Objekten vollzogen haben, in Form von Metadaten in die Preservation Description Information eingeschrieben werden. Content Information und PDI haben wir sodann mit der Package Information zu einem Informationspaket zusammengeschnürt und dieses schliesslich mit deskriptiven Metadaten beschrieben.

Wir betrachten jetzt den Inhalt der Content Information genauer.

Folie 5

Mit den in Modul 2-4 vorgestellten Massnahmen kann garantiert werden, dass die Daten auch in 50 Jahren noch gefunden und gelesen werden können. Das ist schon sehr viel. Wir haben somit das logische Objekt erhalten.

Der direkten Nachnutzung stehen die Daten damit jedoch noch nicht offen, denn noch kann das konzeptuelle Objekt bedroht sein.

Folie 6

Die Zahlen in dem hier abgebildeten Ausschnitt aus dem Ihnen schon bekannten Datensatz von KommTech sind so nicht verständlich. Zumindest müssten wir die Bedeutung der Zeilen und Spalten kennen. Mit dieser Zusatzinformation wäre die Tabelle schon lesbar. Doch zu verstehen sind die Daten erst, wenn auch klar ist, in welchem Kontext die Daten wie erhoben worden sind.
Wie viel Information den Daten mitgegeben werden muss, ist nicht zuletzt davon abhängig, wer die Daten künftig nutzen können soll. Je nachdem wer die designierte Nutzerschaft ist, müssen die Erläuterungen (z.B. zur Methode) umfangreicher oder weniger umfangreich sein. In KommTech wurde u.a. erhoben, wie viele TV-Geräte einer Person zur Verfügung stehen. Würden wir davon ausgehen, dass der künftige Nutzer nicht mehr weiss, was ein TV-Gerät ist,  müsste auch diese Information den Daten mit auf den Weg in die Zukunft gegeben werden.

Folie 7

Folie 8

Folie 9

Befinden sich die notwendigen Erläuterungen auf einer Landing Page, stehen sie nur so lange zur Verfügung, wie das entsprechende Informationssystem in Betrieb ist. Wird dieses abgelöst, droht der Verlust der Zusatzinformation. Damit aber würden die Daten unbrauchbar, auch wenn sie selbst noch vorhanden wären. Um dieser Gefahr zu begegnen schlägt das OAIS Referenzmodell vor, die Informationspakete als autonome Einheiten zu konzipieren. Die Daten und Erläuterungen sind demnach nicht auf verschiedene Systeme verteilt, sondern in einem Paket zusammengefasst. Dieses Paket kann so transportiert werden und auch in einer neuen Umgebung wieder geöffnet werden.
Für das Datenmanagement bedeutet dies: sobald die Daten länger als die zu erwartende Lebensdauer eines Informationssystems dauert, zur Verfügung gestellt werden sollen, müsste alle notwendige Information – also auch das, was auf der Landing Page zu finden ist – in das Informationspaket integriert werden.

Folie 10

Im Ingest werden viele Objekte zu einem Paket zusammengeschnürt:

  • Mehrere zusammengehörige Content-Objekte (z.B. einige Tabellen)
  • Metadaten – insbesondere zum Archivierungsprozess (Preservation Description Information)
  • Allenfalls notwenige Erläuterungen zu den Content-Objekten (Erklärungen, wie die Tabellen zu Stande kamen und was die darin enthaltenen Zahlen bedeuten; Erläuterungen zur Software, mit der die Objekte dargestellt werden können) (OAIS nennt das representation information. In der obigen Graphik ist das ein Teil der ‘content information’)
  • Package Information: Metadaten, die beschreiben, wie die verschiedenen Objekte des Paketes zusammengehören
  • Meist werden auch deskriptive Metadaten (Daten, die sich auch im Katalog befinden) in das Objekt eingebunden

Folie 11

Das SIP ist das Paket, das der Produzent abliefern sollte. Es enthält die Content-Daten sowie Erläuterungen und Metadaten, die der Produzent generiert. Je nach Umgebung sind SIP unterschiedlich definiert.

Das AIP ist das Paket, das im Repository lagert. Es ist das vollständigste Paket. Es enthält neben dem Content und den Erläuterungen alle Metadaten, die für eine spätere Nutzung notwendig sind, also auch die vollständige Dokumentation der Aktionen, die mit dem Objekt im Laufe des Archivierungsprozesses vollzogen worden sind.

Das DIP ist das Paket, das an den Nutzer ausgeliefert wird. Es enthält ev. weniger Metadaten und ist allenfalls für die Nutzung aufbereitet. Als besonders einfaches Beispiel: Während Fotos im AIP als TIFF vorliegen, werden sie ev. als komprimiertes JPEG ausgeliefert, da sie so besser dargestellt werden können.

Folie 12

Folie 13

Hier haben Sie noch einmal eine Einordnung der drei Instrumente des konstitutiven Rahmens.

Noch einmal sei daran erinnert, dass im Idealfall sämtliche drei Dokumente – um die handelt es sich ja letztlich – gegeben sein sollten, in der Regel für den Forscher jedoch der Data Management Plan der eigentliche Angriffspunkt des Forschungsdatenmanagement ist.

Folie 14

Folie 15

Folie 16

LOOK

Guidelines

‚Five steps to decide what data to keep: a checklist for appraising research data v.1‘. Edinburgh: Digital Curation Centre. http://www.dcc.ac.uk/resources/how-guides/five-steps-decide-what-data-keep

‚How to Appraise and Select Research Data for Curation‘. DCC How-to Guides. Edinburgh: Digital Curation Centre. http://www.dcc.ac.uk/resources/how-guides/appraise-select-data

‚Data appraisal at the UK Data Archive‘. http://data-archive.ac.uk/media/3453/RDE_MRDOctober_Triage.pdf

Übung Teil 1

Überlegen Sie sich Kriterien, die Ihnen als Hilfsmittel für die Bewertung dienen können.

  1. Welche Daten wollen Sie einer Langzeitarchivierung zuführen?
  2. Welche Daten würden Sie in Ihr Repository aufnehmen und für die Nachnutzung aufbereiten?
  3. Welche Daten würden Sie nur in Form einer bit stream preservation aufbewahren?
  4. Welche Daten würden Sie gar nicht aufnehmen?

Halten Sie Ihre Kriterien fest.

Übung Teil 2

Sie erhalten das Angebot von 2 Datenbeständen.
Wenden Sie die Bewertungskriterien, die Sie im 1. Teil der Übung entwickelt haben, nun an.
Entscheiden Sie sich, welche Unterlagen und Daten Sie wie lange aufbewahren wollen.

Datenbestand 1:

Daten eines Dissertanten. Thema der Arbeit: Der Frauenalltag in den 1950er Jahren.
Angeboten werden Ihnen:

  • Die Disseration
  • Sammlung von Zeitungsartikeln
  • Interviewleitfaden
  • Interviews, Audio-files
  • Transkriptionen der Interviews
  • Quantitative Auswertung der Interviews (Excel-Tabelle)
  • Eine Datenbank mit Lektüre-Notizen
  • Auszüge / Auswertungen aus div. offiziellen Statistiken

Datenbestand 2:

Daten einer Pilotstudie zum Bildungsstand von Erwachsenen in der Schweiz.
Angeboten werden Ihnen:

  • Draft: Ziel der Untersuchung
  • Erhebungsbogen
  • Codierungsregeln
  • Aufbereitung der Daten
  • Graphiken zu den Auswertung
  • Publikationen
  • Design für die künftigen Erhebungen

TAKEAWAYS

Takeaways

Um die Nachnutzung von Daten zu ermöglichen, müssen diese gut aufbereitet und umfassend beschrieben werden. Geschieht dies nicht, besteht die Gefahr, dass die Daten in Zukunft wohl noch vorhanden, doch nicht mehr verstanden werden können. Diese Beschreibung der Daten ist so aufwändig, dass sie nicht für alle Daten geleistet werden kann.

Generell kann festgehalten werden, dass Daten aufwändiger aufbereitet werden müssen, je länger die Daten zur Verfügung gestellt werden sollen und je breiter die designierte Nutzerschaft ist.

Jedes Datenrepositorium muss sich daher Kriterien erarbeiten, in denen definiert ist, welche Daten mit welchem Aufwand aufbereitet werden sollen.

Bitte zitieren als
STETTLER, Niklaus. Modul-2-2: Daten Nutzen – welche Daten wie für die Nachnutzung aufbereiten? In: MASTRANDREA, Elena, PRONGUÉ, Nicolas, SCHNEIDER, René und STETTLER, Niklaus, Kursbuch Forschungsdaten [online]. HTW Chur – HEG Genève, 2017. Verfügbar unter: https://campus.hesge.ch/researchdatamanagement/?page_id=594