RESEARCH DATA MANAGEMENT

E-LEARNING PLATFORM

Modul 2-3

Langzeitarchivieren

Sollen Daten über einen längeren Zeitraum aufbewahrt werden (z.B. mehr als 10 Jahre) besteht die Gefahr, dass wir sie nicht mehr öffnen und nicht mehr verstehen können. Um dies zu verhindern, müssen die Daten kuratiert werden. Was das im Einzelnen heisst, stellen wir im Folgenden dar.

All cartoons courtesyof JørgenStamp,
Digitalbevaring.dk.CC BY 2.5.

  35 min

Lernziele

  • Die TeilnehmerInnen sind sich bewusst, dass spezielle Vorkehrungen getroffen werden müssen, wenn die Daten für längere Zeit verfügbar sein sollen.
  • Sie wissen, dass Daten in einem Format archiviert werden müssen, das lange haltbar ist.
  • Sie sind sich bewusst, dass Daten im Laufe der Zeit verändert werden müssen und dass daher spezielle Vorkehrungen zu treffen sind, um Authentizität und Integrität zu erhalten.
  • Sie sind sich bewusst, dass den Daten viele Informationen mitgegeben werden müssen, damit sie auch in Zukunft noch verständlich sind.

SCENARIO

Andreas hat im Rahmen eines Forschungsprojekts viele Daten zur Mediennutzung in der Schweiz erhoben. Er geht davon aus, dass diese Daten für Langzeitstudien in einigen Jahren wieder nützlich sein werden. Daher möchte er sie langzeitarchivieren.

Andreas informiert sich, welche Vorkehrungen er machen muss, dass die Daten auch in Zukunft noch genutzt werden können und erfährt dabei auch, was die Bibliothek unternimmt, um die Authentizität seiner Daten zu gewährleisten.

Folie 1

Hier finden Sie weiteres Lernmaterial zu Curation Domain – Vorbereitung für die Langzeitarchivierung

Folie 2

Im Modul 2-2 haben Sie gesehen, dass die Daten zwischen der Collaboration Domain und der Public Domain aufbereitet werden. Das geschieht in der sogenannten Curation Domain. Wie viel Aufwand in dieser Domain getrieben wird, ist davon abhängig, in welcher Form die Daten den künftigen Nutzern zur Verfügung gestellt werden soll und wie lange die Daten nutzbar gehalten werden sollen. In diesem Modul konzentrieren wir uns auf eine Maximallösung: die Daten sollen möglichst lange nutzbar gehalten werden.

Folie 3

Wenn wir zurückblicken, hiesse Langzeit z.B. vor der Erfindung des Betriebssystems MS-Dos (1981), vor der Verbreitung des WWW (1991). Wir sprechen also von einem Zeitraum von vielleicht 25 Jahren. Organisatorisch bedeutet Langzeit aber auch einfach, dass man niemanden mehr fragen kann. Das könnte schon wesentlich früher der Fall sein.

Folie 4

Folie 5

Das OAIS Referenzmodell wurde im Nachgang von massiven Datenverlusten der Weltraumbehörden entwickelt. Es hilft, die komplexen Prozesse der Langzeitarchivierung so zu strukturieren, dass sie beherrschbar werden. Es ist aber kein technisches System sondern rein funktional zu verstehen. Die Architektur von OAIS Archiven kann somit unterschiedlich ausgestaltet werden.

In diesem Modul wird das OAIS Referenzmodell nicht im Detail eingeführt. Die Ausführungen konzentrieren sich auf einige Aspekte, die für das Forschungsdatenmanagement von besonderer Bedeutung sind. Einige Folien zur Beschreibung des OAIS Funktionsmodells finden sich in den Materialien.

Folie 6

Wenn wir ein Objekt erhalten wolle, interessieren wir uns letztlich für das konzeptuelle Objekt: wir wollen ein Foto nicht nur sehen, sondern auch verstehen: wer ist auf dem Foto abgebildet, was waren die Umstände der Aufnahme, welche Bedeutung hatte das Bild für den Fotografen, welche für die aufgenommene Person?

Das konzeptuelle Objekt kann verschiedene logische Ausprägungen haben. Das Bild kann also in verschiedenen Dateiformaten gespeichert werden (z.B. JPEG oder TIFF).

Das logische Objekt wiederum kann verschiedene physische Ausprägungen haben. Es kann auf einem Magnetband, auf einer CD einem Flashspeicher oder einem anderen Speichermedium aufbewahrt werden.

Folie 7

Folie 8

Die Objekte im Archiv sind also nicht mehr ‘das Original’. Sie müssen aber so überliefert werden, dass die künftigen Nutzerinnen sich auf die Objekte verlassen können als ob es das Original wäre. Es ist daher notwendig, dass jeder Schritt der Veränderung des Objekts so durchgeführt wird, dass der ‘originale Charakter’ des Objekts erhalten bleibt.

Folie 9

Nicht für alle Nutzer sind dieselben Eigenschaften eines Objekts wichtig. In vielen Fällen mag es genügen, dass ein Text noch entziffert werden kann. Es mag aber auch Anwendungsfälle geben, in denen die graphische Gestaltung eines Textes von besonderer Bedeutung ist. Da im Laufe der Zeit mit Informationsverlust zu rechnen ist, ist es wichtig, dass bereits zu Beginn des Archivierungsprozesses festgelegt wird für wen man archiviert und welche Eigenschaften eines Objekts besonders erhaltenswert sind.

Es ist eine der wichtigen Errungenschaften des OAIS Referenzmodells, dass es diese Ausrichtung auf die künftigen NutzerInnen betont und einfordert, dass die für diese NutzerInnen wichtigen, signifikanten Eigenschaften eines Objekts bestimmt werden.

Folie 10

Ein absolut zentraler Schritt in der digitalen Langzeitarchivierung ist der sogenannte Ingest-Prozess. In diesem Prozess werden die Daten für die Langzeitarchivierung aufbereitet, so dass sie in das Archiv (das Repository) aufgenommen werden und dort für lange Zeit lagern können. Im Ingest-Prozess werden die auf der Folie aufgezählten Aktionen durchgeführt.

Folie 11

Folie 14

Folie 17

Folie 19

Im Ingest werden viele Objekte zu einem Paket zusammengeschnürt:

  • Mehrere zusammengehörige Content-Objekte (z.B. einige Tabellen)
  • Metadaten – insbesondere zum Archivierungsprozess (Preservation Description Information).

Mehr zu den Informationspaketen: Modul-3-2

Folie 20

LOOK

Kataloge archivtauglicher Formate

Validierung der Formate

Zur Validierung der Formate stehen verschiedene Dienste zur Verfügung, z.B.

OAIS Referenzmodell

Übung
  • Erstellen Sie aus den Daten des KommTech-Projekts ein Informationspaket
    (Sie können nur simulieren)

    • Definieren Sie, welche Daten in das Paket gehören
    • Falls nötig erstellen Sie zusätzliche Dokumente
    • Speichern Sie die Daten in einem archivtauglichen Format (z.B.: Word in PDF/A; Excel in CSV)
    • Analysieren Sie: Welche Informationen sind mit dem Ingest verloren gegangen? Achten Sie dabei insbesondere im Excel-Sheet auf die gelb markierten Spalten)
    • Überlegen Sie sich: Sind die Objekte noch brauchbar?
    • Welche Massnahmen sind zu ergreifen, um die Daten brauchbarer zu machen?

TAKEAWAYS

Takeaways

Langzeitarchivierung von Daten erfordert verschiedene Massnahmen, die zusammen garantieren, dass die Daten auch in Zukunft noch lesbar und nutzbar sind.

Insbesondere gilt es zu beachten:

  • Die Daten müssen in einem Format vorliegen, das das Archiv, dem Sie die Daten, anvertrauen als archivtauglich akzeptiert.
  • Die Migration von Daten in ein archivtaugliches Format kann mit Informationsverlusten einhergehen. Treffen Sie Massnahmen, um diesen Verlust klein zu halten (z.B. indem Sie dokumentieren, was verloren ging).
  • Daten sind oft nicht selbsterklärend. Geben Sie den Daten die Information mit auf den Weg, die ein künftiger Nutzer braucht, um mit diesen arbeiten zu können.
  • Daten und Metadaten sollten in einem Informationspaket zusammengefasst werden. Daten und Metadaten zusammen erlauben eine spätere Nutzung.
Bitte zitieren als
STETTLER, Niklaus. Modul-2-3: Langzeitarchivieren. In: MASTRANDREA, Elena, PRONGUÉ, Nicolas, SCHNEIDER, René und STETTLER, Niklaus, Kursbuch Forschungsdaten [online]. HTW Chur – HEG Genève, 2017. Verfügbar unter: https://campus.hesge.ch/researchdatamanagement/?page_id=506