RESEARCH DATA MANAGEMENT

E-LEARNING PLATFORM

Modul 1-1

Grundlagen des Forschungsdatenmanagements

In diesem Modul sollen neben einer Definition, was Daten und Forschungsdatenmanagement sind, zwei grundlegende Modelle vorgestellt werden.

All cartoons courtesyof JørgenStamp,
Digitalbevaring.dk.CC BY 2.5.

35 min

Lernziele

In diesem Modul lernen Sie

  • einige grundlegende Dinge zum Forschungsdatenmanagement zu unterscheiden,
  • die zwei wichtigsten Modelle zum Forschungsdatenmanagement kennen.

SCENARIO

Jonin ist Mitarbeiter des Langzeitarchivs einer schweizerischen Universitätsbibliothek. Die Direktion seiner Bibliothek hat das Thema Forschungsdatenmanagement im Strategieplan 2020 verankert und die Abteilung, in der Jonin arbeitet, damit beauftragt, ein Konzept für die Langzeitarchivierung von Forschungsdaten zu erstellen. Zeitnah soll Jonin dem Rektorat in einem Vortrag die Grundlagen des Forschungsdatenmanagements näher bringen.

Folie 1

Hier finden Sie weiteres Lernmaterial zu den Grundlagen des Forschungsdatenmanagements.

Folie 2

Die hier beschriebene Ausgangssituation mag sich lapidar und selbstverständlich anhören …

Folie 3

… aber sie bringt sehr viele Veränderungen mit sich. Eine davon ist, dass eine ganze Reihe von neuen Berufsfeldern entsteht.

Folie 4

Teilweise entstehen sogar neue Disziplinen oder Teildisziplinen.

Wie wir später sehen werden, orientieren sich praktisch alle Wissenschaften immer mehr in Richtung Daten.

Folie 5

Dabei ist die Publikation von Forschungsdaten nichts Neues. Schon zu Beginn der wissenschaftlichen Publikation, dieser Zeitpunkt lässt sich mit dem Erscheinen der Erstausgabe des «Journal des sçavans» sehr genau festlegen, wurden Daten publiziert …

Folie 6

… hier bspw. die Koordinaten eines an der Erde vorbeiziehenden Kometen.

Allerdings waren dies in der Regel sehr wenige Daten.

Folie 7

Im Zeitalter von Computern sieht das anders aus.

Aber was sind Daten genau?

Wann hat man zum ersten Mal von ihnen gesprochen?

Und wie definiert man sie im Kontext des Forschungsdatenmanagements?

Folie 8

Zunächst soll es um den Begriff der Daten gehen.

Folie 9

Der erste, der von Daten gesprochen hat, war Euklid, in einem Werk, das er treffenderweise Dedomena, Daten nannte.

Euklid sagt darin, was «gegeben» sein muss, um geometrische Probleme zu lösen.

Der Begriff Dedomena wurde im lateinischen dann immer mit «Data» übersetzt.

Folie 10

Heutzutage werden Daten häufig aus einer statistischen Perspektive gesehen; als Werte von qualitativen oder quantitativen Variablen, die sich nicht oder anhand einer entsprechenden Skala sortieren lassen.

Dies ist aber eine Perspektive, die sehr viel mit der neuen Disziplin der Datenwissenschaften zu tun hat.

Folie 11

Im Forschungsdatenmanagement ist der Begriff viel weiter gefasst und umfasst im Prinzip jeden digital vorliegenden Datentyp, der im Zusammenhang mit wissenschaftlicher Forschung entsteht.

Das kann dann natürlich recht viel sein.

Folie 12

Von daher kann die hier vorgelegte Unterscheidung hilfreich sein, um einen ersten Überblick über die hauptsächlich vorliegenden Datentypen zu bekommen.

Folie 13

Forschungsdaten entstehen auch in sehr unterschiedlicher Grössenordnung.

Eines der besten Beispiele für grosse Datenmengen sind die Daten des Hadronenbeschleunigers, die am CERN generiert werden.

Folie 14

Daten unterscheiden sich auch nach Medium, hier bspw handelt es sich um Audio-Files mit Zikadenklängen.

Folie 15

Daten können aber auch Texte sein, die an ganz unterschiedlichen Stellen gelagert sind, im vorliegenden Fall in Hauswänden.

An dieser Stelle ist jedoch einschränkend zu sagen, dass sich das Forschungsdatenmanagement «nur» für digitale Daten interessiert, für alle analogen Daten gibt es ja Institutionen wie Bibliotheken, Archive und Museen, die in den vergangenen Jahrhunderten ihre eigenen Methoden zum Management von Information und Wissen entwickelt haben.

Folie 16

Festzuhalten ist, dass Daten immer mehr in den Fokus der Wissenschaften rücken.

Einige Wissenschaftler gehen sogar soweit, von einem neuen Paradigma der Wissenschaften zu sprechen, den datenintensiven Wissenschaften.

Folie 17

Für das Forschungsdatenmanagement ist dabei von Interesse, dass es für die grossen Datenmengen in einigen Disziplinen schon recht gute Lösungen gibt.

Von Interesse sind aber die Vielzahl eher kleiner Datensätze, die den Long-Tail der Wissenschaften ausmachen und für die Lösungen gesucht werden müssen.

Folie 18

Jede Wissenschaft beginnt mit den Modellen, die sie verwendet.

Von daher wollen wir uns im Folgenden die zwei grundlegenden Modelle des Forschungsdatenmanagement anschauen.

Folie 19

Das erste wichtige Modell verwendet das Bild des Kreislaufs und spricht über die Kuration von Daten.

Folie 20

Dieser Begriff mag auf den ersten Blick verwirrend sein, er ist aber sehr gut durch die nebenstehende Definition erfasst.

Er umfasst alles, was man mit den Daten, die in der Forschung entstehen machen kann oder soll, damit sie wiederverwendbar bleiben.

Folie 21

Der Zyklus an sich ist sehr komplex.

Wir wollen uns hier nur darauf beschränken, dass im Zentrum die Daten und die dazughörigen Metadaten stehen und sich darum herum sehr viele unterschiedliche Aktionen anordnen, davon vier, die fortlaufend durchgeführt werden (Planung der Erhaltung, Community Watch, sowie die bereits angesprochene Kuration von Daten) und die Erhaltung.

Hinzu kommen elf Aktionen, die sequentiell ausgeführt werden.

Alles beginnt mit der Planung (Conceptualise) der Forschung und der Erzeugung oder der Übernahme von Daten. Anschliessend, das ist meistens nach Ende eines Projekts, wird entschieden, ob die Daten archiviert oder vernichtet werden. Dann beginnen die Aktionen, die mit der Langzeitarchivierung zu tun haben: Abschätzung und Auswahl der Daten, Aufnahme ins Archiv, Bearbeitung zum Langzeiterhalt und das Abspeichern. Häufig müssen dann Daten noch einmal re-evaluiert oder migriert werden.

Gegen Ende des Zyklus werden diese Daten dann wieder gesucht und neu verwendet und in der Regel den Bedingungen des neuen Zyklus angepasst.

Folie 22

Die Erscheinungsform, die Daten annehmen können und die Umstände ihrer Entstehung und Verwendung sind äusserst heterogen.

In einer groben Verallgemeinerung kann man die Unterscheidung zwischen gut strukturierten und heterogenen Daten treffen.

https://rd-alliance.org/sites/default/files/attachment/RDA-Europe-Science-Workshop-Report_final_April2014.pdf

Folie 23

Dabei handelt es sich aber jeweils um Extrempunkte. Die Wahrheit liegt oft dazwischen.

Folie 24

Von daher spricht man häufig von einem Kontinuum der Daten.

In seiner einfachsten Form ist dies ein Kontinuum, dass von Daten mit einfachen Metadaten zu Daten mit angereicherten und komplexen Metadaten reicht.

Die Daten und die Metadaten verändern sich also fortlaufend in ihrer Beschaffenheit und Zusammensetzung.

Von daher ist der Begriff des Kontinuums nebem dem Begriff der Kuration äusserst wichtig für das Forschungsdatenmanagement und die Grundlage für das zweite Modell des Forschungsdatenmanagements.

Folie 25

Kontinua sind jedoch nur schlecht bzw. praktisch gar nicht zu verwalten, von daher ist es besser sie zu unterteilen.

Im Forschungsdatenmanagement tut man dies mithilfe von Domänen, bspw. der privaten Domäne des Forschers, einer kollaborativen Domäne für mehrere Forscher, der persistenten Domäne des Archivs sowie einer allgemein zugänglichen Domäne.

Während des Übergangs von einer Domäne zur anderen wächst in der Regel die Menge der Metadaten an.

Folie 26

All diese Gesichtspunkte werden im Datenkontinuummodell zusammengefasst.

Folie 27

Es unterscheidet in der vorliegenden Form zwischen drei Domänen zwischen denen ein linearer Austausch stattfindet und zwar entlang sog. Curation Boundaries.

Folie 28

Diese Grenze zwischen den Domänen ist von grosser Bedeutung.

Folie 29

Es handelt sich dabei um «virtuelle Entscheidungspunkte, an denen die Forscher entscheiden, was sie mit wem, mit welchen Metadaten und unter welchen Bedingungen teilen» (https://figshare.com/articles/figshare_and_Monash_University_combining_cloud_management_and_discoverability_with_institutional_storage/1224755)

Von daher wird auch verständlich, dass der Hauptunterschied zwischen der Collaboration und der Public Domain in der Anreicherung mit Persistenten Identifikatoren und beschreibenden und technischen Metadaten besteht.

Folie 30

Das Data Continuum Modell ist hier noch einmal in einer etwas anderen Form dargestellt.

Letztlich geht es immer um den Zugriff auf die Daten und die Frage, wer wann auf die Daten Zugriff hat und unter welcher zeitlichen Perspektive sie vorliegen (als flüchtige, intermediäre oder dauerhafte Daten).

Sehr wichtig ist in diesem Zusammenhang auch der Begriff der Identität von Forschern und Daten. Von daher spielt der Begriff der Trusted Identity und die Vergabe von Identifikatoren eine sehr wichtige Rolle.

Folie 31

So viel an dieser Stelle zu den Grundbegriffen des Forschungsdatenmanagements.

LOOK

Data Continuum Modell

Um das Data Continuum Modell in seiner Tiefe zu verstehen, empfiehlt sich die Lektüre des nachstehenden Artikels:

Treloar, Andrew, David Groenewegen, and Cathrine Harboe-Ree. „The data curation continuum: Managing data objects in institutional repositories.“ D-Lib magazine 13.9 (2007): 4.

http://www.dlib.org/dlib/september07/treloar/09treloar.html

TAKEAWAYS

Takeaways

Alles, was mit dem Forschungsdatenmanagement zu tun hat, lässt sich letztlich auf zwei Modelle zurückführen: den Datenlebenszyklus und das Datenkontinuummodell. Das heisst nicht, dass alles, was in diesen beiden Modellen dargestellt ist, auch konkret gegeben sein muss. Es reicht völlig, Teile dieses Modells zu erfüllen, um Forschungsdatenmanagement zu betreiben.

Bitte zitieren als
SCHNEIDER, René. Modul 1-1: Grundlagen des Forschungsdatenmanagements. In: MASTRANDREA, Elena, PRONGUÉ, Nicolas, SCHNEIDER, René und STETTLER, Niklaus, Kursbuch Forschungsdaten [online]. HTW Chur – HEG Genève, 2017. Verfügbar unter: https://campus.hesge.ch/researchdatamanagement/?page_id=843