RESEARCH DATA MANAGEMENT

E-LEARNING PLATFORM

Modul 5

Data & Humanities

In diesem Modul geht es darum, die verschiedenen Sichtweisen auf die Problematik der Daten in den Geisteswissenschaften kennenzulernen.

All cartoons courtesyof JørgenStamp,
Digitalbevaring.dk.CC BY 2.5.

  35 min

Lernziele

In diesem Modul lernen Sie

  • was ein geisteswissenschaftlicher Forschungsprozess ist,
  • welche Sichtweisen es auf Daten in den Geisteswissenschaften gibt,
  • welche Anforderungen an ein Zentrum für geisteswissenschaftliche Forschungsdaten zu stellen sind.

SCENARIO

Silvia ist Leiterin der Abteilung „Innovation und Neue Dienstleistungen“ einer Universitätsbibliothek in der Deutschschweiz. Sie ist dabei, verschiedene geisteswissenschaftliche Langzeitprojekte, insb. digitale Editionen, neu aufzugleisen. Dies bedeutet automatisch, dass sämtliche Projekte auf ihre Kompatibilität mit den Aspekten des Forschungsdatenmanagements hin überprüft werden. Ganz zu Beginn möchte sie sich zunächst einen Überblick über das „Wesen“ der Daten im besonderen Kontext der Geisteswissenschaften und die daraus resultierenden Anforderungen verschaffen.

Folie 1

In diesem Modul wollen wir uns dem Begriff der Forschungsdaten in den Geisteswissenschaften widmen.

Folie 2

Dieses Modul ist in drei Teile untergliedert.

Folie 3

In einem ersten Schritt widmen wir uns der Frage, inwiefern sich die Geisteswissenschaften wissenschaftstheoretisch von den Naturwissenschaften unterscheiden.

Folie 4

Zur genaueren Unterscheidung beginnen wir mit einer Abgrenzung der Geisteswissenschaften von den exakten Wissenschaften.

Die Geisteswissenschaften interessieren sich traditionell weniger für Gesetze oder den Begriff der Evidenz, sondern lassen eine Vielzahl gleichrangiger Aussagen zu.

Dadurch ist ihr Erkenntnisinteresse weiter und weniger reduktionistisch als das der Naturwissenschaften, die vermehrt auf Gewissheit ausgerichtet sind.

Folie 5

Der Philosoph Karl Raimund Popper hat den Ablauf der wissenschaftlichen Vorgehensweise recht genau beschrieben. Allerdings lässt er sich nur auf die Methodik der Naturwissenschaften übertragen. Da die Geisteswissenschaften – wie bereits gesagt – nicht auf Gesetze und allumfassende Theorien ausgerichtet sind, hat das von Popper Gesagte für sie letztlich keine Gültigkeit.

Folie 6

Ähnliches gilt für Thomas Kuhns Begriff der normalen Wissenschaft und des Paradigmenwechsels, der nahezu sämtliche Vertreter einer Wissenschaft dazu bringt, sich einer Sichtweise anzuschliessen und konkurrierende Sichtweisen auszuschliessen.

Der Begriff der normalen Wissenschaft ist für die Geisteswissenschaften nicht problematisch, auch sie finden immer ausreichende Anhänger und bearbeiten eine Vielzahl ungelöster Probleme, die Ergebnisse führen in der Regel aber nicht zu Paradigmenwechseln.

Folie 7

Das genaue Wesen der Geisteswissenschaften lässt sich zunächst approximativ durch das Sammeln von sie beschreibenden Aussagen erreichen.

1.Sie sind nicht exakt, sondern in ihrer Struktur eher narrativ und in ihrer Methodik qualitativ interpretierend. Einfach gesagt: «Sie erzählen Geschichten und produzieren keine Formeln.»

2.Dies hängt damit zusammen, dass ihr Input in der Regel Texte oder Textfragmente sind. (Diese könnten ein erster Kandidat für die Forschungsdaten sein.)

3.Die zu interpretierenden Texte lassen eine Vielzahl von (teilweise sich widersprechender) Aussagen zu, dies umso mehr als es sich häufig um Kunstwerke handelt. Umberto Eco prägte dazu den Begriff des offenen Kunstwerks.

4.Die Auswahl der Methoden und die Methoden selbst sind eher heuristisch, d.h. es besteht keine unmittelbare Notwendigkeit so vorzugehen oder ein Artefakt so oder nicht anders zu betrachten.

Folie 8

Diese besondere Vorgehensweise hat viel damit zu tun, dass die Geisteswissenschaften versuchen, die Komplexität der Welt zu beschreiben und nicht versuchen, diese auf einige sichere Gewissheiten zu reduzieren, wie die Naturwissenschaften dies tun.

Folie 9

Die Prinzipen der Emergenz und der Relationen sind von daher für die Geisteswissenschaften viel wichtiger als Gewissheit und Eindeutigkeit.

Leseprobe: http://www.suhrkamp.de/download/Blickinsbuch/9783518260012.pdf

Folie 10

Interessanterweise gilt vieles von dem, was man über Quantencomputer sagt, auch für Geisteswissenschaften, selbst wenn dies auf den ersten Blick merkwürdig anmutet.

Hier zunächst eine einfache und gut verständliche Definition von Quantencomputern: „Der Computer der Zukunft rechnet nicht mehr mit klassischen Bits und Bytes, sondern mit Quantenbits. Die quantenmechanischen Informationseinheiten können nicht nur binäre „Nullen“ und „Einsen“ annehmen, sondern auch unendlich viele Zwischenzustände – und das simultan. Hinzu kommt, dass wenn man Quantenbits miteinander verschränkt, sich eine an einem Qubit vorgenommene Rechenoperation sofort auf die anderen Informationsträger auswirkt.“ (Zitat aus: Manfred Lindinger: Hier hilft die Quantenwelt beim Rechnen, FAZ vom 26.08.2016. www.faz.net/aktuell/wissen/physik-mehr/der-frei-programmierbare-quantencomputer-rechnet-mit-fuenf-ionen-14389807.html

In den Geisteswissenschaften gibt es keine eine Wahrheit sondern eine Vielzahl von – teilweise sich ergänzender, teilweise mit einander konkurrierender – Wahrheiten – die in ihrer gesamten Verschränkung, einen Beitrag zur Wahrheitsfindung leisten.

Folie 11

Die Besonderheiten der Geisteswissenschaften führen auch zu der Frage, inwieweit sich die im geisteswissenschaftlichen Forschungsprozess generierten Daten von den Daten der anderen Wissenschaften unterscheiden.

Folie 12

Ganz grundsätzlich und analog zu dem, was im ersten Teil festegestellt wurde, kann man sagen, dass die Daten der Geisteswissenschaften eher qualitativ und weniger quantitativ sind.

In der Regel handelt es sich ja um Texte oder Textfragmente, also lineare Kontinua und weniger um exakt abtrennbare, d.h. diskrete und isolierbare Daten.

Zudem werden kaum Methoden der deskriptiven Statistik verwendet, die Forscher beschreiben eher (von daher der Begriff präskriptiv), wie ein Text oder eine Textstelle zu verstehen sind.

Folie 13

Betrachtet man die geläufige Unterscheidung von Forschungsdaten, wird man feststellen, dass in den Geisteswissenschaften Daten vor allen Dingen dann entstehen, wenn referenziert oder digitalisiert wird. In letzterem Fall spricht man dann häufig von Digital Humanities, wenngleich die Digital Humanities natürlich viel mehr ausmachen. Man kann aber sagen, dass die Digitalisate den Grundstock der Digital Humanities ausmachen.

Folie 14

Sehr deutlich wird dieser Zusammenhang anhand der auf dieser Folie gezeigten Gegenüberstellung.

Der Forschungsprozess beginnt mit der Recherche, hier werden Daten konsumiert (egal ob digital oder analog, d.h. auf Papier oder anderen physischen Artefakten).

Anschliessend wertet der Forscher diese Daten aus, macht Notizen, Anmerkungen, Verweise usw. und giesst die Ergebnisse dann in ein neues Produkt, in der Regel einen Text, der neben seiner eigenen Sichtweise eine Vielzahl von Referenzen enthält. Die so entstandenen Daten werden dann zu einem integralen Bestandteil des neuen Produkts, der wissenschaftlichen Publikation.

Folie 15

Dem Wesen der Geisteswissenschaften entsprechend wird die Sichtweise der vorherigen Folie aber nicht von allen Beteiligten so gesehen oder verlangt – anders ausgedrückt – nach einer Differenzierung.

Das Bild auf dieser Folie zeigt jedoch noch einmal, was das Wesen der Geisteswissenschaften ist.  Im Zentrum stehen Texte oder andere kulturelle Artefakte und unterschiedliche Sichtweisen, die darauf eingenommen werden.

Auf den folgenden Folien sollen die unterschiedlichen Standpunkte, was die Forschungsdaten in den Geisteswissenschaften betrifft, noch einmal genauer dargestellt werden. (Dies geschieht in der Form eines imaginären Dialogs.

Folie 16

Die radikalste Sichtweise ist die, dass ungeachtet des bisher Gesagten, Daten im strengeren Sinn in den Geisteswissenschaften eigentlich nicht existieren. Und selbst wenn, dann haben die Geisteswissenschaften immer noch Mühe damit umzugehen oder sie in ihren Forschungsprozess sauber zu integrieren.

Folie 17

Eine andere Sichtweise geht davon aus, dass Daten zwar existieren, aber eher in den sog. Bindestrich-Disziplinen, wie etwa der Psycho-Linguistik oder der Sozio-Linguistik.
Es handelt sich dabei dann hauptsächlich um quantitative Daten auf die der Datenbegriff der anderen Wissenschaften Anwendung findet.

Folie 18

Eine dritte Sichtweise ist auf die Digitalisate ausgerichtet, die sozusagen die Primärdaten der Geisteswissenschaften sind. Dabei handelt es sich aber letztlich um bits und bytes, die in besonderen Formaten zusammengefügt werden. Also nichts genuin geisteswissenschaftliches.

Folie 19

Dieser Standpunkt wird durch das auf dieser Folie angebrachte Zitat bestärkt.

Folie 20

Diese digitalen Daten werden dann mit den Algorithmen der Digital Humanities bearbeitet.

Folie 21

Häufig werden die Digitalisate, bspw. in Editionen erst einmal transkribiert.

Dafür hat sich TEI als Quasi-Standard entwickelt, also eine Auszeichnungssprache, die aber auch nicht immer (dem Wesen der Geisteswissenschaften entsprechend zu Eindeutigkeiten führt.

Folie 22

In einigen Fällen müssen auch Kommentare zu den Transkriptionen hinzugefügt werden, entweder um zu erklären, was gemeint ist oder Vorschläge zur Interpretation der Textfragmente zu machen.

Hier entsteht dann eine weitere Datenschicht. Wenn dies in einer virtuellen Forschungsumgebung geschieht, sind diese Daten dann – im Gegensatz zu den Digitalisaten – von Anfang an digital.

Damit steigen aber auch die Anforderungen an die Komplexität der Arbeitsumgebung.

Folie 23

Denkbar ist auch, dass die Forscher dann innerhalb dieser virtuellen Arbeitsumgebungen aufeinander referenzieren, so wie dies schon im traditionellen Forschungsprozess durch Verweise und Zitate der Fall ist.

Dann entsteht ein Kontinuum von Verweisen, das zusammen mit den Anmerkungen und Notizen der Forscher als Throughput bezeichnet wird.

Diese «Daten» hat es schon immer gegeben, allerdings traditionell eher auf Notizzetteln, in Literatursammlungen oder als Exzerpte. Bislang konnten sich die meisten Forscher kaum vorstellen, dass diese Daten auch für eine Veröffentlichung zugänglich gemacht werden sollten.

Sollte dies der Fall sein, müsste die virtuelle Forschungsumgebung ein einer Infrastruktur eingebettet sein, die es erlaubt, sämtliche im Forschungsprozess entstehenden Daten zu erfassen und zugänglich zu machen.

Folie 24

Wichtig ist von daher die Unterscheidung zwischen Primärdaten (d.h. den analogen oder digitalen Ausgangspunkten der Forschung) den Sekundärdaten, d.h. den wissenschaftlichen Publikationen, die am Ende eines Forschungszyklus’ stehen und allen dazwischen anfallenden Daten, dem sog. Throughput.

Folie 25

Dabei darf nicht ausser Acht gelassen werden, dass Forschungsdatenmanagement letztlich auf nachhaltige Bereitstellung von Daten ausgerichtet ist. Hier kommen die Fragen der Langzeitarchivierung, so wie sie in Basismodul 1 und 2 angesprochen werden, wieder in den Blickpunkt. Der Forscher muss also in einen Dialog mit den Archivaren oder Kuratoren der Datenzentren treten und seine Daten so zur Verfügung stellen, dass diese leicht archivierbar und wiederverwendbar gemacht werden können.

Folie 26

Abschliessend lässt sich das bislang Gesagte in den beiden Zitaten auf dieser und der nachfolgenden Folie zusammenfassen.

Folie 27

Folie 28

Schematisch lässt sich das Gesagte auch in einer Pyramide darstellen, die noch einmal Primärdaten, Throughput und Sekundärdaten mit den leichter verständlichen Begriffen Quellen, Arbeitsdaten und Publikation einander gebenüberstellt.

Folie 29

Primär- und Sekundärdaten sind auch an bestimmte Orte gebunden, namentlich an Archive (für die Quellen) und Bibliotheken (für die Publikationen).

Zum Auffinden (auch in den digitalen Ablegern, also digitalen Bibliotheken und Archive) wurden zudem geeignete Werkzeuge entwickelt: Kataloge, Findbücher und Suchmaschinen.

Wie verhält es sich aber mit den Daten?

Folie 30

Für die Daten werden Repositorien oder Datenzentren zur Verfügung gestellt.

Aber welche Form nehmen diese Datenzentren an? Welche Anforderungen müssen sie erfüllen?

Folie 31

Auf die Beantwortung dieser Fragen soll im dritten Teil dieses Moduls eingegangen werden.

Die folgenden Folien beziehen sich dabei auf eine reelle Ausschreibung, die für die Erstellung eines Datenzentrums für die Geisteswissenschaften erstellt wurde.

Folie 32

Zunächst geht es um die Grundanforderungen, die an ein Datenzentrum gestellt werden. Wie in den Basismodulen gesehen, geht es letztlich immer um die Fragen der Langzeitarchivierung und der Datenkuration, also der fortlaufenden Bearbeitung der Daten entlang des Forschungsdatenlebenszyklus, um eine Archivierung und Nachnutzung zu ermöglichen.

Folie 33

Diese Hautanforderungen lassen sich auf drei Achsen runterbrechen.

Zu beachten ist dabei, dass in Datenzentren nicht nur Maschinen stehen, sondern auch qualifiziertes Personal arbeitet, das mit den Wissenschaftlern interagiert.

Folie 34

Dem Aufbau eines Datenzentrums sollte zunächst einmal eine Bedarfsanalyse vorausgehen, um das Zentrum nicht an den Bedürfnissen der Forscher vorbei zu erstellen.

Zudem sind sämtliche rechtliche Fragen abzuklären, insb. die Fragen der Übertragung geistigen Eigentums und der Abwicklung der Verträge.

Folie 35

Ein wichtiger Moment, auch im Kontext des Data Continuum Model, ist der des Ingest der Daten.

Hier müssen rechtliche und inhaltliche Fragen geklärt werden und an die Beschreibbarkeit der Daten mit Metadaten gedacht werden.

Eine Option kann hierbei die Verwendung von Linked Data sein.

Folie 36

Des Weiteren ist immer an die Nachnutzbarkeit zu denken; dies betrifft die Fragen der Langzeitarchivierung.

Sämtliche Prozesse des Data Life Cycle müssen nicht nur modelliert, sondern auch realisiert und durch entsprechende Werkzeuge abgestützt werden.

All diese Abläufe müssen entsprechend organisiert sein.

Folie 37

Ein wichtiger Service des Forschungsdatenmanagement ist dabei immer die Beratung der Forscher und ihrer Organisationen.

Für alles muss auch eine entsprechende Infrastruktur geschaffen werden, der Betrieb dieser Infrastruktur gesichert und die Kosten transparent und nachvollziehbar sein.

Folie 38

Dennoch darf man sich nach einer Durchsicht dieses Anforderungskatalogs die Frage stellen, ob dieser Kriterienkatalog im Kontext der geisteswissenschaftlichen Forschung als ausreichend anzusehen ist.

Folie 39

Zumal wir im ersten und zweiten Teil gesehen haben, dass sich der geisteswissenschaftliche Forschungsprozess a) durch die fortlaufende Multiperspektivität und b) insbesondere durch den Throughput, von naturwissenschaftlichen Arbeitsprozessen unterscheidet.

Folie 40

Aus diesem Grund wollen wir uns eine alternative Sichtweise auf ein Forschungsdatenzentrum anschauen, die weniger von einem Kriterienkatalog als vielmehr von vier zu gewährleistenden Paradigmen ausgehen.

Diese vier Paradigmen werden auf den folgenden Folien beschrieben (d.h. aus der entsprechenden Publikation von Sahle und Kronenwett zitiert).

Folie 41

Folie 42

Folie 43

Folie 44

Vor allen Dingen der letzte Punkt ist entscheidend für die Erschliessung und Aufbereitung des Throughput.

Sie wurde im Kriterienkatalog der zuvor vorgestellten Ausschreibung ausgelassen.

Folie 45

Die daraus resultierende Herausforderung ist gross und die Realisierung äusserst komplex.

Denkbar ist auch, dass eine Aufteilung – entsprechend der Projektphasen – bestehen bleibt.

Der Throughput wird dann über den Aspekt «Werkstatt», d.h. Instrumente des Active Data Management erfüllt.

Folie 46

Es ist relativ einfach, generische Solutionen für das Forschungsdatenmanagement zu entwickeln, die alle Daten erfassen und auch funktionieren.

Je näher man sich aber den Besonderheiten der Daten  innerhalb ihrer Disziplinen oder innerhalb ihrer Projekte nähert (ein Vorgang der häufig als «Disciplinary Data Deep Dive» bezeichnet wird) um so grösser werden die benötigten Lösungen aber von den generischen Lösungen abweichen.

Einfach gesagt: der Teufel steckt immer im Detail.

Folie 47

Abschliessend lässt sich von daher sagen, dass der Aufbau eines Datenzentrums für die Geisteswissenschaften kein leichtes Unterfangen ist.

Vorerst gilt es deshalb auch, kleinere Bottom-Up Ansätze zu fördern, um Datencontainer zu verhindern, in denen die Daten einfach verschwinden.

Folie 48

Man sollte dabei auch eine Hauptkritik nicht aus den Augen lassen: die Geisteswissenschaften werden – mehr noch als andere Wissenschaften – häufig dafür kritisiert, dass sie im Elfenbeinturm sitzen, Forschungs als l’art pour l’art begreifen und es Ihnen nicht gelingt, bei allem Referenzieren aus ihrer Selbstreferentialität auszubrechen.

Das geisteswissenschaftliche Forschungsdatenmanagement sollte von daher so konzipiert sein, dass die Daten so aufbereitet sind, dass sie sich leichterhand in inter- oder trans-disziplinänre Forschungsaktivitäten integrieren lassen.

LOOK

Überblick Data & Humanities

Zur Vertiefung des Gelernten empfehlen wir Ihnen die Lektüre des Artikels einer Online-Zeitschrift sowie eines Blogeintrags:

  • Patrick Sahle & Simone Kronenwett (2013): Jenseits der Daten: Überlegungen zu Datenzentren für die Geisteswissenschaften am Beispiel des Kölner ‘Data Center for the Humanities’, Libreas # 23. http://libreas.eu/ausgabe23/09sahle/

Für ein noch tieferes Verständnis der Besonderheit des wissenschaftlichen Arbeitens in den Geisteswissenschaften bietet sich nachstehender Zeitungsartikel an:

TAKEAWAYS

Takeaways

In diesem Modul haben Sie gelernt,

  • dass sich die Geisteswissenschaften von den anderen Wissenschaften unterscheiden und dies insb. durch eine häufig anzutreffende Mehrdeutigkeit der zu interpretierenden Daten und die Vielfalt der eingenommenen Perspektiven,
  • dass der Begriff der Daten (wie fast alles) in den Geisteswissenschaften ebenfalls nicht eindeutig ist und – zusätzlich zu Input und Output des wissenschaftlichen Forschungsprozesses – der sog. Throughput von besonderem Interesse ist,
  • dass ein Datenzentrum für Geisteswissenschaften neben herkömmlichen Aspekten der Langzeitarchivierung auch einen Werkstatt-Charakter für die Integration des Throughput berücksichtigen muss.
Bitte zitieren als
SCHNEIDER, René. Modul 5: Data & Humanities. In: MASTRANDREA, Elena, PRONGUÉ, Nicolas, SCHNEIDER, René und STETTLER, Niklaus, Kursbuch Forschungsdaten [online]. HTW Chur – HEG Genève, 2017. Verfügbar unter: https://campus.hesge.ch/researchdatamanagement/?page_id=4369