RESEARCH DATA MANAGEMENT

E-LEARNING PLATFORM

Modul 3-1

Daten verlinken

Um die notwendige Kooperation mit den Forschenden zu erreichen, müssen Data Librarians eine Vorstellung haben, wie Daten nachgenutzt werden können und welche Anforderungen die Daten dazu erfüllen müssen. In diesem Modul soll daher anschaulich gemacht werden, welcher Nutzen aus publizierten Forschungsdaten gezogen werden kann und welches die Voraussetzungen dafür sind. Insbesondere soll der Nutzen von verlinkten Daten aufgezeigt werden.

All cartoons courtesyof JørgenStamp,
Digitalbevaring.dk.CC BY 2.5.

  35 min

Lernziele

Sie lernen in diesem Modul

  • die grundlegenden Konzepte von verlinkten Daten.
  • die Abfragesprache SPARQL und den Nutzen von verlinkten Daten kennen.
  • Sie werden erkennen, dass die Verlinkung von Daten neue Erkenntnisse ermöglicht.

SCENARIO

Stefan ist wissenschaftlicher Mitarbeiter an einer Hochschule und beschäftigt sich mit dem Thema Innovationsentwicklung. Für seine Doktorarbeit möchte er unterschiedliche demographische und sozioökonomische Daten aus verschiedenen Ländern verknüpfen und analysieren, um daraus mögliche Zusammenhänge abzuleiten und neue Erkenntnisse zu gewinnen.

Für seine Studie stehen verschiedene Daten zur Verfügung, die jedoch aus unterschiedlichen Datenbanken und Repositorien stammen und daher sehr heterogen sind. Um mit den Daten arbeiten zu können, müssen die Daten zuerst bereinigt und transformiert werden. Dies ist sehr aufwendig und braucht viel Zeit und Know How, da die Daten meistens in verschiedenen Formaten und Datenmodellen vorliegen und teilweise auch nicht genügend Metadaten vorhanden sind. Stefan überlegt sich, ob es eine Möglichkeit für eine vereinfachte Datenintegration gibt und entdeckt dabei das Potential von verlinkten Daten.

Folie 1

Hier finden Sie weiteres Lernmaterial zum Nutzen von verlinkten Daten.

Folie 3

Erst die Interpretation macht Forschungsdaten nützlich. Die Daten müssen dafür gut dokumentiert und aufbereitet sein.

Folie 4

Je mehr ich über die Quelle weiss und je aussagekräftiger die Ausgangsbasis ist, die ich erstelle oder nutze, umso grösser ist das Potenzial neue Erkenntnisse zu gewinnen.

Quelle: http://wiki.bildungsserver.de/bilder/upload/checkliste_datenmanagement.pdf

Folie 6

Visualisierungen können bei der Interpretation der Daten helfen. Grosse Datenmengen und komplexe Datenstrukturen werden durch Visualisierung übersichtlich. Es braucht für eine überzeugende Visualisierung aber auch viel Fachwissen.

Folie 7

Offene Daten basieren in der Regel auf unterschiedlichen Formaten, Metadatenstandards und Datenmodellen. Es stellt sich daher die Frage: Wie offen sind publizierte Forschungsdaten?

Für die Nachnutzung sind nicht nur die Datenqualität und Datendokumentation entscheidend, die Daten müssen auch interoperabel sein. Die Integration von heterogenen Daten ist oft eine Hürde bei der Nachnutzung von Daten und stellt die Forschenden vor eine grosse Herausforderung.

Folie 8

Um die Daten nutzen zu können, müssen die Daten oft mit viel Aufwand gesucht, überprüft, bereinigt und transformiert werden, damit ein Vergleich oder eine Verknüpfung der Daten überhaupt möglich ist. Denn die Daten müssen interoperabel sein, sowohl strukturell und syntaktisch (z.B. in der Form von Webdiensten) wie auch semantisch (mittels Modelltransformationen).

http://www.kim-forum.org/Subsites/kim/DE/Materialien/Glossar/glossar_node.html

Folie 9

Zudem stellt sich die Frage nach der Maschinenlesbarkeit der publizierten Daten: wie können Inhalte von Maschinen verstanden werden?

Folie 10

Daten integrieren mit Linked Data, wie geht das? Was bringt uns Linked Data?

Wir verwenden RDF als gemeinsames Datenmodell und verlinken die Daten mit deren Entitätsbeschreibungen sowie Beziehungen aus verschiedenen Quellen unter Verwendung von bekannten Ontologien und Vokabularen.

  • Einheitliches Modell zur Repräsentation von heterogenen Daten, dadurch vereinfachte Nachnutzung
  • Verknüpfung von Daten ist extrem leicht
  • Evolution des Datenschemas ist möglich
  • Nutzung bereits erschlossener Entitäten anderer Datenanbieter
  • Anreicherung der eigenen Daten durch Verlinkung oder auch Übernahmen
  • Optimierung der Retrieval-Möglichkeiten
  • Vokabulare können sehr leicht wiederverwendet und bei Bedarf erweitert werden

Linked Data erlaubt das Auffinden, Verbinden, Beschreiben und das Nachnutzen aller Arten von Daten.

http://www.dnb.de/SharedDocs/Downloads/DE/DNB/wir/linkedOpenData.pdf?__blob=publicationFile

Folie 11

Idee: Erweiterung eines Netzes von Dokumenten (Web of Documents) zu einem Netz von Daten (Web of Data), von maschinenlesbaren, einzelnen Aussagen. Durch maschinelles logisches Schlussfolgern soll aus diesen Daten zusätzliches Wissen generiert werden können.

Folie 12

RDF ist eine allgemeine Syntax zur Darstellung von Daten im Web. Jede in RDF ausgedrückte Information ist als sogenanntes Tripel in einem Graph vertreten.

Das heisst ich beschreibe einzelne Dinge und deren Beziehung als Subjekt, Prädikat und Objekt in Form von Tripels. Um die Entitäten zu identifizieren werden URIs benutzt.

Folie 13

Die Tripels können miteinander verlinkt und in einem Graphen dargestellt werden.

Folie 14

Durch die Verlinkung der RDF Tripels mit Hilfe von URIs entsteht ein sogenannter RDF Graph. Mit diesem Modell können auch verteilte Daten auf einfache Art miteinander verknüpft werden.

Die Serialisierung von RDF-Graphen kann in verschiedenen syntaktischen Formaten erfolgen:

  • Turtle Syntax
  • N-Triples
  • RDF/XML
  • JSON-LD

Zum Beispiel als N-Triples:

<http://www.europeana.eu/portal/record/03919/FCD38BDE7A03579F24BEDA5D157943B75BB36F11.html><http://purl.org/dc/terms/creator><http://dbpedia.org/resource/Leonardo_da_Vinci> .

Folie 15

RDF Vokabulare können ohne grossen Aufwand weiterverwendet und erweitert werden. Wenn möglich sollten bekannte Ontologien verwendet werden.

Unter http://lov.okfn.org/dataset/lov/ kann nach bestehendem RDF Vokabular gesucht werden.

Folie 16

Als Beispiel wird hier eine Aufstellung der verwendeten Vokabulare für das Archiv Pina Bausch gezeigt.

Quelle: Thull, Bernhard, Kerstin Diwisch, and Vera Marz. „Linked Data Im Digitalen Tanzarchiv Der Pina Bausch Foundation.“ X.media.press Corporate Semantic Web (2015): 259-75. Web.

Folie 17

Das folgende Video gibt eine kurze Einführung in die grundlegenden Konzepte von SPARQL und Linked Data:

SPARQL in 11 minutes

Folie 18

Die SPARQL Syntax enthält die folgenden Elemente:

  • PREFIX für URIs (Namensräume)
  • SELECT für Auswahl (Variablen der Ergebnismenge)
  • WHERE definiert Bedingungen für Variablen

Link zum öffentlichen SPARQL Endpoint von Dbpedia: http://dbpedia.org/sparql

Folie 20

LOOK

Linked Data Training Resources

„The Program for Cooperative Cataloging’s Standing Committee on Training“ hat einen Bericht über verfügbare Linked Data Training Resources veröffentlicht:

PCC Summary on Linked Data Training Resources

Übung

Unter dem folgenden Link finden Sie ein SPARQL Tutorial mit praktischen Übungen:

SPARQL Tutorial mit Übungen

TAKEAWAYS

Takeaways

Wir haben gesehen, dass wir Daten verlinken und mit SPARQL komplexe Abfragen schreiben können.

Voraussetzungen:

  • die Daten sind auffindbar und interpretierbar
  • die Daten sind vollständig und ausreichend dokumentiert
  • die Datenqualität stimmt
  • die Daten sind in RDF vorhanden
  • die verwendeten Ontologien müssen bekannt sein
Bitte zitieren als
MASTRANDREA, Elena. Modul 3-1: Daten verlinken. In: MASTRANDREA, Elena, PRONGUÉ, Nicolas, SCHNEIDER, René und STETTLER, Niklaus, Kursbuch Forschungsdaten [online]. HTW Chur – HEG Genève, 2017. Verfügbar unter: https://campus.hesge.ch/researchdatamanagement/?page_id=805