Forschungsdatenmanagement

Aktiver Datentransfer

30 Terrabyte (TB) Forschungsdaten, das ist die prognostizierte Zahl an Datenmenge, die in TOOLS über die Laufzeit entstehen. Diese liegen in unterschiedlichen Formaten und auf verschiedenen Speichermedien vor: Bilder, Spektren, CAD-Files, lokal, auf Servern und einiges mehr. Um effektiv zusammenarbeiten zu können, ist es aber notwendig, direkt Ergebnisse von anderen einzusehen und für die Zusammenarbeit kritische Aspekte zu evaluieren.

Ziel

Aufbau eines umfassenden Forschungsdatenmanagements

Ziel ist es, die TOOLS-Forschungsdaten für Forschende, Interessierte und Maschinen optimal aufzubereiten und zugänglich zu machen. Damit wird einerseits die gute wissenschaftliche Praxis gewahrt, andererseits möglichst viel Informationen für die Nachnutzung generiert. Mit Hilfe eines Datenmanagementplans werden Struktur (Bilder, Spektren, CAD-Files), Menge der Daten (von GB zu TB an Speicher), als auch ihr Aufbewahrungsort (lokal auf dem Rechner bis hin zu Cloudlösungen) geregelt. Zudem soll im Rahmen von „Open Science“ und „Open Source“ interessierten Personen ermöglicht werden, Zugang zu den Forschungsdaten zu erhalten.

Dafür ist die Einführung von elektronischen Laborbüchern geplant. Gemeinsam genutzte Cloud- oder Serverspeicherlösungen über die EAH Jena werden etabliert und ermöglichen einen Ansatzpunkt für effektive KI-Forschung im ZAKI der EAH ( https://www.eah-jena.de/zaki). Regelmäßige Schulungen sind geplant. Zudem führt das Management regelmäßige kritische Analysen der Strukturen durch. Die FAIR-Prinzipien finden im TOOLS-Forschungsdatenmanagement Anwendung.

Datenzyklus
Eine starke Vernetzung wird angestrebt:

Data-Stewards und Forschungsdatenmanager des Thüringer Kompetenznetzwerks Forschungsdatenmanagement (TKFDM) als auch das BMBF-geförderte "Kompetenzzentrum Digitale Forschung" zedif ( https://www.zedif.uni-jena.de/) unterstützen und beraten die Forschenden zu jeder Projektphase. Für eine bessere Vernetzung innerhalb der Community wird die Mitgliedschaft in einem Konsortium der Nationalen Forschungsdateninfrastruktur angestrebt (NFDI-MatWerk, NFDI4Ing, NFDIHealth oder NFDI4DataScience).

1. Was sind Forschungsdaten

Forschungsdaten umfassen alle während wissenschaftlicher Tätigkeiten (z. B. durch Experimente, Bestandserhebungen) anfallenden Daten. Hierbei wird unterschieden zwischen Daten und den zugehörigen zusätzlichen Informationen die eine Strukturierung dieser möglich machen, den Metadaten. Beide bilden die Grundlage wissenschaftlicher Arbeit und dokumentieren Ergebnisse, belegen Ausgangshypothesen oder widerlegen diese. Strukturiertes Arbeiten erleichtert dabei den Forschenden seine Schlüsse zu ziehen, als auch etwaigen Beteiligten und Interessierten am Projekt. Data-Stewards und Forschungsdatenmanager unterstützen und beraten dabei die Forschenden zu jeder Projektphase (s. Grafik oben).

2. FAIR-Prinzipien

FAIR – nicht nur im sportlichen Wettkampf wichtig. Hinter dem Akronym verbirgt sich das Ziel Daten für Mensch und Maschinen zugänglich, insbesondere auf dem Hinblick des Nutzens für künstliche Intelligenz. Findable – Accessible – Interoperable – Reusable sind dabei die Voraussetzungen an die Daten. Die GO FAIR-Initiative ( https://www.go-fair.org/fair-principles/) ist hierbei als Wegbereiter innerhalb der wissenschaftlichen Community anzusehen.

3. GWP-Gute Wissenschaftliche Praxis

Im Jahr 1998 brachte die Deutsche Forschungsgemeinschaft mit ihrem Kodex „Leitlinien zur Sicherung guter wissenschaftlicher Praxis“ ( https://zenodo.org/records/6472827) eine erste verbindliche Vorgabe für die Forschungsförderung in Umlauf. Mit der 2019 revidierten Version sollen Forschende sich in die Lage versetzen, ihre internen Strukturen, Prozesse und Handlungen an den Leitlinien guter wissenschaftlicher Praxis auszurichten und eine positive, am Berufsethos orientierte Kultur wissenschaftlicher Integrität zu ermöglichen.

4. Open Science

– vereint mehre Ansätze einer offenen Wissenschaftspraxis (u. a. Open Access, Open Source, Open Data), bei der möglichst alle Schritte des Forschungsprozesses wie Forschungsdaten, Software und Publikationen frei zugänglich sind und sich somit an den FAIR-Prinzipien orientiert. Eine erste Empfehlung wurde von der UNESCO ( https://www.unesco.org/en/open-science/about?hub=686) 2021 herausgegeben. Ziel eines jeden Forschenden sollte es sein seine Entdeckungen „As open as possible“ zu machen.

5. Laborbücher, auf dem Weg ins Digitale

Laborbücher sind seit mehr als hundert Jahren das Grundgerüst aller Forschenden. Eintragungen in den Büchern von Einstein und Darwin werden heutzutage aufgrund ihrer wissenschaftshistorischen Relevanz in Museen ausgestellt. Der Einzug der Digitalisierung ist auch in diesem Bereich auf dem Vormarsch. Elektronische Labornotizbücher sind seit Jahren auf dem Vormarsch, vor allem im Bereich der chemischen und pharmazeutischen Industrie. Von kommerziellen Anbietern bis Open Source ist alles vorhanden und stellt den jeweiligen Forschenden vor einer grundsätzlichen Abwägung, welche Eigenschaften er nutzen möchte, um seine eigene Arbeit zu erleichtern. Trotzdem gilt weiterhin für Pflege und Handhabung des analogen und digitalen Laborbuches derselbe Grundsatz:
"Ein erfahrener Wissenschaftler sollte mit Hilfe des Laborbuches in der Lage sein, dass Experiment nachzustellen und zu vergleichbaren Ergebnissen zu kommen."

6. KI und der Datenhunger

Seit dem Durchbruch von künstlicher Intelligenz, im Rahmen von Large Language Models, in den letzten Jahren ist das Bewusstsein für die technologische Möglichkeiten immens gestiegen. Auch im Bereich der Forschung wird immer mehr in der Analyse und Simulation von Experimenten mit KI gearbeitet ( https://www.nature.com/immersive/d41586-023-03017-2/index.html). Grundlage für des Erfolges ist das Training jenes System mit einer immensen Menge von Daten ( https://arxiv.org/html/2211.04325v2), um im finalen Ergebnis eine Software zu erhalten, deren Vorhersagekraft menschlichen Arbeiten angeglichen ist, dementsprechend müssen die genutzten Daten möglichst den FAIR-Prinzipien unterliegen.

Kontakt / Ansprechpartner:

Tobias Helk

Forschungsdatenmanagement

E-Mail: tobias.helk@eah-jena.de

Adresse:
Ernst-Abbe-Hochschule Jena
Carl-Zeiss-Promenade 2
07745 Jena

Haus: 4

Raum: 04.02.39