Archivieren mit IANUS
Kennen Sie die Community Empfehlungen zur Langzeitarchivierung?? Dort finden Sie grundlegende Informationen zu Dateiformaten, Metadaten und der Struktur Ihrer Forschungsdaten, bitte konsultieren Sie die Empfehlungen bitte zuerst. Im Anschluss werden Sie durch die Beantwortung von 5 Fragen in der Lage sein die Langzeitarchivierung Ihrer Daten vorzubereiten.
Sind Fragen zur Finanzierung geklärt?
Trotz stetig verbesserter Speichertechnologien fällt bei der Langzeitarchivierung von Forschungsdaten ein Kostenaufwand an, der im Idealfall bereits bei der Projektplanung zu berücksichtigen ist. Die Finanzierung kann mittlerweile bei Projektanträgen - etwa der bei der DFG, aber auch bei anderen Förderinstitutionen - im Vorfeld mit beantragt werden. Informationen zu allgemeinen Kostenrahmen finden Sie hier [link zum letzten Bulletpoint?!].
Eine Übernahme der Kosten durch die NFDI ist zur Zeit nicht möglich.
Projekte, die in Kooperation mit NFDI4Objects-Konsortialmitgliedern entstanden sind, können sich an die Info-Adresse wenden, um zu prüfen, ob in diesem Rahmen eine Unterstützung durch die beteiligten Einrichtungen möglich sind.
Liegen Ihnen sämtliche notwendigen Rechte vor und haben Sie geklärt, unter welcher Lizenz die Daten nachgenutzt werden können?
Zu den Standards des wissenschaftlichen Arbeitens gehört es - wie in den Leitlinien zur Sicherung guter wissenschaftlicher Praxis der DFG formuliert -, die rechtlichen Rahmenbedingungen eines Forschungsvorhabens zu klären und zu dokumentieren, wozu auch verschriftlichte Angaben zu den Nutzungsrechten an den aus ihm hervorgehenden Forschungsdaten und Forschungsergebnissen gehören. Ohne Klärung rechtlicher Anforderungen und Einschränkungen ist demnach auch keine Langzeitarchivierung archäologischer Forschungsdaten möglich.
Urheber- und Nutzungsrechte an Dokumentationen wie Fotos, Plänen und Texten müssen daher geprüft, dokumentiert und ggf. vertraglich geregelt worden sein. Es muss geklärt sein, dass die für den beabsichtigten Zweck im Rahmen der LZA und ggf. für die Publikation und Nachnutzbarkeit notwendigen Nutzungsrechte an den digitalen Repräsentationen vorliegen. Dies gilt insbesondere im Hinblick auf zu beachtende denkmalrechtliche bzw. landesspezifische Vorgaben, Eigentumsverhältnisse oder etwaige Lizenzen im Ausland. Ebenso muss sichergestellt sein, dass Rechte und Interessen indigener Gemeinschaften respektiert wurden, vor allem bei sensiblen kulturellen Inhalten, die besondere Schutzmaßnahmen oder Zugangsbeschränkungen erfordern. Zudem müssen personenbezogene Daten gemäß Datenschutzrecht anonymisiert bzw. können nur mit Einwilligung der Betroffenen verarbeitet werden. Dies bestimmt auch die Lizenz, welche Handlungen zur (Nach-)nutzung der Daten beschreibt. Um gesetzlichen Vorgaben, der guten Wissenschaftlichen Praxis und dem Gedanken der offenen Wissenschaft Rechnung zu tragen, sollte die Datenbereitstellung dem Grundsatz “So offen wie möglich, so geschlossen wie nötig” folgen.
Haben Sie Ihre Daten gemäß der LZA-Empfehlungen einheitlich und logisch strukturiert und mit den notwendigen Metadaten beschrieben?
Es sollten Regeln festgelegt werden, nach denen Dateien benannt, geordnet und versioniert werden. Verzeichnisstrukturen und Dateibenennungen sollten logisch, nachvollziehbar, einheitlich und selbsterklärend sein. Die Datenablage sollte in jedem Fall dokumentiert werden. Daten sollten zudem auf ihre Archivwürdigkeit hin ausgesucht werden, also Daten, die für eine künftige Nachnutzung geeignet sind. Alle Daten sollten so beschrieben werden, dass sie langfristig lesbar und verständlich bleiben. Es sollte entschieden werden, welche Informationen zum Verständnis der Forschungsdaten notwendig sind und die Dokumentation sollte in standardisierter Form unter der Verwendung von etablierten Standards erfolgen. In jedem Fall ist bei der Wahl von Standards und Normdaten auf die Maschinenlesbarkeit zu achten.
Haben Sie Ihre Daten gemäß der LZA-Empfehlungen in langzeitarchivfähigen Formaten gespeichert?
Alle Dateien sollten in möglichst standardisierten, offenen und einfachen Formaten gespeichert werden, damit sie möglichst lange in ihrer originalen Form ohne Migration für eine Nachnutzung zur Verfügung stehen. Wird im Kontext des Projekts aus triftigen Gründen proprietäre Software und Formate verwendet, ist zu prüfen, in welches Format sich diese für eine Archivierung oder auch Publikation möglichst verlustfrei exportieren lassen. Sollten in Ihrem Projekt Datentypen auftauchen, die nicht oder noch nicht in den LZA-Empfehlungen behandelt werden, sie aber dennoch den o.g. Kriterien entsprechen, kontaktieren Sie uns bitte frühzeitig, um eine Eignung abzusprechen.
Mehr Details zu Dateiformaten
### Präferierte und akzeptierte DateiformatePDF-Dokumente
Details finden Sie in den FDM-Empfehlungen im Kapitel PDF-Dokumente.
Format | Extension | Status | Kommentar |
---|---|---|---|
PDF/A-1 | präferiert | -a oder -u | |
PDF/A-2 | präferiert | -a oder -u | |
PDF/A-3 | akzeptiert | -a oder -u; nach eingehender Prüfung |
Text-Dokumente
Details finden Sie in den FDM-Empfehlungen im Kapitel Textdokumente. Wichtig ist hier, dass eingebundene Inhalte ebenfalls erhalten werden können. Insbesondere bei eingebundenen Bildern, Formeln oder künstlerischen Grafiken ist dies zu beachten.
Format | Extension | Status | Kommentar |
---|---|---|---|
Open Document Format | .odt | präferiert | |
Microsoft Office XML | .docx | präferiert | |
Reiner Text, plain text | .txt | präferiert | |
Strukturierter Text, Markup | .xml, .sgml, .html etc. + .dtd, .xsd etc. | präferiert | |
Rich Text Format | .rtf | akzeptiert | |
PDF/A | akzeptiert | -a oder -u |
Bilder und Rastergrafiken
Details finden Sie in den FDM-Empfehlungen im Kapitel Bilder – Rastergrafiken. Wichtig ist hier, dass es sich um möglichst nicht komprimierte Formate handelt. Insbesondere proprietäre Kameraformate der Hersteller können nicht archiviert werden.
Format | Extension | Status | Kommentar |
---|---|---|---|
Baseline TIFF v. 6, unkomprimiert | .tiff, .tif | präferiert | |
Adobe Digital Negative | .dng | präferiert | |
Portable Network Graphics | .png | akzeptiert | nur wenn ein TIFF nicht möglich oder sinnvoll ist (z. B. 3D-Modelle) |
Joint Photographic Expert Group | .jpeg, .jpg | akzeptiert | nur wenn ein TIFF nicht möglich oder sinnvoll ist |
JPEG2000 | .jp2, .jpx | akzeptiert | nur wenn ein TIFF nicht möglich oder sinnvoll ist |
Tabellen und Datenbanken
Details finden Sie in den FDM-Empfehlungen im Kapitel Tabellen und Datenbanken. Wichtig ist hier, die Datenentstehung und insbesondere alle Codes in den Metadaten zu vermerken. Alle Beziehungen zu den Daten sowie alle notwendigen Details für die Lesbarkeit der Daten sollten gut dokumentiert werden.
Format | Extension | Status | Kommentar |
---|---|---|---|
Delimited text | .csv, .tsv, .tab, .txt | präferiert | |
SQL Datenbanken | .csv, .xml | präferiert | |
No-SQL Datenbanken | .json, .xml | präferiert | |
Microsoft Office Open XML | .csv, .tsv, .tab, .txt | akzeptiert | |
LibreOffice and Apache OpenOffice Calc | .ods | akzeptiert |
Excel Tabellen (.xlsx oder auch .xls) genauso wie die Open- oder Libreoffice-Dateien können nicht allein langzeitarchiviert werden, da Informationen wie Markierungen oder Hervorhebungen oder auch in den Tabellen durchgeführte Berechnungen potentiell nicht mehr lesbar sind in 100+ Jahren. Es ist jedoch unter Umständen sinnvoll .xlsx oder auch .ods zusätzlich zu archivieren.
GIS-Daten
Details finden Sie in den FDM-Empfehlungen im Kapitel GIS. Wichtig ist hier, die Datenentstehung und insbesondere EPSG bzw. CRS in den Metadaten zu vermerken.
Format | Extension | Status | Kommentar |
---|---|---|---|
ESRI Shapefile | .shp + .shx + .dbf | akzeptiert | |
GeoJSON | .geojson | präferiert | |
Geography Markup Language | .gml | präferiert | |
Koordinaten / Rohdaten | .xyz, .csv/.tsv, .txt, .xml etc. | präferiert | Alle Formate, die auch als Tabellen oder Datenbanken erhalten werden können. |
Raster (GeoTIFF etc.) | .tiff/.tif + .xml/.txt | präferiert | Alle Formate, die auch als Bilder oder Koordinaten erhalten werden können. Textdokumente mit dokumentierten Bild-Koordinaten oder GPC sind ebenfalls möglich. |
3D-Daten
Details finden Sie in den FDM-Empfehlungen im Kapitel 3D und Virtual Reality. Wichtig ist hier Entscheidungen zu treffen, für welche Modelle auch die Originalbilder erhalten werden sollen. Proprietäre Formate der Hersteller können nicht archiviert werden.
Format | Extension | Status | Kommentar |
---|---|---|---|
Extensible 3D | .x3d + .tiff/.tif | präferiert | |
COLLAborative Design Activity (COLLADA) | .dae + .tiff/.tif | präferiert | |
Wavefront OBJ | .obj + .tiff/.tif | präferiert | |
Polygon File Format | .ply + .tiff/.tif | präferiert | |
ASCII Text File | .txt | präferiert | |
Raw XYZ | .xyz, .txt etc. | präferiert |
Vector-Grafiken
Details finden Sie in den FDM-Empfehlungen im Kapitel Vektorgrafiken. Wichtig ist hier Entscheidungen zu treffen, für welche Modelle auch die Originalbilder erhalten werden sollen. Proprietäre Formate der Hersteller können nicht archiviert werden. Es ist sinnvoll, neben den reinen Daten, auch eine Ansichtsgestaltung zu erhalten, damit der orginale Kontext nicht verloren geht. Für CAD-Daten und Konstruktionszeichnungen werden mehrere Versionen der Datei erhalten. Für Details kann auch der Report "Preserving CAD" aus der Data Types Series der Digital Preservation Coalition konsultiert werden.
Format | Extension | Status | Kommentar |
---|---|---|---|
SVG | .svg + .tiff/.tif / + PDF/A + .dxf | präferiert | bei reinen Vektorzeichnungen ist ein .svg ausreichend, nur bei komplexeren Zeichnungen sind zusätzliche Details notwendig. Dies wird im Preservation Plan dokumentiert. |
Audio und Video
Details finden Sie in den FDM-Empfehlungen im Kapitel Audio und Video. Wichtig ist hier, dass es sich bei den Dateiformaten für digitale Audiodateien um Containerformate handelt. Deshalb muss bei der Auswahl für die Langzeitarchivierung nicht nur ein passendes Format, sondern auch ein geeigneter Codec gefunden werden.
Format | Extension | Status | Kommentar |
---|---|---|---|
Free Lossless Audio Codec | .flac | präferiert | |
Waveform Audio File Format | .wav | präferiert | |
Broadcast Wave Format | .bwf | präferiert | |
Matroska | .mkv | präferiert | Für die Archivierung können die Codecs FFV1 für Video und FLAC für Audio empfohlen werden. Weitere geeignete Codecs für Matroska sind H.264/MPEG-4 AVC und MPEG-2. |
MPEG1/2/4 | .mpeg/.mpg/MPEG4 .mp4 | präferiert |
Sollten Sie Dateien in anderen Formaten vorliegen haben, kontaktieren Sie uns unter ianus-fdz@dainst.de. Für weitere Dateitypen finden Sie außerdem auf den Seiten des ADS Anhaltspunkte.
Wollen Sie Ihre Daten über IANUS archivieren oder die IANUS-Pipeline nutzen, um Ihre Daten für die Archvierung in einem anderen Rechenzentrum vorzubereiten?
IANUS bietet die Möglichkeit, Forschungsdaten entweder in der eigenen Infrastruktur bzw. bei Partner-Rechenzentren nach OAIS-Standard zu archivieren. Dazu beraten wir Sie gerne.
Zusätzlich bietet IANUS auch an, lediglich die Datenpakete über seine Pipeline für eine Archivierung vorzubereiten, falls Daten aufgrund bestimmter Faktoren an anderer Stelle archiviert werden müssen. Ergebnis wäre ein zur Übergabe vorbereitetes Archiv-Paket, das dann an anderer Stelle bzw. von einer anderen Institution physisch gesichert und vorgehalten werden kann. Dies stellt sicher, dass fachspezifische Anforderungen auch dann erfüllt werden, wenn die Daten nicht im IANUS-LZA selbst archiviert werden.
Hinweis: Aufgrund der momentan stattfindenden technischen Erneuerung der Infrastruktur sind die Kapazitäten von IANUS zur Zeit noch eingeschränkt, Daten werden aber angenommen und prozessiert. Aufgrund der Einschränkung empfiehlt sich ein rechtzeitiger Kontakt über die Info-Adresse, um die Projekte möglichst frühzeitig planen zu können.
DOWNLOAD CHECKLISTE
Kontakt: IANUS[att]dainst.de