Textdokumente

Textdokumente stellen in der altertumswissenschaftlichen Forschung einen h├Ąufig vertretenen Dateityp dar. In Artikeln, Berichten, Antr├Ągen, Tageb├╝chern, Notizen oder Dokumenten sind wichtige Informationen enthalten, deren Fortbestehen und Lesbarkeit gew├Ąhrleistet sein m├╝ssen. Auch Beschreibungen von anderen Dateien, Datens├Ątzen oder des gesamten Projektes k├Ânnen als Textdokumente vorliegen.

Die Mehrzahl der Dokumente besteht aus strukturiertem Text, n├Ąmlich S├Ątzen, Abs├Ątzen, Seiten, Fu├čnoten und Kapiteln, und kann Formatierungsangaben, wie verschiedene Schriftgr├Â├čen, Fett- oder Kursivschreibung enthalten. Zus├Ątzlich k├Ânnen Medien, wie Bilder, Tabellen oder Videos in die Dokumente integriert sein.

Da dasselbe Dokument auf verschiedenen Systemen unterschiedlich dargestellt werden kann, kann die Speicherung von Textdokumenten problematisch sein. Insbesondere wenn bestimmte Formatierungen von Textelementen mit einer Bedeutung verbunden sind und die Authentizit├Ąt des Erscheinungsbildes, also das Aussehen des Dokumentes, wichtig ist, ist bei der Speicherung besondere Aufmerksamkeit erforderlich.

Langzeitformate

Finalisierte Dokumente mit Formatierungsangaben k├Ânnen im Format PDF/A gespeichert werden. Dieses Format erlaubt eine konsistente Darstellung des Dokumentes auf verschiedenen Systemen, verhindert aber auch eine nachtr├Ągliche Bearbeitung. N├Ąhere Informationen sind im Abschnitt ├╝ber PDF-Dokumente zu finden.

Textdokumente mit Formatierungsangaben, bei denen auch weiterhin eine Bearbeitung m├Âglich sein soll, sollten in einem offenen auf XML basierenden Format gespeichert werden, wie beispielsweise DOCX oder ODT. Ersteres ist das Standardformat, das in Microsoft Word seit 2007 verwendet wird und auch von Microsoft entwickelt wurde. Letzteres ist das Format f├╝r Textdokumente, welches in OpenOffice oder LibreOffice verwendet wird. ODT ist ein Teil vom OpenDocument Format (ODF) und wurde von einem technischen Komitee unter der Leitung der Organization for the Advancement of Structured Information Standards (OASIS) entwickelt. Die Darstellung von DOCX- oder ODT-Dokumenten kann jedoch von System zu System unterschiedlich ausfallen, wenn beispielsweise bestimmte Schriftarten fehlen. Gegebenfalls kann das Dokument parallel im Format PDF/A gespeichert werden.

Bearbeitbare Textdokumente ohne Formatierungsangaben werden am besten als TXT-Datei gespeichert. Neben diesem einfachen, reinen Textformat (plain text) gibt es weitere textbasierte Formate, die auf eine bestimmte Weise strukturiert sind oder eine Auszeichnungssprache verwenden. Es handelt sich dabei um sogenannte Textdateien, die im Gegensatz zu bin├Ąren Formaten darstellbare Zeichen enthalten und in Abh├Ąngigkeit ihrer Strukturierung unterschiedliche Dateiformate beschreiben. Beispielsweise werden mit Hilfe von CSV-Dateien Tabellen oder mit PLY-Dateien 3D-Inhalte gespeichert. Diese Formate werden in den Abschnitten "Tabellen" und "3D und Virtual Reality" behandelt. F├╝r textuelle Inhalte gibt es spezialisierte Formate, wie beispielsweise SGML-, XML- oder HTML-Dateien. Die Archivierung dieser Dateien, die weit verbreiteten Konventionen folgen, ist unproblematisch, bedarf jedoch zus├Ątzlicher Dateien, die die verwendete Struktur beschreiben, wie beispielsweise die sogenannte Dokumenttypdefinition (DTD, Document Type Definition) oder ein XML Schema (XSD, XML Schema Definition). Auch andere Textdateien mit spezieller Strukturierung k├Ânnen archiviert werden, wenn die Struktur im Dokument oder in einer separaten Datei erl├Ąutert und mitarchiviert wird.

Alle Textdokumente sollten Unicode f├╝r die Zeichenkodierung verwenden, wobei UTF-8 ohne BOM besonders empfohlen wird, falls keine speziellen Anforderungen dagegen sprechen. Wenn die verwendete Zeichenmenge es erlaubt, ist ASCII ebenfalls geeignet.

Hinweis: Eingebettete Bilder oder andere Medien sollten zus├Ątzlich separat gespeichert werden. Au├čerdem muss beachtet werden, dass Links oder dynamische Inhalte, nicht immer dauerhaft erhalten bleiben.
 

Format Begr├╝ndung
┬á PDF/A Wenn neben dem Inhalt auch das Aussehen des Dokumentes erhalten bleiben soll und die Bearbeitung des Dokuments abgeschlossen ist, eignet sich PDF/A am besten. N├Ąhere Informationen sind in dem Abschnitt ├╝ber PDF-Dokumente zu finden.
ODT ODT basiert auf XML und ist Teil vom OpenDocument Format. Damit k├Ânnen bearbeitbare Dokumente mit Formatierungsangaben gespeichert werden. ODF verwendet standardm├Ą├čig UTF-8 und erlaubt das Einbetten von Fonts.
DOCX DOCX ist das auf XML basierende Format von Microsoft, das ebenfalls bearbeitbare Dokumente mit Formatierungsangaben speichern kann. DOCX verwendet standardm├Ą├čig UTF-8 und erlaubt das Einbetten von TrueType-Fonts.
TXT und plain text Das Format eignet sich f├╝r reinen Text ohne Formatierungsangaben, wie Kursiv-, Fettschreibung oder Schriftgr├Â├čen. Die Zeichen sollten in UTF-8 ohne BOM kodiert sein.
strukturierter Text Alle anderen textbasierten Formate, wie beispielsweise valide SGML-, XML- oder HTML-Dateien k├Ânnen ebenfalls archiviert werden. F├╝r SGML und XML ist zus├Ątzlich die DTD-Datei oder ein XML Schema erforderlich. Anders strukturierte textbasierte Dateien ben├Âtigen eine Erl├Ąuterung der Struktur innerhalb der Datei oder als zus├Ątzliche separate Datei. Die Zeichen sollten in UTF-8 ohne BOM kodiert sein.
┬á RTF RTF ist ein propriet├Ąres Format von Microsoft f├╝r den Datenaustausch, das von vielen Programmen unterst├╝tzt wird. Wegen m├Âglichen Kompatibilit├Ątsproblemen sollte DOCX oder ODT bevorzugt werden.
SXW SXW ist ein Vorg├Ąngerformat von ODT, weshalb letzteres auch bevorzugt werden sollte.
┬á DOC Das DOC-Format von Microsoft eignet sich nicht zur Archivierung, da es propriet├Ąr ist und die Inhalte nicht textbasiert gespeichert werden.
PDF F├╝r die Archivierung wurde speziell das Format PDF/A entwickelt, weshalb dieses verwendet werden sollte.

Dokumentation

Metadaten f├╝r Textdokumente k├Ânnen in vielen F├Ąllen direkt in das Dokument eingetragen werden. Beispielsweise als Deckblatt oder in daf├╝r vorgesehenen Teilen von strukturierten Dokumenten. Zus├Ątzlich k├Ânnen einige Informationen als Dokumenteigenschaften in der Datei gespeichert werden.

Neben den allgemeinen Angaben zu Einzeldateien, wie sie in dem Abschnitt Metadaten in der Anwendung gelistet sind, ben├Âtigen Textdokumente insbesondere Angaben zur verwendeten Zeichenkodierung und eine Auflistung der Sprachen.

Falls das Dokument publiziert wurde und eine ISBN oder einen anderen persistenten Identifikator erhalten hat, m├╝ssen diese neben den allgemeinen Angaben zur Publikation ebenfalls angegeben werden. Eingebettete Medien, wie Bilder oder Tabellen mit Formeln, sollten separat gespeichert und archiviert werden und in einer Liste weiterer Dateien aufgef├╝hrt werden.

Wenn das Aussehen wichtig ist und ein Format verwendet wird, welches das Einbetten von Schriftarten nicht erm├Âglicht, m├╝ssen die verwendeten Schriftarten explizit genannt werden.

Die hier angegebenen Metadaten sind als minimale Angabe zu betrachten und erg├Ąnzen die angegebenen Metadaten f├╝r Projekte und Einzeldateien in dem Abschnitt Metadaten in der Anwendung.

Metadatum Beschreibung
Zeichenkodierung Welches Zeichenkodierung wird verwendet?
Sprache In welchen Sprachen ist das Dokument verfasst? Sprachkennungen nach ISO 639 angeben.
Identifikator Wenn das Dokument bereits ver├Âffentlicht wurde und eine ISBN oder einen anderen persistenten Identifikator erhalten hat, sollte dieser angegeben werden.
weitere Dateien Liste von eingebetteten Medien, die zus├Ątzlich separat gespeichert wurden. Liegt eine Dokumentationsdatei f├╝r das Dokument vor, muss diese ebenfalls genannt werden.
Schriftarten Angabe der verwendeten Schriftarten (Fonts), f├╝r Dokumente ohne eingebettete Fonts.

Weitere Metadaten sind methodenabh├Ąngig und k├Ânnen in den jeweiligen Abschnitten nachgelesen werden.

Weitere Inhalte

Auszeichnungssprache ┬Ě Digitalisate ┬Ě Editor ┬Ě Erg├Ąnzen und extrahieren von Metadaten ┬Ě Markup Language ┬Ě Schriftart (Font) ┬Ě Schriftart einbetten ┬Ě Textdokumente mit Formatierungsangaben ┬Ě Texteditor ┬Ě Unicode ┬Ě UTF ┬Ě Zeichenkodierung ┬Ě Zeichenkodierung einstellen ┬Ě Zeichensatz

Texdokumente und Textdateien bestehen aus einer Folge von Zeichen, die W├Ârter, S├Ątze und Abs├Ątze bilden. Auf Maschinenebene werden diese Zeichen durch Zahlenwerte gespeichert und die Zeichenkodierung beschreibt, welcher Zahlenwert f├╝r welches Zeichen steht.

Wie ein Zeichen dargestellt wird, h├Ąngt von der verwendeten Schriftart, dem sogenannten Font ab, der einen Satz an Bildern f├╝r die verschiedenen Schriftzeichen bereitstellt.

Die Inhalte von Textdateien k├Ânnen durch die Verwendung einer Auszeichnungssprache strukturiert und beschrieben werden und somit auch eine maschinelle Verarbeitung erm├Âglichen.

Zeichenkodierung und Zeichensatz

Zur korrekten Darstellung der Zeichen in einem Textdokument muss der Computer wissen, welche Zeichenkodierung (encoding) verwendet wird. Auf Maschinenebene wird ein Zeichen als eine Folge von Nullen und Einsen, in Form von Bytes gespeichert, die wiederum bestimmte Zahlenwerte angeben. Diese Zahlenwerte k├Ânnen in Abh├Ąngigkeit der Zeichenkodierung unterschiedlich interpretiert werden.

Eine Zeichenkodierung kann abstrakt als eine Tabelle verstanden werden, in der einer bestimmten Zeichenmenge, dem Zeichensatz, Zahlenwerte zugeordnet werden. Beispielsweise hat der Buchstabe A in dem American Standard Code for Information Interchange (ASCII) den dezimalen Zahlenwert von 65. Der ASCII-Zeichensatz besteht aus insgesamt 128 Zeichen die jeweils mit einem Byte gespeichert werden. Er enth├Ąlt keine diakritischen Zeichen, wie etwa ├Ą, oder gar andere Schriften, weshalb verschiedene Erweiterungen der ASCII-Kodierung entwickelt wurden, um insgesamt 256 verschiedene Zeichen zu kodieren.

Beispiele f├╝r diese Erweiterungen sind ISO 8859-1 f├╝r lateinische Schriften oder ISO 8859-7 f├╝r das griechische Alphabet. In beiden Zeichenkodierungen hat das Zeichen A jeweils den Wert 65. Jedoch stellt der Wert 228 in ISO 8859-1 das Zeichen ├Ą und in ISO 8859-7 das Zeichen ╬┤ dar. Die Angabe der verwendeten Zeichenkodierung ist entscheidend daf├╝r, ob auf dem Bildschirm ├┤├ą├Ě├ş├ž oder ¤ä╬Á¤ç╬Ż╬Ě dargestellt wird.

In der Vergangenheit war es besonders schwierig, wenn in einem Text gleichzeitig Umlaute und griechische Buchstaben verwendet werden sollten, da jede ASCII-Erweiterung jeweils nur insgesamt 256 Zeichen kodiert und einem Dokument nicht mehr als eine Zeichenkodierung zugewiesen werden kann. Deshalb wurde Unicode entwickelt.

Unicode ist ein Zeichensatz, in dem aktuell f├╝r 113.021 Zeichen aus 123 Schriftsystemen eindeutige Codepunkte (code points) zugewiesen werden. Die Codepunkte werden mittels einer hexadezimalen Zahl und einem vorangestellten U+ dargestellt, wie beispielsweise U+00C4 f├╝r ├Ą. Zugleich stellt dieser Zeichensatz die Umsetzung von dem in ISO 10646 beschriebenen universellen Zeichensatz Universal Character Set dar.

Um den Unicode-Zeichensatz in einem System anwenden zu k├Ânnen, wurden Zeichenkodierungen definiert, die unter dem Namen Unicode Transformation Format (UTF) subsumiert werden. Zu den h├Ąufigsten geh├Âren dabei UTF-8 und UTF-16, die im Web und in verschiedenen Betriebssystemen eine gro├če Verbreitung gefunden haben. Der Unterschied besteht dabei in der Zahl der pro Zeichen verwendeten Bytes. Eine Besonderheit von UTF-8 besteht darin, dass die Bytedarstellungen der ersten 128 Zeichen denen der 128 Zeichen des ASCII-Zeichensatzes entspricht.

Das Unicode-Zeichen U+FEFF gibt am Anfang des kodierten Dokumentes an, in welcher Reihenfolge die Bytes angeordnet sind. Diese Bytereihenfolge-Markierung (engl. byte order mark) wird als BOM abgek├╝rzt und ist bei der Verwendung von UTF-16 und UTF-32 zwingend in der Datei erforderlich. Zus├Ątzlich kann das BOM ein Hinweis auf die Verwendung von UTF-Kodierungen sein, jedoch wird von dessen Verwendung au├čer f├╝r UTF-16 und UTF-32 abgeraten.

Schriftart

Das optische Erscheinungsbild eines Textdokumentes h├Ąngt vorwiegend von den verwendeten Schriftarten (Fonts) ab. Es handelt sich dabei um die elektronische Form von Schriftarten, die f├╝r jedes Zeichen eine Raster- oder Vektorgrafik zur Verf├╝gung stellt.

Nicht auf jedem Rechner sind die gleichen Schriftarten installiert. Wenn ein Textdokument auf einem anderen System ge├Âffnet wird, wo die Schriftarten nicht verf├╝gbar sind, werden diese automatisch durch andere ersetzt. Das kann zu Inkonsistenzen der Dokumentdarstellung auf unterschiedlichen Systemen f├╝hren, weil beispielsweise W├Ârter, S├Ątze oder Abs├Ątze von einer Seite auf die n├Ąchste oder vorhergehende wandern, was f├╝r die Referenzierung von Inhalten problematisch ist.

Daher muss f├╝r Dokumente, deren optischer Eindruck erhalten bleiben soll, zumindest der verwendete Font in den Metadaten angegeben werden. Wenn es das Format erlaubt, kann der Font auch in die Datei eingebettet werden, was im Praxisteil erl├Ąutert wird.

Auszeichnungssprachen

Der Inhalt von reinen Textdateien kann durch die Verwendung von Auszeichnungssprachen (Markup Languages) n├Ąher beschrieben werden. Beispielsweise k├Ânnen verschiedene Gliederungsebenen mit Hilfe von bestimmten Auszeichnungselementen (auch Tags) annotiert werden. Wie diese Tags aussehen und wie sie angewendet und kombiniert werden k├Ânnen, beschreibt eine Dokumentgrammatik.

Abstrakt k├Ânnen Tags mit Etiketten verglichen werden, die einzelne W├Ârter, Wortgruppen oder ganze Textbereiche umschlie├čen. Die Abbildung veranschaulicht, wie mit einem Tag die Zeichenkette "24-28" als Gr├Â├čenangabe etikettiert wird. Das Tag besteht aus einem ├Âffnenden Teil vor und einem schlie├čendem Teil nach der fraglichen Zeichenkette, wobei das schlie├čende Element zus├Ątzlich durch einen Schr├Ągstrich gekennzeichnet ist.

text_tag-web.png

Die Zeichenkette '24-28' wird durch das Umschlie├čen mit einem Tag als Gr├Â├čenangabe gekennzeichnet.
Die Zeichenkette '24-28' wird durch das Umschlie├čen mit einem Tag als Gr├Â├čenangabe gekennzeichnet.

Mit Auszeichnungssprachen wird das Aussehen eines Textdokumentes von dessen Struktur und Inhalt getrennt. Beispielsweise basieren Webseiten auf HTML-Dateien in denen ├ťberschriften, Abs├Ątze, Links etc. mit Tags gekennzeichnet werden, die den Inhalt strukturieren. Wie dann beispielsweise die ├ťberschriften formatiert werden, h├Ąngt von einer zus├Ątzlichen Datei mit Formatierungsangaben ab, die austauschbar ist.

Die Grundlage vieler heute verwendeter Auszeichnungssprachen bildet die Standard Generalized Markup Language (SGML, Normierte Verallgemeinerte Auszeichnungssprache), die seit 1986 ein ISO-Standard (ISO 8879) ist. Die Regeln f├╝r die zu verwendenden Auszeichnungselemente und deren Kombinationsm├Âglichkeiten sind ├╝blicherweise in einer externen Datei hinterlegt und werden zu Beginn der Datei in der Dokumenttypdeklaration angegeben. Bei SGML handelt es sich dabei um die sogenannte Dokumenttypdefinition (DTD).

Eine Anwendung von SGML ist die Hypertext Markup Language (HTML, Hypertext-Auszeichnungssprache), welche als Grundlage von Webseiten eine sehr gro├če Verbreitung gefunden hat. HTML wird vom World Wide Web Consortium (W3C) und der Web Hypertext Application Technology Working Group (WHATWG) gepflegt und entwickelt. Die aktuellste Version ist HTML5.

Eine Teilmenge von SGML bildet die Extensible Markup Language (XML, Erweiterbare Auszeichnungssprache) und erlaubt im Gegensatz zu HTML die Definition von eigenen Auszeichnungselementen, um beliebige Strukturen annotieren zu k├Ânnen. De facto wurde SGML von der einfacher anwendbaren XML verdr├Ąngt. Auch XML wird vom W3C gepflegt und entwickelt. XML bildet die Grundlage von vielen weiteren Dateiformaten wie ODT, DOCX, SVG etc. F├╝r XML-Dateien gibt es als Alternative zu einer DTD die M├Âglichkeit der Verwendung eines XML Schemas (XSD, XML Schema Definiton).

Auszeichnungssprachen kennzeichnen implizite Informationen, die nur f├╝r den menschlichen Leser verst├Ąndlich sind, explizit. Dadurch wird ein Dokument maschinenlesbar und eine automatische Verarbeitung von semantisch annotierten Informationen in Texten m├Âglich. Beispielsweise kann eine M├╝nze mit Tags beschrieben werden, die das Material, das Gewicht, die Gr├Â├če, den Avers und Revers kennzeichnen. So wei├č auch ein Computerprogramm, welche Zeichenfolge in einer Datei sich auf das Material oder das Gewicht einer M├╝nze bezieht.

text_muenzexml-web.png

Tetradrachme; Objektnummer 18214973 M├╝nzkabinett - Staatliche Museen zu Berlin, Lizenz: CC-BY-NC-SA 3.0 mit einer Beschreibung in XML-Form. Das Material, das Gewicht, die Gr├Â├če, der Avers und der Revers sind mit Tags gekennzeichnet. Zus├Ątzlich ist die Ma├čeinheit von Gewicht und Gr├Â├če als Attribut angegeben.
Tetradrachme; Objektnummer 18214973 M├╝nzkabinett - Staatliche Museen zu Berlin, Lizenz: CC-BY-NC-SA 3.0 mit einer Beschreibung in XML-Form. Das Material, das Gewicht, die Gr├Â├če, der Avers und der Revers sind mit Tags gekennzeichnet. Zus├Ątzlich ist die Ma├čeinheit von Gewicht und Gr├Â├če als Attribut angegeben.

Speziell f├╝r die Geistes-, Sozial- und die Sprachwissenschaften wird von der Text Encoding Initiative (TEI) ein auf XML basierendes Dokumentenformat entwickelt, das den Austausch von maschinenlesbaren Texten unterst├╝tzen und standardisieren soll. Die aktuelle Version ist P5.

Es gibt weitere Auszeichnungssprachen, die speziell die Darstellung der Dokumente beschreiben, also definieren, wie ein Dokument auf dem Bildschirm oder gedruckt aussehen soll. Beispiele hierf├╝r sind das Textsatzsystem TeX mit dem Makropaket LaTeX, PDF oder PostScript.

Es ist erforderlich, dass alle Dateien, die Auszeichnungssprachen verwenden, wohlgeformt und valide sind. Wohlgeformt meint das Einhalten der Regeln der jeweiligen Auszeichnungssprache. Die Validit├Ąt bezieht sich auf die verwendete Grammatik und gilt insbesondere f├╝r SGML-, HTML- und XML-Dateien. Beispielsweise muss eine XML-Datei einen Verweis auf eine DTD oder ein XML Schema enthalten und auch die dadurch vorgegebene Struktur einhalten, um als valide zu gelten.

Dieser Abschnitt liefert Hinweise zum Umgang mit Textdokumenten und Textdateien in der Praxis. Es wird erl├Ąutert, was bei der Speicherung von Textdokumenten mit Formatierungsangaben zu beachten ist und wie Schriftarten eingebettet werden k├Ânnen. Speziell f├╝r Textdateien werden Texteditoren und das Einstellen der Zeichenkodierung thematisiert. Auch Hinweise zur Erg├Ąnzung und Extraktion von Metadaten werden gegeben. F├╝r die Digitalisierung von Texten wurden die wichtigsten Informationen aus den DFG-Praxisregeln "Digitalisierung" zusammengefasst.

Textdokumente mit Formatierungsangaben

Textdokumente mit Formatierungsangaben, wie verschiedene Schriftgr├Â├čen, Fett- oder Kursivschreibung, oder in welche zus├Ątzlich Medien, wie Bilder, Tabellen oder Videos integriert sind, erfordern eine besondere Aufmerksamkeit bei der Speicherung. Das gilt insbesondere wenn bestimmte Formatierungen von Textelementen mit einer Bedeutung verbunden sind und die Authentizit├Ąt des Erscheinungsbildes, also das Aussehen des Dokumentes, wichtig ist, denn dasselbe Dokument k├Ânnte auf verschiedenen Systemen unterschiedlich dargestellt werden.

F├╝r die Bearbeitung von Textdokumenten mit Formatierungsangaben und eingebetteten Medien gibt es dezidierte Textverarbeitungsprogramme, wie OpenOffice Writer, LibreOffice Writer oder Microsoft Word. OpenOffice und LibreOffice speichern Textdokumente standardm├Ą├čig im ODT-Format. Seit 2007 speichert Microsoft Word im DOCX-Format. Beide Formate sind offen dokumentiert, basieren auf XML und sind f├╝r die Langzeitarchivierung geeignet. In allen genannten Programmen ist die Zeichenkodierung bereits auf UTF-8 voreingestellt.

Eingebettete Bilder oder andere Medien sollten zus├Ątzlich als separate Dateien in einem geeigneten Langzeitformat gespeichert werden. Dies stellt sicher, dass die Qualit├Ąt der urspr├╝nglichen Datei erhalten bleibt.

Die Darstellung von Textdokumenten kann auf verschiedenen Computern unterschiedlich ausfallen, was vor allem an unterschiedlichen Einstellungen liegt. Wenn bestimmte Schriftarten auf einem System fehlen, werden sie automatisch ersetzt, was ebenfalls zu unterschiedlichen Darstellungsweisen f├╝hrt. Daher sollten nach M├Âglichkeit die verwendeten Schriftarten eingebettet werden, was im n├Ąchsten Unterabschnitt erl├Ąutert wird.

Eine stabile system├╝bergreifende Darstellung von Textdokumenten kann nur mittels Konvertierung in ein PDF-Dokument gew├Ąhrleistet werden. F├╝r die Langzeitspeicherung sollte PDF/A verwendet werden. Hinweise zum Erstellen von PDF- und PDF/A-Dokumenten sind im Praxisteil zu PDF-Dokumenten zu finden.

Einbettung von Schriftarten

Da das optische Erscheinungsbild eines Textdokumentes unter anderem von den verwendeten Schriftarten abh├Ąngt, kann die Einbettung derselben ratsam sein. Dabei muss darauf geachtet werden, dass die Lizenzen f├╝r die verwendeten Fonts vorhanden sind.

Ab Version 4.1 k├Ânnen in LibreOffice die benutzten Fonts in das ODT-Format eingebettet werden. Dazu im Men├╝ auf "Datei > Eigenschaften" gehen, in dem Dialog den Reiter "Schriftart" anw├Ąhlen und dort den Haken bei "Schriftarten ins Dokument einbetten" setzen. Dieser Vorgang muss f├╝r neue oder andere Dokumente wiederholt werden.

Auch in Microsoft Word ist diese Einstellung f├╝r das DOCX-Format m├Âglich. Dazu auf "Datei > Optionen" gehen, in dem Dialog den Punkt "Speichern" auf der linken Seite ausw├Ąhlen und einen Haken bei "Schriftarten in der Datei einbetten" setzen. Diese Einstellung ist ebenfalls nur f├╝r das aktuelle Dokument g├╝ltig und muss bei anderen Dokumenten bei Bedarf wiederholt werden.

Werden Textdokumente als PDF exportiert, so werden die verwendeten Schriftarten automatisch eingebettet. Aktuell funktioniert die Einbettung von Fonts in andere Dateiformate als PDF nicht v├Âllig fehlerfrei.

Texteditoren und Editoren f├╝r Auszeichnungssprachen

F├╝r die Bearbeitung von Textdateien wie TXT, XML oder HTML sind einfache spezialisierte Texteditoren am besten geeignet. In den verschiedenen Betriebssystemen ist ├╝blicherweise mindestens ein Texteditor vorinstalliert, wie beispielsweise Editor oder Notepad bei Microsoft Windows. Im Vergleich zu Textverarbeitungsprogrammen ist der Funktionsumfang bei Texteditoren deutlich kleiner, was bei reinen Textdateien aber kein Nachteil ist.

Gerade f├╝r den t├Ąglichen Umgang mit Textdateien empfiehlt sich die Verwendung von leistungsf├Ąhigen Editoren, die neben ausgefeilten Suchfunktionen auch Autovervollst├Ąndigung oder f├╝r Auszeichnungssprachen Syntaxhervorhebung bieten. F├╝r Mac OS X gibt es beispielsweise TextWrangler und f├╝r Windows Notepad++ als kostenlose Angebote. Eine umfangreiche vergleichende Liste von Texteditoren ist auf Wikipedia zu finden.

F├╝r den regelm├Ą├čigen Umgang mit einem bestimmten Format, wie etwa HTML oder XML, k├Ânnen weiter spezialisierte Editoren praktisch sein.

Einstellen der Zeichenkodierung

Wenn keine besonderen Anforderungen dagegen sprechen, sollte Unicode f├╝r die Zeichenkodierung verwendet werden. Dabei sollte UTF-8 ohne BOM bevorzugt werden.

In modernen Textverarbeitungsprogrammen, die DOCX oder ODT speichern, ist dies f├╝r die genannten Formate voreingestellt und muss nicht explizit angepasst werden.

Bei der Bearbeitung von Textdateien mit Texteditoren muss auf die richtigen Einstellungen und Speicheroptionen geachtet werden. Insbesondere wenn eine Datei auf verschiedenen Ger├Ąten bearbeitet wird, ist es wichtig, dass die urspr├╝nglichen Dateieinstellungen, wie eben die Zeichenkodierung, beibehalten werden.

In Notepad++ kann f├╝r alle neuen Dateien eine Zeichenkodierung vorgegeben werden. Dazu im Men├╝ auf "Einstellungen > Optionen" klicken und unter "Neue Dateien" die gew├╝nschte Kodierung ausw├Ąhlen. Wird eine vorhandene Textdatei mit Notepad++ ge├Âffnet und bearbeitet, werden beim Speichern die urspr├╝nglichen Einstellungen der Datei ├╝blicherweise beibehalten. Die Kodierung einer vorhandenen Datei kann ├╝ber den Men├╝punkt "Kodierung > Konvertiere zu..." ge├Ąndert werden.

text_notepadMarkierung.png

Screenshot von Notepad++ mit einer ge├Âffneten XML-Datei. Die Men├╝punkte Einstellungen und Kodierung wurden hervorgehoben. Im unteren rechten Bereich ist die Anzeige der verwendeten Zeichenkodierung gekennzeichnet.
Screenshot von Notepad++ mit einer ge├Âffneten XML-Datei. Die Men├╝punkte Einstellungen und Kodierung wurden hervorgehoben. Im unteren rechten Bereich ist die Anzeige der verwendeten Zeichenkodierung gekennzeichnet.

In TextWrangler ist diese Option unter "TextWrangler > Preferences > Text Encoding" zu finden. Auch hier werden die Einstellungen der Zeichenkodierung einer vorhandenen Datei beibehalten. Zus├Ątzlich besteht die M├Âglichkeit die Zeichenkodierung zu ├Ąndern, indem eine Datei ├╝ber "File > Reopen Using Encoding" und der gew├╝nschten Kodierung ge├Âffnet wird.

text_wranglerMarkierung.png

Screenshot von TextWrangler mit einer ge├Âffneten XML-Datei. Die Men├╝punkte TextWrangler und File wurden hervorgehoben. Im unteren linken Bereich ist die Anzeige der verwendeten Zeichenkodierung gekennzeichnet.
Screenshot von TextWrangler mit einer ge├Âffneten XML-Datei. Die Men├╝punkte TextWrangler und File wurden hervorgehoben. Im unteren linken Bereich ist die Anzeige der verwendeten Zeichenkodierung gekennzeichnet.

Metadaten bearbeiten und erg├Ąnzen

In der Regel werden nur wenige Metadaten automatisch in Textdokumenten von Textverarbeitungsprogrammen wie Microsoft Word, OpenOffice Writer oder LibreOffice Writer angelegt und gespeichert. Dazu geh├Âren vor allem technische Informationen, wie Dateigr├Â├če, Dateiname, Erstellungs- und ├änderungsdatum. Auch eine Statistik mit der Anzahl der Zeichen, W├Ârter, Abs├Ątze etc. wird erstellt. Als Autor wird der f├╝r das jeweilige Programm angegebenen Nutzername gespeichert. ├ťber die Men├╝punkte "Datei > Informationen > Eigenschaften" bzw. "Datei > Eigenschaften" lassen sich die Angaben anpassen und erg├Ąnzen. Beispielsweise kann ein Titel, Schlagworte und ein Beschreibungstext eingef├╝gt werden. Zus├Ątzliche Angaben k├Ânnen unter "Anpassen" bzw. "Benutzerdefinierte Eigenschaften" aus einer Liste gew├Ąhlt und ausgef├╝llt werden. Dar├╝ber hinausgehende Informationen wie beispielsweise ein Identifikator oder Angaben zur Lizenz, k├Ânnen in einer getrennten Text- oder XML-Datei hinterlegt werden. Ausf├╝hrlichere Angaben sind in "Verfahren zur Produktion interoperabler Metadaten in digitalen Dokumentenverarbeitungsprozessen" von Alexander Haffner (2011) zu finden.

Bei Textdokumenten bietet sich die M├Âglichkeit, neben einem Deckblatt auch einen Innentitel mit den relevanten Metadaten zu integrieren. Hier k├Ânnen zus├Ątzlich ein Zitierhinweis und eine l├Ąngere Versionshistorie untergebracht werden. Ein Beispiel f├╝r solch einen Innentitel findet sich am Anfang der PDF-Version dieser Empfehlungen.

In reinen Textdateien, wie TXT oder plain text, k├Ânnen keine Metadaten als Eigenschaften in das Dateiformat integriert werden. Es besteht jedoch die M├Âglichkeit, sie mit in das Dokument einzutragen oder eine separate Datei anzulegen. Auszeichnungssprachen bieten zu diesem Zweck meist einen eigens daf├╝r vorgesehenen Bereich am Beginn der Datei, den sogenannten Kopfbereich oder Header.

Tools wie beispielsweise das Metadata Extraction Tool oder eines der Tools, die auf forensicswiki.org gelistet sind, k├Ânnen verwendet werden, um Metadaten zu extrahieren und in separaten Dateien zu speichern.

Digitalisate

F├╝r die Digitalisierung von analogen Schriftst├╝cken mittels eines Scanners gibt es ausf├╝hrliche Hinweise in den DFG-Praxisregeln "Digitalisierung".

Eine kurze ├ťbersicht aus dem oben angegebenen Dokument ist in der folgenden Tabelle zu finden:

Gr├Â├če des kleinsten signifikanten Zeichens Aufl├Âsung
bis 1 mm min. 400 dpi
ab 1,5 mm min. 300 dpi
Die Speicherung erfolgt in Form unkomprimierter Baseline TIFF-Dateien

Um zu verdeutlichen, dass von der Vorlage nichts abgeschnitten wurde, sollten Seiten immer vollst├Ąndig mit einem umlaufenden Rand gesichert werden.

Der Scan eines Textdokumentes ist zun├Ąchst eine digitale Rastergrafik, die erst durch optische Zeichenerkennung (OCR, von engl. Optical Character Recognition) oder Transkription zu einem digitalen Textdokument wird. Mit OCR bearbeitete Texte ben├Âtigen eine Angabe zur Genauigkeit der Buchstaben in Prozent. Ab Seite 30 der Praxisregeln wird die Ermittlung der Buchstabengenauigkeit beschrieben.

Die DFG-Praxisregeln beziehen sich teilweise auf die Richtlinien der Federal Agencies Digitization Guidelines Initiative (FADGI), die in englischer Sprache in dem Dokument "Technical Guidelines for Digitizing Cultural Heritage Materials: Creation of Raster Image Master Files" zu finden sind.

Bei der Neubeschaffung eines Scanners muss darauf geachtet werden, dass er die Mindestanforderungen f├╝r den jeweiligen Digitalisierungszweck erf├╝llt.

Archaeology Data Service, Documents and Digital Texts: A Guide to Good Practice
http://guides.archaeologydataservice.ac.uk/g2gp/TextDocs_Toc

A. Haffner, Verfahren zur Produktion interoperabler Metadaten in digitalen Dokumentenverarbeitungsprozessen (Frankfurt am Main 2011)
http://www.kim-forum.org/Subsites/kim/DE/Materialien/Dokumente/dokumente...

R. Ishida, Zeichencodierung f├╝r Anf├Ąnger
http://www.w3.org/International/questions/qa-what-is-encoding

R. Ishida, Zeichencodierungen: grundlegende Konzepte
http://www.w3.org/International/articles/definitions-characters/

A. Morrison -- M. Popham -- K. Wikander, Creating and Documenting Electronic Texts: A Guide to Good Practice
http://ota.ahds.ac.uk/documents/creating/cdet/index.html

A. Morrison -- M. Wynne, AHDS Preservation Handbook: Marked-up Textual Data (2005)
http://ota.ahds.ac.uk/documents/preservation/preservation_markup.pdf

nestor (Hrsg.) Nicht von Dauer: Kleiner Ratgeber f├╝r die Bewahrung digitaler Daten in Museen (2009) 22-28

H. Neuroth -- A. O├čwald -- R. Scheffel -- S. Strathmann -- M. Jehn (Hrsg.) nestor Handbuch. Eine kleine Enzyklop├Ądie der digitalen Langzeitarchiverung. Version 2.0 (2009) Kap. 17.2

G. Rehm, Texttechnologische Grundlagen, in: K.-U. Carstensen -- Ch. Ebert -- C. Endriss -- S. Jekat -- R. Klabunde -- H. Langer (Hrsg.) Computerlinguistik und Sprachtechnologie. Eine Einf├╝hrung ┬▓(M├╝nchen 2004) 138-147

TEI (Hrsg.) A Gentle Introduction to XML
http://www.tei-c.org/release/doc/tei-p5-doc/de/html/SG.html

DFG-Praxisregeln "Digitalisierung"
http://www.dfg.de/formulare/12_151/12_151_de.pdf

FAQ zu UTF und BOM
http://www.unicode.org/faq/utf_bom.html

Formatspezifikationen

Tools und Programme

Textdokumente - Diskussion

Haben Sie Anregungen, ├änderungsw├╝nsche oder Erg├Ąnzungen zu dem Kapitel? Dann k├Ânnen Sie diese als Diskussionsbeitrag formulieren. Um die Funktion zu nutzen, ist eine Anmeldung erforderlich.

Bitte geben Sie m├Âglichst genau an, worauf Sie sich beziehen.

Das IANUS-Team pr├╝ft die Diskussionsbetr├Ąge regelm├Ą├čig und arbeitet diese bei Relevanz in die IT-Empfehlungen ein.

 

Letzte Änderung: 4. April 2016