Katalog archivischer Dateiformate Version 5.0, Juli 2016

Hypertext


Hypertext bezeichnet eine Menge von Texten, die über Verknüpfungen (links) miteinander verbunden sind. Die Gestaltung der Texte wie auch die Verknüpfungen erfolgen mit einer Auszeichnungssprache (markup language). Die bekannteste Hypertext-Auszeichnungssprache ist HTML. Damit ist das World Wide Web der grösste Hypertext. Dieses gliedert sich wiederum in thematisch/inhaltliche Unterbereiche, die wir Website oder Internetauftritt nennen und die durch eine gemeinsame Domain ausgezeichnet sind, und weiter bis hin zur einzelnen Webseite oder Webpage, die genau genommen auch wieder ein Hypertext ist, weil sie aus einer HTML-Seite und einer Menge referenzierter Webressourcen besteht.

Drei Probleme stellen sich bei der Archivierung:
Erstens ist Hypertext in Form eines Netzes strukturiert. Versuchen wir, die einzelnen Webseiten so, wie wir das sonst gewohnt sind, linear oder hierarchisch abzubilden, verlieren wir einen wichtigen semantischen Aspekt. Wir müssen also die Seiten und die Verlinkung gemeinsam archivieren. Das Netz der Verlinkungen ist nirgends extern vorhanden, wie z.B. ein Ordnungssystem, sondern entsteht implizit aus allen Links in allen Seiten und wird beim Crawlen der Webseiten ermittelt.

Zweitens entsteht eine Webseite erst durch das Zusammenspiel einer HTML-Seite und einer Menge von Webressourcen im Browser und ist nirgends als Quelldatei vollständig greifbar. Darum verwendet man für das Archivieren von Webseiten oder ganzen Internetauftritten eine Software, welche die Sicht des Browsers simuliert, oder trägt alle für die Darstellung im Browser notwendigen Ressourcen als Dateien zusammen.

Drittens: Folgen wir der Unterscheidung zwischen Object und Representation Information in OAIS, ist es schwierig zu sagen, wo das Objekt zu finden ist, weil heutige Content-Management-Systeme (CMS) in der Regel nirgends mehr eigentliche HTML-Seiten speichern, sondern diese aus einer Menge von Daten erst im Falle der Anfrage zusammenbauen. Genauso schwierig ist es mit der Representation Information: Wir haben im CMS eine erste Ebene, wo aus Informationsobjekten eine Seite gestaltet wird. In einem zweiten Schritt ergänzt der Webserver diese Seite bei der Auslieferung, der Browser lädt als dritten Repräsentationsschritt zusätzliche Ressourcen vom Webserver und anschliessend führt er eingebettetes JavaScript aus, das noch einmal Ressourcen laden kann und die Seite in die eigentliche Form bringt, die dann angezeigt wird.

Für die Bewertung stellt das Fehlen einer Hierarchie ebenfalls ein grosses Problem dar. Es können nur Webseiten einzeln oder Internetauftritte integral bewertet werden.

Untersuchte Formate


Empfehlung

Obwohl WARC das eingeführte Format der Webarchivierung ist, kann es als Langzeitformat nicht empfohlen werden: Die Vielzahl möglicher eingebetteter Formate und die Schwierigkeit, diese zu migrieren, sprechen dagegen. Für die Archivierung eines gesamten Webauftritts empfiehlt sich längerfristig eindeutig eine Umwandlung in PDF/A. Dabei können einzelne Webseiten in PDF konvertiert werden, wobei die Verlinkung über die Dateiablagestruktur realisiert wird, oder ein gesamter Webauftritt wird als PDF/A-2-Datei gespeichert und die Hypertextlinks verweisen dann von PDF-Seite zu PDF-Seite.
HTML oder HTML5 können eigentlich nur als Archivformat für Seiten ohne eingebettete externe Ressourcen empfohlen werden, als Ersatz für Plain Text, mit der zusätzlichen Möglichkeit, auch Textstruktur und Layout festzuhalten. HTML-Formate gehören im Katalog also eher zu den strukturierten Textformaten.

Studie

Studie zur Webarchivierung

Literatur

Nestor Handbuch: Kapitel 17.9, Web-Archivierung zur Langzeiterhaltung von Internet-Dokumenten
http://nestor.sub.uni-goettingen.de/handbuch/artikel/nestor_handbuch_artikel_293.pdf



last update: martin.kaiser - Wed, 01 Jun 2016 [14:07:58]
Copyright © by Koordinationsstelle für die dauerhafte Archivierung elektronischer Unterlagen
Copyright © by Centre de coordination pour l'archivage à long terme de documents électroniques