Katalog archivischer Dateiformate Version 5.0, Juli 2016

PDF/A-2 für Hypertext


Das im Browser beim Laden einer HTML-Datei erzeugte Dokument oder DOM-Objekt kann genauso, wie es ausgedruckt werden kann, auch in eine PDF-Datei konvertiert werden. Bei der Konvertierung zu PDF werden alle eingebetteten Ressourcen in der PDF-Datei gespeichert und nach Vorgabe des Konverters in entsprechende AV-Formate konvertiert, insbesondere wenn als Zielformat PDF/A gewählt wird (dann werden zum Beispiel GIF-Bilder in JPEG oder JPEG2000 konvertiert).

Die Abbildung der Hypertext-Funktionalität wird je nach Anbieter unterschiedlich gelöst. PDF kennt Links. (Interne und externe Links sind in PDF/A erlaubt. PDF/A-1 Reader sollten Links nicht ausführen. PDF/A-2 Reader sollten interne Links ausführen, jedoch die externen nicht, da nicht gewährleistet werden kann, dass diese auch funktionieren.) Damit können die einzelnen Seiten auf gleiche Art verbunden werden. Dabei existieren zwei unterschiedliche Lösungen, wie einzelne Webseiten verbunden werden können. Der erste Ansatz erstellt pro Webseite eine PDF/A-Datei und verlinkt alle PDF/A-Dateien zu einem kompletten Webauftritt. Der zweite Ansatz speichert die Webseiten in der Reihenfolge des Crawlens nach ihrem Abruf beim Crawlen hintereinander in derselben Datei, wobei ein ganzer Webauftritt leicht die maximale Grösse einer PDF-Datei überschreiten kann (8‘388‘607 Objekte, 10GB, bei PDF/A-1 ist die maximale Grösse 2GB).

Die technischen Eigenschaften von PDF/A-2 sind im Kapitel zu den Textformaten ausführlich beschrieben. Dort steht auch ein detaillierter Vergleich mit den Versionen 1 und 3. Für die Verwendung als Archivformat für Hypertextdaten ist die Version 2 notwendig, weil erst in dieser Version die Ausführung PDF-interner Links erlaubt und die maximale Dateigrösse von 2GB aufgehoben wurde.

Hier erfolgt einzig die Kurzbewertung von PDF/A-2 für die Verwendung als Format zur Archivierung von Hypertext.

Bewertung



Offenheit: 4

PDF/A-2 ist ein ISO-Standard.

Lizenzfreiheit: 4

Das Kriterium Lizenzfreiheit ist für PDF/A-2 erfüllt; insbesondere, weil u.a. nicht alle Kompressionsalgorithmen verwendet werden dürfen und die Schriften eingebettet sind.

Verbreitung: 3

PDF/A-2 hat in den letzten Jahren in den Archiven und der Geschäftswelt stark an Verbreitung gewonnen.

Funktionalitaet: 2

Grundsätzlich hängt die Funktionalität von PDF/A-2 als Archivformat für Hypertextdaten von der einzelnen Seite ab. Der eingebettete Content der einzelnen Seite kann je nach dem nicht in PDF/A-2 konvertiert werden.

Implementierung: 3

Es existieren einerseits Tools zur Erzeugung von PDF/A-2-Dokumenten, die in der Lage sind, gesamte Webseiten aber auch ganze Internetauftritte in einer PDF-Datei zu speichern. Andererseits gibt es Speziallösungen zur Internetarchivierung, die auch eine Speicherung in PDF/A-2 oder PDF erlauben. Eine PDF-Datei kann mit jedem beliebigen PDF-Reader betrachtet werden.

Speicherdichte: 2

PDF/A-2 dient als Container für die diversen in HTML eingebetteten Ressourcen. Je nach Kompression für diese Ressourcen, z.B. JPEG2000-Bilder, kann die Speicherdichte relativ hoch sein. Ein weiterer Faktor hängt von der Art und Weise ab, wie die einzelnen Versionen der Webauftritte untereinander verlinkt werden.

Verifizierbarkeit: 4

PDF/A-2-Dateien können von Formaterkennungssoftware erkannt werden. Es existieren mehrere Validatoren für das Format.

Best Practice: 3

Das Format wird in Archiven zunehmend eingesetzt und hat eine sehr hohe Akzeptanz als Archivformat. Im Bereich der Webarchivierung hat es aber bis jetzt nur eine geringe Bedeutung erlangt.

Perspektive: 4

Das Format wurde als Archivformat entwickelt und wird archivisch begleitet weiterentwickelt.

Formatklasse: B

PDF/A-2 ist im Hinblick auf die Archivierung spezifiziert worden und widerspricht nicht den Anforderungen an die dauerhafte Archivierung.


Fazit

PDF/A als Hypertext-Format hat auf jeden Fall die Vorteile, dass beim Abspeichern eine Konvertierung in ein bekanntes archivtaugliches Format stattfindet, dass sämtliche in HTML eingebetteten weiteren Formate ebenfalls PDF/A-konform eingebettet werden, dass die Hyperlinkfunktionalität erhalten bleibt, und dass zum Betrachten nur noch ein PDF-Reader notwendig ist und kein Browser mit entsprechenden Plug-ins.

Zu beachten bleibt, dass der Konvertierung von HTML zu PDF immer ein bestimmter HTML Rendering Agent, also ein bestimmter Browser, zugrunde liegt, das archivierte PDF also diese Browsersicht widerspiegelt und nicht die universelle Vorgabe des HTML-Dokuments. Das heisst zum Beispiel, dass die abstrakte HTML-Anweisung „Überschrift 1“ in Text einer bestimmten Grösse, Fett und mit einem bestimmten Abstand zum Folgetext abgebildet wird.

Literatur

Adobe White Paper: PDF as a Standard for Archiving
https://www.adobe.com/enterprise/pdfs/pdfarchiving.pdf

last update: claire.roethlisberger - Mon, 04 Jul 2016 [15:39:37]
Copyright © by Koordinationsstelle für die dauerhafte Archivierung elektronischer Unterlagen
Copyright © by Centre de coordination pour l'archivage à long terme de documents électroniques