Katalog archivischer Dateiformate Version 5.0, Juli 2016

Einleitung


Der Katalog archivischer Dateiformate KaD beschreibt 37 wichtige und verbreitete Dateiformate und analysiert ihre Eignung für die digitale Archivierung. Diese Formate gehören verschiedenen Kategorien an: Text, Bild, Audio, Video, Tabellenkalkulation, Datenbanken und Hypertext.

Analyse und Bewertung

Unter Archivinstitutionen besteht ein grober Konsens über die Eigenschaften, die ein Format aufweisen sollte, um als langzeittauglich zu gelten. Diese Eigenschaften können als Kriterien formuliert werden, mit deren Hilfe die einzelnen Formate analysiert werden. Der KaD basiert auf einem Kriterienkatalog, welcher drei Sichtweisen auf die Formate umfasst:
  1. Eine Bewertung anhand archivfachlicher Kriterien legt offen, in welchem Mass ein Format die Anforderungen von Archiven an die Archivtauglichkeit erfüllt und welche Risiken bei seiner Verwendung zu beachten sind. Der KaD verwendet dazu sieben unterschiedlich gewichtete Kriterien.
  2. Eine Best-Practice-Analyse hält fest, wie jedes Format in der Archivwelt beurteilt und in den Verwaltungen angewendet wird. Die Orientierung an Best Practices ergänzt die technischere, aber unter Umständen zu abstrakte archivfachliche Analyse. Diese Sicht lässt sich in zwei weitere Kriterien übersetzen.
  3. Eine Klassifizierung der Formate erlaubt es, unterschiedliche Bewertungen gemäss den ersten beiden Sichten zu verstehen, und trägt zum Entscheid über eine Empfehlung bei. Es wird unterschieden zwischen altbekannten und aktuellen Formaten, die sich auf Grund ihrer Stabilität für die Archivierung eignen; neuen Formaten, die zweifellos grosse Verbreitung erlangen werden; und potentiellen Formaten, bei deren Design die Archivtauglichkeit eine besondere Rolle gespielt hat, deren Zukunft aber noch nicht absehbar ist.


Drei Sichten der Formatanalyse

Die Betrachtung der Dateiformate aus diesen drei Sichten führt zu zwei sich ergänzenden Resultaten. Einerseits ermöglicht der Katalog der archivfachlichen und Best-Practice-Kriterien, die untersuchten Formate jeder Kategorie in eine Rangfolge gemäss ihrer Archivtauglichkeit zu bringen. Dabei wird jedes Format an Hand des Kriterienkatalogs bewertet und erhält zu jedem Kriterium eine Bewertung von 1 (nicht erfüllt) bis 4 (vollständig erfüllt). Diese Bewertungen werden mit der Gewichtung des Kriteriums multipliziert und aufsummiert. Um eine aussagekräftige Rangliste zu erhalten, wird der Logarithmus über dem Mittelwert innerhalb einer Kategorie berechnet. Formate, die Werte grösser als eins erreichen, können dann als überdurchschnittlich archivtauglich gelten.

Die Analyse nach Formatklassen anderseits lässt sich nicht in einen numerischen Wert übersetzen. Sie hilft aber bei der Interpretation der Resultate, erlaubt es, Trends zu erkennen, und ermöglicht eine Prognose über die den Archiven potentiell in nächster Zeit zur Übernahme angebotenen Formate.

Die Resultate der Analyse sind in der Bewertungsmatrix zusammengefasst, die auch als Excel Tabelle und als PDF Datei verfügbar ist. Diese Analyse identifiziert eine Reihe von archivtauglichen Formaten (in der untersten Zeile grün markiert), während einzelne Formate im KaD als nicht archivtauglich bezeichnet werden müssen (rot markiert). Etliche Formate können nur als bedingt archivtauglich gelten (grau markiert). Migration solcher Formate in ein archivtaugliches Format muss aber nicht zwingend bei der Übernahme erfolgen. Es kann durchaus das Ende des Lebenszyklus des Formates abgewartet und somit der Migrationszyklus verlängert werden, sofern ein aktives Monitoring des Formatlebenszyklus gewährleistet ist. Dies betrifft insbesondere verbreitete aber als nicht archivtauglich klassierte Dateiformate wie Bsp.: JPEG, MP3, MPEG-2.


Bewertungsmatrix zur Archivtauglichkeit von Dateiformaten


Anwendung im Archiv

Der KaD soll nicht den falschen Eindruck erwecken, die Aufgabe der digitalen Archivierung sei allein durch die richtige Formatwahl lösbar. Die Wahl des geeigneten Archivformats für bestimmte digitale Unterlagen hängt von verschiedenen Faktoren ab. In den Einleitungstexten zu den verschiedenen Formatkategorien ist erläutert, wie der konkrete Anwendungsfall und Bewertungsentscheid die Formatwahl beeinflussen. Allgemeine Überlegungen zur Anwendung des KaD sind im Folgenden festgehalten.

In der Regel legt ein Archiv eine Liste von Formaten fest, die es als archivtauglich akzeptiert. Es darf sich dabei wie auch bei vielen anderen seiner Tätigkeiten nicht als alleinstehende Institution verstehen, sondern ist verschiedenen Einflüssen ausgesetzt. Meist zeigen sich diese Einflüsse in den knappen Ressourcen finanzieller und personeller Art; daneben treten weitere interne oder externe Einflüsse auf.


Einflüsse auf die Formatauswahl

Bei der Festlegung dieser Formatliste sieht sich das Archiv mit einer grossen Menge an unterschiedlichen Formaten konfrontiert. All diese Formate zu analysieren, übersteigt die Ressourcen der meisten Archive. Hier greift der KaD ein, in dem Analysen verschiedenster Formate enthalten sind. Der KaD dient den Archiven damit nicht nur als Informationsquelle, sondern auch als Entscheidungshilfsmittel. Erstens zeigt er auf, welche Formate nach heutigem Kenntnisstand archivtauglich sind und als Zielformate für die Migration dienen können. Zweitens dient er im Kontakt mit der Verwaltung als Referenz dafür, welche Formate aus archivischer Sicht im aktiven Lifecycle verwendet (und entsprechend empfohlen) werden können.

Die im KaD als archivwürdig definierten Formate sind als Empfehlung zu verstehen. Welche Formate ein Archiv als tauglich für die digitale Archivierung zulässt, bleibt seine Entscheidung.

Aufbau des KaD


Empfehlung

Die Kernaussagen des KaD sind in einer Kurzempfehlung zusammengefasst.
last update: martin.kaiser - Tue, 05 Jul 2016 [15:17:15]
Copyright © by Koordinationsstelle für die dauerhafte Archivierung elektronischer Unterlagen
Copyright © by Centre de coordination pour l'archivage à long terme de documents électroniques