Katalog archivischer Dateiformate (KaD, v2)

Einleitung


Der Katalog archivischer Dateiformate soll den Schweizer Archiven in zweierlei Hinsicht als Handreichung dienen: Erstens zeigt er auf, welche Formate nach heutigem Kenntnisstand archivtauglich sind und als Zielformate für die Migration dienen können. Zweitens dient er im Kontakt mit der Verwaltung als Referenz dafür, welche Formate aus archivischer Sicht im aktiven Lifecycle verwendet (und entsprechend empfohlen) werden können.

Formatkategorien


Am Beginn der Arbeit stand eine Auflistung der verschiedenen Kategorien von Formaten, die für die Archive von Interesse sind. Der Katalog gibt Empfehlungen ab zu Formaten für Text- und Bilddaten, Audio- und Videodaten sowie Tabellenkalkulation und Datenbanken.

Provisorischer Katalog


Die Erarbeitung des Katalogs stützte sich auf die reiche Literatur zu Formatempfehlungen für die digitale Archivierung. Auf dieser Basis wurde ein provisorischer Katalog potentiell archivtauglicher Formate entworfen, der im Verlauf der weiteren Arbeit verfeinert und ergänzt wurde. Die Erarbeitung eines provisorischen Katalogs stellte eine erste Triage dar: Offensichtlich nicht archivtaugliche Formate wurden damit bereits von der Analyse ausgeschlossen.

Analyse und Bewertung


Die im provisorischen Katalog enthaltenen Formate wurden aus verschiedenen Blickwinkeln oder Sichten analysiert:
  1. Eine Bewertung anhand archivfachlicher Kriterien legt offen, in welchem Mass ein Format die Anforderungen von Archiven an die Archivtauglichkeit erfüllt und welche Risiken bei seiner Verwendung zu beachten sind. Dazu wurde ein Katalog von sechs unterschiedlich gewichteten Kriterien erarbeitet.
  2. Eine Best-Practice-Analyse hält fest, wie jedes Format in der Archivwelt beurteilt und in den Verwaltungen angewendet wird. Da sich im Moment noch kaum eindeutig archivtaugliche Formate herauskristallisiert haben, ist die Orientierung an Best Practices besonders wertvoll. Diese Sicht lässt sich in zwei weitere Kriterien übersetzen.
  3. Eine Klassifizierung der Formate erlaubt es, unterschiedliche Bewertungen gemäss den ersten beiden Sichten zu verstehen, und trägt zum Entscheid über eine Empfehlung bei. Es wird unterschieden zwischen altbekannten, weit verbreiteten Formaten, die sich auf Grund ihrer Stabilität für die Archivierung eignen; neuen Formaten, die zweifellos grosse Verbreitung erlangen werden; und potentiellen Formaten, bei deren Design die Archivtauglichkeit eine besondere Rolle gespielt hat, deren Zukunft aber noch nicht absehbar ist.


Drei Sichten der Formatanalyse


Diese drei Sichten führten zu zwei sich ergänzenden Resultaten. Einerseits ermöglicht der Katalog der archivfachlichen und Best-Practice-Kriterien, in jeder Kategorie das am besten archivtaugliche Format zu identifizieren und sämtliche untersuchten Formate in eine Rangfolge gemäss Archivtauglichkeit zu bringen. Dabei wird jedes Format an Hand des Kriterienkatalogs bewertet und erhält zu jedem Kriterium eine Bewertung von 1 (nicht erfüllt) bis 4 (vollständig erfüllt). Diese Bewertungen werden mit der Gewichtung des Kriteriums multipliziert und aufsummiert. Um eine aussagekräftige Rangliste zu erhalten, berechnen wir den Logarithmus über dem Mittelwert innerhalb einer Kategorie. Werte grösser als eins können dann als überdurchschnittlich archivtauglich gelten.

Die Analyse nach Formatklassen anderseits lässt sich nicht in einen numerischen Wert übersetzen. Sie hilft aber bei der Interpretation der Resultate. Insbesondere verdeutlicht sie, dass Formate, die den Klassen A oder B angehören, den Archiven potentiell in nächster Zeit zur Übernahme angeboten werden. Formate der Klasse C sind noch nicht zur Übernahme zu erwarten. Formate der Klasse D müssen unsere Aufmerksamkeit behalten und können bei günstiger Entwicklung zur Verwendung empfohlen werden.

Die Resultate der Analyse gemäss den drei Sichten sind in einer Bewertungsmatrix zusammengefasst.


Kriterienkatalog zur Bewertung der Archivtauglichkeit von Dateiformaten


Definitiver Formatkatalog


Die als archivtauglich oder aus Gründen ihrer grossen Verbreitung als interessant für die Archive identifizierten Formate bilden den Formatkatalog. Ein Übersichtsartikel fasst jeweils die Analyse der Formate einer Kategorie zusammen. Er liefert allgemeine Informationen sowie konkrete Empfehlungen, basierend auf der durch den Kriterienkatalog erzielten Rangliste.
Einzelne Formate in diesem Katalog werden aufgrund ihrer verlustbehafteten Datenkompression als 'nicht archivtauglich' bezeichnet. Die Migration solcher Formate in ein archivtaugliches Format muss aber nicht unbedingt bei der Übernahme erfolgen. Es kann durchaus das Ende des Lebenszyklus des Formates abgewartet und somit der Migrationszyklus verlängert werden (Bsp.: JPEG, MP3, MPEG-2 ).