Katalog archivischer Dateiformate (KaD, v2)







Katalog archivischer Dateiformate (KaD, v2)

Vorwort


Die vorliegende Version 2.0 des Katalogs archivischer Dateiformate (KaD) der KOST wurde auf der Basis von Version 1.0 von der KOST-Geschäftsstelle erarbeitet. Fachliche Beratung leisteten Kolleginnen und Kollegen aus den Trägerarchive der KOST sowie den VSA-Arbeitsgruppen Records Management&Digitale Archivierung und Normen&Standards: Gilbert Coutaz, ACV; Alain Dubois, StAVS; Alexandre Garcia, CICR; Daniel Gubler, clavis IT; Hans Jörg Kuhn, StAUR; Christoph Manasse, StABS; René Quillet, StABL; Alexandra Rietmann, SR DRS; Matthias Wild, StAZH. Eingearbeitet sind ferner diverse Rückmeldungen aus dem Publikum, für die wir bestens danken.

Version 1.0 des KaD vom 19.12.2007 entstand im Rahmen eines Projekts der KOST-Geschäftsstelle und einer KOST-internen Arbeitsgruppe (Gilbert Coutaz, ACV; Peter Hurni, StABE; Hans Jörg Kuhn, StAUR; Paul Müller, StABS; Claudia Schmucki, StAZH; Georg Büchler, KOST; Martin Kaiser, KOST) unter Beratung und Begleitung durch die damaligen VSA-Arbeitsgruppen eArchiv und Normen&Standards.

Der KaD ist über die KOST-Website unter http://www.kost-ceco.ch/wiki/whelp/KaD zugänglich und wird periodisch aktualisiert.

Kontakt: info@kost-ceco.ch

Version 2.0, XX.XX.2009

Katalog archivischer Dateiformate (KaD, v2)

Einleitung


Der Katalog archivischer Dateiformate soll den Schweizer Archiven in zweierlei Hinsicht als Handreichung dienen: Erstens zeigt er auf, welche Formate nach heutigem Kenntnisstand archivtauglich sind und als Zielformate für die Migration dienen können. Zweitens dient er im Kontakt mit der Verwaltung als Referenz dafür, welche Formate aus archivischer Sicht im aktiven Lifecycle verwendet (und entsprechend empfohlen) werden können.

Formatkategorien


Am Beginn der Arbeit stand eine Auflistung der verschiedenen Kategorien von Formaten, die für die Archive von Interesse sind. Der Katalog gibt Empfehlungen ab zu Formaten für Text- und Bilddaten, Audio- und Videodaten sowie Tabellenkalkulation und Datenbanken.

Provisorischer Katalog


Die Erarbeitung des Katalogs stützte sich auf die reiche Literatur zu Formatempfehlungen für die digitale Archivierung. Auf dieser Basis wurde ein provisorischer Katalog potentiell archivtauglicher Formate entworfen, der im Verlauf der weiteren Arbeit verfeinert und ergänzt wurde. Die Erarbeitung eines provisorischen Katalogs stellte eine erste Triage dar: Offensichtlich nicht archivtaugliche Formate wurden damit bereits von der Analyse ausgeschlossen.

Analyse und Bewertung


Die im provisorischen Katalog enthaltenen Formate wurden aus verschiedenen Blickwinkeln oder Sichten analysiert:
  1. Eine Bewertung anhand archivfachlicher Kriterien legt offen, in welchem Mass ein Format die Anforderungen von Archiven an die Archivtauglichkeit erfüllt und welche Risiken bei seiner Verwendung zu beachten sind. Dazu wurde ein Katalog von sechs unterschiedlich gewichteten Kriterien erarbeitet.
  2. Eine Best-Practice-Analyse hält fest, wie jedes Format in der Archivwelt beurteilt und in den Verwaltungen angewendet wird. Da sich im Moment noch kaum eindeutig archivtaugliche Formate herauskristallisiert haben, ist die Orientierung an Best Practices besonders wertvoll. Diese Sicht lässt sich in zwei weitere Kriterien übersetzen.
  3. Eine Klassifizierung der Formate erlaubt es, unterschiedliche Bewertungen gemäss den ersten beiden Sichten zu verstehen, und trägt zum Entscheid über eine Empfehlung bei. Es wird unterschieden zwischen altbekannten, weit verbreiteten Formaten, die sich auf Grund ihrer Stabilität für die Archivierung eignen; neuen Formaten, die zweifellos grosse Verbreitung erlangen werden; und potentiellen Formaten, bei deren Design die Archivtauglichkeit eine besondere Rolle gespielt hat, deren Zukunft aber noch nicht absehbar ist.


Drei Sichten der Formatanalyse


Diese drei Sichten führten zu zwei sich ergänzenden Resultaten. Einerseits ermöglicht der Katalog der archivfachlichen und Best-Practice-Kriterien, in jeder Kategorie das am besten archivtaugliche Format zu identifizieren und sämtliche untersuchten Formate in eine Rangfolge gemäss Archivtauglichkeit zu bringen. Dabei wird jedes Format an Hand des Kriterienkatalogs bewertet und erhält zu jedem Kriterium eine Bewertung von 1 (nicht erfüllt) bis 4 (vollständig erfüllt). Diese Bewertungen werden mit der Gewichtung des Kriteriums multipliziert und aufsummiert. Um eine aussagekräftige Rangliste zu erhalten, berechnen wir den Logarithmus über dem Mittelwert innerhalb einer Kategorie. Werte grösser als eins können dann als überdurchschnittlich archivtauglich gelten.

Die Analyse nach Formatklassen anderseits lässt sich nicht in einen numerischen Wert übersetzen. Sie hilft aber bei der Interpretation der Resultate. Insbesondere verdeutlicht sie, dass Formate, die den Klassen A oder B angehören, den Archiven potentiell in nächster Zeit zur Übernahme angeboten werden. Formate der Klasse C sind noch nicht zur Übernahme zu erwarten. Formate der Klasse D müssen unsere Aufmerksamkeit behalten und können bei günstiger Entwicklung zur Verwendung empfohlen werden.

Die Resultate der Analyse gemäss den drei Sichten sind in einer Bewertungsmatrix zusammengefasst.


Kriterienkatalog zur Bewertung der Archivtauglichkeit von Dateiformaten


Definitiver Formatkatalog


Die als archivtauglich oder aus Gründen ihrer grossen Verbreitung als interessant für die Archive identifizierten Formate bilden den Formatkatalog. Ein Übersichtsartikel fasst jeweils die Analyse der Formate einer Kategorie zusammen. Er liefert allgemeine Informationen sowie konkrete Empfehlungen, basierend auf der durch den Kriterienkatalog erzielten Rangliste.
Einzelne Formate in diesem Katalog werden aufgrund ihrer verlustbehafteten Datenkompression als 'nicht archivtauglich' bezeichnet. Die Migration solcher Formate in ein archivtaugliches Format muss aber nicht unbedingt bei der Übernahme erfolgen. Es kann durchaus das Ende des Lebenszyklus des Formates abgewartet und somit der Migrationszyklus verlängert werden (Bsp.: JPEG, MP3, MPEG-2 ).

Katalog archivischer Dateiformate (KaD, v2)

Die Formate im allgemeinen informatischen Kontext und in einer historischen Betrachtung


Von einer breiten Definition...

Ein Datenformat ist in der Informatik eine Vereinbarung, wie Daten durch binäre Zahlen repräsentiert werden. Unter Daten verstehen wir Informationen, die einen Text, eine Seite, ein Bild, einen Ton, eine ausführbare Datei etc. darstellen können. Die Art und Weise, wie Daten in einer Datei gespeichert sind, nennt man Dateiformat.

Eine solche Vereinbarung ermöglicht es, Daten zwischen verschiedenen Programmen auszutauschen, sowohl über eine direkte Verbindung als auch mittels einer Datei. Die verschiedenen Codierungsformate haben dabei die Aufgabe, die Information so zu präsentieren, dass sie lesbar gemacht werden kann als Text, Bild, Audio, Video oder Mischform.

... zu einer Kette ineinander greifender Elemente

Ein Format ist ein Element, das ein zweites voraussetzt (die Software), welches wiederum ein drittes (die Version) und ein viertes (das Betriebssystem) voraussetzt, um bei einem fünften (der Hardware) anzukommen. Diese Elemente bilden eine Kette, im Sinn sowohl einer Abfolge gleichwertiger Elemente als auch der Möglichkeit einer Fessel, falls eines der Elemente fehlt oder nicht mehr funktioniert. Anders ausgedrückt: Das Format kann die ganze Kette der Elemente bestimmen, die für seine Benutzung notwendig sind. Das Spektrum der Formattypen reicht von geschlossen bis vollständig offengelegt; gewisse sind durch Normen definiert, die meisten sind in der einen oder anderen Form standardisiert.

Die Banalisierung des digitalen Dokuments seit dem Auftauchen der Informatik bereitet diverse Probleme technischer, kultureller, ökonomischer oder juristischer Art. In wenigen Jahren sind wir von einer Logik der Speicherung zu einer Logik des Informationsflusses und vom Document Management zum Content Management übergegangen. In diesem Kontext ist das Thema der Formate fundamental, da es Auswirkungen hat auf die Kommunikation und den Bestand der Daten. Wegen seiner technischen Komplexität und seiner Existenz in einer Welt ohne Grenzen hat das digitale Dokument zur Erarbeitung unzähliger internationaler Normen und Standards geführt.
Zwei Daten umreissen den Kontext:

1962: Philippe Dreyfus erfindet in Frankreich das Wort informatique als Name für die Wissenschaft, die sich mit der Informationsverwaltung und den Computern befasst.

1964: Entstehung von ASCII (American Standard Code for Information Interchange), von der ISO 1966 normalisiert, um den Datenaustausch zwischen Computern zu erleichtern. (Gleichwohl behält IBM seine eigene Norm bei, den EBCDIC, Extended Binary Coded Decimal Interchange Code.)

Die ersten Formate sind Seitenbeschreibungsformate, die sich auf die physische Beschreibung des Dokuments beschränken, ohne sich für den Inhalt oder die logische Struktur zu interessieren.


Geschichte der archivischen Dateiformate: Ein Überblick


Interoperabilität

Unter dem Begriff "Interoperabilität" wird üblicherweise die Fähigkeit verschiedener informatischer Produkte und Dienste verstanden, Daten und Informationen auszutauschen und zu benutzen (d.h. zu kommunizieren), um zusammen in einer vernetzten Umgebung funktionieren zu können. Die Geschichte der Informatik wurde von Beginn an geprägt durch eine fortwährende Suche nach Interoperabilität, konkret nach der Möglichkeit, Software verschiedener Hersteller zusammenarbeiten zu lassen.

Die Interoperabilität ist damit seit jeher so etwas wie der Heilige Gral der Informatik. Sie kann durch verschiedene Hilfsmittel erreicht werden, zum Beispiel durch die Publikation von Formaten, APIs oder Protokollen. Dateiformate stellen die Interoperabilität auf dem Niveau des Dateiaustauschs sicher (z.B. die XML-Schemata, die Microsoft seit 2003 für die hauptsächlichen Anwendungen seiner Office-Suite publiziert, oder die ODF-Formate, die von OpenOffice.org publiziert wurden und später standardisiert wurden). APIs gewährleisten die Interoperabilität auf dem Niveau der Programmierung zwischen einer Anwendung und der darunter liegenden Plattform. Protokolle definieren die Kommunikation verschiedener Anwendungen in einem Netzwerk. Heute ist die Harmonisierung der Informatikindustrie zweifellos weiter fortgeschritten als in der Vergangenheit.

Literatur

Cornell University Library, Research Department
Moving Theory into Practice. Digital Imaging Tutorial
2003
http://www.library.cornell.edu/preservation/tutorial/contents.html

CHAUMIER, Jacques
Document et numérisation. Enjeux techniques, économiques, culturels et sociaux
Paris, Association des professionnels de l'information et de la documentation, 2006


Katalog archivischer Dateiformate (KaD, v2)

Formatkategorien


Die existierenden Formate können nach Datenrepräsentation und Funktionalität in sechs verschiedene Kategorien eingeteilt werden, die in untenstehender Darstellung aufgeführt und mit Beispielen verdeutlicht sind. Dabei zeigt die Schattierung das Mass der Komplexität bei der Archivierung.


Sechs Formatkategorien


Für den Katalog archivischer Dateiformate sind die folgenden Formatkategorien relevant:
Textdaten, Bilddaten, Audiodaten, Videodaten und strukturierte Daten (Tabellenkalkulation, Datenbanken). Audio- und Video-Dateien sind nur für einige Archive interessant; gerade deshalb wird vom KaD eine Aussage dazu erwartet. Hingegen sind Programmdateien für Archive nicht relevant, da diese keine Software archivieren.


Katalog archivischer Dateiformate (KaD, v2)

Kriterienkatalog


Der Kriterienkatalog ermöglicht die Bewertung der verschiedenen Formate in den drei in der Einleitung erwähnten Dimensionen archivfachliche Bewertung, Best-Practice-Analyse und Formatklasse. Der unterschiedlichen Bedeutung der Kriterien wird durch eine unterschiedliche Gewichtung Rechnung getragen. Bei der Bewertung erhalten somit alle Formate eine Gesamtpunktzahl, die als Mass für ihre Archivtauglichkeit dient. Dieses Vorgehen ermöglicht es, den Katalog archivischer Dateiformate flexibel anzupassen, falls sich die Eigenschaften eines Formats ändern.

Zu jedem Kriterium wird festgehalten:



Kriterienkatalog zur Formatbewertung

archivische Bewertung:

Best-Practice-Analyse:

Formatklasse:



Verworfene Kriterien




Katalog archivischer Dateiformate (KaD, v2)

Offenheit



Langzeitarchivierung digitaler Daten beinhaltet nicht nur die stabile Aufbewahrung einmal archivierter Bitströme, sondern ebenso wichtig ist, dass die zum Verständnis dieser Bitströme notwendigen syntaktischen und semantischen Informationen mit erhalten werden. Diese Metainformationen erlauben es, die inhaltliche Struktur der Daten zu lesen und deren ursprüngliche Erscheinungsform wieder herzustellen. Die Metainformationen sind die Spezifikation des Dateiformates. Auf Grund der Spezifikationen muss es möglich sein, einen Rendering Agent (ein Programm zum Lesen und Interpretieren der Daten) zu entwickeln.
Solche Spezifikationen können per Definition öffentlich sein, wie etwa bei den offenen Dateiformaten (z.B. PNG).
Sie können auch vom Rechteinhaber eines Formates unter kommerziellen Gesichtspunkten veröffentlicht werden (z.B. Adobe Photoshop PSD).
Ein Rechteinhaber kann die Spezifikationen auch im Sinne einer Marktstrategie der Öffentlichkeit zur Verfügung stellen (Adobe PDF).
Eine weitere Möglichkeit besteht darin, dass das Dateiformat durch externe Analyse bekannt gemacht worden ist. Das ist eigentlich kein legaler Weg, oft aber der Fall bei obsoleten Dateiformaten von Produkten ohne bekannten Rechtsnachfolger. Die Vollständigkeit der Spezifikation kann in diesen Fällen nicht garantiert werden.
Das Kriterium verlangt nicht, dass die Spezifikation kostenfrei erhältlich sein muss, auch wenn dies wünschenswert ist. Es bleibt dem Archiv überlassen, ob es eine Kopie der Spezifikation selber aufbewahrt oder ob es sich darauf verlässt, dass diese auch in Zukunft extern erhältlich sein wird. Für die im KOST-Formatkatalog ausgewählten Formate bewahrt die KOST eine Kopie der Spezifikation auf.
Die Offenheit der Spezifikation trägt entscheidend dazu bei, dass die im entsprechenden Format codierte Information am Ende des Lebenszyklus auch wieder ausgelesen und in ein anderes Format migriert werden kann.
Das Kriterium entspricht der Definition für ein format ouvert der belgischen Regierung (siehe http://fr.wikipedia.org/wiki/Format_ouvert ).


Katalog archivischer Dateiformate (KaD, v2)

Lizenzfreiheit



Bei proprietären Dateiformaten besteht das Risiko, dass der Lizenzgeber seine Strategie ändert (wie Unisys im Fall von GIF) oder dass ein oder mehrere Rechtsnachfolger neue Lizenzforderungen stellen können (wie das Fraunhofer-Institut/Alcatel-Lucent im Fall von MP3). Proprietäre Dateiformate sind auch in Gefahr, marktabhängigen, schnellen Formatänderungen unterworfen zu sein (fortlaufend neue Features in Adobe PDF).
Zu beachten ist, dass die Lizenzfrage nicht nur bezüglich des eigentlichen Dateiformats, sondern auch bezüglich der im Format verwendeten Algorithmen zur Codierung, Kompression, Decodierung und Verschlüsselung geklärt ist. Zum Beispiel ist der Kompressionsalgorithmus Lempel-Ziv-Welsh (LZW), der im GIF-Format zur Anwendung gelangt, durch ein Patent von Unisys geschützt. Dabei können auch eingebettete Objekte, etwa Schriften, lizenzrechtliche Verstösse mit unkontrollierbaren Kostenfolgen verursachen (z.B. Schriften in PDF-Dokumenten; siehe dazu: Licenses for Font Embedding, Streaming and Web Servers: http://www.itcfonts.com/About/Embedding.htm ).
Aus diesen Gründen ist es besser, wenn Formate und darin verwendete Algorithmen nicht nur lizenzfrei sind, sondern unter einer Open-Source-Lizenz stehen. So kann garantiert werden, dass keine anderweitigen Lizenzforderungen geltend gemacht werden.
Das Kriterium entspricht der Definition für ein format libre der belgischen Regierung (siehe http://fr.wikipedia.org/wiki/Format_ouvert ).


Katalog archivischer Dateiformate (KaD, v2)

Verbreitung



Da jede Formatmigration das Risiko eines Verlusts von Informationen beinhaltet, müssen archivische Dateiformate potentiell möglichst langlebig sein. Eine grosse Verbreitung, d.h. eine grosse Anzahl existierender Dateien in diesem Format, trägt zur Langlebigkeit bei, da die grosse Zahl der zu konvertierenden Dateien einem schnellen Formatwechsel entgegensteht. Wir können zudem auch eine vernünftige Zahl von Applikationen und Tools erwarten, die mit diesem Format umgehen können. Bei einer allfällig doch notwendigen Formatkonvertierung (wie z.B. bei GIF zu PNG) werden wahrscheinlich auch Konvertierungstools auf dem Markt verfügbar sein. Eine Verbreitung auf unterschiedlichen Plattformen (z.B. Unix und Windows) garantiert, dass die Formatspezifikationen korrekt umgesetzt worden sind oder umgesetzt werden können.
Ein gutes Indiz für die Langlebigkeit ist auch die bisherige Lebensdauer eines Formats: Formate, die schon lange in Gebrauch sind, entsprechen offenbar den verschiedensten Anforderungen gut; für sie kann deshalb eine günstige Langzeitprognose gestellt werden. Weitere Indizien, die wir in Betracht ziehen können, sind die Abwärtskompatibilität, die Anzahl alternativer Formate und die Volatilität in einer Formatkategorie.
Ueberschneidungen mit anderen Kriterien sind nicht völlig zu vermeiden; deshalb wird die Verbreitung nur mit 0.8 gewichtet.

Katalog archivischer Dateiformate (KaD, v2)

Funktionalität



Das heisst, dass alle üblichen Formate dieser Kategorie mit existierenden Werkzeugen verlustfrei in dieses Format konvertiert werden können (Migrierbarkeit). Dabei müssen Inhalt, Struktur und Layout möglichst erhalten bleiben.
Ergänzend muss das Format die gängigen oder zumindest die für die Archivierung als notwendig erkannten Funktionalitäten seiner Kategorie abdecken. So ist z.B. PDF eine bessere Repräsentation für MS-Word-Dokumente als etwa TIFF, weil darin neben der Repräsentation auch die Textkomponente erhalten bleiben kann.


Katalog archivischer Dateiformate (KaD, v2)

Implementierung



Mit Implementierungen sind Rendering-Software und Tools zum Bearbeiten oder Konvertieren des betreffenden Formats gemeint. Mehrere unabhängige Implementierungen garantieren, dass keine undocumented features existieren und die Spezifikation vollständig umgesetzt werden kann.
Das Problem ist öfter bei proprietären Formaten zu finden, die zwar offen sind, aber nur von einem Softwarehersteller gepflegt werden (z.B. Adobe Photoshop PSD: nur Adobe-Produkte können wirklich mit allen PSD-Dateien umgehen).
Beachtet werden muss, dass es sich um unabhängige Implementierungen handelt und nicht um die Integration desselben Moduls in unterschiedlichen Softwarepaketen.
Dieses Kriterium ist den Kriterien Offenheit und Lizenzfreiheit nachgelagert; es bestätigt diese gleichsam. Deshalb wird es schwächer gewichtet.


Katalog archivischer Dateiformate (KaD, v2)

Speicherdichte



Aus speicherplatzökonomischer Sicht ist ein Format vorzuziehen, das möglichst kleine Dateien ermöglicht. Eine hohe Speicherdichte kann aber zu einer unerwünschten technischen Komplexität und zum Einbezug lizenzrechtlich problematischer Kompressionsalgorithmen führen. Deshalb wird dieses Kriterium nur schwach gewichtet, so dass es von anderen Kriterien neutralisiert werden kann.


Katalog archivischer Dateiformate (KaD, v2)

Best Practice



Die Best-Practice-Analyse hält fest, wie jedes Format in der Archivwelt beurteilt wird. Die Bewertung orientiert sich daran, ob das Format von Archiven selber verwendet sowie im internationalen Diskurs (in der Literatur, an Konferenzen) empfohlen wird. Da es bisher erst wenige Langzeiterfahrungen mit potentiell archivtauglichen Formaten gibt, ist die Orientierung an Best Practices besonders wertvoll.
"Der Begriff Best Practice (wörtlich: bestes Verfahren, freier: Erfolgsrezept), auch Erfolgsmethode genannt, stammt aus der angloamerikanischen Betriebswirtschaft. Wenn ein Unternehmen nach best practice vorgeht, setzt es bewährte und kostengünstige Verfahren, technische Systeme und Geschäftsprozesse ein, die es zumindest auf wesentlichen Arbeitsfeldern zum Musterbetrieb für andere machen." (zit. http://de.wikipedia.org/wiki/Best_Practice )


Katalog archivischer Dateiformate (KaD, v2)

Perspektive



Die Erwartung, die in die Entwicklung und zukünftige Verbreitung eines Formates gesetzt werden kann, ist abhängig von den Standardisierungsbemühungen im internationalem Umfeld und von den Entscheidungen, welche in archivnahen Gremien bezüglich Archivtauglichkeit getroffen werden.


Katalog archivischer Dateiformate (KaD, v2)

Formatklasse



Zum besseren Verständnis werden die Formate anhand ihrer Position in ihrem Lebenszyklus in vier Formatklassen eingeteilt:
A: Altbekanntes Format mit grosser Verbreitung: Das Format ist altbekannt und verbreitet, Dateien in diesem Format sind in grosser Zahl vorhanden.
B: Aktuelles Format im Gebrauch: In seiner Kategorie ist diese Format aktuell in Gebrauch.
C: Zukünftiges Format: Das Format ist neu und wird noch nicht flächendeckend eingesetzt, es wird jedoch zweifellos weite Verbreitung erhalten.
D: Potentielles Format: Das Format ist spezifiziert und insbesondere aus archivischer Sicht interessant. Es ist allerdings wegen fehlender Produktreife und Verbreitung noch nicht absehbar, welche Bedeutung es erlangen wird.

Katalog archivischer Dateiformate (KaD, v2)

Verworfene Kriterien


Die folgenden Punkte wurden als mögliche Kriterien genannt, nach genauerer Analyse jedoch verworfen.


Metadatenunterstützung

Das Format soll Metadaten einschliessen können und muss die Extrahierung dieser Metadaten aus Dateien ermöglichen

Gewisse Dateiformate haben eigene Metadatenbereiche, die beim Erstellen der Datei befüllt werden. Diese Metadaten werden in der Regel automatisch erstellt und entsprechen darum nicht immer den wirklichen Gegebenheiten und Intentionen des Erstellers (z.B. Titel in einem PDF-Dokument). Soweit sie nicht automatisch erstellt werden, werden sie tendenziell schlecht genutzt.

Das Kriterium, in Version 1.0 des KaD noch enthalten, wurde verworfen, weil deutlich wurde, dass formatinterne Metadaten für die digitale Archivierung keinen Vorteil bieten. Metadaten sind zwar von entscheidender Bedeutung für die digitale Archivierung. Aus den obigen Ueberlegungen ergibt sich, dass wo möglich auf Metadaten des Records-Management-Systems abgestellt werden sollte, in dem die Datei erzeugt worden ist. Diese externen Metadaten sind in aller Regel vollständiger und qualitativ wertvoller als die dateiinternen. Sie müssen dann zusammen mit der Dokumentdatei archiviert werden. Dafür existieren verschiedene Methoden, welche alle vom Dateiformat unabhängig sind.


Interoperabilität

Das Dateiformat ist von spezifischer Hardware und Betriebssystemen unabhängig.

Heute wird die Bindung eines Dateiformates an eine spezifische Hardware bzw. an ein spezielles Trägermedium (CD oder DVD) vor allem als Kopierschutz eingesetzt. Das widerspricht der Grundvorgabe, dass nur Formate ohne Kopierschutz und Verschlüsselung archiviert werden sollen.
Im Prinzip ist jedes wohl definierte Format auf jeder Hardware/Software-Plattform speicherbar. Ob auf dieser Plattform auch Rendering Software für dieses Format zur Verfügung steht, ist damit nicht gesagt. Im Prinzip könnte aber, auf Grund der veröffentlichten Formatspezifikation, eine solche für die jeweilige Plattform entwickelt werden (z.B. WMF unter Linux).

Das Kriterium wurde verworfen, weil es für sämtliche untersuchten Formate zutrifft und mithin kein Unterscheidungsmerkmal ist. Interoperabilität ist eine so wesentliche Eigenschaft eines Archivformats, dass sie bereits in der Zusammenstellung des provisorischen Formatkatalogs berücksichtigt wurde.


Verifizierbarkeit

Es müssen Methoden und Werkzeuge existieren, die verifizieren können, dass eine Datei den Formatspezifikationen entspricht.

Hier geht es einerseits um die automatische Formaterkennung, anderseits um die Validierung der gesamten Datei.
Die Formaterkennung muss das Format bis auf die gewünschte Granularität erkennen können (also statt PDF besser z.B. PDF 1.4).
Die Formatvalidierung muss bestätigen, dass eine Datei den Spezifikationen des Formats entspricht. Dabei müssen auch als problematisch erachtete eingebettete Objekte erkannt werden können.

Das Kriterium wurde verworfen, weil es sich aus dem Kriterium Offenheit ableiten lässt.


Authentizität

Das Format muss die Authentizität der Dokumente gewährleisten.

Digitale Signatur als heute akzeptierte Möglichkeit, die Authentizität einer Datei zu beweisen, ist notwendig mit den Nachteilen der Verschlüsselung verbunden. Einfachere Möglichkeiten der Authentizitätssicherung können auch auf der Ebene der Dateiarchivierung implementiert werden.
Bei der Migration in das Format müssen Inhalt, Kontext, Struktur und Referenzen der Ausgangsdatei erhalten bleiben.

Das Kriterium wurde verworfen, weil die Authentizität der archivierten Dokumente nicht via Dateiformat, sondern über andere Mechanismen sichergestellt werden soll.


Fehlerkorrektur

Das Format soll Mechanismen der automatischen Fehlerkorrektur anbieten.

Gewisse Formate bieten Mechanismen der automatischen Fehlererkennung oder Fehlerkorrektur (z.B. PNG).

Das Kriterium wurde verworfen, weil Fehlererkennung und Fehlerkorrektur heute in der Regel schon hinreichend von der Speichertechnologie und der Speichersoftware (Storage Management System) gewährleistet werden.


Katalog archivischer Dateiformate (KaD, v2)

Formatkatalog



Katalog archivischer Dateiformate (KaD, v2)

Anmerkungen zur Zeichencodierung


Zeichensätze und Zeichencodierung


Wir unterscheiden zwischen Zeichensätzen und Zeichencodierungen


Traditionellerweise fielen Zeichensätze und Zeichencodierungen zusammen, indem direkt ein Zeichen in eine Bitsequenz abgebildet wurde. Dies gilt unter anderem für


Bei Unicode werden Zeichensatz und Zeichencodierung getrennt. Unicode definiert in erster Linie die verschiedenen Zeichen in den verschiedenen Schriften (bisher über 100'000) und ordnet ihnen einen sogenannten code point, einen Zeichencode zu. Dieser Zeichencode kann danach in verschiedener Weise in eine Bitsequenz umgesetzt werden:


Referenzen


ASCII

American National Standards Institute (ANSI) X3.4-1967 (ASCII-1967)

ISO/IEC 646:1991, Information technology — ISO 7-bit coded character set for information interchange
http://www.iso.org/iso/en/CatalogueDetailPage.CatalogueDetail?CSNUMBER=4777&ICS1=35&ICS2=40&ICS3=
[kostenpflichtig]

ISO 8859

ISO/IEC 8859-1:1998, Information technology — 8-bit single-byte coded graphic character sets — Part 1: Latin alphabet No. 1
http://www.iso.org/iso/en/CatalogueDetailPage.CatalogueDetail?CSNUMBER=28245&ICS1=35&ICS2=40&ICS3=
[kostenpflichtig]
http://anubis.dkuug.dk/JTC1/SC2/WG3/docs/n411.pdf
[kostenlose Draft-Version des obigen]

Unicode

Unicode 5.0.0
http://www.unicode.org/versions/Unicode5.0.0/
UTF-8
http://tools.ietf.org/html/rfc3629

Literatur


Spolsky, Joel: The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)
http://www.joelonsoftware.com/articles/Unicode.html

Unicode

UTF-8
http://www.utf-8.com/
Vergleich von UTF-8 mit anderen UNICODE-Zeichencodierungen
http://en.wikipedia.org/wiki/UTF-8#Advantages_and_disadvantages



Katalog archivischer Dateiformate (KaD, v2)

Datenkompression


Digitale Dateien (vor allem Bild-, Audio- und Videodateien, aber grundsätzlich alle Dateien) werden wegen ihrer Grösse häufig komprimiert, damit Speicherplatz und Kommunikationskapazitäten gespart werden können. Wir unterscheiden dabei zwischen verlustfreien und verlustbehafteten Kompressionsalgorithmen. Verlustfreie Kompression basiert auf der Reduktion von Redundanzen in den vorliegenden Daten. Bei der Dekompression werden diese wiederhergestellt und so der originale Zustand wieder erreicht. Verlustbehaftete Kompression basiert (ausschliesslich oder zusätzlich) auf der Reduktion von Irrelevanzen, d.h. von Informationen, die für den Benutzer entbehrlich sind, z.B. weil er sie ohnehin nicht wahrnehmen kann. Diese Informationen sind nach der Kompression jedoch verloren; das Original kann nicht mehr wiederhergestellt werden. Bei verlustbehafteter Kompression ergeben sich mehr oder weniger starke Kompressionsartefakte, d.h. charakteristische, wahrnehmbare Veränderungen im Resultat.

Für die digitale Archivierung gilt als Grundsatz, dass verlustbehaftete Kompressionsalgorithmen in der Regel zu vermeiden sind. Da der zukünftige Gebrauch der archivierten Unterlagen kaum abgeschätzt werden kann, sollen mit der Archivierung sämtlicher originaler Informationen möglichst alle Varianten offen gelassen werden. Insbesondere die temporale Kompression bei Videodaten führt zu Problemen bei der eventuellen späteren Bearbeitung. Gelegentlich kann es freilich unumgänglich sein, komprimierte Daten ins Archiv zu übernehmen. Auf jeden Fall zu vermeiden sind jedoch Kompressionen mit nicht offengelegten Kompressionsalgorithmen sowie die erneute Kompression bereits komprimierter Daten.

Literatur

Wikipedia: Datenkompression
http://de.wikipedia.org/wiki/Datenkompression
Dale, Robin
Lossy or Lossless? File Compression Strategies Discussion at ALA
in: RLG DigiNews 3,1; Februar 1999
http://worldcat.org/arcviewer/1/OCC/2007/08/08/0000070513/viewer/file1380.html#technical1
International Association of Sound and Audiovisual Archives IASA
"Die Bewahrung von Schallaufnahmen. Ethische Aspekte, Prinzipien, Strategien (IASA-TC 03)"
Version 2005, ab Kapitel 10
http://www.iasa-web.org/downloads/publications/TC03_German.pdf


Katalog archivischer Dateiformate (KaD, v2)

Textdaten


Unter Textdaten verstehen wir Daten zur Repräsentation von wenig strukturiertem Text, wie sie von Textverarbeitungssoftware oder Texteditoren erzeugt werden. Zur Archivierung von Textdaten wird herkömmlicherweise vorgeschlagen, die nativen Formate dieser Software in besser geeignete Archivformate zu konvertieren, z.B. PDF und neuerdings PDF/A. Mit dem Wechsel zu offenen, XML-basierten Dateiformaten in Textverarbeitungssoftware stellt sich die Frage, ob diese sich auch als Archivformate eignen würden.

Zu beachten ist der grundsätzliche Unterschied zwischen seitenbasierten und nicht-seitenbasierten Formaten. Seitenbasierte Formate wie PDF und PDF/A sind für den Ausdruck optimiert, weswegen Seitenumbruch und Layout fixiert sind. Bei nicht-seitenbasierten Formaten wie allen Textverarbeitungsformaten steht der Text selber im Mittelpunkt; der Seitenumbruch wird erst beim Ausdruck (bzw. bei der Konvertierung in ein seitenbasiertes Format) fixiert.

Abgeraten wird von der Umwandlung von Text- zu Bilddateien, z.B. TIFF. Dagegen spricht neben der Speicherplatzökonomie vor allem der Verlust der Möglichkeit des Textexports.

Untersuchte Formate

(in der Reihenfolge ihrer Archivtauglichkeit)


Empfehlung

Textdaten sollen möglichst bereits im Amt in das PDF/A-Format umgewandelt und so archiviert werden.

Katalog archivischer Dateiformate (KaD, v2)

TXT


Kategorie

Textformate

Abkürzung

TXT
.txt
text/plain
x-fmt/14; x-fmt/15; x-fmt/16; x-fmt/21; x-fmt/22; x-fmt/111; x-fmt/130; x-fmt/282; x-fmt/283

Titel

Nur-Text
Plain Text
Text only

Versionen

Keine; siehe aber die Informationen zur Zeichencodierung.

Beschreibung

Das Textformat kann als stabilstes Format der Informatik gelten; die ASCII-Codierung ist bereits seit Jahrzehnten bekannt und im Einsatz; neuere Codierungen wie die ISO-8859-Familie sowie die verschiedenen UNICODE-Codierungen sind dazu abwärtskompatibel.

Bewertung



Offenheit: 4

Die gebräuchlichen Zeichencodierungen sind ISO- oder IETF-Standards und als solche offengelegt.

Lizenzfreiheit: 4

Es existieren keinerlei Lizenzen auf Textformat oder Codierungen.

Verbreitung: 2

Das Format ist eines der verbreitetsten der Informatik, wird jedoch in den Verwaltungen kaum verwendet.

Funktionalitaet: 1

In Nur-Text-Dateien sind Layout und Formatierungen kaum (d.h. nur sehr rudimentär) darstellbar. Deshalb ist eine Migration von Dateien aus Textverarbeitungsprogrammen in Nur-Text mit einem praktisch absoluten Verlust der Formatierung verbunden, was je nach deren Stellenwert inakzeptabel sein kann.

Implementierung: 4

Es existiert eine Fülle von Texteditoren.

Speicherdichte: 3

Die Speicherdichte ist hoch und kann bei Bedarf durch verlustfreie Kompression noch gesteigert werden.

Best Practice: 4

Nur-Text wird verbreitet als Archivformat empfohlen und benutzt.

Perspektive: 1

Ein Entwicklungspotential besteht bei Nur-Text praktisch nicht mehr.

Formatklasse: A

Es handelt sich um eines der ältesten Formate der Informatik.


Fazit

Nur-Text erfüllt die meisten archivischen Anforderungen maximal (mit der wesentlichen Ausnahme der Layouterhaltung) und ist deshalb als Archivformat unbestritten. In den Verwaltungen werden Nur-Text-Dateien jedoch kaum verwendet. Ausnahmen sind XML-, HTML- und CSV-Dateien, bei denen es sich grundsätzlich auch um reine Textdateien handelt, die neben dem Text aber auch Struktur- und/oder Layoutinformationen beinhalten und jeweils einem bestimmten Anwendungszweck dienen (Webpages, Datenbankinhalte). Ferner exportieren gewisse ältere Informationssysteme ihre Daten am einfachsten in Nur-Text-Form.
Unterlagen, die dem Archiv im Nur-Text-Format angeboten werden, können bedenkenlos in diesem Format archiviert werden, sofern die Zeichencodierung bekannt ist. Die gängigen Zeichencodierungen sind durchwegs problemlos, müssen aber in den Metadaten dokumentiert werden. Wenn eine Wahlmöglichkeit besteht, sollte wegen der universellen Verständlichkeit und der Zukunftsfähigkeit UNICODE in der Codierung UTF-8 verwendet werden.

Referenz

Nur-Text ist kein formeller Standard. Es existieren jedoch formelle Standards für die Zeichencodierung.
Formell definiert ist der MIME-Type text/plain:
Multipurpose Internet Mail Extensions (MIME) Part Two: Media Types, 1996
http://www.rfc-editor.org/rfc/rfc2046.txt

Literatur


Verbindungen

CSV


Katalog archivischer Dateiformate (KaD, v2)

PDF


Kategorie

Textformate

Abkürzung

PDF
.pdf
application/pdf
fmt/14; fmt/15; fmt/16; fmt/17; fmt/18; fmt/19; fmt/20

Titel

Portable Document Format

Version

aktuelle Version: 1.7 (2006)
vorhergehende Versionen: 1.0 (1993), 1.1 (1994), 1.2 (1996), 1.3 (1999), 1.4 (2001), 1.5 (2003), 1.6 (2005)

Beschreibung

Das Portable Document Format (PDF) ist ein plattformübergreifendes Dateiformat für Dokumente. PDF ist als Speicher- und Austauschformat weit verbreitet und beliebt. Es bedient sich einer vektorbasierten Seitenbeschreibungssprache (Weiterentwicklung von PostScript), die die freie Skalierbarkeit der Darstellung erlaubt.

Bewertung



Offenheit: 4

Das Portable Document Format (PDF) wurde von Adobe Systems entwickelt und im PDF Reference Manual offengelegt. PDF 1.7 wurde im Juli 2008 als ISO 32000-1 standardisiert. Zukünftige Versionen von PDF werden nicht mehr von Adobe, sondern im ISO-Standardisierungsprozess erarbeitet.

Lizenzfreiheit: 2

PDF ist lizenzfrei, die Lizenzfrage ist für verwendete Schriften oder Kompressionsalgorithmen zu klären (siehe dazu http://www.itcfonts.com/About ).

Verbreitung: 4

PDF existiert seit fast 15 Jahren und ist weit verbreitet.
Die 1. Version wurde 1993 veröffentlicht, seit Oktober 2006 ist Version 1.7 aktuell. Es gibt zahlreiche Tools auf verschiedenen Plattformen zur Konvertierung von Textformaten nach PDF.

Funktionalitaet: 3

Alle üblichen Formate dieser Kategorie können ohne Inhaltsverlust nach PDF konvertiert werden. Dateiinhalte lassen sich durch Volltextsuche auffinden.
Das Layout kann originalgetreu erhalten werden, wenn sichergestellt ist, dass die Schriften und Farbräume verfügbar sind (z.B. durch Einbettung bei der PDF-Generierung).
Neben einer Struktur können PDF-Dokumente interaktive Elemente wie Lesezeichen, Kommentare oder Formularfelder sowie Audio- / Videoobjekte, Transparenz und Ebenen enthalten.
Aus PDF-Dokumenten lassen sich Textpassagen, Tabellen und Grafiken (auch Ausschnitte davon) durch Kopieren in andere Anwendungsprogramme einfügen und weiterverarbeiten.

Implementierung: 4

Es stehen zahlreiche Werkzeuge zum Konvertieren diverser Formate nach PDF zur Verfügung. Beispiele sind PDFlib, PDF-Writer, Acrobat Distiller, Office 2007 mit Plug-in. Als Anzeigetool stellt Adobe Systems den Adobe Reader zum kostenlosen Gebrauch zur Verfügung und entwickelt diesen laufend weiter.
Tools für die Konvertierung zwischen einzelnen PDF-Versionen gibt es kaum; erwähnt werden kann hier myPDFconvert.

Speicherdichte: 4

PDF hat in der Regel einen relativ geringen Speicherbedarf. Durch Kompression können PDF-Dateien verdichtet werden; siehe dazu aber die Überlegungen zur Datenkompression.

Best practice: 2

PDF ist ein beliebtes Speicher- und Datenaustauschformat und ist in den Verwaltungen verbreitet. Dokumente werden in dieses Format konvertiert, sobald sie definitiv sind und nicht mehr geändert werden.
Es werden in der Regel die aktuellen Versionen von PDF verwendet. Die aktuellen Versionen können Funktionalitäten beinhalten, die aus Sicht der Langzeitarchivierung wenig geeignet sind; z.B. Transparenz, Verschlüsselung.

Perspektive: 2

Der weiterhin verbreitete Einsatz von PDF aber auch die ständige Weiterentwicklung ist abzusehen. Office 2007 von Microsoft z.B. unterstützt neu den PDF-Export via Plug-in. In den neueren Versionen von PDF sind etliche patent- und lizenzrechtliche Erweiterungen und aus archivischer Sicht problematische Funktionalitäten eingebaut.

Formatklasse: B

Das Format ist flächendeckend im Gebrauch.


Fazit

PDF eignet sich grundsätzlich als Archivierungsformat. Zu beachten sind jedoch mögliche Probleme mit speziellen Funktionalitäten und eingebetteten Objekten. Deshalb ist für die Archivierung wenn immer möglich PDF/A zu bevorzugen. Für Dokumente mit archivwürdigem Layout sollte zudem darauf geachtet werden, dass alle Inhalte, insbesondere auch Bilder, Schriften und Farbräume, eingebettet werden. Zurückhaltung ist geboten für den Einsatz aktuellster Funktionalität wie z.Z. Transparenz, Ton- oder Videoreproduktion.

Referenz

ISO 32000-1:2008
Document management — Portable document format — Part 1: PDF 1.7
http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=51502
[kostenpflichtig]
Adobe (ed.)
PDF Reference
http://www.adobe.com/devnet/pdf/pdf_reference.html
[kostenfrei]

Literatur

Wikipedia: Portable Document Format
http://de.wikipedia.org/wiki/Portable_Document_Format
PDF Tools AG (ed)
White Paper: PDF Primer
http://www.pdf-tools.com/public/downloads/whitepapers/whitepaper-pdfprimer.pdf
myPDFconvert
http://www.detec.de/index.php?artikel_id=330&kat_1s=Produkte&kat_2s=myPDFconvert

Verbindungen

PDF/A


Katalog archivischer Dateiformate (KaD, v2)

PDF/A


Kategorie

Textformate

Abkürzung

PDF/A
.pdf
application/pdf
fmt/95

Titel

Portable Document Format (Archival)

Version

aktuelle Version: PDF/A-1 (entspricht PDF-Version 1.4) mit PDF/A 1a und PDF/A 1b (2005)
PDF/A-2 in Arbeit

Beschreibung

PDF/A ist ein Portable Document Format, das für die Langzeitarchivierung geschaffen wurde. Das Format wurde im Standard "ISO-19005-1 - Document management – Electronic document file format for long-term preservation" genormt. Dieser Standard entspricht der PDF-Version 1.4. Im Standard wird nur aufgelistet, welche Funktionen der einzelnen PDF-Versionen obligatorisch, empfohlen, eingeschränkt oder verboten sind.
Man unterscheidet zwischen
PDF/A 1a: vollständige Übereinstimmung mit dem Standard PDF/A
PDF/A 1b: Mindestanforderungen von PDF/A erfüllt (Barrierefreiheit gemäss Abschnitt 508 des US Rehabilitation Act nicht erfüllt)

Bewertung



Offenheit: 4

PDF/A beruht auf der Version 1.4 der PDF-Spezifikation, die von der Firma Adobe Systems entwickelt und zur Verfügung gestellt wird. PDF/A ist als ISO-Standard 19005-1 publiziert und somit offengelegt.

Lizenzfreiheit: 3

Das Kriterium Lizenzfreiheit ist erfüllt; es ist jedoch darauf zu achten, dass keine lizenzierten Schriften oder Kompressionsalgorithmen (Verschlüsselungsalgorithmen ab PDF/A-2) verwendet werden.

Verbreitung: 2

PDF/A entspricht der älteren Version PDF 1.4 (mit gewissen Vorbehalten). Der Einsatz dieser Version ist logischerweise abnehmend. PDF/A selber ist noch wenig verbreitet und bekannt.

Funktionalitaet: 3

Textextraktion und natürliche Leseordnung bleiben bei PDF/A-1 erhalten. Im Gegensatz zu PDF 1.4 sind Transparenz, Ton-/Videoproduktion und JavaScript-Objekte nicht erlaubt. Bei PDF/A-2 werden zusätzlich digitale Signaturen erlaubt sein.
Strukturierte Objekte (Texte, Vektorgraphiken, Rasterbilder) bleiben erhalten, sofern sie eingebettet werden. Nicht erhalten bleiben Hyperlinks und Texte mit vorinstallierten Schriftarten (z.B. Logos, die auf ein bestimmtes Zeichen programmiert sind).
WYSIWYG ist mit kleineren Einschränkungen gewährleistet. Für PDF/A-1a wird die visuelle Langzeitreproduktion (Lesbarkeit und Verständlichkeit) garantiert, bei PDF/A-1b fehlt das sogenannte Tagged PDF, welches der Darstellung auf unterschiedlichen Ausgabegeräten (PDA, Geräte gemäss Abschnitt 508 US Rehabilitation Act) dient.
Der Inhalt bleibt erhalten, muss aber bei der Produktion vollständig eingebettet werden (gilt z.B. für Bilder).
Es ist darauf zu achten, dass keine proprietären Zusatz-Elemente (Kompressionen etc.) verwendet werden.
Dass die Dokumente nach der Migration in PDF/A nicht mehr geändert werden können, ist für die Archivierung von Vorteil.

Implementierung: 3

Es existieren verschiedene Tools zur Erzeugung von PDF/A-Dokumenten (Adobe Acrobat Professional u.a.) Gelesen werden können die PDF/A-Dateien mit allen PDF-Readern (z.B. Adobe Reader). In der Praxis hat sich allerdings gezeigt, dass PDF/A-Dokumente von einem anderen als dem erzeugenden Tool gelegentlich nicht als valid anerkannt werden. Dies deutet auf Ungenauigkeiten in der Spezifikation hin.

Speicherdichte: 2

PDF/A ist in der Regel relativ kompakt. Die Einbettung der Schriftarten verursacht jedoch gegenüber PDF einen zusätzlichen Speicherbedarf.

Best practice: 4

PDF/A wird zwar noch wenig verwendet, aber von vielen Archiven als Archivformat empfohlen.

Perspektive: 4

Man kann davon ausgehen, dass sich der Standard PDF/A für die Langzeitarchivierung durchsetzt.
Ebenso kann davon ausgegangen werden, dass sich der Standard entwickelt und neuen Anforderungen angepasst wird.

Formatklasse: C

PDF/A ist im Hinblick auf die Archivierung spezifiziert worden.


Fazit

PDF/A ist als Format für die Langzeitarchivierung sehr geeignet.
Archive sollten darauf hin wirken, dass Dokumente in der Verwaltung im Standard PDF/A gespeichert werden. Für Dokumente mit archivwürdigem Layout sollte zudem darauf geachtet werden, dass alle Inhalte, insbesondere auch Bilder, Schriften und Farbräume, eingebettet werden.

Referenz

ISO 19005-1:2005
Document management — Electronic document file format for long-term preservation — Part 1: Use of PDF 1.4 (PDF/A-1)
http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=38920
[kostenpflichtig]

Literatur

PDF Tools AG (ed)
White Paper: PDF/A – Ein neuer Standard für die Langzeit-Archivierung
http://www.pdf-tools.com/public/downloads/whitepapers/whitepaper-pdfa-de.pdf
PDFlib GmbH (ed)
Whitepaper: Creating PDF/A with PDFlib
http://www.pdflib.com/fileadmin/pdflib/pdf/whitepaper/Creating-PDFA-with-PDFlib.pdf
myPDFconvert
http://www.detec.de/index.php?artikel_id=330&kat_1s=Produkte&kat_2s=myPDFconvert

Verbindungen

PDF


Katalog archivischer Dateiformate (KaD, v2)

ODF


Kategorie

Textformate

Abkürzung

ODF
.odt
application/vnd.oasis.opendocument.text
fmt/135; fmt/136

Titel

Open Document Format

Version

aktuelle Version: 1.1 (2006)
vorhergehende Version: 1.0 (2005)
Version 1.2 ist in Arbeit

Beschreibung

ODF ist ein Office-Format, das auf dem Dateiformat des Open-Source-Office-Pakets OpenOffice.org und damit auf XML beruht. Ein ODF-Dokument ist ein ZIP-Ordner in der Struktur eines Java-Archive. Es enthält also eine Manifest-Datei mit Metadaten und verschiedene Dateien, in denen der Dokumentinhalt, eingebundene Objekte und weitere Metadaten abgelegt sind. Inhalt, Struktur und Layout des Dokuments sind dabei in XML-Dateien gespeichert.
Der ZIP Komprimierungalgorithmus ist offengelegt und frei zugänglich. ( http://www.info-zip.org/ )
Die Debatte über Vor- und Nachteile von ODF wird immer auch mit Blick auf OOXML geführt. Die Bewertung nimmt gelegentlich darauf Bezug.

Bewertung



Offenheit: 4

Das Format ist öffentlich publiziert. Die Spezifikation für ODF ist wesentlich kürzer als diejenige von OOXML (800 Seiten im Vergleich zu 6000 Seiten), was von einigen Autoren als Nachteil angesehen wird: Zu kurze Spezifikation erschwere das Erstellen von Software für das Format, ohne dass interpretiert werden muss, und die Gefahr besteht, nicht alle Funktionen wiedergeben zu können.

Lizenzfreiheit: 4

Das Format enthält Patente. Diese sind für alle zukünftigen Versionen freigegeben, solange Sun (bzw. Oracle) mitarbeitet.
Die verwendeten Schriften sind nicht lizenzfrei, was bei der späteren Verwendung zu Problemen mit den Rechten führen könnte.

Verbreitung: 1

Das Format ist noch wenig verbreitet.

Funktionalitaet: 4

OpenOffice kann Dutzende gängiger und obsoleter Textverarbeitungsformate in ODF konvertieren. Das Format kann auch eingebettete Objekte in anderen Dateiformaten enthalten.

Implementierung: 3

ODF ist das native Format von OpenOffice und seinen Derivaten. Seit 2009 kann auch MS Office Dokumente in ODF erzeugen.

Speicherdichte: 3

Durch den Einsatz von ZIP-Komprimierung wird eine relativ hohe Speicherdichte erreicht.

Best practice: 2

Das Format wird als Archivformat in Erwägung gezogen, insbesondere im Fall, dass es als Ursprungsformat in der Verwaltung verwendet wird.

Perspektive: 3

Die Perspektiven für die Verbreitung von ODF sind durchzogen. Einige Autoren bezweifeln, dass sich das Format trotz Unterstützung einiger Verwaltungen durchsetzen kann angesichts der Konkurrenz von OOXML und der Marktmacht von Microsoft. Da jedoch eine grosse und breit abgestützte Community an diesem Format arbeitet, sind die allgemeinen Zukunftsperspektiven günstig.

Formatklasse: C

Es handelt sich um ein Format, das aus archivischer Sicht interessant ist. Falls es eine gewisse Verbreitung erreicht, kann es als Archivformat gewählt werden.


Fazit

Dieses Format ist für die Archive interessant, speziell wenn die Dateien bereits in diesem Format vorliegen. Diese sind dann ohne Konvertierung archivtauglich.

Referenz

ODF:
ISO/IEC 26300:2006: Information technology — Open Document Format for Office Applications (OpenDocument) v1.0
http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=43485
[kostenpflichtig]
http://std.dkuug.dk/keld/iso26300-odf/
[frei erhältlich]
OASIS: OpenDocument 1.1
http://docs.oasis-open.org/office/v1.1/OS/OpenDocument-v1.1.pdf

Literatur

http://en.wikipedia.org/wiki/OpenDocument
Zum Disput der Standards: (Publikation Government Computer News, USA)
http://www.gcn.com/print/26_16/44604-1.html
Zu OpenOffice:
http://de.openoffice.org/

Verbindungen

OOXML


Katalog archivischer Dateiformate (KaD, v2)

OOXML


Kategorie

Textformate

Abkürzung

Office Open XML
.docx

Titel

Office Open Extensible Markup Language

Version

aktuelle Version: 1 (Ecma 376, Dezember 2006 bzw. ISO/IEC 29500-1:2008)

Beschreibung

OOXML ist ein von Microsoft entwickeltes Office-Format auf der Basis von XML. Spezifiziert sind einerseits ein Containerformat, anderseits XML-basierte Auszeichnungssprachen für die verschiedenen Office-Anwendungen (Textverarbeitung, Tabellenkalkulation etc.). Ein OOXML-Dokument ist eine ZIP-Datei, die verschiedene XML-Dokumente umfasst, welche den Inhalt und die Struktur des Dokuments beinhalten.
Der ZIP Komprimierungalgorithmus ist offengelegt und frei zugänglich. ( http://www.info-zip.org/ )
Die Debatte über die Vor- und Nachteile von OOXML wird immer auch mit Blick auf ODF geführt. Die Bewertung nimmt gelegentlich darauf Bezug.

Bewertung



Offenheit: 4

OOXML ist offen publiziert und seit 2008 als ISO-Format anerkannt (ISO/IEC 29500:2008).

Lizenzfreiheit: 3

Das Format enthält Patente. Die Patente sind jeweils nur für die aktuelle Version freigegeben.
Die verwendeten Schriften fallen nicht unter die Lizenzfreigabe, was bei der späteren Verwendung zu Problemen mit den Rechten bei den geschützten Schriften führen könnte.
Einige Autoren vertreten die Ansicht, dass Office Open XML proprietärer ist als die z.B. die Formate .doc oder .xls, weil diese legal mit "reverse engineering" bearbeitet werden dürfen. Für andere Autoren ist dies kein Thema.

Verbreitung: 2

OOXML ist noch wenig verbreitet.

Funktionalitaet: 4

Über Microsoft Office Word können die meisten gängigen Formate in OOXML konvertiert werden. OOXML kann auch eingebettete Objekte in anderen Dateiformaten enthalten.

Implementierung: 2

OOXML ist das native Format von Microsoft Office. Daneben können weitere Textverarbeitungsprogramme OOXML lesen und teilweise auch erzeugen.

Speicherdichte: 3

Durch den Einsatz von ZIP-Komprimierung wird eine relativ hohe Speicherdichte erreicht.

Best practice: 2

Im Rahmen des Standardisierungsprozesses sind Zweifel an der vollständigen Offenheit und freien Verwendbarkeit des Standards geäussert worden. Von Archivseite wird OOXML deshalb nicht als ideales Format angesehen.

Perspektive: 3

OOXML wird als neue Generation der MS-Office-Formate von grosser Bedeutung sein.

Formatklasse: C

Das Format wird in den aktuellen Versionen von MS Office bereits angewendet, aber ist noch wenig verbreitet.


Fazit:

Wenn sich dieses Format in der Praxis durchsetzt, was anzunehmen ist, kann es für die Archive in Zukunft interessant sein. Der Bund hat sich (gemäss NZZ v. 20.6.07, Krieg der Standards) auf Windows Vista und Office 2007 festgelegt, damit wird wohl Office Open XML als Datenaustauschstandard in den Vordergrund rücken.

Referenz

ISO/IEC 29500-1:2008
Information technology — Document description and processing languages — Office Open XML File Formats
http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=51463
[kostenpflichtig]
Ecma Office Open XML File Formats Standard - Final draft - 9th of October 2006
http://www.ecma-international.org/news/TC45_current_work/TC45-2006-50_final_draft.htm
[kostenfrei]

Literatur

Wikipedia: Office Open XML
http://en.wikipedia.org/wiki/Office_Open_XML
Jackson, Joab: Squaring Off. Despite heated rhetoric over open document formats, there’s not much to choose between ODF and Office Open XML, Government Computer News 07.02.2007
http://www.gcn.com/print/26_16/44604-1.html

Verbindungen

ODF

Katalog archivischer Dateiformate (KaD, v2)

Bilddaten


In der Encyclopedia of Graphics File Formats (1996) definieren Murray und vanRyper Bilddateien (graphics files) als "files that store any type of persistent graphics data (as opposed to text, spreadsheet, or numerical data, for example), and that are intended for eventual rendering and display." Bilddaten gehören damit gemäss einem im KaD-Projekt verwendeten Begriff zu den ausdruckbaren Daten: Das Objekt, das sie codieren, ist dazu gedacht, in zweidimensionaler Form betrachtet bzw. ausgedruckt zu werden.

Einleitend müssen zu Bilddaten zwei Punkte diskutiert werden: die Unterteilung von Raster- (Pixel-) und Vektorgrafik, und die Problematik der Kompression.

Raster- und Vektorgrafik

Es gibt grundsätzlich zwei Typen von Bilddaten. Rastergrafiken (auch Pixelgrafiken genannt) repräsentieren ein Bild mittels einzelnen Bildpunkten (Pixel), die in einem rechtwinkligen Koordinatensystem (Raster) angeordnet sind. Vektorgrafiken beschreiben Bilder (bzw. genauer deren konstitutive Elemente) mittels mathematischer Funktionen. Die beiden Typen haben unterschiedliche Eigenschaften und damit Verwendungszwecke. Rastergrafiken eignen sich besonders zur Speicherung von Bildern aus der realen Welt, z.B. Fotos, da sie keine Kenntnis des Bildaufbaus voraussetzen und feine Übergänge und Details wiedergeben können. Vektorgrafiken eignen sich für Bilder, die aus einzelnen Linienelementen zusammengesetzt werden, also typischerweise geometrische Grafiken, Pläne, CAD-Bilder. Rastergrafiken haben also grundsätzlich einen weiteren Anwendungsbereich, leiden aber unter zwei hauptsächlichen Nachteilen im Gegensatz zu Vektorgrafiken: Sie sind schlecht skalierbar, da sie aus einzelnen Punkten bestehen, und sie haben einen hohen Speicherplatzbedarf (siehe dazu unten zur Kompression). Vektorgrafiken können in Rastergrafiken konvertiert werden, verlieren dabei aber ihre wesentlichen Eigenschaften. In der Regel empfiehlt es sich, die beiden Typen im Archiv getrennt zu behandeln.

Kompression

Rastergrafiken werden wegen ihrer Grösse häufig komprimiert, damit Speicherplatz und Kommunikationskapazitäten gespart werden können. (Gegenüber einem unkomprimierten TIFF-File kann eine JPEG-Version beispielsweise den Speicherplatzbedarf auf gegen einen Zehntel verkleinern, ohne dass dies für das menschliche Auge störend wäre – siehe http://www.cs.sfu.ca/CC/365/mark/material/cgi-bin/whichjpeg.cgi für eine Gegenüberstellung.) Für ihre Archivierung gelten die Überlegungen zur Datenkompression: Verlustbehaftete Kompressionsalgorithmen sollten vermieden werden, ausser wenn Rastergrafiken bereits nur in verlustbehaftet komprimierter Form (z.B. im JPEG-Format) vorliegen. Dann kann es notwendig sein, diese gleichwohl zu akzeptieren, aber ein besonderes Augenmerk auf möglichst lange Migrationszyklen zu legen. Es ist vor allem nicht empfehlenswert, komprimierte Formate sofort in Archivformate zu konvertieren, da die entsprechende Information ohnehin verloren ist, und da eine spätere Konversion längere Migrationszyklen möglich macht.

Literatur

Memoriav Empfehlungen Foto. Die Erhaltung von Fotografien
2007
http://de.memoriav.ch/dokument/Empfehlungen/empfehlungen_foto_de.pdf
Murray, James D.; vanRyper, William: Encyclopedia of Graphics File Formats. Second Edition. Bonn etc, O’Reilly 1996.
Cornell University Library, Digital Imaging Tutorial: Common Image Formats
http://www.library.cornell.edu/preservation/tutorial/presentation/table7-1.html
The National Archives (ed.), Digital Preservation Guidance Note 5: Image Compression
http://www.nationalarchives.gov.uk/documents/image_compression.pdf
Wikipedia: Rastergrafik
http://de.wikipedia.org/wiki/Rastergrafik
Wikipedia: Vektorgrafik
http://de.wikipedia.org/wiki/Vektorgrafik

Untersuchte Formate

(in der Reihenfolge ihrer Archivtauglichkeit)

Empfehlungen



Katalog archivischer Dateiformate (KaD, v2)

TIFF


Kategorie

Bildformate (Rastergrafik)

Abkürzungen

TIFF
.tif, .tiff
image/tiff
fmt/7; fmt/8; fmt/9; fmt/10

Titel

Tagged Image File Format

Version

aktuelle Version: 6.0 (1992)
vorhergehende Versionen: 4.0 (1987), 5.0 (1988). Version 1 und 2 wurden nicht öffentlich publiziert, Version 3.0 (1986) wurde kaum verwendet.

Beschreibung

TIFF ist ein De-Facto-Standard und gleichzeitig ein proprietäres Format, welches Adobe gehört. Es wurde ursprünglich als Austauschformat für Bilddigitalisierungen konzipiert, entwickelte sich dann dank seiner Universalität zu einem bevorzugten Format für Bilddaten. TIFF definiert eine Sammlung von Tags (daher sein Name), welche die Charakteristika eines Bildes beschreiben. Dazu gehören unter anderem die Dimensionen, die verwendeten Farbräume, der allfällige Typ der Datenkompression (z.B. Packbits, CCITT G3&4, RLE, JPEG, LZW, UIT-T) oder die Gammakorrektur. Dieses Prinzip erleichtert das Speichern von Bilddaten in TIFF. Gleichzeitig sind jedoch nicht in allen Readern alle Optionen implementiert.

Bewertung



Offenheit: 4

Die Spezifikation von TIFF ist offengelegt und frei erhältlich.

Lizenzfreiheit: 3

Das Copyright für TIFF gehört Adobe; die Firma hat bisher darauf verzichtet, den Gebrauch des Formats mit Lizenzgebühren zu belegen.

Verbreitung: 4

Als Standardformat für Digitalisierungen ist TIFF weit verbreitet.

Funktionalitaet: 4

TIFF ist als Zielformat für alle Bildformate geeignet.

Implementierung: 4

TIFF-Dokumente können mit sämtlicher gängiger Bildbearbeitungssoftware geöffnet werden.

Speicherdichte: 1

Da TIFF für archivische Belange ohne Kompression verwendet wird, ist die Speicherdichte gering.

Best practice: 4

Praktisch sämtliche Archivinstitutionen empfehlen TIFF als Archivformat.

Perspektive: 2

Seit 1992 ist die Spezifikation unverändert; weitere Entwicklungen sind nicht zu erwarten. TIFF bleibt jedoch als Archivierungsformat in der aktuellen Diskussion.

Formatklasse: A

TIFF ist ein lange bekanntes und bewährtes Format.


Fazit

TIFF ist als Bildarchivierungsformat weitgehend unbestritten. Dafür sprechen im Besonderen der offene Standard, die grosse Verbreitung und die Eignung als Zielformat für Migrationen.

Referenz

TIFF Revision 6.0 Final, June 3, 1992
http://partners.adobe.com/public/developer/en/tiff/TIFF6.pdf
http://www.itu.int/itudoc/itu-t/com16/tiff-fx/docs/tiff6.pdf

Literatur

LibTIFF - TIFF Library and Utilities
http://www.remotesensing.org/libtiff/.
Wikipedia: TIFF
http://de.wikipedia.org/wiki/Tagged_Image_File_Format
The Unofficial TIFF Home Page
http://home.earthlink.net/~ritter/tiff/
Duplouy, Laurent:
Evaluation du format TIFF au regard de son aptitude à être pérennisés (sic!)
http://vds.cnes.fr/pin/presentations/2006/format_TIFF.pdf


Katalog archivischer Dateiformate (KaD, v2)

JPEG


Kategorie

Bildformate (Rastergrafik)

Abkürzungen

JPEG, JPG
.jpg, .jpeg, .jpe, .jfif, .jfi, .jif
image/jpeg
fmt/42; fmt/43; fmt/44

Titel

Joint Photographic Experts Group Interchange Format

Versionen

aktuelle Version: 1 (1992, akzeptiert als ISO/IEC 10918-1 1994)

Beschreibung

JPEG ist das am meisten verbreitete Format für den Austausch von Bildern, insbesondere Fotografien und insbesondere auf dem Internet. JPEG steht sowohl für eine verlustbehaftete Methode zur Komprimierung von Bildern in einen Bytestream als auch für das Dateiformat, in dem dieser Bytestream aufbewahrt wird. Eine Minimalversion dieses Formats ist bekannt als JPEG File Interchange Format (JFIF). In vielen Anwendungen wird unter dem Namen JPEG dieses Dateiformat verstanden. JPEG ist vor allem für Fotografien und allgemein für Bilder mit feinen Farbabstufungen geeignet. Für lineare Grafik ist es ungeeignet.
Von der Verwendung von JPEG zu archivischen Zwecken wird allgemein entschieden abgeraten, und zwar weil der verwendete Kompressionsalgorithmus nicht verlustfrei ist. Auf den (bei zukünftigen Migrationen noch potenzierten) Verlust von Teilen der Bildinformation ist zu verzichten. Überlegungen zur Speicherplatzökonomie spielen zwar eine Rolle, werden jedoch besser mit verlustfreien Komprimierungen (z.B. in JPEG2000) berücksichtigt. Wenn Bilddateien jedoch bereits im JPEG-Format ans Archiv abgeliefert werden, ist die Migration in verlustfreie Formate nur dann sinnvoll, wenn diese bessere Langzeitperspektiven haben.

Bewertung



Offenheit: 4

JPEG ist ein ISO-Standard.

Lizenzfreiheit: 4

Von 2002 bis 2006 wurde versucht, gewisse Patente auf JPEG durchzusetzen. Diese Versuche wurden gerichtlich gebremst und schliesslich aufgegeben; zudem ist die Schutzfrist für mögliche Patente auf dem Format abgelaufen.

Verbreitung: 4

JPEG ist das am meisten verbreitete Format für den Austausch von Bildern, insbesondere Fotografien und insbesondere auf dem Internet.

Funktionalitaet: 1

JPEG bringt als komprimiertes Format einen Informationsverlust mit sich. (Mit JPEG-LS existiert ein praktisch verlustfreier Kompressionsalgorithmus für JPEG, der jedoch keine grosse Verbreitung erlangt hat und in der Zwischenzeit von JPEG2000 abgelöst worden ist. Siehe dazu http://www.jpeg.org/jpeg/jpegls.html .)

Implementierung: 4

Das Format wird von sämtlicher gängigen Bildbearbeitungssoftware sowie von allen grafischen Webbrowsern verarbeitet.

Speicherdichte: 4

Durch die Komprimierung erreicht JPEG eine hohe Speicherdichte (bis zu Faktor 10 gegenüber unkomprimierten Bilddateien bei kaum sichtbarem Qualitätsverlust).

Best Practice: 1

Es besteht weitgehende Einigkeit, dass JPEG kein Archivformat ist.

Perspektive: 1

JPEG hat kein grosses Potential mehr; Entwicklungsarbeit im Bereich der Bildformate konzentriert sich vor allem auf JPEG2000 und andere Formate.

Formatklasse: A

JPEG ist ein seit langem bekanntes, weit verbreitetes Format.


Fazit

JPEG kann wegen der Komprimierung als Archivformat nicht empfohlen werden. Wo wichtige Bilddateien in diesem Format angeboten werden, soll auf eine Migration verzichtet werden, wenn kein anderes langzeittaugliches Format zur Verfügung steht, in welches die JPEG-Dateien sinnvoll konvertiert werden könnten.

Referenz

Information technology — Digital compression and coding of continuous-tone still images: Requirements and guidelines. ISO/IEC 10918-1:1994
http://www.iso.ch/iso/en/CatalogueDetailPage.CatalogueDetail?CSNUMBER=18902
[kostenpflichtig]
http://www.w3.org/Graphics/JPEG/itu-t81.pdf
[frei erhältliche Version]
C-Cube Microsystems (ed.), JPEG File Information Format, Version 1.02
http://www.w3.org/Graphics/JPEG/jfif3.pdf
[frei erhältlich]

Literatur

JPEG Homepage
http://www.jpeg.org/jpeg/index.html
Murray, James D.; vanRyper, William: Encyclopedia of Graphics File Formats. Second Edition. Bonn etc., O'Reilly&Associates, 1996. ISBN 1-56592-161-5. pp. 510-515

Verbindungen

JPEG2000 ist als Nachfolger von JPEG vorgesehen. Es bringt insbesondere verlustfreie Komprimierung mit sich.


Katalog archivischer Dateiformate (KaD, v2)

JPEG2000


Kategorie

Bildformate (Rastergrafik)

Abkürzung

JPEG2000, J2K
.jp2, .jpg2, .j2c (.jpc, .j2k für den Codestream)
image/jp2, image/jpx (für die Extensions)
x-fmt/392

Titel

Joint Photographic Experts Group 2000

Versionen

aktuelle Version: 1 (publiziert 2000, zweite Ausgabe 2004)

Beschreibung

JPEG2000 ist ein Standard zur Bildkomprimierung. Das zugehörige Dateiformat ist im Annex I der Spezifikation definiert. JPEG2000 wurde konzipiert, um verschiedene Nachteile von JPEG auszugleichen. Insbesondere bietet es eine Methode zur verlustfreien Komprimierung an. In Part 2 des Standards ist ein erweitertes Dateiformat definiert (.jpx), das Mechanismen zur Animation und zur Vereinigung verschiedener Codestreams in ein Bild beinhaltet.

Bewertung



Offenheit: 4

JPEG2000 ist ein ISO-Standard.

Lizenzfreiheit: 3

Auf JPEG2000 bestehen diverse Patente; die Patentinhaber haben sich jedoch darauf verpflichtet, den Standard gebührenfrei zu halten. Nicht ausgeschlossen werden kann hingegen das Auftauchen noch unbekannter Patentansprüche.

Verbreitung: 1

JPEG2000 ist noch sehr wenig verbreitet.

Funktionalitaet: 4

Durch die verlustfreie Kompression ist JPEG2000 geeignet als Zielformat für Migrationen aus anderen Rasterbildformaten.

Implementierung: 4

JPEG2000 hat sich noch nicht breit durchgesetzt. Es bestehen allerdings verschiedene Implementierungen. Einige Viewer unterstützen JPEG2000 nativ, für andere existieren Plug-ins, wieder andere verbreitete Programme können JPEG2000 noch nicht verarbeiten.

Speicherdichte: 4

Die Kompression ermöglicht eine hohe Speicherdichte.

Best Practice: 3

Das Format wird in Archivinstitutionen erst wenig eingesetzt. Es wird allerdings bereits verschiedentlich zur archivischen Verwendung empfohlen.

Perspektive: 4

Das Format gilt als Nachfolger für JPEG; es wird eine bedeutende Entwicklung erwartet.

Formatklasse: D

JPEG2000 steht noch ganz am Anfang seiner Anwendung.


Fazit

Obwohl nicht ursprünglich für Archivierungszwecke entwickelt, eignet sich JPEG2000 gut für die Archivierung. Insbesondere die verlustfreie Komprimierung behebt einen entscheidenden Nachteil des ursprünglichen JPEG-Formats. Die noch geringe Verbreitung und die fehlende Implementation in gängiger Software tragen zu einer relativ verhaltenen Bewertung bei. JPEG2000 bietet sich als Kandidat an für ein zukünftiges Archivformat und damit für ein Format, dessen Gebrauch den abliefernden Stellen empfohlen werden kann. Im Unterschied zu PNG, das seine Stärken besonders bei diagrammartigen und Schwarz-Weiss-Bildern ausspielen kann, eignet sich JPEG2000 speziell für Fotografien.

Referenz

ISO/IEC 15444-1:2004: Information technology — JPEG 2000 image coding system: Core coding system
http://www.iso.org/iso/en/CatalogueDetailPage.CatalogueDetail?CSNUMBER=37674
[kostenpflichtig]

daraus kostenfrei erhältlich: Annex I - JP2 File Format Syntax
http://www.jpeg.org/public/15444-1annexi.pdf

Vorversion (Final Committee Draft) kostenfrei erhältlich unter
http://www.jpeg.org/public/fcd15444-1.pdf

Weitere Teile des Standards (2-13) sind ebenfalls bei ISO erhältlich.

D. Singer, R. Clark, D. Lee,
MIME Type Registrations for JPEG 2000 (ISO/IEC 15444)
http://www.rfc-editor.org/rfc/rfc3745.txt

Literatur

The JPEG Committee Home Page, JPEG 2000
http://www.jpeg.org/jpeg2000/index.html
Buckley, Robert; Tanner, Simon
"JPEG2000 as a Preservation and Access Format for the Wellcome Trust Digital Library"
2009
http://library.wellcome.ac.uk/assets/wtx056572.pdf
Buonora, Paola; Liberati, Franco
"Format for Digital Preservation of Images: A Study on JPEG 2000 File Robustness"
in: D-Lib magazine, Juli 2008
http://www.dlib.org/dlib/july08/buonora/07buonora.html
Lowe, David; Bennett, Michael J.
A Status Report on JPEG 2000 Implementation for Still Images: The UConn Survey
2009
http://digitalcommons.uconn.edu/libr_pubs/19

Verbindungen

JPEG2000 soll mittelfristig JPEG ablösen.


Katalog archivischer Dateiformate (KaD, v2)

PNG


Kategorie

Bildformate (Rastergrafik)

Abkürzung

PNG
.png
image/png
fmt/11; fmt/12; fmt/13

Titel

Portable Network Graphic

Versionen

aktuelle Version: 1.2 (1999)
vorhergehende Versionen: 1.0 (1996), 1.1 (1998)

Beschreibung

PNG ist ein verlustfrei komprimiertes Bildformat. Es wurde unter anderem als Nachfolger von GIF entwickelt, welches einen patentierten Komprimierungsalgorithmus verwendet. Als offenes und lizenzfreies Format ist PNG gut geeignet für die Archivierung. PNG kann als Format mit guten Zukunftsaussichten gelten; dies insbesondere auch durch die ISO-Standardisierung.

Bewertung



Offenheit: 4

PNG ist ein ISO-Standard, der auch kostenfrei erhältlich ist.

Lizenzfreiheit: 4

Die Lizenzsituation von PNG ist geklärt, das Format ist lizenzfrei.

Verbreitung: 2

Das Format hat auf dem WWW eine gewisse Verbreitung. Seine Verwendung in den Verwaltungen ist jedoch eher bescheiden.

Funktionalitaet: 3

PNG ist für Rasterbilder gut geeignet und komprimiert verlustfrei. Allerdings wurde es eher für diagrammartige Grafik und weniger für fotografische Bilder entwickelt.

Implementierung: 4

PNG ist bereits weit verbreitet und wird insbesondere von allen gängigen Webbrowsern unterstützt. Die Implementierung in verbreiteter Grafiksoftware ist weit fortgeschritten, aber noch nicht flächendeckend.

Speicherdichte: 3

Durch die Kompression erreicht PNG eine relativ hohe Speicherdichte.

Best Practice: 2

In archivischen Kreisen ist PNG relativ wenig verbreitet, wird jedoch in Archivformatkatalogen gelegentlich empfohlen.

Perspektive: 4

Das Format wurde als Nachfolger von GIF als Webformat designt und wird vom W3C und anderen einflussreichen Mitspielern unterstützt.

Formatklasse: C

PNG ist noch relativ wenig verbreitet, aus archivischer Sicht hingegen ein ideales Format.


Fazit

PNG kann als archivtaugliches Format gelten. Dateien im PNG-Format können vom Archiv übernommen werden. Das Format eignet sich auch als Zielformat für die Migration aus GIF und anderen Bildformaten. Für Fotografien ist allerdings JPEG2000 besser geeignet.

Referenz

Boutell, T. et al., PNG (Portable Network Graphics) Specification Version 1.0
http://www.rfc-editor.org/rfc/rfc2083.txt
ISO/IEC 15948:2004, Information technology — Computer graphics and image processing — Portable Network Graphics (PNG): Functional specification
http://www.iso.org/iso/en/CatalogueDetailPage.CatalogueDetail?CSNUMBER=29581&scopelist=PROGRAMME
[kostenpflichtig]
siehe auch http://www.w3.org/TR/PNG/
[kostenfreie Version des ISO-Standards]

Literatur

Roelofs, Greg, PNG. The Definitive Guide. O'Reilly 2003
http://www.libpng.org/pub/png/book/
Murray, James D.; vanRyper, William: Encyclopedia of Graphics File Formats. Second Edition. Bonn etc., O'Reilly&Associates, 1996. ISBN 1-56592-161-5. pp. 700-719


Katalog archivischer Dateiformate (KaD, v2)

SVG


Kategorie

Bildformate (Vektorgrafik)

Abkürzungen

SVG
.svg, .svgz (gz-komprimiert)
image/svg+xml (bis 2000 image/svg-xml)
fmt/91; fmt/92

Titel

Scalable Vector Graphics

Versionen

aktuelle Version: 1.1 (W3C Recommendation, 2003)
vorhergehende Version: 1.0 (2001; nur unwesentliche Unterschiede zu Version 1.1)
Version 1.2 liegt zur Zeit als Draft vor
SVG Tiny 1.2 (2008)

Beschreibung

SVG ist ein XML-basiertes Dateiformat für Vektorgrafiken. Eine SVG-Datei ist eine XML-Datei, die der Document Type Definition (DTD) von SVG entspricht. Das Format wurde vom World Wide Web Consortium (W3C) entwickelt und wird von diesem auch betreut. Die Spezifikation (im Wesentlichen die DTD) ist öffentlich und kostenfrei zugänglich; sie ist frei von Lizenzen.

Bewertung



Offenheit: 4

Die Spezifikation ist vollständig und öffentlich frei zugänglich.

Lizenzfreiheit: 4

Es bestehen keine Lizenzen auf der Formatspezifikation.

Verbreitung: 2

SVG wurde hauptsächlich für den Gebrauch im WWW entwickelt. Zur Zeit ist das Format noch nicht sehr weit verbreitet. Dies liegt unter anderen daran, dass die meisten Browser SVG-Dateien nicht vollständig oder nur mit Hilfe von Plug-ins unterstützen.

Funktionalitaet: 1

Als Vektorgrafikformat ist SVG selbstredend nicht für sämtliche Arten von bildbasierten Daten geeignet. Überall dort, wo Vektorgrafiken zum Zug kommen, kann es jedoch als gute Alternative gelten. Siehe dazu die Einleitung über Bilddaten.

Implementierung: 3

In Webbrowsern ist SVG zur Zeit nur lückenhaft implementiert. Eine Reihe von Grafikprogrammen auf verschiedenen Plattformen kann jedoch SVG-Dateien erzeugen oder verarbeiten.

Speicherdichte: 3

Weil SVG auf XML basiert, sind SVG-Dateien relativ ausführlich. Durch verlustfreie Kompression kann eine hohe Speicherdichte erreicht werden.

Best Practice: 2

SVG ist in der Archivwelt noch kaum bekannt und verbreitet.

Perspektive: 4

Das Potential des Formats ist gross, es wird vom W3C und anderen einflussreichen Organisationen unterstützt und weiterentwickelt.

Formatklasse: D

SVG erfüllt wesentliche archivische Anforderungen und bietet sich als ideales Format für Vektorgrafiken an.


Fazit

Auf Grund der Analyse kann SVG als geeignetes Format für die digitale Archivierung gelten. Im Vergleich mit den anderen untersuchten bildbasierten Formaten schneidet es hauptsächlich deshalb schlecht ab, weil es als Vektorformat für Rastergrafik ungeeignet ist. Für Vektorgrafiken ist es allerdings sehr wohl geeignet. Es empfiehlt sich folglich, Vektorgrafiken im SVG-Format zu archivieren. Für viele Anwendungen wie CAD existieren bereits entsprechende Konvertierungsmechanismen.

Referenz

Scalable Vector Graphics (SVG) 1.1 Specification. W3C Recommendation 14 January 2003
http://www.w3.org/TR/SVG11/
[frei erhältlich]

Literatur

W3C: Scalable Vector Graphics (SVG). XML Graphics for the Web.
http://www.w3.org/Graphics/SVG/
SVG Tutorial
http://www.fh-wedel.de/~si/praktika/MultimediaProjekte/SVG/SVG_Tutorial_mi3794/


Katalog archivischer Dateiformate (KaD, v2)

Audiodaten


Bei Audiodaten stellt sich die Frage nach der Datenkompression: Audiodaten in CD-Qualität beanspruchen 172 kB/s Speicherplatz. Kompressionsalgorithmen wie MP3 können diese Grösse auf etwa 10% reduzieren. Damit stehen die Archive vor dem bekannten Dilemma, dass unkomprimierte Dateien übermässig Speicherplatz brauchen, verlustbehaftet komprimierte Dateien aber auf lange Frist Probleme mit dem Datenverlust verursachen. Verlustfreie Kompressionsalgorithmen für Audiodaten haben sich zur Zeit noch keine auf breiter Front durchgesetzt.

Literatur

Müller, Rudolf; Cirio, Yves
"Memoriav Empfehlungen Ton" (v.a. Glossar und S. 14)
November 2008
http://de.memoriav.ch/dokument/Empfehlungen/empfehlungen_ton_de.pdf

Untersuchte Formate

(in der Reihenfolge ihrer Archivtauglichkeit)

Empfehlung



Katalog archivischer Dateiformate (KaD, v2)

WAVE


Kategorie

Audioformate

Abkürzungen

WAV, WAVE, RIFF WAVE
.wav
audio/wav, audio/x-wav, audio/wave, audio/x-pn-wav
fmt/6; fnt/141; fmt/142; fmt/143

Titel

Waveform Audio File Format

Versionen

Aktuelle RIFF-Version: ohne Nummer (2001). Diese stellt eine abwärtskompatible Erweiterung der ursprünglichen Spezifikation (1991) dar.

Beschreibung

Beim WAVE- (oder WAV-) Format handelt es sich um ein Containerformat zur verlustfreien Speicherung von Audiodaten. Es basiert auf dem Resource Interchange File Format (RIFF), das von Microsoft und IBM für das Betriebssystem Windows entwickelt wurde.
Das im WAVE-Format enthaltene Audioformat PCM (Pulse Code Modulation) garantiert die Speicherung und Wiedergabe von akustischen Signalen in hoher Qualität. Das WAVE-Format unterstützt keine Datenkompression, kann aber komprimierte Audiodaten (z. B. ADPCM- oder auch MP3-komprimierte Signale) enthalten. Es arbeitet mit Sampletiefen von 8 und 16 Bit und Abtastraten von bis zu 44,1 kHz, was zu einer Datenmenge von 88,2 kB pro Sekunde führt.

BasisformatRIFF, Resource Interchange File Format for Windows 3.1
von WAVE abgeleitete FormateWAVE_LPCM, WAVE Audio File Format with LPCM Audio
WAVE_LPCM_BWF, Broadcast WAVE Audio File Format
mögliche Bestandteile des FormatsLPCM, Linear Pulse Code Modulation audio encoding
µ-Law, µ-Law (Mu-Law) Compressed Sound Format
A-Law, A-Law Compressed Sound Format
DPCM, Differential PCM Sound Format
ADPCM, Adaptive Differential PCM Sound Format

Das Format war v. a. in der Vergangenheit weit verbreitet (Windows-Standard), wird heute aber zunehmend von komprimierten Formaten (z.B. MP3) abgelöst, da diese wesentlich kleinere Dateigrössen aufweisen und dadurch einfacher zu handhaben und vielfältiger verwendbar sind (z.B. im World Wide Web). Allerdings kann die Mehrheit der heute gängigen Player-Software-Applikationen das Format problemlos abspielen.

Aufgrund der bis heute weiten Verbreitung und der fehlenden Komprimierungen ist das WAVE-Format zum Datenaustausch zwischen verschiedenen Programmen und Betriebssystemen sehr gut geeignet. Darin eingeschlossen ist eine sehr gute Kompatibilität mit anderen Plattformen (z.B. Macintosh).

Bewertung



Offenheit: 4

Die Spezifikation 1.0 vom IBM Corporation und Microsoft Corporation ist öffentlich zugänglich.

Lizenzfreiheit: 3

Zwar ist WAVE ein proprietäres Format, jedoch ist es laut Library of Congress Collections mit keinerlei Lizenz- und Patentansprüchen belegt.

Verbreitung: 3

WAVE ist bereits seit 1991 im Gebrauch und findet in gewissen Anwendungsgebieten weite Verbreitung.

Funktionalitaet: 4

Grundsätzlich ist WAVE dazu geeignet, jegliche Arten von Audiodaten zu speichern.

Implementierung: 4

Es existieren verschiedene Implementierungen für das Format.

Speicherdichte: 1

Die Speicherdichte ist aufgrund fehlender Kompression gering.

Best Practice: 4

Im Archivbereich spielen digitale Audiodaten heute ganz allgemein eine untergeordnete Rolle. WAVE ist hier allerdings das meistempfohlene Format.

Perspektive: 2

Der aktuelle Trend geht in Richtung verlustfrei komprimierender Audioformate. Mit der Verwendung solcher Formate muss auf die Vorteile von WAVE nicht verzichtet werden und gleichzeitig wird eine hohe Speicherdichte erreicht. Dennoch wird WAVE zumindest mittelfristig aufgrund seiner relativ weiten Verbreitung von Bedeutung bleiben.

Formatklasse: A

WAVE kann als altbekanntes Format mit grosser Verbreitung gelten.


Fazit

Aus archivarischer Sicht kann das WAVE-Format zur Verwendung empfohlen werden. Die Audiodateien weisen eine hohe Qualität auf, sind seit langem in Gebrauch, weit verbreitet und weitgehend von spezifischer Hardware und Betriebssystemen unabhängig. Die Formatspezifikation ist bekannt und nicht durch Lizenz- oder Patentansprüche der Urheberfirmen eingeschränkt. Der Nachteil des Formates liegt eindeutig in der Grösse der Dateien. Zudem ist darauf zu achten, dass die zu archivierende Datein keine komprimierten Bestandteile enthalten.

Referenzen

Es existiert kein publizierter Standard für WAVE-Dateien, jedoch ein solcher für das RIFF-Format:
IBM Corp., Microsoft Corp. (eds), Multimedia Programming Interface and Data Specifications 1.0
http://www.tactilemedia.com/info/MCI_Control_Info.html WAVE Update
auch erhältlich unter http://www.kk.iij4u.or.jp/~kondo/wave/mpidata.txt
Microsoft (ed.), New Multimedia Data Types and Data Techniques, 1994
http://support.microsoft.com/?scid=kb%3Ben-us%3B120253&x=21&y=9
auch erhältlich unter http://www-mmsp.ece.mcgill.ca/Documents/AudioFormats/WAVE/Docs/RIFFNEW.pdf
Multiple Channel Audio Data and WAVE Files, Update vom 4.12.2001. Beschreibt eine Erweiterung (extension) des WAVE-Formats, welche die Verarbeitung mehrerer Audio-Kanäle ermöglicht
http://www.microsoft.com/whdc/device/audio/multichaud.mspx

Literatur

Wikipedia: RIFF WAVE
http://de.wikipedia.org/wiki/RIFF_WAVE
Library of Congress Collections
http://www.digitalpreservation.gov/formats/fdd/fdd000001.shtml#specs
Scholl, Christoph: WAV: Audioformat für grosse Festplatten
http://www.netzwelt.de/news/68892_4-wav-audioformat-fuer-grosse-festplatten.html
Wave File Specifications
http://www-mmsp.ece.mcgill.ca/Documents/AudioFormats/WAVE/WAVE.html


Katalog archivischer Dateiformate (KaD, v2)

MP3


Kategorie

Audioformate

Abkürzungen

MP3
.mp3
audio/mpeg
fmt/134

Titel

MPEG (Moving Picture Experts Group)-1 Audio Layer 3

Versionen

aktuelle Version: 1 (fertiggestellt 1991; standardisiert 1993; Erfindung des Namens "MP3" 1995)

Beschreibung

MP3 ist ein Teil des MPEG-1-Standards und zur Zeit das meistverbreitete Format zum Austausch und zum mobilen Hören von Audiodaten. Es handelt sich um einen Algorithmus zur verlustbehafteten Kompression, der psychoakustische Effekte ausnützt, d.h. Informationen weglässt, die vom menschlichen Ohr nicht wahrgenommen werden können. Die Kompression erlaubt eine markante Verkleinerung des Speicherplatzes um etwa 90%.

Bewertung



Offenheit: 4

MP3 ist ein ISO-Standard.

Lizenzfreiheit: 1

Die verwendeten Algorithmen unterliegen verschiedenen Patenten (siehe dazu die Liste unter http://www.mp3licensing.com/patents/ ). Verschiedene Organisationen verlangen, gestützt auf einzelne dieser Patente, Lizenzgebühren für die kommerzielle Verwendung. In mehreren Prozessen wurde dies gerichtlich geprüft. Die Rechtsverfahren sind noch nicht abgeschlossen, die Lizenz- und Patentsituation von MP3 (und damit die Risikolage) ist deshalb unklar.

Verbreitung: 4

MP3 ist im Anwendermarkt weit verbreitet.

Funktionalitaet: 2

Durch die Verwendung einer verlustbehafteten Kompression kann MP3 nicht sämtliche Informationen seiner Kategorie enthalten.

Implementierung: 4

MP3 ist in allen herkömmlichen Audio-Playern implementiert.

Speicherdichte: 4

Durch die Kompression wird eine sehr hohe Speicherdichte erreicht.

Best Practice: 1

Im Archivbereich spielt MP3 kaum eine Rolle; es wird auch nicht zur Verwendung empfohlen.

Perspektive: 2

Das Format ist zwar durch seine weite Verbreitung gut abgestützt; aktuelle Forschungen gehen aber in Richtung verlustfrei komprimierter Audioformate.

Formatklasse: B

MP3 ist zur Zeit das aktuelle Audioformat.


Fazit

Der Verwendung von MP3 als Archivformat stehen zwei Probleme entgegen: einerseits die ungeklärte Lizenzsituation, anderseits die Tatsache, dass komprimierte Daten grundsätzlich als ungeeignet für die Archivierung gelten, weil bei der Datenkompression Informationen verloren gehen und sich der Informationsverlust bei Migrationen kumuliert.
Wenn dem Archiv Daten im MP3-Format angeboten werden, macht es zur Vermeidung von unnötigen Migrationen Sinn, diese vorerst nicht in ein anderes Format zu konvertieren. Unkomprimierte Daten sollten nicht nach MP3 konvertiert werden zur Archivierung.

Referenz

Information technology — Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s — Part 3: Audio.
ISO/IEC 11172-3:1993
http://www.iso.org/iso/en/CatalogueDetailPage.CatalogueDetail?CSNUMBER=22412
ISO/IEC 11172-3:1993/Cor 1:1996
http://www.iso.org/iso/en/CatalogueDetailPage.CatalogueDetail?CSNUMBER=25371
[kostenpflichtig]

Literatur

Fraunhofer IIS: The Story of MP3
http://www.iis.fraunhofer.de/EN/bf/amm/mp3history/mp3history01.jsp


Katalog archivischer Dateiformate (KaD, v2)

Videodaten


Das Thema der Datenkompression ist bei dieser Formatkategorie besonders wichtig, und dies aus zwei Gründen:
  1. Videodateien sind sehr speicherplatzintensiv (270 Mb/s für unkomprimiertes Standard-Video)
  2. Die Datenreduktionsrate, die durch Komprimierung erreicht werden kann, ist exorbitant hoch; sie kann den Faktor 200 erreichen.
Zu beachten ist darüber hinaus, dass bei Videodaten wegen ihrer Mehrdimensionalität grundsätzlich zwei verschiedene Arten der Kompression möglich sind, nämlich eine spatiale und eine temporale Kompression:
Verlustbehaftete Komprimierung (z.B. die verschiedenen MPEG-Standards) führt durch die Dekomprimierung und anschliessende Neukomprimierung zu einem Informationsverlust bei jeder Migration. Gewisse hochkomprimierte Formate führen schon nach wenigen Migrationen zu sichtbaren Fehlern, aber auch bessere Komprimierungsverfahren erlauben nur zehn bis zwanzig De- und Rekomprimierungen ohne sichtbaren Informationsverlust. Deshalb wird für die Langzeitarchivierung generell die Verwendung verlustfreier Komprimierungsalgorithmen oder der Verzicht auf Komprimierung gefordert.

Literatur

Digital Video Preservation Reformatting Project. A Report
Prepared by Media Matters, LLC, for the Dance Heritage Collection
2004
http://www.danceheritage.org/preservation/Digital_Video_Preservation_Report.doc
Gilmour, Ian; Dávila, R. Justin
Lossless Video Compression for Archives: Motion JPEG2k and Other Options
http://www.media-matters.net/docs/WhitePapers/WPMJ2k.pdf AG

Untersuchte Formate

(in der Reihenfolge ihrer Archivtauglichkeit)

Empfehlungen

Für die Archivierung von Videodaten sollte folgendes erwogen werden:

Katalog archivischer Dateiformate (KaD, v2)

MPEG-2


Kategorie

Videoformate

Abkürzung

MPEG-2
.mpg, .mpeg, .m2v
video/mpeg
x-fmt/386

Titel

Moving Picture Experts Group 2

Versionen

aktuelle Version: 1 (erschienen 2000, erste Veröffentlichungen 1994)
Es existieren sechs verschiedene Profile, die drei wichtigsten sind Simple Profile, Main Profile und 4:2:2 Profile.

Beschreibung

MPEG-2 ist ein Format zur verlustbehafteten Komprimierung von Video- und Audioinhalten. Es wird unter anderem für digitales Fernsehen und DVD-Videos verwendet. Das Format wird auch als Archivformat empfohlen, sofern nicht nur unkomprimierte Formate in Betracht gezogen werden. In den Verwaltungen fallen allgemein sehr wenig Videodateien an. Es ist allenfalls mit DVDs zu rechnen, die in MPEG-2 codiert sind.

Bewertung



Offenheit: 4

MPEG-2 ist als ISO-Standard offen dokumentiert.

Lizenzfreiheit: 1

Das Format ist mit unzähligen Patenten versehen. Es sind Lizenzgebühren für Applikationen zu entrichten, die MPEG-2 verwenden.

Verbreitung: 4

Als DVD-Format ist MPEG-2 weit verbreitet.

Funktionalitaet: 2

Wie die meisten Videoformate ist MPEG-2 temporal komprimiert; es gehen deshalb Informationen verloren.

Implementierung: 4

Es existieren verschiedene Implementierungen für MPEG-2.

Speicherdichte: 3

Durch die Datenkompression wird eine recht hohe Speicherdichte erreicht.

Best Practice: 3

Das Format wird in archivischen Empfehlungen gewöhnlich erwähnt, sofern Datenkompression akzeptabel ist.

Perspektive: 2

MPEG-2 hat kein besonders hohes Potential mehr.

Formatklasse: B

MPEG-2 ist zur Zeit ein in weitem Gebrauch stehendes Format.


Fazit

Im Licht der allgemeinen Ausführungen zu Videodaten sollen MPEG-2-Dateien, die dem Archiv angeboten werden, vorläufig nicht in ein anderes Format konvertiert werden. Das Format kann als archivtauglich gelten. Die Lizenzsituation ist allerdings unbefriedigend.

Referenz

ISO/IEC 13818-1:2000: Information technology — Generic coding of moving pictures and associated audio information: Systems
http://www.iso.org/iso/en/CatalogueDetailPage.CatalogueDetail?CSNUMBER=31537
[kostenpflichtig]

Literatur

Chiariglione, Leonardo: Short MPEG-2 description, 2000
http://www.chiariglione.org/mpeg/standards/mpeg-2/mpeg-2.htm

Verbindungen

MPEG-4


Katalog archivischer Dateiformate (KaD, v2)

MPEG-4


Kategorie

Videoformate

Abkürzung

MPEG-4 AVC
mp4, mpg4, m4a
video/mp4
(MPEG-4-Files, die nur Audio enthalten, sollen als audio/mp4 identifiziert werden; solche, die weder Video noch Audio enthalten, als application/mp4.)

Titel

Moving Picture Experts Group 4 Part 10 (Advanced Video Coding)

Versionen

aktuelle Version: 3 (2005)
vorhergehende Versionen: 1 (2003), 2 (2005)

Beschreibung

Unter dem Namen MPEG-4 sind verschiedene Multimedia-Technologien standardisiert. Für Videodaten ist Part 10 des Standards relevant, der unter dem Begriff Advanced Video Coding (AVC) bekannt ist. Das Container-Dateiformat für MPEG-4 ist spezifiziert in Part 14 (ISO/IEC 14496-14:2003. Information technology — Coding of audio-visual objects — Part 14: MP4 File Format, Version 2), der wiederum auf dem Part 12 basiert (ISO Base Media File Format: ISO/IEC 14496-12:2005. Information technology — Coding of audio-visual objects — Part 12: ISO base media file format, Version 2). Beide beruhen auf dem Quicktime-Format von Apple.
MPEG-4 AVC existiert in elf verschiedenen Profilen (Zusammenfassungen bestimmter Merkmale), womit es auf verschiedene Anwendungen zugeschnitten ist (Streaming Video, mobile Applikationen, professionelle Videobearbeitung). Als hauptsächliches Profil für High-Definition-Video ist das High Profile (HiP) vorgesehen, das deshalb auch für Archive von Interesse ist. Auf jeden Fall muss aber das verwendete Profil spezifiziert sein.

Bewertung



Offenheit: 4

MPEG-4 ist ein ISO-Standard.

Lizenzfreiheit: 1

Das Format ist mit unzähligen Patenten versehen; entsprechend sind Lizenzgebühren für Applikationen zu entrichten, die MPEG-4 verwenden.

Verbreitung: 2

MPEG-4 ist ein relativ junges Format und noch wenig verbreitet.

Funktionalitaet: 2

Wie die meisten Videoformate ist MPEG-4 temporal komprimiert; es gehen deshalb Informationen verloren.

Implementierung: 4

Es existieren verschiedene Implementierungen.

Speicherdichte: 4

Durch die Datenkompression wird eine relativ hohe Speicherdichte erreicht (bei vergleichbarer Qualität höher als bei MPEG-2).

Best Practice: 3

MPEG-4 ist in Archiven noch kaum in Verwendung; gewisse Archivinstitutionen bezeichnen es jedoch als bevorzugtes Archivformat.

Perspektive: 4

Das Potential des Formats ist auf Grund seiner Verwendung im Bereich der Blu-Ray-Disc hoch.

Formatklasse: C

Es handelt sich noch um ein relativ neues Format.


Fazit

MPEG-4 Part 10 ist mit MPEG-2 vergleichbar; die Archivtauglichkeit kann ähnlich beurteilt werden, ähnlich sind auch die Probleme mit der Lizenzsituation.

Referenz

ISO/IEC 14496-10:2005, Information technology — Coding of audio-visual objects — Part 10: Advanced Video Coding
http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=43058
[kostenpflichtig]

Literatur

Overview of the MPEG-4 Standard
http://www.chiariglione.org/mpeg/standards/mpeg-4/mpeg-4.htm
Fernando Pereira, Touradj Ebrahimi: The MPEG-4 Book. Upper Saddle River, NJ: IMSC Press, 2002.

Verbindungen

MPEG-2


Katalog archivischer Dateiformate (KaD, v2)

MJPEG2000


Kategorie

Videoformate

Abkürzung

MJPEG2000
.mjp2, .mj2
video/mj2

Titel

Moving JPEG (Joint Picture Experts Group) 2000

Versionen

aktuelle Version: 1 (2001, publiziert 2002 als Standalone-Version, 2003 als Ausprägung des zugrunde liegenden Formats JPEG2000)

Beschreibung

MJPEG2000 ist im Teil 3 des JPEG2000-Standards definiert als Sequenz von JPEG2000-Bildern. Der Standard umfasst verlustlose spatiale Datenkompression. Durch den Verzicht auf temporale Datenkompression wird das Risiko des Informationsverlusts gesenkt, dafür eine geringere Speicherdichte in Kauf genommen.

Bewertung



Offenheit: 4

MJPEG2000 ist als ISO-Standard offen dokumentiert.

Lizenzfreiheit: 3

Auf die JPEG2000-Suite bestehen diverse Patente; die Patentinhaber haben sich jedoch darauf verpflichtet, den Standard gebührenfrei zu halten. Nicht ausgeschlossen werden kann hingegen das Auftauchen noch unbekannter Patentansprüche.

Verbreitung: 2

Das Format ist noch nicht sehr weit verbreitet.

Funktionalitaet: 3

Durch die verlustfreie Kompression gehen keine Informationen verloren. MJPEG2000 eignet sich als Zielformat für Migrationen.

Implementierung: 2

Es existieren erst wenige Implementierungen für MJPEG2000.

Speicherdichte: 1

Durch die Datenkompression kann die Speicherdichte zwar gegenüber unkomprimiertem Video erhöht werden, allerdings nicht so sehr wie bei vergleichbaren, verlustbehaftet komprimierten Formaten. Nichtsdestotrotz nehmen MJPEG2000-Dateien rasch gewaltige Ausmasse an.

Best Practice: 4

Das Format wird von mehreren archivischen Institutionen als Video-Archivformat empfohlen.

Perspektive: 4

Zusammen mit der JPEG2000-Suite ist auch MJPEG2000 erst am Anfang seiner Entwicklung und hat zweifelsohne ein grosses Potential.

Formatklasse: D

Es handelt sich um ein ideales Format für die Videoarchivierung.


Fazit

Wegen seiner Vorteile gegenüber anderen Videoformaten, insbesondere der verlustfreien, spatialen Kompression, kommt MJPEG2000 auf jeden Fall als Archivformat für Videodaten in Frage. Hingegen ist zu beachten, dass die Datenmenge rasch gigantische Ausmasse (im Terabyte-Bereich) annimmt. Eine Diskussion über den noch zu akzeptierenden Grad der Kompression ist unausweichlich.

Referenz

ISO/IEC 15444-3:2007: Information technology — JPEG 2000 image coding system: Motion JPEG 2000
http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=41570
[kostenpflichtig]
Vorversion (Final Committee Draft) kostenfrei erhältlich unter
http://www.jpeg.org/public/fcd15444-3.pdf
D. Singer, R. Clark, D. Lee, MIME Type Registrations for JPEG 2000 (ISO/IEC 15444)
http://www.rfc-editor.org/rfc/rfc3745.txt

Literatur

The JPEG Committee Home Page, JPEG 2000
http://www.jpeg.org/jpeg2000/index.html
I. Gilmour (Media Matters), Research Report on JPEG 2000 for Video Archiving
http://www.media-matters.net/docs/WhitePapers/IansWhitePaper.pdf
Pearson, Glenn; Gill, Michael
An Evaluation of Motion JPEG 2000 for Video Archiving
Proc. Archiving 2005 (April 26-29, Washington, D.C.), IS & T
http://archive.nlm.nih.gov/pubs/pearson/MJ2_video_archiving.pdf

Verbindungen

JPEG2000


Katalog archivischer Dateiformate (KaD, v2)

Tabellenkalkulation


Tabellenkalkulationssoftware stellt numerische und alphanumerische Daten dar und erlaubt insbesondere deren Verarbeitung mittels Funktionen. Tabellenkalkulationsanwendungen existieren für verschiedene Plattformen, sowohl von kommerziellen Herstellern als auch aus Open-Source-Projekten. Sie arbeiten sämtlich mit je eigenen Formaten.

Zum aktuellen Zeitpunkt hat sich kein aus archivischer Sicht ideales Dateiformat für Tabellenkalkulationsdaten durchsetzen können. Die Überlegungen zu einem geeigneten Archivformat müssen davon ausgehen, dass bei der Archivierung von Spreadsheets (Tabellenkalkulations-Dokumenten) drei verschiedene Aspekte interessieren können:

Die Wahl eines Archivformats hängt also davon ab, welcher Aspekt von Spreadsheets als essentiell angesehen wird. Eine allgemeine Empfehlung abzugeben, fällt schwer.

Eine provisorische Lösung ist denkbar, die zwei allgemeine Grundsätze zur Formatwahl beherzigt, nämlich unnötige Migrationen zu vermeiden und sich möglichst viele Optionen offenzuhalten. Kommerzielle Anwendungen im Bereich Tabellenkalkulation sind in der Regel über einige Versionen abwärtskompatibel. Wenn eine Datei also in einem aktuellen Format vorliegt, kann mit guten Gründen davon ausgegangen werden, dass sie während der nächsten zehn Jahre von der jeweils aktuellen Programmversion noch problemlos gelesen werden kann; daher ist eine Migration unnötig. Liegt eine Datei in einer alten Formatversion vor, sollte eine Migration mit der entsprechenden Software in das jeweils aktuelle Format durchgeführt werden. (Gemäss Untersuchungen des Digital Preservation Testbed [p. 20] ist es dabei empfehlenswert, jeweils eine oder zwei Versionen zu überspringen.) Für Dateien in proprietären Formaten obsoleter Anwendungen ist die Migration in das Format einer aktuellen Anwendung unabdingbar.

Diese Ueberlegungen gelten insbesondere für das marktführende Format XLS von Microsoft Excel. Obwohl dieses wesentliche archivische Anforderungen nicht erfüllt, ist es für ein Archiv sinnvoller, MS-Excel-Dateien in diesem proprietären Format zu belassen, als sie in ein idealeres, aber weder erprobtes noch verbreitetes Format zu migrieren. Die durch Abwärtskompatibilität erreichte Lesbarkeit von gegen 10 Jahren verschafft den Archiven einen Aufschub bei der Suche nach einem idealeren zukünftigen Archivformat.

Literatur

AHDS Preservation Handbook: Spreadsheets
Version 0.5, 2005
http://ahds.ac.uk/preservation/spreadsheets-preservation-handbook.pdf
Digital Preservation Testbed: From digital volatility to digital permanence. Preserving spreadsheets
2003
http://www.digitaleduurzaamheid.nl/bibliotheek/docs/volatility-permanence-spreadsh-en.pdf

Untersuchte Formate

(in der Reihenfolge ihrer Archivtauglichkeit)

Empfehlungen


Katalog archivischer Dateiformate (KaD, v2)

XLS


Kategorie

Tabellenkalkulations-Format

Abkürzungen

XLS
.xls
application/msexcel; application/vnd.msexcel; application/excel
fmt/55; fmt/56; fmt/57; fmt/58; fmt/59; fmt/60; fmt/61; fmt/62

Titel

Microsoft Excel File Format
Binary Interchange File Format
(Das Dateiformat von Excel heisst Binary Interchange File Format (BIFF). Da Excel aber die Dateiendung .xls verwendet, ist das Format besser bekannt unter dem Namen XLS.)

Versionen


BIFF-VersionExcel-VersionSoftware-Name (Windows)
BIFF811.02003
BIFF810.0XP
BIFF8 9.02000
BIFF8 8.097
BIFF5 7.095
BIFF5 5.05.0
BIFF4 4.04.0
BIFF3 3.03.0
BIFF2 2.02.x


Beschreibung


BIFF (XLS) ist seit 20 Jahren in verschiedenen Versionen das proprietäre Format von Microsoft Excel. Seine Spezifikation ist bekannt und wurde vom OpenOffice.org-Projekt veröffentlicht; sie gehört allerdings der Firma Microsoft. Das Format ist das Referenzformat für Tabellenkalkulation mit sehr grosser Verbreitung auf verschiedenen Plattformen. Mit geeigneter Software (Konverter für MS Excel) können andere Tabellenkalkulations-Formate in XLS konvertiert werden. Obwohl inzwischen obsolet, kann das Format von neusten Excel-Versionen weiterhin gelesen und konvertiert werden.

Bewertung



Offenheit: 2

Die Spezifikation des Formats ist durch reverse engineering bekannt, aber nicht offiziell offengelegt.

Lizenzfreiheit: 1

XLS ist ein proprietäres, patentgeschütztes Format von Microsoft.

Verbreitung: 4

XLS ist bei weitem das marktführende Format für Tabellenkalkulationsanwendungen.

Funktionalitaet: 4

Als Originalformat bewahrt XLS die Funktionalität der Anwendung. Es existieren Konverter für andere Tabellenkalkulationsformate.

Implementierung: 2

XLS ist hauptsächlich durch MS Office Excel implementiert. XLS-Dateien können aber auch von OpenOffice gelesen werden.

Speicherdichte: 2

Die Speicherdichte ist vergleichbar mit derjenigen anderer Spreadsheet-Formulare.

Best Practice: 1

XLS ist in Archiven kaum vorhanden und gilt nicht als Archivformat.

Perspektive: 1

XLS wurde 2007 abgelöst durch XLSX (OOXML bei Tabellenkalkulation) und hat deshalb kein Entwicklungspotential mehr.

Formatklasse: B

XLS ist das in der Verwaltung dominierende Format für Tabellenkalkulationsdaten.


Fazit

Trotz der archivischen Bedenken (proprietäres Format bzw. übermässig komplexe Spezifikation) kann XLS als vorläufiges Archivformat empfohlen werden. Wenn die Funktionalität eines Spreadsheets als essentiell angesehen wird, ist eine Archivierung in einem Originalformat wie XLS oder OOXML sogar unabdingbar. Dokumente im Excel-Format sollen in diesem Fall so übernommen oder allenfalls in das aktuelle Excel-Format konvertiert werden. Für Dokumente in obsoleten Tabellenkalkulations-Formaten empfiehlt sich eine Konvertierung ins Excel-Format. Diese Massnahmen verhindern unnötige Migrationen und verschaffen durch die Abwärtskompatibilität der Software einen zeitlichen Aufschub für die Migration in ein besser langzeittaugliches Format.

Referenz


OpenOffice.org's Documentation of the Microsoft Excel File Format. Revision 1.40. 2007
http://sc.openoffice.org/excelfileformat.pdf
ECMA International, Standard ECMA-376, Office Open XML File Formats
http://www.ecma-international.org/publications/standards/Ecma-376.htm

Literatur


Verbindungen

OOXML bei Tabellenkalkulation

Katalog archivischer Dateiformate (KaD, v2)

OOXML bei Tabellenkalkulation


Zu den technischen Eigenschaften des Formats siehe die ausführliche Beschreibung von OOXML unter den Textdateien. Hier erfolgt einzig die Kurzbewertung von OOXML für die Verwendung als Archivformat für die Tabellenkalkulation.

Bewertung



Offenheit: 4

OOXML ist offen publiziert und seit 2008 als ISO-Format anerkannt (ISO/IEC 29500:2008).

Lizenzfreiheit: 3

Das Format enthält Patente. Die Patente sind jeweils nur für die aktuelle Version freigegeben.

Verbreitung: 2

OOXML ist noch kaum verbreitet.

Funktionalitaet: 4

Die Funktionalität der Tabellenkalkulationsanwendung wird durch das Originalformat bewahrt.

Implementierung: 2

OOXML ist das native Format von Microsoft Office. Daneben können weitere Tabellenkalkulationsprogramme OOXML lesen und teilweise auch erzeugen.

Speicherdichte: 2

Die Speicherdichte ist vergleichbar mit derjenigen anderer Originalformate.

Best Practice: 2

Das Format wird in Archiven noch nicht eingesetzt, hat als offener Standard eine leicht höhere Akzeptanz als XLS.

Perspektive: 4

Das Format hat als neues MS-Office-Format grosse Entwicklungsperspektiven.

Formatklasse: C

Das Format ist neu.


Fazit

OOXML ist ein mögliches Archivformat, falls die Funktionalität der Tabellenkalkulation erhalten werden soll. Siehe dazu die Diskussion zu XLS.


Katalog archivischer Dateiformate (KaD, v2)

PDF/A bei Tabellenkalkulation


Zu den technischen Eigenschaften des Formats siehe die ausführliche Beschreibung von PDF/A unter den Textdateien. Hier erfolgt einzig die Kurzbewertung von PDF/A für die Verwendung als Archivformat für die Tabellenkalkulation.

Bewertung



Offenheit: 4

PDF/A ist ein ISO-Standard.

Lizenzfreiheit: 4

Dieses Kriterium ist erfüllt für PDF/A; es ist jedoch darauf zu achten, dass keine lizenzierten Schriften oder Kompressionsalgorithmen (Verschlüsselungsalgorithmen ab PDF/A-2) verwendet werden.

Verbreitung: 2

PDF/A ist erst wenig verbreitet.

Funktionalitaet: 2

Einzig die optische Erscheinung von Spreadsheets kann bewahrt werden, die Funktionalität geht verloren.

Implementierung: 4

Es existieren verschiedene Tools zur Erzeugung von PDF/A-Dokumenten (Adobe Acrobat Professional u.a.) Gelesen werden können die PDF/A-Dateien mit allen PDF-Readern (z.B. Adobe Reader).

Speicherdichte: 2

Die Speicherdichte ist vergleichbar mit derjenigen der Originalformate.

Best Practice: 4

Das Format wird in Archiven noch kaum eingesetzt, hat aber eine sehr hohe Akzeptanz als Archivformat.

Perspektive: 4

Das Format wurde als Archivformat entwickelt und wird archivisch begleitet weiterentwickelt.

Formatklasse: C

Das Format ist neu.


Fazit

PDF/A ist ein geeignetes Archivformat; allerdings nur, wenn auf die Bewahrung der Funktionalität verzichtet werden kann.

Katalog archivischer Dateiformate (KaD, v2)

Datenbanken


Beim Thema Datenbanken stösst dieser Katalog archivischer Dateiformate an seine Grenzen. Mit Ausnahme kleiner, mit verbreiteter Bürosoftware erstellter Exemplare können Datenbanken in den seltensten Fällen als in sich abgeschlossene Dateien behandelt werden, für welche die Konvertierung in ein Archivformat ein wesentlicher Bestandteil der Langzeitarchivierung ist. Vielmehr sind Datenbanken in der Regel nur ein Teil von umfassenderen Systemen: Fachanwendungen (in der Verwaltung), Content Management Systeme (für Websites etc.), Geoinformationssysteme (GIS), Archivsoftware etc. Oft sind dabei die wesentlichen Informationen nicht allein in der Datenbank gespeichert, sondern zum Teil auch in der Programmlogik des Systems bzw. der Benutzerschnittstelle. Es nützt daher nichts, nur die Datenbank in ein Archivformat zu konvertieren, sondern die Archivierung dieser Systeme muss gesamtheitlich und jeweils individuell angegangen werden.

Bei Berücksichtigung dieser Ausgangslage kann es jedoch dennoch angebracht sein, eine Datenbank, bzw. deren Inhalt zu archivieren. Im Hinblick auf eine spätere inhaltliche oder statistische Auswertung sind bei dieser Archivierung nicht nur die nackten Daten, sondern auch die Struktur und Beziehung der Daten von Interesse.

Bei der Archivierung von Datenbanken, heute in der Regel von relationalen Datenbanken, geht es mehr um die angewendete Methode und weniger um das Zielformat, in dem dann Datenbankstruktur und Daten abgelegt sind. Dennoch unterteilen wir im Sinne dieses Formatkataloges die Archivierungsmethoden nach dem Format der schlussendlich zu archivierenden Dateien.

Untersuchte Formate

(in der Reihenfolge ihrer Archivtauglichkeit)

Empfehlungen



Katalog archivischer Dateiformate (KaD, v2)

CSV


Kategorie

Strukturierte Daten aus Tabellenkalkulation und Datenbanken

Abkürzung

CSV
.txt, .csv
MIME-Typ: text/CSV - text/comma-separated-values
x-fmt/18

Titel

Comma-Separated Values
Colon-Separated Values
Character-Separated Values

Versionen

Ein allgemeiner Standard für das Dateiformat CSV existiert nicht.
Eine RFC-Spezifikation des Dateiformates CSV existiert und wird in der Regel referenziert: RFC 4180

Beschreibung

CSV-Daten sind tabellarisch strukturierte ASCII-Dateien. Die einzelnen Werte, Felder oder Spalten werden durch ein spezielles Trennzeichen, beispielsweise das Komma oder Semikolon, getrennt, Tabellenzeilen werden durch das Zeilenumbruchzeichen getrennt. Bei der Überführung einer relationalen Datenbank in CSV-Dateien wird jede einzelne Datenbanktabelle in eine CSV-Datei kopiert.
In der Maskierung von Trennzeichen und Zeilenumbruch in den Feldern unterscheiden sich die verschiedenen Varianten und Quasi-Standards des CSV- Dateiformats.

Zwei CSV-Varianten sind im Datenbank-Bereich von besonderem Interesse:

Bewertung



Offenheit 3

Ein allgemeiner Standard für das Dateiformat CSV existiert nicht. Die in RFC 4180 weitgehend festgehaltene Spezifikation ist jedoch äusserst einfach.

Lizenzfreiheit 4

Es bestehen keine lizenzrechtliche Einschränkungen, wahrscheinlich auch nicht für Excel CSV-Format oder SQL-Loader File.

Verbreitung 4

CSV ist das am weitesten verbreitete Format für Datenaustausch im Falle von strukturierten Daten, d.i. zwischen Datenbanken und Tabellenkalkulationsprogrammen.

Funktionalitaet 1

CSV-Dateien sind so genannte flat files, das heisst, nur die Informationen einer Tabelle können in einer Datei gespeichert werden. Die meisten Datenbanken verwenden aber hierarchische oder relationale Beziehungen, um Informationen zu speichern. Um diese Beziehungsinformation ebenfalls in einem flat file abzubilden, müssen Informationen wiederholt werden, es kommt zu Datenredundanz. Zudem lassen sich nur die eigentlichen Daten in CSV-Dateien speichern. Weder Feldformate, Datenstruktur noch Formeln können übernommen werden.

Implementierung 4

Praktisch jedes Datenbank- und Tabellenkalkulationsprogramm kann CSV-Dateien erzeugen oder lesen.

Speicherdichte 4

Es findet keine Datenkomprimierung statt, die Feldinhalte werden eins zu eins abgebildet. Werden Beziehungen zwischen Tabellen abgebildet, kommt es zwangsläufig zu Datenredundanz (siehe oben Funktionalität).

Best Practice 2

CSV-Dateien haben eine grosse Verbreitung, ihre Verarbeitung bedingt kein grosses technisches Know How. Die fehlende Standardisierung macht es aber notwendig, dass Maskierung von Trennzeichen und Zeilenumbruch in den Feldern, die Verwendung von Anführungszeichen und das Problem der unterschiedlichen Anzahl Felder pro Zeile genau dokumentiert sind. Zeichencodierung und Repräsentation der verwendeten Datentypen müssen ebenfalls festgehalten werden.

Perspektive 1

CSV wird in vielen Fällen durch XML-basierte Tabellenformate abgelöst werden, da hier die Probleme mit Maskierung von Steuerzeichen, Zeichensatz und Datentypen gelöst sind. In anderen Fällen kann CSV durch daraus abgeleitete Formate oder Lösungen wie SIARD ersetzt werden, denen eine CSV-Standardisierung zugrunde liegt und die auch Beziehungen zwischen Tabellen abbilden können.

Formatklasse A

CSV ist eines der ältesten Formate der Informatik.


Fazit

Grosse Datenbestände sind bereits in diesem Format archiviert worden, deshalb wird das CSV-Format für Tabellen seine Bedeutung behalten. Da jedoch keine Beziehungen, Metadaten und Strukturinformationen in diesem Format festgehalten werden können, werden nur gut dokumentierte Datenbestände in CSV-Format ihren Wert behalten. Eine Ablösung durch XML ( SQLX, OOXML oder ODF ) wird sich auch im archivischen Bereich ergeben. XML ist ja nicht zuletzt aus dem Bedürfnis entstanden, ein strukturiertes Datenaustauschformat zu schaffen und rein textbasierte Lösungen zu ersetzen.

Referenz

RFC-Spezifikation des Dateiformates CSV
http://tools.ietf.org/html/rfc4180

Literatur

Wikipedia: CSV
http://de.wikipedia.org/wiki/CSV_(Dateiformat)
Wikipedia: CSV (englisch)
http://en.wikipedia.org/wiki/Comma-separated_values
Creativyst Software, The Comma Separated Value (CSV) File Format
http://www.creativyst.com/Doc/Articles/CSV/CSV01.htm
Oracle SQL*Loader Tutorial
http://loader.datenbank-wissen.de/

Verbindungen

Das CSV-Format ist auch als archivisches bzw. Austauschformat im Bereich Tabellenkalkulation verbreitet.

Katalog archivischer Dateiformate (KaD, v2)

SIARD


Kategorie

Strukturierte Daten aus Datenbanken

Abkürzung

SIARD

Titel

SIARD – Software Independent Archiving of Relational Databases

Versionen

SIARD wurde 2008 in erster Version veröffentlicht.

Beschreibung

SIARD ermöglicht die Abspeicherung von Struktur (Schemas, Tabellen usw.) und Inhalt von relationalen Datenbanken in eine einfache XML-Kodierung. Das SIARD-Archiv besteht aus einer Inhaltsdatei und einer Metadaten-Datei, die Metadaten aus allen Ebenen umfasst. SIARD basiert auf ISO-Standards (SQL:1999 und XML 1.0) und eignet sich für die Aufbewahrung von relationalen Datenbanken aus verschiedenen Systemen, unter anderem aus MS Access, Oracle und MS SQL.

Bewertung



Offenheit 4

Die Original-Spezifikation von SIARD wurde durch das Schweizerische Bundesarchiv veröffentlicht.

Lizenzfreiheit 4

Das Urheberrecht für das SIARD-Format liegt beim Schweizerischen Bundesarchiv.

Verbreitung 1

SIARD wird bisher erst im Bundesarchiv eingesetzt. Es wurde zudem von den Partnern des PLANETS-Projekts als offizielles Archivierungsformat für Datenbanken anerkannt.

Funktionalitaet 4

Aus einem SIARD-Archiv kann ein Datenbankschema mit all seinen Objekten durch Zurückladen in ein relationales DBMS vollständig wiederhergestellt werden. Die Datenbank ist von der Originaldatenbank in logischen Belangen nicht zu unterscheiden.

Implementierung 1

Die einzige Implementierung des SIARD-Formats ist die SIARD-Suite des Schweizerischen Bundesarchivs, die als Freeware zugänglich ist.

Speicherdichte 3

Durch die Verwendung von XML-Dateien zur Abspeicherung der Primärdaten und den Verzicht auf Komprimierung ist das Speichervolumen relativ gross.

Best Practice 2

SIARD wird in der Archivierung von Datenbanken aus der Bundesverwaltung eingesetzt und ist zugleich ein offizielles Archivierungsformat des PLANETS-Projekts.

Perspektive 3

Die offizielle Einführung von SIARD in das PLANETS-Projekt kann den Weg für die internationale Akzeptanz des neuen Formats ebnen.

Formatklasse: D

SIARD wurde eigens für die Archivierung der am häufigsten benutzten Datenbanken (relationale Datenbanken) konzipiert.


Fazit

SIARD bietet eine neue Möglichkeit für die Archivierung von relationalen Datenbanken. Es implementiert eine einfache und international akzeptierte XML-Kodierung für die langfristige Aufbewahrung von Archivdaten. Die SIARD-Tools ermöglichen es zugleich, Metadaten leicht zu erfassen oder ändern.

Referenz

Schweizerisches Bundesarchiv
SIARD Formatbeschreibung, 2008

Literatur

Bernstein, Amir
Database Preservation: The International Challenge and the Swiss Solution
DPE Briefing Paper, 2008
http://www.digitalpreservationeurope.eu/publications/briefs/database_preservation.pdf
Comment, Jean-Marc
Archiving Databases with SIARD
Presentation to the 16th International Congress on Archives, 2008
http://www.planets-project.eu/docs/presentations/ICA2008_Comment_SIARD.pdf

Verbindungen

Eine funktionelle Beziehung besteht zu SQLX und SQL Script.

Katalog archivischer Dateiformate (KaD, v2)

SQLX


Kategorie

Strukturierte Daten aus Tabellenkalkulation und Datenbanken

Abkürzung

.xml
.sqlx

Titel

SQL/XML

Versionen

aktuelle Version: 1 (In SQL:2003 wird in Kapitel 14 "XML-Related Specifications (SQL/XML)" der Austausch zwischen XML Datenrepräsentation und relationaler Datenbank spezifiziert.)

Beschreibung

Bei SQLX handelt es sich nicht so sehr um ein Dateiformat (das Dateiformat ist in diesem Falle immer XML) als vielmehr um ein Set von SQL-basierten Funktionen für den Export ("publish") von Tabellen aus relationalen Datenbanken in XML-Dateien und den Import ("extract/store") ebendieser XML-Dateien in eine relationale Datenbank. Der Export einzelner Tabellen ist trivial und wird heute schon von den meisten Datenbanken und Tabellenverarbeitungsprogrammen beherrscht. Schwieriger, bzw. noch nicht überzeugend gelöst, ist die Abbildung einer vollständigen relationalen Datenbank in eine XML-Datenrepräsentation. Das Grundproblem liegt darin, das relationale Datenmodell auf das hierarchische XML-Datenmodell abzubilden.

Bewertung



Offenheit 2

Die Spezifikation ist inzwischen umfangreich und eher in der Form eines Normierungsvorschlages gehalten. Es sind noch Änderungen zu erwarten. http://www.sqlx.org/ ist die entsprechende Diskussionsplattform.

Lizenzfreiheit 4

Es bestehen keine lizenzrechtliche Einschränkungen für den Normierungsvorschlage als Teil von SQL:2003. Die Implementierungen der SQLX-Funktionalität in den einzelnen Datenbanken wird natürlich proprietär erfolgen.

Verbreitung 3

Als Exportmöglichkeit und für den Datenaustausch einzelner Tabellen hat SQLX bereits eine beachtliche Verbreitung gefunden. SQLX ersetzt CSV und behebt dessen bekannte Mängel. Der Export ganzer Datenbankschemata in XML-Datenrepräsentation scheint noch nicht umfassend gelöst.

Funktionalitaet 3

SQLX erlaubt es, Feldbezeichnungen und Feldformate aus einer Tabelle in eine XML-Datei zu übernehmen. Die Abbildung hierarchischer Datenstrukturen aus einer Datenbank kann ohne Aufbau von Redundanz erfolgen, vergleiche auch hier CSV.

Implementierung 3

Praktisch in jeder Datenbank und jedem Tabellenkalkulationsprogramm können die SQLX-Funktionen mit Hilfe bestehender SQL-Funktionalität implementiert werden. Etliche Anbieter (Oracle, Microsoft etc.) haben die SQLX-Funktionen auch bereits implementiert.

Speicherdichte 2

Solange nur hierarchische Beziehungen abgebildet werden, entsteht keine Datenredundanz (siehe oben Funktionalität). Durch die Speicherung der XML-Tags in der Datei wird diese nicht unerheblich aufgebläht. In der Regel wird darum eine Datenkompression beim Abspeichern angewendet (ZIP).

Best Practice 1

SQLX kann zwar CSV problemlos ablösen, besitzt aber noch nicht dessen grosse Verbreitung und ist in Archiven kaum ein Thema. Die Integration von Primär- und Metadaten und die Standardisierung ist viel besser als bei CSV gelöst. Die Abbildung einer relationalen Datenbank in einer XML-Datei ist noch nicht generisch möglich.

Perspektive 3

SQL/XML ist für den Datenaustausch und für die Langzeitspeicherung ein äusserst interessanter Lösungsansatz. Im Bereich Datenaustausch zwischen Datenbanken und Applikationen wird er sich sicher durchsetzen oder hat er sich bereits durchgesetzt, weil die ganzen Tools und Schnittstellen bereits XML-basiert aufgebaut sind. Im Bereicht Archivierung von strukturierten Daten ist der Ansatz noch nicht etabliert.

Formatklasse: D

Die Formatspezifikation ist noch nicht ausgereift, aber für die Archive interessant.


Fazit

SQLX ist ein Lösungsansatz zur Archivierung strukturierter Daten mit grossem Zukunftspotential. Für den einfachen Fall der Umwandlung flacher Tabellen in XML-Dateien gibt es ausgereifte Lösungen. Der Export ganzer relationaler Datenbanken ist hingegen noch nicht generisch zu bewältigen. Es sind auch im Bereich der Standardisierung noch Weiterentwicklungen zu erwarten. Da aber die Spezifikationen zu SQLX die Funktionalität des "publish" bzw, des "extract/store" betreffen und nicht die Form der XML-Datenrepräsentation selber, ist diese Weiterentwicklung kein Hinderungsgrund für den Einsatz.

Referenz

ISO/IEC 9075-14:2006 "Information technology — Database languages — SQL — Part 14: XML-Related Specifications (SQL/XML)"
http://www.iso.org/iso/iso_catalogue/catalogue_ics/catalogue_detail_ics.htm?csnumber=38647
[kostenpflichtig]]

Literatur

SQLX.org Home Page
http://www.sqlx.org/
Wikipedia: SQL/XML (englisch)
http://en.wikipedia.org/wiki/SQL/XML
SQL/XML, computerPostille 13/2, Juni 2003
http://www.hrz.uni-dortmund.de/computerPostille/Juni2003/012.html
OracleBase, SQL/XML
http://www.oracle-base.com/articles/9i/SQLXML9i.php
Comelio Gmbh (ed.), XML-Abfragen mit SQLX
http://www.comelio.com/dedi3_221.php
Eisenberg, Andrew; Melton, Jim: SQL/XML and the SQLX Informal Group of Companies
http://www.sigmod.org/record/issues/0109/standards.pdf

Verbindungen

SQLX ist ebenso im Bereich Tabellenkalkulation anwendbar.
Eine funktionelle Beziehung besteht zu CSV.

Katalog archivischer Dateiformate (KaD, v2)

SQL Script


Kategorie

Strukturierte Daten aus Datenbanken

Abkürzung

.sql

Titel

Scripting Database

Versionen

Es handelt sich hier nicht um ein Dateiformat, sondern um eine Methode zum Erzeugen einer relationalen Datenbank aus einer Script-Datei (Textdatei) und vice versa. Die Textdatei enthält eine Menge von SQL-Befehlen. Diese SQL-Befehle müssen in ihrer Syntax einer bestimmten SQL-Version folgen (z.B. SQL-92).
SQL ist von ANSI und ISO standardisiert.

Beschreibung

Die Methode, eine Datenbank mit all ihren Datenbankobjekten aus einer Menge von SQL Scripten aufzubauen, wird in der Regel im Datenbank-Developmentbereich, bei der Datenbankerzeugung mit CASE-Tools, für Dokumentationszwecke und bei der Datensicherung eingesetzt.
Eine Menge von DDL (Data Definition Language)-Befehlen erzeugt die Struktur bzw. Objekte der Datenbank. Mit DML (Data Manipulation Language)-Befehlen werden anschliessend die Datenbankobjekte/Tabellen mit Daten gefüllt. Alle diese Befehle sind sequentiell in einer Datei angeordnet, werden vom SQL-Interpreter ausgeführt und generieren ein Datenbankschema und füllen Daten in die Tabellen. Zur Erzeugung der Scripts stehen verschiedene Tools zu Verfügung. Bestimmte Datenbanken haben diese Tools auch bereits eingebaut (SQL-Server: "Generate SQL Script wizard", PostgreSQL: "SQL Manager" etc.)
Mit dieser Methode werden, wie übrigens auch bei SQLX oder SIARD, nur die Struktur und der Inhalt der Datenbank archiviert, die applikatorische Logik, die allenfalls einen bedeutenden Beitrag zum Verständnis einer Fachapplikation beiträgt, bleibt unberücksichtigt

Bewertung



Offenheit 3

Wenn im Script die Syntax einer bestimmten SQL-Version befolgt wird, ist eine Offenheit in hohem Grade gegeben. Viele Tools generieren jedoch Scripts für eine spezielle Datenbank und verwenden dabei, besonders im DDL-Bereich, datenbankspezifische Befehle, die nicht dem SQL-Standard entsprechen.

Lizenzfreiheit 4

Es bestehen keine lizenzrechtliche Einschränkungen für SQL Scripts.

Verbreitung 1

Hauptverbreitung sind die Bereiche Datenbank-Development, Datenbankerzeugung aus CASE-Tools und Datenbank-Dokumentation. Für die Datenbankarchivierung wird dieser Weg eher selten eingesetzt.

Funktionalitaet 4

Aus der archivierten SQL-Script Datei kann ein Datenbankschema mit all seinen Objekten wieder vollständig hergestellt werden. Die Datenbank ist von der Originaldatenbank in logischen Belangen nicht zu unterschieden.

Implementierung 3

Es gibt eine grosse Zahl auch von Datenbankherstellern unabhängige Scripting Tools. Ein Scripting Tool kann zudem vollständig in SQL beschrieben oder implementiert werden.

Speicherdichte 1

Durch die SQL-Befehle in den Scripts entsteht eine enorme Aufblähung der Datenmenge. Deshalb wird dieser Weg selten zu Archivierungszwecken beschritten. (SQL-Loader generiert deshalb zwar DDL-Befehle im Header, schreibt die Daten aber anschliessend als CSV-Datei).

Best Practice 1

Diese Methode besitzt im Augenblick praktisch keine Bedeutung für die Archivierung von Datenbanken. Sie ist aber die Grundlage von archivisch interessantern oder weiter verbreiteten Ansätzen wie etwa SIARD und SQLX.

Perspektive 1

Wegen der grossen Datenredundanz (Wiederholung der immer gleichen DML-Befehle) ist nicht zu erwarten, dass sich diese Methode für die Archivierung von strukturierten Daten aus Datenbanken durchsetzen wird. Auch wirkt der Umstand, dass die archivierten Daten wie ein Programm aussehen, für Nichtinformatiker eher abschreckend.

Formatklasse: n/a



Fazit

Die Methode ist aus theoretischer Sicht interessant, da alle verwendeten Schritte dem SQL-Standard unterworfen sind. Die Scripting Datei kann vollständig mit einem SQL-Script generiert werden und stellt wiederum ein SQL-Script dar. SQL (Structured Query Language) hat auch eine lange und stabile Entwicklung als Sprache zur Definition, Abfrage und Manipulation von Daten in relationalen Datenbanken und besitzt also so gesehen eine hohe Archivtauglichkeit. Der Umstand, dass die archivierten Daten nur komprimiert sinnvoll bewirtschaftet werden können, wirkt sich aber negativ aus.

Referenz

Ein Überblick über die SQL-Normen
http://www.techstreet.com/features/ISO_IEC_9075.tmpl
http://wwwai.wu-wien.ac.at/~wyk/dbs/pdf/SQL-DIN-Mitt-4-2004.pdf

Literatur

Wikipedia: SQL
http://de.wikipedia.org/wiki/Sql
Microsoft.com (ed.), Documenting and Scripting Databases
http://msdn2.microsoft.com/en-us/library/ms191299.aspx
The Code Project, Generate SQL Insert statements for your SQL Server 2000 Database
http://www.codeproject.com/dotnet/ScriptDatabase.asp
SQLScripter
http://www.sqlscripter.com/
PostgreSQL, EMS SQL Manager 2005 for PostgreSQL ver.3.6 released!
http://www.postgresql.org/about/news.570

Verbindungen

Eine funktionelle Beziehung besteht zu CSV und SIARD.

Katalog archivischer Dateiformate KaD

Glossar



Audio-Daten / Données audio

Daten, die eine kontinuierliche Abfolge von Tönen kodieren.

Ausdruckbare Daten / Données imprimables

Daten, die grundsätzlich auf Papier ausgedruckt werden können. Ausdruckbare Daten umfassen Bild- und Textdaten.

Bilddaten / Données graphiques

Daten, deren Inhalt eine visuelle Repräsentation beschreibt.

Dateinamenserweiterung / Extension de nom de fichier

Der letzte, durch einen Punkt abgetrennte Teil eines Dateinamens. Sie dient in verschiedenen Betriebssystemen dazu, das Format einer Datei kenntlich zu machen. Da die Dateinamenserweiterungen einerseits nicht standardisiert sind, anderseits durch einfache Umbenennung geändert werden können, sind sie kein hinreichendes Element zur Formatbestimmung. Viele Formate sind allerdings unter ihrer Dateinamenserweiterung bekannt.

Format

Ein Format beschreibt die Art, in der Informationen in einer Datei gespeichert werden. Es handelt sich dabei um vereinbarte Konventionen der inneren Struktur, also Vereinbarungen, wie Informationen eines Datentyps angeordnet sind. Diese Konventionen werden in einer Spezifikation detailliert beschrieben.

Implementierung / Implémentation

Für ein Format gibt es dann eine Implementierung, wenn eine Rendering-Software existiert, welche in diesem Format codierte Information in menschenlesbarer Form wiedergeben und deren Bearbeitung ermöglichen kann.

Lizenzfreiheit / Licence libre

Die Abwesenheit von Patenten auf Teilen oder dem Ganzen einer Formatdefinition. Open-Source-Lizenzen sind zugelassen.

Offenes Format / Format ouvert

Ein Format, dessen Spezifikation frei (aber nicht zwingend kostenlos) verfügbar ist.

Pronom Unique Identifier (PUID)

Ein Code vom Format fmt/[Zahl] oder x-fmt/[Zahl], welcher ein Format im PRONOM-Formatkatalog des britischen National Archives eindeutig identifiziert (siehe http://www.nationalarchives.gov.uk/aboutapps/pronom/puid.htm).

Rendering-Software / Logiciel de rendu

Eine Software, welche die in einem digitalen Datei codierte Information auf einem Ausgabegerät (Bildschirm, Drucker, etc.) in einer von Menschen lesbaren Form ausgeben kann. Idealerweise ist diese menschenlesbare Form diejenige, welche der Ersteller der Datei angestrebt hat. Rendering-Software muss die Spezifikation des verwendeten Formats kennen, um die Information aufzubereiten.

Strukturierte Daten / Données structurées

Daten, deren Hauptzweck es ist, maschinell analysiert und verarbeitet zu werden. Dies bedeutet unter anderem, dass ihre interne Struktur eine Rolle spielt und explizit kodiert ist.

Textdaten / Données textuelles

Daten, deren Hauptzweck es ist, von Menschen gelesen zu werden.

Video-Daten / Données vidéo

Daten, die eine kontinuierliche Abfolge von Bildern codieren.


Literatur

Caly, Serge; Le Coadic, Yves F.; Pomart, Paul-Dominique; Sutter, Eric: Dictionnaire de l'information, 2e éd., Paris, Armand Colin, 2004
Vocabulaire de la documentation. Ouvrage coordonné par Arlette Boulogne, Paris, Association des professionnels de l'information et de la documentation, 2004


Katalog archivischer Dateiformate (KaD, v2)

Bibliografie




Die Bibliografie ist in drei Kapitel aufgeteilt:
N.B.: In vielen Publikationen zu Anforderungen und Kriterien sind auch Beispiele möglicher Archivformate aufgeführt.

Grundlegende Werke sind fettgedruckt.

Quellen: KOST-interne Dokumentation sowie die folgenden Informationsportale:


Anforderungen und Kriterien


Abrams, Stephen
"File Formats", in: DCC Digital Curation Manual
2007
http://www.dcc.ac.uk/resource/curation-manual/chapters/file-formats/file-formats.pdf

Arms, Caroline; Fleischhauer, Carl
Digital Formats: Factors for Sustainability, Functionality, and Quality
IS&T Archiving 2005 Conference, Washington DC
2005
http://memory.loc.gov/ammem/techdocs/digform/Formats_IST05_paper.pdf

Bennett, John
A Framework of Data Types and Formats
British Library Research and Innovation Report 50
1997
http://www.ukoln.ac.uk/services/elib/papers/supporting/pdf/rept011.pdf
p.16: gewichtete Kriterienliste für Dateiformate

Bischoff, Frank M.
Archivierung digitaler Unterlagen – Neue Anforderungen an die Archive
2000
http://www.archive.nrw.de/dok/bischoff01/hess-archivtag.html
Ausführungen zu codierten und nicht-codierten Informationen

Boudrez, Filip et al.
Digital Archiving: the new challenge? Legal and archival issues
2005
http://www.expertisecentrumdavid.be/docs/digitalarchiving_manual.pdf
p.92: Anforderungen an und Klassifizierung von File Formats inkl. Beispiele

Brown, Adrian
English Heritage Digital Archiving Strategy
2002
http://www.english-heritage.org.uk/upload/pdf/dap_manual_archiving.pdf
p.3-11: Formatauswahl für die Archivierung

Brown, Adrian
Selecting File Formats for Long-Term Preservation
Digital Preservation Guidance Note 1
Version 2, 2008
http://www.nationalarchives.gov.uk/documents/selecting_file_formats.pdf
Ein kurzer Leitfaden durch die Kriterien, die bei der Wahl digitaler Formate im Hinblick auf spätere Archivierbarkeit beachtet werden sollten.

Brown, Adrian
Automatic Format Identification using PRONOM and DROID
Digital Preservation Technical Paper 1
2005
http://www.nationalarchives.gov.uk/aboutapps/fileformat/pdf/automatic_format_identification.pdf

Chaumier, Jacques
Document et numérisation. Enjeux techniques, économiques, culturels et sociaux
Paris, Association des professionnels de l'information et de la documentation, 2006

Christensen, Steen
Archival Data Format Requirements
2004
http://netarkivet.dk/publikationer/Archival_format_requirements-2004.pdf
Liste von Anforderungen an Archivformate

Clausen, Lars
Handling File Formats
2004
http://netarchive.dk/publikationer/FileFormats-2004.pdf
Zum Umgang mit im WWW gebräuchlichen Fileformaten

Dhérent, Catherine
Les archives électroniques: manuel pratique
2002
http://www.archivesdefrance.culture.gouv.fr/fr/archivistique/DAFmanuel%20version%207.html
Grundlagenwerk zur digitalen Archivierung, enthält Kriterien zur Formatauswahl

Direction des Archives de France (ed.)
Projekt PIL@E. Gestion des Formats de Fichiers.
2007
http://www.archivesdefrance.culture.gouv.fr/fr/archives%20electroniques/PIL@E.pdf

Ernst, Katharina et al.
Rahmenkonzept zur Langzeitarchivierung digitaler Daten für die Landeshauptstadt Stuttgart
2005
p. 30: Anforderungen und Beispiele

Gutzmann, Ulrike; Kamp, Ulrich; Keitel, Christian; Scheiding, Antje
Praktische Lösungsansätze zur Archivierung digitaler Unterlagen
Arbeitskreise der VdW 2007
http://www.wirtschaftsarchive.de/akea/handreichung.htm
Aktuelle Zusammenfassung und Übersetzung von 'Sustainability of Digital Formats' der Library of Congress

Huc, Claude et al.
Criteria for evaluating data formats in terms of their suitability for ensuring information long term preservation
2004
http://www.ssd.rl.ac.uk/ccsdsp2/mon04/long_term_preservation_criteria.doc

ICA (ed.)
Electronic Records: A Workbook for Archivists
2005
http://www.ica.org/sites/default/files/Study16ENG_5_2.pdf
(existiert auch in einer französischen Version: Les archives électroniques : Manuel à l'usage des archivistes (ICA Etude 16), 2005; http://www.ica.org/sites/default/files/ICA%20Study16%20FR.pdf )
p. 41: Anforderungen an Standardformate

Jacquesson, Alain; Rivier, Alexis
Bibliothèques et documents numériques : concepts, composantes, techniques et enjeux
Paris, Editions du Cercle de la Libraire, 1999

Keitel, Christian
Die Archivierung elektronischer Unterlagen in der baden-württembergischen Archivverwaltung
2002
http://www.landesarchiv-bw.de/sixcms/media.php/25/keitel_elektronische_konz.pdf
Nicht explizit über Formatkriterien, aber berührt das Thema

Lawrence, Gregory et al.
Risk Management of Digital Information: A File Format Investigation
CLIR Report 93
2000
http://www.clir.org/pubs/abstract/pub93abst.html
Fokus auf Migration

Library of Congress
Sustainability of Digital Formats
2007
http://www.digitalpreservation.gov/formats/intro/intro.shtml

Lormant, Nicolas, et al.
How to Evaluate the Ability of a File Format to Ensure Long-Term Preservation for Digital Information?
2005
http://www.ukoln.ac.uk/events/pv-2005/pv-2005-final-papers/003.pdf
Wohl die massgebendste Kriterienliste für Archivformate

Minnesota Historical Society (ed.)
File Formats Guideline
2003
http://www.mnhs.org/preserve/records/electronicrecords/erfformats.pdf
Diskussion grundlegender Konzepte zu Dateiformaten

Neuroth, Heike et al. (eds.)
Nestor Handbuch. Eine kleine Enzyklopädie der digitalen Langzeitarchivierung. Version 2.0
2009
http://nestor.sub.uni-goettingen.de/handbuch/
Zurzeit umfassendstes Kompendium zur digitalen Archivierung. Kapitel 7 befasst sich mit Dateiformaten.

Representation and Rendering Project
Survey and assessment of sources of information on file formats and software documentation
2003
http://www.jisc.ac.uk/uploaded_documents/FileFormatsreport.pdf
Zu Informationsquellen über Dateiformate

Richter, Wolfgang
Standards für Archivformate - Archivische Anforderungen an Dateiformate vor dem Hintergrund der Migrationsstrategie
Archiv und Wirtschaft 3/2004

Rog, Judith; van Wijk, Caroline
Evaluating File Formats for Long-term Preservation
2008
http://www.kb.nl/hrd/dd/dd_links_en_publicaties/publicaties/KB_file_format_evaluation_method_27022008.pdf

Rumble, John et al.
Developing and Using Standards for Data and Information in Science and Technology
2005
http://www.infointl.com/pdf/developing_using_standards.pdf
Philosophisches zu Standards

Stanescu, Andreas
Assessing the Durability of Formats in a Digital Preservation Environment
D-Lib Magazine, November 2004
http://www.dlib.org/dlib/november04/stanescu/11stanescu.html
Einige Kriterien zur Risikoanalyse betreffend Dateiformate

Thibodeau, Kenneth
Overview of Technological Approaches to Digital Preservation and Challenges in Coming Years, In: The State of Digital Preservation: An International Perspective, CLIR Report 107, 4-32
2002
http://www.clir.org/pubs/abstract/pub107abst.html
Nicht mehr ganz neuer, aber immer noch lesenswerter Gesamtblick zur digitalen Archivierung

Toebak, Peter M.
Records Management. Ein Handbuch
Baden, hier+jetzt 2007
pp. 490-496

Töwe, Matthias
Konzeptstudie E-Archiving
Konsortium der Schweizerischen Hochschulbibliotheken
2005
http://lib.consortium.ch/external_files/Konzeptstudie_D_V1_2.pdf
p. 55: Anforderungen an und Liste von Standardformaten


Allgemeine Ressourcen zu spezifischen Dateiformaten


Bagwell, Chris
Audio File Formats FAQ
http://sox.sourceforge.net/AudioFormats.html
Eine allgemeine Informationsressource zu Audioformaten

Born, Günter
Dateiformate - Die Reverenz. Tabellenkalkulation, Text, Grafik, Multimedia, Sound und Internet
Bonn, Galileo Press 2001
ISBN 3-934358-83-7

CDP Digital Audio Working Group (ed.)
Digital Audio Best Practices, Version 2.0
2005
http://www.cdpheritage.org/digital/audio/documents/CDPDABP_1-2.pdf
Eine Einführung in digitale Audiodateien mit Erläuterungen zu deren Charakteristika

Schmelzer, Ronald (ZapThink)
The Pros and Cons of XML
2001
http://www.zapthink.com/actions/download.php?id=ZT-XMLPROCON
Kurze kontroverse Einführung in die Eigenschaften von XML


Beispiele für Formatkataloge


Barnes, Ian
Preservation of word processing documents
2006
http://www.apsr.edu.au/publications/word_processing_preservation.pdf
Diskutiert Formatfragen für Textdokumente; untersucht gängige Formate auf ihre Archivtauglichkeit und formuliert Empfehlungen

Bates, Melanie et al.
Digital lifecycles and file types: final report (Rights and Rewards Project)
2006
http://hdl.handle.net/2134/1793

Boudrez, Filip
Archiving Electronic Office Documents
2003
http://www.expertisecentrumdavid.be/davidproject/teksten/DAVIDbijdragen/Office_documents.pdf
Empfohlene Formate für Office-Dokumente

Brown, Adrian
Graphics File Formats
Digital Preservation Guidance Note 4
Version 2, 2008
http://www.nationalarchives.gov.uk/documents/graphic_file_formats.pdf
Empfehlung für Bildformate für Archivierung des englischen Nationalarchivs

Bundeskonferenz der Kommunalarchive beim Deutschen Städtetag (ed.)
Handreichung zur Archivierung und Nutzung digitaler Unterlagen in Kommunalarchiven, in: Der Archivar 55 (2002), 16-18
2001
http://www.bundeskonferenz-kommunalarchive.de/empfehlungen/Handreichung_Digitale_Unterlagen.pdf
Knappes Verzeichnis möglicher Formate

Coy, Wolfgang
Perspektiven der Langzeitarchivierung multimedialer Objekte
nestor-Materialien 5
2006
http://nbn-resolving.de/urn:nbn:de:0008-20051214015
u.a. Formatdiskussion

Digital Preservation Testbed (ed.)
From digital volatility to digital permanence: Preserving text documents
2004
http://www.digitaleduurzaamheid.nl/bibliotheek/docs/volatility-permanence-textdocs-en.pdf
Analyse möglicher Archivierungsstrategien für Text-Dokumente; kurze Diskussion möglicher Formate

DOMEA-Konzept
Erweiterungsmodul zum Organisationskonzept 2.0
Technische Aspekte der Archivierung elektronischer Akten
2004
http://www.kbst.bund.de/
p. 31: Formatkonvertierung, Formate für Archivierung

Gilesse, Robèrt; Rog, Judith; Verheusen, Astrid
Alternative File Formats for Storing Master Images of Digitisation Projects
2008
http://www.kb.nl/hrd/dd/dd_links_en_publicaties/publicaties/Alternative%20File%20Formats%20for%20Storing%20Masters%202%201.pdf

Helfer, Bernward; Lupprian, Karl-Ernst
Dateiformate. Eigenschaften und Eignung für die Archivierung
elektronischer Unterlagen. Eine Handreichung für Archivarinnen und Archivare. Auf der Grundlage der Internet-Präsentation eines Workshops des Vereins
Schweizerischer Archivarinnen und Archivare vom 16.5.2000
2004
http://www.gda.bayern.de/datfor.pdf
Ein erster Formatkatalog des VSA, in der übersetzten und ergänzten Fassung

Knight, Gareth; McHugh, John
AHDS Preservation Handbook Digital Audio
http://www.ahds.ac.uk/preservation/audio-preservation-handbook.pdf
2005
Diskussion von Audioformaten und ihrer Eignung für Archivierung

Knight, Gareth; McHugh, John
AHDS Preservation Handbook Moving Image
2005
http://www.ahds.ac.uk/preservation/video-preservation-handbook.pdf
Diskussion von Videoformaten und Eignung für Archivierung

Public Records Office Victoria (ed.)
VERS Long Term Preservation Formats
PROS 99/007 (Version 2) Specification 4
1999, update 2006
http://www.prov.vic.gov.au/vers/standard/pdf/99-7-4_Std_ver_2-1.pdf
Grundlegende Handreichung: Gibt einen knappen Katalog grundlegender Archivformate inkl. Details zur Verwendung.

Public Records Office Victoria (ed.)
Advice on VERS Long Term Preservation Formats
PROS 99/007 (Version 2) Specification 4
1999, update 2006
http://www.prov.vic.gov.au/vers/standard/pdf/99-7-4_Advice_ver_2-1.pdf
sh. oben

Schweizerisches Bundesarchiv
Archivtaugliche Dateiformate. Standards für die Archivierung digitaler Unterlagen
Juli 2007
http://www.bar.admin.ch/dienstleistungen/00516/00517/
Festlegung der vom Bundesarchiv als archivtauglich akzeptierten Formate

Westcott, Keith
AHDS Preservation Handbook Vector Graphics
2005
http://ahds.ac.uk/preservation/vectors-preservation-handbook.pdf
Diskussion von Grafikformaten und Eignung für Archivierung

Wilson, Andrew et al.
AHDS Moving Images and Sound Archiving Study
2006
http://www.jisc.ac.uk/uploaded_documents/Moving%20Images%20and%20Sound%20Archiving%20Study1.doc