Katalog archivischer Dateiformate Version 5.0, Juli 2016

WARC


Kategorie

Hypertext, Archiv

Abkürzungen

WARC
.warc
application/warc
fmt/289

Titel

Web ARChive file format

Versionen

ISO-Standard 28500:2009

Beschreibung

Das WARC (Web ARChive) Format ist eine Erweiterung des ARC-Formates, neu auch als ISO-Standard 28500:2009 spezifiziert, bringt aber kein grundlegend neues Konzept, siehe ARC.

Bewertung



Offenheit 4

Das Format wurde vom Internet Archive und der Bibliothèque nationale de France entwickelt und liegt heute als ISO-Standard 28500:2009 vor.

Lizenzfreiheit 4

Es existieren soweit bekannt keine Patente zu WARC.

Verbreitung 3

Die meisten Web-Archive wie etwa das Internet Archive etc. benutzen heute das Format. Die Internet Memory Foundation entwickelt seit 2012 ein neues Web Archive Repository, das aber funktional kompatibel zu WARC sein soll.

Funktionalitaet 3

Das Format besitzt gegenüber ARC eine verbesserte Funktionalität.

Implementierung 3

Die Internet Archive Wayback Machine kann mit WARC umgehen, verschiedene Harvesting Lösungen können in diesem Format speichern, z.B. Heritrix.

Speicherdichte 3

Die Speicherdichte ist durch die Verwendung einer Komprimierung relativ hoch.

Verifizierbarkeit 2

Die Internet Archive Wayback Machine kann zur Formatverifizierung herangezogen werden.

Best Practice 3

WARC ist augenblicklich das verbreitetste Format beim Harvesting von Webseiten.

Perspektive 2

Längerfristig ist die Perspektive nicht ganz klar, weil offenbar relativ schnell Skalierungsprobleme auftreten.

Formatklasse B

Es handelt sich um ein gut eingeführtes Format.


Fazit

Aus Sicht des oben Gesagten ist weder eine ARC- noch eine WARC-Datei eine Serialisierung des im Browser gebildeten DOM-Objektes. Für das Betrachten eines in ARC oder WARC gespeicherten Webinhaltes ist genauso ein Browser notwendig wie vor der Archivierung. Die Menge der verwendeten Formate und zu interpretierenden Script- und Programmiersprachen ist nicht reduziert worden. Hingegen ist das Problem der verteilten Ressourcen gelöst. Alle Ressourcen, die zur Darstellung eines Webinhaltes/Dokumentes notwendig sind, werden in einer Datei zusammengefasst.

Referenz

ISO 28500:2009, Information and documentation — WARC file format, 2014
http://www.iso.org/iso/home/store/catalogue_tc/catalogue_detail.htm?csnumber=44717
WARC ISO 28500 Version 1 Latestdraft, 2008
https://archive.org/details/WARCISO28500Version1Latestdraft
WARC File Format Specifications (final draft)
http://archive-access.sourceforge.net/warc/WARC_ISO_28500_final_draft%20v018%20Zentveld%20080618.doc
Library of Congress: Sustainability of Digital Formats - WARC, Web ARChive file format
http://www.digitalpreservation.gov/formats/fdd/fdd000236.shtml

Literatur

Internet Memory developed a new infrastructure with the ambition to reach “Web-scale”
http://internetmemory.org/en/index.php/News/workshop_at_the_iipc_2012_general_assembly_leveraging_web_archives_research
Stephan Strodl, Peter Paul Beran, Andreas Rauber: Migrating Content in WARC Files
http://publik.tuwien.ac.at/files/PubDat_181115.pdf

Verbindungen

ARC
last update: georg.buechler - Wed, 25 May 2016 [15:10:56]
Copyright © by Koordinationsstelle für die dauerhafte Archivierung elektronischer Unterlagen
Copyright © by Centre de coordination pour l'archivage à long terme de documents électroniques