Katalog archivischer Dateiformate Version 5.0, Juli 2016

ARC


Kategorie

Hypertext, Archiv

Abkürzungen

ARC
.arc
application/x-internet-archive
x-fmt/219, fmt/410

Titel

ARC_IA, Internet Archive ARC file format

Versionen

Die Bezeichnung ARC wurde in den Frühzeiten der Informatik für verschiedene Datei-Archivformate verwendet, die alle Vorläufer von TAR, PKARC und ZIP sind. ARC_IA bezeichnet eine spezielle Variante, die vom Internet Archive verwendet wurde.

Beschreibung

ARC ist ein Dateiformat zur komprimierten Speicherung von verschiedenen Dateien in einer Datei aus den 80er Jahren. ARC kann ursprünglich keine Dateien in Verzeichnisbäumen abbilden. Das Internet Archive hat das Format weiterentwickelt, um mehrere Ressourcen einer Webseite effizient speichern zu können.

Ein ARC-Datei enthält die vollständige HTTP-Antwort (Response) und den mitübermittelten Datenstrom (Payload) aller vom Crawler besuchter Seiten zusammen mit einem Set vom Metadaten zum Crawl-Vorgang. Jeder Block (HTTP Response) ist unabhängig komprimiert. Die ARC-Datei löst vor allem das Problem der Speicherung von unzähligen kleinen Dateien, aus denen sich Webinhalte zusammensetzen. Der Zugriff erfolgt am besten über eine externe Datenbank, die ARC-Datei besitzt keinen eigenen Indexteil.

Weder HTTP Response noch Payload sind in der ARC-Datei auf irgendeine Art normalisiert. Sie entsprechen in ihrer Form genau dem, was vom Webserver gesendet wird.

Bewertung



Offenheit 4

Die Spezifikation von ARC_IA wird von Internet Archive verwaltet.

Lizenzfreiheit 4

Es existieren soweit bekannt keine Patente zu ARC_IA.

Verbreitung 2

ARC_IA ist heute durch WARC abgelöst; wahrscheinlich basieren aber immer noch grosse Teile des Internet Archives auf ARC-Dateien.

Funktionalitaet 2

Durch das Fehlen eines Dateiverzeichnis ist das Format für den Verwendungszweck arg eingeschränkt.

Implementierung 2

Die Internet Archive Wayback Machine kann mit ARC_IA umgehen, verschiedene Harvesting Lösungen können in diesem Format speichern, z.B. Heritrix.

Speicherdichte 2

Die Speicherdichte ist durch die Verwendung einer Komprimierung relativ hoch.

Verifizierbarkeit 2

Die Internet Archive Wayback Machine kann zur Formatverifizierung herangezogen werden.

Best Practice 1

Das Format ist durch WARC abgelöst worden und kann damit nicht mehr empfohlen werden.

Perspektive 1

Es ist keine Perspektive absehbar.

Formatklasse X

Es handelt sich um ein veraltetes Format.


Fazit

Beim neuen Crawlen oder Harvesting von Webseiten sollte WARC als Archivformat gewählt werden. Bestehende Archivbestände müssen nicht unbedingt von ARC in WARC konvertiert werden, weil das der Grösse wegen mit enormem Aufwand verbunden sein kann. Beim Konvertieren würde aber an den zugrundeliegenden HTML-Seiten und den eingebunden Ressourcen nichts geändert.

Referenz

Internet Archive: Mike Burner, Brewster Kahle "Arc File Format" September 15, 1996, Version 1.0
http://archive.org/web/researcher/ArcFileFormat.php
Library of Congress: Sustainability of Digital Formats - ARC_IA, Internet Archive ARC file format
http://www.digitalpreservation.gov/formats/fdd/fdd000235.shtml

Literatur

Siehe WARC

Verbindungen

WARC
last update: claire.roethlisberger - Mon, 04 Jul 2016 [15:35:36]
Copyright © by Koordinationsstelle für die dauerhafte Archivierung elektronischer Unterlagen
Copyright © by Centre de coordination pour l'archivage à long terme de documents électroniques