ARC


Catégorie

Hypertexte, archives

Abréviations

ARC
.arc
application/x-internet-archive
x-fmt/219, fmt/410

Titre

ARC_IA, Internet Archive ARC file format

Versions

La désignation ARC a été utilisée dans les débuts de l’informatique pour différents formats d’archives de fichiers qui sont tous des précurseurs de TAR, PKARC et ZIP. ARC_IA désigne une variante spéciale qui a été utilisée par l’Internet Archive.

Description

ARC est un format de fichiers des années quatre-vingt pour sauvegarde compressée de différents fichiers dans un fichier. ARC ne pouvait à l’origine pas représenter les fichiers dans leur arborescence. L’Internet Archive a développé le format afin de pouvoir sauvegarder efficacement plusieurs ressources d’une page web.

Un fichier ARC contient la réponse HTTP complète (response) et le paquet de données (payload) transmis de toutes les pages explorées par le robot d’indexation (crawler) ainsi qu’un set de métadonnées pour le processus de crawling. Chaque bloc (HTTP response) est compressé de façon indépendante. Le fichier ARC résoud surtout le problème de la sauvegarde d’innombrables petits fichiers dont sont composés les contenus web. L’accès s’effectue au mieux par une base de données externe. Le fichier ARC ne possède pas sa propre rubrique d’indexation.

Ni HTTP response ni payload ne sont normalisés d’une quelconque manière dans le fichier ARC. Leur forme correspond exactement à ce qui a été envoyé du serveur web.

Evaluation


Ouverture du format: 4

La spécification de ARC_IA est administrée par l’Internet Archive.

Licence libre: 4

Il n’existe pas de patente connue pour ARC_IA.

Diffusion: 2

WARC a aujourd’hui pris la relève d’ARC_IA. Cependant, de grandes parties de l’Internet Archives sont vraisemblablement encore basées sur des fichiers ARC.

Fonctionnalités: 2

L’usage du format est fortement limité par l’absence de répertoire de fichiers.

Implémentation: 2

L’Internet Archive Wayback Machine (« machine à remonter le temps ») peut travailler avec ARC_IA. Différentes solutions de moissonnage (harvesting) peuvent sauvegarder dans ce format, par exemple Heritrix.

Densité de mémorisation: 2

La densité de mémorisation est relativement élevée du fait de l’utilisation d’une compression.

Vérifiabilité: 2

L’Internet Archive Wayback Machine peut être mise à contribution pour la vérification de format.

Bonnes pratiques: 1

WARC a pris la relève du format et il ne peut donc plus être recommandé.

Perspectives: 1

Aucune perspective n’est en vue.

Classes de formats: X

Il s’agit d’un format obsolète.

Conclusion

En cas de nouvelle exploration par robot d’indexation ou de moissonnage, il faut choisir WARC comme format d’archivage. Il ne faut pas absolument convertir des fonds d’archives existants d’ARC en WARC parce que cette opération implique de très gros efforts en raison de leur taille. La conversion ne changerait cependant rien aux pages HTML sous-jacentes ni aux ressources intégrées.

Références

Internet Archive: Mike Burner, Brewster Kahle « Arc File Format » September 15, 1996, Version 1.0
http://archive.org/web/researcher/ArcFileFormat.php
Library of Congress: Sustainability of Digital Formats - ARC_IA, Internet Archive ARC file format
http://www.digitalpreservation.gov/formats/fdd/fdd000235.shtml

Bibliographie

Voir WARC.

Articles connexes

WARC
last update: claire.roethlisberger - Mon, 04 Jul 2016 [15:36:30]
Copyright © by Koordinationsstelle für die dauerhafte Archivierung elektronischer Unterlagen
Copyright © by Centre de coordination pour l'archivage à long terme de documents électroniques