WARC


Catégorie

Hypertexte, archives

Abréviations

WARC
.warc
application/warc
fmt/289

Titre

Web ARChive file format

Versions

ISO-Standard 28500:2009

Description

Le format WARC (Web ARChive) est une extension du format ARC, désormais également spécifié par une norme ISO 28500:2009. Il n’amène pas de concept fondamentalement nouveau (voir ARC).

Evaluation


Ouverture du format: 4

Le format a été développé par Internet Archive et la Bibliothèque nationale de France et il est disponible en tant que norme ISO 28500:2009.

Licence libre: 4

Il n’existe pas de patente connue pour WARC.

Diffusion: 3

La plupart des archives web comme Internet Archive, etc. utilisent aujourd’hui le format. La Internet Memory Foundation développe depuis 2012 un nouveau Web Archive Repository, qui doit être cependant compatible avec WARC.

Fonctionnalités: 3

Le format possède de meilleures fonctionnalités par rapport à ARC.

Implémentation: 3

L’Internet Archive Wayback Machine (« machine à remonter le temps ») peut travailler avec WARC. Différentes solutions de moissonnage (harvesting) peuvent sauvegarder dans ce format, par exemple Heritrix.

Densité de mémorisation: 3

La densité de mémorisation est relativement élevée du fait de l’utilisation d’une compression.

Vérifiabilité: 2

L’Internet Archive Wayback Machine peut être mise à contribution pour la vérification de format.

Bonnes pratiques: 3

WARC est en ce moment le format le plus répandu pour le moissonnage de sites web.

Perspectives: 2

La perspective à long terme est floue parce qu’il semble que des problèmes d’échelle surviennent assez rapidement.

Classes de formats: B

Il s’agit d’un format bien établi.

Conclusion

Au vu de ce qui précède, ni les fichiers ARC ni les fichiers WARC ne représentent une sérialisation des objets DOM constitués dans le navigateur. Pour regarder un contenu sauvegardé ARC ou WARC, un navigateur est tout aussi nécessaire qu’avant l’archivage. La quantité de formats utilisés ainsi que de langages de programmation et de scripts à interpréter n’a pas diminué. En revanche, le problème des ressources distribuées est résolu. Toutes les ressources nécessaires à un contenu web ou à un document sont rassemblées dans un fichier.

Références

ISO 28500:2009, Information and documentation — WARC file format, 2014
http://www.iso.org/iso/home/store/catalogue_tc/catalogue_detail.htm?csnumber=44717
WARC ISO 28500 Version 1 Latestdraft, 2008
https://archive.org/details/WARCISO28500Version1Latestdraft
WARC File Format Specifications (final draft)
http://archive-access.sourceforge.net/warc/WARC_ISO_28500_final_draft%20v018%20Zentveld%20080618.doc
Library of Congress: Sustainability of Digital Formats - WARC, Web ARChive file format
http://www.digitalpreservation.gov/formats/fdd/fdd000236.shtml

Bibliographie

Internet Memory developed a new infrastructure with the ambition to reach « Web-scale »
http://internetmemory.org/en/index.php/News/workshop_at_the_iipc_2012_general_assembly_leveraging_web_archives_research
Stephan Strodl, Peter Paul Beran, Andreas Rauber: Migrating Content in WARC Files
http://publik.tuwien.ac.at/files/PubDat_181115.pdf

Articles connexes

ARC

last update: georg.buechler - Mon, 04 Jul 2016 [12:25:26]
Copyright © by Koordinationsstelle für die dauerhafte Archivierung elektronischer Unterlagen
Copyright © by Centre de coordination pour l'archivage à long terme de documents électroniques