Hypertexte


Le terme hypertexte désigne un ensemble de textes reliés entre eux par des liens (links). La présentation des textes et celle des liens s’effectuent avec un langage de balisage (markup language). Le langage de balisage hypertexte le plus connu est le HTML. Le Web constitue donc le plus grand hypertexte. Celui-ci se subdivise en sous-domaines thématiques appelés sites web ou sites internet et qui se caractérisent par un nom de domaine commun, jusqu’à en arriver à une page internet qui à proprement parler est également un hypertexte, parce qu’elle est constituée d’une page HTML et d’un ensemble de ressources web référencées.

L’archivage est confronté à trois problèmes :
Premièrement, un hypertexte est structuré sous la forme d’un réseau. Si nous essayons de représenter les différentes pages web de manière linéaire ou hiérarchique, comme nous en avons l’habitude, nous perdons un aspect sémantique important. Nous devons donc archiver les pages et les liens ensemble. Le réseau de liens n’existe nulle part de manière externe, comme dans un système de classement, mais résulte au contraire implicitement de tous les liens dans toutes les pages et il est établi par exploration des pages web au moyen d’un robot d’indexation (crawler).

Deuxièmement, seule l’interaction d’une page HTML et d’un ensemble de ressources web dans le navigateur constitue une page web. Celle-ci n’est nulle part entièrement disponible en tant que fichier source. C’est pourquoi l’archivage de pages web ou de sites internet entiers nécessite l’utilisation d’un logiciel qui simule le point de vue du navigateur ou qui recueille en tant que fichiers toutes les ressources nécessaires à la représentation dans le navigateur.

Troisièmement : Si nous suivons la différenciation entre objet et information de représentation dans l’OAIS, il est difficile de dire où trouver l’objet parce que les systèmes de gestion de contenus (content management systems CMS) actuels ne sauvegardent plus nulle part de véritables pages HTML, mais les assemblent depuis un ensemble de données seulement en cas de demande. L’aspect information de représentation est tout aussi problématique. Nous avons en effet dans le CMS un premier niveau dans lequel une page est présentée à partir d’objets d’information. Dans une deuxième étape, le serveur web complète cette page au moment même où celle-ci est générée. Dans la troisième étape de la représentation, le navigateur charge des ressources supplémentaires du serveur web et finalement il exécute du JavaScript intégré qui peut encore une fois charger des ressources et restituer la page dans sa forme d’origine et ensuite l’afficher.

L’absence de hiérarchie représente également un grand problème pour l’évaluation. On ne peut en effet évaluer les pages web que de manière individuelle ou les sites internet de manière intégrale.

Formats examinés


Recommandation

Bien que WARC soit le format instauré pour l’archivage web, il ne peut être recommandé comme format d’archivage à long terme en raison de la diversité potentielle de formats intégrés et de la difficulté de les migrer. Pour archiver un site internet entier, il est clairement recommandé à long terme de convertir en PDF/A. On peut convertir des pages isolées en PDF, en réalisant les liens au travers de la structure du classeur ou sauvegarder un site web entier en tant que fichier PDF/A-2 et les liens hypertextes renvoient alors de page PDF en page PDF.
Le HTML ou le HTML5 ne peuvent en fait être recommandés en tant que format d’archivage que pour des pages sans ressources externes intégrées, à la place du texte brut (plain text), avec la possibilité supplémentaire de fixer également la structure du texte et la mise en page. Dans le catalogue, les formats HTML figurent donc plutôt dans les formats textuels structurés.

Étude

Étude sur l'archivage web (en allemand)

Bibliographie

Manuel du groupe de travail Nestor : chapitre 17.9, Web-Archivierung zur Langzeiterhaltung von Internet-Dokumenten
http://nestor.sub.uni-goettingen.de/handbuch/artikel/nestor_handbuch_artikel_293.pdf

last update: georg.buechler - Tue, 05 Jul 2016 [13:00:10]
Copyright © by Koordinationsstelle für die dauerhafte Archivierung elektronischer Unterlagen
Copyright © by Centre de coordination pour l'archivage à long terme de documents électroniques