PDF/A pour hypertexte


On peut convertir en fichier PDF un document ou un objet DOM généré dans le navigateur lors du chargement d’un fichier HTML, exactement de la même manière qu’on peut l’imprimer. Lors de la conversion en PDF, toutes les ressources incorporées sont sauvegardées dans le fichier PDF et converties dans les formats audiovisuels correspondants selon les spécifications du convertisseur, particulièrement si on choisit comme format cible le PDF/A (par exemple, les images GIF seront converties en JPEG ou JPEG2000).

Chaque fournisseur résout la représentation des fonctionnalités hypertextes différemment. Le PDF utilise des liens (le PDF/A autorise des liens internes ou externes ; les lecteurs PDF/A-1 ne sont pas censés exécuter des liens ; les lecteurs PDF/A-2 devraient exécuter des liens internes, mais pas les liens externes, leur fonctionnement n’étant pas garanti). Ainsi chaque page peut être reliée de la même manière. Il existe deux solutions différentes permettant de relier des pages web. La première approche établit un fichier PDF/A par page web et relie tous les fichiers PDF/A à un site internet complet. La deuxième approche consiste à sauvegarder dans le même fichier les pages web les unes derrière les autres dans l’ordre de l’exploration faite par le robot d’indexation. Ce faisant, un site web entier peut facilement dépasser la taille maximale d’un fichier PDF (8‘388‘607 objets, 10 Go ; pour le PDF/A-1 la taille maximale est de 2 Go).

Les propriétés techniques du PDF/A-2 sont décrites en détail dans le chapitre sur les données textuelles. À cet endroit se trouve également une comparaison détaillée avec les versions 1 et 3. Il est nécessaire d’utiliser la version 2 comme format d’archivage parce que seule cette version autorise l’exécution de liens PDF internes et que la taille maximale des fichiers a été élevée à 2 Go.

Ci-après figure uniquement une brève évaluation du PDF/A-2 lorsqu’il est utilisé en tant que format d’archivage pour hypertexte.

Evaluation


Ouverture du format: 4

PDF/A-2 est une norme ISO.

Licence libre: 4

Le critère de licence libre est rempli, en particulier parce qu’il n’est pas possible d’utiliser tous les algorithmes de compression et que les polices sont encapsulées.

Diffusion: 3

La diffusion du PDF/A-2 s’est beaucoup étendue ces dernières années dans les archives et le monde des affaires.

Fonctionnalités: 2

En principe, les fonctionnalités du PDF/A-2 comme format d’archivage pour hypertexte dépendent de chaque page. Selon les cas, on ne peut pas convertir en PDF/A-2 le contenu incorporé de chaque page.

Implémentation: 3

Il existe d’une part des outils de création de documents PDF/A-2 qui sont capables de sauvegarder dans un fichier PDF non seulement des pages web, mais également des sites web entiers. D’autre part, il existe des solutions dédiées à l’archivage internet qui permettent aussi de sauvegarder en PDF/A-2 ou en PDF. Un fichier PDF peut être regardé par n’importe quel lecteur PDF.

Densité de mémorisation: 2

Le PDF/A-2 sert de conteneur pour les diverses ressources HTML incorporées. Suivant la compression utilisée pour ces ressources, par exemple des images JPEG2000, la densité de mémorisation peut être relativement élevée. Un autre facteur dépend de la manière dont les différentes versions du site internet sont reliées entre elles.

Vérifiabilité: 4

Les fichiers PDF/A-2 peuvent être reconnus par des logiciels de reconnaissance de formats. Il existe plusieurs validateurs pour ce format.

Bonnes pratiques: 3

Le format est de plus en plus utilisé dans les archives et il est très bien accepté comme format d’archivage. Il ne revêt cependant jusqu’à maintenant qu’une faible importance dans le domaine de l’archivage web.

Perspectives: 4

Le format a été développé en tant que format d’archivage et la suite de son développement bénéficie d’un suivi archivistique.

Classes de formats: B

PDF/A-2 a été conçu spécifiquement pour l’archivage et ne va pas à l’encontre des exigences relatives à l’archivage à long terme.

Conclusion

PDF/A en tant que format hypertexte présente dans tous les cas les avantages suivants : lors de la sauvegarde, la compression a lieu dans un format connu adapté pour l’archivage ; tous les autres formats incorporés dans le HTML sont également incorporés de manière conforme au PDF/A ; la fonctionnalité des hyperliens est conservée ; il suffit d’un lecteur PDF pour regarder le fichier et il n’y a pas besoin de navigateur avec les modules d’extension (plug in) correspondants.
Il reste à tenir compte du fait qu’à la base de toute conversion de HTML en PDF se trouve un moteur de rendu HTML particulier donc un navigateur particulier. Le PDF archivé reflète donc la vision du navigateur et pas la spécification universelle du document HTML. Cela signifie par exemple que l’élément de texte HTML abstrait « Titre 1 » sera représenté en un texte d’une certaine grosseur, graisse de caractère et avec un certain espace avec la suite du texte.

Bibliographie

Adobe White Paper: PDF as a Standard for Archiving
https://www.adobe.com/enterprise/pdfs/pdfarchiving.pdf

last update: claire.roethlisberger - Mon, 04 Jul 2016 [15:39:33]
Copyright © by Koordinationsstelle für die dauerhafte Archivierung elektronischer Unterlagen
Copyright © by Centre de coordination pour l'archivage à long terme de documents électroniques