Catalogue des formats de données d'archivage (Cfa, v2)













Catalogue des formats de données d'archivage (Cfa, v2)

Préface


La présente version 2.0 du catalogue des formats de données d'archivage (Cfa) du CECO a été élaboré par le bureau du CECO sur la base de la version 1.0. Les Archives membres du CECO ainsi que les groupes de travail de l'AAS Records management et archivage électronique et Normes et standards ont apporté leurs conseils spécialisés. Nous remercions en particulier Gilbert Coutaz, ACV; Alain Dubois, StAVS; Alexandre Garcia, CICR; Daniel Gubler, clavis IT; Hans Jörg Kuhn, StAUR; Christoph Manasse, StABS; René Quillet, StABL; Alexandra Rietmann, SR DRS; Matthias Wild, StAZH. Diverses suggestions du public ont également été intégrées, et nous lui en sommes très reconnaissants.

Quant à la version 1.0 du Cfa, du 19.12.2007, elle est née dans le cadre d'un projet du bureau du CECO ainsi que d'un groupe de travail interne du CECO (Gilbert Coutaz, ACV; Peter Hurni, StABE; Hans Jörg Kuhn, StAUR; Paul Müller, StABS; Claudia Schmucki, StAZH; Georg Büchler, CECO; Martin Kaiser, CECO); les groupes de travail de l'AAS eArchive et Normes&standards les ont accompagnés de leurs conseils.

Le Cfa est accessible via le site Internet du CECO, sous http://www.kost-ceco.ch/wiki/whelp/Cfa . Il est mis à jour périodiquement.

Contact: info@kost-ceco.ch

Version 2.0, 07.01.2010


Catalogue des formats de données d'archivage (Cfa, v2)

Introduction


Le catalogue des formats de données d'archivage a pour but de rendre deux types de services aux Archives suisses: d'une part il montre quels formats sont aptes à l'archivage dans l'état actuel de nos connaissances et peuvent servir de formats de destination pour la migration; d'autre part, lors des contacts avec l'administration, il sert de référence pour déterminer les formats utilisables dans les cycles de vie actifs de l'archivage (et recommandables à ce titre).

Catégories de formats


Au début du travail, une liste des différentes catégories de formats présentant un intérêt pour les archives a été établie. Le catalogue présente des recommandations de formats de données textuelles et graphiques, de données audio et vidéo ainsi que de tableurs et de bases de données.

Catalogue provisoire


La préparation du catalogue s'est appuyée sur une abondante littérature relative aux recommandations de formats pour l’archivage numérique. Sur cette base, un catalogue provisoire a été élaboré avec les formats potentiellement aptes à l’archivage, puis a été épuré et complété en cours de travail. La mise sur pied d’un catalogue provisoire a nécessité un premier travail de tri: les formats manifestement non aptes à l’archivage ont pu être exclus de l’analyse.

Analyse et évaluation


Les formats contenus dans le catalogue provisoire ont fait l'objet d'une analyse selon différents points de vue:


Les trois dimensions de l’analyse des formats


Ces trois points de vue entraînent deux résultats complémentaires. D’une part, ce catalogue des critères d’archivage et des bonnes pratiques permet d'identifier dans chaque catégorie le format le plus approprié à l'archivage et de classifier tous les formats examinés dans une hiérarchie correspondant à leur aptitude à l'archivage. Ainsi, chaque format sera évalué selon le catalogue des critères et se verra attribuer pour chaque critère une note de 1 (non satisfait) à 4 (pleinement satisfait). Ces évaluations seront multipliées selon la pondération des critères puis additionnées. Pour obtenir un classement pertinent, nous calculons le logarithme au moyen de la valeur moyenne d’une catégorie. Les valeurs plus grandes que 1 peuvent être considérées comme particulièrement aptes à l’archivage.

D’autre part, l’analyse selon les classes de formats ne peut être convertie en valeur numérique. Elle aide cependant à l’interprétation des résultats. Elle explicite en particulier l’appartenance de formats aux classes A ou B, qui sont susceptibles d’être proposées dans un avenir proche pour une utilisation archivistique. Les formats de la classe C ne semblent pas encore entrer en ligne de compte pour une transmission. Les formats de la classe D doivent retenir notre attention et pourront être recommandés si l'évolution leur est favorable.

Les résultats de l’analyse tridimensionnelle sont résumés dans une matrice d'évaluation.



Catalogue définitif des formats


Le catalogue des formats se compose des formats aptes à l’archivage ou identifiés comme intéressants pour les archives en raison de leur large diffusion. Un article de synthèse résume l’analyse des formats d’une même catégorie. Il dispense des informations générales ainsi que des recommandations concrètes, fondées sur le classement résultant du catalogue.
Certains formats de ce catalogue sont qualifiés d'"inaptes à l'archivage" parce que leur mode de compression des données entraîne des pertes. La migration de ces formats dans un format apte à l'archivage ne doit toutefois pas nécessairement avoir lieu au moment où ils sont transmis. L'on peut attendre la fin du cycle de vie du format et prolonger ainsi le cycle de migration (ex.: JPEG, MP3, MPEG-2).


Catalogue des formats de données d'archivage (Cfa, v2)

La question des formats dans le contexte général de l’informatique et dans une approche historique


D’une définition large ...

Le format des données est la manière utilisée en informatique pour représenter des données sous forme de nombres binaires. C'est une convention pour représenter des données, soit des informations représentant un texte, une page, une image, un son, un fichier exécutable, etc. On appelle format de fichier la manière dont des données sont enregistrées dans un fichier.

Une telle convention permet d'échanger des données entre divers programmes informatiques ou logiciels, soit par une connexion directe soit par l'intermédiaire d'un fichier. Le rôle des différents formats de codage est de permettre de présenter l’information afin de la rendre lisible, sous forme textuelle, image, audio, vidéo ou mixte.

... à une chaîne d’éléments qui s’enchaînent

Un format est un élément qui implique un autre (le logiciel) qui, à son tour, en exige un troisième (la version) et un quatrième (le système d’exploitation) pour aboutir sur un cinquième (le matériel). Tous ces éléments forment une chaîne, soit dans le sens d’une série de maillons, solidaires l’un de l’autre, soit dans l’idée qu’elle peut être une entrave si un des éléments vient à manquer ou à faire défaut. Autrement dit, le format peut déterminer toute la chaîne des éléments nécessaires à son utilisation. Les types de format peuvent être classés du plus fermé au plus ouvert, certains sont définis par des normes, le plus grand nombre sont standardisés.

La banalisation du document numérique, depuis l'apparition de l'informatique, n'est pas sans poser de nombreux problèmes d'ordre technique, culturel, économique ou juridique. On est passé, en quelques années, d'une logique de stockage à une logique de flux et d'une gestion de document à une gestion de contenu. La question des formats est fondamentale dans ce contexte, car elle agit sur la communication et la pérennité des données. En raison à la fois de sa complexité technique et de son existence dans un monde sans frontières, le document numérique a débouché sur la création de nombreux standards et des normes internationales

Deux dates pour situer le contexte:

1962: En France, Philippe Dreyfus invente le mot informatique pour désigner la science du traitement de l'information et des ordinateurs.

1964: Création du code ASCII (American Standard Code for Information Interchange), normalisé en 1966 par l'ISO pour simplifier l'échange de données entre ordinateurs. Malgré cela, IBM maintient sa propre norme propriétaire EBCDIC (Extended Binary Coded Decimal Interchange Code).

Les premiers formats sont des formats de description de pages, se contentant de la description physique du document, sans s’intéresser ni à son contenu ni à sa structure logique.


Histoire des formats archivistiques


Bien que le mot interopérabilité puisse revêtir des acceptions différentes en fonction du contexte, il est généralement pris dans le sens de «capacité des produits et services informatiques disparates à échanger et à utiliser des données et des informations (c’est-à-dire «communiquer») en vue de fonctionner ensemble dans un environnement en réseau».

L’histoire de l’informatique a été marquée depuis son origine par une quête – certains diront sans fin – d’interopérabilité, à savoir la possibilité de faire travailler ensemble des logiciels en provenance de divers fournisseurs.

L’interopérabilité constitue, depuis toujours, une sorte de Graal de l’informatique. Elle peut être obtenue par de nombreux moyens complémentaires, dont celui qui intéresse la question de la publication des formats, API ou protocoles. Ainsi, il peut s’agir de formats de fichiers permettant l’interopérabilité au niveau de l’échange de fichiers (par exemple, les schémas XML qui ont été publiés dès 2003 par Microsoft pour les principales applications de sa suite Office ou les formats ODF d’OpenOffice.org qui ont été publiés avant que ces derniers ne soient normalisés), d’API permettant l’interopérabilité au niveau de la programmation entre une application et une plate-forme sous-jacente, et de protocoles qui définissent la façon selon laquelle les logiciels dialoguent directement sur le réseau.

L’industrie informatique est, aujourd’hui, certainement plus harmonisée dans son approche générale que par le passé.

Bibliographie

De la Théorie à la Pratique. Didacticiel d'Imagerie Numérique, 2000-2003, Bibliothèque d l'Université Cornell/Département de Recherches,
http://www.library.cornell.edu/preservation/tutorial-french/contents.html

CHAUMIER, Jacques, Document et numérisation. Enjeux techniques, économiques, culturels et sociaux, Paris, Association des professionnels de l'information et de la documentation, 2006. 199 p.


Catalogue des formats de données d'archivage (Cfa, v2)

Catégories de formats


Selon leur représentation des données et leurs fonctionnalités, les formats existants peuvent être répartis dans les six catégories présentées ci-dessous et illustrées par des exemples. Ce tableau en montre la complexité pour l’archivage.


Six catégories de formats


Pour le catalogue des formats de fichiers archivables, les catégories de formats ci-après sont pertinentes:
Données textuelles, données graphiques, données audio, données vidéo et les données structurées (tableurs, bases de donnees). Les fichiers audio et vidéo, ne présentent un intérêt que pour quelques archives. C’est précisément le but visé par les recommandations du projet Cfa. En revanche, les exécutables ne sont pas pertinentes pour les archives qui ne conservent aucun logiciel.


Catalogue des formats de données d'archivage (Cfa, v2)

Catalogue des critères


Le catalogue des critères permet d’évaluer les différents formats dans les trois dimensions évoquées par l’introduction: évaluation archivistique, analyse des bonnes pratiques et classes de formats. La relativité de l’importance des critères est prise en compte par une pondération. L’évaluation de tous les formats est accompagnée d’un nombre total de points, tenant lieu de mesure d’aptitude à l’archivage. Ce procédé permettra d’adapter de manière flexible le catalogue des formats en cas de modification des caractéristiques d’un format.

Pour chaque critère, sont indiqués:



Catalogue des critères d’évaluation des formats


Evaluation archivistique:

Analyse des bonnes pratiques:

Classe de format:


Critères rejetés



Catalogue des formats de données d'archivage (Cfa, v2)

Ouverture du format



L’archivage à long terme des données numériques ne se limite pas à une conservation stable des chaînes de bits une fois archivées. Pour la compréhension de ces chaînes de bits, il est tout aussi important que les informations documentant les aspects syntaxiques et sémantiques soient présentes. Ces méta-informations permettent de lire la structure des données et de restaurer leur forme originelle. Les méta-informations représentent la spécification du format de fichier. Sur la base des spécifications, il doit être possible de développer un agent de rendu (agent de reconstruction ou logiciel permettant de lire et d’interpréter les données).
Par définition, de telles spécifications peuvent être rendues publiques, de même que les formats de fichiers ouverts (p. ex. PNG).
Ils peuvent aussi être publiés par le propriétaire légal d’un format pour des raisons de politique commerciale (p. ex. Adobe Photoshop PSD).
Un propriétaire légal peut aussi mettre les spécifications à la disposition du public en vue d’une stratégie de marketing d’ouverture au public (Adobe PDF).
Une autre possibilité consiste à ce qu’un format de fichier se soit fait connaître par une analyse externe. Il ne s’agit en fait pas de la voie officielle, mais elle est souvent utilisée pour les formats de fichiers obsolètes de produits sans successeurs légaux. Dans un tel cas, l’intégrité des spécifications ne peut pas être garantie.
Le critère n’exige pas que la spécification soit disponible gratuitement, même si cela serait souhaitable. Aux archives de décider si elles conservent elles-mêmes une copie des spécifications ou si elles se fient à leur future disponibilité externe. Pour les formats choisis dans le catalogue du CECO, ce dernier mettra à disposition une copie de la spécification.
L’ouverture au public d’une spécification contribue de manière décisive à permettre, à la fin du cycle de vie, de redéchiffrer les informations en format codé et de les migrer dans un nouveau format.
Ce critère correspond à la définition d’un format ouvert par le gouvernement belge (voir http://fr.wikipedia.org/wiki/Format_ouvert ).



Catalogue des formats de données d'archivage (Cfa, v2)

Licence libre



Les propriétaires de formats de fichiers encourent le risque que le fournisseur de licence change de stratégie (comme Unisys dans le cas de GIF) ou encore qu’un ou plusieurs successeurs posent de nouvelles exigences en matière de licence (exemple de l’Institut Fraunhofer/Alcatel-Lucent avec MP3). Les propriétaires de formats de données risquent aussi d’être soumis à un changement de format rapide en fonction du marché (nouvelles caractéristiques apportées continuellement à Adobe PDF).
Il faut tenir compte aussi du fait que la question de la licence doit non seulement être clarifiée selon le format de fichier effectif, mais aussi en fonction des algorithmes utilisés dans le format pour le codage, la compression, le décodage et le chiffrage. Par exemple l’algorithme de compression Lempel-Ziv-Welsh (LZW), appliqué au format GIF, et protégé par un brevet d’Unisys. Dans un tel cas, des objets encapsulés, comme les polices d’écriture, peuvent être la cause d’infractions aux droits de licence, entraînant des conséquences financières incontrôlables (comme les polices d’écriture dans les documents PDF; voir ci-après: Licenses for Font Embedding, Streaming and Web Servers: http://www.itcfonts.com/About/Embedding.htm ).
Il est donc préférable que les formats et les algorithmes qu’ils utilisent soient non seulement libres de toute licence, mais qu’ils fassent aussi l’objet d’une licence open-source. Ainsi, il est possible d’avoir la garantie qu’aucune prétention quelconque de licence ne pourra être présentée.
Ce critère correspond à la définition d’un format ouvert par le gouvernement belge (voir http://fr.wikipedia.org/wiki/Format_ouvert ).





Catalogue des formats de données d'archivage (Cfa, v2)

Diffusion



Etant donné que chaque migration de format présente un risque de perte de l’information, les formats de fichiers archivistiques doivent être conçus pour la plus longue durée potentielle possible. Une large diffusion, c’est-à-dire une forte quantité de données existantes dans un tel format, contribue à sa grande longévité, étant donné que le grand nombre de fichiers à convertir s’oppose à un changement rapide de format. Nous pouvons aussi espérer qu’un nombre raisonnable d’applications et d’outils soient compatibles avec ce format. Lors d’une éventuelle mais nécessaire convention de format (comme de GIF à PNG), il est vraisemblable qu’un outil de conversion sera ultérieurement disponible sur le marché. Une diffusion sur différentes plates-formes (comme Unix et Windows) donne la garantie que les spécifications de format ont été ou seront appliquées correctement.
La durée de vie d’un format est aussi un bon indice de longévité: les formats utilisés précédemment répondent a priori de manière satisfaisante aux exigences les plus variées, ce qui présente à long terme un pronostic favorable.
D’autres indices dont il faut tenir compte sont la rétrocompatibilité, le nombre de formats alternatifs et la volatilité au sein d’une catégorie de formats.
Des recoupements avec d'autres critères ne peuvent être entièrement évités; c'est pourquoi la pondération de la diffusion est de 0.8 seulement.


Catalogue des formats de données d'archivage (Cfa, v2)

Fonctionnalités



Cela signifie que tous les formats usuels de cette catégorie doivent pouvoir être convertis sans perte dans un nouveau format avec les outils habituels (capacité de migration). De plus, le contenu, la structure et la présentation doivent être préservés.
En complément, le format assurera toutes les fonctionnalités courantes ou pour le moins toutes celles nécessaires à l’archivage dans sa catégorie. Par exemple, le format PDF offre une meilleure représentation des documents MS-Word que le format TIFF, car le premier peut contenir, en plus de la représentation, des composants de texte.


Catalogue des formats de données d'archivage (Cfa, v2)

Implémentation



Par implémentation, nous entendons les logiciels de rendu et les outils servant à traiter ou à convertir les formats concernés. Plusieurs implémentations indépendantes garantissent qu’aucune feature (caractéristique non documentée) n’existe et que les spécifications soient entièrement mises en application.
Les formats propriétaires posent plus souvent des problèmes. Ils sont certes libres, mais ne sont entretenus que par un seul fournisseur de logiciels (p. ex. Adobe Photoshop PSD: seuls les produits Adobe sont véritablement compatibles avec toutes les données PSD).
Il faut tenir compte du fait qu’il s’agit d’une implémentation indépendante et non d’une intégration de mêmes modules dans différents paquets de logiciels.
Ce critère est consécutif aux critères d’ouverture de format et de licence libre, tout en les confirmant simultanément. C’est la raison pour laquelle sa pondération est faible.


Catalogue des formats de données d'archivage (Cfa, v2)

Densité de mémorisation



Du point de vue économie de mémoire, il faut privilégier un format permettant de mémoriser des fichiers les plus petits possibles. Une densité de mémorisation élevée peut cependant donner lieu à une complexité technique indésirable et entraîner des algorithmes de compression problématiques du point de vue droit de licence. C’est pourquoi ce critère n’est que faiblement pondéré, de manière à pouvoir être neutralisé par les autres critères.


Catalogue des formats de données d'archivage (Cfa, v2)

Bonnes pratiques



L’analyse des bonnes pratiques établit l’évaluation de chaque format dans le monde archivistique. L'évaluation sera meilleure si le format est utilisé par les archives elles-mêmes et si elle est recommandée dans la doctrine internationale (littérature, conférences). Etant donné qu’il n’existait jusqu’à présent que peu d’expériences à long terme en matière de formats aptes à l’archivage, l’information relative aux bonnes pratiques est particulièrement utile.
«Le terme «bonnes pratiques» désigne, dans un milieu professionnel donné, un ensemble de comportements qui font consensus, qui sont considérés comme indispensables et que l’on peut trouver sous forme de guide de bonnes pratiques (GBP). Ces guides sont conçus par les filières ou par les autorités. Ils peuvent se limiter aux obligations légales ou les dépasser. Comme les chartes, ils ne sont généralement pas opposables. Ils ne sont pas toujours publics, ni toujours gratuits ou accessibles en ligne pour le consommateur. Ils sont souvent établis dans le cadre d’une démarche de qualité par les filières.» (voir http://de.wikipedia.org/wiki/Best_practice )


Catalogue des formats de données d'archivage (Cfa, v2)

Perspectives



Les attentes que l’on peut placer dans le développement et l’extension future d’un format dépendent des efforts de standardisation dans le contexte international et des décisions prises par des comités internationaux ad hoc en matière d’aptitude à l’archivage.


Catalogue des formats de données d'archivage (Cfa, v2)

Classes de formats



Pour une meilleure compréhension, les formats sont subdivisés en quatre classes, dépendant de leur position dans leur cycle de vie:
A: Ancien format connu et très répandu: le format est connu de longue date et largement répandu; il existe un nombre considérable de fichiers dans ce format.
B: Format utilisé actuellement: dans sa catégorie, ce format est actuellement usité.
C: Format d'avenir: format nouveau qui n’est pas encore utilisé à large échelle, mais qui est de toute évidence appelé à se répandre largement.
D: Format potentiel: format spécifié et particulièrement intéressant du point de vue archivistique, mais qui n'est pas arrivé à un degré de maturité et de diffusion suffisant pour que l'on sache quelle importance il est appelé à prendre.


Catalogue des formats de données d'archivage (Cfa, v2)

Critères rejetés


Les points suivants ont d’abord été désignés comme critères possibles, puis ont été rejetés après une analyse plus précise.

Métadonnées soutenues

Le format doit intégrer les métadonnées et permettre leur extraction des fichiers

Certains formats de données disposent de leurs propres domaines de métadonnées qui sont complétés au moment de l'élaboration du fichier. En règle générale, ces métadonnées (par exemple le titre d’un document PDF) sont produites automatiquement, raison pour laquelle elles ne correspondent pas toujours à la réalité et aux intentions de l’auteur. Lorsqu’elles ne sont pas élaborées automatiquement, elles ont tendance à être mal employées.

Ce critère, que contenait encore la version 1.0 du Cfa, a été rejeté parce que l'on s'est rendu compte que les métadonnées internes au format n'offraient aucun avantage pour l'archivage électronique. Les métadonnées revêtent cependant une importance décisive pour l’archivage numérique. Il ressort des réflexions qui précèdent qu'il faut avoir recours, dans la mesure du possible, aux métadonnées des systèmes de gestion de mémorisation dans lesquels les fichiers ont été produits. En règle générale, ces métadonnées externes sont plus complètes et de meilleure qualité que les données internes. Il faut alors les archiver avec les fichiers de documents. Différentes méthodes existent à cet effet et elles sont toutes indépendantes du format du fichier.


Interopérabilité

Le format du fichier est indépendant du matériel et des systèmes d’exploitation spécifiques.

Actuellement, le lien d’un format de fichier avec un matériel spécifique – par exemple un support particulier (CD ou DVD) – est surtout utilisé pour la protection contre la copie. Cela entre en contradiction avec le principe de base que seuls les formats sans protection contre la copie et le chiffrage devraient être archivés.
En principe, tout format défini peut être mémorisé sur chaque plate-forme matériel/logiciel. Cela ne veut pas dire que des logiciels de rendu soient également disponibles pour ce format. En principe, un tel lien pourrait être développé pour les plates-formes spécifiques (p. ex. WMF sous Linux) sur la base des spécifications de format rendues publiques.

Etant donné qu’il est applicable à tous les formats examinés et qu’avec cela, il ne constitue pas une caractéristique de différenciation, ce critère a été rejeté. L’interopérabilité est une propriété d’une importance telle pour le format d’archivage qu’elle a déjà été prise en compte lors de l'inventaire du format provisoire de catalogue.


Vérifiabilité

Il doit exister des méthodes et des outils susceptibles d’être vérifiés pour qu’un fichier réponde aux spécifications de format.

Il s’agit d’une part de l’identification automatique du format, d’autre part de la validation du fichier dans son ensemble.
L’identification du format doit pouvoir reconnaître le format jusqu’à la granularité souhaitée (donc au lieu de PDF simplement, de préférence PDF 1.4 p. ex.).
La validation du format doit confirmer qu’un fichier réponde bien aux spécifications du format. Les objets intégrés, supposés être problématiques, doivent pouvoir être encapsulés.

Le critère a été rejeté car il découle de celui de l’ouverture du format.


Authenticité

Le format doit garantir l’authenticité des documents.

La signature numérique, aujourd’hui acceptée comme preuve d’authenticité d’un fichier, est nécessairement liée aux inconvénients du codage. Des possibilités d’authentification plus simples peuvent être implémentées au niveau de l’archivage du fichier.
Lors de la migration, le contenu, le contexte, la structure et les références du fichier de départ doivent rester présents dans le format.

Le critère a été rejeté car l’authenticité des documents archivés ne doit pas être assurée par le truchement du format de fichier mais par d’autres mécanismes.


Correction d’erreurs

Le format doit offrir des mécanismes de correction automatique des erreurs.

Certains formats proposent des mécanismes d’identification automatique ou de correction des erreurs (p. ex. PNG).

Ce critère a été rejeté car l’identification et la correction d’erreurs est actuellement assurée de manière suffisante par la technologie et les logiciels de sauvegarde (Storage Management System).


Catalogue des formats de données d'archivage (Cfa, v2)

Catalogue des formats












Catalogue des formats de données d'archivage (Cfa, v2)

Remarques relatives au codage des caractères


Jeux et codage de caractères


Nous différencions les jeux et les codages de caractères.

Traditionnellement, les jeux et les codages de caractères coïncidaient: un caractère était représenté directement par une séquence de bits. Cela s’applique notamment à:

Avec Unicode, les jeux et le codage de caractères sont séparés. Unicode définit en premier lieu les différents caractères des polices d’écriture respectives (jusqu’ici plus de 100 000) et leur attribue un dénommé code point, ou code caractère. Ce code caractère peut ensuite être converti de différentes manières dans une séquence de bits:

Références


ASCII

American National Standards Institute (ANSI) X3.4-1967 (ASCII-1967)

ISO/IEC 646:1991, Technologie de l’information — Jeu ISO de caractères codés à 7 éléments pour l'échange d'information
http://www.iso.org/iso/fr/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=4777
[payant]

ISO 8859

ISO/IEC 8859-1:1998, Technologie de l’information — Jeux de caractères graphiques codés sur un seul octet — Partie 1: Alphabet latin no. 1
http://www.iso.org/iso/fr/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=28245
[payant]
http://anubis.dkuug.dk/JTC1/SC2/WG3/docs/n411.pdf
[gratuit, version bêta anglophone de celle ci-dessus]

Unicode

Unicode 5.0.0
http://www.unicode.org/versions/Unicode5.0.0/
UTF-8
http://tools.ietf.org/html/rfc3629

Bibliographie


Spolsky, Joel: The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)
http://www.joelonsoftware.com/articles/Unicode.html
Wikipédia, ISO 8859-1
http://fr.wikipedia.org/wiki/ISO_8859-1

Unicode

UTF-8
http://www.utf-8.com/
Wikipedia: Comparatif de l’UTF-8 avec d’autres codages de caractères UNICODE
http://en.wikipedia.org/wiki/UTF-8#Advantages_and_disadvantages

Catalogue des formats de données d'archivage (Cfa, v2)

Compression des données


Les données numériques (en particulier les données graphiques, les données audio et les données vidéo, mais en principe toutes les données) sont fréquemment comprimées en raison de leur taille afin de pouvoir gagner de la place en mémoire et en capacité de communication. Nous différencions les algorithmes de compression sans perte et avec perte. La compression sans perte est fondée sur la réduction des redondances des fichiers existants. Pour la décompression, ils sont restaurés de manière à rétablir l’état de départ. La compression avec perte est fondée (exclusivement ou de manière subsidiaire) sur la réduction des non pertinences, c’est-à-dire des renseignements qui sont superflus pour l'utilisateur, par exemple parce qu'il ne peut pas de toute façon les percevoir. Ces informations sont toutefois perdues après la compression et l’original ne peut plus être rétabli. La compression avec pertes entraîne des artéfacts de compression plus ou moins élevés, à savoir des modifications caractéristiques et perceptibles du résultat.

En principe, pour l’archivage numérique, il convient d’éviter les algorithmes de compression entraînant des pertes. Etant donné qu’il est pratiquement impossible d’évaluer l’utilisation future des documents archivés, l’archivage doit viser à contenir toutes les informations d’origine dans toutes leurs variantes possibles. La compression temporelle de ((Données vidéo|données vidéo)), notamment, conduit à des problèmes lors du traitement ultérieur éventuel. Il n'est pas toujours possible d'éviter d'intégrer dans les archives des données comprimées. On évitera dans tous les cas les algorithmes de compression non publiés ainsi que la compression de données déjà comprimées.

Bibliographie

Wikipédia: compression de données
http://fr.wikipedia.org/wiki/Compression_de_donn%C3%A9es
Dale, Robin
Lossy or Lossless? File Compression Strategies Discussion at ALA
in: RLG DigiNews 3,1; février 1999
http://worldcat.org/arcviewer/1/OCC/2007/08/08/0000070513/viewer/file1380.html#technical1
International Association of Sound and Audiovisual Archives IASA
"Die Bewahrung von Schallaufnahmen. Ethische Aspekte, Prinzipien, Strategien (IASA-TC 03)"
Version 2005, à partir du chapitre 10
http://www.iasa-web.org/downloads/publications/TC03_German.pdf



Catalogue des formats de données d'archivage (Cfa, v2)

Données textuelles


Sous données textuelles, nous entendons des données permettant la représentation de textes peu structurés, tels qu’ils sont produits par les logiciels de traitement de texte ou les éditeurs de texte. Pour l’archivage de données textuelles, il est traditionnellement proposé de convertir les formats naturels de tels logiciels dans des formats plus appropriés aux formats d’archivage, p. ex. PDF et depuis peu, PDF/A. Lors du passage de formats de fichiers ouverts, fondés sur XML, la question se pose de savoir si ceux-ci pourraient également se prêter aux formats d’archivage.

Il faut faire attention à la distinction fondamentale entre les formats basés sur les pages et ceux non basés sur les pages. Les formats basés sur les pages comme les PDF et PDF/A sont optimaux pour l’impression car le saut de page et la mise en page sont déterminés. Pour les formats non basés sur les pages, comme tous les formats de traitement de texte, le texte lui-même est la préoccupation centrale; le saut de page est seulement déterminé lors de l’impression (ou lors de la conversion dans un format basé sur les pages).

Le passage de fichiers textuels aux fichiers graphiques, p. ex. TIFF, est déconseillé. En plus de l’économie de place en mémoire, c’est surtout la perte des possibilités d’exportation des textes qui parle en sa défaveur.

Formats analysés

Dans l’ordre de leur aptitude à l’archivage:


Recommandation

Dans la mesure du possible, les données textuelles devraient déjà être transposées par l’office en format PDF/A sous lequel elles pourront être directement archivées.


Catalogue des formats de données d'archivage (Cfa, v2)

TXT


Catégorie

Formats textuels

Abréviation

TXT
.txt
text/plain

Titre

Texte brut
Plain Text
Text only

Versions

Aucune; voir toutefois les informations sur le codage des caractères.

Description

Le format textuel peut être considéré comme le format le plus stable de l’informatique; le codage ASCII est déjà connu et utilisé depuis des décennies; les codages plus récents, comme la famille ISO-8859 ainsi que les divers codages UNICODE sont aussi rétrocompatibles.

Evaluation



Ouverture du format: 4

Les codages de caractères les plus usités sont les standards ISO ou IETF et sont donc ouverts.

Licence libre: 4

Il n’existe pas de licences de formats textuels ou de codage.

Diffusion: 2

Ce format est l’un des plus répandus de l’informatique mais il n’est que peu utilisé dans l’administration.

Fonctionnalités: 1

Les fichiers en texte brut ne permettent pratiquement pas (c’est-à-dire uniquement sous forme très rudimentaire) de représenter la mise en page (layout) et les formatages. Une migration des fichiers issus des programmes de traitement de texte en texte brut entraîne la perte presque complète du formatage, ce qui peut être inacceptable selon l’importance de ce dernier.

Implémentation: 4

Il existe un grand nombre d’éditeurs de texte.

Densité de mémorisation: 3

La densité de mémorisation est élevée et peut être encore accrue par l’usage de la compression sans pertes.

Bonnes pratiques: 4

Le texte brut est diffusé en tant que format d’archivage recommandé et utilisé.

Perspectives: 1

Le potentiel de développement du texte brut a pratiquement atteint ses limites.

Classes de formats: A

Il s’agit de l’un des plus anciens formats de l’informatique.


Conclusion

Le texte brut répond au mieux à la plupart des exigences de l’archivage (à l’exception près, non négligeable, de la préservation de la mise en page) et n’est donc pas contesté comme format d’archivage. L’administration n’utilise cependant presque pas les fichiers texte brut. Les fichiers XML, HTML et CSV constituent une exception car il s’agit en fait de pures données textuelles contenant aussi des informations sur la structure et/ou la mise en page, tout en étant destinées à une application spécifique (sites internet, contenu d’une base de données). En outre, certains systèmes d’information plus anciens exportent le plus simplement leurs données sous forme de texte brut.
Les documents en format de texte brut proposés pour l’archivage sous cette même forme peuvent être archivés sans autres dans ce format pour autant que le codage des caractères soit connu. Les codages de caractères courants ne présentent aucun problème, mais ils doivent être documentés dans les métadonnées. S’il existe une possibilité de choix, il faudrait utiliser de préférence UNICODE dans le codage UTF-8 en raison de sa compréhensibilité universelle et de sa durabilité.

Références

Le texte brut n’est pas une norme au sens formel. Il existe toutefois des normes formelles pour le codage des caractères.
Le type MIME text/plain dispose d’une définition formelle:
Multipurpose Internet Mail Extensions (MIME) Part Two: Media Types, 1996
http://www.rfc-editor.org/rfc/rfc2046.txt

Bibliographie


Liens

CSV


Catalogue des formats de données d'archivage (Cfa, v2)

PDF


Catégorie

Formats textuels

Abréviation

PDF
.pdf
application/pdf

Titre

Portable Document Format

Versions

Version actuelle: 1.7 (2006)
Versions précédentes: 1.0 (1993), 1.1 (1994), 1.2 (1996), 1.3 (1999), 1.4 (2001), 1.5 (2003), 1.6 (2005)

Description

Le «Portable Document Format» (PDF) est un format de fichier pour documents indépendant de la plate-forme. Le format de mémorisation et d’échange PDF est très répandu et apprécié. Il repose sur un langage de description de page à base vectorielle (développement basé sur PostScript) assurant l’évolutivité de la présentation.

Evaluation



Ouverture du format: 4

Le Portable Document Format (PDF) a été conçu par Adobe Systems et publié au moyen du PDF Reference Manual. PDF 1.7 a été standardisé en juillet 2008 en tant que norme ISO 32000-1. Les versions futures de PDF ne seront plus élaborées par Adobe, mais au moyen du processus de standardisation ISO.

Licence libre: 2

PDF ne fait pas l’objet d’une licence. La question de la licence pour les polices ou les algorithmes de compression utilisés doit être clarifiée (consulter http://www.itcfonts.com/About ).

Diffusion: 4

PDF existe depuis bientôt 15 ans et est très répandu. La 1re version a été publiée en 1993, la version 1.7 actuelle en octobre 2006. Il existe de nombreux outils sur diverses plates-formes pour la conversion du format texte en PDF.

Fonctionnalités: 3

Tous les formats usuels de cette catégorie peuvent être convertis en PDF sans perte. Le contenu des fichiers peut faire l’objet d’une recherche intégrale du texte.
La mise en page peut être identique à l’original à condition de s’assurer que les polices et les espaces de couleur soient disponibles (par exemple en les encapsulant lors de la génération du fichier PDF).
Outre la structure, les documents PDF peuvent comporter des éléments interactifs comme des signets, des commentaires ou des champs de formulaire, ainsi que des objets audio/vidéo, de la transparence et des niveaux.
Des passages de texte, des tableaux et des graphiques (ou des parties de ceux-ci) provenant de documents PDF peuvent être collés dans d’autres programmes d’application pour y être traités.

Implémentation: 4

Il existe un grand nombre d’outils permettant de convertir différents formats en PDF. Citons PDFlib, PDF-Writer, Acrobat Distiller, Office 2007 avec plug-in. Adobe Systems fournit gratuitement Adobe Reader comme outil d’affichage et poursuit sans relâche son développement.
Il n’existe presque aucun outil de conversion entre les versions PDF. Citons toutefois myPDFconvert.

Densité de mémorisation: 4

L’encombrement des documents PDF est en général relativement modeste. La compression permet de réduire la taille des fichiers PDF; consulter toutefois les considérations sur la compression des données.

Bonnes pratiques: 2

PDF est un format d’enregistrement et d’échange de données apprécié, très utilisé dans les administrations. Les documents sont convertis dans ce format dès qu’ils se trouvent sous leur forme définitive et ne seront plus modifiés.
Les versions actuelles de PDF sont généralement utilisées. Les versions actuelles peuvent disposer de fonctionnalités comme la transparence et le chiffrement, qui ne sont pas appropriées dans le cas d’un archivage à long terme.

Perspectives: 2

Il est prévisible que la popularité de PDF sera accompagnée d’un développement continu. Office 2007 de Microsoft propose par exemple désormais l’exportation de PDF par plug-in. Les versions récentes de PDF comportent d’innombrables extensions faisant l’objet d’un brevet ou d’une licence et des fonctionnalités posant des problèmes pour l’archivage.

Classes de formats: B

Le format couvre les besoins d’utilisation globaux.


Conclusion

PDF est un format qui se prête en principe à l’archivage. Il faut toutefois prendre garde aux problèmes potentiels dus aux fonctionnalités spéciales et aux objets encapsulés. C’est pourquoi il est préférable de recourir si possible à PDF/A pour l’archivage. Dans le cas des documents dont la mise en page est importante pour l’archivage, il faut donc veiller à ce que tout le contenu, en particulier les images, les polices et les espaces de couleur soient encapsulés. La prudence est de mise lors du recours aux fonctions les plus récentes comme la transparence, la production de sons ou celle de la vidéo.

Références

ISO 32000-1:2008
Document management — Portable document format — Part 1: PDF 1.7
http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=51502
[payant]
Adobe (ed.)
PDF Reference
http://www.adobe.com/devnet/pdf/pdf_reference.html
[gratuit]

Bibliographie

Wikipédia: Portable Document Format
http://fr.wikipedia.org/wiki/Portable_Document_Format
PDF Tools AG (ed)
White Paper: PDF Primer
http://www.pdf-tools.com/public/downloads/whitepapers/whitepaper-pdfprimer.pdf
myPDFconvert
http://www.detec.de/index.php?artikel_id=330&kat_1s=Produkte&kat_2s=myPDFconvert

Liens

PDF/A


Catalogue des formats de données d'archivage (Cfa, v2)

PDF/A


Catégorie

Formats textuels

Abréviation

PDF/A
.pdf
application/pdf

Titre

Portable Document Format (Archival)

Versions

Version actuelle: PDF/A-1 (correspond à la version 1.4 PDF) avec PDF/A 1a et PDF/A 1b (2005)
PDF/A-2 en préparation

Description

PDF/A est un «Portable Document Format» conçu pour l’archivage à long terme. Le format a été spécifié dans la norme «ISO-19005-1 – Document management – Electronic document file format for long-term preservation». Cette norme correspond à la version PDF 1.4. La norme ne donne que la liste des fonctions des versions PDF qui sont obligatoires, recommandées, restreintes ou interdites.
On fait la distinction entre
PDF/A 1a: conformité intégrale à la norme PDF/A
PDF/A 1b: satisfait aux exigences minimales de PDF/A (l’accessibilité, conformément au paragraphe 508 de l’acte juridique «US Rehabilitation Act», fait défaut)

Evaluation



Ouverture du format: 4

PDF/A est fondé sur la version 1.4 du cahier des charges PDF, élaboré et mis à disposition par l’entreprise Adobe Systems. PDF/A est publié en tant que standard ISO 19005-1 et donc ouvert.

Licence libre: 3

Le critère de licence libre est rempli; il faut toutefois veiller à n’utiliser ni polices ni algorithmes de compression sous licence (algorithmes de chiffrement à partir de PDF/A-2).

Diffusion: 2

PDF/A correspond à la version plus ancienne PDF 1.4 (avec certaines restrictions). L’utilisation de cette version est par conséquent en diminution. PDF/A lui-même est encore peu répandu et peu connu.

Fonctionnalités: 3

L’extraction de texte et l’ordre naturel de lecture sont retenus dans PDF/A-1. Contrairement à PDF 1.4, la transparence, la production de son/vidéo et les objets JavaScript ne sont pas autorisés. PDF/A-2 permettra aussi l’utilisation de signatures numériques.
Les objets structurés (textes, graphiques vectoriels, infographie matricielle) sont conservés pour autant qu’ils soient encapsulés. Les hyperliens et les textes à polices préinstallées (par exemple logos programmés sur un caractère particulier) ne sont pas conservés.
WYSIWYG est assuré moyennant quelques petites restrictions. La reproduction à long terme (lisibilité et compréhension) est garantie dans le cas de PDF/A-1a. Dans le cas de PDF/A-1b, il manque ce que l’on nomme «Tagged PDF» qui permet la présentation sur différents appareils de sortie (PDA, appareils selon le paragraphe 508, US Rehabilitation Act).
Le contenu est conservé, mais doit être complètement encapsulé lors de la production (s’applique par exemple aux images).
Il faut toutefois faire en sorte qu’aucun élément propriétaire supplémentaire (compression, etc.) ne soit utilisé.
L’immutabilité du document après sa migration en PDF/A constitue un avantage pour l’archivage.

Implémentation: 3

Il existe différents outils pour produire des documents PDF/A (Adobe Acrobat Professional et autres). Les fichiers PDF/A peuvent être lus avec tous les lecteurs de PDF (par ex. Adobe Reader). Dans la pratique, il arrive que les documents PDF/A d'un autre outil que l'outil producteur ne soient pas reconnus comme valides. Cela est révélateur d’imprécisions de la spécification.

Densité de mémorisation: 2

PDF/A est en règle générale relativement compact. L'encapsulation des polices nécessite toutefois davantage de mémoire que dans PDF.

Bonnes pratiques: 4

PDF/A n’est encore que peu utilisé mais il est recommandé par de nombreux services comme format d’archivage.

Perspectives: 4

On peut présumer que la norme PDF/A réussira à s’imposer pour l'archivage à long terme.
Il est aussi vraisemblable que la norme sera développée et adaptée à de nouvelles exigences.

Classes de formats: C

PDF/A a été conçu spécifiquement pour l’archivage.


Conclusion

PDF/A est un format bien approprié pour l’archivage à long terme.
Les services d’archivage devraient encourager le stockage des documents administratifs dans le standard PDF/A. Dans le cas des documents dont la présentation est importante pour l’archivage, il faut veiller à ce que tout le contenu, et en particulier les images, les polices et les espaces de couleurs soient encapsulés.

Références

ISO 19005-1:2005, Gestion de documents — Format de fichier des documents électroniques pour une conservation à long terme — Partie 1: Utilisation du PDF 1.4 (PDF/A-1)
http://www.iso.org/iso/fr/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=38920
[payant]

Bibliographie

PDF Tools AG (ed)
White Paper: PDF/A – Ein neuer Standard für die Langzeit-Archivierung ( PDF/A – Un nouveau standard pour l’archivage à long terme)
http://www.pdf-tools.com/public/downloads/whitepapers/whitepaper-pdfa-de.pdf
PDFlib GmbH (ed)
Whitepaper: Creating PDF/A with PDFlib
http://www.pdflib.com/fileadmin/pdflib/pdf/whitepaper/Creating-PDFA-with-PDFlib.pdf
myPDFconvert
http://www.detec.de/index.php?artikel_id=330&kat_1s=Produkte&kat_2s=myPDFconvert

Liens

PDF


Catalogue des formats de données d'archivage (Cfa, v2)

ODF


Catégorie

Formats textuels

Abréviation

ODF
.odt
application/vnd.oasis.opendocument.text

Titre

Open Document Format

Versions

Version actuelle: 1.1 (2006)
Version précédente: 1.0 (2005)
Version 1.2 en préparation

Description

ODF est un format fondé sur celui des fichiers du progiciel de bureautique source libre OpenOffice.org et donc sur XML. Un document ODF est un dossier ZIP ayant la structure d’une archive Java. Il comporte donc un fichier «Manifest» avec métadonnées ainsi que plusieurs autres fichiers dans lesquels se trouvent le document, des objets intégrés et d’autres métadonnées. Le contenu, la structure et la présentation du document sont enregistrés sous forme de fichiers XML.
L’algorithme de compression ZIP est ouvert et libre d’accès. ( http://www.info-zip.org/ )
Les débats contradictoires sur ODF se réfèrent toujours à OOXML. L’évaluation en tient occasionnellement compte.

Evaluation



Ouverture du format: 4

Ce format est disponible publiquement. La spécification d’ODF est bien plus courte que celle d’OOXML (800 pages contre 6000), ce que quelques auteurs considèrent comme un inconvénient: un cahier des charges trop concis présenterait le désavantage de compliquer la création de logiciels pour ce format, à moins de recourir à des interprétations, avec le risque de ne pas pouvoir restituer toutes les fonctions. Cependant, ce qui importe est la qualité de la spécification.

Licence libre: 4

Le format contient des brevets. Ceux-ci sont mis en circulation pour toutes les versions futures, tant que durera la collaboration avec Sun (ou Oracle).
Les polices utilisées ne font pas partie du domaine public, ce qui risque de poser des problèmes de droits lors de l'utilisation future.

Diffusion: 1

Ce format est encore peu répandu.

Fonctionnalités: 4

OpenOffice? peut convertir en ODF des douzaines de formats de traitement de texte courants et obsolètes. Ce format peut aussi contenir des objets encapsulés dans d’autres formats de fichiers.

Implémentation: 3

ODF est le format natif d'OpenOffice et de ses dérivés. Depuis 2009, MS Office également permet de produire des documents en ODF.

Densité de mémorisation: 3

La compression par ZIP permet d’atteindre une densité de mémorisation relativement élevée.

Bonnes pratiques: 2

Ce format est envisagé comme format d’archivage, en particulier lorsqu’il est utilisé comme format de base dans l’administration.

Perspectives: 3

Les avis divergent quant aux perspectives de diffusion d’ODF. Quelques auteurs doutent que ce format puisse s’imposer malgré le soutien de quelques administrations, compte tenu de la concurrence d’OOXML et de la dominance de Microsoft sur le marché. Toutefois, comme la communauté s’occupant de ce format est importante et bénéficie d’un large soutien, les perspectives d’avenir sont favorables.

Classes de formats: C

Ce format est intéressant pour l’archivage. Il peut être utilisé dans ce but s’il atteint une certaine diffusion.


Conclusion

Ce format est intéressant pour l’archivage, en particulier lorsque les fichiers se trouvent déjà dans ce format, ce qui permet de les archiver directement, sans conversion.

Références


ODF:
ISO/IEC 26300:2006, Technologies de l'information — Format de document ouvert pour applications de bureau (OpenDocument) v1.0
http://www.iso.org/iso/fr/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=43485
[payant]
http://std.dkuug.dk/keld/iso26300-odf/
[disponible gratuitement]
OASIS: OpenDocument 1.1
http://docs.oasis-open.org/office/v1.1/OS/OpenDocument-v1.1.pdf

Bibliographie

http://fr.wikipedia.org/wiki/OpenDocument
Au sujet de la dispute sur les normes: (Publication Government Computer News, USA)
http://www.gcn.com/print/26_16/44604-1.html
Sur OpenOffice:
http://fr.openoffice.org/

Liens

OOXML


Catalogue des formats de données d'archivage (Cfa, v2)

OOXML


Catégorie

Formats textuels

Abréviation

Office Open XML
.docx

Titre

Office Open Extensible Markup Language

Versions

Version actuelle: 1 (Ecma 376, décembre 2006 et ISO/IEC 29500-1:2008)

Description

OOXML est un format de bureautique conçu par Microsoft sur la base de XML. Un format container est spécifié ainsi que des langages de balisage (markup language) basés sur XML pour les différentes applications bureautiques (traitement de texte, tableur, etc.). Un document OOXML est un fichier ZIP contenant différents documents XML qui eux-mêmes contiennent le contenu et la structure du document.
L’algorithme de compression ZIP est ouvert et libre d’accès ( http://www.info-zip.org/ ).
Les débats contradictoires sur OOXML sont toujours influencés par ODF. L’évaluation en tient occasionnellement compte.

Evaluation



Ouverture du format: 4

OOXML est disponible publiquement et certifié depuis 2008 en tant que format ISO (ISO/IEC 29500:2008).

Licence libre: 3

Le format contient des brevets. Les brevets ne sont mis en circulation que pour la version actuelle.
Les polices utilisées ne font pas l’objet d’une licence libre, ce qui pourra causer des problèmes de droits lors de l’utilisation future des polices ainsi protégées.
Quelques auteurs sont d’avis qu’Office Open XML est plus propriétaire que par exemple les formats .doc ou .xls car il est permis d’éditer ceux-ci par «reverse engineering». Cela n’a aucune importance pour d’autres auteurs.

Diffusion: 2

OOXML est encore peu répandu.

Fonctionnalités: 4

Microsoft Office Word permet de convertir la plupart des formats courants en OOXML. OOXML peut aussi contenir des objets encapsulés dans d'autres formats de fichiers.

Implémentation: 2

OOXML est le format natif de Microsoft Office. D'autres logiciels de traitement de texte permettent également de lire ou même parfois de générer de l’OOXML.

Densité de mémorisation: 3

L’utilisation de la compression ZIP permet d’atteindre une densité de mémorisation relativement élevée.

Bonnes pratiques: 2

Au cours du processus de standardisation, des doutes ont été émis quant à l’ouverture complète et à l’utilisation libre de la norme. C’est pourquoi OOXML n’est pas considéré comme le format idéal par les services d’archivage.

Perspectives: 3

OOXML va acquérir une signification importante en tant que nouvelle génération des formats de MS Office.

Classes de formats: C

Le format est déjà utilisé dans les versions actuelles de MS Office mais il est encore peu répandu.


Conclusion

Si ce format s’impose dans la pratique, ce qui est probable, il peut s’avérer intéressant pour l’archivage. La Confédération (selon la NZZ du 20.6.07, Krieg der Standards) a choisi Windows Vista et Office 2007. On peut donc supposer qu’Office Open XML va acquérir une importance croissante dans les normes d’échange de données.

Références

ISO/IEC 29500-1:2008
Information technology — Document description and processing languages — Office Open XML File Formats
http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=51463
[payant]
Ecma Office Open XML File Formats Standard - Final draft - 9th of October 2006
http://www.ecma-international.org/news/TC45_current_work/TC45-2006-50_final_draft.htm
[disponible gratuitement]

Bibliographie

Wikipédia: Open XML
http://fr.wikipedia.org/wiki/Open_XML
Jackson, Joab: Squaring Off. Despite heated rhetoric over open document formats, there’s not much to choose between ODF and Office Open XML, Government Computer News 07.02.2007
http://www.gcn.com/print/26_16/44604-1.html

Liens

ODF


Catalogue des formats de données d'archivage (Cfa, v2)

Données graphiques


Dans l’ouvrage Encyclopedia of Graphics File Formats (1996) Murray et van Ryper définissent les fichiers graphiques (graphics files) comme «files that store any type of persistent graphics data (as opposed to text, spreadsheet, or numerical data, for example), and that are intended for eventual rendering and display». Les données graphiques appartiennent donc aux données imprimables selon un concept utilisé dans le projet Cfa: l’objet qu’elles codent est destiné à être visualisé et imprimé sous forme bidimensionnelle.

Comme introduction aux données graphiques, il est nécessaire de discuter deux points: la division entre graphiques matriciels (pixels) et vectoriels ainsi que le problème de la compression.

Graphiques matriciels et vectoriels

Il existe essentiellement deux types de données graphiques. Les graphiques matriciels (également dénommés graphiques en points) représentent une image par des points individuels (pixels) disposés selon un système de coordonnées cartésiennes (matrice ou grille). Les graphiques vectoriels décrivent des images (plus précisément leurs éléments constitutifs) par des fonctions mathématiques. Les deux types diffèrent par leurs propriétés et donc par leurs domaines d’utilisation respectifs. Les graphiques matriciels se prêtent particulièrement bien à l’enregistrement d’images du monde réel, par exemple de photos. En effet, ils ne présupposent aucune connaissance de la constitution de l’image et peuvent reproduire la subtilité des transitions et des détails. Les graphiques vectoriels se prêtent aux images formées de lignes individuelles, donc typiquement des graphiques géométriques, des plans, des images de CAO. Le domaine d’application des graphiques matriciels est donc fondamentalement différent. Ils souffrent toutefois de deux inconvénients fondamentaux par rapport aux graphiques vectoriels: ils sont difficilement adaptables car ils sont constitués de points individuels et ils requièrent beaucoup de place en mémoire (voir le paragraphe ci-dessous sur la compression). Les graphiques vectoriels peuvent être convertis en graphiques matriciels, mais au détriment de leurs propriétés essentielles. Il est généralement recommandé d’archiver séparément les deux types.

Compression

Les graphiques matriciels sont souvent comprimés, vu leur taille, afin de réduire la place et les capacités de communication nécessaires. (Une version JPEG peut n’occuper par exemple qu’environ un dixième de la place par rapport à un fichier TIFF non comprimé sans provoquer d’effet gênant pour la vision – voir http://www.cs.sfu.ca/CC/365/mark/material/cgi-bin/whichjpeg.cgi pour une comparaison.) Les considérations générales sur la compression des données s’appliquent à leur archivage: il faut éviter les algorithmes de compression avec pertes, sauf lorsque les graphiques matriciels se trouvent déjà sous forme comprimée avec pertes (par exemple en format JPEG ). Il peut être alors nécessaire d’accepter cette solution tout en prévoyant des cycles de migration aussi longs que possible. Il particulièrement déconseillé de convertir immédiatement des formats comprimés en formats d’archivage. En effet, les informations correspondantes sont déjà perdues et une conversion plus tardive permet de prolonger les cycles de migration.

Bibliographie

Memoriav recommendations photo. La conservation des photographies.
2007
http://fr.memoriav.ch/dokument/Empfehlungen/recommandations_photo_fr.pdf
Murray, James D.; vanRyper, William: Encyclopedia of Graphics File Formats. Second Edition. Bonn etc, O’Reilly 1996.
Cornell University Library, Digital Imaging Tutorial: Common Image Formats
http://www.library.cornell.edu/preservation/tutorial-french/presentation/table7-1.html
The National Archives (ed.), Digital Preservation Guidance Note 5: Image Compression
http://www.nationalarchives.gov.uk/documents/image_compression.pdf
Wikipédia: graphique matriciel
http://fr.wikipedia.org/wiki/Image_matricielle
Wikipédia: graphique vectoriel
http://fr.wikipedia.org/wiki/Image_vectorielle

Formats examinés

Dans l’ordre de leur aptitude à l’archivage:

Recommandations



Catalogue des formats de données d'archivage (Cfa, v2)

TIFF


Catégorie

Formats graphiques (matriciels)

Abréviation

TIFF
.tif, .tiff
image/tiff

Titre

Tagged Image File Format

Versions

Version actuelle: 6.0 (1992)
Versions précédentes: 4.0 (1987), 5.0 (1988). Les versions 1 et 2 n’ont pas été officiellement publiées; la version 3.0 (1986) n’a presque pas été utilisée.

Description

TIFF est une norme «de facto» mais aussi un format propriétaire appartenant à Adobe. Ce format a été conçu à l’origine comme format d’échange pour la numérisation des images. Grâce à son universalité, il s’est ensuite répandu comme un format préférentiel pour les données graphiques. TIFF définit une collection de tags (d’où son nom), autrement dit balises, décrivant les caractéristiques d’une image. Celles-ci comportent notamment les dimensions, les espaces de couleurs utilisés, le type de compression des données (par exemple packbits, CCITT G3&4, RLE, JPEG, LZW, UIT-T) ou la correction gamma. Ce principe simplifie l’enregistrement de données graphiques en TIFF. Toutefois, toutes les options ne sont pas toujours implémentées dans les lecteurs.

Evaluation



Ouverture du format: 4

Le cahier des charges de TIFF est ouvert et disponible gratuitement.

Licence libre: 3

Le copyright de TIFF appartient à Adobe; l’entreprise a renoncé jusqu’ici à exiger des droits de licence pour l’utilisation du format.

Diffusion: 4

Le format TIFF est très répandu comme format standard pour la numérisation.

Fonctionnalités: 4

TIFF constitue un format cible adéquat pour tous les formats graphiques.

Implémentation: 4

Les documents TIFF peuvent être ouverts par tous les logiciels de traitement graphique de type courant.

Densité de mémorisation: 1

Comme TIFF est utilisé sans compression pour l’archivage, la densité de mémorisation est faible.

Bonnes pratiques: 4

Presque toutes les institutions d’archivage recommandent TIFF comme format d’archivage.

Perspectives: 2

Le cahier des charges n’a pas été modifié depuis 1992; il ne faut pas s’attendre à de nouveaux développements. TIFF demeure toutefois un format d’archivage possible.

Classes de formats: A

Le format TIFF est connu et a fait ses preuves depuis longtemps.


Conclusion

TIFF jouit d’une réputation presque incontestée comme format d’archivage graphique. Les arguments principaux en sa faveur sont sa norme ouverte, sa grande diffusion et son aptitude à servir de format cible pour les migrations.

Références

TIFF Revision 6.0 Final, June 3, 1992
http://partners.adobe.com/public/developer/en/tiff/TIFF6.pdf
http://www.itu.int/itudoc/itu-t/com16/tiff-fx/docs/tiff6.pdf

Bibliographie

LibTIFF - TIFF Library and Utilities
http://www.remotesensing.org/libtiff/.
Wikipédia: TIFF
http://fr.wikipedia.org/wiki/Tagged_Image_File_Format
The Unofficial TIFF Home Page
http://home.earthlink.net/~ritter/tiff/
Duplouy, Laurent:
Evaluation du format TIFF au regard de son aptitude à être pérennisé
http://vds.cnes.fr/pin/presentations/2006/format_TIFF.pdf


Catalogue des formats de données d'archivage (Cfa, v2)

JPEG


Catégorie

Formats graphiques (matriciels)

Abréviations

JPEG, JPG
.jpg, .jpeg, .jpe, .jfif, .jfi, .jif
image/jpeg

Titre

Joint Photographic Experts Group Interchange Format

Versions

Version actuelle: 1 (1992, acceptée comme ISO/IEC 10918-1 1994)

Description

JPEG est le format le plus usité pour l’échange d’images, principalement de photographies et sur Internet. JPEG est à la fois une méthode de compression graphique avec pertes en un train d’octets (byte stream) et un format de fichier dans lequel ce train d’octets est mémorisé. Une version minimale de ce format est connue sous le nom de «JPEG File Interchange Format» (JFIF). Dans de nombreuses applications, JPEG désigne le format de ce fichier. JPEG est avant tout destiné aux photographies et généralement aux images comportant une fine gradation des couleurs. Il ne convient pas aux graphiques linéaires.
L’utilisation de JPEG pour l’archivage est en général catégoriquement déconseillée. La faute en revient aux pertes de l’algorithme de conversion. Il faut éviter la perte de parties des informations graphiques (encore aggravée par les migrations suivantes). Certes, l’économie de place réalisée lors de l’enregistrement mérite d’être prise en compte, mais il est préférable de recourir aux compressions sans pertes (par exemple dans JPEG2000). Toutefois, si les fichiers graphiques livrés aux archives se trouvent déjà en format JPEG, la migration en formats sans pertes n’a de sens que si ceux-ci présentent de meilleures perspectives à long terme.

Evaluation



Ouverture du format: 4

JPEG est un standard ISO.

Licence libre: 4

De 2002 à 2006, on a tenté de prendre certains brevets sur JPEG. Ces tentatives ont entraîné des revers juridiques pour leurs auteurs qui ont finalement abandonné. En outre, la période pendant laquelle il aurait été possible d’obtenir des brevets sur le format est arrivée à échéance.

Diffusion: 4

JPEG est le format le plus usité pour l’échange graphique, principalement de photographies et en particulier sur Internet.

Fonctionnalités: 1

La compression du format JPEG provoque une certaine perte d’informations (JPEG-LS offre un algorithme de conversion pratiquement sans pertes pour JPEG, mais il n’a pas eu un grand succès et a été entre-temps remplacé par JPEG2000. Consulter http://www.jpeg.org/jpeg/jpegls.html à ce sujet.)

Implémentation: 4

Le format est utilisé par tous les logiciels de traitement graphique de type courant ainsi que par tous les navigateurs web graphiques.

Densité de mémorisation: 4

La compression permet à JPEG d’atteindre une densité élevée de mémorisation (jusqu’à un facteur de dix par rapport aux fichiers graphiques non comprimés presque sans perte apparente de qualité).

Bonnes pratiques: 1

On s’accorde généralement sur le fait que JPEG n’est pas un format d’archivage.

Perspectives: 1

L’avenir de JPEG semble limité; le travail de développement dans le domaine des formats graphiques se concentre avant tout sur JPEG2000.

Classes de formats: A

Le format JPEG est connu depuis longtemps et est très répandu.


Conclusion

La compression de JPEG empêche de le recommander comme format d’archivage. Lorsque des fichiers graphiques importants sont fournis dans ce format, il y a lieu de renoncer à une migration s’il n’existe aucun autre format adapté au long terme dans lequel il serait judicieux de convertir les fichiers JPEG.

Références

Information technology — Digital compression and coding of continuous-tone still images: Requirements and guidelines. ISO/IEC 10918-1:1994
http://www.iso.org/iso/fr/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=18902
[payant]
http://www.w3.org/Graphics/JPEG/itu-t81.pdf
[version gratuite]
C-Cube Microsystems (ed.), JPEG File Information Format, Version 1.02
http://www.w3.org/Graphics/JPEG/jfif3.pdf
[disponible gratuitement]

Bibliographie

JPEG Homepage
http://www.jpeg.org/jpeg/index.html
Murray, James D.; vanRyper, William: Encyclopedia of Graphics File Formats. Second Edition. Bonn etc., O'Reilly&Associates, 1996. ISBN 1-56592-161-5. pp. 510-515

Liens

JPEG2000 est prévu comme successeur de JPEG. Il comporte notamment une compression sans pertes.


Catalogue des formats de données d'archivage (Cfa, v2)

JPEG2000


Catégorie

Formats graphiques (matriciels)

Abréviations

JPEG2000, J2K
.jp2, .jpg2, .j2c (.jpc, .j2k pour le Codestream)
image/jp2, image/jpx (pour les extensions)

Titre

Joint Photographic Experts Group 2000

Versions

Version actuelle: 1 (publiée 2000, deuxième édition 2004)

Description

JPEG2000 est une norme de compression graphique. Le format de fichier associé est défini dans l’annexe I du cahier des charges. JPEG2000 a été conçu pour compenser certains désavantages de JPEG. Il offre en particulier une méthode de compression sans pertes. Dans la partie 2 du standard, un format de fichier étendu est défini (.jpx). Il contient des mécanismes d'animation et de réunification de différents flux de code en une même image.

Evaluation



Ouverture du format: 4

JPEG2000 est un standard ISO.

Licence libre: 3

Il existe divers brevets sur JPEG2000; leurs détenteurs se sont toutefois engagés à rendre la norme exempte de droits. Il n’est toutefois pas exclu que des revendications encore inconnues ayant trait aux brevets ne surviennent.

Diffusion: 1

JPEG2000 est encore très peu répandu.

Fonctionnalités: 4

La compression sans pertes permet d’utiliser JPEG2000 comme format cible pour les migrations à partir d’autres formats graphiques matriciels.

Implémentation: 4

JPEG2000 ne s'est pas encore largement imposé. Il existe toutefois différentes implémentations. Quelques visualiseurs supportent JPEG2000 en mode natif, d’autres font appel à des extensions (plug-ins), d’autres programmes répandus ne peuvent pas encore traiter JPEG2000.

Densité de mémorisation: 4

La compression permet d’atteindre une densité de mémorisation élevée

Bonnes pratiques: 3

Ce format n'est encore que peu utilisé dans des institutions d'archivage.

Perspectives: 4

Le format est considéré comme le successeur de JPEG; on s’attend à des développements significatifs.

Classes de formats: D

JPEG2000 se trouve encore au tout début de son utilisation.


Conclusion

Bien que le format JPEG2000 n’ait pas été initialement conçu pour l’archivage, il se prête bien à cette tâche. En particulier, la compression sans pertes élimine un inconvénient rédhibitoire du format JPEG initial. JPEG2000 constitue un candidat pour un futur format d’archivage, donc pour un format dont l’utilisation peut être recommandée aux offices fournisseurs concernés. Contrairement à PNG, dont les points forts se manifestent particulièrement dans les images de diagrammes et dans celles en noir et blanc, JPEG2000 convient parfaitement aux photographies.

Références

ISO/IEC 15444-1:2004: Information technology — JPEG 2000 image coding system: Core coding system
http://www.iso.org/iso/fr/CatalogueDetailPage.CatalogueDetail?CSNUMBER=37674
[payant]

extrait gratuit du précédent: Annex I - JP2 File Format Syntax
http://www.jpeg.org/public/15444-1annexi.pdf

Dernière version préliminaire (Final Committee Draft) disponible gratuitement sous
http://www.jpeg.org/public/fcd15444-1.pdf

Les parties supplémentaires de la norme (2-13) sont aussi disponibles auprès d’ISO.

D. Singer, R. Clark, D. Lee,
MIME Type Registrations for JPEG 2000 (ISO/IEC 15444)
http://www.rfc-editor.org/rfc/rfc3745.txt

Bibliographie

The JPEG Committee Home Page, JPEG 2000
http://www.jpeg.org/jpeg2000/index.html
Buonora, Paola; Liberati, Franco
"Format for Digital Preservation of Images: A Study on JPEG 2000 File Robustness"
in: D-Lib magazine, juillet 2008
http://www.dlib.org/dlib/july08/buonora/07buonora.html
Buckley, Robert; Tanner, Simon
"JPEG2000 as a Preservation and Access Format for the Wellcome Trust Digital Library"
2009
http://library.wellcome.ac.uk/assets/wtx056572.pdf
Lowe, David; Bennett, Michael J.
"A Status Report on JPEG 2000 Implementation for Still Images: The UConn Survey"
2009
http://digitalcommons.uconn.edu/libr_pubs/19

Liens

JPEG2000 doit remplacer JPEG à moyen terme.


Catalogue des formats de données d'archivage (Cfa, v2)

PNG


Catégorie

Formats graphiques (matriciels)

Abréviation

PNG
.png
image/png

Titre

Portable Network Graphic

Versions

Version actuelle: 1.2 (1999)
Versions précédentes: 1.0 (1996), 1.1 (1998)

Description

PNG est un format graphique comprimé sans pertes. Il a été conçu notamment comme successeur de GIF qui faisait appel à un algorithme de compression breveté. En tant que format ouvert ne faisant pas l’objet d’une licence, PNG se prête bien à l’archivage. PNG peut être considéré comme un format ayant de bonnes perspectives d’avenir; cela est dû en particulier à la standardisation ISO.

Evaluation



Ouverture du format: 4

PNG est un standard ISO qui peut aussi être obtenu gratuitement.

Licence libre: 4

La situation de PNG est sans équivoque en ce qui concerne la licence: le format ne fait pas l’objet d’une licence.

Diffusion: 2

Ce format jouit d’une certaine popularité sur le www. Son utilisation dans l’administration est par contre plutôt limitée.

Fonctionnalités: 3

PNG convient bien aux graphiques matriciels et comprime sans pertes. En fait, il a été développé plutôt pour les graphiques représentant des diagrammes et moins pour les images photographiques.

Implémentation: 4

PNG est déjà très répandu et est en particulier reconnu et traité par tous les navigateurs web courants. L’implémentation dans les logiciels graphiques les plus répandus est très avancée, mais ne couvre pas encore tous les besoins.

Densité de mémorisation: 3

La compression permet à PNG d’atteindre une densité de mémorisation relativement élevée.

Métadonnées soutenues: 3

PNG peut inclure les métadonnées dans des «fragments» (chunks) facultatifs spéciaux.

Bonnes pratiques: 2

PNG est relativement peu répandu dans les cercles de l’archivage; il est cependant parfois recommandé dans les catalogues de formats d’archivage.

Perspectives: 4

Ce format a été conçu comme le remplacement de GIF sur le web et bénéficie du soutien de W3C et d’autres acteurs influents dans ce domaine.

Classes de formats: C

PNG est encore relativement peu répandu bien qu’il constitue un format d’archivage idéal.


Conclusion

PNG peut être considéré comme un format apte à l’archivage. Les fichiers en format PNG peuvent être repris par les archives. Ce format constitue aussi un format cible adéquat pour la migration à partir de GIF et d’autres formats graphiques. JPEG2000 convient cependant un peu mieux aux photographies.

Références

Boutell, T. et al., PNG (Portable Network Graphics) Specification Version 1.0
http://www.rfc-editor.org/rfc/rfc2083.txt
ISO/IEC 15948:2004, Information technology — Computer graphics and image processing — Portable Network Graphics (PNG): Functional specification
http://www.iso.org/iso/fr/CatalogueDetailPage.CatalogueDetail?CSNUMBER=29581&scopelist=PROGRAMME
[payant]
voir aussi http://www.w3.org/TR/PNG/
[version gratuite de la norme ISO]

Bibliographie

Roelofs, Greg, PNG. The Definitive Guide. O'Reilly 2003
http://www.libpng.org/pub/png/book/
Murray, James D.; vanRyper, William: Encyclopedia of Graphics File Formats. Second Edition. Bonn etc., O'Reilly&Associates, 1996. ISBN 1-56592-161-5. pp. 700-719


Catalogue des formats de données d'archivage (Cfa, v2)

SVG


Catégorie

Formats graphiques (vectoriels)

Abréviations

SVG
.svg, .svgz (comprimé gz)
image/svg+xml (jusqu’à 2000 images/svg-xml)

Titre

Scalable Vector Graphics

Versions

Version actuelle: 1.1 (W3C Recommendation, 2003)
Version précédente: 1.0 (2001; différences insignifiantes par rapport à la version 1.1)
La version 1.2 est actuellement disponible sous forme de document provisoire
SVG Tiny 1.2 (2008)

Description

SVG est un format de fichier basé sur XML et conçu pour les graphiques vectoriels. Un fichier SVG est un fichier XML correspondant à la «Document type definition» (DTD) de SVG. Le format a été mis au point par le World Wide Web Consortium (W3C) qui assure aussi sa gestion. Le cahier des charges (la DTD pour l’essentiel) est public et peut être obtenu gratuitement; il ne comporte pas de licences.

Evaluation



Ouverture du format: 4

La spécification est complète et accessible au public.

Licence libre: 4

La spécification du format n’est pas soumise à des licences.

Diffusion: 2

SVG a été conçu avant tout principalement pour une utilisation sur le web. Ce format n’est pas encore très répandu actuellement. Cela est dû notamment au fait que la plupart des navigateurs ne traitent pas complètement les fichiers SVG ou nécessitent des extensions (plug-ins) pour cela.

Fonctionnalités: 1

En tant que format pour graphiques vectoriels, SVG ne convient évidemment pas à tous les types de données basés sur des images. Il constitue toutefois un bon candidat dans tous les cas où des graphiques vectoriels sont utilisés. Consulter à ce sujet l'introduction aux données graphiques.

Implémentation: 2

SVG n’est actuellement implémenté que partiellement dans les navigateurs web. Une série de programmes graphiques sur diverses plates-formes peuvent créer ou traiter des fichiers SVG.

Densité de mémorisation: 3

SVG étant basé sur XML, les fichiers SVG sont relativement «lourds». La compression sans pertes permet d’atteindre une densité de mémorisation élevée.

Bonnes pratiques: 2

SVG est à peine connu et diffusé dans le monde de l’archivage.

Perspectives: 4

Ce format est prometteur: il bénéficie du soutien de W3C et d’autres organisations influentes dans ce domaine qui se chargent aussi de la poursuite de son développement.

Classes de formats: D

SVG remplit les exigences essentielles de l’archivage et constitue le format idéal pour les graphiques vectoriels.


Conclusion

L’analyse permet de conclure que SVG constitue un format approprié pour l’archivage numérique. Par rapport à d’autres formats graphiques évalués, il présente principalement le défaut d’être basé sur un format vectoriel, ce qui ne permet donc pas de traiter les graphiques matriciels. Il est en revanche parfaitement adéquat pour les graphiques vectoriels. Il est donc recommandé d’archiver les graphiques vectoriels en format SVG. Les mécanismes de conversion nécessaires sont déjà disponibles pour de nombreuses applications telles que la CAO.

Références

Scalable Vector Graphics (SVG) 1.1 Specification. W3C Recommendation 14 January 2003
http://www.w3.org/TR/SVG11/
[disponible gratuitement]

Bibliographie

W3C: Scalable Vector Graphics (SVG). XML Graphics for the Web.
http://www.w3.org/Graphics/SVG/
SVG Tutorial
http://www.fh-wedel.de/~si/praktika/MultimediaProjekte/SVG/SVG_Tutorial_mi3794/


Catalogue des formats de données d'archivage (Cfa, v2)

Données audio


Les données audio posent un problème de compression des données: Les données audio de qualité CD nécessitent 172 ko/s de place de mémorisation. Les algorithmes de compression comme MP3 permettent de réduire cette taille à environ 10%. Le service d’archivage se trouve donc confronté à un dilemme connu: les fichiers non comprimés occupent un espace démesuré, mais les fichiers comprimés avec pertes causent des problèmes à long terme dus à la perte des données. Il n’existe actuellement aucun algorithme de compression sans pertes pour données audio qui se soit vraiment imposé.

Bibliographie

Müller, Rudolf; Cirio, Yves
Memoriav Recommendations Son. La sauvegarde de documents sonores
Novembre 2008
http://fr.memoriav.ch/dokument/Empfehlungen/recommandations_son_fr.pdf

Formats examinés

Dans l’ordre de leur aptitude à l’archivage:

Recommandations



Catalogue des formats de données d'archivage (Cfa, v2)

WAVE


Catégorie

Formats audio

Abréviations

WAV, WAVE, RIFF WAVE
.wav
audio/wav, audio/x-wav, audio/wave, audio/x-pn-wav

Titre

Waveform Audio File Format

Versions

Version actuelle: 3.0 (1994)
Version précédente: 1.0 (1991)

Description

Le format WAVE (ou WAV) est un format conteneur destiné à l’enregistrement sans pertes de données audio. Il est fondé sur le «Resource Interchange File Format» (RIFF) mis au point par Microsoft et IBM pour le système d'exploitation Windows.
Le format audio PCM (Pulse Code Modulation) contenu dans le format WAVE garantit l’enregistrement et la lecture de signaux acoustiques de la qualité la plus élevée. Le format WAVE n’offre pas de compression des données, mais peut contenir des données audio comprimées (par exemple des signaux comprimés ADPCM ou encore MP3). Il fonctionne avec des profondeurs d’échantillonnage de 8 et 16 bits et un taux d’échantillonnage atteignant 44,1 kHz, ce qui correspond à une quantité de données de 88,2 ko par seconde.

Format de baseRIFF, Resource Interchange File Format for Windows 3.1
Formats dérivant de WAVEWAVE_LPCM, WAVE Audio File Format with LPCM Audio
WAVE_LPCM_BWF, Broadcast WAVE Audio File Format
Composantes possibles du formatLPCM, Linear Pulse Code Modulation audio encoding
µ-Law, µ-Law (Mu-Law) Compressed Sound Format
A-Law, A-Law Compressed Sound Format
DPCM, Differential PCM Sound Format
ADPCM, Adaptive Differential PCM Sound Format

Ce format a été largement répandu par le passé (standard Windows), mais il est aujourd’hui toujours plus souvent remplacé par les formats comprimés (par exemple MP3). Les fichiers de ceux-ci sont en effet beaucoup plus «légers». Ils sont donc d’une utilisation plus simple et plus diversifiée (par exemple sur Internet). Toutefois la majorité des logiciels lecteurs de fichiers audio traitent ce format sans difficulté.

La large diffusion actuelle du format WAVE et l’absence de toute compression le rendent très approprié pour l’échange de données entre différents programmes et systèmes d'exploitation. Cela inclut une excellente compatibilité avec d’autres plates-formes (par exemple Macintosh).

Evaluation



Ouverture du format: 4

La spécification 1.0 d’IBM Corporation et Microsoft Corporation est accessible au public.

Licence libre: 3

WAVE est un format propriétaire mais, selon la Library of Congress Collections, il ne fait l’objet d’aucune revendication ayant trait à des licences ou brevets.

Diffusion: 3

WAVE est déjà utilisé depuis 1991 et jouit d’une vaste diffusion dans certains domaines d’application.

Fonctionnalités: 4

WAVE est conçu à la base pour enregistrer toutes les sortes de données audio.

Implémentation: 4

Il existe plusieurs implémentations de ce format.

Densité de mémorisation: 1

La densité de mémorisation est faible en raison de l’absence de compression.

Bonnes pratiques: 4

De nos jours, les données audio numériques ne jouent généralement qu’un rôle mineur dans le domaine de l’archivage. Le format WAVE est le plus fréquemment recommandé.

Perspectives: 2

La tendance actuelle est en faveur des formats audio comprimés sans pertes. L’utilisation de tels formats doit concilier les avantages de WAVE avec une densité de mémorisation élevée. Mais à moyen terme, WAVE continuera à jouer un rôle significatif grâce à sa diffusion relativement large.

Classes de formats: A

WAVE peut être considéré comme un vétéran parmi les formats jouissant d’une grande diffusion.


Conclusion

L’utilisation du format WAVE peut être recommandée pour l’archivage. Les fichiers audio présentent une qualité élevée, ils sont utilisés depuis longtemps, jouissent d’une grande diffusion et sont indépendants dans une large mesure du matériel et du système d'exploitation. Le cahier des charges du format est connu et ne fait l’objet d’aucune revendication des entreprises détentrices des licences ou brevets. La taille des fichiers constitue indubitablement un désavantage du format. Il faut aussi veiller à ce que les fichiers à archiver ne contiennent aucun élément comprimé.

Références

WAVE Update
http://www-mmsp.ece.mcgill.ca/Documents/AudioFormats/WAVE/Docs/RIFFNEW.pdf
IBM Corp., Microsoft Corp. (eds), Multimedia Programming Interface and Data Specifications 1.0
http://www.tactilemedia.com/info/MCI_Control_Info.html
Audio File Format Specifications
http://www-mmsp.ece.mcgill.ca/Documents/AudioFormats/WAVE/WAVE.html
Multiple Channel Audio Data and WAVE Files, Update du 4.12.2001. Décrit une extension du format WAVE permettant de traiter de traiter plusieurs canaux audio
http://www.microsoft.com/whdc/device/audio/multichaud.mspx

Bibliographie

Scholl, Christoph: WAV: Audioformat für grosse Festplatten (Format audio pour grands disques durs)
http://www.netzwelt.de/news/68892_4-wav-audioformat-fuer-grosse-festplatten.html
Wikipédia: RIFF WAVE
http://de.wikipedia.org/wiki/RIFF_WAVE
Library of Congress Collections
http://www.digitalpreservation.gov/formats/fdd/fdd000001.shtml#specs


Catalogue des formats de données d'archivage (Cfa, v2)

MP3


Catégorie

Formats audio

Abréviation

MP3
.mp3
audio/mpeg

Titre

MPEG (Moving Picture Experts Group)-1 Audio Layer 3

Versions

Version actuelle: 1 (achevée 1991; standardisée 1993; invention du nom «MP3» 1995)

Description

MP3 est une partie de la norme MPEG-1. C’est actuellement le format le plus usité pour l’échange et l’écoute nomade de données audio. Il s’agit d’un algorithme de compression avec pertes qui tire profit des effets psychoacoustiques, c’est-à-dire qui élimine les informations que l’oreille humaine est incapable de percevoir. La compression permet de diminuer d'environ 90% l’espace occupé par le fichier.

Evaluation



Ouverture du format: 4

MP3 est un standard ISO.

Licence libre: 1

Les algorithmes utilisés ont fait l’objet de plusieurs brevets (consulter la liste sous http://www.mp3licensing.com/patents/ à ce sujet). Diverses organisations exigent des droits de licence pour l’utilisation commerciale sur la base de l’un ou l’autre de ces brevets. La justice s’est penchée sur ce problème lors de plusieurs procès. Ces derniers sont encore en cours. La situation de MP3 (et donc le risque que présente son utilisation) pour ce qui touche aux licences et brevets n’est donc pas claire.

Diffusion: 4

Les utilisateurs de MP3 constituent un marché considérable.

Fonctionnalités: 2

L’utilisation d’une compression avec pertes ne permet pas à MP3 de contenir toutes les informations de sa catégorie.

Implémentation: 4

MP3 est implémenté dans tous les lecteurs audio usuels.

Densité de mémorisation: 4

La compression permet d’atteindre une densité de mémorisation très élevée.

Bonnes pratiques: 1

Le rôle de MP3 dans le domaine de l’archivage est négligeable; il est donc déconseillé de l’utiliser.

Perspectives: 2

Bien que ce format bénéficie d’un bon soutien par sa grande diffusion; les recherches actuelles vont plutôt dans le sens d’un format audio à compression sans pertes.

Classes de formats: B

MP3 est le format audio actuel.


Conclusion

L’utilisation de MP3 comme format d’archivage se heurte à deux problèmes: la situation concernant les licences d’une part et d’autre part le fait que des fichiers comprimés sont considérés comme fondamentalement inappropriés pour l’archivage. Cela tient à la perte d’informations lors de la compression des données, perte qui est cumulées par les migrations.
Lorsque des données en format MP3 sont soumises aux archives, il est raisonnable de ne pas les convertir immédiatement dans un autre format pour éviter des migrations superflues. Les données non comprimées ne devraient pas être converties en MP3 pour l’archivage.

Références

Information technology — Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s — Part 3: Audio.
ISO/IEC 11172-3:1993
http://www.iso.org/iso/fr/CatalogueDetailPage.CatalogueDetail?CSNUMBER=22412
ISO/IEC 11172-3:1993/Cor 1:1996
http://www.iso.org/iso/fr/CatalogueDetailPage.CatalogueDetail?CSNUMBER=25371
[payant]

Bibliographie

Fraunhofer IIS: The Story of MP3
http://www.iis.fraunhofer.de/EN/bf/amm/mp3history/mp3history01.jsp


Catalogue des formats de données d'archivage (Cfa, v2)

Données vidéo


Le sujet de la compression des données est particulièrement important dans cette catégorie de formats pour deux raisons:
Il faut en outre tenir compte du fait que le caractère multidimensionnel des données vidéo permet d’effectuer deux types différents de compression, à savoir une compression spatiale et une compression temporelle:

Lorsque la compression avec pertes (voir par exemple les diverses normes MPEG) est utilisée, la décompression et la nouvelle compression qui lui succède entraîne une perte d’informations lors de chaque migration. Avec certains formats fortement comprimés, quelques migrations suffisent pour entraîner des défauts visibles, mais même les meilleurs procédés de compression ne permettent d’effectuer que dix à vingt cycles décompression/recompression sans perte visible d’informations. C’est pourquoi l'archivage à long terme exige généralement l’utilisation d’algorithmes de compression sans pertes ou le renoncement à la compression.

Bibliographie

Digital Video Preservation Reformatting Project. A Report
Prepared by Media Matters, LLC, for the Dance Heritage Collection
2004
http://www.danceheritage.org/preservation/Digital_Video_Preservation_Report.doc
Gilmour, Ian; Dávila, R. Justin
Lossless Video Compression for Archives: Motion JPEG2k and Other Options
http://www.media-matters.net/docs/WhitePapers/WPMJ2k.pdf AG

Formats examinés

Dans l’ordre de leur aptitude à l’archivage:

Recommandations

Les facteurs suivants entrent en ligne de compte pour l’archivage de données vidéo:


Catalogue des formats de données d'archivage (Cfa, v2)

MPEG-2


Catégorie

Formats vidéo

Abréviations

MPEG-2
.mpg, .mpeg, .m2v
video/mpeg

Titre

Moving Picture Experts Group 2

Versions

Version actuelle: 1 (paru 2000, premières publications 1994)
Il existe six profils différents. Les trois principaux sont Simple Profile, Main Profile et 4:2:2 Profile.

Description

MPEG-2 est un format de compression avec pertes de contenus vidéo et audio. Il est utilisé notamment pour la télévision numérique et les vidéos DVD. Ce format est aussi recommandé pour l’archivage, à condition que les formats non comprimés ne soient pas les seuls à entrer en ligne de compte. Le nombre de fichiers vidéo utilisés dans l’administration est très faible. Il faut compter éventuellement avec des DVD codés en MPEG-2.

Evaluation



Ouverture du format: 4

MPEG-2 est un standard ISO, donc avec un libre accès à la documentation.

Licence libre: 1

Le format est lié à d’innombrables brevets. Des droits de licence doivent être versés pour les applications qui font appel à MPEG-2.

Diffusion: 4

MPEG-2 est très répandu comme format DVD.

Fonctionnalités: 2

MPEG-2 est comprimé temporellement comme la plupart des formats vidéo; il y a donc perte d’information.

Implémentation: 4

Il existe plusieurs implémentations de MPEG-2.

Densité de mémorisation: 3

La compression des données permet d’atteindre une densité de mémorisation relativement élevée.

Bonnes pratiques: 3

Ce format est en général mentionné dans les recommandations d’archivage pour autant que la compression des données soit acceptable.

Perspectives: 2

Le futur de MPEG-2 ne semble pas très prometteur.

Classes de formats: B

MPEG-2 est actuellement un format largement utilisé.


Conclusion

Etant donné son utilisation dans le domaine des données vidéo, les fichiers MPEG-2 à archiver ne devraient pas être convertis dans un autre format pour l’instant. Ce format peut être considéré comme apte à l’archivage. La situation de la licence est toutefois insatisfaisante.

Références

ISO/IEC 13818-1:2000: Information technology — Generic coding of moving pictures and associated audio information: Systems
http://www.iso.org/iso/fr/CatalogueDetailPage.CatalogueDetail?CSNUMBER=31537
[payant]

Bibliographie

Chiariglione, Leonardo: Short MPEG-2 description, 2000
http://www.chiariglione.org/mpeg/standards/mpeg-2/mpeg-2.htm

Liens

MPEG-4


Catalogue des formats de données d'archivage (Cfa, v2)

MPEG-4


Catégorie

Formats vidéo

Abréviations

MPEG-4 AVC
mp4, mpg4, m4a
video/mp4
(Les fichiers MPEG-4 qui ne contiennent que de l’audio doivent être identifiés comme audio/mp4; ceux qui ne contiennent ni vidéo ni audio comme application/mp4.)

Titre

Moving Picture Experts Group 4 Part 10 (Advanced Video Coding)

Versions

Version actuelle: 3 (2005)
Versions précédentes: 1 (2003), 2 (2005)

Description

Diverses technologies multimédia sont standardisées sous le nom de MPEG-4. La partie 10 du standard qui concerne les données vidéo est connue sous le nom de Advanced Video Coding (AVC). Le format conteneur des fichiers pour MPEG-4 est spécifié dans la partie 14 (ISO/IEC 14496-14:2003. Information technology — Coding of audio-visual objects — Part 14: MP4 File Format, Version 2). Cette partie est elle-même basée sur la partie 12 (ISO Base Media File Format: ISO/IEC 14496-12:2005. Information technology — Coding of audio-visual objects — Part 12: ISO base media file format, Version 2). Les deux parties sont basées sur le format Quicktime d’Apple.
Il existe 11 profils (regroupement de certaines caractéristiques) différents de MPEG-4 AVC. Ceux-ci sont adaptés à différentes applications (streaming video, applications mobiles, traitement professionnel de la vidéo). Le High Profile (HiP) est le profil prévu pour la vidéo haute définition; il présente donc aussi un intérêt pour l’archivage. Il faut toutefois toujours spécifier le profil utilisé.

Evaluation



Ouverture du format: 4

MPEG-4 est une norme ISO.

Licence libre: 1

Le format est lié à d’innombrables brevets; des droits de licence doivent donc être versés pour les applications qui font appel à MPEG-4.

Diffusion: 2

MPEG-4 est un format relativement récent et encore peu répandu.

Fonctionnalités: 2

MPEG-4 est comprimé temporellement comme la plupart des formats vidéo; il y a donc perte d’informations.

Implémentation: 4

Il existe plusieurs implémentations.

Densité de mémorisation: 4

La compression des données permet d’atteindre une densité de mémorisation relativement élevée (plus élevée que celle de MPEG-2 pour une qualité comparable).

Bonnes pratiques: 3

MPEG-4 n’est pour ainsi dire pas utilisé pour l’archivage; certaines institutions d’archivage le recommandent toutefois comme format d’archivage préférentiel.

Perspectives: 4

Ce format est très prometteur étant donné son utilisation dans le domaine des Blu-Ray-Disc.

Classes de formats: C

Il s’agit encore d’un format relativement nouveau.


Conclusion

MPEG-4 Part 10 est comparable à MPEG-2; l'aptitude à l'archivage peut être jugée de façon similaire. Les problèmes en relation avec la situation de la licence demeurent.

Références

ISO/IEC 14496-10:2005, Information technology — Coding of audio-visual objects — Part 10: Advanced Video Coding
http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=43058
[payant]

Bibliographie

Overview of the MPEG-4 Standard
http://www.chiariglione.org/mpeg/standards/mpeg-4/mpeg-4.htm
Fernando Pereira, Touradj Ebrahimi: The MPEG-4 Book. Upper Saddle River, NJ: IMSC Press, 2002.

Liens

MPEG-2


Catalogue des formats de données d'archivage (Cfa, v2)

MJPEG2000


Catégorie

Formats vidéo

Abréviations

MJPEG2000
.mjp2, .mj2
video/mj2

Titre

Moving JPEG (Joint Picture Experts Group) 2000

Versions

Version actuelle: 1 (2001, publiée en 2002 sous forme de version autonome, 2003 comme catégorie du format JPEG2000 de base)

Description

MJPEG2000 est défini dans la partie 3 de la norme JPEG2000 sous forme de séquence d’images JPEG2000. La norme inclut la compression des données spatiale sans pertes. En renonçant à la compression temporelle des données, il est possible de diminuer le risque de perte d’informations au prix d’une densité de mémorisation plus faible.

Evaluation



Ouverture du format: 4

MJPEG2000 est une norme ISO, donc avec un libre accès à la documentation.

Licence libre: 3

Il existe divers brevets sur la «JPEG2000 Suite»; leurs détenteurs se sont toutefois engagés à rendre la norme exempte de droits. Il n’est cependant pas exclu que des revendications encore inconnues ayant trait aux brevets surviennent.

Diffusion: 2

Ce format n’est pas encore très répandu.

Fonctionnalités: 3

La compression sans pertes permet d’éviter la perte d’informations. MJPEG2000 est approprié comme format cible pour les migrations.

Implémentation: 2

Il existe encore très peu d’implémentations de MJPEG2000.

Densité de mémorisation: 1

La compression des données vidéo permet certes d’augmenter leur densité de mémorisation, mais moins qu’avec les formats comparables basés sur une compression avec pertes. Il n'en demeure pas moins que les fichiers MJPEG2000 prennent rapidement des dimensions énormes.

Bonnes pratiques: 4

Ce format est recommandé par plusieurs institutions d’archivage comme format d’archivage vidéo.

Perspectives: 4

MJPEG2000, comme la «JPEG2000 Suite», n’en est encore qu’au début de son développement et est indubitablement très prometteur.

Classes de formats: D

Il s’agit d’un format idéal pour l’archivage vidéo.


Conclusion

Les avantages de ce format par rapport aux autres, en particulier la compression spatiale sans pertes, permettent de conseiller sans réserve MJPEG2000 comme format d’archivage de données vidéo. En revanche, il faut savoir que le volume des données prend rapidement des dimensions gigantesques (de l'ordre du téraoctet). Une discussion s'impose en ce qui concerne le degré encore acceptable de compression.

Références

ISO/IEC 15444-3:2007: Information technology — JPEG 2000 image coding system: Motion JPEG 2000
http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=41570
[payant]
Dernière version préliminaire (Final Committee Draft) disponible gratuitement sous
http://www.jpeg.org/public/fcd15444-3.pdf
D. Singer, R. Clark, D. Lee, MIME Type Registrations for JPEG 2000 (ISO/IEC 15444)
http://www.rfc-editor.org/rfc/rfc3745.txt

Bibliographie

The JPEG Committee Home Page, JPEG 2000
http://www.jpeg.org/jpeg2000/index.html
I. Gilmour (Media Matters), Research Report on JPEG 2000 for Video Archiving
http://www.media-matters.net/docs/WhitePapers/IansWhitePaper.pdf
Pearson, Glenn; Gill, Michael
An Evaluation of Motion JPEG 2000 for Video Archiving
Proc. Archiving 2005 (April 26-29, Washington, D.C.), IS & T
http://archive.nlm.nih.gov/pubs/pearson/MJ2_video_archiving.pdf

Liens

JPEG2000


Catalogue des formats de données d'archivage (Cfa, v2)

Données structurées: Tableurs


Le logiciel tableur représente des données numériques et alphanumériques et permet en particulier de les traiter au moyen de fonctions. Les applications de gestion de tableaux sont fournies pour diverses plates-formes par des producteurs commerciaux et sont aussi disponibles sous forme de projets source ouverte. Chacune possède son propre format.

Il n’existe actuellement aucun format de fichier de tableur qui ait réussi à s’imposer dans le domaine de l’archivage. Il est nécessaire de tenir compte de trois aspects différents dans les considérations sur un format d’archivage approprié pour les tableurs (documents provenant de tableurs):

Le choix d’un format d’archivage dépend donc de l’aspect des données du tableur considéré comme essentiel. Il est malaisé de donner une recommandation générale.

Il est possible de recourir à une solution provisoire qui tienne compte des deux principes fondamentaux du choix de format, à savoir éviter les migrations superflues tout en se réservant le plus grand nombre d’options possibles. Les tableurs commerciaux disposent généralement d’une rétrocompatibilité avec quelques versions. Par conséquent, il y a toutes les raisons de penser qu’un fichier en format courant pourra être lu sans problème pendant les dix années à venir par les versions suivantes du programme. Il est donc inutile de procéder à une migration. Dans le cas d’un fichier dans une version ancienne du format, il faut procéder à une migration dans le format actuel au moyen du logiciel correspondant (selon les investigations du «Digital Preservation Testbed» [p. 20], il est préférable de sauter chaque fois une ou deux versions). Dans le cas d’applications périmées en format propriétaire, il est indispensable d’effectuer une migration dans le format d’une application actuelle.

Ces considérations s’appliquent en particulier au format XLS de Microsoft Excel qui domine le marché. Bien que ce format ne réponde pas aux exigences de l’archivage, il est plus judicieux d’archiver les fichiers MS Excel dans ce format propriétaire plutôt que d’effectuer une migration dans un format plus approprié mais n’ayant pas fait ses preuves et dont la diffusion est faible. La lisibilité de 10 ans, atteinte grâce à la compatibilité descendante, accorde au service d’archivage un délai lui permettant de chercher un format d’archivage futur plus approprié.

Bibliographie

AHDS Preservation Handbook: Spreadsheets
Version 0.5, 2005
http://ahds.ac.uk/preservation/spreadsheets-preservation-handbook.pdf
Digital Preservation Testbed: From digital volatility to digital permanence. Preserving spreadsheets
2003
http://www.digitaleduurzaamheid.nl/bibliotheek/docs/volatility-permanence-spreadsh-en.pdf

Formats examinés

Dans l’ordre de leur aptitude à l’archivage:

Recommandations



Catalogue des formats de données d'archivage (Cfa, v2)

XLS


Catégorie

Format tableur

Abréviations

XLS
.xls
application/msexcel; application/vnd.msexcel; application/excel

Titre

Microsoft Excel File Format
Binary Interchange File Format
(Le format des fichiers Excel se nomme Binary Interchange File Format (BIFF). Mais comme Excel utilise l’extension de nom du fichier .xls, le format est mieux connu sous le nom XLS.)

Versions


Version BIFFVersion ExcelNom du logiciel (Windows)
BIFF811.02003
BIFF810.0XP
BIFF89.02000
BIFF88.097
BIFF57.095
BIFF55.05.0
BIFF44.04.0
BIFF33.03.0
BIFF22.02.x


Description


BIFF (XLS) est depuis 20 ans le format propriétaire de Microsoft Excel dans différentes versions. Ses spécifications sont connues et ont été publiées par le projet OpenOffice.org; elles sont toutefois détenues par l’entreprise Microsoft. Ce format représente la référence pour les tableurs; il jouit d’une très grande diffusion sur différentes plates-formes. Les autres formats de tableur peuvent être convertis en XLS au moyen du logiciel approprié (convertisseur pour MS Excel). Bien que ce format soit périmé, il peut encore être lu et converti par les versions Excel les plus récentes.

Evaluation



Ouverture du format: 2

La spécification du cahier des charges du format a été obtenue par «reverse engineering», mais n’a pas été ouverte officiellement.

Licence libre: 1

XLS est un format propriétaire de Microsoft protégé par brevet.

Diffusion: 4

XLS est le format pour applications de tableur de loin le plus répandu sur le marché.

Fonctionnalités: 4

XLS assure la fonctionnalité de l’application en tant que format d’origine. Des convertisseurs pour d’autres formats de tableurs sont disponibles.

Implémentation: 2

XLS est principalement implémenté dans MS Office Excel. OpenOffice peut toutefois aussi lire les fichiers XLS.

Densité de mémorisation: 2

La densité de mémorisation est comparable à celle des formulaires d’autres tableurs.

Bonnes pratiques: 1

XLS n’est presque pas présent dans les archives et n’est pas considéré comme un format d’archivage.

Perspectives: 1

XLS a été remplacé en 2007 par XLSX (OOXML issu de tableur) et n’a donc plus de potentiel de développement.

Classes de formats: B

XLS est le format pour tableurs qui domine dans les services administratifs.


Conclusion

Quelles que soient les réserves quant à son utilisation pour l’archivage (format propriétaire et complexité excessive des spécifications), XLS peut être recommandé comme format d’archivage provisoire. Lorsque la fonctionnalité d’un document d’un tableur est considérée comme essentielle, il est même indispensable d’archiver dans un format d’origine XLS ou OOXML. Dans ce cas, les documents en format Excel devraient être repris tels quels ou éventuellement convertis dans le format Excel actuel. Il est recommandé d’effectuer la conversion en format Excel des documents qui sont dans un format tableur périmé. Ces mesures évitent les migrations superflues et la compatibilité descendante du logiciel assure un délai permettant d’effectuer la migration lorsqu’un format mieux adapté à long terme est disponible.

Références


OpenOffice.org's Documentation of the Microsoft Excel File Format. Revision 1.40. 2007
http://sc.openoffice.org/excelfileformat.pdf
ECMA International, Standard ECMA-376, Office Open XML File Formats
http://www.ecma-international.org/publications/standards/Ecma-376.htm

Bibliographie


Liens

OOXML issu de tableur


Catalogue des formats de données d'archivage (Cfa, v2)

OOXML issu de tableur


Pour les caractéristiques techniques du format, consulter la description exhaustive de OOXML dans la partie consacrée aux fichiers texte. On trouvera ici une brève évaluation d’OOXML pour son utilisation comme format d’archivage pour tableurs.

Evaluation



Ouverture du format: 4

OOXML est disponible publiquement et reconnu comme un format ISO depuis 2008 (ISO/IEC 29500:2008).

Licence libre: 3

Ce format contient des brevets. Ils ne sont chaque fois mis en circulation que pour la version actuelle.

Diffusion: 2

OOXML est encore très peu répandu.

Fonctionnalités: 4

La fonctionnalité de l’application de gestion de tableaux est assurée par le format d’origine.

Implémentation: 2

OOXML est le format natif de Microsoft Office. D'autres logiciels de tableurs permettent également de lire des programmes OOXML, et parfois même d’en créer.

Densité de mémorisation: 2

La densité de mémorisation est comparable à celle d’autres formats originaux.

Bonnes pratiques: 2

Ce format n’est pas encore utilisé pour l’archivage. Il jouit comme norme ouverte d’un accueil un peu plus favorable que XLS.

Perspectives: 4

Les perspectives de développement de ce format à titre de nouveau format de MS Office sont très prometteuses.

Classes de formats: C

Nouveau format


Conclusion

OOXML est un candidat possible pour l’archivage lorsque la fonctionnalité du tableur doit être conservée. Consulter aussi la discussion au sujet de XLS.


Catalogue des formats de données d'archivage (Cfa, v2)

PDF/A issu de tableur


Pour les caractéristiques techniques du format, consulter la description exhaustive de PDF/A dans la partie consacrée aux fichiers textuels. On trouvera ici une brève évaluation de PDF/A pour son utilisation comme format d’archivage pour les tableurs.

Evaluation



Ouverture du format: 4

PDF/A est un standard ISO.

Licence libre: 4

Ce critère est rempli pour PDF/A; il faut toutefois veiller à n’utiliser ni polices ni algorithmes de compression sous licence (algorithmes de chiffrement à partir de PDF/A-2).

Diffusion: 2

PDF/A est encore peu répandu.

Fonctionnalités: 2

Seul l’aspect visuel des fichiers des tableurs peut être reproduit, la fonctionnalité est perdue.

Implémentation: 4

Il existe différents outils pour créer des documents PDF/A (Adobe Acrobat Professional et d'autres). Les fichiers PDF/A peuvent être lus par tous les lecteurs PDF (par exemple Adobe Reader).
myPDFConvert convertit différentes versions PDF.

Densité de mémorisation: 2

La densité de mémorisation est comparable à celle des formats originaux.

Bonnes pratiques: 4

Ce format est encore très peu utilisé pour l’archivage. Il est toutefois très bien accueilli à ce titre.

Perspectives: 4

Ce format a été conçu comme format d’archivage et son développement se poursuit dans cette direction.

Classes de formats: C

Nouveau format


Conclusion

PDF/A est un format approprié pour l’archivage mais seulement s’il est superflu de conserver la fonctionnalité.


Catalogue des formats de données d'archivage (Cfa, v2)

Données structurées: Bases de données


Ce Catalogue des formats de données d'archivage a atteint ses limites avec le sujet bases de données. Hormis pour de petits exemplaires créés par des programmes de bureautique très répandus, les bases de données ne peuvent être traitées qu’exceptionnellement sous forme de fichiers autonomes. La conversion de ces derniers dans un format d’archivage constitue un élément essentiel de l'archivage à long terme. Les bases de données font, au contraire, souvent partie d’un système plus global: applications techniques (dans l’administration), systèmes de gestion de contenu (pour sites internet, etc.), systèmes d'information géographique (GIS), logiciel d’archivage, etc. Souvent, les informations essentielles ne sont pas uniquement enregistrées dans la base de données, mais aussi en partie dans la logique de programmation du système ou dans l’interface avec l’utilisateur. Il ne sert donc à rien de ne convertir que la base de données dans un format d’archive. L’archivage de ces systèmes doit être effectué globalement et chaque fois individuellement.

Tout en gardant cette situation initiale à l’esprit, il peut être toutefois opportun d’archiver une base de données, plus exactement son contenu. Pour une évaluation future ou statistique du contenu, il ne suffit pas d’archiver les données brutes, il faut aussi tenir compte de leur structure et de leurs relations.

L’archivage actuel de bases de données, en général de bases de données relationnelles, repose plus sur la méthode utilisée que sur le format cible dans lequel les données et leur structure sont archivées. Nous nous conformerons toutefois à la structure générale de ce catalogue de formats et diviserons les méthodes d’archivage selon le format définitif des fichiers à archiver.

Formats examinés

Dans l’ordre de leur aptitude à l’archivage:

Recommandations



Catalogue des formats de données d'archivage (Cfa, v2)

CSV


Catégorie

Données structurées de tableurs et bases de données

Abréviations

CSV
.txt, .csv
text/CSV - text/comma-separated-values

Titre

Comma-Separated Values
Colon-Separated Values
Character-Separated Values

Versions

Il n’existe pas de norme générale du format de fichiers CSV.
Un cahier des charges RFC du format d’un fichier CSV existe et sert en générale de référence: RFC 4180

Description

Les données CSV sont des fichiers ASCII structurés sous forme de tableau. Les valeurs, les champs ou les colonnes individuels sont séparés par un délimiteur, par exemple une virgule ou un point-virgule. Les lignes des tableaux sont séparées par un saut de ligne. Lors du transfert d’une base de données relationnelle dans des fichiers CSV, chaque tableau de la base de données est copié dans un fichier CSV.
Les différentes variantes et quasi-normes du format de fichier CSV se distinguent par le masquage des délimiteurs et du retour automatique à la ligne dans les champs.

Deux variantes CSV sont particulièrement intéressantes dans le domaine des bases de données:

Evaluation



Ouverture du format: 3

Il n’existe pas de norme générale du format de fichiers CSV. Par contre la spécification est contenue pour l’essentiel dans RFC 4180 et extrêmement simple.

Licence libre: 4

Il n’existe pas de restrictions juridiques associées à une licence; cela est vraisemblablement aussi le cas pour Excel CSV Format et SQL-Loader File.

Diffusion: 4

CSV est le format d’échange de données le plus répandu dans le cas de données structurées, autrement dit entre bases de données et tableurs.

Fonctionnalités: 1

Les fichiers CSV sont ce que l’on nomme des flat files, autrement dit seules les informations d’un tableau peuvent être stockées dans un fichier. La plupart des bases de données ont toutefois recours à des structures hiérarchiques ou relationnelles pour stocker les données. Pour reproduire aussi cette structure dans une flat file, il est nécessaire de répéter des informations, d’où une redondance des données. En outre, les données stockées dans les fichiers CSV ne sont pas formatées. Il est impossible de reprendre des formats de champs, des structures de données ou des formules.

Implémentation: 4

L’immense majorité des bases de données et des tableurs sont capables de créer ou de lire des fichiers CSV.

Densité de mémorisation: 4

Pas de compression des données, les contenus des champs sont reproduits caractère par caractère. La représentation des structures entre les tableaux conduit inévitablement à la redondance des données (voir fonctionnalité ci-dessus).

Bonnes pratiques: 2

Les fichiers CSV jouissent d’une grande diffusion. Leur traitement ne nécessite pas de très grandes connaissances techniques. Le manque de standardisation rend toutefois nécessaire la présence d’une documentation précise sur le masquage des séparateurs et des retours automatiques à la ligne, l’utilisation de guillemets et le problème de la variation du nombre de champs par ligne. Le codage des caractères et la représentation des types de données utilisées doivent aussi être fixés.

Perspectives: 1

CSV est souvent éliminé au profit de formats de tableaux basés sur XML car celui-ci résout les problèmes du masquage des caractères de contrôle, du jeu de caractères et des types de données. Dans d’autres cas, CSV peut être remplacé par un format dérivé ou par des solutions comme SIARD basés sur une standardisation de CSV et qui peuvent aussi établir des relations entre des tableaux.

Classes de formats: A

CSV est un des plus anciens formats de l’informatique.


Conclusion

De grandes quantités de données sont déjà archivées en format CSV pour tableaux. Celui-ci gardera donc son importance. Toutefois, vu l’impossibilité de conserver des relations, des métadonnées et des informations structurelles dans ce format, seuls des ensembles de données en format CSV bien documentés garderont leur valeur. Un remplacement par XML (SQLX, OOXML ou ODF) aura aussi lieu dans le domaine de l’archivage. N’oublions pas que XML a été élaboré dans une mesure non négligeable pour répondre au besoin d’un format d’échange de données structuré et pour remplacer les solutions entièrement basées sur le texte.

Références

Cahier des charges RFC du format des fichiers CSV
http://tools.ietf.org/html/rfc4180

Bibliographie

Wikipédia: CSV
http://fr.wikipedia.org/wiki/Comma-separated_values
Wikipédia: CSV (en anglais)
http://en.wikipedia.org/wiki/Comma-separated_values
Creativyst Software, The Comma Separated Value (CSV) File Format
http://www.creativyst.com/Doc/Articles/CSV/CSV01.htm
Oracle SQL*Loader Tutorial
http://loader.datenbank-wissen.de/

Liens

Le format CSV est aussi répandu comme format d’archivage et d’échange dans le domaine des tableurs.


Catalogue des formats de données d'archivage (Cfa, v2)

SIARD


Catégorie

Données structurées de bases de données

Abréviation

SIARD

Titre

SIARD RDB DATA – Software Independent Archiving of Relational Databases

Versions

La première version de SIARD a été publiée en 2008.

Description

SIARD permet d'enregistrer dans un codage XML simple des structures (schémas, tableaux etc.) et le contenu de bases de données relationnelles. Les archives SIARD consistent en un fichier de contenu et un fichier de métadonnées comprenant des métadonnées de tous les niveaux. SIARD est basé sur des normes ISO (SQL:1999 et XML 1.0) et permet de conserver des bases de données relationnelles en provenance de différents systèmes, notamment MS Access, Oracle und MS SQL.

Evaluation



Ouverture du format: 4

La spécification originale de SIARD a été publiée par les Archives fédérales suisses.

Licence libre: 4

Les Archives fédérales suisses sont détentrices du copyright du processus SIARD.

Diffusion: 1

Dans un premier temps, SIARD n’est utilisé que par les Archives fédérales. Les partenaires du projet PLANETS l’ont en outre reconnu comme format d'archivage officiel pour leurs bases de données.

Fonctionnalités: 4

L’enregistrement de SIARD permet de reconstituer intégralement un schéma de base de données avec tous ses objets, en les rouvrant dans un SGBD relationnel. Les aspects logiques de la base de données ne se distinguent en aucune manière de ceux de l’original.

Implémentation: 1

L'unique implémentation du format SIARD est la suite SIARD des Archives fédérales suisses, qui est disponible en freeware.

Densité de mémorisation: 3

L’utilisation de fichiers XML pour le stockage des données primaires et la renonciation à la compression entraînent un volume de mémorisation relativement grand.

Bonnes pratiques: 2

SIARD est utilisé dans l'archivage de bases de données de l'administration fédérale et constitue en outre un format d'archivage officiel du projet PLANETS.

Perspectives: 3

L'introduction officielle de SIARD dans le projet PLANETS pourrait paver la voie vers une reconnaissance internationale de ce nouveau format.

Classes de formats: D

SIARD a été conçu spécialement pour l’archivage de bases de données.


Conclusion

SIARD, une application essentiellement conçue pour l’archivage de bases de données relationnelles, conjugue plusieurs méthodes d’approches dans un seul outil: l’approche SQL Script permettant de décrire la structure d’une base de données à l’aide de DDL, le stockage de chaque tableau en CSV au sens de SQL-Loader et en outre l’enregistrement de la structure de la base de données dans XML. Le recours à un grand nombre de technologies et de normes peut être considéré comme un inconvénient car il faut tenir compte séparément du cycle de développement de chacune de ces technologies.

Références

Archives fédérales suisses
SIARD Formatbeschreibung
2008

Bibliographie

Bernstein, Amir
Database Preservation: The International Challenge and the Swiss Solution
DPE Briefing Paper, 2008
http://www.digitalpreservationeurope.eu/publications/briefs/database_preservation.pdf
Comment, Jean-Marc
Archiving Databases with SIARD
Presentation to the 16th International Congress on Archives, 2008
http://www.planets-project.eu/docs/presentations/ICA2008_Comment_SIARD.pdf

Liens

Il existe une relation fonctionnelle avec CSV et SQL Script.


Catalogue des formats de données d'archivage (Cfa, v2)

SQLX


Catégorie

Données structurées de tableurs et bases de données

Abréviation

.xml
.sqlx

Titre

SQL/XML

Versions

Version actuelle: 1 (L’échange entre la présentation des données XML et les bases de données relationnelles est spécifié dans le chapitre 14 de SQL:2003 «XML-Related Specifications (SQL/XML)».)

Description

SQLX n’est pas un format de fichier au sens strict (le format du fichier est toujours XML dans ce cas). Il s’agit plus précisément d’un ensemble de fonctions basées sur SQL pour l’exportation («publish») de tableaux à partir de fichiers XML et pour l’importation («extract/store») de ces mêmes fichiers XML dans une base de données relationnelle. L’exportation de tableaux individuels est triviale et est déjà maîtrisée par la majorité des systèmes de bases de données et des tableurs. L’application de l’intégralité d’une base de données relationnelle en représentation XML des données est plus délicate voire résolue de façon insatisfaisante. Le problème fondamental est posé par l’application du modèle relationnel des données au modèle hiérarchique XML.

Evaluation



Ouverture du format: 2

Les spécifications sont devenues entre-temps plus étendues mais sont plutôt exprimées sous forme d’une proposition de normalisation. Il faut encore s’attendre à des modifications. http://www.sqlx.org/ est la plate-forme de discussion sur ce sujet.

Licence libre: 4

La proposition de normalisation d’une partie de SQL:2003 n’est pas soumise à des restrictions juridiques associées à une licence. Les implémentations de la fonctionnalité SQLX dans chaque système de base de données seront bien entendu propriétaires.

Diffusion: 3

SQLX jouit déjà d’une diffusion significative comme possibilité d’exportation et pour l’échange de données de tableaux individuels. SQLX remplace CSV et corrige ses faiblesses connues. La résolution de l’exportation intégrale des schémas de la base de données en représentation XML des données semble encore présenter des aspects non résolus.

Fonctionnalités: 3

SQLX permet de reprendre la dénomination et le format des champs d’un tableau dans un fichier XML. L’application des structures hiérarchiques des données d’une base de données peut être effectuée sans formation de redondances. Comparer ici aussi à CSV.

Implémentation: 3

La fonctionnalité SQL disponible permet d’implémenter les fonctions SQLX dans presque chaque base de données et tableur. Un grand nombre de fournisseurs (Oracle, Microsoft, etc.) ont déjà implémenté les fonctions SQLX.

Densité de mémorisation: 2

Il ne se forme aucune redondance tant que les seules relations appliquées sont d’ordre hiérarchique (voir la fonctionnalité ci-dessus). Le stockage des balises (tags) XML dans le fichier ne provoque aucun «gonflement» indu de celui-ci. En règle générale, cela est accompli par une compression des données (ZIP) lors de l’enregistrement.

Bonnes pratiques: 1

Bien que SQLX puisse remplacer CSV sans problèmes, il ne jouit pas encore d’une très grande diffusion et n’est pas à l’ordre du jour pour des archives. L’intégration des données primaires et des métadonnées ainsi que la standardisation sont bien mieux résolues que dans le cas de CSV. L’application d’une base de données relationnelle dans un fichier XML n’est pas encore possible de façon générale.

Perspectives: 3

SQL/XML est une approche de solution extrêmement intéressante pour l’échange de données et l’archivage à long terme. Cette approche s’imposera certainement ou s’est déjà imposée dans l’échange de données entre les banques de données car tous les outils et les interfaces basés sur XML sont déjà présents. Elle ne s’est par en revanche pas encore imposée dans le domaine de l’archivage de données structurées.

Classes de formats: D

Le cahier des charges du format n’est pas encore irréprochable mais peut intéresser l’archivage.


Conclusion

SQLX est une approche très prometteuse de solution pour l’archivage de données structurées. Il existe des solutions bien au point pour la conversion de tableaux plats en fichiers XML. L’exportation de bases de données relationnelles dans leur intégralité n’est en revanche pas résolue dans tous les cas. Il faut aussi s’attendre à une poursuite du développement dans le domaine de la standardisation. Mais comme les spécifications de SQLX concernent la fonctionnalité de «publish» et de «extract/store» et non pas la forme de la représentation XML des données elles-mêmes, la poursuite de ce développement ne constitue pas un handicap pour l’utilisation.

Références

ISO/IEC 9075-14:2006 «Information technology — Database languages — SQL — Part 14: XML-Related Specifications (SQL/XML)»
http://www.iso.org/iso/iso_catalogue/catalogue_ics/catalogue_detail_ics.htm?csnumber=38647
[payant]

Bibliographie

SQLX.org Home Page
http://www.sqlx.org/
Wikipédia: SQL/XML (anglais)
http://en.wikipedia.org/wiki/SQL/XML
SQL/XML, computerPostille 13/2, Juni 2003
http://www.hrz.uni-dortmund.de/computerPostille/Juni2003/012.html
OracleBase, SQL/XML
http://www.oracle-base.com/articles/9i/SQLXML9i.php
Comelio Gmbh (ed.), XML-Abfragen mit SQLX (Requêtes XML avec SQLX )
http://www.comelio.com/dedi3_221.php
Eisenberg, Andrew; Melton, Jim: SQL/XML and the SQLX Informal Group of Companies
http://www.sigmod.org/record/issues/0109/standards.pdf

Liens

SQLX peut aussi être utilisé dans le domaine des tableurs.
Il existe une relation fonctionnelle avec CSV.


Catalogue des formats de données d'archivage (Cfa, v2)

SQL Script


Catégorie

Données structurées de bases de données

Abréviation

.sql

Titre

Scripting Database

Versions

Il ne s’agit pas d’un format de données mais d’une méthode permettant de créer une base de données relationnelle à partir d’un fichier de scriptage (fichier texte) et réciproquement. Le fichier texte contient un ensemble de commandes SQL. Ces commandes SQL doivent se conformer à une version SQL déterminée (par exemple SQL-92).
SQL est standardisé par ANSI et ISO.

Description

La méthode consistant à construire une base de données contenant tous les objets de la base de données au moyen d’un ensemble de scripts SQL est utilisée en général dans le domaine du développement de bases de données, lors de la création de bases de données au moyen d’outils d’assistance CASE, pour la documentation et lors de la sauvegarde de données.
Un ensemble de commandes DDL (Data Definition Language) permet de définir la structure ou les objets de la base de données. Les commandes DML (Data Manipulation Language) permettent finalement de placer les données dans les objets de la base de données/tableaux. Toutes ces commandes, placées séquentiellement dans un fichier, sont exécutées par l’interpréteur SQL et créent un schéma de base de données avant de remplir les tableaux de données. Il existe plusieurs outils permettant de générer des scripts. Certaines bases de données comportent déjà ces outils (SQL-Server: «Generate SQL Script wizard», PostgreSQL: «SQL Manager», etc.).
Cette méthode, semblable en cela à SQLX ou SIARD, n’archive que la structure et le contenu de la base de données. La logique d’application, qui peut constituer une partie nécessaire à la compréhension d’une application technique, n’est pas traitée.

Evaluation



Ouverture du format: 3

La compréhension d’un script est grandement facilitée quand la syntaxe est conforme à une version SQL déterminée. Toutefois, de nombreux outils génèrent des scripts pour une base de données particulière et utilisent alors, principalement dans le domaine DDL, des commandes spécifiques à un type particulier de base de données qui ne sont pas conformes à la norme SQL.

Licence libre: 4

Il n’existe pas de restrictions juridiques associées à une licence pour les scripts SQL.

Diffusion: 1

La diffusion principale est dans les domaines du développement de bases de données, de la création de bases de données au moyen d’outils d’assistance et de la documentation de bases de données. Cette voie n’est pas empruntée très souvent pour l’archivage de bases de données.

Fonctionnalités: 4

Un fichier SQL-Script activé permet de reconstituer intégralement un schéma de base de données avec tous ses objets. Les aspects logiques de la base de données ne se distinguent en aucune manière de ceux de l’original.

Implémentation: 3

Il existe aussi un grand nombre d’outils de scriptage indépendants des producteurs de bases de données. Un outil de scriptage peut être en outre décrit ou implémenté complètement en SQL.

Densité de mémorisation: 1

Les commandes SQL des scripts provoquent une énorme augmentation de la quantité de données. C’est pourquoi cette voie est rarement empruntée dans des buts d’archivage (c’est pourquoi SQL-Loader crée bien des commandes DDL dans l’en-tête mais écrit finalement les données sous forme de fichier CSV).

Bonnes pratiques: 1

Cette méthode n’a actuellement presque aucune signification pour l’archivage de bases de données. Elle constitue toutefois la base d’approches plus prometteuses ou plus répandues pour l’archivage comme SIARD et SQLX.

Perspectives: 1

Etant donné la redondance élevée des données (toujours les mêmes commandes DML répétées), il ne faut pas s’attendre à ce que cette méthode s’impose pour l’archivage de données structurées provenant de bases de données. Pour couronner le tout, les données archivées ressemblent à un programme, ce qui n’est pas de nature à motiver les personnes dépourvues d’une formation informatique.

Classes de formats: n/a



Conclusion

Cette méthode est théoriquement intéressante car toutes les étapes sont soumises à la norme SQL. Le fichier de scriptage peut être complètement créé par un script SQL et contient de nouveau un script SQL. SQL (Structured Query Language) est un langage qui a joui d’un développement stable et de longue durée. Il sert à interroger et à manipuler des données dans les bases de données relationnelles et possède donc de ce point de vue une aptitude élevée à l’archivage. Le fait que les données archivées ne puissent être exploitées utilement que sous forme comprimée ne joue pas en sa faveur.

Références

Aperçu des normes SQL
http://www.techstreet.com/features/ISO_IEC_9075.tmpl
http://wwwai.wu-wien.ac.at/~wyk/dbs/pdf/SQL-DIN-Mitt-4-2004.pdf

Bibliographie

Wikipédia: SQL
http://fr.wikipedia.org/wiki/SQL
Microsoft.com (ed.), Documenting and Scripting Databases
http://msdn2.microsoft.com/en-us/library/ms191299.aspx
The Code Project, Generate SQL Insert statements for your SQL Server 2000 Database
http://www.codeproject.com/dotnet/ScriptDatabase.asp
SQLScripter
http://www.sqlscripter.com/
PostgreSQL, EMS SQL Manager 2005 for PostgreSQL ver.3.6 released!
http://www.postgresql.org/about/news.570

Liens

Il existe une relation fonctionnelle avec CSV et SIARD.


Catalogue des formats de données d'archivage (Cfa, v2)

Glossaire



Données audio / Audiodaten

Données de codage d’une succession continue de sons.

Données imprimables / Ausdruckbare Daten

Données en principe destinées à l’impression sur papier. Les données imprimables comprennent les données graphiques et textuelles.

Données graphiques / Bilddaten

Données dont le contenu décrit une représentation visuelle.

Données structurées / Strukturierte Daten

Données dont l'objectif principal est d'être analysées mécaniquement puis traitées. Cela signifie notamment que leur structure interne joue un rôle et est explicitement codée.

Données textuelles / Textdaten

Données dont l'objectif principal est de pouvoir être lues par l’homme.

Données vidéo / Video-Daten

Données de codage d’une succession continue d’images.

Extension de nom de fichier / Dateinamenserweiterung

Dernière partie séparée du nom d’un document par un point. Elle sert à l’identification du format d’un fichier pour les différents systèmes d’exploitation. Etant donné que les extensions de nom ne sont pas standardisées et qu’elles peuvent de surcroît être modifiées par un simple changement de nom, elles ne constituent pas un élément suffisant pour déterminer un format. De nombreux formats sont cependant connus sous leur extension de nom.

Format

Un format décrit la manière dont les informations sont mémorisées dans un fichier. Il s’agit de conventions de structure interne, donc précisant comment les informations d’un type de données sont classées. Ces conventions sont décrites de manière détaillée dans une spécification.

Format ouvert / Offenes Format

Format dont les spécifications sont à libre disposition (sans être obligatoirement gratuites).

Implémentation / Implementierung

Pour un format, il existe une implémentation en présence d’un logiciel de rendu, lequel restitue dans ce format les informations codées sous forme lisible pour l’homme et en permet le traitement.

Licence libre / Lizenzfreiheit

Absence de brevet sur tout ou partie d’une définition de format. Les licences open-source sont admises.

Logiciel de rendu / Rendering-Software

Logiciel capable de restituer les informations codées dans un fichier numérique sur un périphérique (écran, imprimante, etc.) dans une forme lisible pour l’homme. Dans l’idéal, cette forme lisible pour l’homme est celle voulue par l’auteur du fichier. Les logiciels de rendu doivent connaître les spécifications du format utilisé pour pouvoir retravailler les informations.

Pronom Unique Identifier (PUID)

Code de format fmt/[chiffre] oder x-fmt/[chiffre], qui identifie de manière univoque un format dans le catalogue de formats PRONOM des archives nationales britanniques (voir http://www.nationalarchives.gov.uk/aboutapps/pronom/puid.htm).


Bibliographie

Caly, Serge; Le Coadic, Yves F.; Pomart, Paul-Dominique; Sutter, Eric: Dictionnaire de l'information, 2e éd., Paris, Armand Colin, 2004
Vocabulaire de la documentation. Ouvrage coordonné par Arlette Boulogne, Paris, Association des professionnels de l'information et de la documentation, 2004


Catalogue des formats de données d'archivage (Cfa, v2)

Bibliographie



La bibliographie est scindée en trois chapitres:
N.B.: de nombreuses publications se rapportant aux exigences et aux critères présentent aussi des exemples de formats d'archivage.

Les ouvrages de base sont en gras.

Sources: documentation interne du CECO ainsi que portails d’information suivants:

Exigences et critères


Abrams, Stephen
"File Formats", in: DCC Digital Curation Manual
2007
http://www.dcc.ac.uk/resource/curation-manual/chapters/file-formats/file-formats.pdf

Arms, Caroline; Fleischhauer, Carl
Digital Formats: Factors for Sustainability, Functionality, and Quality
IS&T Archiving 2005 Conference, Washington DC
2005
http://memory.loc.gov/ammem/techdocs/digform/Formats_IST05_paper.pdf

Bennett, John
A Framework of Data Types and Formats
British Library Research and Innovation Report 50
1997
http://www.ukoln.ac.uk/services/elib/papers/supporting/pdf/rept011.pdf
P. 16: liste de critères pondérés pour les formats de fichiers

Bischoff, Frank M.
Archivierung digitaler Unterlagen – Neue Anforderungen an die Archive
2000
http://www.archive.nrw.de/dok/bischoff01/hess-archivtag.html
Exécutions d’informations codées et non codées

Boudrez, Filip et al.
Digital Archiving: the new challenge? Legal and archival issues
2005
http://www.expertisecentrumdavid.be/docs/digitalarchiving_manual.pdf
P. 92: exigences posée aux formats de fichiers et classification avec exemples

Brown, Adrian
English Heritage Digital Archiving Strategy
2002
http://www.english-heritage.org.uk/upload/pdf/dap_manual_archiving.pdf
Pp. 3 à 11: sélection de formats destinés à l’archivage

Brown, Adrian
Selecting File Formats for Long-Term Preservation
Digital Preservation Guidance Note 1
Version 2, 2008
http://www.nationalarchives.gov.uk/documents/selecting_file_formats.pdf
Bref mémento de critères dont il faut tenir compte lors du choix de formats numériques, en vue d’une aptitude future à l’archivage.

Brown, Adrian
Automatic Format Identification using PRONOM and DROID
Digital Preservation Technical Paper 1
2005
http://www.nationalarchives.gov.uk/aboutapps/fileformat/pdf/automatic_format_identification.pdf

Chaumier, Jacques
Document et numérisation. Enjeux techniques, économiques, culturels et sociaux
Paris, Association des professionnels de l'information et de la documentation, 2006

Christensen, Steen
Archival Data Format Requirements
2004
http://netarkivet.dk/publikationer/Archival_format_requirements-2004.pdf
Liste des exigences posées aux formats d’archivage

Clausen, Lars
Handling File Formats
2004
http://netarchive.dk/publikationer/FileFormats-2004.pdf
Utilisation des formats de fichiers courants sur le web

Dhérent, Catherine
Les archives électroniques: manuel pratique
2002
http://www.archivesdefrance.culture.gouv.fr/fr/archivistique/DAFmanuel%20version%207.html
Ouvrage de base de l’archivage numérique, contenant des critères pour le choix des formats

Direction des Archives de France (ed.)
Projekt PIL@E. Gestion des Formats de Fichiers.
2007
http://www.archivesdefrance.culture.gouv.fr/fr/archives%20electroniques/PIL@E.pdf

Ernst, Katharina et al.
Rahmenkonzept zur Langzeitarchivierung digitaler Daten für die Landeshauptstadt Stuttgart
2005
P. 30: exigences et exemples

Gutzmann, Ulrike; Kamp, Ulrich; Keitel, Christian; Scheiding, Antje
Praktische Lösungsansätze zur Archivierung digitaler Unterlagen
Arbeitskreise der VdW 2007
http://www.wirtschaftsarchive.de/akea/handreichung.htm
Résumé actuel et traduction de la 'Sustainability of Digital Formats' de Library of Congress

Huc, Claude et al.
Criteria for evaluating data formats in terms of their suitability for ensuring information long term preservation
2004
http://www.ssd.rl.ac.uk/ccsdsp2/mon04/long_term_preservation_criteria.doc

CIA (ed.)
Les archives électroniques : Manuel à l'usage des archivistes (ICA Etude 16)
2005
http://www.ica.org/sites/default/files/ICA%20Study16%20FR.pdf
P. 41: exigences des formats standard

Jacquesson, Alain; Rivier, Alexis
Bibliothèques et documents numériques : concepts, composantes, techniques et enjeux
Paris, Editions du Cercle de la Libraire, 2e éd. 2005 (1re éd. 1999)

Keitel, Christian
Die Archivierung elektronischer Unterlagen in der baden-württembergischen Archivverwaltung
2002
http://www.landesarchiv-bw.de/sixcms/media.php/25/keitel_elektronische_konz.pdf
Ne traite pas explicitement des critères de formats mais en évoque le thème

Lawrence, Gregory et al.
Risk Management of Digital Information: A File Format Investigation
CLIR Report 93
2000
http://www.clir.org/pubs/abstract/pub93abst.html
Ciblé sur la migration

Library of Congress
Sustainability of Digital Formats
2007
http://www.digitalpreservation.gov/formats/intro/intro.shtml

Lormant, Nicolas, et al.
How to Evaluate the Ability of a File Format to Ensure Long-Term Preservation for Digital Information?
2005
http://www.ukoln.ac.uk/events/pv-2005/pv-2005-final-papers/003.pdf
Liste la plus à jour des critères de formats archivistiques

Minnesota Historical Society (ed.)
File Formats Guideline
2003
http://www.mnhs.org/preserve/records/electronicrecords/erfformats.pdf
Discussion quant aux concepts de base des formats de fichiers

Neuroth, Heike et al. (eds.)
Nestor Handbuch. Eine kleine Enzyklopädie der digitalen Langzeitarchivierung. Version 2.0
2009
http://nestor.sub.uni-goettingen.de/handbuch/

Representation and Rendering Project
Survey and assessment of sources of information on file formats and software documentation
2003
http://www.jisc.ac.uk/uploaded_documents/FileFormatsreport.pdf
Sources d’informations relatives aux formats des fichiers

Richter, Wolfgang
Standards für Archivformate - Archivische Anforderungen an Dateiformate vor dem Hintergrund der Migrationsstrategie
Archiv und Wirtschaft 3/2004

Rog, Judith; van Wijk, Caroline
Evaluating File Formats for Long-term Preservation
2008
http://www.kb.nl/hrd/dd/dd_links_en_publicaties/publicaties/KB_file_format_evaluation_method_27022008.pdf

Rumble, John et al.
Developing and Using Standards for Data and Information in Science and Technology
2005
http://www.infointl.com/pdf/developing_using_standards.pdf
Considérations philosophiques se rapportant aux standards

Stanescu, Andreas
Assessing the Durability of Formats in a Digital Preservation Environment
D-Lib Magazine, November 2004
http://www.dlib.org/dlib/november04/stanescu/11stanescu.html
Quelques critères pour l’analyse des risques relatifs aux formats de fichiers

Thibodeau, Kenneth
Overview of Technological Approaches to Digital Preservation and Challenges in Coming Years, In: The State of Digital Preservation: An International Perspective, CLIR Report 107, 4-32
2002
http://www.clir.org/pubs/abstract/pub107abst.html
Vision générale de l’archivage numérique, n’étant certes pas des plus récentes, mais qui est toujours utile

Todd, Malcolm
File formats for preservation
DPC Technology Watch Report 09-02
2009
http://www.dpconline.org/docs/reports/dpctw09-02.pdf

Toebak, Peter M.
Records Management. Ein Handbuch
Baden, hier+jetzt 2007
Pp. 490 à 496

Töwe, Matthias
« E-archiving » – étude préliminaire
Consortium des bibliothèques universitaires suisses
2005
http://lib.consortium.ch/external_files/Konzeptstudie_F_V1_2_1.pdf
P. 55: exigences posées aux formats standard et liste de formats

Ressources générales pour des formats spécifiques de fichiers


Bagwell, Chris
Audio File Formats FAQ
http://sox.sourceforge.net/AudioFormats.html
Source d’informations d’ordre général pour les formats audio

Born, Günter
Dateiformate - Die Reverenz. Tabellenkalkulation, Text, Grafik, Multimedia, Sound und Internet
Bonn, Galileo Press 2001
ISBN 3-934358-83-7

CDP Digital Audio Working Group (ed.)
Digital Audio Best Practices, Version 2.0
2005
http://www.cdpheritage.org/digital/audio/documents/CDPDABP_1-2.pdf
Introduction aux données numériques audio avec explications de leurs caractéristiques

Schmelzer, Ronald (ZapThink)
The Pros and Cons of XML
2001
http://www.zapthink.com/actions/download.php?id=ZT-XMLPROCON
Bref débat polémique quant aux propriétés de XML

Exemples de catalogues des formats


Barnes, Ian
Preservation of word processing documents
2006
http://www.apsr.edu.au/publications/word_processing_preservation.pdf
Débat traitant des questions de format pour les documents textuels; examen des formats courants quant à leur aptitude à l’archivage et recommandations

Bates, Melanie et al.
Digital lifecycles and file types: final report (Rights and Rewards Project)
2006
http://hdl.handle.net/2134/1793

Boudrez, Filip
Archiving Electronic Office Documents
2003
http://www.expertisecentrumdavid.be/davidproject/teksten/DAVIDbijdragen/Office_documents.pdf
Formats recommandés pour les documents de la suite Office

Brown, Adrian
Graphics File Formats
Digital Preservation Guidance Note 4
Version 2, 2008
http://www.nationalarchives.gov.uk/documents/graphic_file_formats.pdf
Recommandations de formats graphiques pour l’archivage des Archives nationales britanniques

Bundeskonferenz der Kommunalarchive beim Deutschen Städtetag (ed.)
Handreichung zur Archivierung und Nutzung digitaler Unterlagen in Kommunalarchiven, in: Der Archivar 55 (2002), 16-18
2001
http://www.bundeskonferenz-kommunalarchive.de/empfehlungen/Handreichung_Digitale_Unterlagen.pdf
Répertoire succinct des formats possibles

Coy, Wolfgang
Perspektiven der Langzeitarchivierung multimedialer Objekte
nestor-Materialien 5
2006
http://nbn-resolving.de/urn:nbn:de:0008-20051214015
Notamment, discussions relatives aux formats

Digital Preservation Testbed (ed.)
From digital volatility to digital permanence: Preserving text documents
2004
http://www.digitaleduurzaamheid.nl/bibliotheek/docs/volatility-permanence-textdocs-en.pdf
Analyse des stratégies potentielles d’archivage pour les documents textuels; brève discussion traitant des formats possibles

DOMEA-Konzept
Erweiterungsmodul zum Organisationskonzept 2.0
Technische Aspekte der Archivierung elektronischer Akten
2004
http://www.kbst.bund.de/
P. 31: conversion de formats, formats destinés à l’archivage

Gilesse, Robèrt; Rog, Judith; Verheusen, Astrid
Alternative File Formats for Storing Master Images of Digitisation Projects
2008
http://www.kb.nl/hrd/dd/dd_links_en_publicaties/publicaties/Alternative%20File%20Formats%20for%20Storing%20Masters%202%201.pdf

Helfer, Bernward; Lupprian, Karl-Ernst
Dateiformate. Eigenschaften und Eignung für die Archivierung
elektronischer Unterlagen. Eine Handreichung für Archivarinnen und Archivare. Auf der Grundlage der Internet-Präsentation eines Workshops des Vereins
Schweizerischer Archivarinnen und Archivare vom 16.5.2000
2004
http://www.gda.bayern.de/datfor.pdf
Premier catalogue des formats de l'AAS dans une version traduite et complétée.
Version initiale en français : Format des documents numériques, http://www.vsa-aas.org/Atelier_1.238.0.html

Knight, Gareth; McHugh, John
AHDS Preservation Handbook Digital Audio
http://www.ahds.ac.uk/preservation/audio-preservation-handbook.pdf
2005
Discussion traitant des formats audio et de leur aptitude à l’archivage

Knight, Gareth; McHugh, John
AHDS Preservation Handbook Moving Image
2005
http://www.ahds.ac.uk/preservation/video-preservation-handbook.pdf
Discussion traitant des formats vidéo et de leur aptitude à l’archivage

Public Records Office Victoria (ed.)
VERS Long Term Preservation Formats
PROS 99/007 (Version 2) Specification 4
1999, mis à jour en 2006
http://www.prov.vic.gov.au/vers/standard/pdf/99-7-4_Std_ver_2-1.pdf
Aide de base: un bref catalogue des formats archivistiques de base comprenant des détails pour leur utilisation

Public Records Office Victoria (ed.)
Advice on VERS Long Term Preservation Formats
PROS 99/007 (Version 2) Specification 4
1999, mis à jour en 2006
http://www.prov.vic.gov.au/vers/standard/pdf/99-7-4_Advice_ver_2-1.pdf
Voir ci-dessus

Archives fédérales suisses
Formats de données archivables. Standards für die Archivierung digitaler Unterlagen (en allemand)
Juillet 2007
http://www.bar.admin.ch/dienstleistungen/00516/00517/index.html?lang=fr
Etablissement des formats jugés comme aptes à l’archivage par les Archives fédérales

Westcott, Keith
AHDS Preservation Handbook Vector Graphics
2005
http://ahds.ac.uk/preservation/vectors-preservation-handbook.pdf
Discussion relative aux formats graphiques et à leur aptitude à l’archivage

Wilson, Andrew et al.
AHDS Moving Images and Sound Archiving Study
2006
http://www.jisc.ac.uk/uploaded_documents/Moving%20Images%20and%20Sound%20Archiving%20Study1.doc