Catalogue des formats de données d'archivage (
Cfa, v2)
TXT
Catégorie
Formats textuels
Abréviation
TXT
.txt
text/plain
Titre
Texte brut
Plain Text
Text only
Versions
Aucune; voir toutefois les informations sur le
codage des caractères.
Description
Le format textuel peut être considéré comme le format le plus stable de l’informatique; le codage ASCII est déjà connu et utilisé depuis des décennies; les codages plus récents, comme la famille ISO-8859 ainsi que les divers codages UNICODE sont aussi rétrocompatibles.
Evaluation
Les codages de caractères les plus usités sont les standards ISO ou IETF et sont donc ouverts.
Il n’existe pas de licences de formats textuels ou de codage.
Ce format est l’un des plus répandus de l’informatique mais il n’est que peu utilisé dans l’administration.
Les fichiers en texte brut ne permettent pratiquement pas (c’est-à-dire uniquement sous forme très rudimentaire) de représenter la mise en page (layout) et les formatages. Une migration des fichiers issus des programmes de traitement de texte en texte brut entraîne la perte presque complète du formatage, ce qui peut être inacceptable selon l’importance de ce dernier.
Il existe un grand nombre d’éditeurs de texte.
La densité de mémorisation est élevée et peut être encore accrue par l’usage de la compression sans pertes.
Le texte brut est diffusé en tant que format d’archivage recommandé et utilisé.
Le potentiel de développement du texte brut a pratiquement atteint ses limites.
Il s’agit de l’un des plus anciens formats de l’informatique.
Conclusion
Le texte brut répond au mieux à la plupart des exigences de l’archivage (à l’exception près, non négligeable, de la préservation de la mise en page) et n’est donc pas contesté comme format d’archivage. L’administration n’utilise cependant presque pas les fichiers texte brut. Les fichiers XML, HTML et
CSV constituent une exception car il s’agit en fait de pures données textuelles contenant aussi des informations sur la structure et/ou la mise en page, tout en étant destinées à une application spécifique (sites internet, contenu d’une base de données). En outre, certains systèmes d’information plus anciens exportent le plus simplement leurs données sous forme de texte brut.
Les documents en format de texte brut proposés pour l’archivage sous cette même forme peuvent être archivés sans autres dans ce format pour autant que le codage des caractères soit connu. Les codages de caractères courants ne présentent aucun problème, mais ils doivent être documentés dans les métadonnées. S’il existe une possibilité de choix, il faudrait utiliser de préférence UNICODE dans le codage UTF-8 en raison de sa compréhensibilité universelle et de sa durabilité.
Références
Le texte brut n’est pas une norme au sens formel. Il existe toutefois des normes formelles pour le
codage des caractères.
Le type MIME text/plain dispose d’une définition formelle:
Multipurpose Internet Mail Extensions (MIME) Part Two: Media Types, 1996
http://www.rfc-editor.org/rfc/rfc2046.txt
Bibliographie
Liens
CSV