CSV


Catégorie

Données structurées de tableurs et bases de données

Abréviations

CSV
.txt, .csv
text/CSV - text/comma-separated-values
x-fmt/18

Titre

Comma-Separated Values
Colon-Separated Values
Character-Separated Values

Versions

Il n’existe pas de norme générale du format de fichiers CSV.
Un cahier des charges RFC du format d’un fichier CSV existe et sert en générale de référence: RFC 4180.

Description

Les données CSV sont des fichiers ASCII structurés sous forme de tableau. Les valeurs, les champs ou les colonnes individuels sont séparés par un délimiteur, par exemple une virgule ou un point-virgule. Les lignes des tableaux sont séparées par un saut de ligne. Lors du transfert d’une base de données relationnelle dans des fichiers CSV, chaque tableau de la base de données est copié dans un fichier CSV.
Les différentes variantes et quasi-normes du format de fichier CSV se distinguent par le masquage des délimiteurs et du retour automatique à la ligne dans les champs.

Deux variantes CSV sont particulièrement intéressantes dans le domaine des bases de données:

Evaluation


Ouverture du format: 3

Il n’existe pas de norme générale du format de fichiers CSV. Par contre la spécification est contenue pour l’essentiel dans RFC 4180 et extrêmement simple.

Licence libre: 4

Il n’existe pas de restrictions juridiques associées à une licence; cela est vraisemblablement aussi le cas pour Excel CSV Format et SQL-Loader File.

Diffusion: 4

CSV est le format d’échange de données le plus répandu dans le cas de données structurées, autrement dit entre bases de données et tableurs.

Fonctionnalités: 1

Les fichiers CSV sont ce que l’on nomme des flat files, autrement dit seules les informations d’un tableau peuvent être stockées dans un fichier. La plupart des bases de données ont toutefois recours à des structures hiérarchiques ou relationnelles pour stocker les données. Pour reproduire aussi cette structure dans une flat file, il est nécessaire de répéter des informations, d’où une redondance des données. En outre, les données stockées dans les fichiers CSV ne sont pas formatées. Il est impossible de reprendre des formats de champs, des structures de données ou des formules.

Implémentation: 4

L’immense majorité des bases de données et des tableurs sont capables de créer ou de lire des fichiers CSV.

Densité de mémorisation: 4

Pas de compression des données, les contenus des champs sont reproduits caractère par caractère. La représentation des structures entre les tableaux conduit inévitablement à la redondance des données (voir fonctionnalité ci-dessus).

Vérifiabilité: 2

Seule l'extension du nom de fichier permet une reconnaissance ou une validation. Le manque de normalisation rend toutefois nécessaire la présence d’une documentation précise sur le masquage des séparateurs et des retours automatiques à la ligne, l’utilisation de guillemets et le problème de la variation du nombre de champs par ligne. Le ((codage des caractères)) et la représentation des types de données utilisées doivent aussi être fixés.

Bonnes pratiques: 2

Pour des raisons historiques, les fichiers CSV sont relativement répandus au sein des archives.

Perspectives: 1

CSV est souvent éliminé au profit de formats de tableaux basés sur XML, car celui-ci résout les problèmes du masquage des caractères de contrôle, du jeu de caractères et des types de données.

Classes de formats: A

CSV est un des plus anciens formats de l’informatique.


Conclusion

De grandes quantités de données sont déjà archivées en format CSV pour tableaux. Celui-ci gardera donc son importance. Toutefois, vu l’impossibilité de conserver des relations, des métadonnées et des informations structurelles dans ce format, seuls des ensembles de données en format CSV bien documentés garderont leur valeur. Un remplacement par XML (SQLX, SIARD, OOXML ou ODF) aura aussi lieu dans le domaine de l’archivage. N’oublions pas que XML a été élaboré dans une mesure non négligeable pour répondre au besoin d’un format d’échange de données structuré et pour remplacer les solutions entièrement basées sur le texte.

Références

Cahier des charges RFC du format des fichiers CSV
http://tools.ietf.org/html/rfc4180

Bibliographie

Wikipédia: CSV
http://fr.wikipedia.org/wiki/Comma-separated_values
Wikipédia: CSV (en anglais)|
http://en.wikipedia.org/wiki/Comma-separated_values
Creativyst Software, The Comma Separated Value (CSV) File Format
http://www.creativyst.com/Doc/Articles/CSV/CSV01.htm
Oracle SQL*Loader Tutorial
http://loader.datenbank-wissen.de/

Articles connexes

Le format CSV est aussi répandu comme format d’archivage et d’échange dans le domaine des tableurs.

last update: claire.roethlisberger - Mon, 04 Jul 2016 [14:18:27]
Copyright © by Koordinationsstelle für die dauerhafte Archivierung elektronischer Unterlagen
Copyright © by Centre de coordination pour l'archivage à long terme de documents électroniques