Skip links

Qu’est ce qu’un dictionnaire des données ?

Rapide définition

Un dictionnaire des données décrit finement les données auxquelles il se réfère. Pour toute base de données, vous devez en composer un. Ce travail fastidieux vous permettra de gagner un temps fou au moment du lancement de votre projet data, surtout si vous disposez de plusieurs bases de données.

Un dictionnaire des données décrit finement les données auxquelles il se réfère.

Comment créer un dictionnaire des données ?

Pour chaque dataset ou flux de données, le dictionnaire des données doit nécessairement expliciter les éléments suivants :

  1. le périmètre des données : population concernée (c’est-à-dire, qu’est-ce qu’une observation / ligne représente ?), période temporelle, dimension géographique, etc. ;
  2. la volumétrie (c’est-à-dire le nombre d’observations / lignes et de variables / colonnes présentes) ;
  3. la liste des key variables (c’est-à-dire la / les variables qui permettent de lier la table / flux avec d’autres tables / flux de données / exemple ID user) ;
  4. l’usage actuel,
  5. leur source,
  6. comment vous les avez collectées,
  7. leur accès,
  8. le format du dataset/flux,
  9. la taille du dataset,
  10. la fréquence de mise à jour,
  11. le taux de fiabilité (si connu).

Il est important de préciser en plus pour chaque variable, les éléments suivants :

  1. le libellé ,
  2. le type (numérique entier, décimal, texte, etc.),
  3. la longueur (c’est-à-dire le nombre de caractères) – si nécessaire (exemple : le code postal)
  4. l’unité de mesure – si nécessaire, 
  5. la nomenclature complète (libellé + signification) des valeurs (modalités) qu’elle peut assumer (pour les variables qualitatives) – si nécessaire (code NAF : “6201Z” : explication de sa signification : programmation informatique),
  6. l’intervalle des valeurs possibles (min – max) – si nécessaire,
  7. la définition complète,
  8. cinq données exemple,  
  9. les données manquantes : sont-elles possibles ? Y-a-t-il des consignes spécifiques sur leur traitement ? 
  10. les données aberrantes : y-a-t-il des consignes spécifiques sur leur traitement ? 

Pour les points 9 et 10, quelques précisions : 

Cela peut sembler étonnant mais il peut être normal d’avoir de la donnée manquante dans une base de données. Par exemple, lors de nos travaux d’automatisation menés sur le credit scoring, nous avions conçu une interface avec un champ de saisie pour l’emprunteur et le co-emprunteur lorsqu’ils étaient deux. Pour tous les emprunteurs qui le réalisaient en solitaire, la base de données n’avait donc pas d’information sur le co-emprunteur et ce manque était bien normal.

Pour les données aberrantes, elles sont pratiquement toujours présentes. Un exemple, pour une couleur, nous pourrions trouver “jane” ou lieu de “jaune”. Ou encore pour une variable avec un minimum = 0 et un maximum = 100, nous trouvons 1 000.

Que devons-nous faire avec ce type de données erronées ?

  • Devons-nous les supprimer de la base de données ?
  • Devons-nous la remplacer par une moyenne numérique (50 dans notre exemple) ou bien une couleur unique en cas d’erreur (“rouge” par exemple pour toute couleur erronée)
  • Devons-nous procéder à un rapprochement ? (“jane” détecter la couleur la plus proche sémantiquement et la corriger “jane” > “jaune”).

Ce choix dépend de chaque projet et de chaque base de données, préciser ce point dans le dictionnaire des données est un vrai plus.

Des ressources à disposition pour voir un dictionnaire.

R dispose de datasets remarquables qui peuvent être de bons exemples pour vous accompagner dans la construction d’un dictionnaire des données. Certes, vous le verrez, les dictionnaires associés sont assez basiques et dans le même temps ils ont l’intérêt de montrer un exemple concret d’explication structurée du dataset. Pour télécharger trois d’entre eux, nous vous invitons à suivre les liens ci-dessous :

mtcars : https://www.rdocumentation.org/packages/datasets/versions/3.6.2/topics/mtcars
airquality : https://www.rdocumentation.org/packages/datasets/versions/3.6.2/topics/airquality
US State Facts and Figures : https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/state.html

Pour compléter, vous trouverez d’autres datasets pertinents sur : 

https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/00Index.html


Cet article est extrait de notre livre « Data Maker » désormais disponible en ebook :

10h11 est une agence data, basée à Bordeaux et Paris, qui collecte, analyse et visualise la donnée.