
La Data Science : qu’est ce que c’est ?
Nous sommes un jour tombés sur une présentation qui donnait plusieurs définitions du concept de « Data Science » :
- “A data scientist is a statistician who lives in San Francisco.”
- “Data Science is statistics on a Mac.”
- “A data scientist is someone who is better at statistics than any software engineer and better at software engineering than any statistician.”
On a tout de suite adoré ces définitions ! Dans leur ironie, il y avait en effet quelque chose d’important et de fondamental qui était bien marqué : le concept de statistique.
Les statistiques avant tout.
“Statistics is the science of learning from data” cite l’American Statistical Association : nous avons de la donnée, nous lui appliquons des outils statistiques et, grâce à ces derniers, nous obtenons des nouvelles informations exploitables. Par des méthodes statistiques, même assez simples, comme la moyenne, l’écart-type ou encore la médiane, on extrait de la connaissance à partir de la data. Cette dernière, en employant un terme un peu plus technique, peut être représentée comme l’ensemble des valeurs assumées par un certain nombre de variables qualitatives ou quantitatives qui décrivent une population d’éléments.
Qu’est-ce que nous entendons par qualitatives et quantitatives ? C’est assez simple à comprendre. Une variable est dite quantitative quand elle exprime une quantité mesurable : par exemple, l’âge, le poids, le salaire, la quantité de pluie qu’il tombe demain ou encore le nombre de buts marqués dans un match de foot. Au contraire, une variable qui n’est pas mesurable est appelée qualitative, car elle exprime une qualité et non une quantité : par exemple, la couleur des cheveux, le sexe, le type d’emploi, la ville de provenance, le code postal, … Mais les codes postaux ne sont-ils pas quand même représentés par des chiffres ? Oui, tout à fait, mais dans ce cas cela n’est pas une quantité mesurable : nous ne pouvons pas faire la moyenne des codes postaux en France, cela n’aurait aucun sens. Les variables de ce type (c’est à dire les IDs, les identifiants uniques), même si elles sont représentées par des numéros restent non-quantifiables et, donc, qualitatives.
Mais alors, qu’est-ce que la Data Science ?
Si nous cherchons sur Internet, nous pouvons aujourd’hui trouver nombre de définitions qui décrivent cette nouvelle discipline, comme par exemple :
- “The science of dealing with data […]” (Peter Naur, 1974)
- “By ‘Data Science’ we mean almost everything that has something to do with data: collecting, analyzing, modeling… yet the most important part is its applications, all sorts of applications” (Journal of Data Science, 2003)
- “[…] Data Science is the process of working with data in a scientific way that will produce new and reproducible insights.” (Jeffrey Leek, Johns Hopkins University, 2013)
- “Data science is an interdisciplinary field about processes and systems to extract knowledge or insights from data in various forms, either structured or unstructured […]” (Wikipedia)
C’est sans doute la plus courte définition, mais nous trouvons que celle proposée par Peter Naur (Prix Turing 2005) est la plus directe, la plus concise. Même si dans cette définition nous n’avons jamais vraiment trouvé une bonne traduction en français de “dealing with”, l’idée est sans doute là : la Data Science est “la science de traiter, manipuler, manier, voir jouer avec la donnée”.