Skip links

Que fait un Data Scientist ?

“Data Scientist : The Sexiest Job of 21st Century” écrivait en Octobre 2012 la Harvard Business Review. Cette nouvelle figure professionnelle, aujourd’hui très à la mode, est effectivement très recherchée par toutes les entreprises. Elle combine un ensemble de compétences en provenance de quatre domaines principaux :

  1. les mathématiques et la statistique,
  2. la programmation informatique et la gestion de bases de données,
  3. la connaissance d’un domaine spécifique d’application, ainsi que les soi-disant “soft skills“,
  4. la visualisation et la communication des résultats obtenus.
Que fait un Data Scientist ? 2

Et donc, que fait un Data Scientist ? Comme nous avons pu le voir pour la définition de Data Science, si nous cherchons sur Internet, nous pouvons trouver plusieurs définitions du rôle du Data Scientist  :

  • “[…] a new kind of professional has emerged, the data scientist, who combines the skills of software programmer, statistician and storyteller / artist to extract the nuggets of gold hidden under mountains of data. ” (Kenneth Cukier, 2010) ;
  • Data scientists can tackle all aspects of a problem, from initial data collection to drawing conclusions. They can think outside the box to come up with new ways to view the problem, or to work with very broadly defined problems: ‘here’s a lot of data, what can you make from it?’ ” (Mike Loukides, 2010) ;
  • “[…] what a Data scientist does, in roughly chronological order: Obtain, Scrub, Explore, Model, and Interpret […]” (Hilary Mason and Chris Wiggins, 2010) ;
  • “[…] a combination of computer hacking, data analysis, and problem solving.” (David Smith, 2011).

Le quotidien du Data Scientist

Si nous souhaitons détailler le processus de travail d’un Data Scientist, et donc la définition des tâches qu’il doit (généralement) accomplir, nous pourrions obtenir la liste suivante :

  • Définir la question :
    Il faut tout d’abord se rappeler que dans “Data Science” la data est la deuxième chose la plus importante. En effet, la question à laquelle le data scientist doit répondre est d’autant plus substantielle. Bien souvent, les données vont limiter ou rendre possible des questions, mais posséder des données vous aidera peu si vous ne disposez pas d’une question claire et précise à laquelle il va falloir répondre.
  • Définir les data sets idéaux :
    Une fois avoir défini la problématique / le besoin auquel vous vous confrontez, il va falloir définir et identifier les données nécessaires au développement de notre solution.  
  • Déterminer à quelles données nous pouvons accéder :
    Certaines données nous sont fournies par le client, d’autres peuvent être collectées en Open Data (données numériques dont l’accès et l’usage sont laissés libres aux usagers), d’autres encore peuvent être payantes. Mais il y a aussi des cas où la donnée que nous cherchons n’est pas à disposition.
  • Obtenir les données :
    Une fois les sources de données identifiées, le data scientist doit déterminer la meilleure façon de les collecter, ainsi que de les stocker.  
  • Réaliser des analyses exploratoires des données :
    Après les avoir collectées, les données doivent être explorées. C’est dans cette première étape d’analyse que le data scientist “se plonge” dans les données et peut commencer à les connaître et à les comprendre plus facilement. 
  • Nettoyer les données :
    Par expérience, nous pouvons vous confirmer que 80% du temps d’un data scientist est consacré au nettoyage des données. Corriger les données manquantes, individualiser et corriger les observations en duplicata, individualiser et traiter les observations anormales, identifier et éliminer les données non pertinentes dans l’analyse, tester la cohérence : ces sont des tâches essentielles dans le processus de nettoyage des données. Si cela n’est pas fait, le travail de modélisation algorithmique qui suit sera fortement biaisé.
  • Réaliser des modélisations algorithmiques :
    C’est sûrement la partie la plus “cool” du job du data scientist. Développement algorithmique, application de techniques de Machine Learning ou de Deep Learning : c’est ici que le data scientist doit se lancer, toujours en tenant compte des types de données à disposition, ainsi (et surtout) que de la question à laquelle il doit répondre.
  • Interpréter et défier les résultats :
    Chaque résultat doit être bien interprété, soit d’un point de vue mathématique / statistique, soit d’un point de vue métier : seulement ainsi le data scientist pourra valider la cohérence et la fiabilité de son travail.
  • Synthétiser et présenter les résultats :
    Dernière étape, mais loin d’être la moins importante ou même la moins compliquée. Le data scientist doit être capable de présenter ses résultats de la façon la plus intelligible possible, car la plupart des fois son interlocuteur n’aura pas du tout son background scientifique. Le recours à la datavisualisation est donc souvent d’usage.