Étude de cas : Ligue 1

Prédictif & algorithme

Quel était le problème de notre client ?

Le monde du football est de plus en plus convoité par les paris sportifs et aucun modèle de statistiques prévisionnelles Dixon & Coles n’avait été ouvertement déployé sur les résultats de la Ligue 1.

Le problème : Comment arriver à mettre en place un outil prévisionnel de pronostic sportif basé sur un modèle scientifique reconnu et qui prend en compte la donnée historique de la Ligue 1 sur l’ensemble de ses championnats ?

Comment avons-nous procédé ?

1

Data Mining :

Nous avons commencé par une étape de data crawling et de data mining pour recueillir les données de tous les matchs de la Ligue 1 depuis la saison 1993-1994 jusqu’à aujourd'hui.

2

Industrialisation des données :

Pour chaque match, nous pu obtenir beaucoup de données: le score final, la minute à laquelle les buts ont été marqués, le nom du buteur, le nombre de corners, le nombre de hors-jeu, etc. 

3

Classement des données :

En première version d’analyse, pour chaque match, nous avons considéré:

  • saison du match
  • date du match
  • nom de l’équipe à domicile / équipe à l'extérieur
  • nombre de buts marqués de l’équipe à domicile / l’équipe à l’extérieur

Focus

Le modèle Dixon-Coles (1997) que nous avons choisi :

  1. Il permet de modeler les différentes aptitudes en attaque et en défense pour chaque équipe.
  2. Il considère une sorte de dépendance entre les buts marqués par l'équipe à domicile et les buts marqués par l'équipe à l'extérieur pour les "low-scoring" matchs, c'est-à-dire les matchs à peu de buts (0-0, 1-0, 0-1, 1-1).
  3. Il permet de tenir compte du changement des performances dans le temps de chaque équipe. Cette remarque vient de l’idée qu’une performance d’une équipe est probablement plus similaire à leurs performances lors des matchs les plus récents qu’à leurs performances lors des matchs plus anciens.  

Quel a été le gain final pour notre client ?

La ligue 1 dispose d'un modèle prédictif basé sur les lois de Dixon & Coles. Toute personne peut s’y référer et consulter en temps réel les prévisions de la prochaine journée de championnat. Un système de machine virtuelle et de machine learning est mis en place permettant de rapatrier automatiquement les nouveaux résultats du championnat, de remodéliser automatiquement l'algorithme, afin de fournir les statistiques pour la journée de championnat suivante.

Cerise sur le gâteau

Une interface ludique en visualisation de données, avec les logotypes des clubs et des graphiques interactifs, a été mise en place pour visualiser les futurs pronostics. De plus, la méthodologie de travail est libre et exploitable pour tout datascientist souhaitant améliorer le modèle. Let’s rock !