Qui remportera la Coupe du Monde 2018 ?

Chez 10h11, nous avons de grands passionnés de football, dont notre directeur Data Science, William Brojanigo. La perspective d’un été de chaleur et de football lui a donné envie d’utiliser ses compétences afin d’établir un pronostic sur les cotes des équipes durant ce tournoi.

Posté le 26/04/2018
Un savant mélange de science et de sport !

Nous nous sommes inspirés d'une étude publiée en 2016 sur le site R-bloggers afin d'établir un pronostic des équipes victorieuses pour le Championnat d'Europe UEFA 2016.

Le principe est donc d'utiliser les informations données par les bookmakers – William a utilisé les cotes de 22 bookmakers (du 22 mars 2018) - des 32 équipes nationales participantes. Après avoir supprimé la marge de bénéfices des bookmarkers, nous les avons regroupé et classé suivant une moyenne commune puis nous avons fini par une déduction des capacités des équipes en utilisant le modèle de Bradley-Terry pour les comparaisons en duo.

La moyenne des probabilités gagnantes par équipe

Pour les plus curieux, nous vous détaillons un peu plus les étapes :

Première étape : On estime que les cotes proviennent de cotes que l'on pourrait qualifier de « vraies » auxquelles les 22 bookmakers avaient en moyenne ajouté 21.61 % de profits. Après un rapide calcul, nous avons pu obtenir les « véritables » cotes, appelées logs_odds (le logarithme du rapport des cotes) afin de continuer nos estimations.

Deuxième étape : Utilisation de l'approche Bradley-Terry

En utilisant les capacités des équipes, nous avons pu mettre en place une simulation du déroulement du tournoi en établissant quelle équipe gagnera et continuera jusqu'en finale. Afin d'assurer une meilleure précision dans nos estimations, nous avons élaboré 1 million de simulations de tournois.

Qu'est-ce que l'approche de Bradley-Terry ?

L'approche Bradley-Terry est assez proche de celle d'Elo rating – populaire dans le milieu sportif.Elle sert à décrire les résultats possibles lorsque deux éléments d'une paire sont comparés.
Dans ce cas de figure, elle s'appuie sur la probabilité qu'une équipe A bat une équipe B au vu des capacités et forces qu'on attribue aux deux équipes.

Pour résumer la formule :

Probabilité (l'équipe A bat la B) = (Compétences équipe A) / (Compétences équipe A + Compétences équipe B).

Graphique montrant les probabilités d'une équipe A face à une équipe B

L'application :

L'approche proposée afin d'estimer les compétences des équipes est celle du “randomized block design”. Dans cette méthodologie, nous avons deux facteurs à prendre en compte :

Un facteur expérimental : on utilisera des effets fixes.→ Ce facteur sera le bookmaker car il nous faut déterminer s'il existe des différences répétitives entre les pronostics des bookmakers.

Un facteur de blocage : on utilisera des effets aléatoires.
→ Ce facteur sera l'équipe car c'est une source connue en termes de variabilité.

Les cotes seront donc modélisées avec un modèle à effet aléatoire spécifique pour les équipes et un modèle à effet fixe spécifique pour les bookmakers.

Et pour quels résultats ?

Après avoir testé 1 millions d'exécutions de tournois nous avons estimé les 3 équipes ayant le plus de chances de remporter la Coupe du Monde 2018 :

• L'Allemagne avec 15,62 %, grand gagnant de 2014• Le Brésil avec 15,05 %, leader du nombre de victoires• La France avec 12,42 %, grand favori lors de l'UEFA 2016

Nous avons aussi pu définir la finale la plus probable :

• Allemagne – Brésil avec (6,21 %)

Probabilités par groupe

Références:

https://www.r-bloggers.com/predictive-bookmaker-consensus-model-for-the-uefa-euro-2016/

https://www.oddschecker.com/football/world-cup/winner

https://en.wikipedia.org/wiki/2018_FIFA_World_Cup#Schedule

https://fr.wikipedia.org/wiki/Odds_ratio

https://idaejin.github.io/bcam-courses/neiker-2016/material/mixed-models/#lme-function

Achim Zeileis, Christoph Leitner, Kurt Hornik (2016-15), Predictive bookmaker consensus model for the UEFA Euro 2016, Working Papers in Economics and Statistics.
Leitner, Christoph and Zeileis, Achim and Hornik, Kurt (2008) Who is Going to Win the EURO 2008? A Statistical Investigation of Bookmakers Odds. Research Report Series / Department of Statistics and Mathematics, 65. Department of Statistics and Mathematics, WU Vienna University of Economics and Business, Vienna.

Quelle méthodologie appliquer pour faire de la dataviz ?

Nous avons constaté que de plus en plus d’entreprises souhaitent travailler avec leurs données et ont pris conscience que la datavisualisation peut les aid...
Lire l'article

L'innovation par l'utilisateur : un des piliers du Double Diamant

Quel est le point commun entre le skateboard, Dropbox, et le braille ? Ils sont la preuve que tout utilisateur peut innover !
Lire l'article

Data Science : Working on strings in R

In Data Science, when we analyse data we usually do not deal just with numbers. We often find ourselves to work on data in a string form. As defined by Per C...
Lire l'article

D(o)esign It Yourself, design with other

Nous assistons aujourd’hui à un retour du “Do It Yourself”. Le “Do it yourself” (DIY) est une appellation, qui peut être traduite en français par “Faites-le ...
Lire l'article

10h11.com utilise des cookies afin de vous proposer une expérience de navigation personnalisée.
Si vous désirez en savoir plus sur l’utilisation des cookies par 10h11, cliquez sur ce lien.

Refuser
Accepter