Skip links

Qui remportera la Coupe du Monde 2018 ?

Chez 10h11, nous avons de grands passionnés de football, dont notre directeur Data Science, William Brojanigo. La perspective d’un été de chaleur et de football lui a donné envie d’utiliser ses compétences afin d’établir un pronostic sur les cotes des équipes durant ce tournoi.

Un savant mélange de science et de sport !

Nous nous sommes inspirés d’une étude publiée en 2016 sur le site R-bloggers afin d’établir un pronostic des équipes victorieuses pour le Championnat d’Europe UEFA 2016.

Le principe est donc d’utiliser les informations données par les bookmakers – William a utilisé les cotes de 22 bookmakers (du 22 mars 2018) – des 32 équipes nationales participantes. Après avoir supprimé la marge de bénéfices des bookmarkers, nous les avons regroupé et classé suivant une moyenne commune puis nous avons fini par une déduction des capacités des équipes en utilisant le modèle de Bradley-Terry pour les comparaisons en duo.

Pour les plus curieux, nous vous détaillons un peu plus les étapes :

Première étape : On estime que les cotes proviennent de cotes que l’on pourrait qualifier de « vraies » auxquelles les 22 bookmakers avaient en moyenne ajouté 21.61 % de profits. Après un rapide calcul, nous avons pu obtenir les « véritables » cotes, appelées logs_odds (le logarithme du rapport des cotes) afin de continuer nos estimations.

Deuxième étape : Utilisation de l’approche Bradley-Terry

En utilisant les capacités des équipes, nous avons pu mettre en place une simulation du déroulement du tournoi en établissant quelle équipe gagnera et continuera jusqu’en finale. Afin d’assurer une meilleure précision dans nos estimations, nous avons élaboré 1 million de simulations de tournois.

Qu’est-ce que l’approche de Bradley-Terry ?

L’approche Bradley-Terry est assez proche de celle d’Elo rating – populaire dans le milieu sportif.Elle sert à décrire les résultats possibles lorsque deux éléments d’une paire sont comparés.

Dans ce cas de figure, elle s’appuie sur la probabilité qu’une équipe A bat une équipe B au vu des capacités et forces qu’on attribue aux deux équipes.

Qui remportera la Coupe du Monde 2018 ? 2

Pour résumer la formule :

Probabilité (l’équipe A bat la B) = (Compétences équipe A) / (Compétences équipe A + Compétences équipe B).

 

L’application :

L’approche proposée afin d’estimer les compétences des équipes est celle du “randomized block design”. Dans cette méthodologie, nous avons deux facteurs à prendre en compte :

Un facteur expérimental : on utilisera des effets fixes.→ Ce facteur sera le bookmaker car il nous faut déterminer s’il existe des différences répétitives entre les pronostics des bookmakers.

Un facteur de blocage : on utilisera des effets aléatoires.

→ Ce facteur sera l’équipe car c’est une source connue en termes de variabilité.

Les cotes seront donc modélisées avec un modèle à effet aléatoire spécifique pour les équipes et un modèle à effet fixe spécifique pour les bookmakers.

Et pour quels résultats ?

Après avoir testé 1 millions d’exécutions de tournois nous avons estimé les 3 équipes ayant le plus de chances de remporter la Coupe du Monde 2018 :

• L’Allemagne avec 15,62 %, grand gagnant de 2014• Le Brésil avec 15,05 %, leader du nombre de victoires• La France avec 12,42 %, grand favori lors de l’UEFA 2016

Nous avons aussi pu définir la finale la plus probable :

• Allemagne – Brésil avec (6,21 %)

Références:

Achim Zeileis, Christoph Leitner, Kurt Hornik (2016-15), Predictive bookmaker consensus model for the UEFA Euro 2016, Working Papers in Economics and Statistics.

Leitner, Christoph and Zeileis, Achim and Hornik, Kurt (2008) Who is Going to Win the EURO 2008? A Statistical Investigation of Bookmakers Odds. Research Report Series / Department of Statistics and Mathematics, 65. Department of Statistics and Mathematics, WU Vienna University of Economics and Business, Vienna.