Espace client
Datascience

Prédire la qualité d’un millésime, selon le “Parker’s rating system” et l’historique météo ?

Dans le rendu ci-dessous, nous mettons à votre disposition l’ensemble de l’analyse faite sur les 7 appellations. Nous vous invitons à vous concentrer sur les 2 premières appellations dont la relation température / note est la plus forte pour calculer la température optimale de l’appellation spécifique.

Data :

Nous avons simplement croisé l’historique de température sur chaque appellation avec l’historique des notes Parker’s.

L’objectif :

Vérifier la relation entre la température au cours d’une année sur un millésime et la note finale attribuée au vin.

Difficultés rencontrés :

Certaines données météo et des données de Parker’s nous manquent pour pouvoir réaliser des analyses encore plus fines.

Sélection de 7 appellations :

  1. Margaux (FRA)
  2. Barsac/Sauternes (FRA)
  3. South-Châteauneuf du Pape (FRA)
  4. Barolo (ITA)
  5. Ribera del Duero (SPA)
  6. Barbaresco (ITA)
  7. Pomerol (FRA)

Motivations dans le choix des appellations :

  • Elles se situent toutes dans l’hémisphère nord (du coup, elles ont caractéristiques assez proche concernant la donnée météo) ;
  • Nous avons trouvé un nombre de notes suffisant selon le “Parker’s 100-point rating system” relatives aux millésimes de ces appellations ;
  • D’un point de vue géographique, ces appellations ne sont pas très étendues. Cela nous permet de sélectionner une coordonnée météo crédible pour généraliser à l’ensemble des châteaux de l’appellation concernée (coordonnées géographiques calculées via le site : http://www.geomidpoint.com/).

Data Sets :

  1. Les notes selon le “Parker’s 100-point rating system” (PI) pour chaque appellation, à partir du millésime 1970 au 2013 (selon la disponibilité). site : https://www.erobertparker.com/entrance.aspx
  2. Les températures moyennes de la saison de croissance (TMSC) de chaque appellation (période 01 avril – 31 octobre), à partir du millésime 1970 au 2013 (selon disponibilité). Site : “The Dark Sky Forecast API” (1000 requêtes gratuites chaque jour). https://developer.forecast.io/

Méthodologie – algorithme :

Pour mener ce travail d’un point de vue méthodologique, nous nous sommes appuyés sur les travaux de l’excellent Gregory V. Jones – Past and Future Impacts of Climate Change on Wine Quality // Department of Geography, Southern Oregon University – 2006.

Résultats :

Pour finir cette première étape d’analyse, nous avons pu mettre en évidence 2 appellations pour lesquelles la relation température / note est considérée comme pertinente : Barbaresco et Pomerol. En effet, les 5 autres appellations n’arrivent qu’à des pourcentages de significativité statistique oscillant entre 2 et 60 %, ce qui est insuffisant pour appliquer ce modèle statistique avec pertinence.

Dans le rendu ci-dessous, nous mettons à votre disposition l’ensemble de l’analyse. Nous vous invitons tout de même à vous concentrer sur les 2 premières appellations dont la relation température / note est plus forte pour calculer la température optimale de l’appellation spécifique.

— Pomerol :

Données disponibles (croisement PI-TMSC) : 38

Graphique historique “notes Parker” sur la période considérée :

Notes prédites :

Pour l’appellation Pomerol, avec les données à notre disposition, nous pouvons mettre en évidence une relation intéressante entre TMSC et PI : du coup, nous pouvons envisager de calculer la qualité de millésimes futurs en fonction d’une TMSC spécifique.

 

En analysant ces données, nous avons vérifié que TMSC a une probabilité suffisante pour la considérer comme pertinente pour calculer PI. En particulier, TMSC est représenté par la variable “ temp ” dans l’équation de deuxième dégré où, dans ce cas, nous avons :

 

  • “ temp ” est significative au 85,97%
  • “ temp2 ” est significative au 84,22%

 

Nous observons qu’en considérant nos sets de données, les variables explicatives “ temp ” et “ temp2  » (c’est à dire, TMSC) semblent être suffisamment significatives pour déterminer les notes Parker pour cette appellation.

Nous essayons du coup de calculer la note de Parker en fonction au range de valeur de TMSC :

 

Dans le graphique au-dessus nous remarquons que la température TMSC optimale prédite pour l’appellation Pomerol est de 17.97 °C.

 

L’importance de cette valeur devient claire quand nous le comparons au TMSC moyen du long terme (1970-2013), TMSCM : dans ce cas là, nous obtenons que TMSCM est de 17.02 °C, c’est à dire à peu près un dégré en moins par rapport à la température optimale prédite. Si maintenant nous essayons de calculer TMSCM seulement pour les 10 dernières années (2004-2013) nous trouvons une valeur plus élevée que celle calculée sur la période 1970-2013 : 17.53 °C, une valeur plus proche à la température TMSC optimale prédite dans notre modèle. Nous pouvons donc observer que la température TMSC moyenne dans l’appellation Pomerol a pratiquement augmenté d’un demi dégré.

–Barbaresco :

Données disponibles (croisement PI-TMSC) : 36

Graphique historique “notes Parker” sur la période considérée :

Notes prédites :

Pour l’appellation Barbaresco, avec les données à notre disposition, nous pouvons mettre en évidence une bonne relation entre TMSC et PI : du coup, nous pouvons envisager de calculer la qualité de millésimes futurs en fonction d’une TMSC spécifique.

 

En analysant ces données, nous avons vérifié que TMSC a une probabilité suffisante pour la considérer comme pertinente pour calculer PI. En particulier, TMSC est représenté par la variable “ temp ” dans l’équation de deuxième dégré où, dans ce cas, nous avons :

 

  • “ temp ” est significative au 90,25%
  • “ temp2 ” est significative au 91,04%

 

Du coup, nous voyons que, en considérant nos sets de données, les variables explicatives “ temp ” et “ temp2  » (c’est à dire, TMSC) semblent être suffisamment significatives pour déterminer les notes Parker pour cette appellation.

Nous essayons du coup de calculer la note de Parker en fonction au range de valeur de TMSC :

Cependant, dans le graphique au-dessus nous remarquons un comportement étrange de notre modèle vis à vis de cette appellation, l’appellation Barbaresco : nous allons avoir des notes élevées pour des valeurs de TMSC progressivement plus basse de 16.73°C, mais, dans le même temps, pour des valeurs de TMSC progressivement plus haut de 16.73°C. Ce résultat démontre une bonne confirmation d’un point de vue mathématique, mais d’un point de vue réelle (c’est à dire, considérer la qualité du vin en fonction de la température) il paraît difficile pour nos équipes d’en tirer un résultat valide.

Nous pourrions expliquer ce comportement simplement avec la donnée à notre disposition. Comme pour toutes les autres appellations, pour l’appellation Barberesco, nous avons eu à disposition un échantillon non exhaustif afin de nous aider pour en tirer des conclusions (36 observations dans ce cas spécifique). Ce data set présente une particularité qui ne nous aide pas à ajuster notre modèle par rapport aux données observées. Fréquemment, nous avons pour deux millésimes différents avec la même note, mais deux valeurs de TMSC opposés : une valeur très élevée dans un premier cas, et un valeur très basse dans un deuxième (évidement “très élevé / très bas” par rapport au range de valeurs vu dans cette appellation, c’est à dire Min = 15.29 °C, Max = 18.46 °C). Pour exemple :

Millésime 1979 : note = 89, TMSC = 15.86 °CMillésime 1986 : note = 89, TMSC = 18.10 °C

–Margaux :

Données disponibles (croisement PI-TMSC) : 38

Graphique historique “notes Parker” sur la période considérée :

Notes prédites :

Pour l’appellation Margaux, avec les données à notre disposition, nous ne pouvons pas mettre en évidence une relation solide entre TMSC et PI : du coup, nous ne pouvons pas calculer précisément la qualité de millésimes futurs en fonction d’une TMSC spécifique.

En analysant ces données, nous avons vérifié que TMSC a une probabilité trop faible pour être pertinent pour calculer PI. En particulier, TMSC est représenté par la variable “ temp ” dans l’équation de deuxième dégré où, dans ce cas, nous avons :

 

  • “ temp ” est significative au 21,2%
  • “ temp2 ” est significative au 25,34%

 

Ainsi, nous observons qu’en considérant nos sets de données, les variables explicatives “ temp ” et “ temp2  » (c’est à dire, TMSC) ne sont pas significatives pour déterminer les notes Parker pour cette appellation et, par conséquent, elles ne pourront pas donner des résultats valides.

Barsac / Sauternes :

Données disponibles (croisement PI-TMSC) : 38

Graphique historique “notes Parker” sur la période considérée :

Notes prédites :

Pour l’appellation Barsac/Sauternes, avec les données à notre disposition, nous ne pouvons pas mettre en évidence une relation solide entre TMSC et PI : du coup, nous ne pouvons pas calculer précisément la qualité de millésimes futurs en fonction d’une TMSC spécifique.

En analysant ces données, nous avons vérifié que TMSC a une probabilité trop faible d’être pertinent pour calculer PI. En particulier, TMSC est représenté par la variable “ temp ” dans l’équation de deuxième dégré où, dans ce cas, nous avons :

 

  • “ temp ” est significative au 28,19%
  • “ temp2 ” est significative au 21,16%

 

Nous observons qu’en considérant nos sets de données, les variables explicatives “ temp ” et “ temp2  » (c’est à dire, TMSC) ne sont pas significatives pour déterminer les notes Parker pour cette appellation et, par conséquent, elles ne pourront pas donner des résultats valides.

South-Châteauneuf du Pape :

Données disponibles (croisement PI-TMSC) : 37

Graphique historique “notes Parker” sur la période considérée :

Notes prédites :

Pour l’appellation South-Châteauneuf du Pape, avec les données à notre disposition, nous ne pouvons pas mettre en évidence une relation solide entre TMSC et PI : du coup, nous ne pouvons pas calculer précisément la qualité de millésimes futurs en fonction d’une TMSC spécifique.

En analysant ces données, en effet, nous avons vérifié que TMSC a une probabilité insuffisante pour être pertinente pour calculer PI. En particulier, TMSC est représenté par la variable “ temp ” dans l’équation de deuxième dégré où, dans ce cas, nous avons :

 

  • “ temp ” est significative au 47,79%
  • “ temp2 ” est significative au 48,86%

 

Du coup, nous voyons que, en considérant nos sets de données, les variables explicatives “ temp ” et “ temp2  » (c’est à dire, TMSC) ne sont pas suffisamment significatives pour déterminer les notes Parker pour cette appellation et, par conséquent, elles ne pourront pas donner des résultats valides.

Barolo :

Données disponibles (croisement PI-TMSC) : 35

Graphique historique “notes Parker” sur la période considérée :

Notes prédites :

Pour l’appellation Barolo, avec les données à notre disposition, nous ne pouvons pas mettre en évidence une relation solide entre TMSC et PI : du coup, nous ne pouvons pas calculer précisément la qualité de millésimes futurs en fonction d’une TMSC spécifique.

En analysant ces données, en effet, nous avons vérifié que TMSC a une probabilité insuffisante pour calculer PI. En particulier, TMSC est représenté par la variable “ temp ” dans l’équation de deuxième dégré où, dans ce cas, nous avons :

 

  • “ temp ” est significative au 3,73%
  • “ temp2 ” est significative au 2,51%

 

Du coup, nous observons qu’en considérant nos sets de données, les variables explicatives “ temp ” et “ temp2  » (c’est à dire, TMSC) ne sont pas du tout significatives pour déterminer les notes Parker pour cette appellation et, par conséquent, elles ne pourront pas donner des résultats valides.

Ribera del Duero :

Données disponibles (croisement PI-TMSC) : 34

Graphique historique “notes Parker” sur la période considérée :

Notes prédites :

Pour l’appellation Ribera del Duero, avec les données à notre disposition, nous ne pouvons pas mettre en évidence une relation solide entre TMSC et PI : du coup, nous ne pouvons pas calculer précisément la qualité de millésimes futurs en fonction d’une TMSC spécifique.

En analysant ces données, nous avons vérifié que TMSC a une bonne probabilité insuffisante pour être pertinente pour calculer PI. En particulier, TMSC est représenté par la variable “ temp ” dans l’équation de deuxième dégré où, dans ce cas, nous avons :

 

  • “ temp ” est significative au 60,78%
  • “ temp2 ” est significative au 60,90%

 

Du coup, nous observons qu’en considérant nos sets de données, les variables explicatives “ temp ” et “ temp2  » (c’est à dire, TMSC) ne sont pas encore suffisamment significatives pour déterminer les notes Parker pour cette appellation et, par conséquent, elles ne pourront pas donner des résultats valides.

 

Conclusion de l’analyse :

Il serait intéressant de poursuivre cette première étape d’analyse par la prédiction de la note d’un château au sein même d’une appellation. En effet, beaucoup de vin, et notamment sur Pomerol, sont vendus à des prix très élevés. Cette analyse prédictive permettrait d’apporter une valeur mathématique tangible aux acheteurs en quête de vin rare en supplément de la valeur intangible que certains grands châteaux travaillent avec brio.

ESPACE CLIENT