Espace client
Data Science, Intelligence Artificielle

Peut-on prédire la qualité d’un vin ?

Nos équipes techniques étant principalement basées à Bordeaux, c’est tout naturellement que nous sommes amenés à manipuler les données liées au vin. En cette période de vendanges, nous vous proposons un petit exercice réalisé il y a quelques mois. Le réchauffement des températures apportant de grandes modifications dans le monde du vin, que ce soit en terme de qualité ou d’organisation, il est plus difficile pour les vignerons et les consommateurs de se projeter sur un futur millésime. Nous avons donc voulu savoir s’il était possible de prédire précisément la qualité d’un vin. Cette analyse a été conduite sur 7 appellations pour le moment. Nous allons nous concentrer ici sur les 2 premières appellations dont la relation température / note est la plus forte.
LES DONNÉES

Nous avons croisé l’historique de température de chaque appellation avec l’historique des notes Robert Parker des vins concernés.

L'OBJECTIF

Nous voulons vérifier la relation entre la température au cours d’une année sur un millésime et la note finale attribuée au vin.

LES FREINS

Certaines données météo, ainsi que certaines données Parker nous manquent pour pouvoir réaliser des analyses plus fines encore.

Les 7 appellations sélectionnées

  1. Margaux (FRA)
  2. Barsac/Sauternes (FRA)
  3. South-Châteauneuf du Pape (FRA)
  4. Barolo (ITA)
  5. Ribera del Duero (SPA)
  6. Barbaresco (ITA)
  7. Pomerol (FRA)

Pourquoi avoir choisi ces appellations ?

  • Elles se situent toutes dans l’hémisphère nord (elles ont donc des caractéristiques assez proches concernant la donnée météo) ;
  • Nous avons trouvé un nombre de notes suffisant selon le “Parker’s 100-point rating system” pour les millésimes de ces appellations ;
  • D’un point de vue géographique, ces appellations ne sont pas très étendues. Cela nous permet de sélectionner une coordonnée météo crédible pour généraliser à l’ensemble des châteaux de l’appellation concernée (coordonnées géographiques calculées via le site : http://www.geomidpoint.com/).

Les Data Sets

  1. Les notes selon le “Parker’s 100-point rating system” (PI) pour chaque appellation, à partir du millésime 1970 juqu’au 2013 (selon la disponibilité). 
    https://www.robertparker.com/
  2. Les températures moyennes de la saison de croissance (TMSC) de chaque appellation (période 01 avril – 31 octobre), à partir du millésime 1970 jusqu’au 2013 (selon disponibilité).
    https://developer.forecast.io/

La méthodologie

Pour mener ce travail d’un point de vue méthodologique, nous nous sommes appuyés sur les travaux de l’excellent Gregory V. Jones – Past and Future Impacts of Climate Change on Wine Quality // Department of Geography, Southern Oregon University – 2006.

Les résultats

Pour finir cette première étape d’analyse, nous avons pu mettre en évidence 2 appellations pour lesquelles la relation température / note est considérée comme pertinente : Barbaresco et Pomerol. En effet, les 5 autres appellations n’obtiennent que des pourcentages de significativité statistique oscillant entre 2 et 60 %, ce qui est insuffisant pour appliquer ce modèle statistique avec pertinence.

POMEROL

Données disponibles (croisement PI-TMSC) : 38

Graphique historique “notes Parker” sur la période considérée :

Notes prédites

Pour l’appellation Pomerol, avec les données à notre disposition, nous pouvons mettre en évidence une relation intéressante entre TMSC et PI : nous pouvons donc envisager de calculer la qualité des millésimes futurs en fonction d’une TMSC spécifique.

En analysant ces données, nous avons vérifié que la TMSC a une probabilité suffisante pour la considérer comme pertinente pour calculer PI. En particulier, la TMSC est représentée par la variable “ temp ” dans l’équation de deuxième dégré où, dans ce cas, nous avons :

  • “ temp ” est significative au 85,97%
  • “ temp2 ” est significative au 84,22%

Nous observons qu’en considérant nos sets de données, les variables explicatives “ temp ” et “ temp2 ” (c’est à dire, la TMSC) semblent être suffisamment significatives pour déterminer les notes Parker pour cette appellation.

Nous calculons donc la note de Parker en fonction de la variation de valeur de la TMSC :

Dans le graphique au-dessus nous remarquons que la température TMSC optimale prédite pour l’appellation Pomerol est de 17.97 °C.

L’importance de cette valeur devient claire lorsque nous la comparons au TMSC moyen sur le long terme (1970-2013) : TMSCM. Dans ce cas, nous obtenons une TMSCM de 17.02 °C, c’est à dire à peu près un dégré de moins que la température optimale prédite. Si nous calculons maintenant TMSCM unqiuement pour les 10 dernières années (2004-2013) nous trouvons une valeur plus élevée que celle calculée sur la période 1970-2013 : 17.53 °C, une valeur plus proche à la température TMSC optimale prédite par notre modèle. Nous pouvons donc observer que la température TMSC moyenne dans l’appellation Pomerol a pratiquement augmenté d’un demi-dégré.

BARBARESCO

Données disponibles (croisement PI-TMSC) : 36

Graphique historique “notes Parker” sur la période considérée :

Notes prédites

Pour l’appellation Barbaresco, avec les données à notre disposition, nous pouvons mettre en évidence une bonne relation entre TMSC et PI. Nous pouvons donc envisager de calculer la qualité des millésimes futurs en fonction d’une TMSC spécifique.

En analysant ces données, nous avons vérifié que TMSC a une probabilité suffisante pour la considérer comme pertinente pour calculer PI. En particulier, TMSC est représenté par la variable “ temp ” dans l’équation de deuxième dégré où, dans ce cas, nous avons :

  • “ temp ” est significative au 90,25%
  • “ temp2 ” est significative au 91,04%

Du coup, nous voyons que, en considérant nos sets de données, les variables explicatives “ temp ” et “ temp2 ” (c’est à dire, TMSC) semblent être suffisamment significatives pour déterminer les notes Parker pour cette appellation.

Nous essayons donc de calculer la note Parker en fonction de la variation de valeur de TMSC :

Nous remarquons alors un comportement étrange de notre modèle vis à vis de cette appellation : nous allons avoir des notes élevées pour des valeurs de TMSC progressivement plus basses que 16.73°C, mais, en même temps, pour des valeurs de TMSC progressivement plus hautes que 16.73°C. Ce résultat est très pertinent d’un point de vue mathématique. Toutefois, il paraît plus difficile d’un point de vue “pratique” d’en tirer un résultat valide.  

Nous pourrions expliquer ce comportement simplement au travers de la donnée que nous avons à notre disposition. Comme pour toutes les autres appellations, nous avons eu à notre disposition un échantillon non exhaustif afin de nous aider à tirer des conclusions (36 observations dans ce cas spécifique). Ce dataset présente une particularité qui nous pénalise pour ajuster notre modèle par rapport aux données observées. Fréquemment, nous avons deux millésimes différents avec la même note, mais deux valeurs de TMSC opposés : une valeur très élevée dans un premier cas, et une valeur très basse dans un deuxième.
Par exemple :
Millésime 1979 : note = 89, TMSC = 15.86 °C  // Millésime 1986 : note = 89, TMSC = 18.10 °C

Notre conclusion

Il serait intéressant de poursuivre cette première étape d’analyse par la prédiction de la note d’un château au sein même d’une appellation. En effet, beaucoup de vins, et notamment sur l’appellation Pomerol, sont vendus à des prix très élevés. Cette analyse prédictive permettrait d’apporter une valeur mathématique tangible aux acheteurs en quête de vins rares, en supplément de la valeur intangible que certains grands châteaux travaillent avec brio.

0 / 5 5
ESPACE CLIENT