Continuous Ranked Probability Score (CRPS)

learn menu
Par Joannes Vermorel, juin 2016

Les prévisions probabilistes attribuent une probabilité à chaque futur possible. Cependant, toutes les prévisions probabilistes ne sont pas également précises, et des métriques sont nécessaires pour évaluer la précision respective des différentes prévisions probabilistes. Les métriques de précision simples telles que l’EMA (Erreur Moyenne Absolue) ou l’EMPA (Erreur Moyenne Pourcentage Absolue) ne sont pas directement applicables aux prévisions probabilistes. Le Continuous Ranked Probability Score (CRPS) généralise l’EMA au cas des prévisions probabilistes. Avec l’entropie croisée, le CRPS est l’une des métriques de précision les plus utilisées lorsque des prévisions probabilistes sont impliquées.

Aperçu

Le CRPS est fréquemment utilisé pour évaluer la précision respective de deux modèles de prévision probabilistes. En particulier, cette métrique peut être combinée à un processus de backtesting afin de stabiliser l’évaluation de la précision en exploitant plusieurs mesures sur le même ensemble de données.

Cette métrique diffère notablement des métriques plus simples telles que l’EMA en raison de son expression asymétrique : tandis que les prévisions sont probabilistes, les observations sont déterministes. Contrairement à la fonction de perte flippeur, le CRPS ne se concentre pas sur un point spécifique de la distribution de probabilité, mais considère la distribution des prévisions dans son ensemble.

Définition formelle

Soit $${X}$$ une variable aléatoire.

Soit $${F}$$ la fonction de distribution cumulative (FDC) de $${X}$$, telle que $${F(y)=\mathbf{P}\left[X \leq y\right]}$$.

Soit $${x}$$ l’observation, et $${F}$$ la FDC associée à une prévision probabiliste empirique.

Le CRPS entre $${x}$$ et $${F}$$ est défini comme suit :

$${CRPS(F, x) = \int_{-\infty}^{\infty}\Big(F(y)- 𝟙(y - x)\Big)^2dy}$$

où $${𝟙}$$ est la fonction échelon de Heaviside et représente une fonction échelon le long de la droite réelle qui prend les valeurs suivantes :

  • la valeur de 1 si l’argument réel est positif ou nul,
  • la valeur de 0 sinon.

Le CRPS est exprimé dans la même unité que la variable observée. Le CRPS généralise l’erreur absolue moyenne ; en fait, il se réduit à l’erreur absolue moyenne (MAE) si la prévision est déterministe.

Propriétés connues

Gneiting et Raftery (2004) montrent que le score de probabilité classé continu peut être écrit de manière équivalente comme suit :

$${CRPS(F,x) = \mathbf{E}\Big[|X-x|\Big]-\frac{1}{2}\mathbf{E}\Big[|X-X^*|\Big]}$$

  • $${X}$$ et $${X^*}$$ sont des copies indépendantes d’une variable aléatoire linéaire,
  • $${X}$$ est la variable aléatoire associée à la fonction de répartition cumulative $${F}$$,
  • $${\mathbf{E}[X]}$$ est la valeur attendue de $${X}$$.

Évaluation numérique

D’un point de vue numérique, une façon simple de calculer le CRPS consiste à décomposer l’intégrale d’origine en deux intégrales sur des bornes bien choisies pour simplifier la fonction échelon de Heaviside, ce qui donne :

$${CRPS(F, x) = \int_{-\infty}^x F(y)^2dy + \int_x^{\infty}\Big(F(y)- 1\Big)^2dy}$$

En pratique, étant donné que $$F$$ est une distribution empirique obtenue à partir d’un modèle de prévision, la variable aléatoire correspondante $${X}$$ a un support compact, ce qui signifie qu’il n’y a qu’un nombre fini de points où $${\mathbf{P}[X = x] \gt 0}$$. Ainsi, les intégrales peuvent être transformées en sommes finies discrètes.

Références

Gneiting, T. et Raftery, A. E. (2004). Strictly proper scoring rules, prediction, and estimation. Rapport technique no. 463, Département de statistique, Université de Washington, Seattle, Washington, États-Unis.