Continuous Ranked Probability Score (CRPS)

learn menu
Di Joannes Vermorel, giugno 2016

Le previsioni probabilistiche assegnano una probabilità a ogni possibile futuro. Tuttavia, tutte le previsioni probabilistiche non sono altrettanto accurate e sono necessarie metriche per valutare l’accuratezza rispettiva di diverse previsioni probabilistiche. Semplici metriche di accuratezza come l’errore medio assoluto (MAE) o l’errore percentuale medio assoluto (MAPE) non sono direttamente applicabili alle previsioni probabilistiche. Il Continuous Ranked Probability Score (CRPS) generalizza l’errore medio assoluto al caso delle previsioni probabilistiche. Insieme all’entropia incrociata, il CPRS è una delle metriche di accuratezza più utilizzate quando sono coinvolte previsioni probabilistiche.

Panoramica

Il CRPS viene spesso utilizzato per valutare l’accuratezza rispettiva di due modelli di previsione probabilistica. In particolare, questa metrica può essere combinata con un processo di backtesting al fine di stabilizzare la valutazione dell’accuratezza mediante l’utilizzo di misurazioni multiple sullo stesso set di dati.

Questa metrica differisce notevolmente da metriche più semplici come il MAE a causa della sua espressione asimmetrica: mentre le previsioni sono probabilistiche, le osservazioni sono deterministiche. A differenza della funzione di perdita pinball, il CPRS non si concentra su un punto specifico della distribuzione di probabilità, ma considera l’intera distribuzione delle previsioni.

Definizione formale

Sia $${X}$$ una variabile casuale.

Sia $${F}$$ la funzione di distribuzione cumulativa (CDF) di $${X}$$, tale che $${F(y)=\mathbf{P}\left[X \leq y\right]}$$.

Sia $${x}$$ l’osservazione e $${F}$$ la CDF associata a una previsione probabilistica empirica.

Il CRPS tra $${x}$$ e $${F}$$ è definito come:

$${CRPS(F, x) = \int_{-\infty}^{\infty}\Big(F(y)- 𝟙(y - x)\Big)^2dy}$$

dove $${𝟙}$$ è la funzione gradino di Heaviside e indica una funzione gradino lungo la retta reale che assume:

  • il valore 1 se l’argomento reale è positivo o zero,
  • il valore 0 altrimenti.

Il CRPS è espresso nella stessa unità della variabile osservata. Il CRPS generalizza l’errore medio assoluto; infatti, si riduce all’errore medio assoluto (MAE) se la previsione è deterministica.

Proprietà note

Gneiting e Raftery (2004) mostrano che il continuous ranked probability score può essere scritto in modo equivalente come:

$${CRPS(F,x) = \mathbf{E}\Big[|X-x|\Big]-\frac{1}{2}\mathbf{E}\Big[|X-X^*|\Big]}$$

dove

  • $${X}$$ e $${X^*}$$ sono copie indipendenti di una variabile casuale lineare,
  • $${X}$$ è la variabile casuale associata alla funzione di distribuzione cumulativa $${F}$$,
  • $${\mathbf{E}[X]}$$ è il valore atteso di $${X}$$.

Valutazione numerica

Da un punto di vista numerico, un modo semplice per calcolare il CPRS consiste nel suddividere l’integrale originale in due integrali su confini ben scelti per semplificare la funzione gradino di Heaviside, ottenendo:

$${CRPS(F, x) = \int_{-\infty}^x F(y)^2dy + \int_x^{\infty}\Big(F(y)- 1\Big)^2dy}$$

In pratica, poiché $$F$$ è una distribuzione empirica ottenuta attraverso un modello di previsione, la corrispondente variabile casuale $${X}$$ ha un supporto compatto, il che significa che ci sono solo un numero finito di punti in cui $${\mathbf{P}[X = x] \gt 0}$$. Pertanto, gli integrali possono essere trasformati in somme finite discrete.

Riferimenti

Gneiting, T. e Raftery, A. E. (2004). Strictly proper scoring rules, prediction, and estimation. Technical Report no. 463, Department of Statistics, University of Washington, Seattle, Washington, USA.