Continuous Ranked Probability Score (CRPS)

learn menu
Por Joannes Vermorel, junio de 2016

Los pronósticos probabilísticos asignan una probabilidad a cada posible futuro. Sin embargo, no todos los pronósticos probabilísticos son igualmente precisos, y se necesitan métricas para evaluar la precisión respectiva de los distintos pronósticos probabilísticos. Métricas de precisión simples como el MAE (Error Absoluto Medio) o el MAPE (Error Porcentual Absoluto Medio) no son directamente aplicables a los pronósticos probabilísticos. El Continuous Ranked Probability Score (CRPS) generaliza el MAE al caso de los pronósticos probabilísticos. Junto con la entropía cruzada, el CPRS es una de las métricas de precisión más utilizadas en los pronósticos probabilísticos.

Descripción general

El CRPS se utiliza con frecuencia para evaluar la precisión respectiva de dos modelos de pronóstico probabilístico. En particular, esta métrica se puede combinar con un proceso de backtesting para estabilizar la evaluación de precisión mediante el aprovechamiento de múltiples mediciones sobre el mismo conjunto de datos.

Esta métrica difiere notablemente de métricas más simples como el MAE debido a su expresión asimétrica: mientras que los pronósticos son probabilísticos, las observaciones son determinísticas. A diferencia de la función de pérdida pinball, el CPRS no se centra en ningún punto específico de la distribución de probabilidad, sino que considera la distribución de los pronósticos en su conjunto.

Definición formal

Sea $${X}$$ una variable aleatoria.

Sea $${F}$$ la función de distribución acumulativa (CDF) de $${X}$$, tal que $${F(y)=\mathbf{P}\left[X \leq y\right]}$$.

Sea $${x}$$ la observación y $${F}$$ la CDF asociada con un pronóstico probabilístico empírico.

El CRPS entre $${x}$$ y $${F}$$ se define como:

$${CRPS(F, x) = \int_{-\infty}^{\infty}\Big(F(y)- 𝟙(y - x)\Big)^2dy}$$

donde $${𝟙}$$ es la función escalón de Heaviside y denota una función escalón a lo largo de la recta real que toma los siguientes valores:

  • el valor de 1 si el argumento real es positivo o cero,
  • el valor de 0 en caso contrario.

El CRPS se expresa en la misma unidad que la variable observada. El CRPS generaliza el error absoluto medio; de hecho, se reduce al error absoluto medio (MAE) si el pronóstico es determinístico.

Propiedades conocidas

Gneiting y Raftery (2004) muestran que el continuous ranked probability score se puede escribir de manera equivalente como:

$${CRPS(F,x) = \mathbf{E}\Big[|X-x|\Big]-\frac{1}{2}\mathbf{E}\Big[|X-X^*|\Big]}$$

donde

  • $${X}$$ y $${X^*}$$ son copias independientes de una variable aleatoria lineal,
  • $${X}$$ es la variable aleatoria asociada a la función de distribución acumulativa $${F}$$,
  • $${\mathbf{E}[X]}$$ es el valor esperado de $${X}$$.

Evaluación numérica

Desde una perspectiva numérica, una forma sencilla de calcular CPRS consiste en descomponer la integral original en dos integrales en límites bien elegidos para simplificar la función escalón de Heaviside, lo que da:

$${CRPS(F, x) = \int_{-\infty}^x F(y)^2dy + \int_x^{\infty}\Big(F(y)- 1\Big)^2dy}$$

En la práctica, dado que $$F$$ es una distribución empírica obtenida a través de un modelo de pronóstico, la variable aleatoria correspondiente $${X}$$ tiene un soporte compacto, lo que significa que solo hay un número finito de puntos donde $${\mathbf{P}[X = x] \gt 0}$$. Por lo tanto, las integrales se pueden convertir en sumas finitas discretas.

Referencias

Gneiting, T. y Raftery, A. E. (2004). Strictly proper scoring rules, prediction, and estimation. Informe técnico no. 463, Departamento de Estadística, Universidad de Washington, Seattle, Washington, EE. UU.