Hace tres años, publicamos [Sobreajuste: cuando la medida de precisión falla](/blog/2009/4/22/overfitting-when-accuracy-measure-goes-wrong/), sin embargo, el sobreajuste está lejos de ser la única situación en la que las simples medidas de precisión pueden ser muy engañosas. Hoy nos enfocamos en una situación muy propensa a errores: la demanda intermitente, que se encuentra típicamente al analizar las ventas a nivel de tienda (o comercio electrónico).

Creemos que este único problema ha impedido que la mayoría de los minoristas adopten sistemas de pronóstico avanzados a nivel de tienda. Como ocurre con la mayoría de los problemas de pronóstico, es sutil, es contraintuitivo y algunas empresas cobran mucho por ofrecer respuestas deficientes a la pregunta.

Ilustración de ventas intermitentes

Las métricas de error más populares en la previsión de ventas son el Error Absoluto Medio (MAE) y el Error Porcentual Absoluto Medio (MAPE). Como guía general, sugerimos utilizar el MAE, ya que el MAPE se comporta muy mal cuando las series de tiempo no son suaves, es decir, todo el tiempo, en lo que respecta a los minoristas. Sin embargo, hay situaciones en las que el MAE también se comporta mal. Las bajas ventas caen en esas situaciones.

Veamos la ilustración anterior. Tenemos un artículo vendido durante 3 días. El número de unidades vendidas en los primeros dos días es cero. En el tercer día, se vende una unidad. Supongamos que la demanda es, de hecho, exactamente de 1 unidad cada 3 días. Técnicamente hablando, es una distribución de Poisson con λ=1/3.

A continuación, comparamos dos modelos de pronóstico:

  • un modelo plano M a 1/3 cada día (la media).
  • un modelo plano Z a cero cada día.

En lo que respecta a la optimización de inventario, el modelo cero (Z) es muy perjudicial. Suponiendo que se utilizará un análisis de existencias de seguridad para calcular un punto de reorden, es muy probable que un pronóstico de cero produzca un punto de reorden también en cero, lo que causaría frecuentes faltantes de stock. Una métrica de precisión que favoreciera al modelo cero sobre pronósticos más razonables se comportaría bastante mal.

Veamos nuestros dos modelos en comparación con el MAPE (*) y el MAE.

  • M tiene un MAPE de 44%.
  • Z tiene un MAPE de 33%.
  • M tiene un MAE de 0.44.
  • Z tiene un MAE de 0.33.

(*) La definición clásica de MAPE implica una división por cero cuando el valor real es cero. Aquí asumimos que el valor real se reemplaza por 1 cuando es cero. Alternativamente, también podríamos haber dividido por el pronóstico (en lugar del valor real), o usar el sMAPE. Estos cambios no hacen ninguna diferencia: la conclusión de la discusión sigue siendo la misma.

En conclusión, aquí, según tanto el MAPE como el MAE, el modelo cero prevalece.

Sin embargo, se podría argumentar que esta es una situación simplista y que no refleja la complejidad de una tienda real. Esto no es del todo cierto. Hemos realizado pruebas de referencia en docenas de tiendas minoristas, y por lo general el modelo ganador (según el MAE o el MAPE) es el modelo cero - el modelo que siempre devuelve cero. Además, este modelo suele ganar por un margen cómodo sobre todos los demás modelos.

En la práctica, a nivel de tienda, confiar en el MAE o el MAPE para evaluar la calidad de los modelos de pronóstico es pedir problemas: la métrica favorece a los modelos que devuelven ceros; cuantos más ceros, mejor. Esta conclusión se aplica a casi todas las tiendas que hemos analizado hasta ahora (excepto los pocos artículos de alto volumen que no sufren este problema).

Los lectores que estén familiarizados con las métricas de precisión podrían proponer utilizar el Error Cuadrático Medio (MSE), que no favorecerá al modelo cero. Esto es cierto, sin embargo, el MSE cuando se aplica a datos erráticos - y las ventas a nivel de tienda son erráticas - no es numéricamente estable. En la práctica, cualquier valor atípico en el historial de ventas sesgará enormemente los resultados finales. Este tipo de problema es LA razón por la cual los estadísticos han estado trabajando tanto en estadísticas robustas en primer lugar. Aquí no hay almuerzo gratis.

¿Cómo evaluar entonces los pronósticos a nivel de tienda?

Nos llevó mucho, mucho tiempo, encontrar una solución satisfactoria al problema de cuantificar la precisión de los pronósticos a nivel de tienda. Antes de 2011, básicamente estábamos haciendo trampa. En lugar de mirar los puntos de datos diarios, cuando los datos de ventas eran demasiado escasos, normalmente pasábamos a agregados semanales (o incluso a agregados mensuales para datos extremadamente escasos). Al cambiar a períodos de agregación más largos, aumentábamos artificialmente los volúmenes de ventas por período, lo que hacía que el MAE fuera utilizable nuevamente.

El avance llegó solo hace unos meses a través de los cuantiles. En esencia, la iluminación fue: olvidemos los pronósticos, solo importan los puntos de reorden. Al tratar de optimizar nuestros pronósticos clásicos con respecto a las métricas X, Y o Z, estábamos tratando de resolver el problema equivocado.

¡Espera! ¿Cómo puedes decir que los pronósticos son irrelevantes si los puntos de reorden se calculan en función de los pronósticos?

No estamos diciendo que los pronósticos y la precisión de los pronósticos sean irrelevantes. Sin embargo, afirmamos que solo importa la precisión de los puntos de reorden en sí mismos. El pronóstico, o cualquier otra variable que se utilice para calcular los puntos de reorden, no puede evaluarse por sí solo. Solo la precisión de los puntos de reorden debe y debería evaluarse.

Resulta que existe una métrica para evaluar los puntos de reorden: es la función de pérdida pinball, una función que los estadísticos conocen desde hace décadas. La función de pérdida pinball es ampliamente superior no por sus propiedades matemáticas, sino simplemente porque se ajusta al compromiso del inventario: demasiado stock vs demasiados faltantes de stock.