Pronóstico Probabilístico (Supply Chain)

learn menu
Por Joannes Vermorel, noviembre de 2020

Un pronóstico se dice que es probabilístico, en lugar de determinista, si contiene un conjunto de probabilidades asociadas con todos los posibles resultados futuros, en lugar de señalar un resultado particular como “el” pronóstico. Los pronósticos probabilísticos son importantes siempre que la incertidumbre sea irreducible, lo cual casi siempre es el caso cuando se trata de sistemas complejos. Para las cadenas de suministro, los pronósticos probabilísticos son esenciales para tomar decisiones sólidas ante condiciones futuras inciertas. En particular, la demanda y el tiempo de entrega, dos aspectos clave del análisis de la cadena de suministro, se abordan mejor a través de pronósticos probabilísticos. La perspectiva probabilística se presta naturalmente a la priorización económica de las decisiones en función de sus rendimientos esperados pero inciertos. Una gran variedad de modelos estadísticos proporcionan pronósticos probabilísticos. Algunos son estructuralmente similares a sus contrapartes deterministas, mientras que otros son muy diferentes. Evaluar la precisión de un pronóstico probabilístico requiere métricas específicas, que difieren de sus contrapartes deterministas. La explotación de pronósticos probabilísticos requiere herramientas especializadas que difieren de sus contrapartes deterministas.

Muchos dados ilustrando pronósticos probabilísticos

Pronósticos deterministas vs. probabilísticos

La optimización de las cadenas de suministro se basa en la anticipación adecuada de eventos futuros. Numéricamente, estos eventos se anticipan a través de pronósticos, que abarcan una amplia variedad de métodos numéricos utilizados para cuantificar estos eventos futuros. A partir de la década de 1970, la forma más utilizada de pronóstico ha sido el pronóstico determinista de series de tiempo: una cantidad medida a lo largo del tiempo, por ejemplo, la demanda en unidades de un producto, se proyecta hacia el futuro. La sección pasada de la serie de tiempo es el dato histórico, la sección futura de la serie de tiempo es el pronóstico.

Promedio móvil como pronóstico determinista.
MA significa “promedio móvil”, no se comporta particularmente bien en series de tiempo dispersas.

Estos pronósticos de series de tiempo se denominan deterministas porque para cada punto en el futuro, el pronóstico proporciona un único valor que se espera que coincida lo más posible con el resultado futuro. De hecho, aunque el pronóstico es un valor único, se entiende ampliamente que el pronóstico tiene pocas posibilidades de ser perfectamente correcto. Los resultados futuros se desviarán del pronóstico. La adherencia del pronóstico determinista a sus resultados futuros se evalúa cuantitativamente a través de métricas de precisión, como el error cuadrático medio (MSE), por ejemplo.

Los pronósticos probabilísticos adoptan una perspectiva diferente sobre la anticipación de los resultados futuros. En lugar de producir un valor como el resultado “mejor”, el pronóstico probabilístico consiste en asignar una probabilidad a cada resultado posible. En otras palabras, todos los eventos futuros siguen siendo posibles, simplemente no son igualmente probables. A continuación se muestra la visualización de un pronóstico probabilístico de series de tiempo que muestra el “efecto escopeta”, que se observa típicamente en la mayoría de las situaciones del mundo real. Volveremos a visitar esta visualización con más detalle a continuación.

Un pronóstico probabilístico de demanda.
Un pronóstico probabilístico que ilustra una situación de alta incertidumbre.

Las series de tiempo, una cantidad medida a lo largo del tiempo, probablemente sean el modelo de datos más conocido y utilizado. Este modelo de datos se puede pronosticar tanto de manera determinista como probabilística. Sin embargo, existen muchos modelos de datos alternativos, típicamente más ricos, que también se prestan a pronósticos de ambos tipos. Por ejemplo, una empresa que repara motores de avión puede desear anticipar la lista exacta de repuestos que se necesitará para una próxima operación de mantenimiento. Esta anticipación puede tomar la forma de un pronóstico, pero no será un pronóstico de series de tiempo. El pronóstico determinista asociado con esta operación es la lista exacta de piezas y sus cantidades. Por el contrario, el pronóstico probabilístico es la probabilidad para cada combinación de piezas (incluidas las cantidades) de que esta combinación específica sea la necesaria para realizar las reparaciones.

Además, si bien el término “pronóstico” enfatiza una anticipación de algún tipo, la idea se puede generalizar a cualquier tipo de declaración inferida estadísticamente sobre un sistema, incluso para sus propiedades pasadas (pero desconocidas). La práctica de pronóstico estadístico surgió durante el siglo XX, antes del advenimiento de la perspectiva de aprendizaje estadístico más moderna, que abarca todas las extrapolaciones basadas en datos que se pueden realizar, independientemente de cualquier dimensión temporal. Por claridad, seguiremos usando el término “pronóstico” en lo siguiente, incluso si el aspecto temporal no siempre equivale a pasado conocido y futuro desconocido. Por ejemplo, una empresa puede desear estimar las ventas que se habrían realizado de un producto en una tienda si el producto no hubiera estado agotado ese día. La estimación es útil para cuantificar la magnitud del problema en términos de calidad de servicio. Sin embargo, como el evento es pasado, la cifra de ventas “real” nunca se observará. Sin embargo, suponiendo que aún no se haya observado trivialmente, la estimación estadística de la demanda pasada es un problema que está muy cerca de la estimación de la demanda futura.

Los pronósticos probabilísticos son más ricos en información que sus contrapartes deterministas. Mientras que el pronóstico determinista proporciona una “mejor estimación” del resultado futuro, no dice nada sobre las alternativas. De hecho, siempre es posible convertir un pronóstico probabilístico en su contraparte determinista tomando la media, la mediana, la moda, … de la distribución de probabilidad. Sin embargo, lo contrario no es cierto: no es posible recuperar un pronóstico probabilístico a partir de uno determinista.

Sin embargo, aunque los pronósticos probabilísticos son estadísticamente superiores a los pronósticos deterministas, siguen siendo poco utilizados en la cadena de suministro. Sin embargo, su popularidad ha aumentado constantemente en la última década. Históricamente, los pronósticos probabilísticos surgieron más tarde, ya que requieren significativamente más recursos informáticos. Aprovechar los pronósticos probabilísticos para fines de la cadena de suministro también requiere herramientas de software especializadas, que también suelen estar indisponibles.

Casos de uso de la cadena de suministro

Optimizar una cadena de suministro consiste en tomar la “decisión correcta” - en el punto actual en el tiempo - que abordará de manera más rentable una situación futura que solo se estima de manera imperfecta. Sin embargo, la incertidumbre asociada con los eventos futuros es en gran medida irreducible. Por lo tanto, la empresa necesita que la decisión sea robusta si la anticipación del evento futuro, es decir, el pronóstico, es imperfecta. Esto se ha hecho mínimamente desde mediados del siglo XX a través del análisis de stock de seguridad. Sin embargo, como veremos a continuación, además del interés histórico, ya no hay ninguna razón para favorecer los stocks de seguridad sobre las recetas numéricas “nativas” probabilísticas.

La perspectiva de pronóstico probabilístico adopta una postura radical hacia la incertidumbre: este enfoque intenta cuantificar la incertidumbre en la mayor medida posible. En la cadena de suministro, los costos tienden a concentrarse en los extremos estadísticos: es la demanda inesperadamente alta la que crea el faltante de stock, es la demanda inesperadamente baja la que crea la cancelación de inventario. En el medio, el inventario gira muy bien. Los pronósticos probabilísticos son, en términos simples, un intento de gestionar estas situaciones de baja frecuencia y alto costo que son omnipresentes en las cadenas de suministro modernas. Los pronósticos probabilísticos pueden y deben verse como un ingrediente fundamental de cualquier práctica de gestión de riesgos dentro de la cadena de suministro.

Muchos aspectos de las cadenas de suministro son particularmente adecuados para el pronóstico probabilístico, como:

  • demanda: prendas de vestir, accesorios, repuestos; así como muchos otros tipos de productos, tienden a estar asociados con una demanda errática y/o intermitente. Los lanzamientos de productos pueden ser un éxito o un fracaso. Las promociones de los competidores pueden canibalizar temporal y erráticamente grandes porciones de la cuota de mercado.
  • tiempo de entrega: las importaciones de ultramar pueden incurrir en una serie de retrasos en cualquier punto de la cadena (producción, transporte, aduanas, recepción, etc.). Incluso los proveedores locales pueden tener tiempos de entrega largos de forma poco frecuente si enfrentan un problema de faltante de stock. Los tiempos de entrega tienden a ser distribuciones de “cola gorda”.
  • rendimiento (alimentos frescos): la cantidad y la calidad de la producción de muchos productos frescos dependen de condiciones, como el clima, que están fuera del control de la empresa. El pronóstico probabilístico cuantifica estos factores para toda la temporada y ofrece la posibilidad de ir más allá del horizonte de relevancia de los pronósticos meteorológicos clásicos.
  • devoluciones (ecommerce): cuando un cliente solicita el mismo producto en tres tamaños diferentes, es muy probable que dos de esos tamaños sean devueltos. En general, aunque existen diferencias regionales significativas, los clientes tienden a aprovechar las políticas de devolución favorables cuando existen. Se debe evaluar la probabilidad de devoluciones para cada pedido.
  • desperdicios (aviación): las piezas de avión reparables, a menudo llamadas rotables, a veces no se pueden reparar. En este caso, la pieza se desecha, ya que no es adecuada para volver a montarse en una aeronave. Si bien generalmente no es posible saber de antemano si una pieza sobrevivirá a su reparación o no, se deben estimar las probabilidades de que la pieza se deseche.
  • existencias (venta al por menor B2C): los clientes pueden desplazar, dañar o incluso robar productos de una tienda minorista. Por lo tanto, el nivel de existencias electrónico es solo una aproximación de la disponibilidad real en el estante tal como la perciben los clientes. El nivel de existencias, tal como lo perciben los clientes, debe estimarse mediante un pronóstico probabilístico.

Esta breve lista ilustra que los ángulos elegibles para un pronóstico probabilístico superan con creces los únicos ángulos tradicionales de “pronóstico de demanda”. La optimización bien diseñada de una cadena de suministro requiere tener en cuenta todas las fuentes relevantes de incertidumbre. Si bien a veces es posible reducir la incertidumbre, como enfatiza la fabricación ajustada, generalmente hay compensaciones económicas involucradas y, como resultado, alguna cantidad de incertidumbre permanece irreducible.

Sin embargo, los pronósticos son simplemente opiniones educadas sobre el futuro. Si bien los pronósticos probabilísticos pueden considerarse opiniones notablemente detalladas, no son fundamentalmente diferentes de sus contrapartes deterministas en este sentido. El valor, en términos de cadena de suministro, de los pronósticos probabilísticos se encuentra en la forma en que esta estructura detallada se aprovecha para tomar decisiones más rentables. En particular, por lo general no se espera que los pronósticos probabilísticos sean más precisos que sus contrapartes deterministas si se utilizan métricas de precisión deterministas para evaluar la calidad de los pronósticos.

En defensa de la variabilidad

A pesar de lo que muchos enfoques de la cadena de suministro defienden, la variabilidad está aquí para quedarse, de ahí la necesidad de pronósticos probabilísticos. El primer error es creer que la variabilidad es necesariamente algo malo para una cadena de suministro; no lo es. El segundo error es creer que la variabilidad se puede eliminar mediante ingeniería; no se puede.

La variabilidad tiene implicaciones positivas para las cadenas de suministro en múltiples situaciones. Por ejemplo, en el lado de la demanda, la mayoría de los sectores están impulsados por la novedad, como la moda, los productos culturales, el lujo suave y duro, al igual que los negocios de “éxito o fracaso”. La mayoría de los nuevos productos no tienen éxito (fracasos), pero los que tienen éxito (éxitos) generan grandes ganancias. La variabilidad adicional es buena porque aumenta la probabilidad de ganancias excepcionales, mientras que las desventajas permanecen limitadas (en el peor de los casos, se cancela todo el inventario). La corriente interminable de nuevos productos lanzados al mercado garantiza la renovación constante de los “éxitos”, mientras que los antiguos están disminuyendo.

En el lado de la oferta, un proceso de abastecimiento que garantiza ofertas de precios altamente variables es superior, considerando todas las cosas, a un proceso alternativo que genera precios mucho más consistentes (es decir, menos variables). De hecho, se selecciona la opción de menor precio mientras que las demás se descartan. No importa si el precio promedio obtenido es bajo, lo que importa es descubrir fuentes de precios más bajos. Por lo tanto, el buen proceso de abastecimiento debe diseñarse para aumentar la variabilidad, por ejemplo, enfatizando la exploración rutinaria de nuevos proveedores en lugar de restringir el proceso de abastecimiento a los proveedores bien establecidos.

A veces, la variabilidad puede ser beneficiosa por razones más sutiles. Por ejemplo, si una marca es demasiado predecible en cuanto a sus operaciones promocionales, los clientes identifican el patrón y comienzan a retrasar su compra, ya que saben que se acerca una promoción y cuándo. La variabilidad, incluso la errática, de las actividades promocionales mitiga este comportamiento en cierta medida.

Otro ejemplo es la presencia de factores de confusión dentro de la propia cadena de suministro. Si los nuevos productos siempre se lanzan con una campaña de televisión y una campaña de radio, se vuelve estadísticamente difícil distinguir los impactos respectivos de la televisión y de la radio. Agregar variabilidad a la intensidad de la campaña respectiva según el canal garantiza que se pueda extraer más información estadística de esas operaciones posteriormente, lo que luego se puede convertir en ideas para una mejor asignación de los recursos de marketing.

Naturalmente, no toda la variabilidad es buena. La fabricación ajustada es correcta al enfatizar que, en el lado de la producción de la cadena de suministro, la variabilidad generalmente es perjudicial, especialmente cuando se trata de retrasos variables. De hecho, los procesos LIFO (último en entrar, primero en salir) pueden infiltrarse accidentalmente, lo que, a su vez, exacerba la variabilidad del tiempo de entrega. En esas situaciones, la variabilidad accidental debe ser eliminada mediante un mejor proceso, a veces mediante mejores equipos o instalaciones.

La variabilidad, incluso cuando es perjudicial, a menudo es irreducible. Como veremos en la siguiente sección, las cadenas de suministro se rigen por la ley de los números pequeños. Es ilusorio pensar que el nivel de la tienda se pueda predecir de manera confiable, desde una perspectiva determinista, mientras los clientes mismos no siempre saben lo que están a punto de comprar. Más en general, reducir la variabilidad siempre conlleva un costo (y reducirla aún más cuesta aún más), mientras que la reducción marginal de la variabilidad solo aporta rendimientos decrecientes. Por lo tanto, incluso cuando la variabilidad se puede reducir, para todos los efectos prácticos, rara vez se puede eliminar por completo debido a las implicaciones económicas.

La Ley de los Números Pequeños

La ley de los números pequeños de la cadena de suministro se puede enunciar como: los números pequeños prevalecen en todas partes a lo largo de la cadena. Esta ley observacional resulta de las economías de escala y algunas otras fuerzas que impulsan la mayoría de los aspectos estructurales de las cadenas de suministro:

  • Un proveedor que proporciona decenas de miles de unidades de materiales por día probablemente tendrá cantidades mínimas de pedido (MOQ) o descuentos por volumen que evitan que se realicen pedidos con demasiada frecuencia. El número de órdenes de compra transmitidas en un día determinado a un proveedor rara vez supera un número de un solo dígito.
  • Una fábrica que produce decenas de miles de unidades por día probablemente opere a través de grandes lotes de miles de unidades. La producción probablemente se empaquete en paletas completas. El número de lotes durante un día determinado es como máximo un número pequeño de dos dígitos.
  • Un almacén que recibe decenas de miles de unidades por día probablemente sea entregado por camiones, cada camión descargando toda su carga en el almacén. El número de entregas de camiones en un día determinado rara vez supera un número de dos dígitos, incluso para almacenes muy grandes.
  • Una tienda minorista que puede tener decenas de miles de unidades en stock probablemente distribuya su surtido en miles de referencias de productos distintos. El número de unidades en stock para cada producto rara vez supera un número de un solo dígito.

Naturalmente, al cambiar la unidad de medida, siempre es posible inflar los números. Por ejemplo, si en lugar de contar el número de paletas contamos el número de gramos de paletas, o su valor monetario en centavos de dólar estadounidense, aparecen números grandes. Sin embargo, la ley de los números pequeños debe entenderse con la noción de contar cosas desde una perspectiva de gestión de la cadena de suministro sensata. Si bien, en teoría, este principio puede parecer bastante subjetivo, no es el caso en la práctica, debido a las obvias practicidades discretas de las cadenas de suministro modernas: paquetes, cajas, paletas, contenedores, camiones…

Esta ley es de gran relevancia para la perspectiva de pronóstico probabilístico. En primer lugar, establece que los pronósticos discretos dominan en situaciones de cadena de suministro, es decir, el resultado que se anticipa (o se decide) es un número entero, en lugar de un número fraccionario. Los pronósticos probabilísticos son particularmente adecuados para situaciones discretas, porque se puede estimar una probabilidad para cada resultado discreto. En cambio, los pronósticos deterministas tienen dificultades con los resultados discretos. Por ejemplo, ¿qué se supone que significa que las ventas diarias esperadas de un producto sean de 1.3 unidades? Las unidades no se venden de forma fraccionaria. Si bien se pueden inferir interpretaciones “discretas” más sensatas a partir de esta afirmación, su contraparte probabilística (por ejemplo, 27% de probabilidad de 0 unidades de demanda, 35% de probabilidad de 1 unidad de demanda, 23% de probabilidad de 2 unidades de demanda, etc.) es mucho más directa, porque abarca la naturaleza discreta del fenómeno de interés.

En segundo lugar, aunque los pronósticos probabilísticos pueden parecer radicalmente más desafiantes en términos de recursos informáticos, esto no es realmente el caso en la práctica, precisamente debido a la ley de los números pequeños. De hecho, volviendo a las ventas diarias de productos discutidas anteriormente, no tiene sentido evaluar numéricamente las probabilidades de que la demanda supere las 100 unidades en un día determinado. Esas probabilidades se pueden redondear a cero, o a algún valor arbitrariamente pequeño. El impacto en la precisión numérica del modelo de cadena de suministro sigue siendo insignificante. Como regla general, es razonable considerar que los pronósticos probabilísticos requieren aproximadamente tres órdenes de magnitud más recursos informáticos que sus contrapartes deterministas. Sin embargo, a pesar de esta sobrecarga, los beneficios en términos de rendimiento de la cadena de suministro superan ampliamente el costo de los recursos informáticos.

Métricas de precisión para pronósticos probabilísticos

No importa lo que suceda, un pronóstico probabilístico razonablemente bien diseñado indica que de hecho había una probabilidad no nula de que ocurriera este resultado. Esto es intrigante porque a primera vista, puede parecer como si los pronósticos probabilísticos fueran de alguna manera inmunes a la realidad, al igual que un adivino que hace declaraciones proféticas vastamente ambiguas que nunca se pueden demostrar incorrectas, ya que el adivino siempre puede conjurar una explicación posterior sobre la forma correcta de interpretar las profecías después del hecho. En realidad, existen múltiples formas de evaluar cuantitativamente la calidad de un pronóstico probabilístico. Algunas de estas formas son métricas similares en espíritu a las métricas utilizadas para evaluar la precisión de los pronósticos deterministas. Algunas otras formas divergen en formas más radicales y más profundas en comparación con la perspectiva determinista.

Veamos brevemente cuatro enfoques distintos para evaluar la precisión de un pronóstico probabilístico:

  • la función de pérdida de pinball
  • el puntaje de probabilidad clasificado continuo (CRPS)
  • la verosimilitud bayesiana
  • la perspectiva generativa adversarial

La función de pérdida de pinball proporciona una métrica de precisión para una estimación de cuantil que se deriva de un pronóstico probabilístico. Por ejemplo, si deseamos evaluar la cantidad de stock que tiene un 98% de probabilidad de ser mayor o igual a la demanda del cliente en una tienda para un determinado producto, esta cantidad se puede obtener directamente de los pronósticos probabilísticos simplemente sumando las probabilidades a partir de 0 unidades de demanda, 1 unidad de demanda, … hasta que la probabilidad supere el 98%. La función de pérdida de pinball loss function proporciona una medida directa de la calidad de esta estimación sesgada de la demanda futura. Se puede ver como una herramienta para evaluar la calidad de cualquier punto de la función de densidad acumulativa del pronóstico probabilístico.

El puntaje de rango de probabilidad continuo (CRPS) proporciona una métrica que se puede interpretar como la “cantidad de desplazamiento” de la masa de probabilidades necesaria para mover toda la masa de probabilidad al resultado observado. Es la generalización más directa del error absoluto medio (MAE) hacia una perspectiva probabilística. El valor de CRPS es homogéneo con la unidad de medida del propio resultado. Esta perspectiva se puede generalizar a espacios métricos arbitrarios, en lugar de solo situaciones unidimensionales, a través de lo que se conoce como “teoría del transporte” y distancia de Monge-Kantorovich (que va más allá del alcance del presente documento).

La verosimilitud y su prima de entropía cruzada adoptan la perspectiva bayesiana del menor grado de sorpresa: cuanto mayor sea la probabilidad de los resultados observados, mejor. Por ejemplo, tenemos dos modelos probabilísticos A y B: el modelo A afirma que la probabilidad de observar 0 unidades de demanda es del 50% para cualquier día dado; el modelo B afirma que la probabilidad de observar 0 unidades de demanda es del 1% para cualquier día dado. Observamos la demanda durante 3 días y obtenemos las siguientes observaciones: 0, 0, 1. El modelo A tenía aproximadamente un 10% de probabilidad de generar estas observaciones, mientras que para el modelo B, era solo una probabilidad aproximada del 0.01%. Por lo tanto, el modelo B es mucho menos probable que sea el modelo correcto en comparación con el modelo A. La verosimilitud se aleja de la perspectiva determinista de tener un criterio absoluto significativo para evaluar modelos. En cambio, proporciona un mecanismo para comparar modelos, pero numéricamente, el mecanismo no se puede utilizar realmente para nada excepto para comparar modelos.

La perspectiva generativa adversarial es la perspectiva más moderna sobre el tema (Ian Goodfellow et al., 2014). Esencialmente, esta perspectiva afirma que el “mejor” modelo probabilístico es aquel que se puede utilizar para generar resultados, al estilo monte-carlo, que son indistinguibles de los resultados reales. Por ejemplo, si consideráramos la lista histórica de transacciones en un hipermercado local, podríamos truncar esta historia en un punto arbitrario en el pasado y utilizar el modelo probabilístico para generar transacciones falsas pero realistas en adelante. El modelo se consideraría “perfecto” si fuera imposible, a través del análisis estadístico, recuperar el punto en el tiempo en el que el conjunto de datos pasa de ser datos “reales” a datos “falsos”. El objetivo del enfoque generativo adversarial es “aprender” las métricas que exacerban la falla de cualquier modelo probabilístico. En lugar de centrarse en una métrica en particular, esta perspectiva aprovecha de forma recursiva técnicas de aprendizaje automático para “aprender” las propias métricas.

La búsqueda de mejores formas de evaluar la calidad de los pronósticos probabilísticos sigue siendo un área de investigación activa. No hay una delimitación clara entre las dos preguntas “¿Cómo producir un pronóstico mejor?” y “¿Cómo saber si un pronóstico es mejor?”. Trabajos recientes han difuminado considerablemente las líneas entre ambas, y es probable que los próximos avances impliquen cambios adicionales en la forma misma en que se analizan los pronósticos probabilísticos.

Probabilidades infinitamente pequeñas y verosimilitud logarítmica

Las probabilidades muy pequeñas surgen naturalmente al analizar una situación multidimensional a través del prisma de los pronósticos probabilísticos. Esas probabilidades pequeñas son problemáticas porque las computadoras no procesan números indefinidamente precisos. Los valores de probabilidad en bruto a menudo son “infinitesimalmente” pequeños en el sentido de que se redondean a cero debido a los límites de la precisión numérica. La solución a este problema no es actualizar el software hacia cálculos de precisión arbitraria, lo cual es muy ineficiente en términos de recursos informáticos, sino utilizar el “truco del logaritmo”, que transforma las multiplicaciones en sumas. Este truco es aprovechado, de una forma u otra, por prácticamente todo software que trata con pronósticos probabilísticos.

Supongamos que tenemos las variables aleatorias $$X_1, X_2, \ldots, X_n$$ que representan la demanda del día para todos los $$n$$ productos distintos servidos en una tienda determinada. Sea $$\hat{x}_1, \hat{x}_2, \ldots, \hat{x}_n$$ la demanda empírica observada al final del día para cada producto. Para el primer producto, gobernado por $$X_1$$, la probabilidad de observar $$\hat{x}_1$$ se escribe como $$P(X_1=\hat{x}_1)$$. Ahora, supongamos, de manera un tanto abusiva pero por claridad, que todos los productos son estrictamente independientes en cuanto a la demanda. La probabilidad del evento conjunto de observar $$\hat{x}_1, \hat{x}_2, \ldots, \hat{x}_n$$ es:

$$P(X_1=\hat{x}\_1 \ldots X_n=\hat{x}\_n)=\prod_{k=1}^{n}P(X_k=\hat{x}_k)$$

Si $$P(X_k=\hat{x}_k) \approx \tfrac{1}{2}$$ (aproximación burda) y $$n=10000$$, entonces la probabilidad conjunta anterior es del orden de $$\tfrac{1}{{2^{10000}}} \approx 5 \times 10^{-3011}$$, que es un valor muy pequeño. Este valor se desborda, es decir, cae por debajo del número representable pequeño, incluso considerando números de punto flotante de 64 bits que se utilizan típicamente para la computación científica.

El “truco del logaritmo” consiste en trabajar con el logaritmo de la expresión, es decir:

$$lnP(X_1=\hat{x}_1 \ldots X_n=\hat{x}\_n)= \sum_k^n lnP(X_k=\hat{x}_k)$$

El logaritmo convierte la serie de multiplicaciones en una serie de sumas, lo cual resulta ser mucho más numéricamente estable que una serie de multiplicaciones.

El uso del “truco del logaritmo” es frecuente siempre que se involucran pronósticos probabilísticos. La verosimilitud logarítmica es literalmente el logaritmo de la verosimilitud (introducida anteriormente) precisamente porque la verosimilitud en bruto generalmente no se puede representar numéricamente considerando los tipos comunes de números de punto flotante.

Variantes algorítmicas de los pronósticos probabilísticos

La cuestión de la generación computarizada de pronósticos probabilísticos es casi tan vasta como el campo del aprendizaje automático en sí mismo. Las delimitaciones entre los dos campos, si las hay, son en su mayoría una cuestión de elecciones subjetivas. Sin embargo, esta sección presenta una lista bastante selectiva de enfoques algorítmicos destacados que se pueden utilizar para obtener pronósticos probabilísticos.

A principios del siglo XX, posiblemente a finales del siglo XIX, surgió la idea del stock de seguridad, donde la incertidumbre de la demanda se modela según una distribución normal. Como ya se habían establecido tablas precalculadas de la distribución normal para otras ciencias, especialmente la física, la aplicación del stock de seguridad solo requería una multiplicación de un nivel de demanda por un coeficiente de “stock de seguridad” extraído de una tabla preexistente. Curiosamente, muchos libros de texto de la cadena de suministro escritos hasta la década de 1990 aún contenían tablas de la distribución normal en sus apéndices. Desafortunadamente, la principal desventaja de este enfoque es que las distribuciones normales no son una propuesta razonable para las cadenas de suministro. En primer lugar, en lo que respecta a las cadenas de suministro, es seguro asumir que nada se distribuye normalmente. En segundo lugar, la distribución normal es una distribución continua, lo cual está en desacuerdo con la naturaleza discreta de los eventos de la cadena de suministro (ver “Ley de los números pequeños” arriba). Por lo tanto, aunque técnicamente los “stocks de seguridad” tienen un componente probabilístico, la metodología subyacente y las recetas numéricas están decididamente orientadas hacia la perspectiva determinista. Sin embargo, se incluye este enfoque aquí por claridad.

Avanzando rápidamente hasta principios de la década de 2000, los métodos de aprendizaje en conjunto, cuyos representantes más conocidos son probablemente los bosques aleatorios y los árboles de aumento de gradiente, son relativamente fáciles de extender desde sus orígenes deterministas hasta la perspectiva probabilística. La idea clave detrás del aprendizaje en conjunto es combinar numerosos predictores deterministas débiles, como árboles de decisión, en un predictor determinista superior. Sin embargo, es posible ajustar el proceso de mezcla para obtener probabilidades en lugar de solo un único agregado, convirtiendo así el método de aprendizaje en conjunto en un método de pronóstico probabilístico. Estos métodos son no paramétricos y capaces de ajustar distribuciones con colas gruesas y/o multimodales, como se encuentra comúnmente en la cadena de suministro. Estos métodos tienden a tener dos desventajas notables. En primer lugar, por construcción, la función de densidad de probabilidad producida por esta clase de modelos tiende a incluir muchos ceros, lo que impide cualquier intento de aprovechar la métrica de verosimilitud logarítmica. Más en general, estos modelos realmente no se ajustan a la perspectiva bayesiana, ya que las observaciones más nuevas se declaran con frecuencia “imposibles” (es decir, probabilidad cero) por el modelo. Sin embargo, este problema se puede resolver mediante métodos de regularización1. En segundo lugar, los modelos tienden a ser tan grandes como una fracción considerable del conjunto de datos de entrada, y la operación de “predicción” tiende a ser casi tan costosa computacionalmente como la operación de “aprendizaje”.

Los métodos hiper-paramétricos colectivamente conocidos como “deep learning”, que surgieron explosivamente en la década de 2010, fueron, casi accidentalmente, probabilísticos. De hecho, aunque la gran mayoría de las tareas en las que deep learning realmente destaca (por ejemplo, la clasificación de imágenes) se centran solo en pronósticos deterministas, resulta que la métrica de entropía cruzada - una variante de la verosimilitud logarítmica discutida anteriormente - exhibe gradientes muy pronunciados que son frecuentemente adecuados para el descenso de gradiente estocástico (SGD), que es el núcleo de los métodos de deep learning. Por lo tanto, los modelos de deep learning resultan ser diseñados como probabilísticos, no porque las probabilidades sean de interés, sino porque el descenso de gradiente converge más rápido cuando la función de pérdida refleja un pronóstico probabilístico. Así, en lo que respecta al deep learning, la cadena de suministro se distingue por su interés en la salida probabilística real del modelo de deep learning, mientras que la mayoría de los otros casos de uso colapsan la distribución de probabilidad a su media, mediana o moda. Las Mixture Density Networks son un tipo de red de deep learning orientada al aprendizaje de distribuciones de probabilidad complejas. El resultado en sí mismo es una distribución paramétrica, posiblemente compuesta por gaussianas. Sin embargo, a diferencia de los ‘stocks de seguridad’, una mezcla de muchas gaussianas puede, en la práctica, reflejar los comportamientos de colas gordas que se observan en las cadenas de suministro. Si bien los métodos de deep learning se consideran con frecuencia como el estado del arte, debe tenerse en cuenta que lograr la estabilidad numérica, especialmente cuando se involucran mezclas de densidades, sigue siendo un poco de un “arte oscuro”.

La programación diferenciable es un descendiente del deep learning, que ganó popularidad a fines de la década de 2010. Comparte muchas características técnicas con el deep learning, pero difiere significativamente en su enfoque. Mientras que el deep learning se centra en aprender funciones complejas arbitrarias (es decir, jugar al Go) apilando una gran cantidad de funciones simples (es decir, capas convolucionales), la programación diferenciable se centra en la estructura fina del proceso de aprendizaje. La estructura más fina, más expresiva, literalmente se puede formatear como un programa, que involucra ramas, bucles, llamadas a funciones, etc. La programación diferenciable es de gran interés para la cadena de suministro, porque los problemas tienden a presentarse de manera altamente estructurada, y esas estructuras son conocidas por los expertos2. Por ejemplo, las ventas de una determinada camisa pueden ser canibalizadas por otra camisa de un color diferente, pero no serán canibalizadas por las ventas de una camisa con tres tallas de diferencia. Estas prioridades estructurales son clave para lograr una alta eficiencia de datos. De hecho, desde la perspectiva de la cadena de suministro, la cantidad de datos tiende a ser muy limitada (cf. la ley de los números pequeños). Por lo tanto, “enmarcar” estructuralmente el problema ayuda a garantizar que se aprendan los patrones estadísticos deseados, incluso cuando se enfrenta a datos limitados. Las prioridades estructurales también ayudan a abordar los problemas de estabilidad numérica. En comparación con los métodos de conjunto, las prioridades estructurales tienden a ser menos laboriosas que la ingeniería de características; el mantenimiento del modelo también se simplifica. Por otro lado, la programación diferenciable sigue siendo una perspectiva bastante incipiente hasta la fecha.

La perspectiva de Monte Carlo (1930 / 1940) se puede utilizar para abordar los pronósticos probabilísticos desde un ángulo diferente. Los modelos discutidos hasta ahora proporcionan funciones de densidad de probabilidad (PDF) explícitas. Sin embargo, desde una perspectiva de Monte Carlo, un modelo puede ser reemplazado por un generador - o muestreador - que genera aleatoriamente posibles resultados (a veces llamados “desviaciones”). Las PDF se pueden recuperar promediando los resultados del generador, aunque las PDF se pasan por alto con frecuencia para reducir los requisitos en términos de recursos computacionales. De hecho, el generador suele estar diseñado para ser mucho más compacto en términos de datos que las PDF que representa. La mayoría de los métodos de aprendizaje automático, incluidos los mencionados anteriormente para abordar directamente los pronósticos probabilísticos, pueden contribuir a aprender un generador. Los generadores pueden tomar la forma de modelos paramétricos de baja dimensionalidad (por ejemplo, modelos de espacio de estados) o de modelos hiper-paramétricos (por ejemplo, los modelos LSTM y GRU en deep learning). Los métodos de conjunto rara vez se utilizan para respaldar procesos generativos debido a sus altos costos computacionales para sus operaciones de “predicción”, que se utilizan ampliamente para respaldar el enfoque de Monte Carlo.

Trabajando con pronósticos probabilísticos

Obtener información útil y tomar decisiones a partir de pronósticos probabilísticos requiere herramientas numéricas especializadas. A diferencia de los pronósticos deterministas, donde solo hay números simples, los pronósticos probabilísticos pueden ser funciones de densidad de probabilidad explícitas o generadores de Monte Carlo. La calidad de las herramientas probabilísticas es tan importante en la práctica como la calidad de los pronósticos probabilísticos. Sin estas herramientas, la explotación de los pronósticos probabilísticos se convierte en un proceso determinista (más sobre esto en la sección “Antipatterns” a continuación).

Por ejemplo, las herramientas deben ser capaces de realizar tareas como:

  • Combinar el tiempo de producción incierto con el tiempo de transporte incierto para obtener el tiempo total incierto.
  • Combinar la demanda incierta con el tiempo de espera incierto para obtener la demanda total incierta que debe ser cubierta por el stock que está a punto de ser ordenado.
  • Combinar las devoluciones de pedidos inciertas (ecommerce) con la fecha de llegada incierta del pedido del proveedor en tránsito para obtener el tiempo de espera incierto del cliente.
  • Aumentar el pronóstico de demanda, producido por un método estadístico, con un riesgo adicional derivado manualmente de una comprensión general de un contexto que no se refleja en los datos históricos, como una pandemia.
  • Combinar la demanda incierta con un estado incierto del stock en relación a la fecha de vencimiento (venta minorista de alimentos) para obtener el stock incierto al final del día.

Una vez que todos los pronósticos probabilísticos, no solo los de demanda, se combinan correctamente, se deben tomar decisiones de optimización de la cadena de suministro. Esto implica una perspectiva probabilística de las restricciones, así como de la función de puntuación. Sin embargo, este aspecto de las herramientas va más allá del alcance del presente documento.

Hay dos “variantes” amplias de herramientas para trabajar con pronósticos probabilísticos: en primer lugar, álgebras sobre variables aleatorias y, en segundo lugar, programación probabilística. Estas dos variantes se complementan entre sí, ya que no tienen la misma combinación de ventajas y desventajas.

Un álgebra de variables aleatorias trabaja típicamente con funciones de densidad de probabilidad explícitas. El álgebra admite las operaciones aritméticas habituales (suma, resta, multiplicación, etc.), pero aplicadas a sus contrapartes probabilísticas, tratando con frecuencia las variables aleatorias como estadísticamente independientes. El álgebra proporciona una estabilidad numérica que es casi comparable a su contraparte determinista (es decir, números simples). Todos los resultados intermedios se pueden guardar para su uso posterior, lo cual es muy útil para organizar y solucionar problemas en la tubería de extracción de datos. Sin embargo, la expresividad de estas álgebras tiende a ser limitada, ya que generalmente no es posible expresar todas las sutiles dependencias condicionales que existen entre las variables aleatorias.

La programación probabilística adopta una perspectiva de Monte Carlo para el problema. La lógica se escribe una vez, generalmente siguiendo una perspectiva completamente determinista, pero se ejecuta muchas veces a través de las herramientas (es decir, el proceso de Monte Carlo) para recopilar las estadísticas deseadas. Se logra una expresividad máxima a través de construcciones “programáticas”: es posible modelar dependencias arbitrarias y complejas entre las variables aleatorias. Escribir la lógica misma a través de la programación probabilística también tiende a ser ligeramente más fácil en comparación con un álgebra de variables aleatorias, ya que la lógica solo implica números regulares. Sin embargo, existe un constante compromiso entre la estabilidad numérica (más iteraciones brindan una mejor precisión) y los recursos informáticos (más iteraciones cuestan más). Además, los resultados intermedios generalmente no están fácilmente accesibles, ya que su existencia es solo transitoria, precisamente para aliviar la presión sobre los recursos informáticos.

Trabajos recientes en deep learning también indican que existen enfoques adicionales más allá de los dos presentados anteriormente. Por ejemplo, los autoencoders variacionales ofrecen perspectivas para realizar operaciones en espacios latentes que producen resultados impresionantes al buscar transformaciones muy complejas en los datos (por ejemplo, eliminar automáticamente los anteojos de un retrato fotográfico). Si bien estos enfoques son conceptualmente muy intrigantes, hasta la fecha no han mostrado una relevancia práctica significativa al abordar problemas de la cadena de suministro.

Visualización de pronósticos probabilísticos

La forma más sencilla de visualizar una distribución de probabilidad discreta es mediante un histograma, donde el eje vertical indica la probabilidad y el eje horizontal el valor de la variable aleatoria de interés. Por ejemplo, un pronóstico probabilístico de un tiempo de espera se puede mostrar de la siguiente manera:

probabilistic-forecast-leadtime
Una distribución empírica de los tiempos de espera observados en intervalos diarios.

La demanda futura, sumada durante un período de tiempo especificado, también se puede representar mediante un histograma. En general, el histograma es adecuado para todas las variables aleatorias unidimensionales sobre $${ℤ}$$, el conjunto de enteros relativos.

La visualización del equivalente probabilístico de una serie de tiempo equiespaciada, es decir, una cantidad que varía en períodos de tiempo discretos de igual longitud, ya es mucho más desafiante. De hecho, a diferencia de la variable aleatoria unidimensional, no existe una visualización canónica de dicha distribución. Cuidado, los períodos no se pueden considerar independientes. Por lo tanto, aunque es posible representar una serie de tiempo “probabilística” alineando una serie de histogramas, uno por período, esta representación distorsionaría la forma en que los eventos se desarrollan en una cadena de suministro.

probabilistic-demand-intervals
Un pronóstico de demanda probabilístico representado mediante umbrales de cuantiles.

Por ejemplo, no es demasiado improbable que un producto recién lanzado tenga un buen desempeño y alcance altos volúmenes de ventas (un éxito). Tampoco es demasiado improbable que el mismo producto recién lanzado falle y genere bajos volúmenes de ventas (un fracaso). Sin embargo, las vastas oscilaciones día a día entre niveles de ventas exitosos o fallidos son extremadamente improbables.

Los intervalos de predicción, como se encuentran comúnmente en la literatura de la cadena de suministro, son algo engañosos. Tienden a enfatizar situaciones de baja incertidumbre que no son representativas de las situaciones reales de la cadena de suministro;

rob-hyndman-prediction-intervals
Extracto de Visualization of probabilistic forecasts, por Rob J Hyndman, 21 de noviembre de 2014

Observa cómo estos intervalos de predicción son exactamente las distribuciones de probabilidad, colocadas una al lado de la otra con un esquema de color para resaltar umbrales de cuantiles específicos.

Una mejor representación, es decir, que no mejora las fuertes dependencias interperíodo, es observar los valores acumulativos a lo largo del tiempo, tomando los cuantiles de esos valores y luego diferenciar para recuperar los incrementos por período (ver la primera ilustración de una predicción probabilística dada al comienzo del presente artículo). La visualización es la misma, pero el significado subyacente difiere. Ahora estamos observando cuantiles sobre escenarios, resaltando los escenarios extremadamente favorables (resp. desfavorables).

Antipatrones de pronóstico probabilístico

Los pronósticos probabilísticos desafían la forma en que muchas personas piensan “intuitivamente” sobre el futuro. En esta sección, cubrimos algunos de los aspectos más frecuentemente mal entendidos del pronóstico probabilístico.

No hay tal cosa como eventos ‘impredecibles’

Desde la perspectiva determinista, predecir el resultado de la lotería es imposible, ya que las probabilidades de acertar son “una entre un millón”. Sin embargo, desde una perspectiva probabilística, el problema es trivial: cada boleto tiene una probabilidad de “una entre un millón” de ganar. La alta varianza del resultado no debe confundirse con alguna “incognoscibilidad” del fenómeno en sí, que puede ser perfectamente entendido, como es el caso de una lotería. El pronóstico probabilístico se trata de cuantificar y estructurar la varianza, no de eliminarla.

No hay tal cosa como distribuciones ’normales’

Las distribuciones normales, también conocidas como gaussianas, son ubicuas tanto en los libros de texto de la cadena de suministro como en los de física. Sin embargo, en lo que respecta a los asuntos humanos, casi nada está “normalmente” distribuido. Las distribuciones normales, por diseño, hacen que las desviaciones grandes (en comparación con las desviaciones promedio) sean extremadamente raras, hasta el punto de ser descartadas como simplemente imposibles por el modelo, es decir, probabilidades inferiores a una en mil millones. La demanda, el tiempo de entrega, las devoluciones son muchos patrones que no están distribuidos de manera normal. La única ventaja de las distribuciones normales es que son adecuadas para crear ejercicios de libro de texto para estudiantes, ya que se prestan a soluciones analíticas explícitas.

Seleccionar probabilidades a conveniencia

Cuando se enfrenta a una distribución de probabilidad, es tentador seleccionar un punto de la distribución, posiblemente la media o la mediana, y proceder en función de este número. Este proceso va en contra de la esencia misma del aspecto probabilístico del pronóstico. Las probabilidades no deben colapsarse en una única estimación puntual, porque sin importar qué punto se elija, este proceso incurre en una pérdida masiva de información. Por lo tanto, aunque sea algo perturbador, las probabilidades deben preservarse como tales el mayor tiempo posible. El punto de colapso suele ser la decisión final de la cadena de suministro, que maximiza los rendimientos frente a futuros inciertos.

Eliminar valores atípicos estadísticos

La mayoría de los métodos numéricos clásicos, firmemente fundamentados en la perspectiva determinista de los pronósticos (por ejemplo, promedios móviles), se comportan mal cuando encuentran valores atípicos estadísticos. Por lo tanto, muchas empresas establecen procesos para “limpiar” manualmente los datos históricos de esos valores atípicos. Sin embargo, esta necesidad de un proceso de limpieza solo resalta las deficiencias de esos métodos numéricos. Por el contrario, los valores atípicos estadísticos son un ingrediente esencial del pronóstico probabilístico, ya que contribuyen a obtener una mejor imagen de lo que está sucediendo en la “cola” de la distribución. En otras palabras, esos valores atípicos son clave para cuantificar la probabilidad de encontrar más valores atípicos.

Llevar una espada a un tiroteo

Se requiere una herramienta especializada para manipular distribuciones de probabilidad. Producir el pronóstico probabilístico es solo un paso entre muchos para entregar algún valor real para la empresa. Muchos profesionales de la cadena de suministro terminan descartando los pronósticos probabilísticos por falta de herramientas adecuadas para hacer algo con ellos. Muchos proveedores de software empresarial se han subido al carro y ahora afirman admitir “pronósticos probabilísticos” (junto con “IA” y “blockchain”), pero nunca fueron más allá de implementar superficialmente algunos modelos probabilísticos (cf. la sección anterior). Exhibir un modelo de pronóstico probabilístico no vale casi nada sin las herramientas extensas para aprovechar sus resultados numéricos.

Notas


  1. La función smooth() en Envision es útil para regularizar variables aleatorias a través de un proceso de muestreo discreto de algún tipo. ↩︎

  2. El conocimiento previo sobre la estructura del problema no debe confundirse con el conocimiento previo de la solución en sí. Los “sistemas expertos” pioneros en la década de 1950 como una colección de reglas escritas a mano fracasaron, porque los expertos humanos fallan al traducir literalmente su intuición en reglas numéricas en la práctica. Los conocimientos previos estructurales, utilizados en la programación diferenciable, delinean el principio, no los detalles, de la solución. ↩︎