00:01 Introducción
01:56 El desafío de incertidumbre M5 - Datos (1/3)
04:52 El desafío de incertidumbre M5 - Reglas (2/3)
08:30 El desafío de incertidumbre M5 - Resultados (3/3)
11:59 La historia hasta ahora
14:56 Lo que (probablemente) está por suceder
15:43 Pérdida de pinball - Fundamento 1/3
20:45 Binomial negativa - Fundamento 2/3
24:04 Modelo de Estado de Espacio de Innovación (ISSM) - Fundamento 3/3
31:36 Estructura de ventas - El modelo REMT 1/3
37:02 Poniéndolo todo junto - El modelo REMT 2/3
39:10 Niveles agregados - El modelo REMT 3/3
43:11 Aprendizaje de una sola etapa - Discusión 1/4
45:37 Patrón completo - Discusión 2/4
49:05 Patrones faltantes - Discusión 3/4
53:20 Límites del M5 - Discusión 4/4
56:46 Conclusión
59:27 Próxima conferencia y preguntas del público

Descripción

En 2020, un equipo de Lokad logró el puesto No5 entre 909 equipos competidores en el M5, una competencia de pronóstico a nivel mundial. Sin embargo, a nivel de agregación de SKU, esos pronósticos ocuparon el puesto No1. El pronóstico de la demanda es de suma importancia para la cadena de suministro. El enfoque adoptado en esta competencia resultó atípico, a diferencia de los otros métodos adoptados por los otros 50 principales contendientes. Hay múltiples lecciones que se pueden aprender de este logro como preludio para abordar nuevos desafíos predictivos para la cadena de suministro.

Transcripción completa

Slide 1

Bienvenidos a esta serie de conferencias sobre cadena de suministro. Soy Joannes Vermorel y hoy presentaré “Número uno a nivel de SKU en la Competencia de Pronóstico M5”. Un pronóstico preciso de la demanda se considera uno de los pilares de la optimización de la cadena de suministro. De hecho, cada decisión de la cadena de suministro refleja una cierta anticipación del futuro. Si podemos obtener información superior sobre el futuro, entonces podemos tomar decisiones cuantitativamente superiores para nuestros propósitos de cadena de suministro. Por lo tanto, identificar modelos que brinden una precisión predictiva de vanguardia es de suma importancia e interés para la optimización de la cadena de suministro.

Hoy presentaré un modelo simple de pronóstico de ventas que, a pesar de su simplicidad, ocupó el primer lugar a nivel de SKU en una competencia mundial de pronóstico conocida como M5, basada en un conjunto de datos proporcionados por Walmart. Habrá dos objetivos para esta conferencia. El primer objetivo será comprender lo que se necesita para lograr una precisión de pronóstico de ventas de vanguardia. Esta comprensión será de interés fundamental para los esfuerzos posteriores en modelado predictivo. El segundo objetivo será establecer la perspectiva correcta cuando se trata de modelado predictivo para fines de cadena de suministro. Esta perspectiva también se utilizará para guiar nuestra progresión posterior en esta área de modelado predictivo para la cadena de suministro.

Slide 2

El M5 fue una competencia de pronóstico que tuvo lugar en 2020. Esta competencia lleva el nombre de Spyros Makridakis, un destacado investigador en el campo del pronóstico. Esta fue la quinta edición de esta competencia. Estas competencias ocurren cada dos años y tienden a variar en términos de enfoque según el tipo de conjunto de datos que se utiliza. El M5 fue un desafío relacionado con la cadena de suministro, ya que el conjunto de datos utilizado fue datos de tiendas minoristas proporcionados por Walmart. El desafío M6, que aún está por ocurrir, se centrará en el pronóstico financiero.

El conjunto de datos utilizado para el M5 era y sigue siendo un conjunto de datos públicos. Eran datos de tiendas minoristas de Walmart agregados a nivel diario. Este conjunto de datos incluía alrededor de 30,000 SKU, que, en términos minoristas, es un conjunto de datos bastante pequeño. De hecho, como regla general, un solo supermercado suele tener alrededor de 20,000 SKU, y Walmart opera más de 10,000 tiendas. Por lo tanto, en general, este conjunto de datos, el conjunto de datos M5, representaba menos del 0.1% del conjunto de datos a escala mundial de Walmart que sería relevante desde una perspectiva de cadena de suministro.

Además, como veremos a continuación, había clases enteras de datos que faltaban en el conjunto de datos M5. Como resultado, mi estimación aproximada es que este conjunto de datos en realidad está más cerca del 0.01% de la escala de lo que se necesitaría a la escala de Walmart. Sin embargo, este conjunto de datos es más que suficiente para hacer una prueba de referencia muy sólida de modelos de pronóstico en una configuración del mundo real. En una configuración del mundo real, tendríamos que prestar mucha atención a las preocupaciones de escalabilidad. Sin embargo, desde la perspectiva de una competencia de pronóstico, es justo hacer que el conjunto de datos sea lo suficientemente pequeño como para que la mayoría de los métodos, incluso los métodos ampliamente ineficientes, se puedan utilizar en la competencia de pronóstico. Además, asegura que los contendientes no estén limitados por la cantidad de recursos informáticos que realmente pueden utilizar en esta competencia de pronóstico.

Slide 3

La competencia M5 incluyó dos desafíos distintos conocidos como Precisión e Incertidumbre. Las reglas eran simples: había un conjunto de datos público al que todos los participantes podían acceder, y para participar en uno o ambos de estos desafíos, cada participante debía producir su propio conjunto de datos, que era su conjunto de pronóstico, y enviarlo a la plataforma de Kaggle. El desafío de Precisión se trataba de entregar un pronóstico promedio de series de tiempo, que es el tipo más clásico de pronóstico formal. En esta situación específica, se trataba de entregar un pronóstico promedio diario para aproximadamente 40,000 series de tiempo. El desafío de Incertidumbre se trataba de entregar pronósticos cuantiles. Los cuantiles son pronósticos con sesgo; sin embargo, el sesgo es intencional. Ese es el punto principal de tener cuantiles. Esta conferencia se centra exclusivamente en el desafío de Incertidumbre, y la razón es que en la cadena de suministro, es la demanda inesperadamente alta la que crea faltantes de stock, y es la demanda inesperadamente baja la que crea cancelaciones de inventario. Los costos en las cadenas de suministro se concentran en los extremos. No es el promedio lo que nos interesa.

De hecho, si observamos lo que significa el promedio incluso en la situación de Walmart, resulta que para la mayoría de los productos, en la mayoría de las tiendas, en la mayoría de los días, las ventas promedio que se observarán son cero. Por lo tanto, la mayoría de los productos tienen un pronóstico promedio fraccionario. Tales pronósticos promedio son muy decepcionantes en lo que respecta a la cadena de suministro. Si tus opciones son almacenar cero o reponer una unidad, los pronósticos promedio son de poca relevancia. El comercio minorista no está en una posición única aquí; es prácticamente la misma situación ya sea que estemos hablando de FMCG, aviación, manufactura o lujo, prácticamente cualquier otro sector.

Volviendo al desafío de Incertidumbre M5, se debían producir cuatro cuantiles, respectivamente al 50%, 67%, 95% y 99%. Puedes pensar en esos cuantiles como objetivos de nivel de servicio. La precisión de esos pronósticos de cuantiles se evaluó utilizando una métrica conocida como función de pérdida pinball. Volveré a esta métrica de error más adelante en esta conferencia.

Slide 4

Hubo 909 equipos compitiendo en todo el mundo en este desafío de Incertidumbre. Un equipo de Lokad ocupó el quinto lugar en general, pero el primer lugar a nivel de SKU. De hecho, si bien los SKU representaban aproximadamente las tres cuartas partes de las series de tiempo en este desafío, había varios niveles de agregación que iban desde el estado (como en Estados Unidos - Texas, California, etc.) hasta el SKU, y todos los niveles de agregación tenían el mismo peso en la puntuación final de esta competencia. Por lo tanto, aunque los SKU representaban aproximadamente las tres cuartas partes de las series de tiempo, solo representaban aproximadamente el 8% del peso total en la puntuación final de la competencia.

El método utilizado por este equipo de Lokad se publicó en un artículo titulado “Un enfoque ISSM de caja blanca para estimar la distribución de incertidumbre de las ventas de Walmart”. Pondré un enlace a este artículo en la descripción de este video después de que termine esta conferencia. Encontrarás todos los elementos en mayor detalle. Por claridad y concisión, me referiré al modelo presentado en este artículo como el modelo BRAMPT, simplemente nombrado así por las iniciales de los cuatro coautores.

En la pantalla, he enumerado los cinco mejores resultados para el M5, obtenidos de un artículo que proporciona información general sobre el resultado de esta competencia de pronóstico. Los detalles del rango dependen en gran medida de la métrica elegida. Esto no es sorprendente. El desafío de Incertidumbre utilizó una versión escalada de la función de pérdida de pinball. Volveremos a esta métrica de error en un minuto. Aunque el desafío de Incertidumbre M5 demostró que no tenemos los medios para eliminar la incertidumbre con los métodos de pronóstico que tenemos, ni siquiera cerca, no es en absoluto un resultado sorprendente. Teniendo en cuenta que las ventas en las tiendas minoristas tienden a ser erráticas e intermitentes, se enfatiza la importancia de abrazar la incertidumbre en lugar de simplemente descartarla por completo. Sin embargo, es notable destacar que los proveedores de software de la cadena de suministro estuvieron ausentes de los primeros 50 puestos de esta competencia de pronóstico, lo cual es aún más intrigante considerando que esos proveedores presumen de tener tecnología de pronóstico de vanguardia supuestamente superior.

Slide 5

Ahora, esta conferencia es parte de una serie de conferencias sobre la cadena de suministro. Esta conferencia actual es la primera de lo que será mi quinto capítulo en esta serie. Este quinto capítulo estará dedicado a la modelización predictiva. De hecho, reunir conocimientos cuantitativos es necesario para optimizar una cadena de suministro. Cada vez que se toma una decisión en la cadena de suministro, ya sea decidir comprar materiales, producir un determinado producto, mover stock de un lugar a otro o aumentar o disminuir el precio de algo que se vende, esta decisión viene con una cierta anticipación de la demanda futura. Marginalmente, cada decisión de la cadena de suministro viene con una expectativa incorporada sobre el futuro. Esta expectativa puede ser implícita y oculta. Sin embargo, si queremos mejorar la calidad de nuestra expectativa sobre el futuro, debemos reificar esta expectativa, lo cual se hace típicamente a través de un pronóstico, aunque no necesariamente tiene que ser un pronóstico de series de tiempo.

El quinto y presente capítulo se llama “Modelización predictiva” en lugar de “Pronóstico” por dos razones. Primero, el pronóstico está casi invariablemente asociado con el pronóstico de series de tiempo. Sin embargo, como veremos en este capítulo, hay muchas situaciones de la cadena de suministro que realmente no se prestan a la perspectiva de pronóstico de series de tiempo. Por lo tanto, en este sentido, la modelización predictiva es un término más neutral. Segundo, es la modelización la que tiene la verdadera visión, no los modelos. Estamos buscando técnicas de modelización, y es a través de estas técnicas que podemos esperar poder hacer frente a la diversidad de situaciones encontradas en las cadenas de suministro del mundo real.

La presente conferencia sirve como prólogo para nuestro capítulo de modelización predictiva para establecer que la modelización predictiva no es una especie de pensamiento ilusorio sobre el pronóstico, sino que califica como una técnica de pronóstico de vanguardia. Esto se suma a todos los demás beneficios que se irán haciendo evidentes a medida que avance en este capítulo.

Slide 6

El resto de esta conferencia se organizará en tres partes. Primero, revisaremos una serie de ingredientes matemáticos, que son esencialmente los bloques de construcción del modelo BRAMPT. En segundo lugar, ensamblaremos esos ingredientes para construir el modelo BRAMPT, tal como se hizo durante la competencia M5. En tercer lugar, discutiremos qué se puede hacer para mejorar el modelo BRAMPT y también para ver qué se podría hacer para mejorar el desafío de pronóstico en sí, tal como se presentó en la competencia M5.

Slide 7

El desafío de incertidumbre del M5 busca calcular estimaciones de cuantiles de ventas futuras. Un cuantil es un punto en una distribución unidimensional y, por definición, un cuantil del 90 por ciento es el punto donde hay un 90 por ciento de probabilidad de estar por debajo de este valor de cantidad y un 10 por ciento de probabilidad de estar por encima de él. La mediana es, por definición, el cuantil del 50 por ciento.

La función de pérdida de pinball es una función con una afinidad profunda por los cuantiles. Esencialmente, para cualquier valor de tau entre cero y uno, tau se puede interpretar, desde una perspectiva de cadena de suministro, como un objetivo de nivel de servicio. Para cualquier valor de tau, el cuantil asociado con tau resulta ser el valor dentro de la distribución de probabilidad que minimiza la función de pérdida de pinball. En la pantalla, vemos una implementación sencilla de la función de pérdida de pinball, escrita en Envision, el lenguaje de programación específico del dominio de Lokad dedicado a fines de optimización de la cadena de suministro. La sintaxis es bastante similar a Python y debería ser relativamente transparente para la audiencia.

Si intentamos desglosar este código, tenemos y, que es el valor real, y-hat, que es nuestra estimación, y tau, que es nuestro objetivo de cuantil. Nuevamente, el objetivo de cuantil es fundamentalmente el objetivo de nivel de servicio en términos de cadena de suministro. Vemos que la subestimación viene con un peso igual a tau, mientras que la sobreestimación viene con un peso igual a uno menos tau. La función de pérdida de pinball es una generalización del error absoluto. Si volvemos a tau igual a 0.5, podemos ver que la función de pérdida de pinball es simplemente el error absoluto. Si tenemos una estimación que minimiza el error absoluto, lo que obtenemos es una estimación de la mediana.

En la pantalla, puedes ver un gráfico de la función de pérdida de pinball. Esta función de pérdida es asimétrica y a través de una función de pérdida asimétrica, no obtenemos el pronóstico promedio o mediano, sino un pronóstico con un sesgo controlado, que es exactamente lo que queremos tener para una estimación de cuantil. La belleza de la función de pérdida de pinball es su simplicidad. Si tienes una estimación que minimiza la función de pérdida de pinball, entonces tienes un modelo de pronóstico de cuantil por construcción. Por lo tanto, si tienes un modelo que tiene parámetros y diriges la optimización de los parámetros a través de la función de pérdida de pinball, lo que obtendrás de tu modelo es esencialmente un modelo de pronóstico de cuantil.

El desafío de incertidumbre M5 presentó una serie de cuatro objetivos de cuantil en 50, 67, 95 y 99. Normalmente me refiero a esta serie de objetivos de cuantil como una cuadrícula de cuantiles. Una cuadrícula de cuantiles, o pronósticos de cuadrícula cuantizada, no son pronósticos probabilísticos completos; están cerca, pero aún no lo son. Con una cuadrícula de cuantiles, todavía estamos seleccionando nuestros objetivos. Por ejemplo, si decimos que queremos producir un pronóstico de cuantil para el 95 por ciento, la pregunta es, ¿por qué 95, por qué no 94 o 96? Esta pregunta queda sin respuesta. Analizaremos esto más detenidamente más adelante en este capítulo, pero no en esta conferencia. Basta con decir que la principal ventaja que tenemos con los pronósticos probabilísticos es eliminar por completo este aspecto de selección arbitraria de las cuadrículas de cuantiles.

Slide 8

La mayoría de la audiencia probablemente está familiarizada con la distribución normal, la curva de campana gaussiana que ocurre con mucha frecuencia en fenómenos naturales. Una distribución de conteo es una distribución de probabilidades sobre cada número entero. A diferencia de las distribuciones reales continuas como la distribución normal que te da una probabilidad para cada número real, las distribuciones de conteo solo se preocupan por los números enteros no negativos. Hay muchas clases de distribuciones de conteo; sin embargo, hoy nuestro interés se centra en la distribución binomial negativa, que es utilizada por el modelo REM.

La distribución binomial negativa viene con dos parámetros, al igual que la distribución normal, que también controlan efectivamente la media y la varianza de la distribución. Si elegimos la media y la varianza para una distribución binomial negativa de manera que la mayor parte de la masa de la distribución de probabilidad esté lejos de cero, tendremos un comportamiento para la distribución binomial negativa que converge asintóticamente a un comportamiento de distribución normal si colapsáramos todos los valores de probabilidad hacia los enteros más cercanos. Sin embargo, si observamos distribuciones donde la media es pequeña, especialmente en comparación con la varianza, veremos que la distribución binomial negativa comienza a divergir significativamente en términos de comportamiento en comparación con una distribución normal. En particular, si observamos distribuciones binomiales negativas con medias pequeñas, veremos que estas distribuciones se vuelven altamente asimétricas, a diferencia de la distribución normal, que permanece completamente simétrica sin importar qué media y varianza elijas.

En la pantalla, se traza una distribución binomial negativa a través de Envision. La línea de código que se utilizó para producir este gráfico se muestra a continuación. La función toma dos argumentos, lo cual se espera ya que esta distribución tiene dos parámetros, y el resultado es simplemente una variable aleatoria que se muestra como un histograma. No voy a profundizar en los detalles de la distribución binomial negativa aquí en esta conferencia. Esto es teoría de probabilidad sencilla. Tenemos fórmulas analíticas explícitas en forma cerrada para la moda, la mediana, la función de distribución acumulativa, la asimetría, la curtosis, etc. La página de Wikipedia te brinda un resumen bastante decente de todas esas fórmulas, así que invito a la audiencia a echar un vistazo si quieren saber más sobre este tipo específico de distribución de conteo.

Slide 9

Pasemos al Modelo de Estado del Espacio de Innovación, o ISSM por sus siglas en inglés. El modelo de estado del espacio de innovación es un nombre largo e impresionante para hacer algo bastante simple. De hecho, el ISSM es un modelo que transforma una serie de tiempo en un paseo aleatorio. Con ISSM, puedes convertir una simple serie de tiempo promedio, y cuando digo promedio, me refiero a una serie de tiempo donde para cada período tendrás un valor establecido en el promedio, en un pronóstico probabilístico, y no solo un pronóstico de cuantiles sino directamente un pronóstico probabilístico. En la pantalla, puedes ver una implementación completa de ISSM escrita una vez más en Envision. Podemos ver que son solo una docena de líneas de código, y en realidad, la mayoría de esas líneas de código ni siquiera hacen mucho. ISSM es literalmente muy sencillo, y sería muy sencillo volver a implementar este fragmento de código en cualquier otro lenguaje, como Python.

Echemos un vistazo más de cerca a los detalles de esas líneas de código. En la línea uno, estoy especificando el rango de los períodos donde ocurrirá el paseo aleatorio. Desde la perspectiva del M5, queremos un paseo aleatorio durante un período de 28 días, por lo que tenemos 28 puntos, un punto por día. En las líneas tres, cuatro y cinco, introducimos una serie de parámetros que controlarán el propio paseo aleatorio. El primer parámetro es la dispersión, que se utilizará como argumento para controlar la forma de las binomiales negativas que ocurren dentro del proceso ISSM. Luego tenemos alpha, que es esencialmente el factor que controla el proceso de suavizado exponencial que también ocurre dentro del ISSM. En la línea cinco, tenemos el nivel, que es simplemente el estado inicial del paseo aleatorio. Finalmente, en la línea seis, tenemos una serie de factores que generalmente están destinados a capturar todos los patrones del calendario que queremos incorporar en nuestro modelo de pronóstico.

Ahora, los valores de las líneas tres a seis vienen con una inicialización ficticia. Por razones de concisión, explicaré cómo se optimizan realmente esos valores en un minuto, pero aquí todas las inicializaciones que ves son solo valores ficticios. Incluso estoy dibujando valores aleatorios para la línea base. Llegaremos a cómo, en realidad, si quieres usar este modelo, deberás inicializar adecuadamente esos valores, lo cual haremos más adelante en esta conferencia.

Ahora veamos el núcleo del proceso ISSM. El núcleo comienza en la línea ocho y comienza con un bucle de 1000 iteraciones. Acabo de decir que el proceso ISSM es un proceso para generar paseos aleatorios, así que aquí estamos haciendo 1000 iteraciones, o vamos a hacer 1000 paseos aleatorios. Podríamos tener más, podríamos tener menos; es un proceso de Monte Carlo sencillo. Luego, en la línea nueve, hacemos un segundo bucle. Este es el bucle que itera un día a la vez durante el período de interés. Así que tenemos el bucle externo, que es esencialmente una iteración por paseo aleatorio, y luego tenemos el bucle interno, que es una iteración, simplemente moviéndose de un día al siguiente dentro del propio paseo aleatorio.

En la línea 10, tenemos un nivel de mantenimiento. Para mantener el nivel, simplemente decimos que este parámetro va a ser mutado dentro del bucle interno, no dentro del bucle externo. Esto significa que el nivel es algo que varía cuando pasamos de un día al siguiente, pero cuando pasamos de un paseo aleatorio al siguiente a través del bucle de Monte Carlo, este nivel se restablecerá a su valor inicial que se declara arriba. En la línea 11, calculamos la media. La media es el segundo parámetro que usamos para controlar la distribución binomial negativa. Así que tenemos la media, tenemos la dispersión y tenemos una distribución binomial negativa. En la línea 12, dibujamos una desviación de acuerdo con la distribución binomial normal. Dibujar una desviación simplemente significa que tomamos una muestra aleatoria extraída de esta distribución de recuento. Luego, en la línea 13, actualizamos este nivel basado en la desviación que hemos visto, y el proceso de actualización es simplemente un proceso de suavizado exponencial muy simple, guiado por el parámetro alfa. Si tomamos alfa muy grande, igual a uno, eso significa que ponemos todo el peso en la última observación. Por el contrario, si pusiéramos alfa igual a cero, significaría que tendríamos un cero de deriva; nos mantendríamos fieles a la serie temporal original tal como se define en la línea de base.

Por cierto, en Envision, cuando está escrito “.baseline,” lo que vemos aquí es que hay una tabla, así que es una tabla que tiene, digamos, NDM5; que tendría 28 valores, y la línea de base es solo un vector que pertenece a esta tabla. En la línea 15, recopilamos todas las desviaciones y las sumamos a través de “someday.q.” Las enviamos a una variable llamada “total,” así que dentro de un paseo aleatorio, tenemos el total de las desviaciones que se recopilaron para cada día. Por lo tanto, tenemos el total de las ventas durante 28 días. Finalmente, en la línea 16, estamos básicamente recopilando y recolectando esas muestras en un “render.” Un render es un objeto específico en Envision, que es esencialmente una distribución de probabilidad de enteros relativos, positivos y negativos.

En resumen, lo que tenemos es el ISSM como un generador aleatorio de paseos aleatorios unidimensionales. En el contexto de la previsión de ventas, puedes pensar en esos paseos aleatorios como posibles observaciones futuras para las propias ventas. Es interesante porque no pensamos en la previsión como el promedio o la mediana; literalmente pensamos en nuestra previsión como una posible instancia de un futuro.

Slide 10

En este punto, hemos recopilado todo lo que necesitamos para comenzar a ensamblar el modelo REMT, que vamos a hacer ahora.

El modelo REMT adopta una estructura multiplicativa, que recuerda al modelo de pronóstico de Holt-Winters. Cada día recibe una línea de base, que es un solo valor que resulta ser el producto de cinco efectos calendario. Tenemos, a saber, el mes del año, el día de la semana, el día del mes, los efectos de Navidad y Halloween. Esta lógica se implementa como un script conciso de Envision.

Envision tiene un álgebra relacional que ofrece relaciones de difusión entre tablas, que son muy prácticas para esta situación. Las cinco tablas que hemos construido, una tabla por patrón de calendario, se construyen como tablas de agrupación. Así que tenemos la tabla de fechas, y la tabla de fechas tiene una clave primaria llamada “date.” Cuando escribimos que declaramos una nueva tabla con una agregación “by” y luego tenemos la fecha, lo que estamos construyendo es una tabla que tiene una relación de difusión directa con la tabla de fechas.

Si nos fijamos específicamente en la tabla de día de la semana en la línea cuatro, lo que estamos construyendo es una tabla que tendrá exactamente siete líneas. Cada línea de la tabla estará asociada con una y solo una línea del día de la semana. Por lo tanto, si colocamos valores en esta tabla de día de la semana, podemos difundir esos valores de manera bastante natural porque cada línea en el lado receptor, en el lado de la fecha, tendrá una línea para que coincida en esta tabla de día de la semana.

En la línea nueve, con el vector “de.dot.baseline,” se calcula como la multiplicación simple de los cinco factores en el lado derecho de la asignación. Todos esos factores se transmiten primero a la tabla de fechas, y luego procedemos con una multiplicación simple línea por línea para cada línea en la tabla de fechas.

Ahora, tenemos un modelo que tiene unas pocas docenas de parámetros. Podemos contar esos parámetros: tenemos 12 parámetros para el mes del año, del 1 al 12; tenemos siete parámetros para el día de la semana; y tenemos 31 parámetros para el día del mes. Sin embargo, en el caso de NDM5, no vamos a aprender un valor de parámetro para todos esos valores para cada SKU individual, ya que terminaríamos con una cantidad masivamente grande de parámetros que probablemente ajustarían en exceso el conjunto de datos de Walmart. En cambio, en NDM5, lo que se hizo fue aprovechar un truco conocido como “parameter sharing”.

El “parameter sharing” significa que en lugar de aprender parámetros distintos para cada SKU individual, vamos a establecer subgrupos y luego aprender esos parámetros a nivel de subgrupo. Luego, usamos los mismos valores dentro de esos grupos para esos parámetros. El “parameter sharing” es una técnica muy clásica que se utiliza ampliamente en deep learning, aunque precede al propio deep learning. Durante el M5, el mes del año y el día de la semana se aprendieron a nivel de agregación del departamento de la tienda. Volveré a los diversos niveles de agregación del M5 en un segundo. El valor del día del mes en realidad eran factores codificados que se establecieron a nivel estatal, y cuando digo el estado, me refiero a los Estados Unidos, como California, Texas, etc. Durante el M5, todos esos parámetros calendario se aprendieron simplemente como promedios directos sobre sus ámbitos relacionados. Es una forma muy directa de establecer esos parámetros: simplemente tomas todos los SKUs que pertenecen al mismo ámbito, promedias todo, normalizas y ahí tienes tu parámetro.

Slide 11

Ahora, en este punto, hemos recopilado todo para ensamblar el modelo REMT. Hemos visto cómo construir la línea de base diaria, que incorpora todos los patrones de calendario. Los patrones de calendario se han aprendido a través de promedios directos de un cierto ámbito, que es un mecanismo de aprendizaje crud pero efectivo. También hemos visto que el ISSM transforma una serie de tiempo en un random walk. Solo nos queda establecer los valores adecuados para los parámetros del ISSM, es decir, alfa, el parámetro utilizado para el proceso de suavizado exponencial que ocurrió dentro del SSM; la dispersión, que es un parámetro utilizado para controlar la distribución binomial negativa; y el valor inicial para el nivel, que se utiliza para inicializar nuestro random walk.

Durante la competencia M5, el equipo de Lokad utilizó una optimización de búsqueda en cuadrícula simple para aprender esos tres parámetros restantes. La búsqueda en cuadrícula significa básicamente que iteras sobre todas las posibles combinaciones de esos valores, avanzando en pequeños incrementos a la vez. La búsqueda en cuadrícula se dirigió utilizando la función de pérdida de pinball, que he descrito anteriormente, para dirigir la optimización de esos tres parámetros. Para cada SKU, la búsqueda en cuadrícula es probablemente una de las formas más ineficientes de optimización matemática. Sin embargo, considerando que solo tenemos tres parámetros y que solo necesitamos realizar una optimización por serie de tiempo, y que el conjunto de datos M5 en sí es bastante pequeño, fue adecuado para la competencia M5.

Slide 12

Hasta ahora, hemos presentado cómo opera el modelo REMT a nivel de SKU. Sin embargo, en el M5, había 12 niveles de agregación distintos. El nivel de SKU, siendo el nivel más desagregado, era el más importante. Un SKU, o unidad de mantenimiento de stock, es literalmente un producto en una ubicación. Si tienes el mismo producto en 10 ubicaciones, entonces tienes 10 SKUs. Aunque el SKU es probablemente el nivel de agregación más relevante para una cadena de suministro, casi todas las decisiones relacionadas con el inventario, como el reabastecimiento y la variedad, ocurren a nivel de SKU. El M5 fue principalmente una competencia de pronóstico, por lo que hubo mucho énfasis en los otros niveles de agregación.

En la pantalla, estos niveles resumen los niveles de agregación que estaban presentes en el conjunto de datos M5. Puedes ver que tenemos los estados, como California y Texas. Para lidiar con los niveles de agregación más altos, el equipo de Lokad utilizó dos técnicas: sumar los random walks, lo que significa que realizas los random walks a un nivel de agregación más bajo, los sumas y luego obtienes random walks a un nivel de agregación más alto; o reiniciar completamente el proceso de aprendizaje, saltando directamente al nivel de agregación más alto. En el desafío de incertidumbre M5, el modelo REMT fue el mejor a nivel de SKU, pero no fue el mejor en los otros niveles de agregación, aunque tuvo un buen desempeño en general.

Mi propia hipótesis de trabajo sobre por qué el modelo REMT no fue el mejor en todos los niveles es la siguiente (ten en cuenta que esta es una hipótesis y que en realidad no la probamos): La distribución binomial negativa ofrece dos grados de libertad a través de sus dos parámetros. Cuando se observan datos bastante dispersos, como los que se encuentran a nivel de SKU, dos grados de libertad logran el equilibrio adecuado entre el subajuste y el sobreajuste. Sin embargo, a medida que nos movemos hacia niveles de agregación más altos, los datos se vuelven más densos y ricos, por lo que el compromiso probablemente se desplaza hacia algo más adecuado para capturar con mayor precisión la forma de la distribución. Necesitaríamos unos pocos grados de libertad adicionales, probablemente solo uno o dos parámetros adicionales, para lograr esto.

Sospecho que aumentar el grado de parametrización de la distribución de recuento utilizada en el núcleo del modelo REMT habría sido muy útil para lograr algo muy cercano, si no directamente de vanguardia, para los niveles de agregación más altos. Sin embargo, no tuvimos tiempo para hacerlo, y es posible que volvamos a examinar el caso en algún momento en el futuro. Esto concluye lo que hizo el equipo de Lokad durante la competencia M5.

Slide 13

Discutamos qué se podría haber hecho de manera diferente o mejor. Aunque el modelo REMT es un modelo paramétrico de baja dimensionalidad con una estructura multiplicativa simple, el proceso utilizado para obtener los valores de los parámetros durante el M5 fue algo complicado de manera accidental. Fue un proceso de varias etapas, con cada patrón de calendario teniendo su propio tratamiento especial ad hoc, que terminó con una búsqueda de cuadrícula personalizada para completar el modelo REMT. Todo el proceso fue bastante consumidor de tiempo para los científicos de datos, y sospecho que sería bastante poco confiable en entornos de producción debido a la gran cantidad de código ad hoc involucrado.

En particular, mi opinión es que podemos y debemos unificar el proceso de aprendizaje de todos los parámetros como un proceso de una sola etapa o, al menos, unificar el proceso de aprendizaje para que se utilice el mismo método repetidamente. En la actualidad, Lokad está utilizando programación diferenciable para hacer exactamente eso. La programación diferenciable elimina la necesidad de agregaciones ad hoc en lo que respecta a los patrones de calendario. También elimina el problema de ordenar con precisión la extracción de los patrones de calendario extrayendo todos los patrones de una sola vez. Finalmente, como la programación diferenciable es un proceso de optimización en sí mismo, reemplaza la búsqueda de cuadrícula con una lógica de optimización mucho más eficiente. Revisaremos cómo se puede utilizar la programación diferenciable para modelado predictivo en el contexto de los propósitos de la cadena de suministro con más detalle en las próximas conferencias de este capítulo.

Slide 14

Ahora, uno de los resultados más sorprendentes de la competencia M5 fue que no quedó ningún patrón estadístico sin nombre. Literalmente teníamos cuatro patrones: simplicidades, estado, dispersión y deriva, que fueron todo lo que se necesitó para lograr una precisión de pronóstico de vanguardia en la competencia M5.

Las simplicidades son todas basadas en el calendario y ninguna de ellas es ni siquiera remotamente sorprendente. El estado se puede representar como un solo número que representa el nivel alcanzado por el SKU en un punto específico en el tiempo. La dispersión se puede representar con un solo número que es la dispersión utilizada para parametrizar la distribución binomial negativa, y la deriva se puede representar con un solo número asociado al proceso de suavizado exponencial que ocurrió dentro del SSM. Ni siquiera tuvimos que incluir la tendencia, que era demasiado débil para un horizonte de 28 días.

Mientras observamos las ventas agregadas totales de cinco años para el M5 como se muestra en la pantalla, la agregación muestra claramente una modesta tendencia al alza. Sin embargo, el modelo REMT funciona sin ella y no tuvo ninguna consecuencia en términos de precisión. El rendimiento del modelo REMT plantea la pregunta: ¿hay algún otro patrón que capturar y hemos pasado por alto algún patrón?

Al menos, el rendimiento del modelo REMT muestra que ninguno de los modelos más sofisticados involucrados en esta competencia, como los árboles de aumento de gradiente o los métodos de deep learning, capturaron algo más allá de esos cuatro patrones. De hecho, si alguno de esos modelos hubiera logrado capturar sustancialmente algo, habrían superado ampliamente al modelo REMT a nivel de SKU, lo cual no ocurrió. Lo mismo se puede decir de todos los métodos estadísticos más sofisticados como ARIMA. Esos modelos también fallaron en capturar algo más allá de lo que este modelo paramétrico multiplicativo muy simple ha capturado.

El principio de la navaja de Occam nos dice que, a menos que podamos encontrar una muy buena razón para pensar que un patrón nos elude o una muy buena razón para alguna propiedad muy interesante que supere la simplicidad de este modelo, no tenemos ninguna razón para usar nada más que un modelo que sea al menos tan simple como el modelo REMT.

Slide 15

Sin embargo, una serie de patrones estuvieron ausentes en la competencia M5 debido al diseño mismo del conjunto de datos M5. Esos patrones son importantes y, en la práctica, cualquier modelo que los ignore funcionará mal en un entorno minorista real. Estoy basando esta afirmación en mi propia experiencia.

En primer lugar, tenemos los lanzamientos de productos. La competencia M5 solo incluyó productos que tenían al menos cinco años de historial de ventas. Esta es una suposición poco razonable en lo que respecta a la cadena de suministro. De hecho, los productos de consumo masivo suelen tener una vida útil de solo un par de años, por lo que en una tienda real siempre hay una parte significativa del surtido que tiene menos de un año de historial de ventas. Además, al analizar productos con tiempos de entrega largos, se deben tomar numerosas decisiones de cadena de suministro incluso antes de que el producto tenga la oportunidad de venderse una sola vez en cualquier tienda. Por lo tanto, necesitamos modelos de pronóstico que puedan funcionar incluso sin historial de ventas para un determinado producto.

El segundo patrón de importancia crítica son los faltantes de stock. Los faltantes de stock ocurren en el comercio minorista y el conjunto de datos de la competencia M5 los ignoró por completo. Sin embargo, los faltantes de stock limitan las ventas. Si un producto está agotado en la tienda, no se venderá ese día, por lo que los faltantes de stock introducen un sesgo significativo en las ventas que observamos. El problema en el caso de Walmart y las tiendas de mercancías generales es aún más complicado porque no se puede confiar completamente en los registros electrónicos que capturan los valores de stock disponibles. Hay numerosas imprecisiones en el inventario y esto también debe tenerse en cuenta.

En tercer lugar, tenemos las promociones. La competencia M5 incluyó datos históricos de precios; sin embargo, los datos de precios no se proporcionaron para el período a pronosticar. Como resultado, parece que ningún participante en esta competencia logró aprovechar la información de precios para mejorar la precisión del pronóstico. El modelo REMT no utiliza información de precios en absoluto. Más allá del hecho de que nos faltaba la información de precios para el período del pronóstico, las promociones no se tratan solo de precios. Un producto puede ser promocionado al ser exhibido de manera destacada en una tienda, lo que puede aumentar significativamente la demanda, independientemente de si se ha reducido el precio. Además, con las promociones, debemos considerar los efectos de canibalización y sustitución.

En general, el conjunto de datos M5, desde una perspectiva de cadena de suministro, se puede ver como un conjunto de datos de juguete. Si bien sigue siendo probablemente el mejor conjunto de datos públicos existente para llevar a cabo referencias de cadena de suministro, aún está lejos de ser algo verdaderamente equivalente a una configuración de producción real incluso en una cadena minorista de tamaño modesto.

Slide 16

Sin embargo, las limitaciones de la competencia M5 no se deben solo al conjunto de datos. Desde una perspectiva de cadena de suministro, existen problemas fundamentales con las reglas utilizadas para llevar a cabo la competencia M5.

El primer problema fundamental es no confundir las ventas con la demanda. Ya hemos tocado este tema con los faltantes de stock. Desde una perspectiva de cadena de suministro, el verdadero interés radica en anticipar la demanda, no las ventas. Sin embargo, el problema va más allá. La estimación adecuada de la demanda es fundamentalmente un problema de aprendizaje no supervisado. No es porque se hayan tomado decisiones arbitrarias sobre la variedad aplicable en una tienda que la demanda de un producto no deba ser estimada. Debemos estimar la demanda de los productos, independientemente de si forman parte de la variedad en una tienda determinada.

El segundo aspecto es que las previsiones de cuantiles son menos útiles que las previsiones probabilísticas. Seleccionar niveles de servicio a dedo deja lagunas en la imagen, y las previsiones de cuantiles son relativamente débiles en términos de uso en la cadena de suministro. Una previsión probabilística ofrece una visión mucho más completa porque proporciona la distribución de probabilidad completa, eliminando esta clase de problemas. El único inconveniente clave de las previsiones probabilísticas es que requieren más herramientas, especialmente cuando se trata de hacer algo con la previsión aguas abajo después de que se haya producido la previsión. Por cierto, el modelo REMT en realidad ofrece algo que califica como una previsión probabilística porque, a través del proceso de Monte Carlo, se puede generar una distribución de probabilidad completa. Solo tienes que ajustar el número de iteraciones de Monte Carlo.

En el comercio minorista, a los clientes realmente no les importa la perspectiva de SKU o el nivel de servicio que se puede lograr en cualquier SKU en particular. La percepción de los clientes en una tienda de artículos generales como Walmart está impulsada por la cesta de compra. Por lo general, los clientes entran a una tienda de Walmart con una lista de compras completa en mente, no solo un producto. Además, hay toneladas de sustitutos disponibles en la tienda. El problema de utilizar una métrica de SKU única para evaluar la calidad del servicio es que se pierde por completo lo que los clientes perciben como calidad de servicio en la tienda.

Slide 17

En conclusión, como referencia de pronóstico de series temporales, la competencia M5 es sólida en términos de conjuntos de datos y metodología. Sin embargo, la perspectiva de series temporales en sí misma es insuficiente en lo que respecta a la cadena de suministro. Las series temporales no reflejan los datos tal como se encuentran en las cadenas de suministro, ni reflejan los problemas tal como se presentan en las cadenas de suministro. Durante la competencia M5, hubo muchos métodos mucho más sofisticados entre los primeros puestos. Sin embargo, en mi opinión, esos modelos son efectivamente callejones sin salida. Ya son demasiado complicados para su uso en producción y abrazan tanto la perspectiva de series temporales que no tienen margen operativo para convertirse en el tipo de perspectiva fresca necesaria para ajustar esos modelos a nuestras propias necesidades de cadena de suministro.

Por el contrario, como punto de partida, el modelo REMT es lo mejor que se puede obtener. Es una combinación muy simple de ingredientes que, por sí solos, son muy simples. Además, no se necesita mucha imaginación para ver que hay muchas formas de usar y combinar estos elementos más allá de la combinación específica reunida para la competencia M5. El rango alcanzado por el modelo REMT en la competencia M5 demuestra que, hasta que se demuestre lo contrario, deberíamos adherirnos a un modelo muy simple, ya que no tenemos ninguna razón convincente para optar por modelos muy complicados que casi con seguridad serán más difíciles de depurar, más difíciles de operar en producción y consumirán muchos más recursos informáticos.

En las próximas conferencias de este quinto capítulo, veremos cómo podemos utilizar los ingredientes que formaron parte del modelo REMT, así como muchos otros ingredientes, para abordar la amplia variedad de desafíos predictivos tal como se encuentran en las cadenas de suministro. Lo importante es recordar que el modelo no es importante; lo importante es el modelado.

Slide 18

Pregunta: ¿Por qué binomiales negativos? ¿Cuál fue el razonamiento cuando los seleccionaste?

Esa es una muy buena pregunta. Bueno, resulta que si hay un bestiario mundial de distribuciones de conteo, probablemente haya alrededor de 20 distribuciones de conteo muy conocidas. En Lokad, probamos una docena para nuestras propias necesidades internas. Resulta que Poisson, que es una distribución de conteo muy simplista con solo un parámetro, funciona bastante bien cuando los datos son muy dispersos. Entonces, Poisson es bastante bueno, pero en realidad, el conjunto de datos M5 era un poco más rico. En el caso del conjunto de datos de Walmart, probamos distribuciones de conteo que tenían algunos parámetros adicionales, y parecía funcionar. No tenemos pruebas de que sea realmente la mejor; probablemente haya mejores opciones. El binomial negativo tiene algunas ventajas clave: la implementación es muy sencilla y es una distribución de conteo ampliamente estudiada. Entonces, tienes un algoritmo muy conocido, no solo para calcular las probabilidades, sino también para muestrear un desvío, obtener la media o la distribución acumulativa. Todas las herramientas que puedes esperar en términos de distribución de conteo están ahí, lo cual no es el caso de todas las distribuciones de conteo.

Hubo un grado de pragmatismo en esta elección, pero también un poco de lógica. Con Poisson, tienes un grado de libertad; el binomial negativo tiene dos. Luego puedes usar trucos como el binomial negativo con inflación de ceros, que te da como dos grados y medio de libertad, etc. No diría que hay un valor definitivo específico para esta distribución de conteo.

Pregunta: Había otros proveedores de software de optimización de la cadena de suministro en el M5, pero nadie usaba modelos en vivo que se escalaban bien en producción. ¿Qué usa la mayoría, modelos de aprendizaje automático pesados?

Primero, diría que tenemos que distinguir y aclarar que el M5 se realizó en Kaggle, una plataforma para la ciencia de datos. En Kaggle, tienes un incentivo masivo para usar la maquinaria más complicada posible. El conjunto de datos es pequeño, tienes mucho tiempo y, para estar en el primer lugar, solo tienes que ser un 0.1% más preciso que el otro tipo. Eso es todo lo que importa. Por lo tanto, en prácticamente todas las competiciones de Kaggle, verías que los primeros lugares están ocupados por personas que hicieron cosas muy complicadas solo para obtener un 0.1% de precisión adicional. Entonces, la propia naturaleza de ser una competencia de pronóstico te da un fuerte incentivo para probar de todo, incluidos los modelos más pesados que puedas encontrar.

Si preguntamos si las personas realmente están utilizando estos modelos de aprendizaje automático pesados en producción, mi propia observación casual es que absolutamente no. De hecho, es extremadamente raro. Como CEO de Lokad, un proveedor de software de cadena de suministro, he hablado con cientos de directores de cadena de suministro. Literalmente, más del 90% de las grandes cadenas de suministro se operan a través de Excel. Nunca he visto ninguna cadena de suministro a gran escala operada con árboles de aumento de gradiente o redes de aprendizaje profundo. Si dejamos de lado a Amazon, Amazon es probablemente único en su tipo. Hay tal vez media docena de empresas, como Amazon, Alibaba, JD.com y algunas otras, los supergigantes del comercio electrónico muy grandes, que realmente están utilizando este tipo de tecnología. Pero son excepcionales en este sentido. Las grandes empresas de bienes de consumo masivo o las grandes empresas minoristas tradicionales no están utilizando este tipo de cosas en producción.

Pregunta: Es extraño que menciones muchos términos matemáticos y estadísticos, pero ignores la naturaleza de las ventas minoristas y los principales factores influyentes.

Yo diría que sí, esto es más como un comentario, pero mi pregunta para ti sería: ¿Qué aportas tú? Eso es lo que estaba diciendo cuando los proveedores de cadena de suministro presumiendo de una tecnología de pronóstico superior estaban todos ausentes. ¿Por qué sucede que si tienes una tecnología de pronóstico absolutamente superior, resulta que estás ausente cada vez que hay algo como un punto de referencia público? La otra explicación es que la gente está bluffeando.

En cuanto a la naturaleza de las ventas minoristas y muchos factores influyentes, enumeré los patrones que se utilizaron, y al utilizar esos cuatro patrones, el modelo REMT terminó en el primer lugar a nivel de SKU en términos de precisión. Si aceptas la proposición de que hay patrones mucho más importantes por ahí, la carga de la prueba recae sobre ti. Mi propia sospecha es que si entre más de 900 equipos no se observaron esos patrones, probablemente no estaban allí, o capturar estos patrones está tan fuera del ámbito de lo que podemos hacer con el tipo de tecnología que tenemos que, por ahora, es como si esos patrones no existieran desde una perspectiva práctica.

Pregunta: ¿Alguno de los competidores en M5 aplicó ideas que, aunque no superaran a Lokad, serían valiosas para incorporar, especialmente para aplicaciones genéricas? ¿Mención honorable?

He estado prestando mucha atención a mis competidores, y estoy bastante seguro de que ellos también están prestando atención a Lokad. No vi eso. El modelo REMT fue realmente único, completamente diferente a lo que hicieron prácticamente todos los otros 50 mejores contendientes para cualquiera de las tareas. Los otros participantes estaban utilizando cosas mucho más clásicas en círculos de aprendizaje automático.

Durante la competencia se demostraron algunos trucos muy inteligentes de ciencia de datos. Por ejemplo, algunas personas utilizaron trucos muy inteligentes y sofisticados para realizar una ampliación de datos en el conjunto de datos de Walmart y hacerlo mucho más grande de lo que era para obtener un porcentaje adicional de precisión. Esto lo hizo el contendiente que ocupó el primer lugar en el desafío de incertidumbre. La ampliación de datos, no la inflación de datos, es el término adecuado. La ampliación de datos se utiliza comúnmente en técnicas de deep learning, pero aquí se utilizó con árboles de aumento de gradiente de manera bastante inusual. Durante esta competencia se demostraron trucos de ciencia de datos sofisticados y muy inteligentes. No estoy muy seguro de si esos trucos se generalizan bien a la cadena de suministro, pero probablemente mencionaré algunos de ellos durante el resto de este capítulo si surge la oportunidad.

Pregunta: ¿Estimaste niveles superiores mediante la agregación de tus niveles de SKU o mediante el cálculo fresco de arriba hacia abajo para niveles superiores? Si ambos, ¿cómo se compararon?

El problema con las cuadrículas de cuantiles es que tiendes a optimizar los modelos por separado para cada nivel objetivo. Lo que puede suceder con las cuadrículas de cuantiles es que puedes tener cruces de cuantiles, lo que significa que, solo por inestabilidades numéricas, tu cuantil 99 termina siendo menor que tu cuantil 97. Esto es inconsecuente; normalmente, solo reordenas los valores. Fundamentalmente, ese es el tipo de problema al que me refería en términos de que las cuadrículas de cuantiles no son pronósticos completamente probabilísticos. Tienes toneladas de detalles minuciosos que resolver, pero la realidad es que son inconsecuentes en el gran esquema de las cosas. Cuando pasas a pronósticos probabilísticos, esos problemas ni siquiera existen.

Pregunta: Si estuvieras diseñando otra competencia para proveedores de software, ¿cómo sería?

Francamente, no lo sé, y esta es una pregunta muy difícil. Creo que, a pesar de todas mis duras críticas, en cuanto a los puntos de referencia de pronóstico, M5 es lo mejor que tenemos. Ahora, en términos de puntos de referencia de cadena de suministro, el problema es que ni siquiera estoy completamente convencido de que sea posible. Cuando insinué que algunos de los problemas realmente requieren aprendizaje no supervisado, esto es complicado. Cuando entras en el ámbito del aprendizaje no supervisado, tienes que renunciar a tener métricas, y todo el ámbito del aprendizaje automático avanzado todavía está luchando como comunidad para llegar a un acuerdo sobre lo que incluso significa operar herramientas de aprendizaje automatizado superiores en un ámbito donde no tienes supervisión. ¿Cómo se pueden incluso evaluar ese tipo de cosas?

Para la audiencia que no estuvo presente en mi conferencia sobre aprendizaje automático, en entornos supervisados, básicamente estás tratando de lograr una tarea donde tienes entradas y salidas, y una métrica para evaluar la calidad de tus salidas. Cuando estás sin supervisión, significa que no tienes etiquetas, no tienes nada con qué comparar, y las cosas se vuelven mucho más difíciles. Además, señalaría que en la cadena de suministro, hay muchas cosas en las que ni siquiera puedes hacer pruebas retrospectivas. Más allá del aspecto no supervisado, incluso hay una perspectiva de prueba retrospectiva que no es completamente satisfactoria. Por ejemplo, pronosticar la demanda generará ciertos tipos de decisiones, como decisiones de precios. Si decides ajustar el precio hacia arriba o hacia abajo, esa es una decisión que tomaste y que influirá para siempre en el futuro. Entonces, no puedes retroceder en el tiempo para decir: “De acuerdo, voy a hacer un pronóstico de demanda diferente y luego tomar una decisión de precios diferente, y luego dejar que la historia se repita, excepto que esta vez tengo un precio diferente”. Hay muchos aspectos en los que incluso la idea de prueba retrospectiva no funciona. Es por eso que creo que una competencia es algo muy interesante desde una perspectiva de pronóstico. Es útil como punto de partida para fines de cadena de suministro, pero necesitamos hacerlo mejor y de manera diferente si queremos obtener algo que sea verdaderamente satisfactorio para fines de cadena de suministro. En este capítulo sobre modelado predictivo, voy a mostrar por qué el modelado merece tanto enfoque.

Pregunta: ¿Se puede utilizar esta metodología en situaciones en las que tienes pocos puntos de datos?

Diría que absolutamente. Este tipo de modelado estructurado, como se demuestra aquí con el modelo REMT, brilla intensamente en situaciones en las que tienes datos muy dispersos. La razón es simple: puedes incorporar mucho conocimiento humano en la propia estructura del modelo. La estructura del modelo no es algo que se haya sacado de la nada; es literalmente la consecuencia de que el equipo de Lokad comprenda el problema. Por ejemplo, cuando observamos patrones de calendario como el día de la semana, el mes del año, etc., no intentamos descubrir esos patrones; el equipo de Lokad sabía desde el principio que esos patrones ya estaban ahí. La única incertidumbre era la prevalencia respectiva del patrón del día del mes, que tiende a ser débil en muchas situaciones. En el caso de la configuración de Walmart, se debió simplemente al hecho de que hay un programa de estampillas en los Estados Unidos que hace que este patrón del día del mes sea tan fuerte como lo es.

Si tienes pocos datos, este tipo de enfoque funciona excepcionalmente bien porque cualquier mecanismo de aprendizaje que intentes utilizar aprovechará ampliamente la estructura que has impuesto. Entonces sí, surge la pregunta: ¿qué pasa si la estructura es incorrecta? Pero por eso es importante el pensamiento y la comprensión de la cadena de suministro para que puedas tomar las decisiones correctas. Al final, tienes formas de evaluar si tus decisiones arbitrarias fueron buenas o malas, pero fundamentalmente, esto sucede muy tarde en el proceso. Más adelante en este capítulo sobre modelado predictivo, ilustraremos cómo se pueden utilizar modelos estructurados de manera efectiva en conjuntos de datos increíblemente dispersos, como los de aviación, lujo duro y esmeraldas de todo tipo. En estas situaciones, los modelos estructurados realmente destacan.

La próxima conferencia se llevará a cabo el 2 de febrero, que es un miércoles, a la misma hora, a las 3 p.m. hora de París. ¡Nos vemos entonces!

Referencias

  • Un enfoque ISSM de caja blanca para estimar las distribuciones de incertidumbre de las ventas de Walmart, Rafael de Rezende, Katharina Egert, Ignacio Marin, Guilherme Thompson, diciembre de 2021 (link)
  • La competencia de incertidumbre M5: Resultados, hallazgos y conclusiones, Spyros Makridakis, Evangelos Spiliotis, Vassilis Assimakopoulos, Zhi Chen, noviembre de 2020 (link)